비ASCII 문자 처리, 공백 및 마침표 보존
텍스트 파일을 처리할 때 ASCII가 아닌 문자를 제거해야 하는 경우가 많습니다. 공백 및 마침표와 같은 특정 엔터티를 보존합니다. 제공된 Python 코드는 ASCII가 아닌 문자를 성공적으로 필터링하지만 실수로 공백과 마침표도 제거합니다.
이 문제를 해결하려면 필터링 프로세스에서 공백과 마침표를 명시적으로 제외하도록 onlyascii() 함수를 수정해야 합니다. . 업데이트된 버전은 다음과 같습니다.
def onlyascii(char):
if char == ' ' or char == '.':
return char
elif ord(char) 127:
return ''
else:
return char
이 수정된 onlyascii() 함수에서는 문자가 공백(' ')인지 마침표('.')인지 확인하고 그렇다면 반환합니다. 이 수정을 통해 해당 엔터티가 필터링된 문자열에 유지됩니다.
업데이트된 onlyascii() 함수를 활용하려면 get_my_string() 함수를 수정하여 다음 함수를 사용하여 문자를 필터링할 수 있습니다.
def get_my_string(file_path):
f = open(file_path, 'r')
data = f.read()
f.close()
filtered_data = filter(onlyascii, data)
filtered_data = filtered_data.lower()
return ''.join(filtered_data)
join() 메소드는 filter() 함수에 의해 반환된 반복 가능 항목의 문자를 연결하여 문자열을 생성하는 데 사용됩니다.
이를 구현하여 수정하면 특정 프로젝트 요구 사항에 맞게 텍스트 문자열의 공백과 마침표를 유지하면서 ASCII가 아닌 문자를 제거할 수 있습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3