텍스트 데이터를 처리할 때 일반적인 작업에는 문자열을 개별 단어로 분할하는 작업이 포함됩니다. Python의 str.split() 메서드는 간단한 솔루션을 제공하지만 단일 구분 기호만 인수로 지원합니다. 이러한 제한은 구두점과 같은 여러 유형의 단어 경계가 포함된 텍스트를 처리할 때 장애물이 될 수 있습니다.
Python re 모듈은 re.split()라는 강력한 대안을 제공합니다. 이 기능을 사용하면 단어 경계 구분 기호로 사용할 패턴을 지정할 수 있습니다. 패턴에는 여러 유형의 경계를 동시에 일치시키는 정규 표현식이 포함될 수 있습니다.
예를 들어 다음 문자열을 단어로 분할하려면 공백과 문장 부호를 모두 단어 경계로 처리합니다.
"Hey, you - what are you doing here!?"
다음 정규식 패턴을 사용할 수 있습니다:
'\W '
이 패턴 단어가 아닌 문자(알파벳, 숫자 또는 밑줄)의 시퀀스와 일치합니다. re.split()과 함께 사용하면 이러한 문자가 나타날 때마다 문자열을 분할하여 단어 목록을 효과적으로 생성합니다.
파이썬에서 이를 사용하는 방법은 다음과 같습니다.
import re text = "Hey, you - what are you doing here!?" words = re.split('\W ', text) print(words)
출력:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
보시다시피 re.split()은 문자열을 개별 단어로 효과적으로 분할하여 여러 구분 기호가 있음에도 불구하고 올바른 단어 경계를 유지합니다. 이러한 유연성 덕분에 여러 단어 경계 구분 기호가 나타나는 복잡한 텍스트 구문 분석 시나리오를 처리하는 데 유용한 도구가 됩니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3