도전 과제 :
Pandas 'str.replace와 같은 기능에서는 계산 비용이 많이들 수 있습니다. 이것은 수십만 개의 레코드를 다룰 때 특히 중요해집니다.
솔루션 :
이 질문은 큰 텍스트 데이터 세트를 처리 할 때 str.replace에 대한 여러 가지 성능있는 대안을 탐색합니다.
1. regex.sub :
는 사전 컴파일 된 Regex 패턴으로 Re Librice의 하위 함수를 사용합니다. 이 방법은 str.replace. str.translate :
는 C로 구현되어 속도로 알려진 Python의 str.translate 함수를 활용합니다. 프로세스에는 입력 문자열을 하나의 큰 문자열로 변환하여 구두점을 제거하기 위해 번역을 적용한 다음 원래 문자열을 재구성하기 위해 결과를 분할하는 것이 포함됩니다. 기타 고려 사항 :
nans : regex.sub와 같은 포괄적 인 방법을 Nans와 작동하지 않습니다. 지수를 식별하고 비 널 값에만 대체를 적용하여 별도로 처리해야합니다.
dataframes :
전체 데이터 프레임에 이러한 메소드를 적용하려면 값을 평평하게 할 수 있습니다. 그리고 평평한 배열에서 대체를 수행하기 전에 원래 모양으로 다시 선택하십시오.
결론 :
구두점을 제거하기위한 적절한 방법은 특정에 따라 다릅니다. 귀하의 상황의 요구 사항. 성능이 최우선 순위 인 경우 str.translate는 최상의 옵션을 제공합니다. 그러나 메모리 사용이 우려되는 경우 regex.sub와 같은 다른 방법이 더 적합 할 수 있습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3