テキスト データを扱うときの一般的なタスクには、文字列を個々の単語に分割することが含まれます。 Python の str.split() メソッドは簡単な解決策を提供しますが、引数としてサポートされるのは 1 つの区切り文字のみです。この制限は、句読点など、複数の種類の単語の境界を含むテキストを扱うときに障害になる可能性があります。
Python の re モジュールには、強力な代替手段 re.split() が用意されています。この機能を使用すると、単語の境界区切り文字として使用するパターンを指定できます。パターンには、複数の種類の境界に同時に一致する正規表現を含めることができます。
たとえば、次の文字列を単語に分割し、空白と句読点の両方を単語の境界として処理するには:
"Hey, you - what are you doing here!?"
次の正規表現パターンを使用できます:
'\W '
このパターン単語以外の文字 (英字、数字、またはアンダースコア) の任意のシーケンスと一致します。 re.split() と一緒に使用すると、これらの文字が出現するすべての箇所で文字列が分割され、単語のリストが効果的に作成されます。
Python での使用方法は次のとおりです:
import re text = "Hey, you - what are you doing here!?" words = re.split('\W ', text) print(words)
出力:
['Hey', 'you', 'what', 'are', 'you', 'doing', 'here']
ご覧のとおり、 re.split() は文字列を効果的に個々の単語に分割し、複数の区切り文字が存在するにもかかわらず正しい単語の境界を保持します。この柔軟性により、複数の単語境界区切り文字が発生する複雑なテキスト解析シナリオを処理するための貴重なツールになります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3