Pandas: 文字列から数値を抽出する
Pandas でデータ フレームを操作する場合、多くの場合、非文字列が含まれるセルから数値情報を抽出する必要があります。 -数字。これは難しいかもしれませんが、Pandas はこれを達成するのに役立ついくつかの方法を提供します。
数値抽出に str.extract() を使用する
数値を抽出する効果的な方法の 1 つ文字列は str.extract() です。このメソッドを使用すると、キャプチャする数値データを定義する正規表現パターンを指定できます。
次のデータ フレームを考えてみましょう:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
})
print(df)
出力:
A 0 1a 1 NaN 2 10a 3 100b 4 0b
各セルから数値を抽出するには、次の正規表現を使用できます:
df.A.str.extract('(\d )')
正規表現パターン (\d ) は、1 つ以上の任意の数字のシーケンスをキャプチャします。パターンを囲む括弧は、文字列の一致部分を返すために使用されるキャプチャ グループを作成します。
Output:
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
ご覧のとおり、数値以外の文字が含まれている場合でも、目的の数値が各セルから正常に抽出されました。このメソッドは整数に対してのみ機能し、浮動小数点数に対しては機能しないことに注意してください。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3