Pandas:從字串中提取數字
在 Pandas 中處理資料框時,通常需要從包含非-數字字元。這可能具有挑戰性,但 Pandas 提供了多種方法來幫助您實現這一目標。
使用 str.extract() 進行數位提取
一種從字串是str.extract()。此方法可讓您指定定義要擷取的數值資料的正規表示式模式。
考慮以下資料框:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
})
print(df)
輸出:
A 0 1a 1 NaN 2 10a 3 100b 4 0b
要從每個單元格中提取數字,可以使用以下正規表示式:
df.A.str.extract('(\d )')
正規表示式模式(\d ) 擷取一個或多個數字的任何序列。模式周圍的括號會建立一個捕獲組,用於傳回字串的匹配部分。
輸出:
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
如您所見,已從每個單元格中成功提取所需的數字,即使是那些包含非數字字元的單元格。請注意,此方法僅適用於整數,不適用於浮點數。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3