Pandas: Zahlen aus Zeichenfolgen extrahieren
Bei der Arbeit mit Datenrahmen in Pandas ist es oft notwendig, numerische Informationen aus Zellen zu extrahieren, die keine enthalten -numerische Zeichen. Dies kann eine Herausforderung sein, aber Pandas bietet mehrere Methoden, die Ihnen dabei helfen, dies zu erreichen.
Str.extract() zur Zahlenextraktion verwenden
Eine effektive Methode zum Extrahieren von Zahlen aus Zeichenfolgen ist str.extract(). Mit dieser Methode können Sie ein reguläres Ausdrucksmuster angeben, das die numerischen Daten definiert, die Sie erfassen möchten.
Bedenken Sie den folgenden Datenrahmen:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
})
print(df)
Ausgabe:
A 0 1a 1 NaN 2 10a 3 100b 4 0b
Um die Zahlen aus jeder Zelle zu extrahieren, können Sie den folgenden regulären Ausdruck verwenden:
df.A.str.extract('(\d )')
Das Regex-Muster (\d) erfasst jede Folge einer oder mehrerer Ziffern. Die Klammern um das Muster erstellen eine Erfassungsgruppe, die verwendet wird, um den übereinstimmenden Teil der Zeichenfolge zurückzugeben.
Ausgabe:
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
Wie Sie sehen können, wurden die gewünschten Zahlen erfolgreich aus jeder Zelle extrahiert, auch aus solchen, die nicht numerische Zeichen enthielten. Beachten Sie, dass diese Methode nur für ganze Zahlen und nicht für Gleitkommazahlen funktioniert.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3