überwinden unregelmäßige Separatoren in Pandas read_csv
Wenn Daten aus Dateien mit unregelmäßigen Separatoren gelesen werden, können die Methoden von Pandas Read_csv auf Schwierigkeiten auftreten. Im Gegensatz zur Python Split () -Methode, die nahtlos die variierenden Whitespace behandelt, kann Read_CSV Schwierigkeiten haben, die durch inkonsistenten Räume und Registerkarten getrennten Daten zu entschlüsseln. Ein Ansatz beinhaltet die Verwendung regulärer Ausdrücke (REGEX). Mit dem Parameter des Grenzwerters in read_csv können Sie ein Regex -Muster angeben, das die gewünschten Separatoren erfasst. Auf diese Weise können Sie Kombinationen von Leerzeichen und Registerkarten berücksichtigen und eine genaue Analyse sicherstellen.
Alternativ können Sie den Parameter delim_whITespace, der ähnlich wie bei der Python Split () -Methode arbeitet, nutzen. Durch das Einstellen von delim_whITespace auf true behandelt Pandas alle Whitespace (einschließlich Leerzeichen und Registerkarten) als Trennzeichen. Dies beseitigt die Notwendigkeit, ein bestimmtes Regex -Muster anzugeben.
Betrachten Sie das folgende Beispiel:
pandas als pd importieren Data = pd.read_csv ("irregular_separators.csv", Header = Keine, Delimiter = R "\ s")) Druck (Daten) # Ausgabe: # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
import pandas as pd data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s ") print(data) # Output: # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
Alternativ unter Verwendung von delim_whITespace:
data = pd.read_csv ("irregular_separators.csv", Header = None, delim_whitz = echt), delim_whitz = echt, delim_whitz = echt), delim_whitz = echt, delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = true = echte), delim_whitz = true = echt), delim_whitz = echt), delim_whitz = true = echt) Druck (Daten) # Ausgabe (wie oben): # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True) print(data) # Output (same as above): # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3