„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > Programmierung > Verwenden von Pandas read_csv, um Daten mit unregelmäßigen Separatoren zu analysieren

Verwenden von Pandas read_csv, um Daten mit unregelmäßigen Separatoren zu analysieren

Gepostet am 2025-04-16
Durchsuche:812

How Do I Parse Data with Irregular Separators in Pandas read_csv?

überwinden unregelmäßige Separatoren in Pandas read_csv

Wenn Daten aus Dateien mit unregelmäßigen Separatoren gelesen werden, können die Methoden von Pandas Read_csv auf Schwierigkeiten auftreten. Im Gegensatz zur Python Split () -Methode, die nahtlos die variierenden Whitespace behandelt, kann Read_CSV Schwierigkeiten haben, die durch inkonsistenten Räume und Registerkarten getrennten Daten zu entschlüsseln. Ein Ansatz beinhaltet die Verwendung regulärer Ausdrücke (REGEX). Mit dem Parameter des Grenzwerters in read_csv können Sie ein Regex -Muster angeben, das die gewünschten Separatoren erfasst. Auf diese Weise können Sie Kombinationen von Leerzeichen und Registerkarten berücksichtigen und eine genaue Analyse sicherstellen.

Alternativ können Sie den Parameter delim_whITespace, der ähnlich wie bei der Python Split () -Methode arbeitet, nutzen. Durch das Einstellen von delim_whITespace auf true behandelt Pandas alle Whitespace (einschließlich Leerzeichen und Registerkarten) als Trennzeichen. Dies beseitigt die Notwendigkeit, ein bestimmtes Regex -Muster anzugeben.

Betrachten Sie das folgende Beispiel:

pandas als pd importieren Data = pd.read_csv ("irregular_separators.csv", Header = Keine, Delimiter = R "\ s")) Druck (Daten) # Ausgabe: # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4

import pandas as pd

data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s ")

print(data)

# Output:
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

Alternativ unter Verwendung von delim_whITespace:

data = pd.read_csv ("irregular_separators.csv", Header = None, delim_whitz = echt), delim_whitz = echt, delim_whitz = echt), delim_whitz = echt, delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = echt), delim_whitz = true = echte), delim_whitz = true = echt), delim_whitz = echt), delim_whitz = true = echt) Druck (Daten) # Ausgabe (wie oben): # 0 1 2 3 4 # 0 a b c 1 2 # 1 d e f 3 4

data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True)

print(data)

# Output (same as above):
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4
Freigabeerklärung Dieser Artikel wird reproduziert unter: 1729556177 Wenn ein Verstoß vorliegt, wenden Sie sich bitte an [email protected], um ihn zu löschen.
Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3