Sobald Daten gesammelt und gespeichert wurden, müssen sie analysiert werden, um ein aussagekräftiges Verständnis davon abzuleiten. Aus diesem Grund kommt die explorative Datenanalyse (EDA) ins Spiel. Wie der Name schon sagt, 'erkunden' wir die Daten, d. h. wir verschaffen uns einen allgemeinen Überblick darüber.
Die erfassten Daten können entweder Texte, Videos oder Bilder sein und werden in der Regel unstrukturiert gespeichert. Selten werden Sie Daten finden, die zu 100 % sauber sind, also keine Anomalien aufweisen. Darüber hinaus können Daten in verschiedenen Formaten wie Excel, CSV (durch Kommas getrennte Werte), Json, Parquet usw. vorliegen.
In der Welt der Daten kann EDA auch als Datenmanipulation oder Datenbereinigung bezeichnet werden. Praktiker in der Branche betonen, wie wichtig es ist, Daten zu bereinigen, um „Junk“ zu entfernen, da dies negative Auswirkungen auf die Ergebnisse und Prognosen haben kann. Strukturierte Daten, normalerweise im Tabellenformat, können mit verschiedenen Techniken und Tools (wie Excel, Power BI, SQL) analysiert werden, aber wir konzentrieren uns für diese Veranschaulichung auf Python.
EDA mit Python
Die Programmiersprache Python ist aufgrund ihrer Vielseitigkeit eines der am weitesten verbreiteten Tools in EDA und ermöglicht den Einsatz in verschiedenen Branchen, sei es im Finanzwesen, im Bildungswesen, im Gesundheitswesen, im Bergbau oder im Gastgewerbe.
Eingebaute Bibliotheken, nämlich Pandas und NumPy, sind in dieser Hinsicht äußerst effektiv und funktionieren auf allen Ebenen (ob mit Anaconda/Jupyter Notebook, Google Collab oder einer IDE wie Visual Studio)
Im Folgenden sind die allgemeinen Schritte und Codezeilen aufgeführt, die bei der Durchführung von EDA ausgeführt werden können:
Zuerst importieren Sie die für die Manipulation/Analyse erforderlichen Python-Bibliotheken:
Pandas als PD importieren
numpy als np
Zweitens den Datensatz laden
df = pd.read_excel('Dateipfad')
Hinweis: df ist die Standardfunktion zum Konvertieren von Tabellendaten in einen Datenrahmen.
Nach dem Laden können Sie eine Vorschau der Daten mit dem folgenden Code anzeigen:
df.head()
Hier werden die ersten 5 Zeilen des Datensatzes angezeigt
Alternativ können Sie einfach df ausführen, wodurch einige ausgewählte Zeilen (sowohl oben als auch unten) des gesamten Datensatzes sowie alle darin enthaltenen Spalten angezeigt werden.
Drittens verstehen Sie alle Datentypen mit:
df.info()
Hinweis: Zu den Datentypen gehören Ganzzahlen (ganze Zahlen), Floats (Dezimalzahlen) oder Objekte (qualitative Daten/beschreibende Wörter).
In diesem Schritt ist es ratsam, zusammenfassende Statistiken der Daten zu erhalten, indem Sie Folgendes verwenden:
df.describe()
Dadurch erhalten Sie Statistiken wie Mittelwert, Modus, Standardabweichung, Maximal-/Minimalwerte und die Quartile.
Viertens ermitteln Sie mithilfe von:
, ob im Datensatz Nullwerte vorhanden sind.
df.isnull()
Daraufhin kann eine Prüfung auf Duplikate (sich wiederholende Einträge) erfolgen
df.duplicated()
Weitere wichtige Aspekte von EDA sind die Überprüfung der Beziehung der verschiedenen Variablen in einem Datensatz zueinander (Korrelation) und ihrer Verteilung.
Die Korrelation kann positiv oder negativ sein und reicht von -1 bis 1. Ihr Code lautet:
df.corr()
Hinweis: Eine Korrelationszahl nahe 1 weist auf eine starke positive Korrelation hin, während eine Zahl nahe -1 auf eine hinweist. starke negative Korrelation.
Die Verteilung prüft, wie symmetrische oder asymmetrische Daten sind, sowie die Schiefe der Daten und kann entweder normal, binomial, Bernoulli oder sein Poisson.
Zusammenfassend ist die explorative Datenanalyse ein wichtiger Prozess, um ein besseres Verständnis der Daten zu erlangen. Es ermöglicht bessere Visualisierungen und Modellbildung.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3