löschen doppelte Zeiger in mehreren Spalten in Python pandas
Das Pandas Drop_duplicates -Funktion eliminiert duplierte Reihen von einem Datenfest, ein unschätzbares Tool für Datenreinigung. Um diese Funktionalität zu erweitern, kann man die Spalten angeben, um die Einzigartigkeit zu überprüfen.
Betrachten Sie beispielsweise den folgenden Datenrahmen:
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
Angenommen, Sie möchten Zeilen entfernen, die identische Werte in Spalten 'a' und 'C.' haben In diesem Fall würden die Zeilen von 0 und 1 beseitigt.
Vor dieser Aufgabe mussten diese Aufgabe manuelle Filterung oder komplexe Operationen benötigten. Mit der erweiterten Drop_duplicates -Funktion von Pandas ist es jetzt ein Kinderspiel. Durch die Einführung des Parameters von Heep können Sie steuern, wie Duplikate behandelt werden.
, um Zeilen fallen zu lassen, die auf bestimmten Spalten übereinstimmen, verwenden Sie den Teilmenschparameter. Indem Sie sich auf False einstellen, wenden Sie Pandas an, alle doppelten Zeilen zu beseitigen:
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
Ausgabe:
A B C 2 foo 1 B 3 bar 1 A
Wie Sie sehen können, werden die Zeilen 0 und 1 erfolgreich entfernt, sodass nur die Zeilen basierend auf den Werten in den Spalten 'a' und 'c'
eindeutig sindHaftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3