supprimant des lignes en double à travers plusieurs colonnes dans Python pandas
La fonction Pandas Drop_duplicate élimine les lignes dupliquées à partir d'un dataframe, un outil précieux pour le nettoyage des données. Pour étendre cette fonctionnalité, on peut spécifier les colonnes pour vérifier l'unicité.
Par exemple, considérez le dataframe suivant:
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
Supposons que vous souhaitiez supprimer les lignes qui ont des valeurs identiques dans les colonnes «A» et «C.» Dans ce cas, les lignes 0 et 1 seraient éliminées.
Auparavant, cette tâche requise le filtrage manuel ou les opérations complexes. Cependant, avec la fonction Drop_duplicate améliorée de Pandas, c'est maintenant un jeu d'enfant. L'introduction du paramètre Keep vous permet de contrôler comment les doublons sont gérés.
pour déposer des lignes qui correspondent à des colonnes spécifiques, utilisez le paramètre de sous-ensemble. En définissant Keep to False, vous demandez à Pandas d'éliminer toutes les lignes en double:
import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)
output:
A B C 2 foo 1 B 3 bar 1 A
Comme vous pouvez le voir, les lignes 0 et 1 sont supprimées avec succès, ne laissant que les lignes uniques en fonction des valeurs des colonnes 'a' et 'c.'
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3