"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Publié le 2024-11-08
Parcourir:498

How can I maintain other columns in a Pandas DataFrame during a groupby operation?

Maintenir d'autres colonnes pendant les opérations Groupby

Lors de l'exécution d'une opération groupby sur une trame de données pandas, il est souvent nécessaire de conserver les colonnes qui ne sont pas impliqués dans le processus de regroupement ou d’agrégation. Par défaut, ces autres colonnes sont supprimées une fois l'opération terminée. Cela peut être problématique si les colonnes conservées contiennent des informations précieuses.

Considérez le bloc de données suivant :

    item    diff   otherstuff
   0   1       2            1
   1   1       1            2
   2   1       3            7
   3   2      -1            0
   4   2       1            3
   5   2       4            9
   6   2      -6            2
   7   3       0            0
   8   3       2            9

Si nous devions regrouper le bloc de données par la colonne "item" et trouver la valeur minimale de la colonne "diff", le bloc de données résultant ressemblerait à ceci :

    item   diff
   0   1      1           
   1   2     -6           
   2   3      0                 

Remarquez que la colonne "otherstuff" a été supprimée. Pour conserver cette colonne, on peut utiliser la méthode idxmin() pour récupérer les indices des éléments de diff minimum, puis sélectionner ceux-ci :

>>> df.loc[df.groupby("item")["diff"].idxmin()]
   item  diff  otherstuff
1     1     1           2
6     2    -6           2
7     3     0           0

[3 rows x 3 columns]

Une autre méthode consiste à trier le bloc de données en fonction de la colonne "diff", puis à prendre le premier élément de chaque groupe d'éléments :

>>> df.sort_values("diff").groupby("item", as_index=False).first()
   item  diff  otherstuff
0     1     1           2
1     2    -6           2
2     3     0           0

[3 rows x 3 columns]

Ces deux méthodes produiront le résultat souhaité, tout en conservant la colonne "autres éléments". Gardez à l'esprit que les indices résultants peuvent être différents même si le contenu de la ligne est le même.

Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3