Comment filtrer efficacement les objets de données Pandas à l'aide de l'indexation booléenne ?

Page de garde > La programmation > Comment filtrer efficacement les objets de données Pandas à l'aide de l'indexation booléenne ?

Comment filtrer efficacement les objets de données Pandas à l'aide de l'indexation booléenne ?

Publié le 2024-11-01

Parcourir:158

How to Efficiently Filter Pandas Data Objects Using Boolean Indexing?

Filtrage efficace des trames de données et des séries Pandas à l'aide de l'indexation booléenne

Dans les scénarios d'analyse de données, l'application de plusieurs filtres pour affiner les résultats est souvent cruciale. Cet article vise à aborder une approche efficace pour enchaîner plusieurs opérations de comparaison sur des objets de données Pandas.

Le défi

L'objectif est de traiter un dictionnaire d'opérateurs relationnels et de les appliquer de manière additive à un Pandas donné. Series ou DataFrame, résultant en un ensemble de données filtré. Cette opération nécessite de minimiser la copie inutile des données, en particulier lorsqu'il s'agit de grands ensembles de données.

Solution : indexation booléenne

Pandas fournit un mécanisme très efficace pour filtrer les données à l'aide de l'indexation booléenne. L'indexation booléenne implique la création de conditions logiques, puis l'indexation des données à l'aide de ces conditions. Prenons l'exemple suivant :

df.loc[df['col1'] >= 1, 'col1']

Cette ligne de code sélectionne toutes les lignes du DataFrame df où la valeur dans la colonne 'col1' est supérieure ou égale à 1. Le résultat est un nouvel objet Series contenant les valeurs filtrées.

Pour appliquer plusieurs filtres, nous pouvons combiner des conditions booléennes à l'aide d'opérateurs logiques comme & (et) et | (ou). Par exemple :

df[(df['col1'] >= 1) & (df['col1'] <= 1)]

Cette opération filtre les lignes où 'col1' est à la fois supérieur ou égal à 1 et inférieur ou égal à 1.

Fonctions d'assistance

Pour simplifier le processus d'application de plusieurs filtres, nous pouvons créer des fonctions d'assistance :

def b(x, col, op, n): 
    return op(x[col], n)

def f(x, *b):
    return x[(np.logical_and(*b))]

La fonction b crée une condition booléenne pour une colonne et un opérateur donnés, tandis que f applique plusieurs conditions booléennes à un DataFrame ou une série.

Exemple d'utilisation

Pour utiliser ces fonctions, nous pouvons fournir un dictionnaire de critères de filtrage :

filters = {'>=': [1], 'b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
filtered_df = f(df, b1, b2)
Ce code applique les filtres à la colonne 'col1' dans le DataFrame df et renvoie un nouveau DataFrame avec les résultats filtrés.
Fonctionnalité améliorée
Pandas 0.13 a introduit la méthode de requête, qui offre un moyen pratique d'appliquer des filtres à l'aide d'expressions de chaîne. Pour les identifiants de colonnes valides, le code suivant devient possible :
df.query('col1 Cette ligne réalise le même filtrage que notre exemple précédent utilisant une syntaxe plus concise.
En utilisant l'indexation booléenne et les fonctions d'assistance, nous pouvons appliquer efficacement plusieurs filtres aux trames de données et aux séries Pandas. Cette approche minimise la copie des données et améliore les performances, en particulier lorsque vous travaillez avec de grands ensembles de données.

Déclaration de sortie Cet article est réimprimé à l'adresse : 1729395079. En cas d'infraction, veuillez contacter [email protected] pour le supprimer.

Dernier tutoriel Plus>

Comment Android envoie-t-il des données post-post au serveur PHP?
Envoi des données de publication dans Android introduction Cet article traite de la nécessité d'envoyer des données de post à un scrip...

La programmation Publié le 2025-03-13
Comment copier la disposition réactive de la pile de div de Pinterest?
reproduisant la disposition absolue de div de Pinterest La disposition div unique de Pinterest présente un défi aux programmeurs cherchant à r...

La programmation Publié le 2025-03-13
Comment surmonter les restrictions de redéfinition de la fonction de PHP?
surmonter les limitations de redéfinition de la fonction de Php dans php, définir une fonction avec le même nom plusieurs fois est un non. Ten...

La programmation Publié le 2025-03-13
Les pseudo-éléments CSS peuvent-ils être redimensionnés?
La modification de la hauteur de l'image peut être réalisée dans les pseudo-éléments CSS (: avant /: après)? Dans un effort pour personnal...

La programmation Publié le 2025-03-13
Comment puis-je récupérer efficacement les valeurs d'attribut à partir de fichiers XML à l'aide de PHP?
Récupération des valeurs d'attribut à partir de fichiers xml dans php Chaque développeur rencontre la nécessité de analyser les fichiers X...

La programmation Publié le 2025-03-13
Comment extraire du texte entre parenthèses efficacement en PHP en utilisant Regex
php: extraire du texte dans les parenthèses de manière optimale lors de l'extraction de texte enfermé entre parenthèses, il est essentiel ...

La programmation Publié le 2025-03-13
Java autorise-t-il plusieurs types de retour: un regard plus approfondi sur les méthodes génériques?
Plusieurs types de retour en java: une idée fausse dévoilée dans le domaine de la programmation java, une signature de méthode particulière pe...

La programmation Publié le 2025-03-13
FIT OBJET: la couverture échoue dans IE et Edge, comment réparer?
objet-fit: la couverture échoue dans IE et Edge, comment corriger? Utilisation d'objet-fit: couverture; Dans CSS pour maintenir la hauteur...

La programmation Publié le 2025-03-13
Comment supprimer proprement les gestionnaires d'événements JavaScript anonymes?
supprimer les auditeurs d'événements anonymes Ajouter des auditeurs d'événements anonymes aux éléments offre une flexibilité et une simp...

La programmation Publié le 2025-03-13
$\ "tandis que (1) vs pour (;;): L'optimisation du compilateur élimine-t-elle les différences de performances? \"$
\ "tandis que (1) vs pour (;;): L'optimisation du compilateur élimine-t-elle les différences de performances? \"
while (1) vs pour (;;): y a-t-il une différence de vitesse? Question: LOOPS? Réponse: Dans la plupart des compilateurs modernes, il ...

La programmation Publié le 2025-03-13
Comment spécifier une version spécifique pour Maven dans un environnement Java multi-version?
Spécification de la version java pour maven Problème: Vous avez plusieurs versions java installées sur votre système et avez besoin pour c...

La programmation Publié le 2025-03-13
Pourquoi Pytz montre-t-il des décalages de fuseau horaire inattendus initialement?
Dicontenance du fuseau horaire avec pytz Certains flammes de temps présentent des décalages particuliers lorsqu'ils sont initialement obte...

La programmation Publié le 2025-03-13
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-03-13
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-03-13
Comment puis-je utiliser Glob pour rechercher un fichier spécifique dans les sous-dossiers?
php glob: explorer les sous-dossiers pour un fichier spécifique recherchant un vaste tableau de fichiers diffusés sur différents dossiers et sou...

La programmation Publié le 2025-03-13

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article