Wie filtert man Pandas-Datenobjekte mithilfe der booleschen Indizierung effizient?

Titelseite > Programmierung > Wie filtert man Pandas-Datenobjekte mithilfe der booleschen Indizierung effizient?

Wie filtert man Pandas-Datenobjekte mithilfe der booleschen Indizierung effizient?

Veröffentlicht am 01.11.2024

Durchsuche:156

How to Efficiently Filter Pandas Data Objects Using Boolean Indexing?

Effiziente Filterung von Pandas-Datenrahmen und -Serien mithilfe der booleschen Indizierung

In Datenanalyseszenarien ist die Anwendung mehrerer Filter zur Eingrenzung der Ergebnisse oft entscheidend. In diesem Artikel geht es um einen effizienten Ansatz zur Verkettung mehrerer Vergleichsoperationen an Pandas-Datenobjekten.

Die Herausforderung

Das Ziel besteht darin, ein Wörterbuch relationaler Operatoren zu verarbeiten und diese additiv auf einen bestimmten Pandas anzuwenden Serie oder DataFrame, was zu einem gefilterten Datensatz führt. Dieser Vorgang erfordert die Minimierung unnötiger Datenkopien, insbesondere beim Umgang mit großen Datensätzen.

Lösung: Boolesche Indizierung

Pandas bietet einen hocheffizienten Mechanismus zum Filtern von Daten mithilfe der booleschen Indizierung. Bei der booleschen Indizierung werden logische Bedingungen erstellt und die Daten dann anhand dieser Bedingungen indiziert. Betrachten Sie das folgende Beispiel:

df.loc[df['col1'] >= 1, 'col1']

Diese Codezeile wählt alle Zeilen im DataFrame df where aus Der Wert in der Spalte „col1“ ist größer oder gleich 1. Das Ergebnis ist ein neues Series-Objekt, das die gefilterten Werte enthält.

Um mehrere Filter anzuwenden, können wir boolesche Bedingungen mit logischen Operatoren wie & kombinieren. (und) und | (oder). Zum Beispiel:

df[(df['col1'] >= 1) & (df['col1'] <= 1)]

Dieser Vorgang filtert Zeilen, in denen „col1“ ist sowohl größer oder gleich 1 als auch kleiner oder gleich 1.

Hilfsfunktionen

Um den Prozess der Anwendung mehrerer Filter zu vereinfachen, können wir Hilfsfunktionen erstellen:

def b(x, col, op, n): 
    return op(x[col], n)

def f(x, *b):
    return x[(np.logical_and(*b))]

Die b-Funktion erstellt eine boolesche Bedingung für eine bestimmte Spalte und einen bestimmten Operator, während f mehrere boolesche Bedingungen auf einen DataFrame oder eine Serie anwendet.

Verwendungsbeispiel

Um diese Funktionen zu verwenden, können wir ein Wörterbuch mit Filterkriterien bereitstellen:

filters = {'>=': [1], 'b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
filtered_df = f(df, b1, b2)
Dieser Code wendet die Filter auf die Spalte „col1“ im DataFrame df an und gibt einen neuen DataFrame mit den gefilterten Ergebnissen zurück.
Erweiterte Funktionalität
Pandas 0.13 führte die Abfragemethode ein, die eine bequeme Möglichkeit bietet, Filter mithilfe von Zeichenfolgenausdrücken anzuwenden. Für gültige Spaltenbezeichner wird der folgende Code möglich:
df.query('col1 Diese Zeile erreicht die gleiche Filterung wie unsere vorheriges Beispiel mit einer prägnanteren Syntax.
Durch die Verwendung boolescher Indizierung und Hilfsfunktionen können wir mehrere Filter effizient auf Pandas-Datenrahmen und -Serien anwenden. Dieser Ansatz minimiert das Kopieren von Daten und verbessert die Leistung, insbesondere bei der Arbeit mit großen Datensätzen.

Freigabeerklärung Dieser Artikel wird unter folgender Adresse abgedruckt: 1729395079 Bei Verstößen wenden Sie sich bitte an [email protected], um ihn zu löschen

Neuestes Tutorial Mehr>

Wie bekomme ich die tatsächliche gerenderte Schriftart in JavaScript, wenn das CSS -Schriftart undefiniert ist?
Zugriff auf die tatsächliche gerenderte Schriftart, wenn sie in CSS bei Zugriff auf die Schriftart eines Elements zugreifen. Dies bedeutet jed...

Programmierung Gepostet am 2025-04-18
Wann schließt eine GO -Webanwendung die Datenbankverbindung?
verwalten Datenbankverbindungen in Go -Webanwendungen In einfachen Go -Webanwendungen, die Datenbanken wie PostgreSQL verwenden, wird das Timing...

Programmierung Gepostet am 2025-04-18
Wie begrenzt ich den Scroll-Bereich eines Elements in einem dynamisch großen übergeordneten Element?
implementieren CSS -Höhenlimits für vertikale Scrolling -Elemente in einer interaktiven Schnittstelle und kontrollieren des Bildlaufverhaltens...

Programmierung Gepostet am 2025-04-18
Wie kann ich PytSeract für einstellige Erkennung mit Zahlenausgabe konfigurieren?
pytesseract OCR mit einzelnen Ziffernerkennung und nur Zahlenbeschränkungen im Kontext der Pytesseract, konfigurieren Tesseract, um einzelne Z...

Programmierung Gepostet am 2025-04-18
Wie behandle ich den Benutzereingang im exklusiven Modus von Java von Java?
verwandeln Benutzereingaben im Vollbildmodus in java Einführung Wenn eine Java -Anwendung im Vollbildmodus exklusiver Modus ausgeführt wird,...

Programmierung Gepostet am 2025-04-18
Wie kann ich mehrere SQL-Anweisungen in einer einzelnen Abfrage mit Node-Mysql ausführen?
Multi-Statement-Abfrageunterstützung in node-mysql In Node.js entstehen die Frage, wenn mehrere SQL-Anweisungen in einem einzigen Abfragelemen...

Programmierung Gepostet am 2025-04-18
Warum erscheint mein Windows -Dienst nach Verwendung von installutil.exe nicht im Programm hinzufügen/entfernen?
Warum installutil.exe keine Dienste hinzufügen, um Programme hinzuzufügen/entfernen verwendet installutil.exe , um einen Windows -Dienst zu i...

Programmierung Gepostet am 2025-04-18
Kann die SQL Server -Abfrage serielle Zahlenorte verwenden, um Daten auszuwählen?
ordinale Position in SQL Server-Datenauswahl Abrufen von Spaltendaten unter Verwendung der Ordnungsposition sind im Allgemeinen entmutigt, da ...

Programmierung Gepostet am 2025-04-18
Wie sende ich eine Roh Postanforderung mit Curl in PHP?
Wie sende ich eine rohe Postanfrage mit curl in php in php, curl ist eine beliebte Bibliothek für das Senden von HTTP -Anfragen. In diesem Art...

Programmierung Gepostet am 2025-04-18
Können Guids Einzigartigkeit garantieren? Praktische Demonstration
GUID ist nicht absolut einzigartig: Einfach konter-Proof ] Die allgemeine Idee, dass die Richtlinie die Einzigartigkeit ist. Dieser Artikel ent...

Programmierung Gepostet am 2025-04-18
Wie gehe ich mit in Scheiben geschnittener Erinnerung in Go Language Garbage Collection um?
Garbage Collection in Go Slices: Eine detaillierte Analyse In Go ist ein Slice ein dynamisches Array, das auf ein zugrunde liegendes Array ver...

Programmierung Gepostet am 2025-04-18
Implementierung einer Slash-Methode zur linken Ausrichtung von Text in allen Browsern
] ] Textausrichtung auf geschmückten Zeilen Hintergrund , der links ausgerichtete Text auf einer schrägen Zeile erreichen kann, kann eine Herausfo...

Programmierung Gepostet am 2025-04-18
Warum HTML keine Seitenzahlen und Lösungen drucken kann
können Seitenzahlen auf html -Seiten nicht drucken? Gebraucht: @page { Marge: 10%; @Top-Center { Schriftfamilie: Sans-Serif; Schrift...

Programmierung Gepostet am 2025-04-18
Wie kann ich Daten in einer Transaktion effizient in mehrere MySQL -Tabellen einfügen?
mySql Einfügen in mehrere Tabellen versuchen, Daten mit einer einzelnen MySQL -Abfrage in mehrere Tabellen einzufügen. Während es so aussehen ...

Programmierung Gepostet am 2025-04-18
Wie kann man NullReferencexceptions in C#verhindern und umgehen?
Was ist nullReferencexception? nullReferencexception ist eine Laufzeitausnahme in C#, die auftritt, wenn Sie versuchen, auf Mitglieder eines lee...

Programmierung Gepostet am 2025-04-18

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel