FireDucks : obtenez des performances supérieures à celles des pandas avec un coût d'apprentissage nul !

Page de garde > La programmation > FireDucks : obtenez des performances supérieures à celles des pandas avec un coût d'apprentissage nul !

FireDucks : obtenez des performances supérieures à celles des pandas avec un coût d'apprentissage nul !

Publié le 2024-11-06

Parcourir:684

Pandas est l'une des bibliothèques les plus populaires, alors que je cherchais un moyen plus simple d'accélérer ses performances, j'ai découvert FireDucks et je m'y suis intéressé !

Comparaison avec les pandas : Pourquoi FireDucks ?

Un programme Pandas peut rencontrer de sérieux problèmes de performances selon la façon dont il a été écrit. Cependant, en tant que data scientist, je souhaite passer de plus en plus de temps à analyser les données plutôt qu'à améliorer les performances de mon code. Ce serait donc formidable s'il pouvait faire quelque chose comme inverser l'ordre des processus et accélérer automatiquement les performances du programme. Par exemple, Processus A => Processus B sera plus lent, nous le remplacerons donc par Processus B => Processus A. (Bien sûr, le résultat est garanti être le même.) On dit que les data scientists dépensent environ 45 % de leur temps à préparer les données, et alors que je pensais faire quelque chose pour accélérer le processus, je suis tombé sur un module appelé FireDucks.

D'après la documentation FireDucks, il semble être pris en charge uniquement pour les plates-formes Linux. Puisque j'utilise Windows sur ma machine principale, j'aimerais l'essayer à partir de WSL2 (Windows Subsystem for Linux), un environnement qui peut exécuter Linux sous Windows.

L'environnement que j'ai essayé est le suivant.

OS Microsoft Windows 11 Pro
Version 10.0.22631 Construire 22631
Modèle de système Z690 Pro RS
Type de système basé sur x64
Processeur PC Intel(R) Core(TM) i3-12100 de 12e génération, 3 300 MHz, 4 cœurs, 8 processeurs logiques
Produit de plinthe Z690 Pro RS
Bureau de rôle de plate-forme
Mémoire physique installée (RAM)64,0 Go

Installation et configuration de FireDucks

Installer WSL

WSL a été installé à l'aide de la documentation Microsoft suivante ; la distribution Linux est Ubuntu 22.04.1 LTS.

Installer FireDucks

Ensuite, installez FireDucks. Il est cependant très facile à installer.
pip installer des canards de feu

L'installation de FireDucks prendra quelques minutes (avec pyarrow, pandas et autres bibliothèques).

J'ai essayé d'exécuter le code ci-dessous, la vitesse de chargement était si rapide, les pandas ont pris 4 secondes et les fireDucks n'ont pris que 74,5 ns.

# 1. analysis based on time period and creative duration # convert timestamp to date/time object df['timestamp_converted'] = pd.to_datetime(df['timestamp'], unit='s ') # define time period def get_part_of_day(hour): if 5

Tous ces prétraitements et analyses de données prenaient environ 8 secondes chez les pandas, alors qu'ils pouvaient être terminés en 4 secondes avec FireDucks. Une vitesse presque 2 fois supérieure pourrait être atteinte.

Performances améliorées

L'une des choses les plus stressantes liées à l'utilisation de pandas est d'attendre lors du chargement de grands ensembles de données, puis je dois attendre une opération complexe comme groupby. D'un autre côté, comme FireDucks effectue une évaluation paresseuse, le chargement lui-même ne prend aucun temps, le traitement est donc effectué là où il est nécessaire, et j'ai pensé que c'était très significatif avec une grande réduction du temps d'attente total.

En ce qui concerne les autres performances, il semble que des performances jusqu'à 16 fois plus rapides que celles des pandas aient été atteintes, comme l'a officiellement annoncé l'organisation. (Je comparerai les performances avec diverses bibliothèques concurrentes la prochaine fois.)

FireDucks: Get performance beyond pandas with zero learning cost!

zéro coût d'apprentissage

La possibilité de suivre la notation exacte des pandas sans avoir à penser à quoi que ce soit est un énorme avantage. Outre FireDucks, il existe d'autres bibliothèques d'accélération de trames de données, mais elles sont trop coûteuses à apprendre et trop faciles à oublier.

Par exemple, si vous souhaitez ajouter des colonnes avec des polaires, vous devez écrire quelque chose comme ceci.

# pandas df["new_col"] = df["A"]   1
# polars 
df = df.with_columns((pl.col("A")   1).alias("new_col"))

Presque pas besoin de modifier un code existant

J'ai plusieurs ETL et autres projets qui utilisent des pandas, et ce serait bien de voir une amélioration des performances simplement en installant et en remplaçant l'instruction d'importation par FireDucks.

Si vous souhaitez l'ajouter davantage, n'hésitez pas à commenter ci-dessous.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/codewithved/fireducks-get-performance-beyond-pandas-with-zero-learning-cost-9do?1 En cas de violation, veuillez contacter [email protected] pour le supprimer

Dernier tutoriel Plus>

Pourquoi Microsoft Visual C ++ ne parvient pas à implémenter correctement l'instanciation du modèle biphasé?
Le mystère de l'instanciation du modèle deux phases "Broken" dans Microsoft Visual C Instruction Problème: Les utilisateurs ex...

La programmation Publié le 2025-03-12
UTF-8 vs Latin-1: Le secret du codage des personnages!
distinguant utf-8 et latin1 Lors de l'encodage, deux choix prominents émergent: utf-8 et latin1. Au milieu de leurs applications, une ques...

La programmation Publié le 2025-03-12
Tableau
Les méthodes sont des fns qui peuvent être appelés sur des objets Les tableaux sont des objets, donc ils ont également des méthodes en js. ...

La programmation Publié le 2025-03-12
Partie SQL Injection Series: Explication détaillée des techniques avancées d'injection SQL
Auteur: Trix cyrus outil de pentiSting waymap: cliquez ici TrixSec GitHub: cliquez ici TrixSec Telegram: cliquez ici Exploits d...

La programmation Publié le 2025-03-12
Pourquoi Pytz montre-t-il des décalages de fuseau horaire inattendus initialement?
Dicontenance du fuseau horaire avec pytz Certains flammes de temps présentent des décalages particuliers lorsqu'ils sont initialement obte...

La programmation Publié le 2025-03-12
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-03-12
Comment pouvons-nous sécuriser les téléchargements de fichiers contre du contenu malveillant?
Les préoccupations de sécurité avec les téléchargements de fichiers Le téléchargement de fichiers sur un serveur peut présenter des risques de...

La programmation Publié le 2025-03-12
Comment supprimer les ruptures de ligne des chaînes en utilisant des expressions régulières en JavaScript?
Suppression des ruptures de ligne des chaînes Dans ce scénario de code, l'objectif est d'éliminer les ruptures de ligne d'une chaîne...

La programmation Publié le 2025-03-12
Pourquoi l'exécution de JavaScript cesse-t-elle lors de l'utilisation du bouton Firefox Retour?
Problème d'histoire de la navigation: JavaScript cesse d'exécuter après avoir utilisé le bouton de retour de Firefox Les utilisateurs ...

La programmation Publié le 2025-03-12
Comment insérer correctement les blobs (images) dans MySQL à l'aide de PHP?
Insérez des blobs dans les bases de données MySQL avec PHP Lorsque vous essayez de stocker une image dans une base de données MySQL, vous pou...

La programmation Publié le 2025-03-12
Puis-je migrer mon cryptage de McRypt à OpenSSL et décrypter les données cryptées McRypt à l'aide d'OpenSSL?
Mise à niveau de ma bibliothèque de chiffrement de McRypt à OpenSSL Puis-je mettre à niveau ma bibliothèque de cryptage à partir de McRypt à O...

La programmation Publié le 2025-03-12
JS et bases
Guide d'un débutant sur les principes fondamentaux de javascript et de programmation javascript (js) est un langage de programmation puiss...

La programmation Publié le 2025-03-12
Y a-t-il une différence de performance entre l'utilisation d'une boucle for-out et un itérateur pour la traversée de collecte en Java?
pour chaque boucle vs iterator: efficacité dans la collection Traversal introduction Lorsque vous traversez une collection dans Java, le c...

La programmation Publié le 2025-03-12
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-03-12
Explication détaillée de la méthode d'acquisition d'éléments aléatoires Java Hashset / LinkedHashset
Trouver un élément aléatoire dans un ensemble Dans la programmation, il peut être utile de sélectionner un élément aléatoire dans une collection...

La programmation Publié le 2025-03-12

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article