Pourquoi np.vectorize() est-il plus rapide que df.apply() pour la création de colonnes Pandas ?

Page de garde > La programmation > Pourquoi np.vectorize() est-il plus rapide que df.apply() pour la création de colonnes Pandas ?

Pourquoi np.vectorize() est-il plus rapide que df.apply() pour la création de colonnes Pandas ?

Publié le 2024-11-08

Parcourir:118

Why is np.vectorize() Faster than df.apply() for Pandas Column Creation?

Comparaison des performances de Pandas apply vs np.vectorize

Il a été observé que np.vectorize() peut être nettement plus rapide que df. apply() lors de la création d'une nouvelle colonne basée sur des colonnes existantes dans un Pandas DataFrame. La différence de performances observée provient des mécanismes sous-jacents employés par ces deux méthodes.

df.apply() vs Python-Level Loops

df.apply() crée essentiellement une boucle de niveau Python qui parcourt chaque ligne du DataFrame. Comme le démontrent les tests fournis, les boucles au niveau Python telles que les compréhensions de listes et les cartes sont toutes relativement lentes par rapport aux véritables calculs vectorisés.

np.vectorize() vs df.apply()

np.vectorize() convertit une fonction définie par l'utilisateur en fonction universelle (ufunc). Les Ufuncs sont hautement optimisés et peuvent effectuer des opérations par éléments sur les tableaux NumPy, en tirant parti du code basé sur C et d'algorithmes optimisés. Ceci contraste avec df.apply(), qui fonctionne sur les objets de la série Pandas et entraîne une surcharge supplémentaire.

Véritable vectorisation : performances optimales

Pour une création de colonnes vraiment efficace , les calculs vectorisés dans NumPy sont fortement recommandés. Des opérations comme numpy.where et la division directe par élément avec df["A"] / df["B"] sont extrêmement rapides et évitent les frais généraux associés aux boucles.

Optimisation Numba

Pour encore plus d'efficacité, il est possible d'optimiser davantage les boucles à l'aide de Numba, un compilateur qui traduit les fonctions Python en code C optimisé. Numba peut réduire le temps d'exécution à quelques microsecondes, surpassant considérablement df.apply() et np.vectorize().

Conclusion

Alors que np.vectorize() peut offrir une certaine amélioration par rapport à df.apply(), ce n'est pas un véritable substitut aux calculs vectorisés dans NumPy. Pour obtenir des performances maximales, utilisez l'optimisation Numba ou des opérations vectorisées directes dans NumPy pour la création de nouvelles colonnes dans Pandas DataFrames.

Dernier tutoriel Plus>

Compresser des vidéos sur Webm dans le navigateur
? Boostez vos vidéos Web : compression MP4 vers WebM avec React Vous êtes-vous déjà ennuyé sans rien d'intéressant au travail ? Eh bien,...

La programmation Publié le 2024-11-08
Concurrence des fibres PHP dans le PHP moderne
PHP Fibers, introduit dans PHP 8.1, apporte une nouvelle façon passionnante de gérer la concurrence et la programmation asynchrone en PHP. Les fibres ...

La programmation Publié le 2024-11-08
Une nouvelle ère pour Laravel : un financement de série A d'un million de dollars avec Accel – Voici pourquoi cela change la donne !
Gardez vos chapeaux, les amis ! Laravel vient de bouleverser le monde du développement avec une nouvelle passionnante : un financement de série A de 5...

La programmation Publié le 2024-11-08
Le `string::c_str()` de C++ 11 est-il toujours terminé par un caractère nul ?
Le string::c_str() de C 11 élimine-t-il la terminaison nulle ?Dans C 11, string::c_str n'est plus garanti produire une chaîne terminée par un cara...

La programmation Publié le 2024-11-08
Liste de contrôle pour l'analyste de données
Liste de contrôle SQL Liste de contrôle Mme Excel Liste de contrôle Power BI Liste de contrôle Tableau Liste de contrôle Python Suivez cette chaîne W...

La programmation Publié le 2024-11-08
Comment analyser dynamiquement un champ YAML en un ensemble fini de structures en Go ?
Analyser dynamiquement le champ YAML en un ensemble fini de structures dans GoIntroductionAnalyser YAML dans une structure dans Go peut être simple. C...

La programmation Publié le 2024-11-08
Comment puis-je effectuer un ajustement de courbe exponentielle et logarithmique en Python ?
Ajustement de courbe : approches exponentielles et logarithmiques en PythonBien que l'ajustement de courbe polynomiale soit facilement disponible ...

La programmation Publié le 2024-11-08
Comment réaliser l’importation conditionnelle de modules ES6 ?
Importation conditionnelle des modules ES6Dans ES6, les mots-clés « importer » et « exporter » ne peuvent apparaître qu'au niveau supérieur d'...

La programmation Publié le 2024-11-08
Devrions-nous utiliser des spécificateurs d’exception dans les prototypes de fonctions C++ ?
Exceptions en C : devons-nous les spécifier dans les prototypes de fonctions ?En C, les spécificateurs d'exception permettent aux fonctions de déc...

La programmation Publié le 2024-11-08
Quand le mot-clé et est-il utilisé pour la conjonction logique dans les instructions If de Python ?
ET logique dans les instructions If de PythonLors de l'utilisation de l'instruction if en Python, il est essentiel d'utiliser les opérateu...

La programmation Publié le 2024-11-08
Qu'est-ce que Redux et comment pouvons-nous l'utiliser ?
What is Redux, and how do we use it? Redux is like a helpful tool for managing the state of JavaScript programs. It helps keep everything organized an...

La programmation Publié le 2024-11-08
Un index unique peut-il supprimer les doublons dans une table contenant des doublons existants, et comment ?
Suppression des doublons avec un index uniqueDans le but d'éviter l'insertion de données en double, un index normal a été créé par erreur pour...

La programmation Publié le 2024-11-08
Setters et un Record en Java
Un record est une structure qui se caractérise par être immuable, c'est-à-dire une fois qu'un objet de type record a été créé. ses attributs n...

La programmation Publié le 2024-11-08
Profitez des paramètres de repos
J'ai parcouru le matériel node.js aujourd'hui et j'ai utilisé la méthode path.join. Cette méthode est largement utilisée dans node.js. pat...

La programmation Publié le 2024-11-08
Comment supprimer la nomenclature des fichiers CSV importés ?
Suppression de la nomenclature des fichiers CSV importésLors de l'importation d'un fichier .csv, il est courant de rencontrer une nomenclature...

La programmation Publié le 2024-11-08

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article