Comment gérer efficacement les grands fichiers CSV dans Python 2.7?

Page de garde > La programmation > Comment gérer efficacement les grands fichiers CSV dans Python 2.7?

Comment gérer efficacement les grands fichiers CSV dans Python 2.7?

Publié le 2025-03-05

Parcourir:611

How to Effectively Handle Large CSV Files in Python 2.7?

Lire les grands fichiers .csv dans python

Problème: Reading Massive .csv Fichiers (jusqu'à 1 million de lignes, 200 colonnes) dans Python 2.7 relève des erreurs de mémoire. Cependant, cette méthode devient peu pratique pour les fichiers volumineux, car il consomme une mémoire excessive.

Solution:

1. Processez les lignes telles qu'elles sont produites:

Évitez de charger le fichier entier en mémoire. Au lieu de cela, traitez les lignes telles qu'elles sont générées à l'aide d'une fonction de générateur.

def getStuff (nom de fichier, critère): avec ouvert (nom de fichier, "RB") comme CSVFile: DataReader = CSV.Reader (CSVFile) rendement suivant (DataReader) # rendement la ligne d'en-tête Pour Row dans DataReader: Si Row [3] == Critère: Row Row

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row

2. Utilisez des fonctions de générateur pour filtrer:

Filtrez les données tout en itérant dans le fichier à l'aide des fonctions du générateur. Cette approche permet de faire correspondre plusieurs lignes consécutives répondant à un critère spécifique.

def getStuff (nom de fichier, critère): avec ouvert (nom de fichier, "RB") comme CSVFile: DataReader = CSV.Reader (CSVFile) rendement suivant (DataReader) # rendement la ligne d'en-tête Rendement de Take Whik ( lambda r: r [3] == critère, Drop-the (Lambda r: r [3]! = Criterion, dataReader)) return

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row

3. Optimiser la consommation de mémoire:

Refactor getData () pour utiliser également une fonction de générateur, en veillant à ce qu'une seule ligne soit maintenue en mémoire à tout moment.

def getData (nom de fichier, critères): pour les critères de critères: pour Row in GetStuff (nom de fichier, critère): Row Row

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row

Conseils supplémentaires pour la vitesse:

Lire les fichiers dans des chunks plus petits pour réduire le moteur de la mémoire. dans une base de données pour un traitement plus rapide et plus efficace.

Dernier tutoriel Plus>

Python Metaclass Principe de travail et création et personnalisation de classe
Que sont les métaclasses dans python? Les métaclasses sont responsables de la création d'objets de classe dans python. Tout comme les classe...

La programmation Publié le 2025-04-17
Comment gérer la mémoire tranchée dans la collection d'ordures en langue go?
Collection des ordures dans go tranches: une analyse détaillée dans Go, une tranche est un tableau dynamique qui fait référence à un tableau s...

La programmation Publié le 2025-04-17
Comment effacer efficacement l'écran sur Windows en Go?
Effacer la console dans Go sur Windows si vous travaillez avec Go sur Windows et avez besoin de vider la console pendant l'exécution de vo...

La programmation Publié le 2025-04-17
Comment Java's Map.Entry et SimpleEntry simplifient la gestion des paires de valeurs clés?
Une collection complète pour les paires de valeur: introduisant la carte de Java.Entry et SimpleEntry dans Java, lors de la définition d'u...

La programmation Publié le 2025-04-17
Comment capturer et diffuser Stdout en temps réel pour l'exécution de la commande chatbot?
Capturant stdout en temps réel à partir de l'exécution de commandes dans le domaine de l'élaboration de chatbots capables d'exécut...

La programmation Publié le 2025-04-17
Puis-je migrer mon cryptage de McRypt à OpenSSL et décrypter les données cryptées McRypt à l'aide d'OpenSSL?
Mise à niveau de ma bibliothèque de chiffrement de McRypt à OpenSSL Puis-je mettre à niveau ma bibliothèque de cryptage à partir de McRypt à O...

La programmation Publié le 2025-04-17
Comment puis-je créer efficacement des dictionnaires en utilisant la compréhension Python?
Python Dictionary Comprehension Dans Python, les compréhensions du dictionnaire offrent un moyen concis de générer de nouveaux dictionnaires. Bi...

La programmation Publié le 2025-04-17
Comment pouvez-vous définir les variables dans les modèles de lame Laravel avec élégance?
Définition des variables dans les modèles de lame Laravel avec élégance Comprendre comment attribuer des variables dans les modèles de lame es...

La programmation Publié le 2025-04-17
Pourquoi le corps {marge: 0; } `Supprimez toujours la marge supérieure dans CSS?
Addressant la suppression de la marge du corps dans CSS pour les développeurs Web novices, la suppression de la marge de l'élément corpore...

La programmation Publié le 2025-04-17
Comment puis-je lire efficacement un grand fichier dans l'ordre inverse à l'aide de Python?
en lisant un fichier dans l'ordre inverse dans python Si vous travaillez avec un grand fichier et que vous devez lire son contenu de la de...

La programmation Publié le 2025-04-17
Quelles ont été les restrictions sur l'utilisation de Current_timestamp avec des colonnes horodatotes dans MySQL avant la version 5.6.5?
Restrictions sur les colonnes horodat Clause actuelle_timestamp. Cette limitation s'est étendue aux entiers INT, BigInt et SmallInt lorsqu'...

La programmation Publié le 2025-04-17
Python Efficace Way de supprimer les balises HTML du texte
Déroup des balises HTML en python pour une représentation textuelle vierge manipulant les réponses HTML à extraire le contenu de texte pertine...

La programmation Publié le 2025-04-17
Comment convertir une colonne Pandas DataFrame au format DateTime et filtrer par date?
Transformer la colonne Pandas DataFrame au format DateTime Scénario: Données dans un Pandas DataFrame existait souvent sous divers formats, ...

La programmation Publié le 2025-04-17
Comment convertir efficacement les fuseaux horaires en PHP?
Conversion efficace du fuseau horaire en php Dans PHP, la gestion des fuseaux horaires peut être une tâche simple. Ce guide fournira une méthode...

La programmation Publié le 2025-04-17
Comment supprimer les emojis des chaînes dans Python: un guide pour débutant pour fixer les erreurs courantes?
Suppression des emojis des chaînes dans python Le code python fourni pour supprimer les emojis échoue car il contient des erreurs de syntax. L...

La programmation Publié le 2025-04-17

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article