Automatisation l'importation de CSV à PostgreSQL à l'aide de flux d'air et de docker

Page de garde > IA > Automatisation l'importation de CSV à PostgreSQL à l'aide de flux d'air et de docker

Automatisation l'importation de CSV à PostgreSQL à l'aide de flux d'air et de docker

Publié le 2025-04-12

Parcourir:649

Ce didacticiel montre la création d'un pipeline de données robuste à l'aide d'Apache Airflow, Docker et PostgreSQL pour automatiser le transfert de données des fichiers CSV vers une base de données. Nous couvrirons les concepts de flux d'air de base comme les Dags, les tâches et les opérateurs pour une gestion efficace du flux de travail.

Ce projet présente la création d'un pipeline de données fiable qui lit les données CSV et les écrit dans une base de données PostgreSQL. Nous intégrerons divers composants de flux d'air pour assurer une gestion efficace des données et maintenir l'intégrité des données.

Objectifs d'apprentissage:

Grasp Core Apache Airflow Concepts: Dags, Tâches et Opérateurs.
Configurez et configurez le flux d'air APache avec Docker pour l'automatisation du flux de travail.
Intégrer PostgreSQL pour la gestion des données dans les pipelines Airflow.
Master Reading CSV Files et automatiser l'insertion de données dans une base de données PostgreSQL.
construire et déployer des pipelines de données évolutives et efficaces à l'aide de flux d'air et de docker.

prérequis:

Docker Desktop, vs code, docker compose
Compréhension de base des conteneurs et commandes Docker
Commandes Linux de base
connaissance de base python
Expérience de la construction d'images docker de dockerfiles et à l'aide de docker composé

Qu'est-ce que APACHE AirFlow?

Apache AirFlow (AirFlow) est une plate-forme pour les flux de travail, de planification, de surveillance et de surveillance des workflows. La définition des workflows en tant que code améliore la maintenabilité, le contrôle des versions, les tests et la collaboration. Son interface utilisateur simplifie la visualisation des pipelines, la surveillance des progrès et le dépannage.

Automating CSV to PostgreSQL Ingestion with Airflow and Docker

Terminologie AirFlow:

Workflow: un processus étape par étape pour atteindre un objectif (par exemple, cuire un gâteau).
dag (graphique acyclique réalisé): Un plan de workflow affichant les dépendances de tâche et l'ordre d'exécution. C'est une représentation visuelle du flux de travail.
tâche: une seule action dans un workflow (par exemple, mélange des ingrédients).
Opérateurs: Construire des blocs de tâches, définissant des actions comme exécuter des scripts Python ou exécuter SQL. Les opérateurs clés incluent pythonoperator , dummyoperator , et postgreOperator .
xcoms (inter-communications): Activer les tâches pour communiquer et partager des données.
Connexions: Gérer les informations d'identification pour se connecter aux systèmes externes (par exemple, bases de données).

Configuration du flux d'air apache avec docker et dockerfile:

Utiliser Docker assure un environnement cohérent et reproductible. Un dockerfile automatise la création d'images. Les instructions suivantes doivent être enregistrées comme dockerfile (pas d'extension):

FROM apache/airflow:2.9.1-python3.9
USER root
COPY requirements.txt /requirements.txt
RUN pip3 install --upgrade pip && pip3 install --no-cache-dir -r /requirements.txt
RUN pip3 install apache-airflow-providers-apache-spark apache-airflow-providers-amazon
RUN apt-get update && apt-get install -y gcc python3-dev openjdk-17-jdk && apt-get clean

Ce dockerfile utilise une image officielle de flux d'air, installe les dépendances à partir de exigences.txt , et installe les fournisseurs d'air nécessaires (des exemples Spark et AWS sont affichés; vous pouvez en avoir besoin d'autres).

Configuration du docker:

docker-compose.yml orchestre les conteneurs docker. La configuration suivante définit les services pour le serveur Web, le planificateur, le déclencher, le CLI, l'initial et le postgresql. Remarquez l'utilisation de la section x-aairflow-common pour les paramètres partagés et la connexion à la base de données PostgreSQL. (Le complet docker-compose.yml est trop long pour inclure ici mais les sections clés sont affichées ci-dessus).

Configuration et exécution du projet:

Créer un répertoire de projet.
Ajoutez le dockerfile et docker-compose.yml fichiers.
crée exigences.txt Listing des packages Python nécessaires (par exemple, pandas).
exécuter docker-compose up -d pour démarrer les conteneurs.
accéder à la UI du flux d'air à http: // localhost: 8080 .
Créez une connexion postgresql dans le flux d'air UI (en utilisant write_to_psql comme id de connexion).
Créez un exemple de fichier input.csv .

Fonction Dag et Python:

Le flux d'air dag ( sample.py ) définit le workflow:

a postgreSoperator crée la table de base de données.
a pythonoperator ( generate_insert_queries ) lit le CSV et génère des instructions sql insert , les sauvant à dags / sql / insert_queries.sql .
postgreSoperator exécute le sql généré.

(Le code complet

sample.py est trop long pour inclure ici mais les sections de clés sont affichées ci-dessus).

Conclusion:

Ce projet démontre un pipeline de données complet à l'aide d'Airflow, Docker et PostgreSQL. Il met en évidence les avantages de l'automatisation et l'utilisation de Docker pour les environnements reproductibles. L'utilisation des opérateurs et la structure DAG sont essentielles à une gestion efficace du flux de travail.

(Les sections restantes, y compris FAQs et GitHub Repo, sont omises pour la concision. Ils sont présents dans l'entrée d'origine.)

Dernier tutoriel Plus>

Moment indien de l'IA: concurrence avec la Chine et les États-Unis dans une AI générative
India's Ai Ambitions: une mise à jour 2025 avec la Chine et les États-Unis qui investissent fortement dans l'IA génératrice, l'Inde acc...

IA Publié le 2025-04-13
Automatisation l'importation de CSV à PostgreSQL à l'aide de flux d'air et de docker
Ce didacticiel montre la création d'un pipeline de données robuste à l'aide d'Apache Airflow, Docker et PostgreSQL pour automatiser le tr...

IA Publié le 2025-04-12
Algorithmes d'intelligence Swarm: trois implémentations Python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

IA Publié le 2025-03-24
Comment rendre votre LLM plus précis avec le chiffon et le réglage fin
Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...

IA Publié le 2025-03-24
Qu'est-ce que Google Gemini? Tout ce que vous devez savoir sur le rival de Google de Google
Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...

IA Publié le 2025-03-23
Guide sur l'incitation avec DSPY
dspy: un cadre déclaratif pour construire et améliorer les applications LLM DSPY (programmes de langage auto-améliorant déclaratifs) révolutionne l...

IA Publié le 2025-03-22
Automatiser le blog sur le fil Twitter
Cet article détaille l'automatisation de la conversion du contenu long (comme les articles de blog) dans l'engagement des fils Twitter en uti...

IA Publié le 2025-03-11
Système immunitaire artificiel (AIS): un guide avec des exemples Python
Cet article explore les systèmes immunitaires artificiels (AIS), des modèles de calcul inspirés de la remarquable capacité du système immunitaire hum...

IA Publié le 2025-03-04
Essayez de poser à ChatGPT ces questions amusantes sur vous-même
Vous êtes-vous déjà demandé ce que ChatGPT sait de vous ? Comment traite-t-il les informations que vous lui avez fournies au fil du temps ? J'ai u...

IA Publié le 2024-11-22
Voici comment vous pouvez toujours essayer le mystérieux chatbot GPT-2
Si vous aimez les modèles d'IA ou les chatbots, vous avez peut-être vu des discussions sur le mystérieux chatbot GPT-2 et son efficacité.Ici, nous...

IA Publié le 2024-11-08
Le mode Canvas de ChatGPT est génial : voici 4 façons de l'utiliser
Le nouveau mode Canvas de ChatGPT a ajouté une dimension supplémentaire à l'écriture et à l'édition dans le principal outil d'IA générativ...

IA Publié le 2024-11-08
Comment les GPT personnalisés de ChatGPT pourraient exposer vos données et comment les protéger
La fonctionnalité GPT personnalisée de ChatGPT permet à quiconque de créer un outil d'IA personnalisé pour presque tout ce à quoi vous pouvez pen...

IA Publié le 2024-11-08
10 façons dont ChatGPT pourrait vous aider à décrocher un emploi sur LinkedIn
Avec 2 600 caractères disponibles, la section À propos de votre profil LinkedIn est un espace idéal pour développer votre parcours, vos compétences, ...

IA Publié le 2024-11-08
Découvrez ces 6 applications d'IA moins connues qui offrent des expériences uniques
À ce stade, la plupart des gens ont entendu parler de ChatGPT et de Copilot, deux applications pionnières de l'IA générative qui ont mené le boom ...

IA Publié le 2024-11-08
Ces 7 signes montrent que nous avons déjà atteint le pic de l'IA
Où que vous regardiez en ligne, il existe des sites, des services et des applications proclamant que leur utilisation de l'IA en fait la meilleure...

IA Publié le 2024-11-08

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article