Automatando a importação de CSV para PostgreSQL usando o fluxo de ar e o docker

Primeira página > IA > Automatando a importação de CSV para PostgreSQL usando o fluxo de ar e o docker

Automatando a importação de CSV para PostgreSQL usando o fluxo de ar e o docker

Postado em 2025-04-12

Navegar:346

Este tutorial demonstra a criação de um pipeline de dados robusto usando o Apache Airflow, Docker e PostgreSQL para automatizar a transferência de dados de arquivos CSV para um banco de dados. Abordaremos conceitos principais de fluxo de ar, como DAGs, tarefas e operadores para gerenciamento de fluxo de trabalho eficiente.

Este projeto mostra a criação de um pipeline de dados confiável que lê dados CSV e o grava em um banco de dados PostGresql. Integraremos vários componentes do fluxo de ar para garantir manuseio de dados eficientes e manter a integridade dos dados.

Objetivos de aprendizagem:

GRASP CORE APACH AIRFLOW CONCEITOS: DAGs, tarefas e operadores.
Configure e configure o fluxo de ar Apache com o Docker para automação do fluxo de trabalho.
integrar o PostGresql para gerenciamento de dados em pipelines de fluxo de ar.
construir e implantar pipelines de dados escaláveis e eficientes usando fluxo de ar e docker.

pré -requisitos:

Docker Desktop, vs Code, Docker Compose

entendimento básico dos contêineres e comandos do Docker
comandos BASIC Linux
BASIC Python Knowledge
Experiência na criação de imagens do Docker a partir de Dockerfiles e usando o Docker Compose

O que é o Apache Airflow?

Apache AirFlow (Airflow) é uma plataforma para criação, programação e monitoramento de fluxos de trabalho programaticamente. Definir fluxos de trabalho como código melhora a manutenção, controle de versão, teste e colaboração. Sua interface do usuário simplifica os pipelines de visualização, o progresso do monitoramento e a solução de problemas.

Automating CSV to PostgreSQL Ingestion with Airflow and Docker

terminologia do fluxo de ar:

um processo passo a passo para atingir uma meta (por exemplo, assando um bolo).
um plano de fluxo de trabalho mostrando dependências de tarefas e ordem de execução. É uma representação visual do fluxo de trabalho.
uma única ação dentro de um fluxo de trabalho (por exemplo, mixagem ingredientes).
Construindo blocos de tarefas, definindo ações como executar scripts Python ou executar o SQL. Os principais operadores incluem pythonOperator , dummyperator e postGresoperator .
Ativar tarefas para comunicar e compartilhar dados.
gerenciar credenciais para se conectar a sistemas externos (por exemplo, bancos de dados).

configurando o fluxo de ar Apache com Docker e Dockerfile:

O uso do Docker garante um ambiente consistente e reproduzível. A

Dockerfile

automatiza a criação da imagem. As seguintes instruções devem ser salvas como Dockerfile (sem extensão): de Apache/Airflow: 2.9.1-python3.9 Raiz do usuário Cópia requisitos.txt /requiements.txt Run Pip3 Install -Upgrade pip && PIP3 Install --no-cache-dir -r /requirements.txt Execute o PIP3 Instale o apache-airflow-providers-apache-spark apache-airflow-providers-amazon Run Apt-Get Update && apt-get install -y gcc python3-dev openjdk-17-jdk && apt-get limpo

FROM apache/airflow:2.9.1-python3.9
USER root
COPY requirements.txt /requirements.txt
RUN pip3 install --upgrade pip && pip3 install --no-cache-dir -r /requirements.txt
RUN pip3 install apache-airflow-providers-apache-spark apache-airflow-providers-amazon
RUN apt-get update && apt-get install -y gcc python3-dev openjdk-17-jdk && apt-get clean

Dockerfile

usa uma imagem oficial do fluxo de ar, instala dependências de requisitos.txt e instala os provedores de fluxo de ar necessários (exemplos de faísca e AWS são mostrados; você pode precisar de outros).

Docker Compose Configuration:

Docker-Compose.yml

orquestra os contêineres do docker. A configuração a seguir define serviços para o servidor da web, agendador, gatilho, CLI, init e postgreSQL. Observe o uso da seção x-airflow-common para configurações compartilhadas e a conexão com o banco de dados PostGresql. (O Full Docker-compose.yml é muito longo para incluir aqui, mas as seções principais são mostradas acima).

Configuração e execução do projeto:

Crie um diretório de projeto.

Adicione o
e Docker-compose.yml files. create
listando os pacotes python necessários (por exemplo, pandas). RUN
para iniciar os contêineres. Acesse a interface do usuário do fluxo de ar em
. Crie uma conexão PostGresql na interface do usuário do fluxo de ar (usando
como o id de conexão). Crie uma amostra
file.

dag e python função:

o fluxo de ar dog (

sample.py

) define o fluxo de trabalho:

cria a tabela de banco de dados. a
( geneate_insert_queries ) lê o CSV e gera sql insert , salvando -as para Dags/sql/insert_] outro postGresoperator executa o sql.
(o código completo

é muito longo para incluir aqui, mas as seções principais são mostradas acima).

Conclusão:

Este projeto demonstra um pipeline de dados completo usando o fluxo de ar, o docker e o postgreSQL. Ele destaca os benefícios da automação e o uso do Docker para ambientes reproduzíveis. O uso de operadores e a estrutura do DAG são essenciais para o gerenciamento eficiente do fluxo de trabalho.

(as seções restantes, incluindo perguntas frequentes e repositões do github, são omitidas por brevidade. Eles estão presentes na entrada original.)

Tutorial mais recente Mais>

Automatando a importação de CSV para PostgreSQL usando o fluxo de ar e o docker
Este tutorial demonstra a criação de um pipeline de dados robusto usando o Apache Airflow, Docker e PostgreSQL para automatizar a transferência de da...

IA Postado em 2025-04-12
Algoritmos de inteligência de enxames: três implementações do Python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

IA Postado em 2025-03-24
Como tornar seu LLM mais preciso com pano e ajuste fino
Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...

IA Postado em 2025-03-24
O que é o Google Gemini? Tudo o que você precisa saber sobre o rival ChatGPT do Google
Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...

IA Postado em 2025-03-23
Guia sobre solicitação com DSPY
dspy: uma estrutura declarativa para a construção e melhoria de aplicativos LLM DSPY (programas de idiomas auto-improvantes declarativos) revolucio...

IA Postado em 2025-03-22
Automatize o blog para o tópico do Twitter
Este artigo detalha automatização da conversão de conteúdo de formato longo (como postagens de blog) em tópicos envolventes no Twitter usando o gemin...

IA Postado em 2025-03-11
Sistema imunológico artificial (AIS): um guia com exemplos de python
Este artigo explora sistemas imunológicos artificiais (AIS), modelos computacionais inspirados na notável capacidade do sistema imunológico humano de...

IA Postado em 2025-03-04
Tente fazer ao ChatGPT estas perguntas divertidas sobre você
Já se perguntou o que o ChatGPT sabe sobre você? Como ele processa as informações que você forneceu ao longo do tempo? Eu usei montes de ChatGPT em di...

IA Publicado em 2024-11-22
Veja como você ainda pode experimentar o misterioso chatbot GPT-2
Se você gosta de modelos de IA ou chatbots, talvez já tenha visto discussões sobre o misterioso chatbot GPT-2 e sua eficácia.Aqui, explicamos o que é ...

IA Publicado em 2024-11-08
O modo Canvas do ChatGPT é ótimo: estas são 4 maneiras de usá-lo
O novo modo Canvas do ChatGPT adicionou uma dimensão extra à escrita e edição na ferramenta de IA generativa líder mundial. Tenho usado o ChatGPT Canv...

IA Publicado em 2024-11-08
Como os GPTs personalizados do ChatGPT podem expor seus dados e como mantê-los seguros
O recurso GPT personalizado do ChatGPT permite que qualquer pessoa crie uma ferramenta de IA personalizada para quase tudo que você possa imaginar; G...

IA Publicado em 2024-11-08
10 maneiras pelas quais o ChatGPT pode ajudá-lo a conseguir um emprego no LinkedIn
Com 2.600 caracteres disponíveis, a seção Sobre do seu perfil do LinkedIn é um ótimo espaço para falar sobre sua experiência, habilidades, paixões e ...

IA Publicado em 2024-11-08
Confira estes 6 aplicativos de IA menos conhecidos que oferecem experiências únicas
Neste ponto, a maioria das pessoas já ouviu falar do ChatGPT e do Copilot, dois aplicativos pioneiros de IA generativa que lideraram o boom da IA.Mas ...

IA Publicado em 2024-11-08
Estes 7 sinais mostram que já atingimos o pico da IA
Onde quer que você olhe on-line, há sites, serviços e aplicativos que proclamam que o uso da IA a torna a melhor opção. Não sei sobre você, mas sua ...

IA Publicado em 2024-11-08
4 ferramentas de detecção de ChatGPT de verificação de IA para professores, palestrantes e chefes
À medida que o ChatGPT avança em poder, fica cada vez mais difícil dizer o que é escrito por um ser humano e o que é gerado por uma IA. Isso torna di...

IA Publicado em 2024-11-08

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo