يوضح هذا البرنامج التعليمي إنشاء خط أنابيب قوي للبيانات باستخدام تدفق Apache Airflow و Docker و PostgreSQL لأتمتة نقل البيانات من ملفات CSV إلى قاعدة بيانات. سنقوم بتغطية مفاهيم تدفق الهواء الأساسية مثل dags والمهام والمشغلين لإدارة سير العمل الفعالة.
يعرض هذا المشروع إنشاء خط أنابيب بيانات موثوق به يقرأ بيانات CSV ويكتبها إلى قاعدة بيانات postgreSQL. سندمج مكونات تدفق الهواء المختلفة لضمان معالجة البيانات الفعالة والحفاظ على سلامة البيانات.
أهداف التعلم:
المتطلبات الأساسية:
ما هو Apache Airflow؟
Apache Airflow (Airflow) هو منصة لتأليف سير العمل وجدولة ومراقبة برمجيًا. يؤدي تحديد مهام سير العمل كرمز إلى تحسين القدرة على الصيانة ، والتحكم في الإصدار ، والاختبار ، والتعاون. تبسط واجهة المستخدم الخاصة به تصور خطوط الأنابيب ، ومراقبة التقدم ، واستكشاف الأخطاء وإصلاحها.
مصطلحات تدفق الهواء:
pythonoPerator
، DummyOperator
، و postgresoperator
. إعداد تدفق Apache Airflow مع Docker و Dockerfile:
يضمن استخدام Docker بيئة متسقة وقابلة للتكرار. A Dockerfile
يتم أتمتة إنشاء الصور. يجب حفظ التعليمات التالية على أنها Dockerfile
(بدون امتداد):
FROM apache/airflow:2.9.1-python3.9 USER root COPY requirements.txt /requirements.txt RUN pip3 install --upgrade pip && pip3 install --no-cache-dir -r /requirements.txt RUN pip3 install apache-airflow-providers-apache-spark apache-airflow-providers-amazon RUN apt-get update && apt-get install -y gcc python3-dev openjdk-17-jdk && apt-get clean
هذا يستخدم Dockerfile
صورة تدفق الهواء الرسمي ، وتثبيت التبعيات من متطلبات.
docker-corm.yml
ينشر حاويات Docker. يحدد التكوين التالي الخدمات لخادم الويب ، والمجدول ، والمحفز ، و CLI ، و init ، و postgresql. لاحظ استخدام قسم X-Airflow-Common
للإعدادات المشتركة والاتصال بقاعدة بيانات postgresql. (The Full ] Docker-corm.yml
طويل جدًا بحيث لا يمكن تضمينه هنا ولكن يتم عرض الأقسام الرئيسية أعلاه).
إنشاء دليل مشروع.
docker-corm.yml
ملفات.
قم بإنشاء Docker -Cormpose Up -D
لبدء الحاويات. http: // localhost: 8080
. write_to_psql
كمعرف اتصال). input.csv
ملف.
دالة داج وبايثون: The Airflow DAG ( sample.py ) يحدد سير العمل:
a
postgreSophorator
pythonoPerator
( إدراج
آخر
postgreSophorator ينفذ SQL المولدة.
(الكود الكامل
يوضح هذا المشروع خط أنابيب بيانات كامل باستخدام تدفق الهواء ، Docker ، و PostgreSQL. يبرز فوائد الأتمتة واستخدام Docker للبيئات القابلة للتكرار. يعد استخدام المشغلين وهيكل DAG مفتاحًا لإدارة سير العمل الفعالة.
(يتم حذف الأقسام المتبقية ، بما في ذلك الأسئلة الشائعة و repo github ، للإيجاز. فهي موجودة في المدخلات الأصلية.)
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3