هل أنت مهتم بمعرفة التعلم الآلي باستخدام بايثون؟ لا تنظر أبعد من مكتبة Scikit-Learn! تم تصميم مكتبة بايثون الشهيرة هذه لاستخراج البيانات وتحليلها وبناء النماذج بكفاءة. في هذا الدليل، سوف نقدم لك أساسيات Scikit-Learn وكيف يمكنك البدء في استخدامه لمشاريع التعلم الآلي الخاصة بك.
ما هو Scikit-Learn؟
Scikit-Learn هي أداة قوية وسهلة الاستخدام لاستخراج البيانات وتحليلها. تم بناؤه فوق المكتبات الشهيرة الأخرى مثل NumPy وSciPy وMatplotlib. إنه مفتوح المصدر ولديه ترخيص BSD متاح تجاريًا، مما يجعله في متناول الجميع لاستخدامه.
ماذا يمكنك أن تفعل باستخدام Scikit-Learn؟
يتم استخدام Scikit-Learn على نطاق واسع لثلاث مهام رئيسية في التعلم الآلي:
1. تصنيف
يتضمن التصنيف تحديد الفئة التي ينتمي إليها الكائن. على سبيل المثال، توقع ما إذا كانت رسالة البريد الإلكتروني بريدًا عشوائيًا أم لا.
2. الانحدار
الانحدار هو عملية التنبؤ بمتغير مستمر بناءً على المتغيرات المستقلة ذات الصلة. على سبيل المثال، استخدام أسعار الأسهم السابقة للتنبؤ بالأسعار المستقبلية.
3. التجميع
يتضمن التجميع تجميع الكائنات المتشابهة في مجموعات مختلفة تلقائيًا. على سبيل المثال، تقسيم العملاء على أساس أنماط الشراء.
كيفية تثبيت Scikit-Learn؟
إذا كنت تستخدم نظام تشغيل Windows، فإليك دليل خطوة بخطوة لتثبيت Scikit-Learn:
قم بتثبيت بايثون عن طريق تنزيله من https://www.python.org/downloads/. افتح الوحدة الطرفية بالبحث عن "cmd" وأدخل python --version للتحقق من الإصدار المثبت.
قم بتثبيت NumPy عن طريق تنزيل برنامج التثبيت من https://sourceforge.net/projects/numpy/files/NumPy/1.10.2/.
قم بتنزيل برنامج تثبيت SciPy من SciPy: المكتبة العلمية لـ Python - تصفح /scipy/0.16.1 على SourceForge.net.
قم بتثبيت Pip عن طريق كتابة python get_pip.py في محطة سطر الأوامر.
أخيرًا، قم بتثبيت scikit-learn عن طريق كتابة pip install scikit-learn في سطر الأوامر.
ما هي مجموعة بيانات Scikit؟
مجموعة بيانات Scikit هي مجموعة بيانات مدمجة توفرها المكتبة للمستخدمين لممارسة نماذجهم واختبارها. يمكنك العثور على أسماء مجموعات البيانات هذه على https://scikit-learn.org/stable/datasets/index.html. في هذا الدليل، سنستخدم مجموعة بيانات جودة النبيذ الأحمر، والتي يمكن أيضًا تنزيلها من Kaggle.
استيراد مجموعة البيانات والوحدات النمطية
للبدء في استخدام Scikit-Learn، نحتاج أولاً إلى استيراد الوحدات الضرورية ومجموعة البيانات.
قم باستيراد وحدة الباندا واستخدم طريقة read_csv() لقراءة ملف .csv وتحويله إلى إطار بيانات الباندا.
الوحدات التي سنستخدمها هي:
مجموعات التدريب ومجموعات الاختبار
يعد تقسيم البيانات إلى مجموعات تدريب واختبار أمرًا ضروريًا لتقدير أداء النموذج الخاص بك. يتم استخدام مجموعة التدريب لبناء واختبار الخوارزمية الخاصة بنا، بينما يتم استخدام مجموعة الاختبار لتقييم دقة توقعاتنا.
لتقسيم بياناتنا، سنستخدم وظيفة Train_test_split() التي توفرها Scikit-Learn.
بيانات المعالجة المسبقة
تعد المعالجة المسبقة للبيانات هي الخطوة الأولية والأكثر أهمية التي تعمل على تحسين جودة النموذج. يتضمن جعل البيانات مناسبة للاستخدام في نموذج التعلم الآلي.
أحد تقنيات المعالجة المسبقة الشائعة هو التوحيد القياسي، والذي يعمل على توحيد نطاق ميزات بيانات الإدخال قبل تطبيق نماذج التعلم الآلي. ولهذا يمكننا استخدام واجهة برمجة تطبيقات Transformer التي توفرها Scikit-Learn.
فهم المعلمات الفائقة والتحقق المتبادل
المعلمات الفائقة هي مفاهيم ذات مستوى أعلى، مثل التعقيد ومعدل التعلم، والتي لا يمكن تعلمها مباشرة من البيانات وتحتاج إلى تعريف مسبق.
لتقييم أداء تعميم النموذج وتجنب الإفراط في التجهيز، يعد التحقق المتبادل أسلوبًا مهمًا للتقييم. يتضمن ذلك تقسيم مجموعة البيانات إلى عدد N من الأجزاء العشوائية ذات الحجم المتساوي.
تقييم أداء النموذج
بعد التدريب واختبار النموذج الخاص بنا، حان الوقت لتقييم أدائه باستخدام مقاييس مختلفة. ولهذا، سنقوم باستيراد المقاييس التي نحتاجها، مثل r2_score وmean_squared_error.
تحسب الدالة r2_score تباين المتغير التابع للمتغير المستقل، بينما تحسب الدالة mean_squared_error متوسط مربع الأخطاء. من الضروري أن نأخذ في الاعتبار هدف النموذج لتحديد ما إذا كان الأداء كافيًا.
لا تنس حفظ النموذج الخاص بك لاستخدامه في المستقبل!
في الختام، قمنا بتغطية أساسيات استخدام Scikit-Learn للتعلم الآلي في بايثون. باتباع الخطوات الموضحة في هذا الدليل، يمكنك البدء في استكشاف واستخدام Scikit-Learn لمشاريع التنقيب عن البيانات وتحليلها. بفضل واجهته سهلة الاستخدام ومجموعة واسعة من الميزات، يعد Scikit-Learn أداة قوية للمبتدئين وعلماء البيانات ذوي الخبرة على حد سواء.
قم بتحسين قدراتك في برمجة Python باستخدام اختبارات ممارسة شهادة Python المتوفرة على MyExamCloud.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3