يقوم تحليل البيانات الاستكشافية (EDA) بتحليل مجموعات البيانات لتلخيص خصائصها الرئيسية، وتحديد الأنماط، وتحديد الحالات الشاذة، واختبار الفرضيات غالبًا باستخدام الرسومات الإحصائية وطرق تصور البيانات الأخرى. فهو يساعد على تلخيص البيانات واكتشاف الرؤى من مجموعة البيانات.
الخطوات النموذجية المتبعة في تحليل البيانات الاستكشافية (EDA).
الخطوة 1: جمع البيانات المطلوبة من مصادر مختلفة مثل قواعد البيانات أو استخراج الويب أو واجهات برمجة التطبيقات. ثم قم باستيراد البيانات والمكتبات المطلوبة إلى بيئات التطوير المتكاملة (IDEs) مثل دفتر jupyter. تُستخدم مكتبات بايثون مثل pandas وNumPy وMatplotlib وSeaborn لاستكشاف البيانات وتصورها.
الخطوة 2: مراقبة مجموعة البيانات الخاصة بك وإجراء تنظيف البيانات مثل القيم المفقودة أو الأخطاء.
الخطوة 3: تحديد الأنماط وتحديد أي قيم متطرفة في مجموعة البيانات. إجراء إحصائيات وصفية لتلخيص البيانات للحصول على فكرة عامة عن محتوياتها، مثل القيم المتوسطة والحد الأدنى والحد الأقصى.
الخطوة 4: استخدم ما تعلمته لتحسين أو إنشاء أسئلة جديدة.
الخطوة 5: تحويل البيانات ونمذجتها للبحث عن الإجابات. على سبيل المثال تجميع أو تصنيف البيانات بناءً على احتياجات التحليل.
الخطوة 6: إجراء استكشاف البيانات باستخدام التحليل أحادي المتغير وثنائي المتغير ومتعدد المتغيرات.
الخطوة 7: تطبيق تصور بيانات التوزيعات والعلاقات باستخدام أدوات مرئية معينة مثل المخططات الخطية، والمخططات الشريطية، والمخططات المربعة، والمخططات المبعثرة، والخرائط الحرارية.
الخطوة 8: اختبار الفرضيات - تطوير وتقييم الفرضيات باستخدام الاختبارات الإحصائية للتحقق من الافتراضات أو العلاقات داخل البيانات.
الخطوة 9: تلخيص النتائج باستخدام الرؤى الرئيسية من الإحصائيات الوصفية وتصورات البيانات التي تم إنشاؤها. توثيق عملية EDA والنتائج وإنشاء التقارير والعروض التقديمية لنقل النتائج إلى جميع أصحاب المصلحة المعنيين.
فوائد تحليل البيانات الاستكشافية
يساعد على فهم وتفسير مجموعات البيانات المعقدة. تساعد EDA علماء البيانات في الكشف عن الأنماط، واكتشاف الحالات الشاذة، واختبار الفرضيات، والتحقق من صحة الافتراضات باستخدام مجموعة من التقنيات الإحصائية والرسومية. علاوة على ذلك، فإنه يتيح اكتشاف مشكلات جودة البيانات، مثل السجلات المكررة، والتي يمكن تصحيحها قبل التقدم إلى تحليل أكثر تفصيلاً.
خاتمة
يتيح تحليل البيانات الاستكشافية (EDA) تحويل البيانات إلى رؤى قابلة للتنفيذ. يمكن تطبيقه على أي نوع من البيانات - منظمة، غير منظمة، أو شبه منظمة - على الرغم من أن الأدوات والتقنيات قد تختلف. تسمح هذه العملية لعلماء البيانات والمحللين بفحص مجموعة البيانات من وجهات نظر متعددة، دون أي افتراضات مسبقة حول محتواها.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3