مقدمة
استنادًا إلى الهدف النهائي الذي لديك بشأن بياناتك كنتيجة لنموذج التعلم الآلي، وتطوير المرئيات ودمج التطبيقات سهلة الاستخدام، فإن تطوير الطلاقة في البيانات في بداية المشروع سيعزز النجاح النهائي.
أساسيات جمعية الإمارات للغوص
هذا هو المكان الذي نتعلم فيه كيف تكون ضرورة المعالجة المسبقة للبيانات مفيدة لمحللي البيانات.
ونظرًا لضخامة المصادر وتنوعها، فمن المرجح أن تكون بيانات اليوم غير طبيعية. أصبحت المعالجة المسبقة للبيانات هي المرحلة الأساسية في مجال علم البيانات حيث أن البيانات عالية الجودة تؤدي إلى نماذج وتنبؤات أكثر قوة.
تحليل البيانات الاستكشافية هو أداة عالم البيانات لمعرفة ما يمكن أن تكشفه البيانات خارج مهمة النمذجة الرسمية أو اختبار الافتراضات.
يجب على عالم البيانات دائمًا إجراء EDA لضمان الحصول على نتائج موثوقة وقابلة للتطبيق على أي نتائج وأهداف مؤثرة. كما أنها تساعد العلماء والمحللين في التأكد من أنهم يسيرون على المسار الصحيح لتحقيق النتائج المرجوة.
بعض الأمثلة على أسئلة البحث التي توجه الدراسة هي:
1.هل هناك أي تأثير كبير للمعالجة المسبقة للبيانات
أساليب التحليل - القيم المفقودة، مجموع القيم، تصفية البيانات، القيم المتطرفة، تحويل المتغير، وتقليل المتغير - على نتائج دقيقة لتحليل البيانات؟
2. على أي مستوى مهم يكون تحليل البيانات المعالجة مسبقًا ضروريًا في الدراسات البحثية؟
مقاييس تحليل البيانات الاستكشافية وأهميتها
1.تصفية البيانات
هذه هي ممارسة اختيار قسم أصغر من مجموعة البيانات واستخدام تلك المجموعة الفرعية للعرض أو التحليل. يتم الاحتفاظ بمجموعة البيانات الكاملة، ولكن يتم استخدام مجموعة فرعية منها فقط للحساب؛ عادةً ما تكون التصفية إجراءً مؤقتًا. يمكن تلخيص اكتشاف الملاحظات غير الدقيقة أو غير الصحيحة أو دون المستوى من الدراسة، أو استخراج البيانات لمجموعة اهتمامات محددة، أو البحث عن معلومات لفترة محددة باستخدام المرشحات. يجب على عالم البيانات تحديد قاعدة أو منطق أثناء التصفية لاستخراج الحالات للدراسة.
2.تجميع البيانات
يتطلب تجميع البيانات جمع البيانات غير المعالجة في مكان واحد وتلخيصها للتحليل. يؤدي تجميع البيانات إلى زيادة القيمة المعلوماتية والعملية والقابلة للاستخدام للبيانات. غالبًا ما يتم استخدام منظور المستخدم التقني لتعريف العبارة. تجميع البيانات هو عملية دمج البيانات غير المعالجة من العديد من قواعد البيانات أو مصادر البيانات في قاعدة بيانات مركزية في حالة المحلل أو المهندس. ثم يتم إنشاء الأرقام الإجمالية من خلال الجمع بين البيانات الأولية. المبلغ أو المتوسط هو رسم توضيحي مباشر للقيمة الإجمالية. يتم استخدام البيانات المجمعة في التحليل وإعداد التقارير ولوحة المعلومات ومنتجات البيانات الأخرى. يمكن أن يؤدي تجميع البيانات إلى زيادة الإنتاجية، وصنع القرار، والوقت اللازم للتوصل إلى رؤية ثاقبة.
3.البيانات المفقودة
في تحليلات البيانات، القيم المفقودة هي اسم آخر للقيم المفقودة
بيانات. ويحدث ذلك عندما يتم استبعاد أو تخطي متغيرات أو مجيبين محددين. يمكن أن يحدث الإغفال بسبب إدخال البيانات بشكل غير صحيح، أو الملفات المفقودة، أو التكنولوجيا المعطلة. يمكن أن تؤدي البيانات المفقودة بشكل متقطع إلى انحياز النموذج، اعتمادًا على نوعها، مما يجعلها مشكلة. تشير البيانات المفقودة إلى أنه بما أن البيانات قد تكون جاءت من عينة مضللة في بعض الأحيان، فقد تكون النتائج قابلة للتعميم فقط ضمن معايير الدراسة. لضمان الاتساق عبر مجموعة البيانات بأكملها، من الضروري إعادة ترميز جميع القيم المفقودة بتسميات "N/A" (اختصار لـ "غير قابل للتطبيق").
4.تحويل البيانات
تتم إعادة قياس البيانات باستخدام دالة أو دالة رياضية أخرى
العملية على كل ملاحظة أثناء التحول. نحن
قم أحيانًا بتغيير البيانات لتسهيل عملية النمذجة عندما
منحرف بشكل كبير جدًا (إما إيجابًا أو سلبًا).
بمعنى آخر، ينبغي للمرء أن يحاول تحويل البيانات لتتناسب مع افتراض تطبيق اختبار إحصائي حدودي إذا
المتغير (المتغيرات) لا يتناسب مع التوزيع الطبيعي. تحويل البيانات الأكثر شيوعًا هو السجل (أو السجل الطبيعي)، والذي يتم استخدامه بشكل متكرر عندما تكون جميع الملاحظات إيجابية، وتتجمع معظم قيم البيانات حول الصفر فيما يتعلق بالقيم الأكثر أهمية في مجموعة البيانات.
رسم بياني توضيحي
تقنيات التصور في جمعية الإمارات للغوص
تلعب تقنيات التصور دورًا أساسيًا في EDA، مما يتيح لنا استكشاف وفهم هياكل البيانات والعلاقات المعقدة بصريًا. بعض تقنيات التصور الشائعة المستخدمة في EDA هي:
1.الرسوم البيانية:
الرسوم البيانية هي تمثيلات رسومية توضح توزيع المتغيرات الرقمية. فهي تساعد على فهم الاتجاه المركزي وانتشار البيانات من خلال تصور التوزيع التكراري.
2.Boxplots: Boxplot هو رسم بياني يوضح توزيع متغير رقمي. تساعد تقنية التصور هذه في تحديد أي قيم متطرفة وفهم انتشار البيانات من خلال تصور شرائحها الربعية.
3.الخرائط الحرارية: هي تمثيلات رسومية للبيانات تمثل فيها الألوان القيم. غالبًا ما يتم استخدامها لعرض مجموعات البيانات المعقدة، مما يوفر طريقة سريعة وسهلة لتصور الأنماط والاتجاهات في كميات كبيرة من البيانات.
4.المخططات الشريطية: المخطط الشريطي هو رسم بياني يوضح توزيع متغير فئوي. يتم استخدامه لتصور التوزيع التكراري للبيانات، مما يساعد على فهم التكرار النسبي لكل فئة.
5.المخططات الخطية: المخطط الخطي هو رسم بياني يوضح اتجاه متغير رقمي بمرور الوقت. يتم استخدامه لتصور التغييرات في البيانات مع مرور الوقت وتحديد أي أنماط أو اتجاهات.
5.المخططات الدائرية: المخططات الدائرية هي رسم بياني يعرض نسبة المتغير الفئوي. يتم استخدامه لتصور النسبة النسبية لكل فئة وفهم توزيع البيانات.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3