كيف أختار بين الموديلات المختلفة؟
تساعد عملية تقييم التعلم الآلي في تحديد مدى موثوقية النموذج وفعاليته في تطبيقه. يتضمن ذلك تقييم عوامل مختلفة مثل أدائها ومقاييسها ودقتها للتنبؤات أو اتخاذ القرار.
بغض النظر عن النموذج الذي تختار استخدامه، فأنت بحاجة إلى طريقة للاختيار بين النماذج: أنواع النماذج المختلفة، ومعلمات الضبط، والميزات. تحتاج أيضًا إلى إجراء تقييم النموذج لتقدير مدى نجاح النموذج في التعميم على البيانات غير المرئية. وأخيرًا، تحتاج إلى إجراء تقييم للاقتران مع الإجراء الخاص بك في إجراءات أخرى لتحديد أداء النموذج الخاص بك.
قبل أن نواصل، دعونا نراجع بعض إجراءات تقييم النماذج المختلفة وكيفية عملها.
مما سبق نستنتج أن:
يعد التدريب والاختبار على نفس البيانات سببًا كلاسيكيًا للتجاوز حيث تقوم ببناء نموذج معقد للغاية لن يتم تعميمه على البيانات الجديدة وهذا ليس مفيدًا في الواقع.
يوفر Train_Test_Split تقديرًا أفضل بكثير للأداء خارج العينة.
يعمل التحقق المتبادل من K-fold بشكل أفضل من خلال تقسيم اختبار K Train بشكل منهجي وحساب متوسط النتائج معًا.
باختصار، لا يزال Train_tests_split مربحًا للتحقق من الصحة نظرًا لسرعته وبساطته، وهذا ما سنستخدمه في هذا الدليل التعليمي.
ستحتاج دائمًا إلى مقياس تقييم ليتماشى مع الإجراء الذي اخترته، ويعتمد اختيارك للمقياس على المشكلة التي تعالجها. بالنسبة لمشاكل التصنيف، يمكنك استخدام دقة التصنيف. لكننا سنركز على مقاييس تقييم التصنيف المهمة الأخرى في هذا الدليل.
قبل أن نتعلم أي مقاييس تقييم جديدة، دعونا نراجع دقة التصنيف، ونتحدث عن نقاط القوة والضعف فيه.
لقد اخترنا مجموعة بيانات مرض السكري لهنود بيما لهذا البرنامج التعليمي، والتي تتضمن البيانات الصحية وحالة مرض السكري لـ 768 مريضًا.
فلنقرأ البيانات ونطبع أول 5 صفوف من البيانات. يشير عمود التسمية إلى 1 إذا كان المرضى مصابين بالسكري و0 إذا كان المرضى غير مصابين بالسكري، وننوي الإجابة على السؤال:
السؤال: هل يمكننا التنبؤ بحالة مرض السكري لدى المريض بالنظر إلى قياساته الصحية؟
نحن نحدد مقاييس الميزات X ومتجه الاستجابة Y. نستخدم Train_test_split لتقسيم X وY إلى مجموعة تدريب واختبار.
بعد ذلك، نقوم بتدريب نموذج الانحدار اللوجستي على مجموعة التدريب. أثناء خطوة الملاءمة، يتعلم كائن نموذج السجل العلاقة بين X_train وY_train. أخيرًا نقوم بعمل تنبؤات للفصل الدراسي لمجموعات الاختبار.
الآن، قمنا بالتنبؤ بمجموعة الاختبار، ويمكننا حساب دقة التصنيف، وهي ببساطة النسبة المئوية للتنبؤات الصحيحة.
ومع ذلك، في أي وقت تستخدم فيه دقة التصنيف كمقاييس تقييم، من المهم مقارنتها بـ الدقة الخالية، وهي الدقة التي يمكن تحقيقها من خلال التنبؤ دائمًا بالفئة الأكثر شيوعًا.
الدقة الخالية تجيب على السؤال؛ إذا كان النموذج الخاص بي يتنبأ بالفصل السائد بنسبة 100% من الوقت، فكم مرة سيكون صحيحًا؟ في السيناريو أعلاه، 32% من y_test هي 1 (آحاد). بمعنى آخر، النموذج الغبي الذي يتنبأ بأن المرضى مصابون بمرض السكري، سيكون صحيحًا بنسبة 68% من الوقت (وهي الأصفار). وهذا يوفر خط الأساس الذي قد نرغب على أساسه في قياس انحدارنا اللوجستي نموذج.
عندما نقارن الدقة الخالية البالغة 68% ودقة النموذج البالغة 69%، فإن نموذجنا لا يبدو جيدًا جدًا. يوضح هذا أحد نقاط الضعف في دقة التصنيف كمقياس لتقييم النموذج. لا تخبرنا دقة التصنيف بأي شيء عن التوزيع الأساسي لاختبار الاختبار.
في ملخص:
دعونا الآن نلقي نظرة على مصفوفة الارتباك.
مصفوفة الارتباك عبارة عن جدول يصف أداء نموذج التصنيف.
من المفيد مساعدتك على فهم أداء المصنف الخاص بك، ولكنه ليس مقياسًا لتقييم النموذج؛ لذلك لا يمكنك إخبار scikit بتعلم اختيار النموذج الذي يحتوي على أفضل مصفوفة ارتباك. ومع ذلك، هناك العديد من المقاييس التي يمكن حسابها من مصفوفة الارتباك ويمكن استخدامها مباشرة للاختيار بين النماذج.
دعونا نشرح بعض مصطلحاته الأساسية.
دعونا نرى كيف يمكننا حساب المقاييس
ختاماً:
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3