¿cómo elijo entre diferentes modelos?
El proceso de evaluación de un aprendizaje automático ayuda a determinar qué tan confiable y efectivo es el modelo para su aplicación. Esto implica evaluar diferentes factores como su rendimiento, métricas y precisión para las predicciones o la toma de decisiones.
No importa qué modelo elijas usar, necesitas una forma de elegir entre modelos: diferentes tipos de modelos, parámetros de ajuste y características. También necesita un procedimiento de evaluación del modelo para estimar qué tan bien se generalizará un modelo a datos invisibles. Por último, necesita un procedimiento de evaluación que combine con su procedimiento para cuantificar el rendimiento de su modelo.
Antes de continuar, revisemos algunos de los diferentes procedimientos de evaluación de modelos y cómo funcionan.
De lo anterior podemos deducir que:
Entrenar y probar con los mismos datos es una causa clásica de sobreajuste en el que se construye un modelo demasiado complejo que no se generalizará a nuevos datos y que en realidad no es útil.
Train_Test_Split proporciona una estimación mucho mejor del rendimiento fuera de muestra.
La validación cruzada de K veces funciona mejor al dividir sistemáticamente las pruebas del tren K y promediar los resultados juntos.
En resumen, train_tests_split sigue siendo rentable para la validación cruzada debido a su velocidad y simplicidad, y eso es lo que usaremos en esta guía tutorial.
Siempre necesitará una métrica de evaluación que acompañe el procedimiento elegido, y su elección de métrica depende del problema que esté abordando. Para problemas de clasificación, puede utilizar la precisión de clasificación. Pero nos centraremos en otras métricas importantes de evaluación de clasificación en esta guía.
Antes de conocer nuevas métricas de evaluación, revisemos la precisión de la clasificación y hablemos sobre sus fortalezas y debilidades.
Hemos elegido el conjunto de datos de diabetes de los indios Pima para este tutorial, que incluye los datos de salud y el estado de diabetes de 768 pacientes.
Leamos los datos e imprimamos las primeras 5 filas de los datos. La columna de la etiqueta indica 1 si el paciente tiene diabetes y 0 si el paciente no tiene diabetes, y pretendemos responder la pregunta:
Pregunta: ¿Podemos predecir el estado de diabetes de un paciente según sus mediciones de salud?
Definimos nuestras métricas de características X y el vector de respuesta Y. Usamos train_test_split para dividir X e Y en un conjunto de entrenamiento y prueba.
A continuación, entrenamos un modelo de regresión logística en un conjunto de entrenamiento. Durante el paso de ajuste, el objeto del modelo logreg aprende la relación entre X_train e Y_train. Finalmente hacemos predicciones de clase para los conjuntos de prueba.
Ahora que hemos hecho predicciones para el conjunto de pruebas, podemos calcular la precisión de la clasificación, que es simplemente el porcentaje de predicciones correctas.
Sin embargo, cada vez que utilice la precisión de la clasificación como métrica de evaluación, es importante compararla con la precisión nula, que es la precisión que se puede lograr prediciendo siempre la clase más frecuente.
Precisión nula responde a la pregunta; Si mi modelo fuera a predecir la clase predominante el 100 por ciento de las veces, ¿con qué frecuencia será correcto? En el escenario anterior, el 32% de y_test son 1 (unidades). En otras palabras, un modelo tonto que predice que los pacientes tienen diabetes acertaría el 68% de las veces (que son los ceros). Esto proporciona una línea de base contra la cual podríamos querer medir nuestra regresión logística. modelo.
Cuando comparamos la precisión nula de 68% y la precisión del modelo de 69%, nuestro modelo no se ve muy bien. Esto demuestra una debilidad de la precisión de la clasificación como métrica de evaluación del modelo. La precisión de la clasificación no nos dice nada sobre la distribución subyacente de la prueba.
En resumen:
Veamos ahora la matriz de confusión.
La matriz de confusión es una tabla que describe el rendimiento de un modelo de clasificación.
Es útil para ayudarle a comprender el rendimiento de su clasificador, pero no es una métrica de evaluación del modelo; entonces no puedes decirle a scikit que aprenda a elegir el modelo con la mejor matriz de confusión. Sin embargo, hay muchas métricas que se pueden calcular a partir de la matriz de confusión y que se pueden usar directamente para elegir entre modelos.
Expliquemos algunas de sus terminologías básicas.
Veamos cómo podemos calcular las métricas
En conclusión:
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3