как выбирать между разными моделями?
Процесс оценки машинного обучения помогает определить, насколько модель надежна и эффективна для ее применения. Это включает в себя оценку различных факторов, таких как производительность, показатели и точность прогнозов или принятия решений.
Независимо от того, какую модель вы решите использовать, вам нужен способ выбора между моделями: разные типы моделей, параметры настройки и функции. Также вам понадобится процедура оценки модели, чтобы оценить, насколько хорошо модель будет обобщаться на невидимые данные. Наконец, вам нужна процедура оценки, которая будет сочетаться с другой процедурой для количественной оценки эффективности вашей модели.
Прежде чем продолжить, давайте рассмотрим некоторые различные процедуры оценки моделей и то, как они работают.
Из вышесказанного мы можем сделать следующий вывод:
Обучение и тестирование на одних и тех же данных — это классическая причина переобучения, при которой вы строите слишком сложную модель, которая не обобщается на новые данные и на самом деле бесполезна.
Train_Test_Split обеспечивает гораздо лучшую оценку производительности за пределами выборки.
K-кратная перекрестная проверка более эффективна за счет систематического разделения тестов K-поезда и усреднения результатов вместе.
Подводя итог, можно сказать, что train_tests_split по-прежнему выгоден для перекрестной проверки благодаря своей скорости и простоте, и именно это мы и будем использовать в этом учебном руководстве.
Вам всегда понадобится метрика оценки, соответствующая выбранной вами процедуре, и ваш выбор метрики зависит от проблемы, которую вы решаете. Для задач классификации вы можете использовать точность классификации. Но в этом руководстве мы сосредоточимся на других важных показателях оценки классификации.
Прежде чем мы изучим какие-либо новые показатели оценки, давайте рассмотрим точность классификации и поговорим о ее сильных и слабых сторонах.
Для этого руководства мы выбрали набор данных о диабете индейцев пима, который включает данные о состоянии здоровья и статусе диабета 768 пациентов.
Давайте прочитаем данные и распечатаем первые 5 строк данных. В столбце метки указано 1, если у пациента диабет, и 0, если у пациента нет диабета, и мы намерены ответить на вопрос:
Вопрос: Можем ли мы предсказать статус диабета пациента, учитывая его показатели здоровья?
Мы определяем метрики наших функций X и вектор ответа Y. Мы используем train_test_split, чтобы разделить X и Y на наборы для обучения и тестирования.
Далее мы обучаем модель логистической регрессии на обучающем наборе. На этапе подгонки объект модели logreg изучает взаимосвязь между X_train и Y_train. Наконец, мы делаем прогнозы классов для тестовых наборов.
Теперь, когда мы сделали прогноз для тестового набора, мы можем вычислить точность классификации, которая представляет собой просто процент правильных прогнозов.
Однако каждый раз, когда вы используете точность классификации в качестве показателя оценки, важно сравнивать ее с Нулевой точностью, которая представляет собой точность, которой можно достичь, всегда прогнозируя наиболее часто встречающийся класс.
Нулевая точность отвечает на вопрос; если бы моя модель предсказывала преобладающий класс в 100 процентах случаев, как часто она была бы верной? В приведенном выше сценарии 32% числа y_test равны 1 (единицам). Другими словами, глупая модель, предсказывающая, что у пациентов диабет, будет верной в 68% случаев (что равно нулям). Это обеспечивает базовый уровень, относительно которого мы могли бы измерить нашу логистическую регрессию. модель.
Когда мы сравниваем нулевую точность 68% и точность модели 69%, наша модель выглядит не очень хорошо. Это демонстрирует один из недостатков точности классификации как показателя оценки модели. Точность классификации ничего не говорит нам о базовом распределении тестового теста.
В итоге:
Теперь посмотрим на матрицу путаницы.
Матрица путаницы — это таблица, описывающая эффективность модели классификации.
Это полезно, чтобы помочь вам понять производительность вашего классификатора, но это не показатель оценки модели; так что вы не можете сказать scikit научиться выбирать модель с лучшей матрицей путаницы. Однако существует множество показателей, которые можно рассчитать на основе матрицы путаницы и напрямую использовать для выбора между моделями.
Давайте объясним некоторые основные термины.
Давайте посмотрим, как можно рассчитать метрики
В заключение:
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3