Прогнозирование цен на жилье с помощью Scikit-learn: полное руководство

титульная страница > программирование > Прогнозирование цен на жилье с помощью Scikit-learn: полное руководство

Прогнозирование цен на жилье с помощью Scikit-learn: полное руководство

Опубликовано 2 ноября 2024 г.

Просматривать:858

Predicting House Prices with Scikit-learn: A Complete Guide

Машинное обучение трансформирует различные отрасли, включая недвижимость. Одной из распространенных задач является прогнозирование цен на жилье на основе различных характеристик, таких как количество спален, ванных комнат, площадь в квадратных метрах и местоположение. В этой статье мы рассмотрим, как построить модель машинного обучения с использованием scikit-learn для прогнозирования цен на жилье, охватывая все аспекты, от предварительной обработки данных до развертывания модели.

Введение в Scikit-learn
Определение проблемы
Сбор данных
Предварительная обработка данных
Выбор функций
Обучение модели
Оценка модели
Настройка модели (оптимизация гиперпараметров)
Развертывание модели
Заключение

1. Введение в Scikit-learn

Scikit-learn — одна из наиболее широко используемых библиотек для машинного обучения на Python. Он предлагает простые и эффективные инструменты для анализа и моделирования данных. Независимо от того, имеете ли вы дело с классификацией, регрессией, кластеризацией или уменьшением размерности, scikit-learn предоставляет обширный набор утилит, которые помогут вам построить надежные модели машинного обучения.

В этом руководстве мы построим модель регрессии с использованием scikit-learn для прогнозирования цен на жилье. Давайте пройдемся по каждому этапу процесса.

2. Определение проблемы

Решаемая задача — спрогнозировать цену дома на основе его характеристик, таких как:

Количество спален
Количество ванных комнат
Площадь (в квадратных футах)
Расположение

Это задача обучения с учителем, в которой целевая переменная (цена дома) является непрерывной, что делает ее задачей регрессии. Scikit-learn предоставляет различные алгоритмы регрессии, такие как Линейная регрессия и Случайный лес, которые мы будем использовать в этом проекте.

3. Сбор данных

Вы можете использовать реальный набор данных, например набор данных Kaggle House Prices, или собрать собственные данные из общедоступного API.

Вот пример того, как могут выглядеть ваши данные:

Спальни	Ванные комнаты	Площадь (кв.футы)	Расположение	Цена ($)
3	2	1500	Бостон	300 000
4	3	2000	Сиэтл	500 000

Целевой переменной здесь является Цена.

4. Предварительная обработка данных

Прежде чем подавать данные в модель машинного обучения, нам необходимо их предварительно обработать. Сюда входит обработка пропущенных значений, кодирование категориальных признаков и масштабирование данных.

Обработка недостающих данных

Отсутствующие данные часто встречаются в реальных наборах данных. Мы можем либо заполнить недостающие значения статистической мерой, например медианой, либо удалить строки с отсутствующими данными:

data.fillna(data.median(), inplace=True)

Кодирование категориальных функций

Поскольку модели машинного обучения требуют числового ввода, нам необходимо преобразовать категориальные функции, такие как местоположение, в числа. Кодировка метки присваивает каждой категории уникальный номер:

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
data['Location'] = encoder.fit_transform(data['Location'])

Масштабирование функций

Важно масштабировать такие функции, как площадь и цена, чтобы гарантировать, что они находятся в одном масштабе, особенно для алгоритмов, чувствительных к величине объекта. Вот как мы применяем масштабирование:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. Выбор функции

Не все функции в равной степени влияют на целевую переменную. Выбор функций помогает определить наиболее важные функции, что повышает производительность модели и уменьшает переобучение.

В этом проекте мы используем SelectKBest для выбора 5 лучших функций на основе их корреляции с целевой переменной:

from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

6. Модельное обучение

Теперь, когда мы предварительно обработали данные и выбрали лучшие функции, пришло время обучить модель. Мы будем использовать два алгоритма регрессии: Линейная регрессия и Случайный лес.

Линейная регрессия

Линейная регрессия проводит прямую линию через данные, сводя к минимуму разницу между прогнозируемыми и фактическими значениями:

from sklearn.linear_model import LinearRegression
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

Случайный лес

Случайный лес — это ансамблевый метод, который использует несколько деревьев решений и усредняет их результаты для повышения точности и уменьшения переобучения:

from sklearn.ensemble import RandomForestRegressor
forest_model = RandomForestRegressor(n_estimators=100)
forest_model.fit(X_train, y_train)

Поезд-Тестовый Сплит

Чтобы оценить, насколько хорошо наши модели обобщают, мы разделили данные на обучающий и тестовый наборы:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

7. Оценка модели

После обучения моделей нам необходимо оценить их производительность с помощью таких показателей, как Среднеквадратическая ошибка (MSE) и R-квадрат (R²).

Среднеквадратическая ошибка (MSE)

MSE вычисляет среднеквадратичную разницу между прогнозируемыми и фактическими значениями. Более низкий MSE указывает на лучшую производительность:

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

R-квадрат (R²)

R² показывает, насколько хорошо модель объясняет дисперсию целевой переменной. Значение 1 означает идеальный прогноз:

from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)

Сравните производительность моделей линейной регрессии и случайного леса, используя эти показатели.

8. Настройка модели (оптимизация гиперпараметров)

Чтобы еще больше повысить производительность модели, мы можем точно настроить гиперпараметры. Для случайного леса такие гиперпараметры, как n_estimators (количество деревьев) и max_eep (максимальная глубина деревьев), могут существенно повлиять на производительность.

Вот как использовать GridSearchCV для оптимизации гиперпараметров:

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20]
}

grid_search = GridSearchCV(RandomForestRegressor(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_model = grid_search.best_estimator_

9. Развертывание модели

После того как вы обучили и настроили модель, следующим шагом станет ее развертывание. Вы можете использовать Flask для создания простого веб-приложения, предоставляющего прогнозы.

Вот базовое приложение Flask для прогнозирования цен на жилье:

from flask import Flask, request, jsonify
import joblib

app = Flask(__name__)

# Load the trained model
model = joblib.load('best_model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    prediction = model.predict([data['features']])
    return jsonify({'predicted_price': prediction[0]})

if __name__ == '__main__':
    app.run()

Сохраните обученную модель, используя joblib:

import joblib
joblib.dump(best_model, 'best_model.pkl')

Таким образом, вы можете делать прогнозы, отправляя запросы к API.

10. Заключение

В этом проекте мы исследовали весь процесс построения модели машинного обучения с использованием scikit-learn для прогнозирования цен на жилье. От предварительной обработки данных и выбора функций до обучения, оценки и развертывания модели — каждый шаг был покрыт практическими примерами кода.

Независимо от того, являетесь ли вы новичком в машинном обучении или хотите применить scikit-learn в реальных проектах, в этом руководстве представлен комплексный рабочий процесс, который вы можете адаптировать для различных задач регрессии.

Не стесняйтесь экспериментировать с различными моделями, наборами данных и методами, чтобы повысить производительность и точность вашей модели.

Регрессия #AI #DataAnaанализ #DataPreprocessing #MLModel #RandomForest #LinearReгрессия #Flask #APIDevelopment #RealEstate #TechBlog #Tutorial #DataEngineering #DeepLearning #PredictiveAnalytics #DevCommunity

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/amitchandra/predicting-house-prices-with-scikit-learn-a-complete-guide-2kd7?1 Если есть какие-либо нарушения, пожалуйста, свяжитесь с [email protected] удалить его

Последний учебник Более>

Использование WebSockets в Go для общения в реальном времени
Создание приложений, требующих обновлений в режиме реального времени, таких как приложения чата, живые уведомления или инструменты для совместной рабо...

программирование Опубликовано 4 января 2025 г.
Что случилось со смещением столбцов в бета-версии Bootstrap 4?
Bootstrap 4 Beta: удаление и восстановление смещения столбцовBootstrap 4 в своей бета-версии 1 внес существенные изменения в способ столбцы были смеще...

программирование Опубликовано 4 января 2025 г.
Как исправить «Неправильно сконфигурировано: ошибка загрузки модуля MySQLdb» в Django на macOS?
Неправильная настройка MySQL: проблема с относительными путямиПри запуске сервера запуска Python Manage.py в Django вы можете столкнуться со следующей...

программирование Опубликовано 4 января 2025 г.
Как я могу найти пользователей, у которых сегодня дни рождения, используя MySQL?
Как определить пользователей с сегодняшним днем рождения с помощью MySQLОпределение того, является ли сегодня день рождения пользователя с помощью M...

программирование Опубликовано 4 января 2025 г.
Множество
Методы — это fns, которые можно вызывать на объектах Массивы — это объекты, поэтому в JS у них тоже есть методы. срез (начало): извлечь часть ...

программирование Опубликовано 4 января 2025 г.
Помимо операторов if: где еще можно использовать тип с явным преобразованием bool без приведения?
Контекстное преобразование в bool разрешено без приведения Ваш класс определяет явное преобразование в bool, что позволяет использовать его экземпляр ...

программирование Опубликовано 4 января 2025 г.
Как объединить два ассоциативных массива в PHP, сохранив при этом уникальные идентификаторы и обработав повторяющиеся имена?
Объединение ассоциативных массивов в PHPВ PHP объединение двух ассоциативных массивов в один — распространенная задача. Рассмотрим следующий запрос:Оп...

программирование Опубликовано 4 января 2025 г.
Как удалить строки с нулевыми значениями из столбца DataFrame Pandas?
Удаление нулевых значений из столбца DataFrame PandasЧтобы удалить строки из DataFrame Pandas на основе нулевых значений в определенном столбце, выпол...

программирование Опубликовано 1 января 2025 г.
Как я могу правильно ввести Assert фрагмента значений интерфейса в Go?
Тип, утверждающий фрагмент значений интерфейсаВ программировании часто встречаются ситуации, когда вам нужно ввести утверждение фрагмента значений инт...

программирование Опубликовано 1 января 2025 г.
Почему `list.sort()` возвращает `None` и как мне получить отсортированный список?
Понимание метода Sort() и его возвращаемого значенияПри попытке отсортировать и вернуть список уникальных слов вы можете столкнуться с распространенна...

программирование Опубликовано 1 января 2025 г.
Как сделать регулярное выражение preg_match нечувствительным к регистру?
Сделать preg_match нечувствительным к региструВ фрагменте кода, приведенном в вопросе, чувствительность к регистру препятствует достижению желаемого р...

программирование Опубликовано 1 января 2025 г.
Как DocumentFilter может эффективно ограничить ввод JTextField целыми числами?
Фильтрация входных данных JTextField в целые числа: эффективный подход с DocumentFilterХотя использование прослушивателя ключей для проверки числового...

программирование Опубликовано 1 января 2025 г.
Как установить `ulimit -n` из программы Go?
Как установить ulimit -n из программы golang?Функция syscall.Setrlimit Go позволяет установить ulimit -n из программы Go. Это позволяет настраивать ог...

программирование Опубликовано 31 декабря 2024 г.
Почему Java странно печатает массивы и как правильно распечатать их содержимое?
Странная печать массивов в JavaВ Java массивы — это больше, чем просто набор значений. Это объекты с определенным поведением и представлением. Когда в...

программирование Опубликовано 31 декабря 2024 г.
Управление сессиями в PHP с помощью Lithe: от базовой настройки до расширенного использования
Когда мы говорим о веб-приложениях, одной из первых задач является сохранение информации о пользователях во время навигации по страницам. Именно здесь...

программирование Опубликовано 31 декабря 2024 г.