Scikit-learn을 사용한 주택 가격 예측: 완전한 가이드

첫 장 > 프로그램 작성 > Scikit-learn을 사용한 주택 가격 예측: 완전한 가이드

Scikit-learn을 사용한 주택 가격 예측: 완전한 가이드

2024-11-02에 게시됨

검색:457

Predicting House Prices with Scikit-learn: A Complete Guide

머신러닝은 부동산을 포함한 다양한 산업을 변화시키고 있습니다. 일반적인 작업 중 하나는 침실 수, 욕실 수, 면적, 위치 등 다양한 특성을 기반으로 주택 가격을 예측하는 것입니다. 이 기사에서는 scikit-learn을 사용하여 주택 가격을 예측하는 기계 학습 모델을 구축하는 방법을 살펴보고 데이터 전처리부터 모델 배포까지 모든 측면을 다룹니다.

1. 사이킷런 소개

Scikit-learn은 Python의 기계 학습에 가장 널리 사용되는 라이브러리 중 하나입니다. 데이터 분석 및 모델링을 위한 간단하고 효율적인 도구를 제공합니다. 분류, 회귀, 클러스터링 또는 차원 축소를 처리하는 경우 scikit-learn은 강력한 기계 학습 모델을 구축하는 데 도움이 되는 광범위한 유틸리티 세트를 제공합니다.

이 가이드에서는 scikit-learn을 사용하여 주택 가격을 예측하는 회귀 모델을 구축하겠습니다. 프로세스의 각 단계를 살펴보겠습니다.

2. 문제 정의

당면 과제는 다음과 같은 특성을 기반으로 주택 가격을 예측하는 것입니다.

침실 수
욕실 수
면적(평방피트)
위치

이것은 대상 변수(주택 가격)가 연속적이어서 회귀 작업이 되는 지도 학습 문제입니다. Scikit-learn은 이 프로젝트에서 사용할 선형 회귀 및 Random Forest와 같은 다양한 회귀 알고리즘을 제공합니다.

3. 데이터 수집

Kaggle 주택 가격 데이터 세트와 같은 실제 데이터 세트를 사용하거나 공개 API에서 자체 데이터를 수집할 수 있습니다.

다음은 데이터가 어떻게 보일지에 대한 샘플입니다.

침실	욕실	면적(평방피트)	위치	가격($)
3	2	1500	보스턴	300,000
4	3	2000	시애틀	500,000

여기서 대상 변수는 가격입니다.

4. 데이터 전처리

머신러닝 모델에 데이터를 공급하기 전에 사전 처리가 필요합니다. 여기에는 누락된 값 처리, 범주형 특성 인코딩, 데이터 크기 조정이 포함됩니다.

누락된 데이터 처리

실제 데이터세트에서는 데이터 누락이 흔히 발생합니다. 중앙값과 같은 통계 측정값으로 누락된 값을 채우거나 누락된 데이터가 있는 행을 삭제할 수 있습니다.

data.fillna(data.median(), inplace=True)

범주형 기능 인코딩

머신러닝 모델에는 숫자 입력이 필요하므로 위치와 같은 범주형 특성을 숫자로 변환해야 합니다. 라벨 인코딩은 각 카테고리에 고유 번호를 할당합니다.

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
data['Location'] = encoder.fit_transform(data['Location'])

기능 스케일링

면적 및 가격과 같은 특성의 크기를 조정하여 동일한 크기를 유지하는 것이 중요합니다. 특히 특성 크기에 민감한 알고리즘의 경우 더욱 그렇습니다. 스케일링을 적용하는 방법은 다음과 같습니다.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. 기능 선택

모든 기능이 대상 변수에 동일하게 기여하는 것은 아닙니다. 특징 선택은 가장 중요한 특징을 식별하는 데 도움이 되어 모델 성능을 향상시키고 과적합을 줄입니다.

이 프로젝트에서는 SelectKBest를 사용하여 대상 변수와의 상관 관계를 기반으로 상위 5개 기능을 선택합니다.

from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

6. 모델 훈련

이제 데이터를 사전 처리하고 최상의 기능을 선택했으므로 모델을 학습할 차례입니다. 우리는 두 가지 회귀 알고리즘을 사용합니다: 선형 회귀 및 Random Forest.

선형 회귀

선형 회귀는 데이터를 직선으로 연결하여 예측 값과 실제 값 간의 차이를 최소화합니다.

from sklearn.linear_model import LinearRegression
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

랜덤 포레스트

랜덤 포레스트(Random Forest)는 여러 의사결정 트리를 사용하고 그 결과를 평균화하여 정확도를 높이고 과적합을 줄이는 앙상블 방법입니다.

from sklearn.ensemble import RandomForestRegressor
forest_model = RandomForestRegressor(n_estimators=100)
forest_model.fit(X_train, y_train)

훈련-테스트 분할

모델이 얼마나 잘 일반화되는지 평가하기 위해 데이터를 학습 세트와 테스트 세트로 분할합니다.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

7. 모델 평가

모델을 훈련한 후 평균 제곱 오차(MSE) 및 R 제곱(R²)

과 같은 측정항목을 사용하여 모델 성능을 평가해야 합니다.

평균 제곱 오차(MSE)

MSE는 예측 값과 실제 값 간의 평균 제곱 차이를 계산합니다. MSE가 낮을수록 성능이 향상됩니다.

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

R 제곱(R²)

R²는 모델이 목표 변수의 분산을 얼마나 잘 설명하는지 알려줍니다. 값이 1이면 완벽한 예측을 의미합니다.

from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)

이러한 측정항목을 사용하여 선형 회귀 및 랜덤 포레스트 모델의 성능을 비교합니다.

8. 모델 튜닝(하이퍼파라미터 최적화)

모델 성능을 더욱 향상시키기 위해 하이퍼파라미터를 미세 조정할 수 있습니다. Random Forest의 경우 n_estimators(트리 수) 및 max_length(트리의 최대 깊이)와 같은 하이퍼 매개변수가 성능에 큰 영향을 미칠 수 있습니다.

초매개변수 최적화를 위해 GridSearchCV를 사용하는 방법은 다음과 같습니다.

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20]
}

grid_search = GridSearchCV(RandomForestRegressor(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_model = grid_search.best_estimator_

9. 모델 배포

모델을 훈련하고 조정한 후 다음 단계는 배포입니다. Flask를 사용하여 예측을 제공하는 간단한 웹 애플리케이션을 만들 수 있습니다.

다음은 주택 가격 예측을 제공하는 기본 Flask 앱입니다.

from flask import Flask, request, jsonify
import joblib

app = Flask(__name__)

# Load the trained model
model = joblib.load('best_model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    prediction = model.predict([data['features']])
    return jsonify({'predicted_price': prediction[0]})

if __name__ == '__main__':
    app.run()

joblib:
를 사용하여 훈련된 모델을 저장합니다.

import joblib
joblib.dump(best_model, 'best_model.pkl')

이렇게 하면 API에 요청을 보내 예측을 할 수 있습니다.

10. 결론

이 프로젝트에서는 주택 가격을 예측하기 위해 scikit-learn을 사용하여 머신러닝 모델을 구축하는 전체 프로세스를 탐색했습니다. 데이터 전처리 및 기능 선택부터 모델 학습, 평가, 배포까지 각 단계를 실제 코드 예제로 다루었습니다.

머신러닝을 처음 접하는 사람이든 실제 프로젝트에 scikit-learn을 적용하려는 사람이든 이 가이드는 다양한 회귀 작업에 적응할 수 있는 포괄적인 워크플로를 제공합니다.

모델의 성능과 정확성을 향상시키기 위해 다양한 모델, 데이터세트, 기술을 자유롭게 실험해 보세요.

회귀 #AI #데이터 분석 #데이터 전처리 #MLModel #RandomForest #LinearRegression #Flask #APIDevelopment #RealEstate #TechBlog #Tutorial #DataEngineering #DeepLearning #PredictiveAnalytics #DevCommunity

릴리스 선언문 이 기사는 https://dev.to/amitchandra/predicting-house-prices-with-scikit-learn-a-complete-guide-2kd7?1에 복제되어 있습니다. 침해가 있는 경우에는 [email protected]으로 문의하시기 바랍니다. 그것을 삭제하려면

최신 튜토리얼 더>

`JSON '패키지를 사용하여 이동하는 JSON 어레이를 구문 분석하는 방법은 무엇입니까?
JSON 어레이를 Parsing JSON 패키지 문제 : JSON 패키지를 사용하여 어레이를 나타내는 JSON 스트링을 어떻게 구문 분석 할 수 있습니까? 예 : type JsonType struct { Array []string ...

프로그램 작성 2025-04-25에 게시되었습니다
동시에 비동기 작업을 동시에 실행하고 JavaScript에서 오류를 올바르게 처리하는 방법은 무엇입니까?
동시 동시 대기 업무 수행 실행 비동기 작업을 수행 할 때 문제가 발생합니다. getValue2async (); 이 구현은 다음 작업을 시작하기 전에 각 작업의 완료를 순차적으로 기다립니다. 동시 실행을 가능하게하려면 수정 된 접근 방식...

프로그램 작성 2025-04-25에 게시되었습니다
순수한 CS로 여러 끈적 끈적한 요소를 서로 쌓을 수 있습니까?
순수한 CSS에서 서로 위에 여러 개의 끈적 끈적 요소가 쌓일 수 있습니까? 원하는 동작을 볼 수 있습니다. 여기 : https://webthemez.com/demo/sticky-multi-header-scroll/index.html Java...

프로그램 작성 2025-04-25에 게시되었습니다
$\ "(1) 대 (;;) : 컴파일러 최적화는 성능 차이를 제거합니까? \"$
\ "(1) 대 (;;) : 컴파일러 최적화는 성능 차이를 제거합니까? \"
대답 : 대부분의 최신 컴파일러에는 (1)과 (;;). 컴파일러 : s-> 7 8 v-> 4를 풀립니다 -e syntax ok gcc : GCC에서 두 루프는 다음과 같이 동일한 어셈블리 코드로 컴파일합니다. . t_while : ...

프로그램 작성 2025-04-25에 게시되었습니다
동적 인 크기의 부모 요소 내에서 요소의 스크롤 범위를 제한하는 방법은 무엇입니까?
문제 : 고정 된 사이드 바로 조정을 유지하면서 사용자의 수직 스크롤과 함께 이동하는 스크롤 가능한 맵 디브가있는 레이아웃을 고려합니다. 그러나 맵의 스크롤은 뷰포트의 높이를 초과하여 사용자가 페이지 바닥 글에 액세스하는 것을 방지합니다. ...

프로그램 작성 2025-04-25에 게시되었습니다
regex를 사용하여 PHP에서 괄호 안에서 텍스트를 추출하는 방법
$ fullstring = "이 (텍스트)을 제외한 모든 것을 무시하는 것"; $ start = strpos ( ', $ fullstring); $ fullString); $ shortstring = substr ($ fulls...

프로그램 작성 2025-04-25에 게시되었습니다
전체 HTML 문서에서 특정 요소 유형의 첫 번째 인스턴스를 어떻게 스타일링하려면 어떻게해야합니까?
javascript 솔루션 < /h2> : 최초의 유형 문서 전체를 달성합니다 유형의 첫 번째 요소와 일치하는 JavaScript 솔루션이 필요합니다. 문서에서 첫 번째 일치 요소를 선택하고 사용자 정의를 적용 할 수 있습니다. 그런 ...

프로그램 작성 2025-04-25에 게시되었습니다
SQLALCHEMY 필터 조항에서 'Flake8'플래킹 부울 비교가 된 이유는 무엇입니까?
제공된 예에서 데이터베이스 테이블의 부울 필드 (Obsoleted)는 비 공급 테스트 사례를 결정하는 데 사용됩니다. 이 코드는 필터 절에서 테스트 케이스를 사용합니다. casenum = session.query (testcase) .filter (testc...

프로그램 작성 2025-04-25에 게시되었습니다
PHP를 사용하여 XML 파일에서 속성 값을 효율적으로 검색하려면 어떻게해야합니까?
옵션> 1 varnum "varnum"을 복원 할 수 있습니다. stumped. 이 기능은 XML 요소의 속성에 대한 액세스를 연관 배열로 제공합니다. $ xml = simplexml_load_file ($ file);...

프로그램 작성 2025-04-25에 게시되었습니다
MySQL에서 데이터를 피벗하여 그룹을 어떻게 사용할 수 있습니까?
select d.data_timestamp, sum (data_id = 1 that data_value else 0 End), 'input_1'로 0 End), sum (data_id = 2 an Els.] d.data_timestamp ...

프로그램 작성 2025-04-25에 게시되었습니다
선형 구배 배경에 줄무늬가있는 이유는 무엇이며 어떻게 고칠 수 있습니까?
수직 지향적 구배의 경우, 신체 요소의 마진은 HTML 요소로 전파되어 8px 키가 큰 영역을 초래합니다. 그 후, 선형 등급은이 전체 높이에 걸쳐 확장되어 반복 패턴을 생성합니다. 솔루션 : 이 문제를 해결하기 위해 신체 요소에 충분한 높이가 있는지...

프로그램 작성 2025-04-25에 게시되었습니다
PHP를 사용하여 Blob (이미지)을 MySQL에 올바르게 삽입하는 방법은 무엇입니까?
문제 $ sql = "삽입 ImagesTore (imageId, image) 값 ( '$ this- & gt; image_id', 'file_get_contents ($ tmp_image)'; 결과적으로 실제 이...

프로그램 작성 2025-04-25에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-04-25에 게시되었습니다
파이썬에서 문자열에서 이모티콘을 제거하는 방법 : 일반적인 오류 수정에 대한 초보자 가이드?
Codecs 가져 오기. 가져 오기 re text = codecs.decode ( '이 개 \ u0001f602'.encode ('utf-8 '),'utf-8 ') 인쇄 (텍스트) # 이모티콘으로 emoji_patter...

프로그램 작성 2025-04-25에 게시되었습니다
$PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?$
PHP \의 기능 재정의 제한을 극복하는 방법은 무엇입니까?
return $ a * $ b; } 그러나 PHP 도구 벨트에는 숨겨진 보석이 있습니다. runkit_function_rename () runkit_function_rename ( 'this', 'that'); run...

프로그램 작성 2025-04-25에 게시되었습니다