」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 Scikit-Learn 完成機器學習工作流程:預測加州房價

使用 Scikit-Learn 完成機器學習工作流程:預測加州房價

發佈於2024-10-02
瀏覽:163

介绍

在本文中,我们将使用 Scikit-Learn 演示完整的机器学习项目工作流程。我们将建立一个模型,根据各种特征(例如收入中位数、房屋年龄和平均房间数量)来预测加州的房价。该项目将指导您完成该过程的每个步骤,包括数据加载、探索、模型训练、评估和结果可视化。无论您是想要了解基础知识的初学者,还是想要复习知识的经验丰富的从业者,本文都将为机器学习技术的实际应用提供宝贵的见解。

加州房价预测项目

一、简介

加州房地产市场以其独特的特征和定价动态而闻名。在这个项目中,我们的目标是开发一种机器学习模型来根据各种特征预测房价。我们将使用加州住房数据集,其中包括各种属性,例如收入中位数、房屋年龄、平均房间等。

2. 导入库

在本节中,我们将导入数据操作、可视化和构建机器学习模型所需的库。

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.datasets import fetch_california_housing

3. 加载数据集

我们将加载加州住房数据集并创建一个 DataFrame 来组织数据。目标变量,即房价,将作为新列添加。

# Load the California Housing dataset
california = fetch_california_housing()
df = pd.DataFrame(california.data, columns=california.feature_names)
df['PRICE'] = california.target

4. 随机选择样本

为了保持分析的可管理性,我们将从数据集中随机选择 700 个样本进行研究。

# Randomly Selecting 700 Samples
df_sample = df.sample(n=700, random_state=42)

5.查看我们的数据

本节将提供数据集的概述,显示前五行以了解数据的特征和结构。

# Overview of the data
print("First five rows of the dataset:")
print(df_sample.head())

输出

First five rows of the dataset:
       MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
20046  1.6812      25.0  4.192201   1.022284      1392.0  3.877437     36.06   
3024   2.5313      30.0  5.039384   1.193493      1565.0  2.679795     35.14   
15663  3.4801      52.0  3.977155   1.185877      1310.0  1.360332     37.80   
20484  5.7376      17.0  6.163636   1.020202      1705.0  3.444444     34.28   
9814   3.7250      34.0  5.492991   1.028037      1063.0  2.483645     36.62   

       Longitude    PRICE  
20046    -119.01  0.47700  
3024     -119.46  0.45800  
15663    -122.44  5.00001  
20484    -118.72  2.18600  
9814     -121.93  2.78000  

显示数据框信息

print(df_sample.info())

输出


Index: 700 entries, 20046 to 5350
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   MedInc      700 non-null    float64
 1   HouseAge    700 non-null    float64
 2   AveRooms    700 non-null    float64
 3   AveBedrms   700 non-null    float64
 4   Population  700 non-null    float64
 5   AveOccup    700 non-null    float64
 6   Latitude    700 non-null    float64
 7   Longitude   700 non-null    float64
 8   PRICE       700 non-null    float64
dtypes: float64(9)
memory usage: 54.7 KB

显示摘要统计数据

print(df_sample.describe())

输出

           MedInc    HouseAge    AveRooms   AveBedrms   Population  \
count  700.000000  700.000000  700.000000  700.000000   700.000000   
mean     3.937653   28.855714    5.404192    1.079266  1387.422857   
std      2.085831   12.353313    1.848898    0.236318  1027.873659   
min      0.852700    2.000000    2.096692    0.500000     8.000000   
25%      2.576350   18.000000    4.397751    1.005934   781.000000   
50%      3.480000   30.000000    5.145295    1.047086  1159.500000   
75%      4.794625   37.000000    6.098061    1.098656  1666.500000   
max     15.000100   52.000000   36.075472    5.273585  8652.000000   

         AveOccup    Latitude   Longitude       PRICE  
count  700.000000  700.000000  700.000000  700.000000  
mean     2.939913   35.498243 -119.439729    2.082073  
std      0.745525    2.123689    1.956998    1.157855  
min      1.312994   32.590000 -124.150000    0.458000  
25%      2.457560   33.930000 -121.497500    1.218500  
50%      2.834524   34.190000 -118.420000    1.799000  
75%      3.326869   37.592500 -118.007500    2.665500  
max      7.200000   41.790000 -114.590000    5.000010  

6. 将数据集拆分为训练集和测试集

我们将数据集分为特征(X)和目标变量(y),然后将其分为训练集和测试集,用于模型训练和评估。

# Splitting the dataset into Train and Test sets
X = df_sample.drop('PRICE', axis=1)  # Features
y = df_sample['PRICE']  # Target variable

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

7. 模型训练

在本节中,我们将使用训练数据创建和训练线性回归模型,以了解特征与房价之间的关系。

# Creating and training the Linear Regression model
lr = LinearRegression()
lr.fit(X_train, y_train)

8. 评估模型

我们将对测试集进行预测并计算均方误差(MSE)和R平方值来评估模型的性能。

# Making predictions on the test set
y_pred = lr.predict(X_test)

# Calculating Mean Squared Error
mse = mean_squared_error(y_test, y_pred)
print(f"\nLinear Regression Mean Squared Error: {mse}")

输出

Linear Regression Mean Squared Error: 0.3699851092128846

9. 显示实际值与预测值

在这里,我们将创建一个 DataFrame 来比较实际房价与模型生成的预测价格。

# Displaying Actual vs Predicted Values
results = pd.DataFrame({'Actual Prices': y_test.values, 'Predicted Prices': y_pred})
print("\nActual vs Predicted:")
print(results)

输出

Actual vs Predicted:
     Actual Prices  Predicted Prices
0          0.87500          0.887202
1          1.19400          2.445412
2          5.00001          6.249122
3          2.78700          2.743305
4          1.99300          2.794774
..             ...               ...
135        1.62100          2.246041
136        3.52500          2.626354
137        1.91700          1.899090
138        2.27900          2.731436
139        1.73400          2.017134

[140 rows x

 2 columns]

10. 可视化结果

在最后一节中,我们将使用散点图可视化实际房价和预测房价之间的关系,以直观地评估模型的性能。

# Visualizing the Results
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, color='blue')
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.title('Actual vs Predicted House Prices')

# Draw the ideal line
plt.plot([0, 6], [0, 6], color='red', linestyle='--')

# Set limits to minimize empty space
plt.xlim(y_test.min() - 1, y_test.max()   1)
plt.ylim(y_test.min() - 1, y_test.max()   1)

plt.grid()
plt.show()

Complete Machine Learning Workflow with Scikit-Learn: Predicting California Housing Prices


结论

在这个项目中,我们开发了一个线性回归模型来根据各种特征预测加州的房价。计算均方误差来评估模型的性能,从而提供预测准确性的定量测量。通过可视化,我们能够看到我们的模型相对于实际值的表现如何。

该项目展示了机器学习在房地产分析中的力量,可以作为更先进的预测建模技术的基础。

版本聲明 本文轉載於:https://dev.to/harshm03/complete-machine-learning-workflow-with-scikit-learn-predicting-california-housing-prices-4pbf?1如有侵犯,請洽[email protected]刪除
最新教學 更多>
  • 為開發人員和安全團隊提供主動的 AppSec 持續漏洞管理
    為開發人員和安全團隊提供主動的 AppSec 持續漏洞管理
    现代软件开发环境中哪些日益增长的网络安全风险让 CISO 忙碌? 开发人员和安全团队面临着越来越多的威胁,从复杂的开源和供应商控制的供应链攻击到 AI 生成的代码引入的漏洞,例如提示注入和 GitHub Copilot 的代码安全性差。现代应用程序通常严重依赖开源组件(例如在 npm、PyPI 或 ...
    程式設計 發佈於2024-11-06
  • 如何使用 React 對 MeteorJS 中的 Bootstrap Spacing 實用程式類別進行故障排除?
    如何使用 React 對 MeteorJS 中的 Bootstrap Spacing 實用程式類別進行故障排除?
    在 Bootstrap 中使用間距實用程式類別在 Bootstrap 中,間距實用程式類別可讓您輕鬆控制元素周圍的間距。但是,如果您在使用它們時遇到問題,這裡有一個指南可以幫助您解決。 更新的間距語法(Bootstrap 4 和 5)Bootstrap 4引入了間距實用程式類別的簡化語法:邊距:m{...
    程式設計 發佈於2024-11-06
  • 如何在Python中設定子程序的工作目錄?
    如何在Python中設定子程序的工作目錄?
    如何在Python中設定子程序的工作目錄在Python中,subprocess.Popen()函數允許您在Py thon中執行指令子程序。一個常見的要求是指定子程序的工作目錄。 問題:如何使用 subprocess.Popen() 設定子程序的工作目錄? 答案:要指定工作目錄,請使用 subproc...
    程式設計 發佈於2024-11-06
  • Pandas 什麼時候創建視圖而不是副本?
    Pandas 什麼時候創建視圖而不是副本?
    Pandas 視圖與副本生成規則Pandas 在決定 DataFrame 上的切片操作是否產生視圖或結果時採用特定規則複製。透過了解這些規則,您可以優化資料操作並避免意外行為。 從始終產生副本的操作開始:所有操作,除了那些專門設計用於修改的操作就地 DataFrame,創建副本。 只有某些操作支援 ...
    程式設計 發佈於2024-11-06
  • 使用代理伺服器解鎖地理限制網站
    使用代理伺服器解鎖地理限制網站
    利用代理服务器绕过区域封锁是一种常用且有效的方法。代理服务器作为中介,可以隐藏用户的真实IP地址,使用户的请求看起来像是来自代理服务器的地理位置,从而绕过区域封锁。 使用代理服务器绕过区域封锁的关键步骤:‌‌ 选择合适的代理服务器‌:根据目标区域的网络环境和遮挡情况,选择覆盖该区域的...
    程式設計 發佈於2024-11-06
  • 如何為三角形中的線性漸變鋸齒線建立平滑邊緣?
    如何為三角形中的線性漸變鋸齒線建立平滑邊緣?
    為線性漸變鋸齒線創建平滑邊緣為了設計具有由兩個三角形形成的尖底的響應式圖像,開發人員在三角形線上遇到了意外的鋸齒狀邊緣。為了解決這個問題,我們探索了產生更平滑漸變過渡的策略。 雖然硬停止線性漸變影像中的顏色通常會導致鋸齒狀邊緣,但調整停止點和起始點可以緩解此問題。不要突然從一種顏色變為另一種顏色,而...
    程式設計 發佈於2024-11-06
  • Java 中「static」的魔力:一為所有,一切為一!
    Java 中「static」的魔力:一為所有,一切為一!
    老实说,当我们第一次遇到 static 关键字时,我们都会想:“这是什么魔法?” ?但别担心,我会用一种简单、深入、甚至有点有趣的方式来分解它! 想象一下你正在参加一个聚会?你和你所有的朋友都戴着帽子。但每个人都必须分享一顶帽子。这基本上就是 Java 中 static 关键字的作用!您不必为每个朋...
    程式設計 發佈於2024-11-06
  • 如何在 Laravel Eloquent ORM 中對錶進行別名以增強靈活性和可讀性?
    如何在 Laravel Eloquent ORM 中對錶進行別名以增強靈活性和可讀性?
    Laravel 的Eloquent 查詢中的別名表:超越DB::table在Laravel 的Eloquent ORM 中,您可以使用乾淨的、物件導向的方法與資料庫進行互動。然而,有時您可能會遇到需要更大靈活性的查詢,例如別名表。 挑戰考慮使用 Laravel 的查詢產生器來查詢:$users = ...
    程式設計 發佈於2024-11-06
  • 如何使用 document.write 功能動態包含腳本?
    如何使用 document.write 功能動態包含腳本?
    動態包含具有document.write功能的腳本問題:如何將帶有變數src屬性的腳本標籤動態加入網頁中,特別是如果src 包含document.write 函數? 背景:通常,在 HTML 頭中添加具有特定 src 屬性的腳本標記可以無縫運作。但是,當src屬性中包含document.write程...
    程式設計 發佈於2024-11-06
  • 為什麼我在 Python 中收到「Bad magic number」導入錯誤?
    為什麼我在 Python 中收到「Bad magic number」導入錯誤?
    Bad Magic Number:了解導入錯誤使用 Python 時,遇到「Bad magic number」ImportError 可能會令人沮喪。此錯誤表示 pyc 檔案(Python 腳本的編譯版本)已損壞,這會導致與 Python 解釋器不相容。 瞭解幻數在 UNIX 中-type 系統中,...
    程式設計 發佈於2024-11-06
  • 如何測試 Go 中未匯出的函數?
    如何測試 Go 中未匯出的函數?
    從非測試 Go 檔案中呼叫測試函數在 Go 中,不應從程式碼本身呼叫測試函數。相反,單元測試應該使用 go test 指令執行。 黑白盒測試Go 支援兩種類型的單元測試:黑盒和白盒.黑盒測試測試從包外部匯出的函數,模擬外部包如何與其互動。 白盒測試從包本身內部測試未導出的函數。 Example考慮...
    程式設計 發佈於2024-11-06
  • 如何優化 Matplotlib 繪圖效能以提高速度和效率?
    如何優化 Matplotlib 繪圖效能以提高速度和效率?
    提高 Matplotlib 繪圖效能使用 Matplotlib 繪圖有時會很慢,尤其是在處理複雜或動畫圖形時。了解這種緩慢背後的原因可以幫助您優化程式碼以獲得更快的效能。 瓶頸和 BlittingMatplotlib 繪圖過程的主要瓶頸在於它對所有內容的重繪每次調用Fig.canvas.draw()...
    程式設計 發佈於2024-11-06
  • 面試工具包:陣列 - 滑動視窗。
    面試工具包:陣列 - 滑動視窗。
    一切都与模式有关! 一旦你学会了这些模式,一切都开始变得更容易了!如果你像我一样,你可能不喜欢技术面试,我不怪你——面试可能很艰难。 数组问题是面试中最常见的问题。这些问题通常涉及使用自然数组: const arr = [1, 2, 3, 4, 5]; 还有字符串问题,本质上是字符...
    程式設計 發佈於2024-11-06
  • 字串常數池:為什麼即使文字存在,「new」也會建立一個新的字串物件?
    字串常數池:為什麼即使文字存在,「new」也會建立一個新的字串物件?
    字串常數池:深入檢查Java 中的字串常數池被池化以優化記憶體使用並提高效能。這表示當遇到字串文字時,編譯器會檢查字串常數池中是否存在具有相同值的現有字串物件。如果找到,引用將定向到現有對象,避免建立新對象。 但是,當使用「new」運算子建立新的 String 物件時,會出現混亂,因為這似乎與規則相...
    程式設計 發佈於2024-11-06
  • 如何在 PHP 中使用 array_push() 處理多維數組?
    如何在 PHP 中使用 array_push() 處理多維數組?
    使用PHP 的array_push 添加元素到多維數組使用多維數組可能會令人困惑,特別是在嘗試添加新元素時。當任務是將儲存在 $newdata 中的循環中的資料附加到給定 $md_array 內的子數組「recipe_type」和「cuisine」時,就會出現此問題。 要實現此目的,您可以利用arr...
    程式設計 發佈於2024-11-06

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3