开发步骤 2 - 构建 Web 应用程序并集成模型

Step2.1 导入库

import streamlit as stimport numpy as npimport pandas as pdimport joblib

stremlit 是一个 Python 库,可以轻松地为机器学习和数据科学项目创建和共享自定义 Web 应用程序。
numpy 是用于数值计算的基本 Python 库。它提供对大型多维数组和矩阵的支持,以及一组数学函数来有效地对这些数组进行操作。

Step2.2 检索并编码输入数据

data = {    \\\"island\\\": island,    \\\"bill_length_mm\\\": bill_length_mm,    \\\"bill_depth_mm\\\": bill_depth_mm,    \\\"flipper_length_mm\\\": flipper_length_mm,    \\\"body_mass_g\\\": body_mass_g,    \\\"sex\\\": sex,}input_df = pd.DataFrame(data, index=[0])encode = [\\\"island\\\", \\\"sex\\\"]input_encoded_df = pd.get_dummies(input_df, prefix=encode)

输入值是从 Stremlit 创建的输入表单中检索的,分类变量使用与创建模型时相同的规则进行编码。请注意,每个数据的顺序也必须与创建模型时的顺序相同。如果顺序不同,使用模型执行预测时将会出现错误。

Step2.3 加载模型

clf = joblib.load(\\\"penguin_classifier_model.pkl\\\")

“penguin_classifier_model.pkl”是存储之前保存的模型的文件。该文件包含经过训练的二进制格式的 RandomForestClassifier。运行此代码会将模型加载到 clf 中,允许您使用它对新数据进行预测和评估。

Step2.4 进行预测

prediction = clf.predict(input_encoded_df)prediction_proba = clf.predict_proba(input_encoded_df)

clf.predict(input_encoded_df):使用训练好的模型来预测新编码输入数据的类别,并将结果存储在预测中。
clf.predict_proba(input_encoded_df):计算每个类的概率,将结果存储在prediction_proba.

示例代码

步骤3.部署

\\\"Machine

您可以通过访问 Stremlit 社区云 (https://streamlit.io/cloud) 并指定 GitHub 存储库的 URL 在 Internet 上发布您开发的应用程序。

关于数据集

\\\"Machine

@allison_horst 的作品 (https://github.com/allisonhorst)

该模型使用 Palmer Penguins 数据集进行训练,这是一个广泛认可的用于练习机器学习技术的数据集。该数据集提供了来自南极洲帕尔默群岛的三种企鹅(阿德利企鹅、帽带企鹅和巴布亚企鹅)的信息。主要功能包括:

该数据集源自 Kaggle,可以在此处访问。特征的多样性使其成为构建分类模型和了解每个特征在物种预测中的重要性的绝佳选择。

","image":"http://www.luping.net/uploads/20241006/17282217676702924713227.png","datePublished":"2024-11-02T21:56:21+08:00","dateModified":"2024-11-02T21:56:21+08:00","author":{"@type":"Person","name":"luping.net","url":"https://www.luping.net/articlelist/0_1.html"}}
」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 Streamlit 將機器學習模型部署為 Web 應用程式

使用 Streamlit 將機器學習模型部署為 Web 應用程式

發佈於2024-11-02
瀏覽:969

介绍

机器学习模型本质上是一组用于进行预测或查找数据模式的规则或机制。简单地说(不用担心过于简单化),在 Excel 中使用最小二乘法计算的趋势线也是一个模型。然而,实际应用中使用的模型并不那么简单——它们通常涉及更复杂的方程和算法,而不仅仅是简单的方程。

在这篇文章中,我将首先构建一个非常简单的机器学习模型,并将其作为一个非常简单的 Web 应用程序发布,以了解该过程。

在这里,我将只关注流程,而不是 ML 模型本身。另外,我将使用 Streamlit 和 Streamlit Community Cloud 轻松发布 Python Web 应用程序。

长话短说:

使用 scikit-learn(一种流行的机器学习 Python 库),您可以快速训练数据并创建模型,只需几行代码即可完成简单任务。然后可以使用 joblib 将模型保存为可重用文件。这个保存的模型可以像 Web 应用程序中的常规 Python 库一样导入/加载,从而允许应用程序使用经过训练的模型进行预测!

应用程序网址:https://yh-machine-learning.streamlit.app/
GitHub:https://github.com/yoshan0921/yh-machine-learning.git

技术栈

  • Python
  • Streamlit:用于创建 Web 应用程序界面。
  • scikit-learn:用于加载和使用预先训练的随机森林模型。
  • NumPy 和 Pandas:用于数据操作和处理。
  • Matplotlib 和 Seaborn:用于生成可视化。

我做了什么

此应用程序允许您检查在帕尔默企鹅数据集上训练的随机森林模型所做的预测。 (有关训练数据的更多详细信息,请参阅本文末尾。)

具体来说,该模型根据各种特征预测企鹅物种,包括物种、岛屿、喙长、鳍状肢长度、体型和性别。用户可以导航应用程序以查看不同的功能如何影响模型的预测。

  • 预测屏幕
    Machine Learning Model Deployment as a Web App using Streamlit

  • 学习数据/可视化屏幕
    Machine Learning Model Deployment as a Web App using Streamlit

开发步骤1 - 创建模型

Step1.1 导入库

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib

pandas是一个专门用于数据操作和分析的Python库。它支持使用 DataFrame 进行数据加载、预处理和结构化,为机器学习模型准备数据。
sklearn 是一个用于机器学习的综合 Python 库,提供训练和评估工具。在这篇文章中,我将使用称为随机森林的学习方法构建一个模型。
joblib 是一个 Python 库,可帮助以非常有效的方式保存和加载 Python 对象,例如机器学习模型。

Step1.2 读取数据

df = pd.read_csv("./dataset/penguins_cleaned.csv")
X_raw = df.drop("species", axis=1)
y_raw = df.species

加载数据集(训练数据)并将其分成特征(X)和目标变量(y)。

Step1.3 对类别变量进行编码

encode = ["island", "sex"]
X_encoded = pd.get_dummies(X_raw, columns=encode)

target_mapper = {"Adelie": 0, "Chinstrap": 1, "Gentoo": 2}
y_encoded = y_raw.apply(lambda x: target_mapper[x])

使用 one-hot 编码(X_encoded)将分类变量转换为数字格式。例如,如果“island”包含类别“Biscoe”、“Dream”和“Torgersen”,则会为每个类别创建一个新列(island_Biscoe、island_Dream、island_Torgersen)。对于性也是如此。如果原始数据是“Biscoe”,则 island_Biscoe 列将设置为 1,其他列将设置为 0。
目标变量物种映射到数值(y_encoded)。

Step1.4 分割数据集

x_train, x_test, y_train, y_test = train_test_split(
    X_encoded, y_encoded, test_size=0.3, random_state=1
)

为了评估模型,有必要衡量模型在未用于训练的数据上的性能。 7:3 被广泛用作机器学习中的一般实践。

Step1.5 训练随机森林模型

clf = RandomForestClassifier()
clf.fit(x_train, y_train)

拟合方法用于训练模型。
x_train 表示解释变量的训练数据,y_train 表示目标变量。
通过调用该方法,根据训练数据训练出来的模型存储在clf.

Step1.6 保存模型

joblib.dump(clf, "penguin_classifier_model.pkl")

joblib.dump()是以二进制格式保存Python对象的函数。通过以此格式保存模型,可以从文件加载模型并按原样使用,而无需再次训练。

示例代码

开发步骤 2 - 构建 Web 应用程序并集成模型

Step2.1 导入库

import streamlit as st
import numpy as np
import pandas as pd
import joblib

stremlit 是一个 Python 库,可以轻松地为机器学习和数据科学项目创建和共享自定义 Web 应用程序。
numpy 是用于数值计算的基本 Python 库。它提供对大型多维数组和矩阵的支持,以及一组数学函数来有效地对这些数组进行操作。

Step2.2 检索并编码输入数据

data = {
    "island": island,
    "bill_length_mm": bill_length_mm,
    "bill_depth_mm": bill_depth_mm,
    "flipper_length_mm": flipper_length_mm,
    "body_mass_g": body_mass_g,
    "sex": sex,
}
input_df = pd.DataFrame(data, index=[0])

encode = ["island", "sex"]
input_encoded_df = pd.get_dummies(input_df, prefix=encode)

输入值是从 Stremlit 创建的输入表单中检索的,分类变量使用与创建模型时相同的规则进行编码。请注意,每个数据的顺序也必须与创建模型时的顺序相同。如果顺序不同,使用模型执行预测时将会出现错误。

Step2.3 加载模型

clf = joblib.load("penguin_classifier_model.pkl")

“penguin_classifier_model.pkl”是存储之前保存的模型的文件。该文件包含经过训练的二进制格式的 RandomForestClassifier。运行此代码会将模型加载到 clf 中,允许您使用它对新数据进行预测和评估。

Step2.4 进行预测

prediction = clf.predict(input_encoded_df)
prediction_proba = clf.predict_proba(input_encoded_df)

clf.predict(input_encoded_df):使用训练好的模型来预测新编码输入数据的类别,并将结果存储在预测中。
clf.predict_proba(input_encoded_df):计算每个类的概率,将结果存储在prediction_proba.

示例代码

步骤3.部署

Machine Learning Model Deployment as a Web App using Streamlit

您可以通过访问 Stremlit 社区云 (https://streamlit.io/cloud) 并指定 GitHub 存储库的 URL 在 Internet 上发布您开发的应用程序。

关于数据集

Machine Learning Model Deployment as a Web App using Streamlit

@allison_horst 的作品 (https://github.com/allisonhorst)

该模型使用 Palmer Penguins 数据集进行训练,这是一个广泛认可的用于练习机器学习技术的数据集。该数据集提供了来自南极洲帕尔默群岛的三种企鹅(阿德利企鹅、帽带企鹅和巴布亚企鹅)的信息。主要功能包括:

  • 物种:企鹅的物种(Adelie、Chinstrap、Gentoo)。
  • 岛屿:观察到企鹅的特定岛屿(Biscoe、Dream、Torgersen)。
  • Bill Length:企鹅的嘴的长度(毫米)。
  • Bill Depth:企鹅喙的深度(毫米)。
  • Flipper Length:企鹅的鳍状肢的长度(毫米)。
  • Body Mass:企鹅的质量(g)。
  • 性别:企鹅的性别(雄性或雌性)。

该数据集源自 Kaggle,可以在此处访问。特征的多样性使其成为构建分类模型和了解每个特征在物种预测中的重要性的绝佳选择。

版本聲明 本文轉載於:https://dev.to/yoshan0921/machine-learning-model-deployment-as-a-web-app-using-streamlit-2c5p?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • Tailwind CSS:自訂配置
    Tailwind CSS:自訂配置
    介紹 Tailwind CSS 是一種流行的開源 CSS 框架,近年來在 Web 開發人員中廣受歡迎。它提供了一種獨特的可自訂方法來創建美觀且現代的用戶介面。 Tailwind CSS 有別於其他 CSS 框架的關鍵功能之一是它的可定製配置。在這篇文章中,我們將討論 Tailwin...
    程式設計 發佈於2024-11-03
  • 使用 jQuery
    使用 jQuery
    什麼是 jQuery? jQuery 是一個快速的 Javascript 函式庫,其功能齊全,旨在簡化 HTML 文件遍歷、操作、事件處理和動畫等任務。 「少寫多做」 MDN 狀態: jQuery使得編寫多行程式碼和tsk變得更加簡潔,甚至一行程式碼.. 使用 jQuery 處理事件 jQuery...
    程式設計 發佈於2024-11-03
  • CONCAT() 如何增強 MySQL 搜尋功能以實現完整名稱匹配?
    CONCAT() 如何增強 MySQL 搜尋功能以實現完整名稱匹配?
    WHERE 子句中使用 MySQL CONCAT() 函數進行高效搜尋一個常見的資料庫操作是跨多列搜尋資料。然而,當分別使用名字和姓氏欄位搜尋姓名時,可能會存在一些限制,例如捕獲不完整的匹配。 為了克服這個問題,可以使用 MySQL CONCAT() 函數將列組合成一個用於搜尋的單一欄位。這提供了更...
    程式設計 發佈於2024-11-03
  • [每日套餐] ms
    [每日套餐] ms
    多發性硬化症 ms 將各種時間格式轉換為毫秒,反之亦然。 /* time format to milliseconds */ ms('2 days') // 172800000 ms('1d') // 86400000 ms('10h') // 3600000...
    程式設計 發佈於2024-11-03
  • 考慮將 WordPress 資料庫從本地遷移到生產環境的注意事項
    考慮將 WordPress 資料庫從本地遷移到生產環境的注意事項
    將資料庫從本地環境遷移到生產伺服器可能會讓人感到不知所措,但如果採用正確的方法,則不必如此。在本指南中,我將介紹確保遷移過程順利進行時需要考慮的關鍵點。 資料庫遷移的關鍵注意事項 1。方案(協議) 範例:http 或 https 2.網域 本機範例:localhost、localh...
    程式設計 發佈於2024-11-03
  • 了解 JavaScript 中的嵌套對象
    了解 JavaScript 中的嵌套對象
    对象是 JavaScript 开发人员所要处理的事情,不用说,这也适用于 TypeScript。 TypeScript 为您提供了多种方法来定义对象属性的类型定义。我们将在这篇文章中介绍其中的几个,从简单的示例开始,然后转向一些高级类型定义。 JavaScript 中的嵌套对象是包含其他对象或数组作...
    程式設計 發佈於2024-11-03
  • 重載構造函數
    重載構造函數
    建構子也可以重載,就像方法一樣。 建構子重載可讓您以不同的方式建立物件。 MyClass 類別有四個重載建構函數,每個建構函數以不同的方式初始化物件。 根據new語句中提供的參數呼叫適當的建構子。 建構子重載提供了建構物件的彈性。 建構子重載的一個常見原因是允許一個物件初始化另一個物件。...
    程式設計 發佈於2024-11-02
  • 使用 Node.js 釋放 JavaScript 的力量!
    使用 Node.js 釋放 JavaScript 的力量!
    JavaScript 不再只適用於瀏覽器:感謝 Node.js,它也接管了伺服器端。 ?無論您是經驗豐富的開發人員還是新手,掌握 Node.js 都會改變遊戲規則。 這就是您應該開始使用 Node.js 的原因: JavaScript 無所不在:用 JavaScript 編寫客戶端和伺服器端程式...
    程式設計 發佈於2024-11-02
  • 收集和處理 INMET-BDMEP 氣候數據
    收集和處理 INMET-BDMEP 氣候數據
    Os dados climáticos desempenham um papel crucial em diversos setores, auxiliando em estudos e previsões que impactam áreas como agricultura, planejame...
    程式設計 發佈於2024-11-02
  • 有限責任合夥註冊:主要優勢和法律要求
    有限責任合夥註冊:主要優勢和法律要求
    将您的企业注册为有限责任合伙企业 (LLP) 因其独特的灵活性、法律保护和简化的合规性而受到企业家和专业人士的欢迎。有限责任合伙企业的注册具有独特的优势,并具有特定的法律要求,可确保精简高效的业务结构。以下详细介绍了 LLP 注册的主要优势和法律要求。 LLP注册的主要优势 1.有...
    程式設計 發佈於2024-11-02
  • HLHealth 七級)
    HLHealth 七級)
    HL7,也称为 Health Level 7,是一种消息传递和临床标准标准,用于不同卫生系统中电子信息的集成、交换、管理和检索。它是一种基于事件触发的交易的协议,例如患者入院。 HL7 促进公共卫生领域的信息交流。 这是卫生部门广泛接受的数据交换国际标准,独立于所使用的平台和技术。 ...
    程式設計 發佈於2024-11-02
  • 如何從單獨的執行緒安全地更新 Qt 主視窗?
    如何從單獨的執行緒安全地更新 Qt 主視窗?
    Qt - 使用第二個執行緒更新主視窗在多執行緒Qt 應用程式中,從單獨的執行緒更新主UI ( mainwindow.ui)可以構成挑戰。本文解決了一個常見問題:無法從自訂執行緒內存取 UI 元素(例如給定程式碼中的 ana->ui->horizo​​ntalLayout_4)。 解決方案涉及利用 Q...
    程式設計 發佈於2024-11-02
  • 使用 NgRx 掌握 Angular 狀態管理
    使用 NgRx 掌握 Angular 狀態管理
    State management in Angular ensures that data is consistently and efficiently shared across all parts of an application. Instead of each component man...
    程式設計 發佈於2024-11-02
  • Hexabot 設定與視覺化編輯教學:建立您的第一個 AI 聊天機器人
    Hexabot 設定與視覺化編輯教學:建立您的第一個 AI 聊天機器人
    聊天機器人愛好者大家好!在本教程中,我們將引導您完成設定和使用開源 AI 聊天機器人建構器 Hexabot 的過程。我們將首先克隆 GitHub 儲存庫、安裝依賴項並為 Hexabot 配置環境變數。您還將學習如何使用 Docker 啟動專案、存取管理面板以及使用視覺化編輯器建立聊天機器人流程。 ...
    程式設計 發佈於2024-11-02
  • mysql_fetch_row()、mysql_fetch_assoc() 和 mysql_fetch_array():您應該選擇哪一個?
    mysql_fetch_row()、mysql_fetch_assoc() 和 mysql_fetch_array():您應該選擇哪一個?
    mysql_fetch_row()、mysql_fetch_assoc() 和mysql_fetch_array() 解釋背景:[&SQL&]如果您正在使用已棄用的MyMy擴充功能中,在從結果集中檢索資料的mysql_fetch_row()、mysql_fetch_assoc() 和mysql_fe...
    程式設計 發佈於2024-11-02

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3