”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 软件工程师的机器学习

软件工程师的机器学习

发布于2024-08-07
浏览:325

Machine Learning for Software Engineers

如果您觉得这篇文章有价值,请告诉我,我会继续前进!

第 1 章 - 线性模型

最简单但强大的概念之一是线性模型。

在机器学习中,我们的主要目标之一是根据数据进行预测。 线性模型就像机器学习的“Hello World”——它很简单,但却构成了理解更复杂模型的基础。

让我们建立一个模型来预测房价。在此示例中,输出是预期的“房价”,您的输入将是“sqft”、“num_bedrooms”等...

def prediction(sqft, num_bedrooms, num_baths):
    weight_1, weight_2, weight_3 = .0, .0, .0  
    home_price = weight_1*sqft, weight_2*num_bedrooms, weight_3*num_baths
    return home_price

您会注意到每个输入的“权重”。这些权重创造了预测背后的魔力。这个例子很无聊,因为权重为零,所以它总是输出零。

那么让我们看看如何找到这些权重。

寻找权重

寻找权重的过程称为“训练”模型。

  • 首先,我们需要一个具有已知特征(输入)和价格(输出)的房屋数据集。例如:
data = [
    {"sqft": 1000, "bedrooms": 2, "baths": 1, "price": 200000},
    {"sqft": 1500, "bedrooms": 3, "baths": 2, "price": 300000},
    # ... more data points ...
]
  • 在我们创建更新权重的方法之前,我们需要知道我们的预测有多偏离。我们可以计算我们的预测和实际值之间的差异。
home_price = prediction(1000, 2, 1) # our weights are currently zero, so this is zero
actual_value = 200000

error = home_price - actual_value # 0 - 200000 we are way off. 
# let's square this value so we aren't dealing with negatives
error = home_price**2

现在我们有一种方法可以知道一个数据点的偏差(误差)有多大,我们可以计算所有数据点的平均误差。这通常称为均方误差。

  • 最后,以减少均方误差的方式更新权重。

当然,我们可以选择随机数并在进行过程中不断保存最佳值,但这效率很低。因此,让我们探索一种不同的方法:梯度下降。

梯度下降

梯度下降是一种优化算法,用于为我们的模型找到最佳权重。

梯度是一个向量,它告诉我们当我们对每个权重进行微小改变时误差如何变化。

侧边栏直觉
想象一下站在丘陵地貌上,您的目标是到达最低点(误差最小)。梯度就像一个指南针,总是指向最陡的上升点。通过逆梯度方向,我们正在向最低点迈进。

其工作原理如下:

  1. 从随机权重(或零)开始。
  2. 计算当前权重的误差。
  3. 计算每个权重的误差梯度(斜率)。
  4. 通过向减少误差的方向移动一小步来更新权重。
  5. 重复步骤 2-4,直到误差停止显着减小。

我们如何计算每个误差的梯度?

计算梯度的一种方法是对权重进行小幅调整,看看这对我们的误差有何影响,并看看我们应该从哪里移动。

def calculate_gradient(weight, data, feature_index, step_size=1e-5):
    original_error = calculate_mean_squared_error(weight, data)

    # Slightly increase the weight
    weight[feature_index]  = step_size
    new_error = calculate_mean_squared_error(weight, data)

    # Calculate the slope
    gradient = (new_error - original_error) / step_size

    # Reset the weight
    weight[feature_index] -= step_size

    return gradient

逐步细分

  • 输入参数:

    • 权重:我们模型的当前权重集。
    • 数据:我们的房屋特征和价格数据集。
    • feature_index:我们计算梯度的权重(0 表示平方英尺,1 表示卧室,2 表示浴室)。
    • step_size:我们用来稍微改变权重的一个小值(默认为1e-5或0.00001)。
  • 计算原始误差:

   original_error = calculate_mean_squared_error(weight, data)

我们首先用当前权重计算均方误差。这给了我们我们的起点。

  • 稍微增加重量
   weight[feature_index]  = step_size

我们稍微增加权重(step_size)。这使我们能够看到重量的微小变化如何影响我们的误差。

  • 计算新错误
   new_error = calculate_mean_squared_error(weight, data)

我们稍微增加权重,再次计算均方误差。

  • 计算斜率(梯度)
   gradient = (new_error - original_error) / step_size

这是关键的一步。我们要问:“当我们稍微增加重量时,误差变化了多少?”

  • 如果 new_error > Original_error,则梯度为正,这意味着增加此权重会增加误差。
  • 如果 new_error
  • 大小告诉我们误差对该权重的变化有多敏感。

    • 重置重量
   weight[feature_index] -= step_size

我们将权重恢复到其原始值,因为我们正在测试如果更改它会发生什么。

  • 返回渐变
   return gradient

我们返回该权重的计算梯度。

这称为“数值梯度计算”或“有限差分法”。我们近似梯度而不是分析计算它。

让我们更新权重

现在我们有了梯度,我们可以通过减去梯度来将权重推向梯度的相反方向。

weights[i] -= gradients[i]

如果我们的梯度太大,我们很容易通过更新我们的权重来超过我们的最小值。为了解决这个问题,我们可以将梯度乘以一些小数:

learning_rate = 0.00001
weights[i] -= learning_rate*gradients[i]

这就是我们如何处理所有权重的方法:

def gradient_descent(data, learning_rate=0.00001, num_iterations=1000):
    weights = [0, 0, 0]  # Start with zero weights

    for _ in range(num_iterations):
        gradients = [
            calculate_gradient(weights, data, 0), # sqft
            calculate_gradient(weights, data, 1), # bedrooms
            calculate_gradient(weights, data, 2)  # bathrooms
        ]

        # Update each weight
        for i in range(3):
            weights[i] -= learning_rate * gradients[i]

        if _ % 100 == 0:
            error = calculate_mean_squared_error(weights, data)
            print(f"Iteration {_}, Error: {error}, Weights: {weights}")

    return weights

最后,我们有了权重!

解释模型

一旦我们有了经过训练的权重,我们就可以用它们来解释我们的模型:

  • “平方英尺”的权重代表每平方英尺的价格上涨。
  • “卧室”的权重代表每增加一间卧室的价格上涨。
  • “浴室”的重量代表每增加一间浴室的价格上涨。

例如,如果我们训练的权重是[100, 10000, 15000],则意味着:

  • 每平方英尺房价增加 100 美元。
  • 每间卧室使房价增加 10,000 美元。
  • 每间浴室使房价增加 15,000 美元。

线性模型尽管简单,但却是机器学习中的强大工具。它们为理解更复杂的算法奠定了基础,并为现实世界的问题提供了可解释的见解。

版本声明 本文转载于:https://dev.to/akdevelop/machine-learning-for-software-engineers-2hid?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • SOLID 原则使用一些有趣的类比与车辆示例
    SOLID 原则使用一些有趣的类比与车辆示例
    SOLID 是计算机编程中五个良好原则(规则)的缩写。 SOLID 允许程序员编写更易于理解和稍后更改的代码。 SOLID 通常与使用面向对象设计的系统一起使用。 让我们使用车辆示例来解释 SOLID 原理。想象一下,我们正在设计一个系统来管理不同类型的车辆,例如汽车和电动汽车,...
    编程 发布于2024-11-06
  • 如何从另一个异步函数中的异步函数返回解析值?
    如何从另一个异步函数中的异步函数返回解析值?
    如何从异步函数返回一个值?在提供的代码中,init()方法返回一个Promise,但是getPostById() 方法尝试直接访问 Promise 返回的值。为了解决这个问题,需要修改 init() 方法,使其在 Promise 解析后返回 getPostById() 的值。更新后的代码如下:cla...
    编程 发布于2024-11-06
  • 了解如何使用 React 构建多人国际象棋游戏
    了解如何使用 React 构建多人国际象棋游戏
    Hello and welcome! ?? Today I bring a tutorial to guide you through building a multiplayer chess game using SuperViz. Multiplayer games require real-t...
    编程 发布于2024-11-06
  • 如何使用 JavaScript 正则表达式验证 DD/MM/YYYY 格式的日期?
    如何使用 JavaScript 正则表达式验证 DD/MM/YYYY 格式的日期?
    使用 JavaScript 正则表达式验证 DD/MM/YYYY 格式的日期验证日期是编程中的常见任务,并且能够确保日期采用特定格式至关重要。在 JavaScript 中,正则表达式提供了执行此类验证的强大工具。考虑用于验证 YYYY-MM-DD 格式日期的正则表达式模式:/^\d{4}[\/\-]...
    编程 发布于2024-11-06
  • JavaScript 中的节流和去抖:初学者指南
    JavaScript 中的节流和去抖:初学者指南
    使用 JavaScript 时,过多的事件触发器可能会降低应用程序的速度。例如,用户调整浏览器窗口大小或在搜索栏中输入内容可能会导致事件在短时间内重复触发,从而影响应用程序性能。 这就是节流和去抖可以发挥作用的地方。它们可以帮助您管理在处理过于频繁触发的事件时调用函数的频率。 ?什么...
    编程 发布于2024-11-06
  • 在 Go 中导入私有 Bitbucket 存储库时如何解决 403 Forbidden 错误?
    在 Go 中导入私有 Bitbucket 存储库时如何解决 403 Forbidden 错误?
    Go 从私有 Bitbucket 存储库导入问题排查(403 禁止)使用 go get 命令从 Bitbucket.org 导入私有存储库可能会遇到 403 Forbidden 错误。要解决此问题,请按照以下步骤操作:1.建立 SSH 连接:确保您已设置 SSH 密钥并且能够使用 SSH 连接到 B...
    编程 发布于2024-11-06
  • Singleton 和原型 Spring Bean 范围:详细探索
    Singleton 和原型 Spring Bean 范围:详细探索
    当我第一次开始使用 Spring 时,最让我感兴趣的概念之一是 bean 范围的想法。 Spring 提供了各种 bean 作用域,用于确定在 Spring 容器内创建的 bean 的生命周期。最常用的两个范围是 Singleton 和 Prototype。了解这些范围对于设计高效且有效的 Spri...
    编程 发布于2024-11-06
  • 如何有效平滑噪声数据曲线?
    如何有效平滑噪声数据曲线?
    优化平滑噪声曲线考虑近似的数据集:import numpy as np x = np.linspace(0, 2*np.pi, 100) y = np.sin(x) np.random.random(100) * 0.2这包括 20% 的变化。 UnivariateSpline 和移动平均线等方...
    编程 发布于2024-11-06
  • 如何在 MySQL 中为有序序列值重新编号主索引?
    如何在 MySQL 中为有序序列值重新编号主索引?
    为有序序列值重新编号主索引如果您的 MySQL 表的主索引 (id) 以不一致的顺序出现(例如,1、 31, 35, 100),您可能希望将它们重新排列成连续的系列 (1, 2, 3, 4)。要实现此目的,您可以采用以下方法而不创建临时表:SET @i = 0; UPDATE table_name ...
    编程 发布于2024-11-06
  • 增强的对象文字
    增强的对象文字
    ES6引入了3种编写对象字面量的方法 第一种方法: - ES6 Enhanced object literal syntax can take an external object like salary object and make it a property of the developer...
    编程 发布于2024-11-06
  • 将 Tailwind 配置为设计系统
    将 Tailwind 配置为设计系统
    对于设计系统来说,一致性和理解性就是一切。一个好的设计系统通过实现它的代码的配置来确保实现的一致性。它需要是: 易于理解,无需放弃良好设计所需的细微差别; 可扩展和可维护,且不影响一致性。 使用我的 React 和 Tailwind 的默认堆栈,我将向您展示如何设置自己的版式、颜色和间距默认值,而不...
    编程 发布于2024-11-06
  • 如何防止 Pandas 在保存 CSV 时添加索引列?
    如何防止 Pandas 在保存 CSV 时添加索引列?
    避免使用 Pandas 保存的 CSV 中的索引列使用 Pandas 进行修改后保存 csv 文件时,默认行为是包含索引列。为了避免这种情况,可以在使用 to_csv() 方法时将索引参数设置为 False。为了详细说明,请考虑以下命令序列:pd.read_csv('C:/Path/to/file....
    编程 发布于2024-11-06
  • 如何根据条件替换 Pandas DataFrame 列中的特定值?
    如何根据条件替换 Pandas DataFrame 列中的特定值?
    Pandas DataFrame:基于条件的目标值替换在Pandas中,通常需要根据某些条件修改DataFrame中的特定值。虽然常见的方法是使用 loc 来选择行,但了解如何精确定位特定列进行值修改至关重要。考虑以下 DataFrame,我们希望在其中替换“第一季”中的值超过 1990 且整数为 ...
    编程 发布于2024-11-06
  • 如何纠正 CentOS 7 上的 Yum Baseurl 问题
    如何纠正 CentOS 7 上的 Yum Baseurl 问题
    _CentOS 7 Yum Error: Cannot Find a Valid Baseurl for Repo:base/7/x86_64_ 嘿伙计们, 遇到错误 can't find a valid baseurl for repo:base/7/x86_64 可能会非常令人沮丧,特别...
    编程 发布于2024-11-06
  • 为什么从模板化函数调用成员函数模板需要“template”关键字?
    为什么从模板化函数调用成员函数模板需要“template”关键字?
    从模板函数调用模板类的成员函数在提供的代码片段中,从另一个模板中调用成员函数模板会导致编译错误。具体来说,该代码尝试从 g() 内调用 A::f()。但是,由于语法问题,此操作失败。要解决此问题,必须在成员函数调用之前显式指定模板关键字。这是因为根据 C '03 标准 14.2/4,当成员模...
    编程 发布于2024-11-06

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3