”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 课程 使用 API 和 Web 抓取实现 HR 自动化

课程 使用 API 和 Web 抓取实现 HR 自动化

发布于2024-11-05
浏览:779

Lesson  Working with APIs and Web Scraping for HR Automation

欢迎回到我们的Python从0到英雄系列!到目前为止,我们已经学习了如何操作数据并使用强大的外部库来执行与工资和人力资源系统相关的任务。但是,如果您需要获取实时数据或与外部服务交互怎么办?这就是API网络抓取发挥作用的地方。

在本课中,我们将介绍:

  1. 什么是API以及它们为何有用。
  2. 如何使用 Python 的 requests 库与 REST API 交互。
  3. 如何应用网络抓取技术从网站提取数据。
  4. 实际示例,例如获取工资的实时税率或从网站抓取员工福利数据。

在本课程结束时,您将能够自动执行外部数据检索,使您的 HR 系统更加动态和数据驱动。


1.什么是API?

API(应用程序编程接口)是一组允许不同软件应用程序相互通信的规则。简而言之,它允许您直接从代码与另一个服务或数据库交互。

例如:

    您可以使用 API 获取
  • 实时税率以进行工资计算。
  • 您可以与
  • HR 软件 API 集成,将员工数据直接提取到您的系统中。
  • 或者您可以使用天气 API 来了解何时根据极端天气条件为员工提供特殊福利。
大多数 API 使用名为

REST(表述性状态传输)的标准,该标准允许您发送 HTTP 请求(如 GET 或 POST)来访问或更新数据。


2. 使用Requests库与API交互

Python 的 requests 库让 API 的使用变得简单。您可以通过运行来安装它:


pip 安装请求
pip install requests
发出基本 API 请求

让我们从一个简单的示例开始,了解如何使用

GET 请求从 API 获取数据

导入请求 # 获取公共数据的示例 API url =“https://jsonplaceholder.typicode.com/users” 响应 = requests.get(url) # 检查请求是否成功(状态码200) 如果响应.status_code == 200: data = response.json() # 将响应解析为 JSON 打印(数据) 别的: print(f"检索数据失败。状态码:{response.status_code}")
pip install requests
在此示例中:

    我们使用requests.get()函数从API获取数据。
  • 如果请求成功,数据会解析为JSON,我们就可以处理了。
HR应用示例:获取实时税务数据

假设您想要获取

实时税率以用于薪资目的。许多国家/地区提供税率的公共 API。

在此示例中,我们将模拟从税务 API 获取数据。使用实际 API 时的逻辑是类似的。


导入请求 # 模拟税率 API api_url =“https://api.example.com/tax-rates” 响应 = requests.get(api_url) 如果响应.status_code == 200: 税数据 = 响应.json() 联邦税 = 税数据['联邦税'] 州税 = 税数据['州税'] print(f"联邦税率:{federal_tax}%") print(f"州税率:{state_tax}%") # 使用税率计算员工工资的总税额 工资=5000 总税 = 工资 * (联邦税 州税) / 100 print(f"工资为 ${salary} 的总税金: ${total_tax:.2f}") 别的: print(f"未能检索税率。状态代码:{response.status_code}")
pip install requests
此脚本可以修改为与实际税率 API 配合使用,帮助您使工资系统保持最新的税率。


3. 网页抓取来收集数据

虽然 API 是获取数据的首选方法,但并非所有网站都提供它们。在这些情况下,

网络抓取可用于从网页中提取数据。

Python 的

BeautifulSoup 库以及请求,使网络抓取变得容易。您可以通过运行来安装它:

pip 安装 beautifulsoup4
pip install requests
示例:从网站抓取员工福利数据

想象一下,您想要从公司的人力资源网站上抓取有关

员工福利的数据。这是一个基本示例:

导入请求 从 bs4 导入 BeautifulSoup # 您要抓取的网页的 URL url =“https://example.com/employee-benefits” 响应 = requests.get(url) # 使用BeautifulSoup解析页面内容 soup = BeautifulSoup(response.content, 'html.parser') # 查找并提取您需要的数据(例如福利列表) 福利 = soup.find_all("div", class_="benefit-item") # 循环并打印出好处 为了利益中的利益: 标题 = Benefit.find("h3").get_text() 描述 = Benefit.find("p").get_text() print(f"好处:{title}") print(f"描述:{描述}\n")
pip install requests
在此示例中:

    我们使用requests.get()请求网页内容。
  • BeautifulSoup 对象解析 HTML 内容。
  • 然后,我们使用 find_all() 提取我们感兴趣的特定元素(例如,福利标题和描述)。
此技术对于从网络收集与人力资源相关的数据(例如福利、职位发布或薪资基准)非常有用。


4. 在 HR 应用程序中结合 API 和 Web 抓取

让我们将所有内容放在一起,创建一个迷你应用程序,结合 API 使用和网络抓取来实现真实的 HR 场景:计算

员工的总成本

出色地:

    使用API​​获取实时税率。
  • 抓取网页以获取额外的员工福利费用。
示例:员工总成本计算器

导入请求 从 bs4 导入 BeautifulSoup # 第1步:从API获取税率 def get_tax_rates(): api_url =“https://api.example.com/tax-rates” 响应 = requests.get(api_url) 如果响应.status_code == 200: 税数据 = 响应.json() 联邦税 = 税数据['联邦税'] 州税 = 税数据['州税'] 返回联邦税、州税 别的: print("获取税率时出错。") 返回无,无 # 第 2 步:从网站上删除员工福利成本 def get_benefit_costs(): url =“https://example.com/employee-benefits” 响应 = requests.get(url) 如果响应.status_code == 200: soup = BeautifulSoup(response.content, 'html.parser') # 假设页面列出了每月的福利费用 Benefit_costs = soup.find("div", class_="benefit-total").get_text() 返回浮动(benefit_costs.strip(“$”)) 别的: print("获取福利成本时出错。") 返回 0.0 # 第 3 步:计算员工总成本 defcalculate_total_employee_cost(工资): 联邦税、州税 = get_tax_rates() 福利成本 = get_benefit_costs() 如果 Federal_tax 不是 None 并且 state_tax 不是 None: # 总扣税额 总税 = 工资 * (联邦税 州税) / 100 # 总成本=工资福利税 总成本=工资福利成本总税 返回总成本 别的: 返回无 # 用法示例 员工工资 = 5000 总成本 = 计算总员工成本(员工工资) 如果总成本: print(f"员工的总成本:${total_cost:.2f}") 别的: print("无法计算员工成本。")
pip install requests
运作原理:

    get_tax_rates() 函数从 API 检索税率。
  1. get_benefit_costs() 函数抓取网页以获取员工福利成本。
  2. calculate_total_employee_cost() 函数通过结合工资、税收和福利来计算总成本。
这是一个简化的示例,但演示了如何组合来自不同来源(API 和网络抓取)的数据来创建更加动态和有用的 HR 应用程序。


网页抓取的最佳实践

虽然网页抓取功能强大,但仍需要遵循一些重要的最佳实践:

  1. 尊重网站的robots.txt:有些网站不允许抓取,您应该在抓取之前检查其robots.txt文件。
  2. 在请求之间使用适当的间隔:通过使用 time.sleep() 函数在请求之间添加延迟来避免服务器过载。
  3. 避免抓取敏感或受版权保护的数据:抓取数据时始终确保您没有违反任何法律或道德规则。

结论

在本课中,我们探讨了如何使用

API与外部服务交互,以及如何通过网络抓取从网站提取数据。这些技术为将外部数据集成到 Python 应用程序中提供了无限的可能性,尤其是在 HR 环境中。

版本声明 本文转载于:https://dev.to/dazevedo/lesson-7-working-with-apis-and-web-scraping-for-hr-automation-lmj?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    如何修复 macOS 上 Django 中的“配置不正确:加载 MySQLdb 模块时出错”?
    MySQL配置不正确:相对路径的问题在Django中运行python manage.py runserver时,可能会遇到以下错误:ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Library/Python/2.7/site-...
    编程 发布于2024-12-27
  • 在 Go 中使用 WebSocket 进行实时通信
    在 Go 中使用 WebSocket 进行实时通信
    构建需要实时更新的应用程序(例如聊天应用程序、实时通知或协作工具)需要一种比传统 HTTP 更快、更具交互性的通信方法。这就是 WebSockets 发挥作用的地方!今天,我们将探讨如何在 Go 中使用 WebSocket,以便您可以向应用程序添加实时功能。 在这篇文章中,我们将介绍: WebSoc...
    编程 发布于2024-12-27
  • 如何使用 MySQL 查找今天生日的用户?
    如何使用 MySQL 查找今天生日的用户?
    如何使用 MySQL 识别今天生日的用户使用 MySQL 确定今天是否是用户的生日涉及查找生日匹配的所有行今天的日期。这可以通过一个简单的 MySQL 查询来实现,该查询将存储为 UNIX 时间戳的生日与今天的日期进行比较。以下 SQL 查询将获取今天有生日的所有用户: FROM USERS ...
    编程 发布于2024-12-27
  • 大批
    大批
    方法是可以在对象上调用的 fns 数组是对象,因此它们在 JS 中也有方法。 slice(begin):将数组的一部分提取到新数组中,而不改变原始数组。 let arr = ['a','b','c','d','e']; // Usecase: Extract till index p...
    编程 发布于2024-12-27
  • HTML 格式标签
    HTML 格式标签
    HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...
    编程 发布于2024-12-27
  • 除了“if”语句之外:还有哪些地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    除了“if”语句之外:还有哪些地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型?
    无需强制转换即可上下文转换为 bool您的类定义了对 bool 的显式转换,使您能够在条件语句中直接使用其实例“t”。然而,这种显式转换提出了一个问题:“t”在哪里可以在不进行强制转换的情况下用作 bool?上下文转换场景C 标准指定了四种值可以根据上下文转换为的主要场景bool:语句:if、whi...
    编程 发布于2024-12-27
  • Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta 中的列偏移发生了什么?
    Bootstrap 4 Beta:列偏移的删除和恢复Bootstrap 4 在其 Beta 1 版本中引入了重大更改柱子偏移了。然而,随着 Beta 2 的后续发布,这些变化已经逆转。从 offset-md-* 到 ml-auto在 Bootstrap 4 Beta 1 中, offset-md-*...
    编程 发布于2024-12-27
  • 尽管代码有效,为什么 POST 请求无法捕获 PHP 中的输入?
    尽管代码有效,为什么 POST 请求无法捕获 PHP 中的输入?
    解决 PHP 中的 POST 请求故障在提供的代码片段中:action=''而不是:action="<?php echo $_SERVER['PHP_SELF'];?>";?>"检查 $_POST数组:表单提交后使用 var_dump 检查 $_POST 数...
    编程 发布于2024-12-27
  • 插入数据时如何修复“常规错误:2006 MySQL 服务器已消失”?
    插入数据时如何修复“常规错误:2006 MySQL 服务器已消失”?
    插入记录时如何解决“一般错误:2006 MySQL 服务器已消失”介绍:将数据插入 MySQL 数据库有时会导致错误“一般错误:2006 MySQL 服务器已消失”。当与服务器的连接丢失时会出现此错误,通常是由于 MySQL 配置中的两个变量之一所致。解决方案:解决此错误的关键是调整wait_tim...
    编程 发布于2024-12-27
  • 如何在 PHP 中组合两个关联数组,同时保留唯一 ID 并处理重复名称?
    如何在 PHP 中组合两个关联数组,同时保留唯一 ID 并处理重复名称?
    在 PHP 中组合关联数组在 PHP 中,将两个关联数组组合成一个数组是一项常见任务。考虑以下请求:问题描述:提供的代码定义了两个关联数组,$array1和$array2。目标是创建一个新数组 $array3,它合并两个数组中的所有键值对。 此外,提供的数组具有唯一的 ID,而名称可能重合。要求是构...
    编程 发布于2024-12-27
  • 如何准确地透视具有不同记录的数据以避免丢失信息?
    如何准确地透视具有不同记录的数据以避免丢失信息?
    有效地透视不同记录透视查询在将数据转换为表格格式、实现轻松数据分析方面发挥着至关重要的作用。但是,在处理不同记录时,数据透视查询的默认行为可能会出现问题。问题:忽略不同值考虑下表:------------------------------------------------------ | Id ...
    编程 发布于2024-12-27
  • 为什么 C 和 C++ 忽略函数签名中的数组长度?
    为什么 C 和 C++ 忽略函数签名中的数组长度?
    将数组传递给 C 和 C 中的函数 问题:为什么 C 和C 编译器允许在函数签名中声明数组长度,例如 int dis(char a[1])(当它们不允许时)强制执行?答案:C 和 C 中用于将数组传递给函数的语法是历史上的奇怪现象,它允许将指针传递给第一个元素详细说明:在 C 和 C 中,数组不是通...
    编程 发布于2024-12-26
  • 如何删除 MySQL 中的重音符号以改进自动完成搜索?
    如何删除 MySQL 中的重音符号以改进自动完成搜索?
    在 MySQL 中删除重音符号以实现高效的自动完成搜索管理大型地名数据库时,确保准确和高效至关重要数据检索。使用自动完成功能时,地名中的重音可能会带来挑战。为了解决这个问题,一个自然的问题出现了:如何在 MySQL 中删除重音符号以改进自动完成功能?解决方案在于为数据库列使用适当的排序规则设置。通过...
    编程 发布于2024-12-26
  • 如何在MySQL中实现复合外键?
    如何在MySQL中实现复合外键?
    在 SQL 中实现复合外键一种常见的数据库设计涉及使用复合键在表之间建立关系。复合键是多个列的组合,唯一标识表中的记录。在这个场景中,你有两个表,tutorial和group,你需要将tutorial中的复合唯一键链接到group中的字段。根据MySQL文档,MySQL支持外键映射到复合键。但是,要...
    编程 发布于2024-12-26
  • 为什么我的 JComponent 隐藏在 Java 的背景图像后面?
    为什么我的 JComponent 隐藏在 Java 的背景图像后面?
    调试背景图像隐藏的 JComponent在 Java 应用程序中使用 JComponent(例如 JLabels)时,必须确保正确的行为和可见度。如果遇到组件隐藏在背景图像后面的问题,请考虑以下方法:1。正确设置组件透明度:确保背景面板是透明的,以允许底层组件透过。使用setOpaque(false...
    编程 发布于2024-12-26

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3