”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > ETL:从文本中提取人名

ETL:从文本中提取人名

发布于2024-11-07
浏览:200

假设我们想要抓取chicagomusiccompass.com

如您所见,它有几张卡片,每张卡片代表一个事件。现在,让我们看看下一篇:

ETL: Extracting a Person

注意事件名称是:


jazmin bean: the traumatic livelihood tour


所以现在的问题是:我们如何从文本中提取艺术家的名字?

作为一个人,我可以“轻松地”看出 jazmin bean 是艺术家——只需查看他们的 wiki 页面即可。但是编写代码来提取该名称可能会很棘手。

我们可以想,“嘿,: 之前的任何内容都应该是艺术家的名字”,这看起来很聪明,对吧?它适用于这种情况,但是这个怎么样:


happy hour on the patio: kathryn & chris


这里,顺序颠倒了。我们可以不断添加逻辑来处理不同的情况,但很快我们就会得到大量脆弱的规则,并且可能无法涵盖所有​​内容。

这就是命名实体识别(NER)模型派上用场的地方。它们是开源的,可以帮助我们从文本中提取名称。它不会捕获所有案例,但大多数时候,他们会给我们提供我们需要的信息。

通过这种方法,提取变得更加容易。我选择 Python 是因为 Python 机器学习社区是无与伦比的。


from gliner import GLiNER

model = GLiNER.from_pretrained("urchade/gliner_base")

text = "jazmin bean: the traumatic livelihood tour"
labels = ["person", "bands", "projects"]
entities = model.predict_entities(text, labels)

for entity in entities:
    print(entity["text"], "=>", entity["label"])


生成输出:


jazmin bean => person


现在,让我们看一下另一种情况:


happy hour on the patio: kathryn & chris


输出:


kathryn => person
chris => person


来源-GLiNER

太棒了,对吧?不再需要繁琐的逻辑来提取名称,只需使用模型即可。当然,它不会涵盖所有可能的情况,但对于我的项目来说,这种灵活性就很好了。如果您需要更高的准确性,您可以随时:

  • 尝试不同的模型
  • 对现有模型做出贡献
  • 分叉项目并调整它以满足您的需求

结论

作为软件开发人员,强烈建议随时更新机器学习领域的工具。并非所有问题都可以通过简单的编程和逻辑来解决 - 使用模型和统计数据可以更好地解决一些挑战。

版本声明 本文转载于:https://dev.to/garciadiazjaime/etl-extracting-a-persons-name-from-text-ahl?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 如何访问Python字典中的第一个和第N个键值对?
    如何访问Python字典中的第一个和第N个键值对?
    获取 Python 字典中的第一个条目使用数字索引(如颜色[0])对字典进行索引可能会导致 KeyError 异常。从 Python 3.7 开始,字典保留插入顺序,使我们能够像有序集合一样使用它们。获取第一个键和值要获取字典中的第一个键和值,我们可以使用以下方法:列表转换:使用 list(dict...
    编程 发布于2024-11-07
  • 使用 cProfile 和 PyPy 模块优化 Python 代码:完整指南
    使用 cProfile 和 PyPy 模块优化 Python 代码:完整指南
    介绍 作为 Python 开发人员,我们通常先关注让代码正常运行,然后再担心优化它。然而,在处理大规模应用程序或性能关键型代码时,优化变得至关重要。在这篇文章中,我们将介绍两个可用于优化 Python 代码的强大工具:cProfile 模块和 PyPy 解释器。 在这篇文章的结尾,...
    编程 发布于2024-11-07
  • 上周我学到了什么(
    上周我学到了什么(
    原生 JavaScript 中的反应性 – 使用代理模式在应用程序状态更改时触发事件。 (前端大师课程 - “你可能不需要框架”) throw new Error("Error!") 不能在三元中使用(至少不能用作 'else' 部分。三元运算符的最后一部分...
    编程 发布于2024-11-07
  • 如何在 Linux 系统上将 Java 应用程序作为服务运行?
    如何在 Linux 系统上将 Java 应用程序作为服务运行?
    Linux 系统服务导航:将 Java 应用程序作为服务运行在 Linux 系统管理领域,将应用程序作为服务进行管理对于确保其可靠且受控的执行至关重要。本文深入探讨了将 Java 服务器应用程序配置为在 Linux 操作系统上作为服务运行的过程,为用户提出的问题提供了全面的解决方案。主要目标是创建一...
    编程 发布于2024-11-07
  • 如何在不安装 Angular CLI 的情况下创建 Angular 项目的特定版本
    如何在不安装 Angular CLI 的情况下创建 Angular 项目的特定版本
    您是否使用 Angular 并需要使用不同的 Angular 版本设置项目?这是为特定版本创建 Angular 项目的简单指南,无论是否使用 Angular CLI! 为什么使用特定的 Angular 版本? 在处理多个 Angular 项目时,有时您需要锁定特定版本。也许您的项目依...
    编程 发布于2024-11-07
  • 如何反转 CSS 中文本的方向?
    如何反转 CSS 中文本的方向?
    如何在 CSS 中反转文本方向处理文本时,可能会出现需要反转其方向的情况,以便它从右到左流动,而不是默认的从左到右流动。本文为此类场景提供了使用 CSS 的解决方案。更改文本方向的 CSS 代码以下 CSS 代码可用于反转文本方向:.cssClassName { direction: rtl; ...
    编程 发布于2024-11-07
  • 如何使用 JavaScript 从字符串中去除“data-”前缀
    如何使用 JavaScript 从字符串中去除“data-”前缀
    从字符串中剥离前缀:删除“data-”许多编程任务都涉及操作字符串。一项常见任务是删除字符串的特定部分,例如前缀或后缀。在本例中,我们希望从字符串中删除“data-”前缀,同时保留剩余字符。以下 JavaScript 代码片段演示了如何使用 Replace() 方法实现此目的:var ret = &...
    编程 发布于2024-11-07
  • ## 如何有效分析 PHP 内存使用情况:Xdebug 替代方案和最佳实践
    ## 如何有效分析 PHP 内存使用情况:Xdebug 替代方案和最佳实践
    分析 PHP 内存消耗您寻求一种方法来检查 PHP 页面的内存使用情况。具体来说,您的目标是确定数据的内存分配并识别导致大量内存消耗的函数调用。Xdebug 的限制虽然 Xdebug 提供了跟踪功能,提供内存增量信息,其丰富的数据可能令人难以承受。如果细粒度过滤选项可用,问题就可以得到解决。然而,此...
    编程 发布于2024-11-07
  • 如何在虚拟 DOM 中渲染组件以及如何优化重新渲染
    如何在虚拟 DOM 中渲染组件以及如何优化重新渲染
    构建现代 Web 应用程序时,高效更新 UI(用户界面)对于保持应用程序快速响应至关重要。许多框架(如 React)中使用的常见策略是使用 虚拟 DOM 和 组件。本文将解释如何使用 Virtual DOM 渲染组件,以及如何优化重新渲染以使 Web 应用程序不会变慢。 1.什么是虚...
    编程 发布于2024-11-07
  • CRUD 操作:它们是什么以及如何使用它们?
    CRUD 操作:它们是什么以及如何使用它们?
    CRUD 操作:它们是什么以及如何使用它们? CRUD 操作(创建、读取、更新和删除)是任何需要数据管理的应用程序的基础。对于开发人员来说,了解这些操作非常重要,因为它们提供了我们有效与数据库交互所需的基本功能。在这篇博文中,我将通过展示如何将 CRUD 操作集成到我的 Yoga ...
    编程 发布于2024-11-07
  • 推出免费 Java 实用程序包
    推出免费 Java 实用程序包
    面向 Java 后端开发人员的快速且易于使用的编程工具包 在我作为管理员和开发人员的职业生涯中,我多次从无数的免费软件和开源产品中受益。因此,我很自然地也为这个社区做出贡献。 这个 Java 类集合是在各种项目过程中创建的,并将进一步开发。我希望这个工具也能为您服务。 https://java-ut...
    编程 发布于2024-11-07
  • 如何在 PHP Foreach 循环中检索嵌套数组的数组键?
    如何在 PHP Foreach 循环中检索嵌套数组的数组键?
    PHP:在 Foreach 循环中检索数组键在 PHP 中,使用 foreach 循环迭代关联数组可以访问这两个值和钥匙。但是, key() 函数仅返回当前值的键,这在处理嵌套数组时可能是不够的。例如,考虑这样的数组:<?php $samplearr = array( 4722 =&g...
    编程 发布于2024-11-07
  • 如何将 MySQL 表中的 Latin1 字符转换为 UTF-8?
    如何将 MySQL 表中的 Latin1 字符转换为 UTF-8?
    将 UTF8 表上的 Latin1 字符转换为 UTF8您已确定您的 PHP 脚本缺少必要的 mysql_set_charset 函数以确保正确处理UTF-8 字符。尽管实施了此修复,您现在仍面临着纠正包含存储在 UTF8 表中的 Latin1 字符的现有行的挑战。要解决此问题,您可以利用 MySQ...
    编程 发布于2024-11-07
  • 如何使用 Zapcap API(字幕 API)
    如何使用 Zapcap API(字幕 API)
    将 ZapCap 的自动视频处理 API 集成到您现有的系统中是一个简单的过程,旨在最大限度地降低复杂性并最大限度地提高效率。 ZapCap 提供开发人员友好的 API 文档,以确保无缝入门。 分步集成指南 第 1 步:在 ZapCap 获取您的 API 密钥 在开始之前获...
    编程 发布于2024-11-07
  • 探索引导组件
    探索引导组件
    Bootstrap 5 是最流行的前端框架之一,它带来了一系列有用的组件和实用程序,可帮助开发人员快速构建响应灵敏且具有视觉吸引力的网站。 牌 卡片是 Bootstrap 5 中的多功能组件,可让您以干净、有组织的方式显示内容。它们非常适合以美观且实用的方式展示信息。 ...
    编程 发布于2024-11-07

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3