”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 使用 Python 进行词嵌入:Wordc

使用 Python 进行词嵌入:Wordc

发布于2024-11-08
浏览:151

Word-embedding-with-Python: Wordc

使用 Python(和 Gensim)实现 word2vec

  • 注意:此代码是用Python 3.6.1(Gensim 2.3.0)编写的

  • word2vec与Gensim的Python实现及应用

  • 原始论文:Mikolov, T.、Chen, K.、Corrado, G. 和 Dean, J. (2013)。向量空间中单词表示的有效估计。 arXiv 预印本 arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial
  • 导入训练数据集
  • 从nltk库导入莎士比亚的哈姆雷特语料库
sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

语料库类型:class 'list'
语料长度:3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'The', '悲剧', 'of', '哈姆雷特', 'by', '威廉', '莎士比亚', '1599', ']']
['Actus', 'Primus', '.']
['弗兰', '.']

预处理数据

  • 使用re模块预处理数据
  • 将所有字母转换为小写
  • 删除标点符号、数字等。
for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['the'、'悲剧'、'of'、'哈姆雷特'、'by'、'威廉'、'莎士比亚']
['actus', 'primus']
['弗兰']

创建和训练模型

  • 创建 word2vec 模型并使用 Hamlet 语料库对其进行训练
  • 关键参数说明(https://radimrehurek.com/gensim/models/word2vec.html)
    • 句子:训练数据(必须是带有标记化句子的列表)
    • size:嵌入空间的尺寸
    • sg: CBOW 如果为 0,skip-gram 如果为 1
    • 窗口:每个上下文中的单词数(如果窗口
    • 大小为3,考虑左邻域中的3个单词和右邻域中的3个单词)
    • min_count:词汇表中包含的最小单词数
    • iter:训练迭代次数
    • workers:要训练的工作线程数量
model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

保存和加载模型

  • word2vec模型可以本地保存和加载
  • 这样做可以减少再次训练模型的时间
model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

相似度计算

  • 嵌入单词(即向量)之间的相似度可以使用余弦相似度等指标来计算
model.most_similar('hamlet')

[('horatio', 0.9978846311569214),
('女王', 0.9971947073936462),
('莱尔特斯', 0.9971820116043091),
('国王', 0.9968599081039429),
('妈妈', 0.9966716170310974),
('哪里', 0.9966292381286621),
('迪尔', 0.9965540170669556),
('奥菲莉亚', 0.9964221715927124),
('非常', 0.9963752627372742),
('哦', 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

版本声明 本文转载于:https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 您可以在 4 中使用的顶级 PHP 功能
    您可以在 4 中使用的顶级 PHP 功能
    嘿 PHP 粉丝!本文重点介绍了我们最喜欢的脚本语言的一些出色的新功能。无论您是经验丰富的专业人士还是刚刚起步,这些都将使您的编码生活变得更轻松、更有趣。让我们深入了解您现在可以使用的顶级 PHP 功能! 1. 只读属性 假设您不希望在初始化后更改变量。现在,通过只读属性,您可以设置...
    编程 发布于2024-11-09
  • 在 localStorage 中存储和检索 JavaScript 对象
    在 localStorage 中存储和检索 JavaScript 对象
    Written by Nelson Michael✏️ Editor’s note: This article was last updated by Rahul Chhodde on 7 August 2024 to offer a deeper exploration of storing ob...
    编程 发布于2024-11-09
  • 如何从 Socket.IO 广播中排除发送者?
    如何从 Socket.IO 广播中排除发送者?
    向除发送者之外的所有客户端发送响应要向所有连接的客户端广播消息,io.sockets.emit() 函数是用过的。然而,当您想要排除发送者接收广播时,您可能想知道比在客户端检查发送者 ID 更直接的方法。在 Socket.IO 中,socket.broadcast 属性提供了针对这种情况的解决方案。...
    编程 发布于2024-11-09
  • 如何将逗号分隔的字符串转换为 Python 列表?
    如何将逗号分隔的字符串转换为 Python 列表?
    将逗号分隔的字符串转换为 Python 列表给定一个包含一系列逗号分隔值的字符串,最好将其转换为 Python 列表。此转换有助于进一步的数据分析和操作。要实现此目的,请利用 str.split 方法:my_string = 'A,B,C,D,E' my_list = my_string.split...
    编程 发布于2024-11-09
  • 如何在 Node.js 中使用 Promises 异步处理 MySQL 返回值?
    如何在 Node.js 中使用 Promises 异步处理 MySQL 返回值?
    在 Node.js 中利用 Promise 处理 MySQL 返回值从 Python 过渡到 Node.js,Node.js 的异步特性使得 Node.js 的异步特性变得更加重要。 Node.js 可能会带来挑战。考虑一个场景,您需要从 MySQL 函数返回一个值,例如 getLastRecord...
    编程 发布于2024-11-09
  • 模糊匹配与三元组搜索:在 Node.js 和 MySQL 中构建智能搜索
    模糊匹配与三元组搜索:在 Node.js 和 MySQL 中构建智能搜索
    介绍 在现代应用程序中,高效的文本搜索至关重要,尤其是在处理大型数据库时。虽然 MySQL 提供了基本的全文搜索功能,但在模糊匹配或处理拼写错误方面却存在不足。这就是基于三元组的搜索发挥作用的地方。在这篇博客中,我们将探讨什么是三元组、它如何提高搜索性能以及如何在 MySQL 中实现三元组搜索。 什...
    编程 发布于2024-11-09
  • 如何在锐利边缘的图像缩放中禁用抗锯齿?
    如何在锐利边缘的图像缩放中禁用抗锯齿?
    在图像缩放中禁用抗锯齿当图像在缩放时出现模糊或插值时,就会出现在图像缩放期间禁用抗锯齿的挑战。出现这种情况是因为浏览器应用抗锯齿技术来平滑图像边缘,从而产生柔和的外观。值得庆幸的是,CSS 提供了一系列可以有效禁用抗锯齿的标志。然而,尽管有建议的标志,例如 image-rendering: -moz...
    编程 发布于2024-11-09
  • 在 Windows 上使用 WSL2 将 Polars 与 NVIDIA GPU (CUDA) 结合使用
    在 Windows 上使用 WSL2 将 Polars 与 NVIDIA GPU (CUDA) 结合使用
    首先,如果我错过了什么,或者出了什么问题,请告诉我,或者如果您有疑问 步骤 WSL2 通过 Window 商店安装任何 Linux 发行版(例如 Ubuntu 22.04) 启动并创建用户 通过在命令提示符或 Powershell(在 Windows 设备上)中运行此...
    编程 发布于2024-11-09
  • 如何在 Go 中安全访问嵌套 JSON 数组?
    如何在 Go 中安全访问嵌套 JSON 数组?
    破译 Go 中的 JSON 数组访问问题在 Go 中处理 JSON 响应时,访问嵌套数组中的元素可能会带来挑战。在尝试检索特定数据点时,经常会出现“类型接口 {} 不支持索引”之类的错误。要解决此问题,了解 Go 中 JSON 响应的基本性质至关重要。默认情况下,数组表示为 []interface{...
    编程 发布于2024-11-09
  • Set Composition 让您的生活更轻松
    Set Composition 让您的生活更轻松
    最后!当 Set 过去被引入时,它已经让我们的生活变得更好了。我们能够轻松生成独特的列表,而且在查找和设置这些列表上的项目方面也具有更好的性能。 这很棒,但我们仍然缺少其他语言所拥有的一些东西。这是真的,因为我们就是这样。随着 2024 年 Set 中添加新的组合方法,我们最终将能够通过简单的调用进...
    编程 发布于2024-11-09
  • 过去的爆炸:使用 Python 构建您自己的太空入侵者游戏 - 分步教程
    过去的爆炸:使用 Python 构建您自己的太空入侵者游戏 - 分步教程
    设置您的开发环境 在使用 Python 编写 Space Invaders 之前,请确保您的开发环境设置正确。您需要在计算机上安装 Python。建议使用 Python 3.8 或更高版本,以更好地兼容库。此外,安装 Pygame,它是一组专为编写视频游戏而设计的 Python 模...
    编程 发布于2024-11-09
  • SQL Server 中的日期时间和时间戳有什么区别?
    SQL Server 中的日期时间和时间戳有什么区别?
    了解 SQL Server 中日期时间和时间戳之间的区别虽然 SQL Server 中的日期时间和时间戳数据类型都处理日期和时间,但它们表现出根本的区别。Datetime 是专门为存储日期和时间信息而设计的数据类型。它支持多种格式和日期/时间计算。另一方面,Timestamp 并不是用于存储日期和时...
    编程 发布于2024-11-09
  • 如何在Python中查找列表中的元素数量(列表长度)?
    如何在Python中查找列表中的元素数量(列表长度)?
    在Python中查找列表中的元素数量(列表长度)在Python中,确定列表中的元素数量,也称为列表长度,是一个常见的操作。为了实现这一点,我们可以利用 len() 函数。例如,考虑列表 items = ["apple", "orange", "ban...
    编程 发布于2024-11-09
  • 快速 HTML - ** 服务器错误 NotFoundError:需要 k**
    快速 HTML - ** 服务器错误 NotFoundError:需要 k**
    快速 HTML - 500 服务器错误 NotFoundError:需要 2 pk 如果有人在使用快速 HTML 时遇到此问题,他们试图从具有多个主键的表中获取行并获得需要 2 PK 或需要两个主键的一些变化 问题 500 服务器错误 NotFoundError: ...
    编程 发布于2024-11-09
  • 如何使用 JavaScript 在 Android 浏览器中可靠地检测设备旋转?
    如何使用 JavaScript 在 Android 浏览器中可靠地检测设备旋转?
    使用 JavaScript 检测 Android 浏览器中的设备旋转检测旋转的兼容性挑战使用 JavaScript 检测设备旋转与具有明确定义方法的 iPhone 相比,Android 手机上的浏览器可能更具挑战性。 Android 设备上的行为可能不一致,事件的顺序和频率以及 screen.wid...
    编程 发布于2024-11-09

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3