Incorporação de palavras com Python: Wordc

Primeira página > Programação > Incorporação de palavras com Python: Wordc

Incorporação de palavras com Python: Wordc

Publicado em 2024-11-08

Navegar:835

Word-embedding-with-Python: Wordc

Implementação word2vec com Python (& Gensim)

Nota: Este código está escrito em Python 3.6.1 ( Gensim 2.3.0)
Implementação Python e aplicação de word2vec com Gensim
Artigo original: Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Estimativa eficiente de representações de palavras no espaço vetorial. Pré-impressão arXiv arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

Importar conjunto de dados de treinamento
Importar o corpus Hamlet de Shakespeare da biblioteca nltk

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

Tipo de corpus: classe 'lista'
Comprimento do corpus: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'O', 'Tragédia', 'de', 'Hamlet', 'por', 'William', 'Shakespeare', '1599', ']']
['Actus', 'Primus', '.']
['Fran', '.']

Pré-processar dados

Use o módulo re para pré-processar dados
Converta todas as letras em minúsculas
Remova pontuações, números, etc.

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['o', 'tragédia', 'de', 'hamlet', 'por', 'william', 'shakespeare']
['actus', 'primus']
['fran']

Criar e treinar modelo

Crie um modelo word2vec e treine-o com Hamlet corpus
Descrição do parâmetro principal (https://radimrehurek.com/gensim/models/word2vec.html)
- frases: dados de treinamento (deve ser uma lista com frases tokenizadas)
- tamanho: dimensão do espaço de incorporação
- sg: CBOW se 0, pular grama se 1
- janela: número de palavras contabilizadas para cada contexto (se a janela
- o tamanho é 3, 3 palavras na vizinhança esquerda e 3 palavras na vizinhança direita são consideradas)
- min_count: contagem mínima de palavras a serem incluídas no vocabulário
- iter: número de iterações de treinamento
- workers: número de threads de trabalho para treinar

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

Salvar e carregar modelo

o modelo word2vec pode ser salvo e carregado localmente
Isso pode reduzir o tempo para treinar o modelo novamente

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

Cálculo de similaridade

A semelhança entre palavras incorporadas (ou seja, vetores) pode ser calculada usando métricas como similaridade de cosseno

model.most_similar('hamlet')

[('horatio', 0,9978846311569214),
('rainha', 0,9971947073936462),
('laertes', 0,9971820116043091),
('rei', 0,9968599081039429),
('mãe', 0,9966716170310974),
('onde', 0,9966292381286621),
('deere', 0,9965540170669556),
('ofélia', 0,9964221715927124),
('muito', 0,9963752627372742),
('oh', 0,9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0,99437165260314941

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 Se houver alguma violação, entre em contato com [email protected] para excluí-la

Tutorial mais recente Mais>

Como fazer upload de arquivos com parâmetros adicionais usando java.net.urlConnection e codificação multipartida/formulário?
carregando arquivos com http requests para fazer upload de arquivos para um servidor http e também enviando parâmetros adicionais, java.net.ur...

Programação Postado em 2025-07-03
Como limitar o intervalo de rolagem de um elemento dentro de um elemento pai de tamanho dinâmico?
implementando limites de altura CSS para elementos de rolagem vertical em uma interface interativa, o controle do comportamento de rolagem dos...

Programação Postado em 2025-07-03
Como evitar envios duplicados após a atualização do formulário?
impedindo envios duplicados com atualização de manipulação no desenvolvimento da web, é comum encontrar a questão das submissões duplicadas qu...

Programação Postado em 2025-07-03
`Console.log` mostra o motivo da exceção do valor do objeto modificado
Objetos e console.log: uma estranheza desvendada Ao trabalhar com objetos e console.log, você pode encontrar comportamento peculiar. Vamos des...

Programação Postado em 2025-07-03
O método do banco de dados MySQL não é necessário para despejar a mesma instância
copiando um banco de dados MySQL na mesma instância sem despejar copiar um banco de dados na mesma instância MySQL pode ser feita sem ter que ...

Programação Postado em 2025-07-03
Por que estou recebendo um erro "não consegui encontrar uma implementação do padrão de consulta" na minha consulta Silverlight Linq?
ausência de implementação do padrão de consulta: resolvendo "não conseguiu encontrar" erros em um aplicativo Silverlight, uma tentat...

Programação Postado em 2025-07-03
Posso migrar minha criptografia de McRypt para OpenSSL e descriptografar dados criptografados por McRypt usando o OpenSSL?
Atualizando minha biblioteca de criptografia de McRypt para OpenSSL posso atualizar minha biblioteca de criptografia de McHRPT para openssl? N...

Programação Postado em 2025-07-03
Como posso personalizar otimizações de compilação no compilador Go?
personalizando otimizações de compilação no Go Compiler O processo de compilação padrão em Go segue uma estratégia de otimização específica. N...

Programação Postado em 2025-07-03
Como posso substituir com eficiência várias substringas em uma string java?
substituindo várias substâncias em uma string com eficiência em java quando confrontado com a necessidade de substituir várias substringas den...

Programação Postado em 2025-07-03
Como posso iterar de maneira síncrona e imprimir valores de duas matrizes de tamanho igual no PHP?
iterando e imprimindo valores de duas matrizes do mesmo tamanho ao criar uma caixa selecionada usando duas matrizes de tamanho igual, um contend...

Programação Postado em 2025-07-03
Como posso selecionar programaticamente todo o texto dentro de uma div em mouse clique?
selecionando programaticamente o texto div no mouse click question dado um elemento Div com conteúdo de texto, como o usuário pode selecionar ...

Programação Postado em 2025-07-03
A diferença entre o processamento de sobrecarga de sobrecarga de função PHP e C ++
função php sobrecarregando: desvendando o enigma de uma perspectiva C como um desenvolvedor C experiente se aventurando no reino do PHP, você po...

Programação Postado em 2025-07-03
Você pode usar o CSS para colorir a saída do console no Chrome e no Firefox?
exibindo cores no javascript Console é possível usar o console do Chrome para exibir texto colorido, como vermelho para erros, laranja para al...

Programação Postado em 2025-07-03
Tarefa assíncroada vs. assíncrona em asp.net: Por que o método assíncrono void às vezes joga exceções?
Entendendo a distinção entre a tarefa assíncrona e async em asp.net em ASP.NET APLICAÇÕES, ASYNCHRONOUS PROGRATIONS APRESENCIA UM REMAÇÃO CRUC...

Programação Postado em 2025-07-03
Eval () vs. AST.LITERAL_EVAL (): Qual função Python é mais segura para a entrada do usuário?
pesando avaliação () e ast.literal_eval () na python Security Ao lidar com a entrada do usuário, é imperativo priorizar a segurança. Eval (), ...

Programação Postado em 2025-07-03

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo