Incrustación de palabras con Python: Wordc

Página delantera > Programación > Incrustación de palabras con Python: Wordc

Incrustación de palabras con Python: Wordc

Publicado el 2024-11-08

Navegar:634

Word-embedding-with-Python: Wordc

Implementación de word2vec con Python (y Gensim)

Nota: Este código está escrito en Python 3.6.1 (Gensim 2.3.0)
Implementación en Python y aplicación de word2vec con Gensim
Artículo original: Mikolov, T., Chen, K., Corrado, G. y Dean, J. (2013). Estimación eficiente de representaciones de palabras en el espacio vectorial. preimpresión de arXiv arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

Importar conjunto de datos de entrenamiento
Importar el corpus Hamlet de Shakespeare desde la biblioteca nltk

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

Tipo de corpus: clase 'lista'
Longitud del corpus: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'La', 'Tragedia', 'de', 'Hamlet', 'por', 'William', 'Shakespeare', '1599', ']']
['Actus', 'Primus', '.']
['Fran', '.']

Datos previos al proceso

Utilice el módulo re para preprocesar datos
Convertir todas las letras a minúsculas
Eliminar puntuaciones, números, etc.

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['la', 'tragedia', 'de', 'hamlet', 'por', 'william', 'shakespeare']
['actus', 'primus']
['fran']

Crear y entrenar modelo

Crear un modelo word2vec y entrenarlo con el corpus Hamlet
Descripción del parámetro clave (https://radimrehurek.com/gensim/models/word2vec.html)
- sentencias: datos de entrenamiento (tiene que ser una lista con oraciones tokenizadas)
- tamaño: dimensión del espacio de incrustación
- sg: CBOW si 0, saltar gramo si 1
- ventana: número de palabras contabilizadas para cada contexto (si la ventana
- el tamaño es 3, se consideran 3 palabras en el vecindario izquierdo y 3 palabras en el vecindario derecho)
- min_count: recuento mínimo de palabras a incluir en el vocabulario
- iter: número de iteraciones de entrenamiento
- trabajadores: número de subprocesos de trabajadores para entrenar

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

Guardar y cargar modelo

El modelo word2vec se puede guardar y cargar localmente
Hacerlo puede reducir el tiempo para entrenar el modelo nuevamente

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

Cálculo de similitud

La similitud entre palabras incrustadas (es decir, vectores) se puede calcular usando métricas como la similitud del coseno

model.most_similar('hamlet')

[('horacio', 0.9978846311569214),
('reina', 0.9971947073936462),
('laertes', 0.9971820116043091),
('rey', 0.9968599081039429),
('madre', 0.9966716170310974),
('donde', 0.9966292381286621),
('deere', 0.9965540170669556),
('ofelia', 0.9964221715927124),
('muy', 0.9963752627372742),
('oh', 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

Declaración de liberación Este artículo se reproduce en: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 Si hay alguna infracción, comuníquese con [email protected] para eliminarla.

Último tutorial Más>

¿Existe una diferencia de rendimiento entre usar un bucle for-ENTRES y un iterador para la transmisión de recorrido en Java?
para cada bucle vs. iterator: eficiencia en la colección traversal introduction cuando la colección en java, la opción, la opción iba entr...

Programación Publicado el 2025-03-22
¿Cómo puedo recuperar eficientemente los valores de atributos de los archivos XML usando PHP?
Recuperando valores de atributo de archivos XML en php Todo desarrollador encuentra la necesidad de analizar archivos XML y extraer valores es...

Programación Publicado el 2025-03-22
¿Java permite múltiples tipos de devolución: una mirada más cercana a los métodos genéricos?
múltiples tipos de retorno en java: una concepción errónea indicada en el reino de la programación de java, una firma de método de método pued...

Programación Publicado el 2025-03-22
¿Por qué no es una solicitud posterior a capturar la entrada en PHP a pesar del código válido?
abordando la solicitud de solicitud de la publicación $ _Server ['php_self'];?> "Método =" post "> [&] la intenci...

Programación Publicado el 2025-03-22
¿Cómo insertar correctamente las blobs (imágenes) en MySQL usando PHP?
Inserte blobs en bases de datos MySQL con php Al intentar almacenar una imagen en una base de datos MySQL, puede encontrar un asunto. Esta gu...

Programación Publicado el 2025-03-22
¿Por qué no aparece mi imagen de fondo CSS?
Solución de problemas: css La imagen de fondo que no aparece ha encontrado un problema en el que su imagen de fondo no se carga a pesar de las...

Programación Publicado el 2025-03-22
¿Cómo resolver las discrepancias de la ruta del módulo en el mod utilizando la Directiva Reemplazar?
Superación del módulo Discrepancia en el mod Al utilizar el mod, es posible encontrar un conflicto en el que un paquete de terceros importe ot...

Programación Publicado el 2025-03-22
¿Por qué cesan la ejecución de JavaScript cuando se usa el botón de retroceso de Firefox?
Problema de historial de navegación: JavaScript deja de ejecutar después de usar el botón de retroceso de Firefox Los usuarios de Firefox pued...

Programación Publicado el 2025-03-22
¿Cómo puede usar los datos de Group by para pivotar en MySQL?
pivotando resultados de consulta usando el grupo mySQL mediante en una base de datos relacional, los datos giratorios se refieren al reorganiz...

Programación Publicado el 2025-03-22
Python Leer el archivo CSV UnicodeDeCodeError Ultimate Solution
unicode decode error en el archivo csv lectura al intentar leer un archivo csv en python usando el modulo CSV incorporado, (unicodeScal No se ...

Programación Publicado el 2025-03-22
¿Cómo eliminar los emojis de las cuerdas en Python: una guía para principiantes para solucionar errores comunes?
Eliminación de emojis de las cadenas en python el código de python proporcionado para eliminar emojis falla porque contiene errores de sintaxi...

Programación Publicado el 2025-03-22
¿Cómo recuperar la última biblioteca jQuery de Google API?
recuperando la última biblioteca jQuery de Google APIS La URL de jQuery proporcionada en la pregunta es para la versión 1.2.6. Para recuperar ...

Programación Publicado el 2025-03-22
Formación
Los métodos son fns que se pueden llamar a los objetos Las matrices son objetos, por lo tanto, también tienen métodos en js. Slice (Begi...

Programación Publicado el 2025-03-22
¿Cómo envía Android los datos de publicación al servidor PHP?
enviando datos de publicaciones en android introducción Este artículo aborda la necesidad de enviar datos de publicación a un script de PH...

Programación Publicado el 2025-03-22
Fit de objeto: la cubierta falla en IE y Edge, ¿cómo solucionar?
Object-Fit: la portada falla en IE y Edge, ¿cómo solucionar? utilizando objeto-fit: cover; en CSS para mantener la altura de imagen consistent...

Programación Publicado el 2025-03-22

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo