Intégration de mots avec Python : Wordc

Page de garde > La programmation > Intégration de mots avec Python : Wordc

Intégration de mots avec Python : Wordc

Publié le 2024-11-08

Parcourir:951

Word-embedding-with-Python: Wordc

Implémentation de word2vec avec Python (& Gensim)

Remarque : ce code est écrit en Python 3.6.1 ( Gensim 2.3.0)
Implémentation Python et application de word2vec avec Gensim
Article original : Mikolov, T., Chen, K., Corrado, G. et Dean, J. (2013). Estimation efficace des représentations de mots dans l’espace vectoriel. préimpression arXiv arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

Importer un ensemble de données d'entraînement
Importer le corpus Hamlet de Shakespeare depuis la bibliothèque nltk

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

Type de corpus : classe 'liste'
Longueur du corpus : 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'Le', 'Tragedie', 'de', 'Hamlet', 'by', 'William', 'Shakespeare', '1599', ']']
['Actus', 'Primus', '.']
['Fran', '.']

Prétraiter les données

Utilisez le module re pour prétraiter les données
Convertir toutes les lettres en minuscules
Supprimez les signes de ponctuation, les chiffres, etc.

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['la', 'tragédie', 'de', 'hameau', 'par', 'william', 'shakespeare']
['actus', 'primus']
['fran']

Créer et entraîner un modèle

Créez un modèle word2vec et entraînez-le avec le corpus Hamlet
Description des paramètres clés (https://radimrehurek.com/gensim/models/word2vec.html)
- phrases : données d'entraînement (doit être une liste avec des phrases symbolisées)
- taille : dimension de l'espace d'intégration
- sg : CBOW si 0, sauter-gramme si 1
- fenêtre : nombre de mots pris en compte pour chaque contexte (si la fenêtre
- la taille est de 3, 3 mots dans le quartier de gauche et 3 mots dans le quartier de droite sont pris en compte)
- min_count : nombre minimum de mots à inclure dans le vocabulaire
- iter : nombre d'itérations d'entraînement
- workers : nombre de threads de travail à former

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

Enregistrer et charger le modèle

le modèle word2vec peut être enregistré et chargé localement
Cela peut réduire le temps nécessaire pour entraîner à nouveau le modèle

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

Calcul de similarité

La similarité entre les mots incorporés (c'est-à-dire les vecteurs) peut être calculée à l'aide de métriques telles que la similarité cosinus

model.most_similar('hamlet')

[('horatio', 0.9978846311569214),
('reine', 0,9971947073936462),
('laertes', 0.9971820116043091),
('roi', 0.9968599081039429),
('mère', 0,9966716170310974),
("où", 0.9966292381286621),
('deere', 0,9965540170669556),
('ophélie', 0.9964221715927124),
('très', 0,9963752627372742),
('oh', 0,9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0,99437165260314941

Déclaration de sortie Cet article est reproduit à: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 S'il y a une contrefaçon, veuillez contacter [email protected] pour le supprimer.

Dernier tutoriel Plus>

Y a-t-il une différence de performance entre l'utilisation d'une boucle for-out et un itérateur pour la traversée de collecte en Java?
pour chaque boucle vs iterator: efficacité dans la collection Traversal introduction Lorsque vous traversez une collection dans Java, le c...

La programmation Publié le 2025-03-21
Comment récupérer efficacement la dernière ligne pour chaque identifiant unique dans PostgreSQL?
PostgreSQL: Extraction de la dernière ligne pour chaque identifiant unique Dans PostgreSql, vous pouvez rencontrer des situations de données o...

La programmation Publié le 2025-03-21
Pourquoi ma configuration de GO à Homebrew provoque-t-elle des problèmes d'exécution de ligne de commande?
Brew Go Configuration vs Exécution de la ligne de commande Vous avez initialement installé aller à l'aide de Homebrew, un gestionnaire de ...

La programmation Publié le 2025-03-21
Comment supprimer les emojis des chaînes dans Python: un guide pour débutant pour fixer les erreurs courantes?
Suppression des emojis des chaînes dans python Le code python fourni pour supprimer les emojis échoue car il contient des erreurs de syntax. L...

La programmation Publié le 2025-03-21
Pourquoi les comparaisons booléennes «Flake8» sont-elles dans les clauses de filtre Sqlalchemy?
flake8 Flagging Boolean Comparison in Filter ClauseWhen attempting to filter query results based on a boolean comparison in SQL, developers may encoun...

La programmation Publié le 2025-03-21
Comment limiter la plage de défilement d'un élément dans un élément parent de taille dynamique?
Implémentation de limites de hauteur CSS pour les éléments de défilement vertical dans une interface interactive, le contrôle du comportement ...

La programmation Publié le 2025-03-21
Comment extraire un élément aléatoire d'un tableau en PHP?
sélection aléatoire à partir d'un tableau en php, l'obtention d'un élément aléatoire à partir d'un tableau peut être accompli av...

La programmation Publié le 2025-03-21
Pourquoi les images affichent-elles des images à l'aide de la propriété CSS «Content»?
Affichage des images avec URL de contenu dans Firefox Un problème a été rencontré lorsque certains navigateurs, spécifiquement Firefox, n'...

La programmation Publié le 2025-03-21
Comment puis-je syndicrer des tables de base de données avec différents nombres de colonnes?
Tables combinées avec différentes colonnes ] peut rencontrer des défis lorsque vous essayez de fusionner les tables de base de données avec dif...

La programmation Publié le 2025-03-21
$Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?$
Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?
Adresses du post Demande Dysfonctionnement en php Dans l'extrait de code présenté: "Méthode =" post "> " ...

La programmation Publié le 2025-03-21
Pourquoi mon image d'arrière-plan CSS apparaît-elle?
Troubleshoot: Image d'arrière-plan CSS n'apparaissant pas Vous avez rencontré un problème où votre image d'arrière-plan échoue mal...

La programmation Publié le 2025-03-21
Pourquoi une grille avec des colonnes 100% grid-template s'étend-elle au-delà du corps lors de l'utilisation du positionnement fixe?
La grille dépasse le corps avec 100% grid-template-columns Pourquoi une grille d'affichage avec 100% dans les colonnes de la grille s'...

La programmation Publié le 2025-03-21
Comment résoudre les écarts de chemin du module dans GO Mod en utilisant la directive Remplacer?
surmonter la divergence du chemin du module dans go mod Lors de l'utilisation de Go Mod, il est possible de rencontrer un conflit où un pa...

La programmation Publié le 2025-03-21
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-03-21
Python Lire le fichier CSV UnicodedeCodeerror Ultimate Solution
Unicode Decode Erreur dans la lecture du fichier CSV Lorsque vous essayez de lire un fichier CSV dans Python à l'aide du module CSV intégr...

La programmation Publié le 2025-03-21

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article