नोट: यह कोड पायथन 3.6.1 (जेनसिम 2.3.0) में लिखा गया है
जेनसिम के साथ वर्ड2वेक का पायथन कार्यान्वयन और अनुप्रयोग
मूल पेपर: मिकोलोव, टी., चेन, के., कोराडो, जी., और डीन, जे. (2013)। वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान। arXiv प्रीप्रिंट arXiv:1301.3781.
import re import numpy as np from gensim.models import Word2Vec from nltk.corpus import gutenberg from multiprocessing import Pool from scipy import spatial
sentences = list(gutenberg.sents('shakespeare-hamlet.txt')) # import the corpus and convert into a list print('Type of corpus: ', type(sentences)) print('Length of corpus: ', len(sentences))
कोश का प्रकार: वर्ग 'सूची'
कोष की लंबाई: 3106
print(sentences[0]) # title, author, and year print(sentences[1]) print(sentences[10])
['[', 'द', 'ट्रेजेडी', 'ऑफ़', 'हैमलेट', 'बाय', 'विलियम', 'शेक्सपियर', '1599', ']']
['एक्टस', 'प्राइमस', '.']
['फ्रैन', '.']
प्रीप्रोसेस डेटा
for i in range(len(sentences)): sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)] print(sentences[0]) # title, author, and year print(sentences[1]) print(sentences[10])
['द', 'ट्रेजेडी', 'ऑफ़', 'हैमलेट', 'बाय', 'विलियम', 'शेक्सपियर']
['एक्टस', 'प्राइमस']
['फ्रैन']
model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes) model.init_sims(replace = True)
model.save('word2vec_model') model = Word2Vec.load('word2vec_model')
model.most_similar('hamlet')
[('होरेशियो', 0.9978846311569214),
('क्वीन', 0.9971947073936462),
('लैर्टेस', 0.9971820116043091),
('राजा', 0.9968599081039429),
('माँ', 0.9966716170310974),
('कहां', 0.9966292381286621),
('डीरे', 0.9965540170669556),
('ओफेलिया', 0.9964221715927124),
('बहुत', 0.9963752627372742),
('ओह', 0.9963476657867432)]
v1 = model['king'] v2 = model['queen'] # define a function that computes cosine similarity between two words def cosine_similarity(v1, v2): return 1 - spatial.distance.cosine(v1, v2) cosine_similarity(v1, v2)
0.99437165260314941
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3