वर्ड-एम्बेडिंग-विद-पायथन: वर्डसी

मुखपृष्ठ > प्रोग्रामिंग > वर्ड-एम्बेडिंग-विद-पायथन: वर्डसी

वर्ड-एम्बेडिंग-विद-पायथन: वर्डसी

2024-11-08 को प्रकाशित

ब्राउज़ करें:179

Word-embedding-with-Python: Wordc

Python (& Gensim) के साथ Word2vec कार्यान्वयन

नोट: यह कोड पायथन 3.6.1 (जेनसिम 2.3.0) में लिखा गया है
जेनसिम के साथ वर्ड2वेक का पायथन कार्यान्वयन और अनुप्रयोग
मूल पेपर: मिकोलोव, टी., चेन, के., कोराडो, जी., और डीन, जे. (2013)। वेक्टर स्पेस में शब्द प्रतिनिधित्व का कुशल अनुमान। arXiv प्रीप्रिंट arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

प्रशिक्षण डेटासेट आयात करें
एनएलटीके लाइब्रेरी से शेक्सपियर के हेमलेट कॉर्पस को आयात करें

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

कोश का प्रकार: वर्ग 'सूची'
कोष की लंबाई: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'द', 'ट्रेजेडी', 'ऑफ़', 'हैमलेट', 'बाय', 'विलियम', 'शेक्सपियर', '1599', ']']
['एक्टस', 'प्राइमस', '.']
['फ्रैन', '.']

प्रीप्रोसेस डेटा

डेटा को प्रीप्रोसेस करने के लिए पुनः मॉड्यूल का उपयोग करें
सभी अक्षरों को छोटे अक्षरों में बदलें
विराम चिह्न, संख्याएं आदि हटाएं।

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['द', 'ट्रेजेडी', 'ऑफ़', 'हैमलेट', 'बाय', 'विलियम', 'शेक्सपियर']
['एक्टस', 'प्राइमस']
['फ्रैन']

मॉडल बनाएं और प्रशिक्षित करें

एक Word2vec मॉडल बनाएं और इसे हेमलेट कॉर्पस के साथ प्रशिक्षित करें
मुख्य पैरामीटर विवरण (https://radimrehurek.com/gensim/models/word2vec.html)
- वाक्य: प्रशिक्षण डेटा (टोकनयुक्त वाक्यों के साथ एक सूची होनी चाहिए)
- आकार: एम्बेडिंग स्थान का आयाम
- sg: CBOW यदि 0, स्किप-ग्राम यदि 1
- विंडो: प्रत्येक संदर्भ के लिए शब्दों की संख्या (यदि विंडो
- आकार 3 है, बाएं पड़ोस में 3 शब्द और दाएं पड़ोस में 3 शब्द माने गए हैं)
- min_count: शब्दावली में शामिल किए जाने वाले शब्दों की न्यूनतम संख्या
- इटर: प्रशिक्षण पुनरावृत्तियों की संख्या
- श्रमिक: प्रशिक्षित करने के लिए कार्यकर्ता थ्रेड की संख्या

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

मॉडल सहेजें और लोड करें

word2vec मॉडल को स्थानीय रूप से सहेजा और लोड किया जा सकता है
ऐसा करने से मॉडल को दोबारा प्रशिक्षित करने में लगने वाला समय कम हो सकता है

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

समानता गणना

एम्बेडेड शब्दों (यानी, वैक्टर) के बीच समानता की गणना कोसाइन समानता जैसे मैट्रिक्स का उपयोग करके की जा सकती है

model.most_similar('hamlet')

[('होरेशियो', 0.9978846311569214),
('क्वीन', 0.9971947073936462),
('लैर्टेस', 0.9971820116043091),
('राजा', 0.9968599081039429),
('माँ', 0.9966716170310974),
('कहां', 0.9966292381286621),
('डीरे', 0.9965540170669556),
('ओफेलिया', 0.9964221715927124),
('बहुत', 0.9963752627372742),
('ओह', 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए स्टडी_गोलंग@163.com से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

मैं सेल एडिटिंग के बाद कस्टम जेटेबल सेल रेंडरिंग कैसे बनाए रख सकता हूं?
हालाँकि, यह सुनिश्चित करना महत्वपूर्ण है कि वांछित स्वरूपण को संपादन संचालन के बाद भी संरक्षित किया गया है। इस तरह के परिदृश्यों में, सेल रेंडरर का ड...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
मेरी रैखिक ढाल पृष्ठभूमि में धारियां क्यों हैं, और मैं उन्हें कैसे ठीक कर सकता हूं?
] इन भद्दे कलाकृतियों को एक जटिल पृष्ठभूमि प्रसार घटना के लिए जिम्मेदार ठहराया जा सकता है। इसके बाद, रैखिक-ग्रेडिएंट इस पूरी ऊंचाई पर फैलता है, दोहराए...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
पायथन पर्यावरण चर की पहुंच और प्रबंधन के तरीके
] डिफ़ॉल्ट रूप से, मैपिंग के भीतर चर को एक्सेस करना दुभाषिया को उसके मान के लिए पायथन शब्दकोश को खोजने के लिए प्रेरित करता है। प्रिंट (os.enviriron [&...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
त्रुटि को कैसे हल करें "फ़ाइल प्रकार का अनुमान नहीं लगा सकते, एप्लिकेशन/ऑक्टेट-स्ट्रीम ..." Appengine में?
] एप्लिकेशन/ऑक्टेट-स्ट्रीम ... " समस्या रिज़ॉल्यूशन /etc/mime.types फ़ाइल। AppEngine, हालांकि, इस परिभाषा तक पहुंच नहीं हो सकती है। उदाहरण...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
ऑब्जेक्ट-फिट: कवर IE और एज में विफल रहता है, कैसे ठीक करें?
] सीएसएस में लगातार छवि ऊंचाई बनाए रखने के लिए ब्राउज़रों में मूल रूप से काम करता है। हालांकि, IE और एज में, एक अजीबोगरीब मुद्दा उठता है। ब्राउज़र को ...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
अनियंत्रित संग्रह में ट्यूपल्स के लिए एक जेनेरिक हैश फ़ंक्शन को कैसे लागू करें?
] हालांकि, कस्टम हैश फ़ंक्शन को परिभाषित किए बिना इन संग्रहों में कुंजी के रूप में टुपल्स का उपयोग करने से अप्रत्याशित व्यवहार हो सकता है। इसे ठीक क...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
पायथन पढ़ें CSV फ़ाइल Unicodedecodeerror अल्टीमेट सॉल्यूशन
डिकोड बाइट्स स्थिति 2-3 में: truncated \ uxxxxxxxxx escape यह त्रुटि तब होती है जब CSV फ़ाइल के पथ में विशेष वर्ण होते हैं या यूनिकोड होता है कि पा...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
मैं PHP के फाइलसिस्टम फ़ंक्शंस में UTF-8 फ़ाइल नाम कैसे संभाल सकता हूं?
असंगतता। mkdir ($ dir_name); मूल UTF-8 फ़ाइल नाम को पुनः प्राप्त करने के लिए, urldecode का उपयोग करें। केवल) विंडोज पर, आप UTF-8 फ़ाइल नाम के ...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट पूरे...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
फ़ायरफ़ॉक्स बैक बटन का उपयोग करते समय जावास्क्रिप्ट निष्पादन क्यों बंद हो जाता है?
] यह समस्या क्रोम और इंटरनेट एक्सप्लोरर जैसे अन्य ब्राउज़रों में नहीं होती है। इस समस्या को हल करने के लिए और बाद के पृष्ठ के दौरे पर स्क्रिप्ट निष्पा...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
एक पांडस डेटाफ्रेम कॉलम को डेटटाइम प्रारूप में कैसे परिवर्तित करें और तिथि तक फ़िल्टर करें?
] अस्थायी डेटा के साथ काम करते समय, टाइमस्टैम्प शुरू में तार के रूप में दिखाई दे सकते हैं, लेकिन सटीक विश्लेषण के लिए एक डेटाइम प्रारूप में परिवर्तित ...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
Eval () बनाम ast.literal_eval (): उपयोगकर्ता इनपुट के लिए कौन सा पायथन फ़ंक्शन सुरक्षित है?
] eval (), एक शक्तिशाली पायथन फ़ंक्शन, अक्सर एक संभावित समाधान के रूप में उत्पन्न होता है, लेकिन चिंताएं इसके संभावित जोखिमों को घेरती हैं। यह लेख eva...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
Visual Studio 2012 में DataSource संवाद में MySQL डेटाबेस कैसे जोड़ें?
] यह लेख इस मुद्दे को संबोधित करता है और एक समाधान प्रदान करता है। इसे हल करने के लिए, यह समझना महत्वपूर्ण है कि MySQL के लिए आधिकारिक विजुअल स्टूडियो...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
कैसे अतुल्यकालिक संचालन को समवर्ती रूप से चलाएं और जावास्क्रिप्ट में सही ढंग से त्रुटियों को संभालें?
getValue2Async (); समवर्ती निष्पादन को सक्षम करने के लिए, एक संशोधित दृष्टिकोण की आवश्यकता होती है। getValue2Async (); यह दूसरे को शुरू करने से प...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया
जावा में पर्यवेक्षक पैटर्न का उपयोग करके कस्टम घटनाओं को कैसे लागू करें?
] इस लेख का उद्देश्य निम्नलिखित को संबोधित करना है: समस्या कथन हम विशिष्ट घटनाओं के आधार पर वस्तुओं के बीच बातचीत की सुविधा के लिए जावा में कस...

प्रोग्रामिंग 2025-07-12 को पोस्ट किया गया