"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > تضمين الكلمات مع بايثون: Wordc

تضمين الكلمات مع بايثون: Wordc

تم النشر بتاريخ 2024-11-08
تصفح:328

Word-embedding-with-Python: Wordc

تنفيذ word2vec مع Python (& Gensim)

  • ملاحظة: هذا الكود مكتوب بلغة Python 3.6.1 ( Gensim 2.3.0)

  • تنفيذ بايثون وتطبيق word2vec مع Gensim

  • الورقة الأصلية: Mikolov، T.، Chen، K.، Corrado، G.، & Dean، J. (2013). تقدير فعال لتمثيلات الكلمات في الفضاء المتجه. طبعة arXiv المسبقة arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial
  • استيراد مجموعة بيانات التدريب
  • قم باستيراد مجموعة هاملت لشكسبير من مكتبة nltk
sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

نوع المتن: فئة "قائمة"
طول المجموعة: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['['، 'ال'، 'المأساة'، 'من'، 'هاملت'، 'بواسطة'، 'وليام'، 'شكسبير'، '١٥٩٩'، ']']
['أكتوس'، 'بريموس'، '.']
['فران', '.']

بيانات المعالجة المسبقة

  • استخدم وحدة إعادة لمعالجة البيانات مسبقًا
  • تحويل كافة الحروف إلى أحرف صغيرة
  • إزالة علامات الترقيم والأرقام وما إلى ذلك.
for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['ال'، 'المأساة'، 'من'، 'هاملت'، 'بواسطة'، 'ويليام'، 'شكسبير']
['أكتوس', 'بريموس']
['فران']

إنشاء وتدريب النموذج

  • إنشاء نموذج word2vec وتدريبه باستخدام مجموعة هاملت
  • وصف المعلمة الرئيسية (https://radimrehurek.com/gensim/models/word2vec.html)
    • الجمل: بيانات التدريب (يجب أن تكون قائمة تحتوي على جمل مميزة)
    • الحجم: أبعاد مساحة التضمين
    • sg: CBOW إذا كان 0، تخطي جرام إذا كان 1
    • النافذة: عدد الكلمات المحسوبة لكل سياق (إذا كانت النافذة
    • الحجم هو 3، يتم أخذ 3 كلمات في الحي الأيسر و3 كلمات في الحي الأيمن في الاعتبار)
    • min_count: الحد الأدنى لعدد الكلمات المراد تضمينها في المفردات
    • iter: عدد تكرارات التدريب
    • العمال: عدد خيوط العامل المطلوب تدريبها
model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

حفظ وتحميل النموذج

  • يمكن حفظ نموذج word2vec وتحميله محليًا
  • قد يؤدي القيام بذلك إلى تقليل الوقت اللازم لتدريب النموذج مرة أخرى
model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

حساب التشابه

  • يمكن حساب التشابه بين الكلمات المضمنة (أي المتجهات) باستخدام مقاييس مثل تشابه جيب التمام
model.most_similar('hamlet')

[('هوراشيو', 0.9978846311569214),
('ملكة'، 0.9971947073936462)،
('لارتيس'، 0.9971820116043091)،
('ملك'، 0.9968599081039429)،
('الأم'، 0.9966716170310974)،
('أين'، 0.9966292381286621)،
('دير'، 0.9965540170669556)،
('أوفيليا'، 0.9964221715927124)،
('جدًا'، 0.9963752627372742)،
('أوه'، 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

بيان الافراج تم إعادة إنتاج هذه المقالة على: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 إذا كان هناك أي انتهاك، فيرجى الاتصال بـ [email protected] لحذفه
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3