تضمين الكلمات مع بايثون: Wordc

الصفحة الأمامية > برمجة > تضمين الكلمات مع بايثون: Wordc

تضمين الكلمات مع بايثون: Wordc

تم النشر بتاريخ 2024-11-08

تصفح:104

Word-embedding-with-Python: Wordc

تنفيذ word2vec مع Python (& Gensim)

ملاحظة: هذا الكود مكتوب بلغة Python 3.6.1 ( Gensim 2.3.0)
تنفيذ بايثون وتطبيق word2vec مع Gensim
الورقة الأصلية: Mikolov، T.، Chen، K.، Corrado، G.، & Dean، J. (2013). تقدير فعال لتمثيلات الكلمات في الفضاء المتجه. طبعة arXiv المسبقة arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

استيراد مجموعة بيانات التدريب
قم باستيراد مجموعة هاملت لشكسبير من مكتبة nltk

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

نوع المتن: فئة "قائمة"
طول المجموعة: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['['، 'ال'، 'المأساة'، 'من'، 'هاملت'، 'بواسطة'، 'وليام'، 'شكسبير'، '١٥٩٩'، ']']
['أكتوس'، 'بريموس'، '.']
['فران', '.']

بيانات المعالجة المسبقة

استخدم وحدة إعادة لمعالجة البيانات مسبقًا
تحويل كافة الحروف إلى أحرف صغيرة
إزالة علامات الترقيم والأرقام وما إلى ذلك.

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['ال'، 'المأساة'، 'من'، 'هاملت'، 'بواسطة'، 'ويليام'، 'شكسبير']
['أكتوس', 'بريموس']
['فران']

إنشاء وتدريب النموذج

إنشاء نموذج word2vec وتدريبه باستخدام مجموعة هاملت
وصف المعلمة الرئيسية (https://radimrehurek.com/gensim/models/word2vec.html)
- الجمل: بيانات التدريب (يجب أن تكون قائمة تحتوي على جمل مميزة)
- الحجم: أبعاد مساحة التضمين
- sg: CBOW إذا كان 0، تخطي جرام إذا كان 1
- النافذة: عدد الكلمات المحسوبة لكل سياق (إذا كانت النافذة
- الحجم هو 3، يتم أخذ 3 كلمات في الحي الأيسر و3 كلمات في الحي الأيمن في الاعتبار)
- min_count: الحد الأدنى لعدد الكلمات المراد تضمينها في المفردات
- iter: عدد تكرارات التدريب
- العمال: عدد خيوط العامل المطلوب تدريبها

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

حفظ وتحميل النموذج

يمكن حفظ نموذج word2vec وتحميله محليًا
قد يؤدي القيام بذلك إلى تقليل الوقت اللازم لتدريب النموذج مرة أخرى

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

حساب التشابه

يمكن حساب التشابه بين الكلمات المضمنة (أي المتجهات) باستخدام مقاييس مثل تشابه جيب التمام

model.most_similar('hamlet')

[('هوراشيو', 0.9978846311569214),
('ملكة'، 0.9971947073936462)،
('لارتيس'، 0.9971820116043091)،
('ملك'، 0.9968599081039429)،
('الأم'، 0.9966716170310974)،
('أين'، 0.9966292381286621)،
('دير'، 0.9965540170669556)،
('أوفيليا'، 0.9964221715927124)،
('جدًا'، 0.9963752627372742)،
('أوه'، 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

بيان الافراج تم إعادة إنتاج هذه المقالة على: https://dev.to/ragoli86/word-embedding-with-python-word2vec-540c?1 إذا كان هناك أي انتهاك، فيرجى الاتصال بـ [email protected] لحذفه

أحدث البرنامج التعليمي أكثر>

الإدخال: لماذا "تحذير: mysqli_query () يتوقع أن تكون المعلمة 1 mysqli ، مورد معطى" يحدث خطأ وكيفية إصلاحه؟ الإخراج: يجب أن تكون معلمة التحليل والتثبيت لحل الخطأ "تحذير: mysqli_query () mysqli بدلاً من المورد"
mysqli ، المورد المعطى "يمكن أن يحدث خطأ. يشير هذا الخطأ إلى عدم تطابق بين نوع المعلمة الأولى ونوع المورد المتوقع. لا يمكن تبديل هاتين الامتد...

برمجة نشر في 2025-04-20
صفيف
الأساليب هي fns التي يمكن استدعاؤها على الكائنات المصفوفات هي كائنات ، وبالتالي لديهم أيضًا طرق في JS. شريحة (ابدأ): استخراج جزء من المص...

برمجة نشر في 2025-04-20
هل يمكن تكديس عناصر لزجة متعددة فوق بعضها البعض في CSS النقي؟
هنا: https://webthemez.com/demo/sticky-multi-header-scroll/index.html فقط أفضل استخدام CSS النقي ، بدلاً من تنفيذ JavaScript. لقد جربت قليلاً ...

برمجة نشر في 2025-04-20
كيفية إزالة الرموز التعبيرية من الأوتار في بيثون: دليل المبتدئين لتثبيت الأخطاء الشائعة؟
إزالة الرموز التعبيرية من سلاسل في python يجب تعيين سلاسل Unicode باستخدام بادئة U '' على Python 2. بالإضافة إلى ذلك ، يجب تمرير علامة ...

برمجة نشر في 2025-04-20
تنفيذ طريقة مائلة للنص المحاذاة اليساري في جميع المتصفحات
] ] محاذاة النص على الخطوط المائلة الخلفية يمكن أن يحقق النص المحاذاة اليسرى على خط مائل تحديًا ، بشكل خاص عندما يكون Secreta. التوافق (العودة إل...

برمجة نشر في 2025-04-20
كيف يمكنني استرداد قيم السمات بكفاءة من ملفات XML باستخدام PHP؟
عند العمل مع ملف XML يحتوي على سمات مثل المثال المقدم: Stumped. لحل هذا ، يقدم PHP حلًا مباشرًا باستخدام وظيفة SimplexMlelement :: Attribut...

برمجة نشر في 2025-04-20
طريقة فعالة Python لإزالة علامات HTML من النص
يمكن تحقيق ذلك من خلال تجريد علامات HTML بشكل فعال ، مما يتركك مع النص العادي المطلوب. تحقيق استخراج النص فقط مع MLSTRIPPER PYTHON يأخذ Mlstri...

برمجة نشر في 2025-04-20
كيف يمكنني قراءة ملف كبير بكفاءة بترتيب عكسي باستخدام Python؟
قراءة ملف بترتيب عكسي في Python فيما يلي حل فعال لمعالجة هذه المهمة: مولد قارئ السطر العكسي يحدد الكود التالي وظيفة المولد ، REVELS_READLI...

برمجة نشر في 2025-04-20
كيف يمكنني تكوين pytesseract للتعرف على أرقام واحدة مع إخراج الأرقام فقط؟
لمعالجة هذه المشكلة ، نقوم بالتعمق في تفاصيل خيارات تكوين Tesseract. من أجل التعرف على الأحرف الفردية ، فإن PSM المناسب هو 10. هذا الوضع يعامل الصو...

برمجة نشر في 2025-04-20
نصائح لالتقاط الصور العائمة على الجانب الأيمن من القاع واللف حول النص
يمكن أن يخلق ذلك تأثيرًا مرئيًا جذابًا مع عرض الصورة بشكل فعال. ضمن هذه الحاوية ، أضف محتوى النص وعنصر IMG للصورة. يمكن أن يبدو رمز HTML مثل هذا: ...

برمجة نشر في 2025-04-20
خطأ المترجم "usr/bin/ld: لا يمكن العثور على -L" حل
-l يشير هذا الخطأ إلى أن الرابط لا يمكنه تحديد موقع المكتبة المحددة أثناء ربطك القابل للتنفيذ. لحل هذه المشكلة ، سوف نتعمق في تفاصيل كيفية تحدي...

برمجة نشر في 2025-04-20
متى يغلق تطبيق الويب GO اتصال قاعدة البيانات؟
إليك غوص عميق في متى وكيفية التعامل مع هذا في التطبيقات التي تعمل إلى أجل غير مسمى. المشكلة: Func Main () { var err error DB ، err = sq...

برمجة نشر في 2025-04-20
كيفية تشغيل العمليات غير المتزامنة بشكل متزامن والتعامل مع الأخطاء بشكل صحيح في JavaScript؟
متزامنة في انتظار تنفيذ العملية getValue2Async () ؛ ينتظر هذا التنفيذ بشكل متتابع الانتهاء من كل عملية قبل بدء التشغيل التالي. لتمكين التنف...

برمجة نشر في 2025-04-20
تعرض `console.log` سبب استثناء قيمة الكائن المعدل
دعنا نكشف هذا اللغز عن طريق تحليل مقتطف الرمز هذا: console.log ('foo1' ، foo ، foo.length) ؛ foo.splice (2 ، 1) ؛ console.log ('foo2&...

برمجة نشر في 2025-04-20
لماذا تفشل Microsoft Visual C ++ في تنفيذ إنشاء مثيل للقالب ثنائي المراحل بشكل صحيح؟
] ما هي الجوانب المحددة للآلية تفشل في العمل كما هو متوقع؟ ومع ذلك ، تنشأ الشكوك فيما يتعلق بما إذا كان هذا الشيك يتحقق مما إذا كان يتم الإعلان عن الأ...

برمجة نشر في 2025-04-20