Python を使用した Word 埋め込み: Wordc

表紙 > プログラミング > Python を使用した Word 埋め込み: Wordc

Python を使用した Word 埋め込み: Wordc

2024 年 11 月 8 日に公開

ブラウズ：408

Word-embedding-with-Python: Wordc

Python (および Gensim) を使用した word2vec 実装

注: このコードは Python 3.6.1 (Gensim 2.3.0) で書かれています
Gensim を使用した Python の実装と word2vec のアプリケーション
原著論文: Mikolov, T.、Chen, K.、Corrado, G.、および Dean, J. (2013)。ベクトル空間での単語表現の効率的な推定。 arXiv プレプリント arXiv:1301.3781.

import re
import numpy as np

from gensim.models import Word2Vec
from nltk.corpus import gutenberg
from multiprocessing import Pool
from scipy import spatial

トレーニングデータセットをインポートします
nltk ライブラリからシェイクスピアのハムレットコーパスをインポート

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

コーパスの種類: クラス 'リスト'
コーパスの長さ: 3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'ザ'、'悲劇'、'オブ'、'ハムレット'、'バイ'、'ウィリアム'、'シェイクスピア'、'1599'、']']
['アクタス'、'プリムス'、'.']
['フラン', '.']

データの前処理

re モジュールを使用してデータを前処理する
すべての文字を小文字に変換します
句読点や数字などを削除します。

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z] ', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['ザ'、'悲劇'、'オブ'、'ハムレット'、'バイ'、'ウィリアム'、'シェイクスピア']
['アクタス'、'プリムス']
['フラン']

モデルの作成とトレーニング

word2vec モデルを作成し、Hamlet コーパスでトレーニングする
キーパラメータの説明 (https://radimrehurek.com/gensim/models/word2vec.html)
- sentences: トレーニングデータ (トークン化された文のリストである必要があります)
- size: 埋め込みスペースの寸法
- sg: 0 の場合は CBOW、1 の場合はスキップグラム
- window: 各コンテキストに含まれる単語の数 (ウィンドウ
- サイズは 3、左近傍の 3 ワードと右近傍の 3 ワードが考慮されます)
- min_count: 語彙に含まれる単語の最小数
- iter: トレーニングの反復数
- workers: トレーニングするワーカースレッドの数

model = Word2Vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = Pool()._processes)

model.init_sims(replace = True)

モデルの保存とロード

word2vec モデルはローカルに保存およびロードできます
そうすることで、モデルを再度トレーニングする時間を短縮できます

model.save('word2vec_model')
model = Word2Vec.load('word2vec_model')

類似度計算

埋め込まれた単語 (ベクトル) 間の類似性は、コサイン類似度などのメトリクスを使用して計算できます。

model.most_similar('hamlet')

[('ホレイショ', 0.9978846311569214),
('クイーン', 0.9971947073936462),
('レアテス', 0.9971820116043091),
('キング', 0.9968599081039429),
('母', 0.9966716170310974),
('どこ', 0.9966292381286621),
('ディア', 0.9965540170669556),
('オフィーリア', 0.9964221715927124),
(「とても」、0.9963752627372742)、
(「ああ」、0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

リリースステートメントこの記事は、https：//dev.to/ragoli86/word-embedding-with-python-word2vec-540c？1に再現されています。

最新のチュートリアルもっと>

`console.log`は、変更されたオブジェクト値の例外の理由を示しています
objects and console.log：Objects and offeried を操作する場合、奇妙なことは独特の行動に遭遇する場合があります。このコードスニペットを分析することにより、この謎を解明しましょう： foo = [{id：1}、{id：2}、{id：3}、{id：...

プログラミング 2025-07-13に投稿されました
Pythonを使用して、大きなファイルを逆の順序で効率的に読み取るにはどうすればよいですか？
Python でファイルを逆順序で読み取る必要があり、最後の行から最初の行までの内容を読み取る必要がある場合、Pythonの組み込み機能は適切ではないかもしれません。このタスクに取り組むための効率的なソリューションは次のとおりです。バッファベースのアプローチを使用してパフォーマンスを最...

プログラミング 2025-07-13に投稿されました
入力：なぜ「警告：mysqli_query（）がパラメーター1がmysqliであると予想し、リソースが与えられた「エラーが発生し、それを修正する方法」出力：エラーを解決するための分析と修正「警告：mysqli_query（）パラメーターは、リソースの代わりにmysqliである必要があります」
mysqli_query（）は、パラメーター1がmysqliであることを期待しています。発生する可能性があります。このエラーは、最初のパラメーターのタイプと予想されるリソースタイプとの間の不一致を示します。これらの2つの拡張機能は交換可能ではなく、一緒に使用することはできません。 MySQ...

プログラミング 2025-07-13に投稿されました
ユーザーローカルタイムフォーマットとタイムゾーンオフセットディスプレイガイド
をタイムオフセットでユーザーのロケール形式で表示するをエンドユーザーに提示する場合、ローカルタイムゾーンとフォーマットに表示することが重要です。これにより、さまざまな地理的位置にわたって明確でシームレスなユーザーエクスペリエンスが保証されます。 JavaScriptを使用してこれを達成す...

プログラミング 2025-07-13に投稿されました
Python読み取りCSVファイルUnicodedeCodeError究極のソリューション
unicode decodeエラーがcsvファイルreading 内蔵csvモジュールを使用してpythonにcsvファイルを読み込もうとする場合、エラーが発生する可能性があります： SyntaxError: (unicode error) 'unicodeescape' codec ...

プログラミング 2025-07-13に投稿されました
MySQLデータベースメソッドは、同じインスタンスをダンプする必要はありません
同じインスタンスでmysqlデータベースをコピーする同じmysqlインスタンスでデータベースをコピーすることはできません。以下の方法は、従来のダンプアンドインポートプロセスのより簡単な代替手段を提供します。 | mysql new_db_name このコマンドは、new_db_nam...

プログラミング 2025-07-13に投稿されました
FASTAPIカスタム404ページ作成ガイド
custom 404 Fastapi を備えたPage not inound Page not foundページを作成するには、Fastapiがいくつかのアプローチを提供します。適切な方法は、特定の要件に依存します。 call_next（リクエスト） response.status_c...

プログラミング 2025-07-13に投稿されました
UTF8 MySQLテーブルでLATIN1文字をUTF8に正しく変換する方法
latin1文字をUTF8テーブル内のutf8に変換する diaCriticsのキャラクターが遭遇した問題に遭遇しました（ "Jáuòiñe"）がUTF8テーブルで存在していないために、utf8テーブルが不足しているために存在していませんでした。「mysql_se...

プログラミング 2025-07-13に投稿されました
多次元アレイのためにPHPでのJSONの解析を簡素化する方法は？
jsonをphp でphpで解析しようとする場合、特に多次元配列を扱う場合は困難な場合があります。プロセスを簡素化するには、JSONをオブジェクトではなく配列として解析することをお勧めします。 print_r（$ json）を使用して配列構造を探索することは、目的の情報へのアクセス方法を決...

プログラミング 2025-07-13に投稿されました
decimal.parse（）を使用して指数表記で数値を解析する方法は？
指数表記からの数字を解析する場合、decimal.parse（ "1.2345e-02"）を使用して指数表記で表現された文字列を解析しようとすると、エラーが発生します。これは、デフォルトの解析方法が指数表記法を認識しないためです。次の例に示すように、numberSty...

プログラミング 2025-07-13に投稿されました
$最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？$
最大カウントを見つけるときにmysqlで\ "無効なグループ関数の使用を解決する方法\"エラーは？
mysql を使用して最大カウントを取得する方法mysqlでは、次のコマンドを使用して特定の列によってグループ化された値の最大値を見つけようとする際に問題に遭遇する可能性があります。 emp1グループからmax（count（*））を名前で選択します。エラー1111（HY000）：グル...

プログラミング 2025-07-13に投稿されました
Javaのオブザーバーパターンを使用してカスタムイベントを実装する方法は？
Javaでカスタムイベントを作成するカスタムイベントは、多くのプログラミングシナリオで不可欠であり、特定のトリガーに基づいてコンポーネントが相互に通信できるようにします。この記事は、以下に対処することを目的としています。オブザーバーパターンの概要を次に示します。サンプル実装次の...

プログラミング 2025-07-13に投稿されました
RPCメソッド探索用のGOインターフェイスの反射動的実装
go タイプmyServiceインターフェイスのようなインターフェイスを検討してください{ ログイン（ユーザー名、パスワード文字列）（sessionId int、errエラー） helloworld（sessionid int）（こんにちは文字列、エラーエラー） } ...

プログラミング 2025-07-13に投稿されました
テキストからHTMLタグを削除するPython効率的な方法
htmlタグをpythonでストリップするために、html応答を操作することがよくある間、html応答を操作することがしばしば抽出され、形式のタグを排除します。これは、HTMLタグを効果的に剥がし、目的のプレーンテキストを残すことで実現できます。 mlstripperはHTML入力を取り、...

プログラミング 2025-07-13に投稿されました
PHPの2つの等しいサイズの配列から値を同期して反復して印刷するにはどうすればよいですか？
同じサイズの2つの配列の2つの配列から値を同期して反復して印刷する場合、同サイズの2つの配列を使用してselectboxを作成する場合、1つは対応する名前を含む1つを使用して、困難が不適切なsyntaxに起因する可能性があります。アレイ： foreach（$ codes as $ code、...

プログラミング 2025-07-13に投稿されました