3D आभासी वातावरण के लिए Google DeepMind का सामान्य प्रयोजन AI एजेंट "SIMA" क्या है? [सीईडीईसी 2024]

मुखपृष्ठ > खेल > 3D आभासी वातावरण के लिए Google DeepMind का सामान्य प्रयोजन AI एजेंट "SIMA" क्या है? [सीईडीईसी 2024]

3D आभासी वातावरण के लिए Google DeepMind का सामान्य प्रयोजन AI एजेंट "SIMA" क्या है? [सीईडीईसी 2024]

2024-11-01 को प्रकाशित

ब्राउज़ करें:151

　2024年8月21日，ゲーム開発者向けカンファレンス「CEDEC 2024」で，セッション「SIMA: Developing General AI Agents with Video Games／SIMA：ビデオゲームを用いた汎用型AIエージェントの開発」が行われた。

Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」とは？［CEDEC 2024］

　このセッションでは，Google DeepMindの3D仮想環境向け汎用型AIエージェント「SIMA」（Scalable Instructable Multiworld Agent）の概要や，ゲームを用いたトレーニング方法，研究から得られた学びと課題，そして今後のプロジェクトの方向性などについて，同社のTechnology Strategy/AI R&D Data Strategy部門のリーダーを務めるアレクサンドル・ムファレク氏が紹介した。

Google DeepMindと，そのゲームDNA

　ムファレク氏は最初に，Google DeepMindのミッションを「人類に利益をもたらす責任あるAIを構築すること」，つまりAGI（汎用人工知能）を開発し，それが現実世界に存在する問題の安全な解決に役立つようにすることだと説明し，これまで15年近く研究を続けてきたことを紹介した。
　最初はボードゲームやAtari用のシンプルなゲームの研究から始め，やがて神経科学と脳の働きに関する理解からインスピレーションを得て，強化学習アルゴリズムの開発を手がけるようになったという。

　さらにそれらのプロジェクトから得た知識を応用して研究を進めた結果，同社のAIモデルである「AlphaProof」と「AlphaGeometry 2」を組み合わせることにより，2024年に開催された国際数学オリンピックにおける銀メダル水準の能力に到達したとのこと。
　そうした成果が，Googleの生成AI「Gemini」にも活用されていることも言及された。

　SIMAの研究にゲームを用いたのは，ムファレク氏自身やGoogle DeepMindのCEOを務めるDemis Hassabis氏を筆頭に，メンバーの大半が元ゲーム開発者だからだという。氏は「私達のDNAにはゲームが組み込まれている」と表現。またSIMAの研究とゲーム開発には，人々が考えている以上に共通点があるという。

　ムファレク氏は研究およびゲーム開発の進め方を以下のように説明した。すなわち，「仮説を立てて試行錯誤していく」と，やがて「大きな可能性を秘めた重要なピースを発見」する。しかし，「そのピースはある時点から機能しなくなり，なぜそうなったのか，もともと機能していた理由すら分からない状態に陥る」こととなる。そこから「うまくいかないすべての方法の発見」という長く反復的で厳しいプロセスに入っていくが，多くの忍耐とリソース，そして最初に立てた仮説への信頼と粘り強さがあれば，解決策が見つかるとのこと。そこからすべてが加速し，うまく噛み合ってまとまっていくという。

ゲームを用いたAI研究の歴史

　ムファレク氏は，ゲームが長きにわたってAI研究の進歩に貢献してきており，これからも研究を推進する原動力であり続けると話す。具体的にゲームは，AI研究に対して「対話して学習できるリッチで動的かつ複雑な環境」「スケーラブルで再現可能な実験」「管理された安全なテスト」を提供するとのこと。

　対話して学習できるリッチで動的かつ複雑な環境に関しては，仮想空間における移動パズルの解決，対戦相手に対する戦略の立案，変化する状況への適応などゲームで提示される課題が，現実世界の多様な状況に適応できるAIモデルの高度な問題解決スキルと意思決定能力を開発するのに役立つとの説明がなされた。

　スケーラブルで再現可能な実験に関しては，研究者がゲーム環境のインスタンスを簡単に作成し，多数のシミュレーションを同時に実行できて，それらから収集できる膨大な量のデータを用いてAIモデルをトレーニングし評価できることが挙げられた。加えて実験を一貫して複製できるため，研究結果の信頼性と妥当性が保障されるとのことだ。

　管理された安全なテストに関しては，仮想空間におけるさまざまな状況でAIモデルのパフォーマンスを評価することにより，潜在的な欠陥や制限を特定し，リアル環境でのテストに伴うリスクなしにアルゴリズムを改良できることが示された。これはとくに，エラーが深刻な結果をもたらす可能性のある自動運転や医療診断などのアプリにとって重要だという。

　強化学習およびディープラーニングが飛躍的に向上した2010年から2024年までの間に，ゲームによってAI研究が実際に進歩した事例も示された。2010年代前半には，Google DeepMindがAtari向けゲームと「DQN」（Deep Q-Network）を用いて，アルゴリズムの開発にチャレンジ。その結果，50タイトル以上のAtari向けゲームのプレイにて，超人的なパフォーマンスを発揮するアルゴリズムが完成した。

　2010年代中盤から後半にかけては，Microsoftが「Minecraft」を用いたAI訓練プロジェクト「Project Malmo」を展開。またOpenAIのAI学習プラットフォーム「Universe」は非常に汎用的なUIを備えていたため，ゲームを研究用にスケールアップして用いることが可能となった。

　また2020年代後半には，「Dota 2」用のAIシステム「OpenAI Five」が登場したり，DeepMindが開発したAIエージェント「AlphaStar」が「StarCraft II」にてトッププレイヤーに勝利したりと，複雑なゲームにおいてもAIが活用されるようになっていった。ムファレク氏はこの時期について，カスタマイズされたアクションスペースを備える単一の環境にフォーカスし，ゲームのソースコードを変えたり，AIエージェントに特殊なAPIを実装したりしてカスタマイズした研究用のプラットフォームを作っていたと説明した。

　そして，2017年にGoogleが発表した機械学習モデル「Transformer」により，AIの汎用性が拡大され，大規模言語モデル（LLM）を用いた対話文章の要約や詩の執筆，データ分析などがチャットボットを介して可能となった。さらなる汎用化により，画像や音声，映像もAIによって生成可能になっていった。

　しかしムファレク氏は，そうした大規模AIモデルの限界を指摘する。つまり大規模AIモデルには身体性がないため，あくまでもデジタル領域内のものであり，物理的な領域では動作できない。そのためAIを物理的な領域で活用するには，ソフトバンクの「Pepper」やWaymoの自動運転車などのように，物理的なセンサーなどを介して身体性を持たせる必要が生ずるのである。

AI研究の次なるチャプター：SIMA

　ムファレク氏によると，上記のAIモデルの限界という課題を乗り越えるべく，DeepMindではSIMAの研究を進めたという。その目標は「言語によって条件付けられるAIエージェントを開発すること」で，つまり自律的にゲームをプレイするだけでなく，人間が自然言語を使って「何をしてほしいか」を伝えることにより，それを実行できるAIエージェントの実現を目指したとのこと。

　そうした目標を実現するために立てられた仮説は，「ある1つの環境でAIエージェントが何かを学習し，そのスキルを使って別の環境で何かができるようになれば，AIの汎用化が進む」というものだった。すなわちゲーム1タイトルごとに専用のAIエージェントを用意するのではなく，人間が新しいゲームに触れたとき，キャラクターやカメラなどの操作をそれまでプレイしてきたゲームから引き継げるようなことを1つのAIエージェントで実現させるというわけである。

　そのためにDeepMindは，いくつかのゲーム企業と提携してAIエージェントの学習用ポートフォリオを作成したという。具体的には「No Man's Sky」「Valheim」「Teardown」「Goat Simulator」などの人間によるゲームプレイを録画してAIエージェントに学習させたという。さらにテキストベースで指示を与えることにより，SIMAを実現できたそうだ。

SIMAのトレーニング

　SIMAの学習パイプラインを，どのように構築していったかについても紹介がなされた。ムファレク氏によると最初にゲームと研究環境のオンボーディングを行うことにより，ソースコードへのアクセスや特別なAPIがなくとも，SIMAは人間と同じようにゲームをプレイできるようになるそうだ。

　またゲームと研究環境のオンボーディングは，そのゲームの開発者の協力のもとで行うという。これは，そのゲームおよびSIMAプロジェクトで使うデータをどのように扱うのかなどについて，責任の所在を明確にするためである。

　ムファレク氏によると，SIMAプロジェクトには多様かつ非暴力的な学習ポートフォリオが必要だったとのこと。そのため，視覚的に自然なもの，工業的なもの，現実的なもの，SF的なもの，あるいは一人称視点，三人称視点といったさまざまなゲームタイトルを選出。また，複雑なメカニズムを介してSIMAがさまざまな行動を取れるよう，オープンワールドやサンドボックスの要素も採り入れたという。

　SIMAのインタフェースには汎用的なものを採用しているが，それは汎用的なAIエージェントを実現するためだったという。SIMAは最初に人間から自然言語で記されたテキストで目標や指示を受け取り，それをリアルタイムで認識する。そして人間同様に，コントローラやキーボード&マウスを使ってゲームをプレイしていく。
　ムファレク氏は，このような汎用インタフェースを使うことにより，カスタマイズすることなく，どんなゲームにもSIMAを組み込めると説明した。

　また，SIMAの学習データの作成は，2つの手法が採られた。1つは人間1人がゲームをプレイし，その映像を観て要所要所の指示などを自然言語で行うアノテーションをしていくというもの。2つめは，2人一組で行うもので，1人が自然言語で指示を与え，もう1人がそれに従うというプレイ映像を撮影し，さらにアノテーションを付けるというものだ。
　これにキーボード&マウスなどの操作データを加えたものが，SIMAのデータセットである。

　こうしたデータセットには，ゲーム中の「オブジェクトを作る」「クルマを運転する」といったSIMAのゲームプレイに必要となるスキルが含まれる。それらスキルをすべてのタイトル分集めた結果，全体では膨大な数になったというが，それでもSIMAプロジェクトにとっては十分すぎることはないという。
　ムファレク氏は，データやアノテーションが高品質であればあるほどSIMAの改善に役立つとし，今後もそうした努力を継続していくと語った。

　データセットの準備ができたら，いよいよSIMAの学習トレーニングがスタートする。ここで使うのが，人間のプレイを真似して学習させる「条件付き行動クローニング」だ。
　その中核となるのは事前学習モデルをサポートするアーキテクチャだが，それを開発した時点ではまだGeminiが存在していなかったため，Classifier-Free Guidance（CFG）を用いて視覚入力よりも言語的な命令を優先するように学習させ，自然言語をうまく理解できるようにサポートしたことが明かされた。

　SIMAが出した成果を評価するフェイズでは，さまざまなタスクにおけるパフォーマンスを測定するために，チャレンジセットを作成したとのこと。タスクには3つの要素があり，1つめはSIMAが行動を開始する「初期状態」，2つめはSIMAが従うべき「目標・指示」，3つめはタスクを達成できたか否かを判断する「成功基準」だ。

　またSIMAは，プログラム的にタスクが正常に完了したかどうかを判断する「Ground Truth」，画面上のテキストの変化によりどんな行動を取ったかをフィードバックする「光学式文字認識（OCR）」，そして人間が映像を確認し，タスクが正常に完了したかを確認する「人間による評価」の3つの観点から評価されることも紹介された。

SIMA初期の研究結果，そしてこのアプローチの制約

　プロジェクト初期の研究結果から，SIMAはさまざまなゲームで一般的に実行できるタスク，たとえば「前に進む」「メニューを開く」といった行動を完了できることが判明した。

　また，ゲームごとに異なる意味になる可能性のあるタスク，例えば「No Man's Sky」における宇宙船の離陸や，「Teardown」におけるボートの操縦といった行動なども，うまく完了できた。

　その一方，各ゲーム固有のタスクを完了させることができたか否かに関しては，別途用意した3つの方法で評価したとのこと。
　1つは単独のゲームのデータを学習させ，同じ環境で評価した「Specialist」で，これを100％のパフォーマンスとして評価のベースラインとする。
　2つめは，10タイトルのゲームのデータを学習させ，そののちいずれか1つのゲームの環境でテストをして評価する「SIMA」である。
　そして3つめが，10タイトルのうち9タイトルのデータを学習させ，残り1タイトルのゲームの環境でテストして評価する「Zero-Shot」だ。

　その結果，SIMAは10タイトルすべてを学習させたときはSpecialistよりも高いパフォーマンスを，またZero-ShotでもSpecialistに近いパフォーマンスをそれぞれ発揮したという。
　すなわち，「ある1つの環境でAIエージェントが何かを学習し，そのスキルを使って別の環境で何かができるようになる」ことが確認できたため，ムファレク氏は非常に満足したのだそうだ。

　しかしこのプロジェクトの目標は，「言語によって条件付けられるAIエージェントを開発すること」である。そこで自然言語によるアノテーションを外して学習を行い，テストしたところ，SIMAのパフォーマンスは著しく低下したという。
　そこで初めて，「単一のエージェントを多数の大規模な環境でトレーニングすると学習が転移し，汎化が行われる」という仮説が証明されたのである。

各タイトルにおけるSIMAのパフォーマンスも示された。ムファレク氏によるとタイトルごとの汎化の違いは，タスク実行に必要な固有の知識量の違いにあるとのこと

SIMAにCFGを使った指示を加えるとそうでない場合よりも高いパフォーマンスが得られる。しかし特定の閾値を超えると，逆にパフォーマンスが落ちるそうだ

　ムファレク氏は以上の結果を踏まえて，「SIMAは本当に素晴らしい成功を収めた」としつつも，「完全とはほど遠い」と語る。それはタスクの完了率が環境に大きく左右されるからであり，人間のプレイにはまったくおよばないからである。
　しかし氏は，だからこそこれからのSIMAの研究意欲を駆り立てられると話していた。

今後の展開

　最後に，ムファレク氏はSIMAプロジェクトの今後の展開を示した。それは次世代のシミュレーションベースによるAIエージェント研究になるという。何年もかけて行ってきたゲームによるAI研究の基盤であり，まだまだやるべきことはたくさんあるそうだ。

　これまではAIエージェントのパフォーマンスを優れたものにするための学習を研究してきたが，たとえば「StarCraft II」のアップデートにより，AlphaStarのパフォーマンスは低下している。
　ムファレク氏は「ゲームがアップデートするたび，AIエージェントに再学習させるのは現実的ではない」とし，SIMAのさらなる汎用化によって，ゲームに新たなフィーチャーが入ってもAIエージェントが優れたパフォーマンスを出せると語った。

　またSIMAは「焚き木を集める」「その焚き木を火にくべる」といった短時間で完了できるタスクは得意だが，「家を建てる」のようなプランや複数のステップ，推論が必要なタスクは必ずしもそうではないという。
　しかし今は，GeminiがSIMAの強力なサポートとなり得るそうで，例としてGeminiがディレクターとなり，「家を建てる」という長時間かかるタスクを短時間のタスクに分割してSIMAに渡すといったことが挙げられた。

　ムファレク氏は，SIMAプロジェクトはとてもエキサイティングで素晴らしい汎用性が期待できる半面，まだ完全な汎用型のAIエージェントにはなっていないとあらためて現状を語り，「もう少しのイノベーションで，どんなタスクも実行できるものになるかもしれない。そうなれば，さらにその先の展開も可能になる」と展望を語っていた。

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://www.4gamer.net/games/999/G999905/20240821086/ यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए स्टडी_गोलंग@163.com से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

वीडियो गेम मार्केट विस्फोट करने वाला है, माइक्रो-ट्रांसपोर्ट्स के पाउडर बैरल को न भूलें
] ] यह डिजिटल पावरहाउस 10.25%की अनुमानित वार्षिक वृद्धि दर के साथ धीमा होने के कोई संकेत नहीं दिखाता है। मोबाइल गेमिंग का प्रभुत्व ] 2023 में ...

खेल 2025-04-21 को पोस्ट किया गया
हत्यारे की पंथ: छाया - पूर्ण खतरनाक मिशन के लिए एक रणनीति
Assassin's Creed Shadows has a wide variety of things to find in its expansive open world, from castles to explore and loot, shrines to find, pets to...

खेल 2025-04-21 को पोस्ट किया गया
लेगो क्षितिज एडवेंचर्स: प्राचीन कीचड़ राक्षस बॉस युद्ध रणनीति
] उनमें से अधिकांश सरल मशीनें हैं जिन्हें आप जानते हैं और प्यार करते हैं - थंडरजॉव्स और स्टाकर, उस तरह की चीज। हालाँकि, खेल में अंतिम बॉस थोड़ा अलग है...

खेल 2025-04-21 को पोस्ट किया गया
ड्रीम वैली ओलिंप पर्वत के लिए मिशन गाइड
...

खेल 2025-04-21 को पोस्ट किया गया
कैसरपंक: पहली बार निर्माण रणनीति और सिफारिशें
] कैसरपंक निरंतर योजना और अनुकूलन की मांग करता है। यहां तक कि सीमित शुरुआती गेम विकल्पों के साथ, रणनीतिक विकल्प एक सफल अभियान के लिए मार्ग प्रशस्त...

खेल 2025-04-20 पर पोस्ट किया गया
लोहे की पूंछ 2: सर्दियों के व्हिस्कर्स - आइसफील्ड हंटिंग गाइड
] इस गाइड का विवरण है कि व्हाइट व्हिस्कर्स क्षेत्र में एक दुर्जेय दुश्मन फ्रॉस्ट डेथ मार्च को कैसे हराया जाए। इस चरण तक, आपने अपने हथियार को अपग्...

खेल 2025-04-19 को पोस्ट किया गया
Wordle 30 नवंबर उत्तर और टिप्स - स्तर 1260
] लेकिन आज का शब्द कितना मुश्किल है? यदि आप अपने आप को थोड़ी अतिरिक्त सहायता की आवश्यकता पाते हैं, तो हमने आपको कवर कर लिया है। ✕ विज्ञा...

खेल 2025-04-19 को पोस्ट किया गया
रूपक refantazio शाही गुणों की रणनीति में सुधार करता है: विशेषताओं को जल्दी से सुधारने की विधि
] शाही गुण व्यक्तित्व के सामाजिक आँकड़ों के रूपक के संस्करण हैं, और व्यक्तित्व की तरह, आपको विशिष्ट पात्रों के साथ संबंध शुरू करने या आगे के संबंधों स...

खेल 2025-04-19 को पोस्ट किया गया
आर.ई.पी.ओ. शून्य गुरुत्वाकर्षण ड्रोन आइटम गाइड
] ] न केवल यह लक्ष्य को मध्य-हवा में लटका सकता है, जिससे यह स्थानांतरित करने में असमर्थ हो जाता है, यह धीमा हो जाता है, यह भीड़ नियंत्रण के लिए एकद...

खेल 2025-04-19 को पोस्ट किया गया
स्वर्ग उत्पाद उत्पादन गाइड: अनुसूची 1 विस्तृत स्पष्टीकरण
पहले स्तर के उत्पादन में, यदि आप शीर्ष-स्तरीय उत्पाद बनाना चाहते हैं, तो आपके पास केवल एक लक्ष्य है: "देवताओं" गुणवत्ता प्रमाणन प्राप्त ...

खेल 2025-04-18 को पोस्ट किया गया
Aloft खेल में कागज कैसे बनाएं
अलॉफ्ट गेम में, पेपर एक ऐसा संसाधन है जो लगातार मांग कर रहा है लेकिन अक्सर दुर्लभ है। यद्यपि यह ट्रेजर चेस्ट में पाया जा सकता है, यह अपने आप से का...

खेल 2025-04-18 को पोस्ट किया गया
स्टाकर 2: नाइटिंगेल शिकार मिशन गाइड
...

खेल 2025-04-18 को पोस्ट किया गया
स्नाइपर एलीट: प्रतिरोध के दौरान लाल फोर्ट वर्कबेंच स्थिति का आश्चर्य
त्वरित सम्पक ...

खेल 2025-04-18 को पोस्ट किया गया
Fragpunk BEGINNER GUIDE: HOW TO PLAY और क्या आपको पता है
] ] ये कार्ड प्रत्येक दौर में खेल के नियमों को बदल देंगे, हर गेम को चर से भरा बनाने के लिए अराजकता के यादृच्छिक प्रभाव को जोड़ेंगे। यदि आप अभी इस ...

खेल 2025-04-17 को पोस्ट किया गया
Roblox बास्केटबॉल शोडाउन - क्षेत्रीय स्तर की रैंकिंग
] ] यह स्तरीय सूची विभिन्न पदों और प्रतिस्पर्धी परिदृश्यों में उनकी प्रभावशीलता के आधार पर सभी क्षेत्रों को रैंक करती है। सही ज़ोन चुनना नाटकीय रूप ...

खेल 2025-04-17 को पोस्ट किया गया