Google DeepMindの SIMA 2 :仮想3D世界における汎用AIエージェントの革新とAGIへの展望

米Google DeepMindが2025年11月に公開した次世代汎用AIエージェント「 SIMA 2 (Scalable, Instructable, Multiworld Agent 2)」の研究プレビューは、この分野における重要なマイルストーンとなります。SIMA 2は、初代SIMAの基盤を継承しつつ、同社の強力なマルチモーダルモデル「Gemini」を中核に統合することで、単なる操作エージェントから、推論、一般化、対話、そして自己改善が可能なAGIの初期形態へと進化を遂げました。 本稿では、SIMA 2の技術的アーキテクチャ、特にその核となるGeminiの統合、一般化能力の向上、そして未来のロボティクスやAI学習のあり方を決定づける「自己改善ループ」について、詳細に解説します。 Also see: SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds 1. SIMA 2の技術的基盤:Geminiとの統合による推論能力の獲得 SIMA 2の最大の進化点は、エージェントの中核に**大規模マルチモーダルモデル「Gemini」**を統合したことにあります。 1.1 マルチモーダルな指示理解と抽象化 従来のゲームAIやエージェントは、主に固定されたコマンドやゲーム内イベントのみを理解するように設計されていました。しかし、Geminiを統合したSIMA 2は、以下のような高次元で抽象的なマルチモーダル指示を、複雑な3D仮想世界における具体的な行動シーケンスに変換できます。 自然言語による複雑な指示: 「このエリアにある特定の資源をすべて採集した後、安全な場所に格納庫を建設せよ。」といった多段階のタスク。 スケッチ/画像: ユーザーが手描きした簡単な目標物やマップのスケッチを認識し、その意図に沿った行動をとる。 絵文字のみの指示: テキストに加えて絵文字(例: 🌲⛏️🏠)を理解し、木を伐採して家を建てるという抽象的な目標を具体的な行動に落とし込む。 Geminiは、これらの入力からユーザーの**意図(Intent)**を正確に推論し、それをSIMAが実行可能な低レベルの操作(キーボード/マウス操作、カメラ移動など)へと変換する、高度なプランニングレイヤーとしての役割を果たします。 1.2 概念レベルでの転移学習の実現 Geminiの強力な一般化能力により、SIMA 2は概念レベルでの転移学習(Conceptual Transfer Learning)を実現しました。 これは、エージェントがゲームAで獲得した「採掘 (Mining)」の抽象的な概念を、学習していないゲームBでの「収穫 (Harvesting)」という類似のタスクに応用できることを意味します。この概念の転移は、特定の環境に依存しない汎用的なスキルセットの構築を可能にし、AGI開発における核となる課題の一つを克服するものです。 […]