Google Gemma 4 完全ガイド：オンデバイス・マルチモーダルAIのすべて

人工知能（AI）の分野は今、根本的な転換期を迎えている。長年にわたり、最先端のAIシステムを導入することは、大規模なクラウドインフラへの依存、高額なコスト、遅延（レイテンシ）、そしてプライバシーのリスクを伴うことを意味していた。 Google Gemma 4 はこの状況を完全に変えるものである。

Google DeepMindが開発したこのオープンウェイトモデルファミリーは、同社のフラッグシップモデルであるGemini 3と同じ研究基盤をベースに構築されており、最先端のマルチモーダル機能をローカルハードウェアに直接提供する。コンシューマー向けのノートPC、企業のワークステーション、あるいはiPhone 17 Proのようなスマートフォンであっても、Google Gemma 4はオンデバイスAIが単なる制限付きの妥協ではなく、強力かつプライベートな現実の選択肢であることを証明している。

本ガイドでは、Google Gemma 4について包括的な技術解説を行う。モデルの概要、主な機能、各バリアントの分析、ローカル環境での実行方法、そして競合する他のアーキテクチャとの比較について詳しく説明する。

Google Gemma 4 とは何か？

Google Gemma 4は、オープンウェイトで提供される最先端の人工知能モデルファミリーである。非常に寛容なApache 2.0ライセンスのもとでリリースされており、開発者、研究者、そして企業は、高額なAPI利用料やベンダーロックインを気にすることなく、モデルのカスタマイズ、ファインチューニング、そして実行を自由に行うことができる。

Google Gemma 4の最大の特徴は、その適応性の高さにある。リソースが限られたモバイルスマートフォンから、マルチGPUを搭載したエンタープライズ向けのサーバー環境にいたるまで、さまざまなハードウェア階層に合わせてスケールするように設計されている。ネイティブで高度なマルチモーダル機能、高度な推論（Reasoning）機能、そして独自のパラメータ効率化アーキテクチャを導入することで、前世代のモデルを大幅に凌駕する進化を遂げた。

多様なデプロイ環境に対応するため、このモデルファミリーは以下の4つの異なるサイズに分かれている。

1. Gemma 4 E2B

エッジシステム向けに設計されたモデルであり、「E」は「Effective（有効な）」パラメータを意味する。モデル全体のパラメータ数は約51億（5.1B）だが、Mixture-of-Experts（MoE：混合専門家）設計を採用しているため、推論時にアクティブになるパラメータ数は23億（2.3B）に抑えられている。これにより、標準的なスマートフォンやタブレット、Raspberry Pi 5のような低価格のシングルボードコンピュータなど、RAM容量が極めて限られたハードウェアでも実行が可能となっている。

2. Gemma 4 E4B

エッジデバイスにおける推論能力を一歩高めたモデルであり、メモリ消費量と出力品質のバランスに優れている。下位のE2Bと同様にMixture-of-Experts設計を採用しており、実行時には約40億（4B）のアクティブパラメータが動作する。このモデルは、より高度な推論、複雑なコードの実行、高精度な画像解析を処理するだけのメモリ余裕がある、プレミアムなスマートフォンや最新のノートPCを対象としている。

3. Gemma 4 26B A4B

非常に効率的なMixture-of-Expertsアーキテクチャを採用した、デスクトップおよびワークステーションクラスの大型モデルである。モデルの総パラメータ数は260億（26B）に達するが、トークンごとにアクティブになるパラメータは40億（4B）のみである。この設計により、40億パラメータクラスのモデルに匹敵する実行速度を実現しながら、はるかに巨大なネットワークと同等の知識ベースと正確性を維持するという、絶妙なバランスを実現している。

4. Gemma 4 31B Dense

オープンウェイトモデルファミリーのフラッグシップにあたる、307億（30.7B）パラメータの密（Dense）モデルである。MoEモデルとは異なり、すべてのトークンに対して310億パラメータすべてを活性化させて処理を行う。ワークステーションやエンタープライズ向けのクラウドサーバーに最適化されており、数学、科学、プログラミング、および複雑なロングコンテキスト（長文）の分析において最高峰のパフォーマンスを発揮する。

Google Gemma 4 のアーキテクチャ革新

最先端クラスのAIを一般の電子機器上でローカルに動作させるため、Google DeepMindはGoogle Gemma 4にいくつかの革新的なエンジニアリング技術を取り入れた。

Per-Layer Embeddings (PLE)

従来のトランスフォーマー（Transformer）モデルでは、トークンをベクトル表現にマッピングする「エンベディング（埋め込み）テーブル」にパラメータ全体の大部分が割かれていた。そして、このテーブルはすべてのレイヤーで共通かつ静的なものとして扱われてきた。

エッジ向けのE2BおよびE4Bモデルでは、Google Gemma 4は「Per-Layer Embeddings（PLE：レイヤー別エンベディング）」を導入している。PLEは、デコーダーの各レイヤーに対して個別の小さなエンベディング調整パラメータを割り当てる。計算負荷の高いトランスフォーマーレイヤーを追加してモデルを深くする（これを行うと計算時間が大幅に増加する）代わりに、PLEを採用することで、モデルがトークンの意味をレイヤーごとに段階的に微調整・洗練させることが可能になる。エンベディングの参照処理は計算コストが極めて低いため、PLEは生成速度を低下させることなく、精度と推論能力を大幅に向上させることに成功している。

Mixture-of-Experts (MoE) による効率化

エッジ向けモデル（E2BおよびE4B）とワークステーション向けモデル（26B A4B）は、いずれもMixture-of-Experts（MoE）を採用している。入力をネットワーク内のすべてのニューロンに通す代わりに、モデルは「エキスパート（Expert）」と呼ばれる専門のサブネットワークへトークンをルーティングする。

個々の推論サイクルにおいて、活性化されるのはこれらの一部エキスパートのみである。たとえば、E2Bモデルでは、総パラメータ数51億のうち、アクティブになるのは23億パラメータだけである。これにより、必要なメモリ帯域幅が大幅に削減され、メモリバス幅の狭いモバイルプロセッサ上でも高速なトークン生成が可能となる。

Multi-Token Prediction (MTP) ドラフター

歴史的に、大規模言語モデルは自己回帰的（Autoregressive）にテキストを生成しており、正確に1回につき1トークンずつ予測を行ってきた。このプロセスは極めてシーケンシャルであり、メモリ帯域幅の限界に縛られやすい。

このボトルネックを克服するため、Google Gemma 4は、専用のMulti-Token Prediction（MTP：マルチトークン予測）ドラフトモデルを用いた投機的デコーディング（Speculative Decoding）をサポートしている。プライマリモデル（31B Denseなど）と並行して小型・高速なドラフトモデルを走らせることで、システムは複数の候補トークンを同時に予測する。その後、プライマリモデルが一度の計算パスでこれらの候補の妥当性を一括して検証する。予測が一致した場合、一度に複数のトークンを出力できるため、推論の精度を一切損なうことなく、応答速度を最大で3倍まで向上させることができる。

Google Gemma 4 の主な機能

Google Gemma 4は、従来の重厚なクラウドベースのプラットフォームと、ローカルのオープンウェイトソフトウェアとの間にある溝を埋める、数々の先進的な機能を備えている。

設定可能な「思考モード（Thinking Mode）」

Google Gemma 4の最も特徴的な機能の一つが、システムレベルでネイティブに組み込まれた「思考モード（Thinking Mode）」である。推論に特化した高度なモデルからインスピレーションを得て、Gemma 4は最終的な答えを出力する前に、内部で段階的な思考プロセス（推論パス）を生成するように訓練されている。

このプロセスは、専用のコントロールトークンを使用してネイティブに処理される。モデルがプロンプトの先頭で <|think|> トークンを検出すると、問題の分析、制約の抽出、計画の策定、およびエラーのチェックを行うための「内部の独り言」を開始する。この思考プロセスは、以下のように専用の思考チャネル内にカプセル化されて出力される。

<|channel>thought
[内部の推論プロセス、段階的な計算、およびエラーチェックの記述]
<channel|> [最終的な、整理された回答内容]

このように構造が明確に分離されているため、開発者はアプリのユーザーに思考プロセスを見せることもできれば、バックグラウンドでの自動ワークフロー用としてのみ利用することも、あるいは思考部分を完全にフィルターして最終的な回答だけを表示することも容易に行える。

ネイティブ・マルチモーダル機能

別途ビジョンエンコーダーを組み合わせたり、外部の音声認識（Speech-to-Text）パイプラインを用意したりする必要がある多くのオープンモデルとは異なり、Google Gemma 4は深く統合されたネイティブなマルチモーダル構造を備えている。

可変画像解像度 (Variable Image Resolution): Gemma 4はさまざまなアスペクト比の画像入力をそのまま受け付けることができる。ユーザーは画像処理に使用する「ビジョントークンの予算（70〜1120トークン）」を自由に設定可能である。写真を素早く分類したり簡単な標識を読み取ったりする軽量なタスクでは、トークン予算を低く設定して高速に実行する。一方で、光学文字認識（OCR）、複雑な設計図の解析、金融チャートの分析といった高精度を求めるタスクでは、トークン予算を高く設定して細部のビジュアル情報を保持することができる。
ネイティブ音声処理 (Native Audio Processing – E2BおよびE4B): 小型のエッジ向けモデルには、音声エンコーダーが内蔵されている。これにより、音声波形を直接処理することができる。プロンプトをモデルに渡す前にWhisperなどの外部文字起こしツールを実行する必要がないため、ホストデバイス上で極めて低遅延な音声対話（音声から音声、または音声からテキスト）アプリを実現できる。
ビデオ理解 (Video Understanding): Gemma 4は動画の入力もサポートしている。エッジに最適化されたE2BおよびE4Bでは、動画ファイルとそれに紐づくネイティブ音声を同時に分析することが可能である。より大型の26Bおよび31Bモデルでは、動画を多数の画像フレームとして高速に処理し、高度な推論能力を活かして動画内の変化、出来事、ストーリーの展開を高い精度で解説する。

圧倒的なコンテキストウィンドウ

長い文書、ソースコード、複雑な複数ターンの会話履歴を処理するには、大容量のメモリバッファが必要となる。Google Gemma 4は、ローカル環境において非常に競争力の高い長文コンテキストをサポートしている。

E2B および E4B: 最大 128,000 トークン（128K）のコンテキストに対応。
26B A4B および 31B Dense: 最大 256,000 トークン（256K）のコンテキストに対応。

これにより、開発者は外部のサードパーティサーバーにコードを送信することなく、数千行のローカルソースコードをそのままローカルのGemma 4に読み込ませて、デバッグやユニットテストの自動生成を行うことができる。

高度なグローバリゼーション

Google Gemma 4はデフォルトで高度な多言語対応を実現している。事前学習により140以上の言語に対応する知識を持っており、さらに指示調整（Instruction Tuning）により主要35カ国語以上の言語において流暢な会話、正確な翻訳、および地域に適合したコンテンツ生成が可能となっている。

エッジモデルの選択：Gemma 4 E2B vs. Gemma 4 E4B

スマートフォン、タブレット、シングルボードコンピュータなどのオンデバイス環境にデプロイする際、開発者はE2BとE4Bのどちらかを選択する必要がある。ローカルハードウェアのリソースは限られているため、ハードウェアの制約とモデルの能力とのバランスを考慮した選択が不可欠となる。

メモリ（RAM）消費量

ローカル環境でAIを動作させる際の最大のハードルは、ランダムアクセスメモリ（RAM）の容量である。ローカル推論では、モデル全体をシステムのメインメモリ、あるいはグラフィックスカードのビデオメモリ（VRAM）に完全に常駐させる必要がある。

Gemma 4 E2B: 4ビット量子化（Q4_K_M）形式の場合、モデルが必要とするRAM容量は約 1.5 GB である。これにより、ミドルレンジのスマートフォンや古いノートPC、シングルボードコンピュータでも非常に安定して動作する。システム全体のRAMが4GBしかないようなデバイスでも、システムを不安定にすることなく余裕を持って実行が可能である。
Gemma 4 E4B: 4ビット量子化形式の場合、E4Bを実行するには約 2.5 GB から 3.0 GB のRAMが必要となる。OSや他の実行中のアプリケーションと並行してE4Bを快適に動作させるには、ホストデバイスに少なくとも 8 GB 以上のユニファイドメモリまたはRAMが搭載されていることが望ましい。

パフォーマンスと生成速度

推論のスピードは、1秒あたりに生成される「トークン数（t/s）」で評価される。この値が高いほど、人間にとって自然な対話感覚が得られる。

Apple A17 Pro/A18チップやSnapdragon 8 Gen 3/Gen 4といった最新世代のモバイル向けフラッグシッププロセッサ上では、Google Gemma 4 E2Bは毎秒 25〜40 トークンという極めて高速な生成スピードを達成する。これは人間が目で読む速度よりも速く、応答がほぼ瞬時に感じられるレベルである。

同じ条件において、一回り大きいE4Bモデルでは通常、毎秒 12〜22 トークンの速度となる。E2Bよりはやや控えめな速度だが、十分に実用的であり、リアルタイムのリーディングや対話型の音声アシスタントとしてストレスなく利用可能である。

実社会における用途別の比較

これら2つのエッジモデルが、実際の場面でどのように異なるパフォーマンスを示すかを具体例で見てみよう。

事例A：レシートなどの文書解析とデータ抽出

スマートフォンのカメラで撮影した飲食店のレシートから、注文したメニュー、消費税、合計金額を読み取り、ローカルの家計簿アプリに自動で記録する。

Gemma 4 E2Bを使用する場合: 文字がはっきりと写っているきれいなレシートであれば問題なく読み取れる。しかし、レシートがクシャクシャになっていたり、手書きのメモが混ざっていたり、複雑な複数列のレイアウトだったりする場合、アクティブパラメータ数が23億に制限されているため、細かい数字の読み取りミスや、入れ子になった項目のスキップが発生することがある。
Gemma 4 E4Bを使用する場合: アクティブパラメータ数が約2倍になるE4Bでは、解析精度が劇的に向上する。不規則なレイアウトであっても、画像内のノイズを無視して必要な情報を正確に抽出し、完璧なJSON形式のデータとして構造化して出力できる。

事例B：低遅延のオフライン音声アシスタント

スマートホームのハブデバイスが、ユーザーの「リビングの明かりを暗くして、タイマーを10分にセットして」という声をオフラインで聞き取り、即座に指示を実行し、音声で返事をする。

Gemma 4 E2Bを使用する場合: この用途にはE2Bが最適である。必要なメモリ量が極めて少なく、演算が非常に軽いため、音声をリアルタイムでテキスト化し、スマートホームを制御するための関数呼び出し（Function Calling）をほぼゼロ遅延で実行できる。ユーザーへの応答もスムーズで、待たされている感覚がない。
Gemma 4 E4Bを使用する場合: E4Bでもコマンドの意図は正確に理解できる。しかし、演算負荷が高いため、コマンドを実行するまでにわずかな一時停止（数秒の遅れ）が生じる。ローエンドなデバイスや低電力ハードウェアにおいて、このわずかな遅れはユーザーに「動作がもっさりしている」という印象を与える原因になり得る。

Google Gemma 4 のメリットとデメリット

Google Gemma 4は優れたエンジニアリング成果であるが、その利点と制約について客観的に理解しておくことが重要である。

メリット

完全なプライバシーとデータ主権: モデルが100%ローカルで動作するため、プライベートな写真、個人データ、機密文書、自社ソースコードなどがインターネットを介して外部に送信されることがない。医療、金融、法律など、最高レベルのコンプライアンスが求められる分野に最適である。
インターネット接続が一切不要: 電波の届かない山奥や飛行機内、災害による通信障害時であっても、クラウドに依存せず完全にオフラインで動作し続ける。
予測可能で固定された運用コスト: クラウドAPIはトークン消費量に応じた従量課金制であるため、サービス規模の拡大に伴いコストが跳ね上がる。Gemma 4をローカルや自社サーバーで運用すれば、一度ハードウェアを導入してしまえば運用費は実質的に電気代のみとなり、コストが完全に固定化される。
通信レイテンシの排除: クラウドサーバーへの通信往復が発生しないため、モデルの思考開始から最初の文字が出力されるまでの時間（Time-to-First-Token）が極めて短く、応答の初動が驚くほど速い。
小型サイズでのネイティブマルチモーダル対応: 50億アクティブパラメータ未満という極めてコンパクトなサイズに、音声や画像のエンコーダーが組み込まれているため、アプリケーションのパッケージ容量を肥大化させることなく、モバイルアプリに高度なAIを内蔵させることができる。

デメリット

最新ハードウェアへの強い依存性: 快適な動作速度（毎秒15トークン以上）を確保するためには、AppleのNeural Engine、QualcommのHexagon NPU、あるいはNVIDIA製GPUといった、強力なAIアクセラレータ（NPU/GPU）を搭載したデバイスが必要となる。古いx86系CPUのみの環境では、実行速度が大きく低下する。
量子化による推論能力のトレードオフ: 巨大なモデルをスマートフォンなどのエッジデバイスに収めるために、パラメータの精度を16ビット浮動小数点から4ビットや5ビットに落とす「量子化（Quantization）」が行われる。llama.cppなどの優れた技術により性能低下は最小限に抑えられているものの、過度な量子化は、極めて難解な論理パズル、専門的なプログラミング、厳密なフォーマット指定といった高難度のタスクにおいて、微妙な論理性の欠如やハルシネーション（嘘の出力）を引き起こす原因になることがある。
長文コンテキスト処理時のメモリ圧迫: Gemma 4は128Kや256Kといった長大なコンテキストに対応しているが、長文を処理する際には「KVキャッシュ」と呼ばれるデータを保持するために大量の追加メモリ（RAM/VRAM）を消費する。8GB程度の標準的なノートPCで10万トークンの文書を処理しようとすると、メモリが枯渇し、処理速度が急激に低下することがある。

Google Gemma 4 をローカルで実行する方法

Google Gemma 4はApache 2.0ライセンスで公開されているため、手元のPCや対応デバイスですぐに試すことができる。すでに多くの主要なオープンソースツールがGemma 4をサポートしている。

1. ノートPC・デスクトップPCでの実行（Ollama経由）

Ollamaは、macOS、Windows、Linux上で大規模言語モデルを非常に簡単にインストール・実行できる、軽量なオープンソースフレームワークである。

Ollamaがインストールされていれば、コマンドプロンプトやターミナルから以下のコマンドを入力するだけで、目的のGemma 4モデルを自動ダウンロードして実行できる。

フラッグシップである31B Denseモデルを実行する場合：

ollama run gemma4:31b

バランスに優れた26B Mixture-of-Expertsモデルを実行する場合：

ollama run gemma4:26b

さらに軽量なエッジ最適化モデルをテストする場合：

ollama run gemma4:e4b
ollama run gemma4:e2b

2. GUIアプリケーションの利用（LM Studio）

コマンドライン操作ではなく、美しいグラフィカルな画面で操作したい場合は、Mac、Windows、Linuxに対応したデスクトップアプリケーションである「LM Studio」が最適である。

LM Studioの公式サイトからアプリをダウンロードしてインストールする。
アプリを起動し、検索バーに gemma-4 と入力する。
目的のモデルサイズ（gemma-4-e4b や gemma-4-31b-it など）を選択し、推奨される量子化ファイル（通常は Q4_K_M や Q5_K_M など）をダウンロードする。
チャット画面に移動し、画面上部にあるモデル選択メニューからダウンロードしたモデルを指定すれば、完全オフラインでの対話を開始できる。

3. モバイルデバイスでの実行（Google AI Edge Gallery）

iOSやAndroidなどのスマートフォン上で直接Gemma 4 E2BやE4Bを体験できるように、Googleは「AI Edge Gallery」アプリを提供している。

このアプリを利用すると、スマートフォンの内蔵チップ（Apple Neural EngineやGoogle Tensor NPUなど）がモデルのウェイトをコンパイルし、端末のローカルチップ上で直接実行する。アプリ内では以下の4つの独立したオフライン機能が用意されている。

AI Chat: 完全オフラインでの一般的なテキスト会話や論理推論。
Ask Image: カメラをかざしたり、アルバムから写真を読み込ませたりして、画像の内容についてオフラインで質問・解析する。
Audio Scribe: 音声を録音し、端末内で高精度にテキスト文字起こし、要約を行う。
Agent Skills: デバイス内の機能やローカルシステムコマンドを実行するためのセキュアなエージェント連携機能。

Google Gemma 4 の実践的なプロンプト例

Google Gemma 4から最高のパフォーマンスを引き出すために、Googleが推奨する公式のデフォルトサンプリングパラメータを使用することが推奨される。

Temperature（温度）: 1.0
Top_P: 0.95
Top_K: 64

以下に、Gemma 4の特徴的な機能をフルに活用するための具体的なプロンプト構造を示す。

例A：思考モード（Thinking Mode）を強制起動する

複雑なロジックや数学のパズルを解かせる際、モデルに段階的な推論を確実に行わせるため、システムプロンプトの先頭に <|think|> トークンを明示的に配置する。

System: <|think|> あなたは論理的で厳密な推論を支援するアシスタントです。最終的な回答を出力する前に、必ず思考チャネルの内部で段階的な考えを整理してください。

User: A駅を午前8時15分に、時速60マイルで出発した列車があります。同時に、A駅から150マイル離れた同一線路上にあるB駅から、午前9時00分に時速50マイルでA駅に向かって出発した別の列車があります。この2つの列車が衝突する正確な時刻はいつですか？

例B：複数画像の比較とOCR

複数の画像を解析させる場合は、ユーザーのテキスト質問の前に画像を配置することで、モデルが画像間のコンテキストをより正確に関連付けられるようになる。

[image_file_1.png]
[image_file_2.png]

User: これら2つのチェックアウト（決済）画面のUIを比較してください。初めてWebサイトを利用するユーザーにとって、迷いやすい要素や不親切なレイアウトが含まれているのはどちらか判定し、改善のための具体的なアイデアを3つ提案してください。

例C：音声の直接文字起こし（E2B / E4B 専用）

E2BやE4Bに直接音声ファイルを読み込ませて文字起こしを行う場合は、以下のように出力フォーマットを厳格に指定すると効果的である。

[audio_input.wav]

User: 以下の音声を日本語のテキストに文字起こししてください。出力にあたっては、以下のルールを厳格に守ってください：
* 挨拶や前置きなどの余計なテキストを一切出力せず、文字起こしした内容のみを出力すること。
* 音声内の数字は、漢数字（三点五、十二など）ではなく算用数字（3.5、12など）を使用して表記すること。

他のAIモデルとの比較

Google Gemma 4が現代のAIエコシステムの中でどのような位置づけにあるのか、MetaのLlama 3やMicrosoftのPhi-3といった主要なオープンモデル、および大手のクラウドベースのAIサービスと比較する。

機能 / 指標	Google Gemma 4 (E2B / E4B)	Google Gemma 4 (31B Dense)	Llama 3 (8B / 70B)	クラウドAI (Gemini / GPT-4o)
主なデプロイ環境	モバイル / エッジデバイス	ワークステーション / サーバー	一般PC / 各種サーバー	大規模クラウドサーバー
プライバシー・安全性	🔒 100% 安全 (ローカルで完結)	🔒 100% 安全 (ローカルで完結)	🔒 100% 安全 (ローカルで完結)	🌐 設定による (データが外部送信される)
インターネット接続	❌ 不要	❌ 不要	❌ 不要	📶 必須
コンテキストウィンドウ	📄 128,000 トークン	📚 256,000 トークン	📄 8,000〜128,000 トークン	🚀 100万トークン以上
ネイティブ音声入力	🎙️ 対応 (外部ツール不要)	❌ 非対応	❌ 非対応	🎙️ 対応
ネイティブ思考モード	🧠 **対応 (`<	think	>`)**	🧠 **対応 (`<
配布ライセンス	寛容な Apache 2.0	寛容な Apache 2.0	Llama 3 コミュニティライセンス	商用プロプライエタリAPI

比較から導き出される重要なポイント

1. エッジにおけるマルチモーダルの先駆性

Llama 3やPhi-3といった人気のオープンモデルにも画像解析（Vision）対応のバリアントが登場しているが、数億〜数十億パラメータという極小サイズで、テキスト、画像、動画だけでなく、生の音声データをネイティブ処理できるモデルはほとんど存在しない。Google Gemma 4 E2BとE4Bは、それを50億パラメータ未満の小さなフレームワークの中でシームレスに実現している点が極めて優秀である。

2. ネイティブ推論アーキテクチャの標準化

質問に即時応答するだけの一般的なAIモデルとは異なり、Gemma 4は開発段階（事前学習・指示調整）から「思考プロセスを挟む」アーキテクチャが骨格として組み込まれている。この結果、同等のパラメータ数を持つ他社製モデルと比較して、数式、複雑なコーディング、多段ステップの論理パズルにおける正解率が格段に高い。

3. 圧倒的なライセンスの使いやすさ

一部のオープンモデルには、アプリの月間アクティブユーザー数が数億人を超えた場合に有償化されたり、特定の利用に制限がかかる独自のライセンス規約が設けられている。これに対し、Google Gemma 4は商用利用にも極めて寛容な Apache 2.0ライセンス を採用している。企業は、Gemma 4をベースにしたカスタムモデルを自由に改変、販売、配布することができ、法務上の懸念なく自社ビジネスに組み込むことが可能となっている。

結論

Google Gemma 4の登場は、人工知能の民主化における極めて重要なマイルストーンである。ネイティブなマルチモーダル処理能力、システムレベルで深く統合された思考モード、巨大なコンテキストウィンドウ、そしてPer-Layer Embeddings（PLE）のような独自の構造効率化をオープンウェイトとして結実させることで、GoogleはオンデバイスAIの常識を塗り替えた。

スマートフォン上で滑らかに動作するE2B/E4Bから、ワークステーションで最高峰の頭脳を発揮する26B/31Bにいたるまで、開発者は「クラウドのコスト」と「ローカルの性能限界」のどちらかを犠牲にする必要はなくなった。Google Gemma 4は、AIの未来がクラウドの彼方だけでなく、手元にある極めて高速で安全なローカルデバイス上にも確実に広がっていることを示している。