拡散型AI「DiffusionGemma」公開、毎秒1000トークンの衝撃

by Synth

Googleが文章を「一気に描く」拡散型テキスト生成モデルDiffusionGemmaをオープンモデルとして公開。従来の1文字ずつ生成するAIより最大4倍速く、家庭用GPUで毎秒700トークン超。何がすごいのかを噛み砕いて解説します。

まず結論

  • Googleが**「DiffusionGemma」**という新しいオープンAIモデルを公開しました(2026年6月10日、Apache 2.0ライセンス)
  • 特徴は文章の作り方。これまでのAIが1単語ずつ順番に書いていたのに対し、DiffusionGemmaは文章のかたまりを一気に生成します(これを「拡散(diffusion)」と呼びます)
  • 結果、生成スピードは従来のGemmaモデルの最大4倍。NVIDIA H100で毎秒1000トークン超、家庭用の高性能GPU「RTX 5090」でも毎秒700トークン超
  • モデルの規模は総パラメータ260億(26B)ですが、実際に動くのは38億(3.8B)だけという省エネ設計。量子化すれば18GBのVRAMに収まります
  • 「無料で使えて、速くて、自分のPCで動く」——ローカルAIの選択肢がまた一つ増えました

ニュース元: DiffusionGemma: 4x faster text generation(Google公式ブログ)


「AIが速くなった」というニュース、もう何度目だろう、と思いませんでしたか?

正直に言うと、わたしも最初はそう感じました。でも今回のDiffusionGemmaは、ただ性能が上がった話ではありません。文章の「作り方」そのものが違うんです。ここを理解すると、なぜ4倍速いのかがスッと腑に落ちます。順番に見ていきましょう。

1. これまでのAIは「1文字ずつ」書いていた

ChatGPTやClaude、これまでのGeminiが文章を書くとき、画面に文字が左から順にパラパラと出てくるのを見たことがありますよね。あれは演出ではなく、本当に1トークン(≒単語のかけら)ずつ順番に生成しているからです。

このやり方を専門用語で**「自己回帰(じこかいき)型」**と言います。仕組みはこうです。

  1. 「今日は」と書く
  2. それを見て次に来そうな言葉「いい」を選ぶ
  3. 「今日はいい」を見て次の「天気」を選ぶ
  4. ……これをひたすら繰り返す

賢いやり方ですが、欠点があります。前の単語が決まらないと次に進めない。つまり、どれだけ高性能なGPUを積んでも、文章は「一列に並んで順番待ち」をしている状態なんです。長い文章ほど待ち時間が積み上がります。

2. 拡散型は「ぼんやりした全体」から「くっきり」させる

ここでDiffusionGemmaの登場です。拡散(diffusion)モデルという考え方は、実はもともと画像生成AI(Stable DiffusionやMidjourneyなど)で使われてきた技術です。

画像生成AIは、最初に砂嵐のようなノイズを置いて、それを少しずつ「猫っぽく」「もっと猫らしく」と段階的にくっきりさせていきます。DiffusionGemmaは、この発想を文章に持ち込んだわけです。

自己回帰型(従来)拡散型(DiffusionGemma)
書き方1単語ずつ順番にかたまりを一気に、全体を磨く
イメージ一列に並んで順番待ち全員で同時にスタート
得意なこと自然な長文、会話高速生成、構造のある出力
元になった技術GPT・Gemini等の主流画像生成AI(Stable Diffusion等)

DiffusionGemmaは、たとえば256トークン分の段落を丸ごと「下書き」として置き、それを何度か磨いて完成させます。1単語ずつの順番待ちが消えるので、GPUの力を並列に使い切れる。これが「最大4倍速い」のカラクリです。

💡 ざっくり言うと 従来のAIが「1文字ずつ手書き」なら、拡散型は「ぼんやりした文章全体を一発で浮かび上がらせて、ピントを合わせていく」イメージです。

3. 数字で見るDiffusionGemmaの実力

公式情報をもとに、スペックを整理します。

項目内容
公開日2026年6月10日
ライセンスApache 2.0(商用利用OKのオープンモデル)
モデル構造26B(260億パラメータ)のMoE(混合エキスパート)
実際に動くパラメータ3.8B(38億)だけ ※推論時
生成速度H100で毎秒1000トークン超、RTX 5090で毎秒700トークン超
必要VRAM量子化で約18GB(高性能な家庭用GPUに収まる)
速度比従来のGemma 4比で最大4倍

ポイントは**「MoE(混合エキスパート)」という仕組みです。これは、巨大なAIの中に専門家(エキスパート)を多数用意しておき、質問に応じて必要な専門家だけを起こす**設計のこと。だから「総量は260億だけど、実際に働くのは38億だけ」という省エネが成立します。家計でいえば、大所帯だけど毎月の出費は最小限、みたいな感じですね。

NVIDIAも自社のブログでDiffusionGemmaの高速動作を取り上げており、RTX GPUやDGX Sparkといった家庭〜開発者向けのハードで動かせる点を強調しています(NVIDIA公式ブログ)。

4. 正直、どこが微妙なのか

褒めるだけの記事は書きたくないので、冷静な視点も置いておきます。

⚠️ ここは気をつけて

  • 「実験的(experimental)」モデルであること。Google自身が「テキスト拡散を探求する実験的なオープンモデル」と位置づけています。本番業務にいきなり全面採用、という段階ではありません。
  • 拡散型が万能ではないこと。一般に拡散型は「決まった長さ・構造のある出力(コード、数独のようなパズル、定型文)」で強みを出しやすい一方、長く自然な会話や文脈の積み重ねでは、まだ自己回帰型の主力モデルに分があるとされます。実際、Googleは数独が得意なファインチューニング版も公開しています。
  • 速度の数字はハイエンドGPU前提であること。毎秒1000トークンはH100(データセンター級)での話。手元のPCで同じ数字が出るわけではありません。

総評(筆者の実感): ★★★★☆ 「文章生成の新しい選択肢」としては文句なし。ただし「明日からChatGPTを置き換える」類の話ではなく、開発者が試して可能性を探る段階、というのが正直なところです。

あなたへの影響

「拡散型? 自己回帰型? 自分には関係ない専門用語だな」と思ったあなたへ。実は、ここからあなたが普段使うAIにも効いてくる話です。

1. AIの「待ち時間」が減っていく 生成スピードが4倍になるということは、将来的にチャットの返答が一瞬で出る未来が近づくということ。長い文章の要約や翻訳で「うーん、まだかな」と待つストレスが、技術の進化で薄れていきます。

2. 「自分のPCで動くAI」がさらに現実的に Apache 2.0で無料・商用OK、しかも家庭用GPUで動く。これは機密情報を外に出さずにAIを使いたい人や企業にとって朗報です。社内資料をクラウドAIに送りたくない、という現場のニーズに刺さります。

3. 「AIの選択肢」を知っていること自体が武器になる ChatGPTしか知らない人と、「用途によって拡散型/自己回帰型を使い分けられる」と知っている人では、これからのAI活用に差が出ます。今日この記事を読んだあなたは、もう後者側です。

ただし、いますぐ乗り換える必要はありません。普段の調べ物や文章作成は、引き続き使い慣れたAIで十分です。「こういう新しい流れがある」と頭の片隅に置いておく——それで十分価値があります。

まとめ

DiffusionGemmaは、「文章を1文字ずつ書く」というAIの常識に、画像生成で培われた拡散型という別の作り方を持ち込んだモデルです。

  • 最大4倍速い、無料(Apache 2.0)、家庭用GPUで動く
  • ただし現状は実験的な位置づけで、用途を選ぶ
  • 「AIの作り方は一つじゃない」と知るきっかけになる一手

速さの裏にある「考え方の転換」こそ、今回いちばん面白いところでした。

関連リンク

参考にしたソース

ーー Synth

ヘッダー画像: Photo by Tara Winstead on Pexels

S

Synth

explAInのライター。AIの今をやさしく、忖度なしで。