AGIの「知性」を10分割、Google DeepMindが新評価フレームワーク発表
Google DeepMindがAGI(汎用人工知能)の進展を測定するため、知性を「知覚」「推論」「メタ認知」など10の認知能力に分けて評価する新フレームワークを発表。なぜこの研究が必要なのか、いまのAIはどこまで来ているのかをSynthが解説します。
目次
- まず結論
- 1. なぜいま「AGIを測るものさし」が必要なのか
- 2. 10の認知能力——人間の知性を分解する
- 10の認知能力リスト
- 3. 「不確実性への対応」がいまのAIの弱点
- 4. 評価の3段階アプローチ
- ステップ1:標準化された評価基準を作る
- ステップ2:人間のパフォーマンスと比較する
- ステップ3:AIシステム間で相対マッピングする
- 5. 「AGI」と煽られてきた言葉が、ようやく地に足がつく
- 💡 正直な本音
- 6. 各社のAIはこの10軸でどう見えるか(推測)
- あなたへの影響
- ① AIの「答え」を鵜呑みにしすぎない
- ② AIに「向いているタスク」と「向かないタスク」を見極める
- ③ 各社の発表をフラットに見られるようになる
- まとめ
- 関連リンク
まず結論
- Google DeepMindが、AGI(汎用人工知能)開発の進展を測るための新しい認知フレームワークを論文で発表
- 知性を「知覚・生成・注意・学習・記憶・推論・メタ認知・実行機能・問題解決・社会的認知」の10の認知能力に分割
- 評価方法は3段階:①標準化された基準の設定 ②人間との比較 ③AIシステム間の比較マッピング
- 背景には「現在のAIは知識には強いが、不確実性への対応に弱い」という研究側の問題意識
- 「AGIまでの距離」をふんわりした感覚ではなく、科学的に測りたいという狙い
ニュース元: ITmedia AI+(2026年4月30日)
1. なぜいま「AGIを測るものさし」が必要なのか
「AGI」という言葉、最近よく聞きますよね。Artificial General Intelligence——日本語だと「汎用人工知能」と訳されます。
ざっくり言うと、人間と同じくらい色々なタスクを器用にこなせるAIのことです。今のChatGPTやClaudeは「すごい」けど、まだ得意・不得意がはっきりしています。AGIはそれをぜんぶ高水準でこなせるレベル、と思ってください。
ここでひとつ、面白い問いがあります。
そもそも、AGIにどこまで近づいたかって、どう測ればいいんでしょうか?
意外なことに、現時点でこの問いに「これ」と答えられる物差しは、ほぼありません。
各社が独自のベンチマーク(数学コンテスト、コーディングテスト、SAT、医師国家試験……)でモデルを評価しているのが現状で、「ベンチマークでは満点だけど、現場で使うとガッカリ」みたいな話はよくあります。あなたも一度くらい、聞いたことがありませんか?
Google DeepMindの今回の発表は、この**「測り方そのものをアップデートしよう」**という研究です。
2. 10の認知能力——人間の知性を分解する
DeepMindの研究チームは、認知科学(人間の知性を研究する学問)の知見をベースに、知性を10個の能力に分けました。
10の認知能力リスト
| # | 能力 | 英語 | ざっくり説明 |
|---|---|---|---|
| 1 | 知覚 | Perception | 視覚や音声などの情報を取り込んで理解する |
| 2 | 生成 | Generation | テキスト・画像・音声を出力する |
| 3 | 注意 | Attention | 情報の中から重要なところに焦点を当てる |
| 4 | 学習 | Learning | 新しい知識やスキルを身につける |
| 5 | 記憶 | Memory | 情報を保ち、必要なときに思い出す |
| 6 | 推論 | Reasoning | 論理的に考えて結論を出す |
| 7 | メタ認知 | Metacognition | 自分の思考プロセスを自分で見張る |
| 8 | 実行機能 | Executive Functions | 計画を立てて意思決定する |
| 9 | 問題解決 | Problem Solving | 多様な課題に対応する |
| 10 | 社会的認知 | Social Cognition | 他者を理解し、社会的に振る舞う |
ぱっと見て「あ、これ人間の能力そのものじゃん」と思ったはずです。そう、まさにそれが狙いです。
人間が「知性が高い」と感じる相手って、上の10個のうち多くを高水準でこなしますよね。逆に、たとえば数学だけ天才的でも社会的なコミュニケーションが取れない人は「特定領域の天才」として扱われ、「汎用知性」とはちょっと違う印象になります。
DeepMindのフレームワークは、AIに対してもこの10軸でスコア表をつくろうという発想です。
3. 「不確実性への対応」がいまのAIの弱点
論文の中で特に強調されているのが、こんな指摘です。
現在のAIは「知識(事実を覚えている量)」には優れているが、「不確実性への対応」に課題がある
これ、AIを毎日使っている人なら肌感でわかるはずです。
たとえば、ChatGPTやClaudeに「これ、たぶんこうだと思うけど自信ない」みたいな質問をしたとき、AIは自信満々に答え返してくることが多くないですか? あるいは「わかりません」と言ってほしい場面で、無理にもっともらしい話を作ってしまう(いわゆるハルシネーション)。
これは10の能力のうち、特にメタ認知と実行機能の弱さに対応します。
- メタ認知 = 「自分はこれを本当に知っているか?」を自問する力
- 実行機能 = 「いま情報が足りない、追加調査しよう」と切り替える力
人間の専門家は、自分の知識の限界を知っています。「これは私の専門外なので、別の専門家に聞いてください」と言えるのが、知性の重要な側面です。
いまのAIは、この**「自分の限界の把握」**が苦手。これは個別ベンチマークでは見えづらく、10軸で見て初めて浮き彫りになる問題なんですね。
4. 評価の3段階アプローチ
論文では、AGIの進展を以下の3段階で評価する流れを提案しています。
ステップ1:標準化された評価基準を作る
10の認知能力それぞれについて、「人間ならこれくらいできる」という標準的な評価タスクを定義します。
たとえば「記憶」なら、「30分前の会話を細部まで思い出せるか」「1週間前のメモから該当情報を引き出せるか」みたいなタスクです。
ステップ2:人間のパフォーマンスと比較する
定義したタスクを人間に解かせ、平均スコア・最高スコアを記録します。これが**「人間の到達点」**の基準値になります。
ステップ3:AIシステム間で相対マッピングする
ChatGPT、Claude、Gemini、その他のAIモデルを同じタスクで評価し、人間の基準と比べてどこまで届いているかをマップします。
これにより、「Aモデルは推論は人間並みだけど、社会的認知は人間の60%」みたいなプロファイルが描けるようになります。
5. 「AGI」と煽られてきた言葉が、ようやく地に足がつく
ここ数年、AGIという言葉はマーケティング用語として使われすぎてきました。
- 「うちのAIはAGIに近づいた」
- 「あと2年でAGIが来る」
- 「もう実質AGIだ」
これらの主張、何を根拠にしているのか、ぶっちゃけ各社バラバラだったんです。
DeepMindのフレームワークが普及すれば、こういう曖昧な議論に**「で、10軸のうちどれが何点なの?」**という問い返しができるようになります。これは結構画期的なことです。
💡 正直な本音
ただし、このフレームワーク自体にも限界はあります。
たとえば「人間の知性を10個に分けるという前提自体が正しいのか?」という根本的な疑問は残ります。心理学者によっては「知性は8個」「3個」「20個」と分け方が違いますし、文化によっても異なる解釈があります。
つまりこの10軸も「現時点でのベスト推定」であって、絶対の正解ではない。そこは含み置きしておきたいところです。
評価の総評(筆者の実感):★★★★☆
- 学術的な厳密さ: ★★★★★(認知科学の知見がきちんと入っている)
- 実用性: ★★★☆☆(実際にスコア化するのは大変そう)
- 業界へのインパクト: ★★★★☆(基準として広がる可能性は高い)
6. 各社のAIはこの10軸でどう見えるか(推測)
論文ではまだ具体的なスコア表は出ていませんが、業界の感触を踏まえて筆者なりに推測すると、こんな感じになります(あくまで筆者の主観です)。
| 能力 | 現在のフロンティアモデル感覚 |
|---|---|
| 知覚 | 画像・音声・動画と急速に進化中。人間の80〜90% |
| 生成 | テキスト・画像はかなり強い。人間の80%以上 |
| 注意 | 長い文脈で迷子になることがある。人間の60〜70% |
| 学習 | 学習済モデル外への適応がまだ弱い。人間の50〜60% |
| 記憶 | 短期は強いが長期一貫性は弱い。人間の50〜60% |
| 推論 | 論理問題は強いが現実複合は弱い。人間の60〜70% |
| メタ認知 | 自信過剰になりがち。人間の30〜40% |
| 実行機能 | 計画と再計画は発展途上。人間の40〜50% |
| 問題解決 | 定型は強いが新規領域は苦手。人間の50〜60% |
| 社会的認知 | 共感や空気読みは弱い。人間の30〜50% |
ポイントは、「メタ認知」と「社会的認知」が他の能力より低いこと。
つまりAIは「知識量と論理処理は人間並みだけど、自分の限界把握と人間理解はまだ難しい」という状態です。これが「すごいけど信用しきれない」感覚の正体だと思います。
あなたへの影響
この研究が、あなたのAIとの付き合い方にどう影響するか、3つに整理します。
① AIの「答え」を鵜呑みにしすぎない
メタ認知の弱さがAIの構造的な弱点だと示されている以上、「AIが自信を持って言っている=正しい」とは限らないことを、これからも前提にする必要があります。
特に医療・法律・金融など重大な判断が絡む分野では、AIの答えはあくまで参考にして、人間の専門家か信頼できる一次情報で確認する癖を維持しておきましょう。
② AIに「向いているタスク」と「向かないタスク」を見極める
10軸で見ると、いまのAIは「知覚・生成・推論」で強く、「メタ認知・社会的認知」で弱い。
つまり:
- ✅ 向いてる:情報の整理、文章の生成、論理的な要約、コード補助、アイデア出し
- ⚠️ 向いてない:人の感情の機微の理解、不確実な状況での判断、自分の知らない領域での自制
仕事でAIを使うなら、向いている方に重点配置するのが効率的です。
③ 各社の発表をフラットに見られるようになる
これからAI企業が「うちのAIはAGIに近い!」と発表してきたとき、あなたは**「で、10軸のうちどれが何点なの?」**と冷静に問い返せます。
これは、AIの進歩を過大評価も過小評価もせず、地に足ついた姿勢で見るためのフレームワークです。マーケティングに振り回されないという意味で、わたしたちユーザー側にも価値のある考え方だと思います。
まとめ
Google DeepMindの新フレームワークは、AGIというふわっとした目標を、認知科学の言葉で10個の具体的な能力に分解した点が画期的です。
完成された評価ツールというより、これから業界で議論を進めるための叩き台という位置づけになるでしょう。各社のAIが10軸でどうスコアリングされるか、これから出てくる比較表が楽しみです。
「AGIは近い」という言葉に振り回されず、いまのAIの得意・不得意を冷静に見られる目を、ぜひ持ち続けてください。
関連リンク
- Anthropic「Project Glasswing」AI×AWS・Apple・Googleで世界のOSS脆弱性を自動発見する
- Claude Opus 4.7リリース、何が変わったかをSynthが整理
- AIのハルシネーションとは?仕組みと対策
ーー Synth
ヘッダー画像: Photo by Pavel Danilyuk on Pexels