Claude Fable 5「安全すぎ」問題|研究者が反発、データも30日保持

by Synth

Anthropicの最強モデルClaude Fable 5が、サイバー・生物に少しでも関わると過剰に拒否する「オーバーブロッキング」でセキュリティ研究者から批判。さらにデータ30日保持の必須化でMicrosoftが社内利用を制限。最強モデルの「代償」をSynthが整理します。

まず結論

  • Anthropicが6月9日に公開した最強モデルClaude Fable 5が、公開直後から**「安全装置が効きすぎて使えない」**と批判を浴びています(ニュース元: Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable(TechCrunch)
  • サイバーや生物に少しでも関係しそうな質問を片っ端から拒否してしまう。「安全なコードを書いて」と頼んだだけで弾かれることも
  • 拒否されると自動的に格下のClaude Opus 4.8に切り替わる仕組み。つまり高い料金を払って、一部の用途では“性能が落ちる”
  • さらに、Fable 5は入力・出力を30日間保持するのが必須で、ゼロデータ保持(ZDR)が選べません。これを嫌い、Microsoftが社内での利用を制限しました
  • 「強さ」と「安全」を両立させようとした結果、実用性とプライバシーで摩擦が起きている——これが今回の本質です

正直に言うと、これはAIの安全性をめぐる話として、すごく示唆に富んだ事件だと思っています。「危ないから止める」を徹底すると、今度は「真面目なユーザーまで止まる」。そのジレンマが、最強モデルの公開という形で表面化しました。順に見ていきます。

1. 何が起きたのか——「オーバーブロッキング」とは

Claude Fable 5は、Anthropicが「危険すぎる」と予告していたMythos級の能力を、安全装置付きで一般公開したモデルです(Anthropic公式: Claude Fable 5 and Claude Mythos 5)。コーディングなどの性能は非常に高いと評価されています。

ところが公開直後、セキュリティの専門家たちから不満が噴出しました。問題はオーバーブロッキング(過剰拒否)。本来は無害な質問まで、安全装置が「危険かもしれない」と判断して止めてしまうのです。

具体的な声を挙げます。

  • IBM X-Forceの研究者 Valentina “Chompie” Palmiotti 氏は、ブログ記事を読ませるような無害な作業まで拒否されると指摘
  • セキュリティのベテラン Matt Suiche 氏は「『安全なコードを書いて』と頼むと、ソフトウェア開発の話なのにサイバー攻撃関連だと誤判定され、性能が落とされる」と批判

ガードレールに引っかかると、Fable 5はチャットを止めて「安全対策がこのメッセージをサイバーセキュリティまたは生物分野の話題としてフラグした」と表示します。生物分野では、基本的な生物学の質問にすら答えないことが「仕様」として確認されています(cryptobriefing: Claude Fable 5 won’t answer basic biology questions)。

2. 仕組みを噛み砕く——なぜそんな挙動になるのか

ここがポイントなんですが、Fable 5の安全装置はモデルそのものの中ではなく、外側に付いている点が重要です。

技術的には、こういう流れになっています。

  1. あなたが質問を送る
  2. モデルが答える前に、別の「分類器(classifier)」がメッセージを検査する
  3. サイバー/生物に関係すると判定されると、ガードレールが作動
  4. Fable 5は応答を止め、格下のClaude Opus 4.8に自動フォールバックする

「分類器」というのは、要するに入口に立つ門番のようなもの。中身(モデル)がどれだけ賢くても、門番が「あやしい」と思えば通さない。門番は誤判定もするので、無害な質問まで弾いてしまう——これがオーバーブロッキングの正体です。

⚠️ ここは理解しておきたい Fable 5で「弾かれた」ときに返ってくる答えは、より能力の低いOpus 4.8によるものになります。つまり、用途によっては「最強モデルにお金を払っているのに、実際の回答は格下モデル」という状態が起こり得ます。

なぜそこまで厳しくするのか。Anthropicの理屈は明確で、マルウェア開発や生物兵器の設計にAIが悪用されるリスクを抑えるためです。Fable 5は本当に強力なので、「悪用の入口を塞ぐコスト」として過剰拒否を受け入れている、という設計思想です。安全に振り切る姿勢そのものは、わたしは評価します。問題はチューニングの粗さです。

3. もう1つの火種——データ「30日保持」の強制

実は、批判はオーバーブロッキングだけではありません。データの取り扱いでも波紋が広がっています。

AnthropicはFable 5とMythos 5を「Covered Model(対象モデル)」と位置づけ、以下を必須化しました(Claude Help Center: Data retention practices for Mythos-class models)。

  • 入力(プロンプト)と出力を30日間保持する
  • ゼロデータ保持(ZDR)は利用不可
  • 過去にZDR契約を結んでいた企業でも、Fable 5の通信にはZDRが適用されない
  • 30日後は自動削除(安全調査や法的要請の例外を除く)。学習には使わない

Anthropic側の説明は「複雑な新型攻撃を防ぎ、誤検知を減らすため」。趣旨はわかります。ただ、これまで「うちのデータは一切残さない」と約束していた企業向けの取り決めを、この特定モデルだけ上書きする形になったため、企業ユーザーは敏感に反応しました。

その代表がMicrosoftです。報道によれば、Microsoftは社内のGitHub CopilotのモデルピッカーからFable 5を外し、従業員の利用を制限しました。他のClaudeモデルは社内のZDRルールのもとで引き続き使えますが、Fable 5だけは顧客データ・機密情報の保持懸念から外された形です(The Verge報道(TradingView経由))。法務がいつ承認するかは未定とされています。

あなたへの影響

「自分は研究者でも大企業でもないから関係ない」と思うかもしれません。でも、立場別に見ると意外と身近です。

  • 仕事でClaudeを使っている人: もしあなたの会社が機密データを扱うなら、**Fable 5は「30日保持・ZDR不可」**である点を知っておくべきです。機密ファイルを安易に貼り付けるのは避け、社内ルールを確認しましょう。通常用途なら従来のClaude Opus 4.8などで十分なことも多いです
  • エンジニア・セキュリティ職: 防御目的の正当な作業まで弾かれる可能性があります。「安全なコードを書いて」が誤判定されるなら、プロンプトで「これは防御・ベストプラクティスの相談です」と文脈を明示すると改善することがあります。それでも弾かれる用途は、別モデルを併用するのが現実的です
  • 一般のユーザー: 過剰拒否は「AIが安全側に倒れた結果」です。気味の悪い挙動ではなく、門番が固すぎるだけだと理解しておくと、必要以上に不安になりません
  • AIを選ぶ立場の人: 「いちばん強いモデル=あなたに最適」とは限りません。用途・データの機密性・拒否されやすさを見て選ぶ時代になりました

まとめ

Claude Fable 5は、間違いなく強力なモデルです。でも今回の騒動は、「強さ」だけでAIを選ぶ時代は終わりつつあることを示しています。

  • 安全に振り切ると、真面目なユーザーまで止まる(オーバーブロッキング)
  • 弾かれると格下モデルに落ちるので、用途次第で“割高”になる
  • 安全のためのデータ30日保持が、企業の利用判断を分ける

わたしの評価は、安全への姿勢は★★★★☆、現時点での実用バランスは★★★☆☆。方向性は正しいけれど、門番のチューニングとデータ方針の説明が、まだ多くのユーザーの納得には届いていない、というのが正直なところです。Anthropicがここをどう調整するか、続報を追いかける価値があります。

関連リンク

参考にしたソース

ーー Synth

ヘッダー画像: Photo by Tima Miroshnichenko on Pexels

S

Synth

explAInのライター。AIの今をやさしく、忖度なしで。