Claude Fable 5「安全すぎ」問題｜研究者が反発、データも30日保持

Anthropicの最強モデルClaude Fable 5が、サイバー・生物に少しでも関わると過剰に拒否する「オーバーブロッキング」でセキュリティ研究者から批判。さらにデータ30日保持の必須化でMicrosoftが社内利用を制限。最強モデルの「代償」をSynthが整理します。

📚 全体像を把握したい方へ: Claude Fable 5 完全年表｜2026年6月〜7月の激動を1本で総括する決定版まとめで10大事件を時系列で追えます。

まず結論

Anthropicが6月9日に公開した最強モデルClaude Fable 5が、公開直後から**「安全装置が効きすぎて使えない」**と批判を浴びています（ニュース元: Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable（TechCrunch））
サイバーや生物に少しでも関係しそうな質問を片っ端から拒否してしまう。「安全なコードを書いて」と頼んだだけで弾かれることも
拒否されると自動的に格下のClaude Opus 4.8に切り替わる仕組み。つまり高い料金を払って、一部の用途では“性能が落ちる”
さらに、Fable 5は入力・出力を30日間保持するのが必須で、ゼロデータ保持（ZDR）が選べません。これを嫌い、Microsoftが社内での利用を制限しました
「強さ」と「安全」を両立させようとした結果、実用性とプライバシーで摩擦が起きている——これが今回の本質です

正直に言うと、これはAIの安全性をめぐる話として、すごく示唆に富んだ事件だと思っています。「危ないから止める」を徹底すると、今度は「真面目なユーザーまで止まる」。そのジレンマが、最強モデルの公開という形で表面化しました。順に見ていきます。

1. 何が起きたのか——「オーバーブロッキング」とは

Claude Fable 5は、Anthropicが「危険すぎる」と予告していたMythos級の能力を、安全装置付きで一般公開したモデルです（Anthropic公式: Claude Fable 5 and Claude Mythos 5）。コーディングなどの性能は非常に高いと評価されています。

ところが公開直後、セキュリティの専門家たちから不満が噴出しました。問題はオーバーブロッキング（過剰拒否）。本来は無害な質問まで、安全装置が「危険かもしれない」と判断して止めてしまうのです。

具体的な声を挙げます。

IBM X-Forceの研究者 Valentina “Chompie” Palmiotti 氏は、ブログ記事を読ませるような無害な作業まで拒否されると指摘
セキュリティのベテラン Matt Suiche 氏は「『安全なコードを書いて』と頼むと、ソフトウェア開発の話なのにサイバー攻撃関連だと誤判定され、性能が落とされる」と批判

ガードレールに引っかかると、Fable 5はチャットを止めて「安全対策がこのメッセージをサイバーセキュリティまたは生物分野の話題としてフラグした」と表示します。生物分野では、基本的な生物学の質問にすら答えないことが「仕様」として確認されています（cryptobriefing: Claude Fable 5 won’t answer basic biology questions）。

2. 仕組みを噛み砕く——なぜそんな挙動になるのか

ここがポイントなんですが、Fable 5の安全装置はモデルそのものの中ではなく、外側に付いている点が重要です。

技術的には、こういう流れになっています。

あなたが質問を送る
モデルが答える前に、別の「分類器（classifier）」がメッセージを検査する
サイバー/生物に関係すると判定されると、ガードレールが作動
Fable 5は応答を止め、格下のClaude Opus 4.8に自動フォールバックする

「分類器」というのは、要するに入口に立つ門番のようなもの。中身（モデル）がどれだけ賢くても、門番が「あやしい」と思えば通さない。門番は誤判定もするので、無害な質問まで弾いてしまう——これがオーバーブロッキングの正体です。

⚠️ ここは理解しておきたい Fable 5で「弾かれた」ときに返ってくる答えは、より能力の低いOpus 4.8によるものになります。つまり、用途によっては「最強モデルにお金を払っているのに、実際の回答は格下モデル」という状態が起こり得ます。

なぜそこまで厳しくするのか。Anthropicの理屈は明確で、マルウェア開発や生物兵器の設計にAIが悪用されるリスクを抑えるためです。Fable 5は本当に強力なので、「悪用の入口を塞ぐコスト」として過剰拒否を受け入れている、という設計思想です。安全に振り切る姿勢そのものは、わたしは評価します。問題はチューニングの粗さです。

3. もう1つの火種——データ「30日保持」の強制

実は、批判はオーバーブロッキングだけではありません。データの取り扱いでも波紋が広がっています。

AnthropicはFable 5とMythos 5を「Covered Model（対象モデル）」と位置づけ、以下を必須化しました（Claude Help Center: Data retention practices for Mythos-class models）。

入力（プロンプト）と出力を30日間保持する
ゼロデータ保持（ZDR）は利用不可
過去にZDR契約を結んでいた企業でも、Fable 5の通信にはZDRが適用されない
30日後は自動削除（安全調査や法的要請の例外を除く）。学習には使わない

Anthropic側の説明は「複雑な新型攻撃を防ぎ、誤検知を減らすため」。趣旨はわかります。ただ、これまで「うちのデータは一切残さない」と約束していた企業向けの取り決めを、この特定モデルだけ上書きする形になったため、企業ユーザーは敏感に反応しました。

その代表がMicrosoftです。報道によれば、Microsoftは社内のGitHub CopilotのモデルピッカーからFable 5を外し、従業員の利用を制限しました。他のClaudeモデルは社内のZDRルールのもとで引き続き使えますが、Fable 5だけは顧客データ・機密情報の保持懸念から外された形です（The Verge報道（TradingView経由））。法務がいつ承認するかは未定とされています。

あなたへの影響

「自分は研究者でも大企業でもないから関係ない」と思うかもしれません。でも、立場別に見ると意外と身近です。

仕事でClaudeを使っている人: もしあなたの会社が機密データを扱うなら、**Fable 5は「30日保持・ZDR不可」**である点を知っておくべきです。機密ファイルを安易に貼り付けるのは避け、社内ルールを確認しましょう。通常用途なら従来のClaude Opus 4.8などで十分なことも多いです
エンジニア・セキュリティ職: 防御目的の正当な作業まで弾かれる可能性があります。「安全なコードを書いて」が誤判定されるなら、プロンプトで「これは防御・ベストプラクティスの相談です」と文脈を明示すると改善することがあります。それでも弾かれる用途は、別モデルを併用するのが現実的です
一般のユーザー: 過剰拒否は「AIが安全側に倒れた結果」です。気味の悪い挙動ではなく、門番が固すぎるだけだと理解しておくと、必要以上に不安になりません
AIを選ぶ立場の人: 「いちばん強いモデル＝あなたに最適」とは限りません。用途・データの機密性・拒否されやすさを見て選ぶ時代になりました