Claude Fable 5の過剰なガードレールが物議
Anthropicが6月9日(現地時間)にリリースした新たなAIモデル「Claude Fable 5」のガードレール(保護機能)が厳しすぎると、Xで話題になっている。例えば、米ゲノム研究機関Jackson Laboratoryの医学者、デリヤ・ウネトマズ博士は「cancer(がん)という単語がClaude Fable 5によってバイオセキュリティリスクとしてフラグ付けされた!」と投稿した。
研究者のアカウントでも作動
同氏によると、生物医学研究者である自身のアカウントでは保護機能が作動しやすく、「(メモリ機能をオフにする)シークレットモードでなければFable 5にこんにちはと言うことさえできない」という。
新しい分類器を搭載
Anthropicによると、Fable 5には新たに「classifier」(分類器)と呼ばれる、本体とは独立したAIシステムを組み込んだという。これがサイバーセキュリティ、生物・化学、モデルの「蒸留」(distillation)に関するリクエストを検知すると、本体のFable 5ではなく、次に高性能なモデルである「Claude Opus 4.8」が回答を引き継ぐ。完全な拒否ではなく高性能モデルへの切り替えとすることで、利用体験の低下を抑える狙いがあるとしている。
誤検知の可能性も
ただしAnthropicは、安全性を優先して保守的に調整したため、無害なリクエストが誤って引っかかる場合もあるとし、今後の改善で誤検知(false positive)を減らしていく方針だとしている。同社によると、保護機能が作動するのはセッション全体の平均5%未満で、外部のバグ報奨金(bug bounty)プログラムによる1000時間超の検証でも、あらゆる局面で保護を無効化できる「ユニバーサルジェイルブレイク」は発見されなかったという。
DNAの基本的な質問もOpusへ
cancerだけでなく「DNAとは何?」といった基本的な生物学関連の質問や、「ランサムウェアの作り方」などのセキュリティ関連の質問がOpus 4.8に引き継がれた。DNAについてFable 5に質問するとOpus 4.8に切り替えられてしまったという報告もある。
Fable 5の利用方法
Fable 5は有料のClaudeプラン(Pro、Max、Team、シート単位のEnterprise)で、6月22日まで追加料金なしで利用できる。
関連情報
Anthropicは、新AIモデル「Claude Fable 5」を一般公開した。同社の最上位「Mythosクラス」に属し、これまで一般提供を見送ってきた水準の能力を、悪用を防ぐ保護機能とともに全ユーザーへ解放した。同時に、サイバー関連の保護機能を解除した上位版「Claude Mythos 5」を信頼できるパートナー向けに限定提供する。画像認識だけで「ポケモン ファイアレッド」をクリアするなどビジョン性能の大幅向上もアピールした。
「Claude Mythos」が1万件以上の脆弱性を発見 しかし修正追い付かず Anthropicが報告書。米Anthropicは5月22日(現地時間)、セキュリティプロジェクト「Project Glasswing」の初期報告を公開した。約50社のパートナー企業が1カ月で高・重大レベルの脆弱性を1万件超発見した成果に加え、同社が独自に進めてきたオープンソースソフトウェアのスキャン結果も公表された。
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力。米セキュリティ企業のCalifが、米Appleが5年がかりで開発した最先端のセキュリティ対策「MIE」を突破するエクスプロイト(攻撃プログラム)を、わずか5日間で開発したと発表した。利用したのはAnthropicのAIモデル「Mythos」のプレビュー版だった。
最新AI「Claude Mythos」がSFすぎる件 研究者の作った「罠」を踏破、悪用懸念で一般公開なし...まるで映画の情景。すでに「AI業界」では注目の的になっている「Claude Mythos Preview」。性能や安全性に関する情報をまとめた「システムカード」には、開発初期のテスト過程も記載されており、その内容はまるでSF小説ながらだ。



