AnthropicがClaude Fable 5のガードレール仕組みを解説誤検知の報告方法など

Anthropicは6月10日、Claude Fable 5のガードレール機能について詳細を公開。セキュリティや生物学関連の質問を自動でOpus 4.8に切り替える仕組みや、誤検知時の報告方法、料金体系などを説明した。

日本ニュース 2026/06/16 15:17

AnthropicがClaude Fable 5のガードレール仕組みを解説誤検知の報告方法など — AnthropicがClaude Fable 5のガードレール仕組みを解説

Anthropic、Claude Fable 5のガードレール機能を解説

Anthropicは6月10日（現地時間）、前日に一般公開した最上位AIモデル「Claude Fable 5」のガードレール（保護機能）について、その仕組みやリクエストがブロックされた際の挙動、自動切り替えの管理方法を説明するヘルプ記事を公開した。

Fable 5はサイバーセキュリティや生物学関連の質問を検知すると、回答を下位の「Claude Opus 4.8」に切り替える仕組みを備えているが、無害なリクエストまで弾かれているとしてX（旧Twitter）で批判が広がっていた。

ブロックの対象となる3分野

同社の説明によると、Fable 5はすべてのユーザーリクエストに対して自動の安全性チェックを実施し、以下の3分野に該当する場合にブロックする。

—

攻撃的なサイバーセキュリティ技術：エクスプロイトやマルウェア、攻撃ツールの作成など
生物学・生命科学に関する質問：実験手法や分子メカニズムなど
モデルの「脱獄」に関するリクエスト

これらの保護機能は意図的に広く設定されており、認可されたセキュリティテストや無害な生物学研究などの正当な作業まで含まれる可能性があるという。9日の発表の際にも、無害なリクエストをブロックしてしまうことが「一部のユーザーにとって不満の原因となることは承知しており、リリース後に安全対策を更新・改善していくことで、誤検知を減らすことを目指している」と述べていた。

ブロック後の挙動と自動切り替え機能

サポートページによると、ブロックが発生した後の挙動は、自動切り替え機能の設定によって異なる。Claude、Claude Cowork、Claude Code、Claude Design、Claude for Microsoft 365では、この機能がデフォルトで有効になっている。

この場合、ブロックされたリクエストは同じ会話の中で「Opus 4.8」によって再実行され、モデルが切り替わった旨の通知が表示される。切り替え後はモデル選択がOpusのまま維持されるが、いつでもFable 5に戻すことができる。ただし、リクエストの内容を変更せずに戻すと、元のリクエストが会話に残っているため、再び同じ保護機能でブロックされる可能性がある。Anthropicは、再実行の前にメッセージを編集することを勧めている。

自動切り替え機能は、Fable 5を初めて選択した時点でデフォルトで有効になる。設定→機能、Claude CodeではConfig→MODEL+OUTPUTから「メッセージにフラグが付いた場合にモデルを切り替える」をオフにすると、ブロック時にモデルを切り替える代わりに会話を一時停止し、メッセージを編集してFable 5で再実行するか、手動でOpusに送信するかを選べる。