AnthropicがClaude Fable 5のガードレール仕組みを解説 誤検知の報告方法など
AnthropicがClaude Fable 5のガードレール仕組みを解説

Anthropic、Claude Fable 5のガードレール機能を解説

Anthropicは6月10日(現地時間)、前日に一般公開した最上位AIモデル「Claude Fable 5」のガードレール(保護機能)について、その仕組みやリクエストがブロックされた際の挙動、自動切り替えの管理方法を説明するヘルプ記事を公開した。

Fable 5はサイバーセキュリティや生物学関連の質問を検知すると、回答を下位の「Claude Opus 4.8」に切り替える仕組みを備えているが、無害なリクエストまで弾かれているとしてX(旧Twitter)で批判が広がっていた。

ブロックの対象となる3分野

同社の説明によると、Fable 5はすべてのユーザーリクエストに対して自動の安全性チェックを実施し、以下の3分野に該当する場合にブロックする。

Pickt横長バナー — Telegram用の共同買い物リストアプリ
  • 攻撃的なサイバーセキュリティ技術:エクスプロイトやマルウェア、攻撃ツールの作成など
  • 生物学・生命科学に関する質問:実験手法や分子メカニズムなど
  • モデルの「脱獄」に関するリクエスト

これらの保護機能は意図的に広く設定されており、認可されたセキュリティテストや無害な生物学研究などの正当な作業まで含まれる可能性があるという。9日の発表の際にも、無害なリクエストをブロックしてしまうことが「一部のユーザーにとって不満の原因となることは承知しており、リリース後に安全対策を更新・改善していくことで、誤検知を減らすことを目指している」と述べていた。

ブロック後の挙動と自動切り替え機能

サポートページによると、ブロックが発生した後の挙動は、自動切り替え機能の設定によって異なる。Claude、Claude Cowork、Claude Code、Claude Design、Claude for Microsoft 365では、この機能がデフォルトで有効になっている。

この場合、ブロックされたリクエストは同じ会話の中で「Opus 4.8」によって再実行され、モデルが切り替わった旨の通知が表示される。切り替え後はモデル選択がOpusのまま維持されるが、いつでもFable 5に戻すことができる。ただし、リクエストの内容を変更せずに戻すと、元のリクエストが会話に残っているため、再び同じ保護機能でブロックされる可能性がある。Anthropicは、再実行の前にメッセージを編集することを勧めている。

自動切り替え機能は、Fable 5を初めて選択した時点でデフォルトで有効になる。設定→機能、Claude CodeではConfig→MODEL+OUTPUTから「メッセージにフラグが付いた場合にモデルを切り替える」をオフにすると、ブロック時にモデルを切り替える代わりに会話を一時停止し、メッセージを編集してFable 5で再実行するか、手動でOpusに送信するかを選べる。

料金について

料金についても説明があった。リクエストがFable 5の出力前にブロックされた場合は、すぐにOpusに切り替わり、Opusの料金のみが課金される。一方、回答の途中でブロックされた場合は、ブロック前に生成された分はFable 5の料金で、残りはOpusの料金で課金される。

なお、Claude APIでは挙動が異なり、自動切り替えはデフォルトでは有効にならず、API利用者は自身で切り替えを設定する必要がある。

誤検知の報告と今後の方針

Anthropicは、ブロックされたリクエストがセキュリティや生物学と無関係に見える場合や、正当な作業が繰り返しブロックされる場合は、「フィードバックを送信」から報告するよう呼びかけた。誤ってブロックされたリクエストの報告は、保護機能の精度向上に役立つとしている。

Pickt記事後バナー — 家族イラスト付きの共同買い物リストアプリ

同社は今後、デュアルユース(両用)のサイバー防御や生物学研究に向けて利用枠を拡大する方法を検討する方針で、安全システムの成熟に伴い、正当な生物学・防御的サイバーセキュリティの作業を支援していくとしている。