Anthropic、Fable 5の安全機能を可視化へ
Anthropicは6月11日(現地時間)、同社の最上位AIモデル「Claude Fable 5」の安全機能(セーフガード)の一部について、その動作をユーザーに見える形に変更すると、Xで発表した。あわせて、これまで一部の安全機能を不可視にしていたことを「誤った判断だった」と認め、謝罪した。
Fable 5の安全機能と不可視の仕組み
Fable 5は6月9日に一般公開された。サイバーセキュリティ、生物学・化学、モデルの「蒸留」に関するリクエストを検知すると、Fable 5ではなく下位の「Claude Opus 4.8」が応答を引き継ぐ仕組みを備えている。このうちサイバーセキュリティと生物学・化学の分野では、モデルが切り替わった様子がユーザーに明示されていた。一方、フロンティアAI開発に関わる蒸留分野については、安全機能が「不可視」のまま動作しており、ユーザーが気付かないうちに挙動が変わる状態になっていた。
今後の変更点
Anthropicによると、今週から、蒸留分野でフラグが立ったリクエストも、サイバーセキュリティや生物学・化学分野と同様に、目に見える形でOpus 4.8へ切り替えられるようになる。ユーザーは、切り替えが起こるたびにそれを確認できる。API経由の場合は、フラグが立ったリクエストに対して拒否の理由が返されるようになり、サーバーサイドでのフォールバックも数日以内に提供する予定としている。
不可視にした理由と謝罪
同社は、当初これらの安全機能を不可視にした理由を次のように説明している。可視のセーフガードは外部から探られるため堅牢である必要があり、それを作り込むには時間がかかる。一方、不可視のセーフガードはより広い範囲を対象にでき、誤検知をほとんど発生させずに素早く開発できる。Fable 5を迅速かつ安全にユーザーへ届けるため、後者を選んだ。その上で同社は「それは誤ったトレードオフだった」「ユーザーは、どのような安全機能がなぜ設けられているのかを判断できるべきだった」とし、「バランスを正しく取れなかったことをお詫びする」と謝罪した。
可視化に伴う課題
ただし、安全機能を可視化するとジェイルブレイクの手がかりを与えやすくなるため、堅牢性を保つには、分類器を改善する間、無害なリクエストが誤って引っかかる「誤検知」が増えることになるという。同社はまた、サイバーセキュリティと生物学・化学分野の分類器についても、無害なリクエストで動作しにくくなるよう調整を進めており、「この期間をできるだけ短く抑えるよう最善を尽くす」としている。
誤検知への対処方法
リクエストが誤ってフラグ付けされたと思われる場合、Claude Codeでは「/feedback」を実行することで、Claude.aiやCoworkではフィードバックした回答に低評価を付けることで、APIリクエストについてはセーフガードの異議申し立てフォームから、報告できる。寄せられた報告は分類器の調整に役立つとしている。
背景
Fable 5の安全機能をめぐっては、一般公開直後から、無害なリクエストまでブロックされるとしてXで批判が広がっていた。今回の発表は、その批判を受けた方向転換に当たる。



