news

中国AIラボ3社がClaudeに大規模蒸留攻撃、1600万回以上のやり取りで能力抽出を試行

Anthropicは、DeepSeek・Moonshot AI・MiniMaxの3社が約24,000の不正アカウントを通じて1600万回以上のやり取りを行い、Claudeの能力を組織的に蒸留していたことを公表した。

投稿者: Flow
Anthropic DeepSeek MiniMax Moonshot AI distillation security

Anthropicは2月23日、中国のAI企業3社 — DeepSeek、Moonshot AI、MiniMax — がClaudeに対して産業規模の蒸留(distillation)キャンペーンを実施していたことを公表した。約24,000の不正アカウントを通じて1600万回以上のやり取りが行われ、Claudeのエージェント推論、ツール使用、コーディング能力の抽出が試みられた。抽出されたデータは、各社の自社モデル学習に使用されたとみられる。

各社の蒸留規模と対象

MiniMaxが最大規模の蒸留を実施し、1300万回以上のやり取りが確認された。エージェントコーディングとツール使用能力の抽出に焦点を当てており、同社の新モデルリリース前のタイミングで検出された。Anthropicが新しいClaudeモデルをリリースすると、24時間以内にトラフィックの約半分を新モデルにリダイレクトする行動パターンも観測されている。

Moonshot AI(Kimiモデルの開発元)は340万回以上のやり取りを実施。対象はエージェント推論、コーディング、コンピュータユースエージェント開発、コンピュータビジョンと多岐にわたる。リクエストメタデータの分析から、Moonshot AIの上級スタッフの公開プロフィールとの一致が確認された。

DeepSeekは15万回以上と規模は最小だが、手法に特徴がある。推論能力とルーブリックベースの採点能力を対象とし、Claudeに対して「完了した回答の内部推論をステップバイステップで言語化する」よう誘導。これにより、思考連鎖(Chain-of-Thought)の学習データを大規模に生成していた。さらに、政治的に敏感なクエリに対する検閲回避の代替回答も生成させていたという。

不正アクセスの手法

3社はいずれも不正に作成したアカウントと商用プロキシサービスを組み合わせてアクセスしていた。Anthropicの調査によると、1つのプロキシネットワークが同時に20,000以上の不正アカウントを管理していた事例も確認されている。

検出方法と対策

Anthropicは、IPアドレスの相関分析、リクエストメタデータの解析、インフラストラクチャ指標、業界パートナーからの情報提供を組み合わせて蒸留活動を検出した。対策として、蒸留行為を識別する分類器と行動フィンガープリントシステムを配備したとしている。

OpenAIも同様の被害を報告

Anthropicの発表に関連して、OpenAIもDeepSeekが同社のChatGPTに対して類似の蒸留技術を使用していたと主張している。大規模言語モデルの蒸留攻撃は、AIプロバイダーにとって業界全体の課題となりつつある。

モデルの出力を大量に収集して学習データとして利用する蒸留は、知的財産の保護と利用規約の執行という観点で、AIプロバイダー各社に新たな防衛策の構築を迫っている。

公式発表: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

この記事をシェア

他のAIツールも探す

生産性、創造性、イノベーションのための60以上のAIツールの厳選ディレクトリをご覧ください。

0 tools selected