AI Disclosures Projectによる新たな調査報告は、OpenAIの最先端モデルGPT-4oが、ライセンス契約のない有料のO’Reilly Media書籍を訓練に使用していた可能性を指摘している。GPT-4oは旧モデルと比べて非公開書籍の内容を高精度で認識しており、研究では約1.4万の段落を用いてこの傾向を分析した。
報告には、モデルが未公開データを訓練済みであるかを推定する「メンバーシップ推論攻撃」手法が用いられた。これは著作権保護とAI開発の緊張関係を象徴するもので、OpenAIに対する複数の訴訟とも関連性が示唆される。
同社は一部データでは正規ライセンスを取得しているが、今回の事例に関してはコメントを控えており、透明性と責任のあり方が今後の焦点となる。
GPT-4oに著作権保護下の有料書籍が含まれていた可能性をAI研究団体が指摘

2024年設立の非営利団体「AI Disclosures Project」は、OpenAIの最新モデルGPT-4oが、O’Reilly Mediaの有料書籍を事前に学習していた可能性を示唆する調査結果を発表した。調査は13,962段落に及ぶ非公開書籍の文章を対象に行われ、GPT-4oの認識精度が過去モデルと比べて異常に高かった点を重視している。
ライセンス契約の存在は確認されておらず、調査に用いられたのは、訓練済みモデルが特定テキストを「記憶」しているかを検出する「メンバーシップ推論攻撃」と呼ばれる手法である。
この手法は、AIモデルが元データを保持している兆候を明示的に示すものではないが、モデルが生成する文と原文との一致度を解析することで、学習履歴の一端を可視化する。
GPT-3.5 Turboが主に公開サンプルへの反応で認識力を示した一方、GPT-4oは非公開書籍に対して高度な整合性を見せたとされる。研究者はこの差異に注目し、GPT-4oがO’Reilly Mediaの有料コンテンツを何らかの経路で訓練に取り込んでいたと推測する根拠とした。なお、OpenAIは本件に関するコメント要請には応じていない。
訓練データの枯渇とAIモデル精度維持のジレンマ
近年、AIラボ各社が直面している最大の課題の一つが、現実世界の高品質な訓練データの枯渇である。インターネット上の公開情報を中心としたデータ供給は限界に近づきつつあり、AIが新たな知識や表現を獲得するための材料が減少している。OpenAIを含む主要プレイヤーは、AI生成データを用いた訓練や、限定された領域での専門家採用、さらにはジャーナリストによる校正を導入するなどして対応を図っている。
しかし、生成データに依存する手法は、モデル性能の劣化を招くリスクが指摘されており、オリジナルで高品質な人間制作コンテンツを求める動きは強まっている。その中で、O’Reilly Mediaのような専門書籍は希少性と信頼性の両面で極めて魅力的な資源といえる。
GPT-4oが同社の非公開書籍を学習していたとすれば、それは技術的な妥協ではなく、意図的な精度向上策と捉えられかねない。だが同時に、ライセンスの不在は知的財産の境界線を曖昧にするものであり、倫理的・法的議論の火種ともなる。
AI開発と著作権法の交差点に立つOpenAIの今後
OpenAIはこれまでに複数のライセンス契約をメディア、SNS、ストックコンテンツ提供者と締結しており、著作権処理への一定の配慮を見せてきた。また、著作権者が訓練データへの使用を拒否できる「オプトアウト機構」も導入しているが、その網羅性や実効性には疑問が残る。今回指摘されたO’Reilly書籍の事例は、こうした対策の限界を浮き彫りにしているといえる。
さらに、米国内ではOpenAIに対して著作権侵害をめぐる訴訟が相次いで提起されており、今回の研究結果は法的リスクを一層高める材料になり得る。AIモデルが「どこまで学習し、どこまで創造しているのか」を巡る問題は、技術論にとどまらず、社会的な信頼と制度の再構築をも必要とする局面に入っている。
GPT-4oの事例は、その最前線に位置する問題の縮図であり、AI開発と知的財産の関係性を問い直す契機となる可能性がある。
Source:TechCrunch