Metaが開発するオープンソースAIモデル「Llama」に関する内部情報が、カリフォルニア州の裁判所での証拠開示により明らかになった。同社は、AIモデルの訓練に海賊版書籍サイト「LibGen」から取得したデータを使用したとされ、著作権法違反を巡る訴訟の対象となっている。競争相手であるOpenAIやMistralを意識した動きの中、Meta内部では、違法性を回避するための戦略やデータ利用の隠蔽について議論が行われていたことが確認された。

さらに、AIの発展に欠かせないデータ不足に直面する中、Metaは独自のデータ収集方法を模索し、出版社の買収や労働力を活用した新たな試みを検討している。AI分野における先端を目指す同社の動きは、著作権侵害や競争の激化といった課題を伴い、業界全体の注目を集めている。

Meta内部で交わされたデータ利用を巡る議論と隠蔽戦略

カリフォルニアの裁判所で明らかになったMetaの内部メールは、同社がAIモデル「Llama」の訓練において、LibGenからのデータ利用を議論していたことを示している。LibGenは著作権で保護された書籍を無断で配布する海賊版サイトであり、MetaのAI開発チームはこのデータが「最先端技術(SOTA)」を実現するために必要不可欠であると主張していた。メールには、違法性の指摘を回避するため、著作権表示やISBN番号を削除する策も検討されていたことが記録されている。

さらに、Metaの製品ディレクターであるSony TheakanathがCEOのマーク・ザッカーバーグの承認を仰ぐ内容も確認されている。これにより、同社のトップレベルの経営層もデータ利用方針に関与していた可能性が浮かび上がる。Metaの行動は法的に極めてリスクが高いだけでなく、企業倫理や透明性という面でも厳しい批判を浴びる可能性がある。このような行動は、技術革新の急速な進展を目指す中で、企業が直面する倫理的ジレンマを浮き彫りにしている。

この問題は、AI開発競争の加速が生み出す圧力を如実に表している。独自のデータ取得が困難になる中で、LibGenのような問題含みのデータソースを利用する戦略は短期的な利益をもたらすかもしれないが、長期的には企業の評判を傷つける可能性がある。

データ不足の壁がもたらす新たな課題とMetaの対応策

Metaが直面する最大の課題の一つは、AIシステムの訓練に必要な高品質なデータの不足である。報告によれば、英語の書籍やオンライン記事の大部分はすでに利用済みであり、新たなデータ源を確保する必要があるという。このため、Metaは出版社Simon & Schusterの買収を含む大胆な手段を検討していた。さらに、アフリカの契約社員を雇用し、未使用の書籍や資料を要約させる取り組みも計画していたという。

このような戦略はデータ不足という喫緊の課題に対処するものではあるが、同時に倫理的および法的なリスクを伴う可能性がある。特に、出版業界との交渉が不調に終わる場合、再び問題のあるデータソースへの依存が懸念される。一方で、これらの戦略は、Metaが市場での競争優位を維持するための積極的な取り組みを反映しているとも言える。

AIの訓練データ不足はMetaだけでなく、OpenAIやAnthropicといった主要プレイヤーにも共通する課題である。この競争の激化は、データ取得を巡る新たな発明や、規制の強化を促進する可能性がある。ただし、企業の短期的な目標と社会的責任のバランスが問われる中で、長期的な信頼を得るためには透明性が欠かせない。

AI競争の倫理的側面と著作権法の行方

Metaが直面する著作権訴訟は、AI技術の進化と法制度の整合性に関する議論を引き起こしている。著者やクリエイターによる集団訴訟では、MetaがLibGenから取得したデータを違法に使用したと非難されている。同社はフェアユースの適用を主張しているが、法的解釈がAI開発にどのように影響を及ぼすかは未だ不透明である。

特に注目すべきは、Metaが内部メールでLibGenの使用について外部での言及を禁止していた点である。この方針は、同社が問題のあるデータ利用を公に認めることを避ける意図を示唆している。また、内部ではリスク軽減策として「盗難データの除去」などが議論されていたが、その実効性や透明性には疑問が残る。

AI技術の急速な進歩は、データ利用を巡る倫理的ジレンマを浮き彫りにしている。著作権を尊重しつつも技術革新を推進するためには、新しい法的枠組みや業界全体でのガイドラインが必要である。Metaのケースは、AI産業全体が直面する課題を象徴しており、その行方は同分野における規範形成に大きな影響を及ぼすだろう。