MetaのLlama 3.1-70Bをベースにした新しい大規模言語モデル「Reflection 70B」が、世界で最も高性能なオープンソースモデルとされてリリースされた。しかし、その後、独立した第三者の評価によってベンチマーク結果の再現が困難であることが判明し、詐欺の疑惑が持ち上がった。
この論争を受け、トレーニングデータを提供したスタートアップGlaive AIは、詳細な事後報告書を公開し、バグの存在を認めるとともに、新たなデータとリソースをコミュニティに提供することで信頼の回復を試みている。
Reflection 70Bモデルの誕生と急展開
2024年9月5日、Hyperwrite AI(OthersideAI)を率いるマット・シューマーが、ソーシャルメディア「X」で突如として「Reflection 70B」のリリースを発表した。これはMetaのLlama 3.1-70Bをベースに、さらに高性能なモデルに仕上げたとされ、そのベンチマーク結果は「世界最高のオープンソースモデル」と称賛された。
だが、この発表はわずか数日で大きな論争を巻き起こすことになる。独立したAI研究者やホスティングコミュニティは、シューマーが提示したベンチマーク結果を再現できず、その信憑性に疑問を呈した。SNS上では結果の誤差を指摘する声が相次ぎ、やがて「詐欺」疑惑にまで発展する。シューマーはこれに応じ、問題の解決に向けた精査を進めることを表明し、同モデルのトレーニングデータを提供したGlaive AIのサヒル・チョードリーと共に対応を進めるとした。
しかし、リリース時点でのデータや評価が十分に検証されていなかったことが露呈し、コミュニティは大きな失望感を抱くこととなった。
ベンチマーク結果の不一致とコミュニティの反発
Reflection 70Bのリリース直後、多くの研究者がベンチマーク結果を再現しようと試みたが、その試みは困難を極めた。特に、MATHやGSM8Kといった特定のタスクにおいては、シューマーが提示した結果と実際の評価との間に大きな差が生じた。
これにより、SNSや専門フォーラムでは「誇大広告」や「誤ったベンチマーク操作」といった厳しい批判が噴出し、一部の研究者はReflection 70Bの信頼性そのものに疑念を抱いた。特に、Redditや「X」では、モデルのAPIが別のモデルの出力を偽装しているのではないかとの指摘が相次ぎ、事態は一層悪化した。
その後、Glaive AIのチョードリーはベンチマーク結果を再調査し、APIにおける外部システムとの通信のバグがスコアに影響を与えたことを認めた。これにより、いくつかのスコアが下方修正され、初期の発表が正確でなかったことが明らかになった。
事後報告書が明らかにした問題と修正
Reflection 70Bのリリースから約1ヶ月後、チョードリーは事後報告書を公開し、モデルの不具合や評価結果の再調査について詳述した。彼は、リリース当初のコードにバグがあったことを認め、そのバグが特定のベンチマークスコアを過大に表示していたことを明かした。
特に、外部APIとのやり取りにおける問題がMATHやGSM8Kの結果に影響を与えていたという。これに伴い、修正版のベンチマーク結果では一部のスコアが当初よりも低下したが、それでも高い性能を示しているとされた。チョードリーはまた、ベンチマーク結果を再現するためのモデルの重みデータやトレーニングデータ、評価コードなどを公開し、コミュニティによる独立検証が可能な状態にしたと説明した。
だが、この報告書が示す透明性にもかかわらず、一部のAI研究者たちは依然として疑念を抱いており、特にReddit上では、Glaive AIが意図的に不正操作を行っていたのではないかという声も上がっている。
透明性の確保と今後の展望
チョードリーは事後報告書の中で、リリースの際に十分なテストが行われなかったこと、そしてコミュニティに対する透明性が欠けていたことを率直に認めた。Reflection 70Bは推論タスクで非常に優れた性能を発揮したが、創造性や一般的なユーザーインタラクションにおいては課題が残るというモデルの限界も認識された。
シューマーとチョードリーは、Reflection 70Bの強みと弱みについて十分に伝えられなかったことが問題を引き起こしたと反省し、今後はより慎重なアプローチを取ることを誓った。また、APIの不具合についても、シューマーは自ら独自にベンチマーク結果の再現を進めていると発表し、信頼回復に向けた取り組みを続ける意向を示した。
チョードリーは、このプロジェクトが透明性を確保するための重要な一歩であり、オープンソースAIコミュニティとの信頼関係を再構築する契機となることを期待していると述べた。