Google DeepMindが進めるAI「Gemini」の精度向上プロジェクトにおいて、契約社員による評価方針が大きく転換した。この新方針では、専門知識を持たない評価者にも回答の正確性評価が求められるようになり、従来の「専門外プロンプトのスキップ」が許可されない仕組みへと変更された。

特に、契約社員に新たに課される「不足する専門知識の注記」と「評価義務の一貫化」は、AIの精度にどのような影響を与えるか議論を呼んでいる。専門知識不足による評価結果の信頼性低下や、開発目標への悪影響が指摘される中、今回の決定がAI業界全体に波及する可能性がある。
また、この方針変更は、契約社員の作業負担や倫理的な評価基準にも影響を及ぼしうるとされ、Googleが掲げるAI開発の透明性や公正性を再考する契機となる可能性がある。

専門外評価の義務化がもたらすAI開発の課題

Google DeepMindが導入した新方針では、契約社員が専門知識を持たないプロンプトについても評価を行う義務が課されている。この変更により、評価の網羅性は向上する可能性があるが、専門外分野の評価の正確性が懸念される。従来は、例えばコーディングや数学といった特定の専門知識を要する内容はスキップ可能であったが、この柔軟性が排除されたことにより、契約社員が過度のストレスを抱えるリスクも指摘されている。

特に、「理解可能な部分のみを評価し、不足する専門知識を注記する」という新たな指示は、評価作業の一貫性を保つ目的と見られるが、実際には曖昧な基準が残されている。TechCrunchの報道によれば、GlobalLogicの契約社員の中にはこの方針転換に戸惑いを示し、AI開発における透明性が損なわれる懸念を表明している者もいる。こうした状況下で、AI応答の精度向上にどのような具体的成果が出るかは不透明であり、評価基準の再考が求められる可能性がある。

データの質とAI倫理に対する潜在的影響

専門知識が不足する評価者によるデータの質の低下は、AI倫理にも重大な影響を及ぼす可能性がある。Geminiの応答精度を評価する際、誤った判断や曖昧な基準に基づくフィードバックがAIのモデル学習に影響を与えるリスクが存在する。例えば、FACTS Groundingベンチマークを通じて正確性を評価する試みは、他の高度な言語モデルと比較する点で有意義ではあるが、人間評価者の正確性が欠如すれば、その評価の信頼性もまた揺らぐ。

AIの透明性と公正性を強調するGoogleが、今回の方針変更によって逆に評価プロセスの公平性を損なうリスクを抱えている点は看過できない。特に、契約社員の一部が「専門知識を持つ適任者に評価を委ねるべきだ」との意見を述べている背景には、AI開発の倫理的責任を問う声がある。結果として、データの質を確保しつつ、評価プロセスの負荷を軽減するための改善策が必要とされている。

方針転換が契約社員の労働環境に与える影響

新たな評価方針は、契約社員の労働環境にも影響を及ぼしている。Indeedなどの求人情報によれば、GlobalLogicの契約社員は時給14ドルから21ドルで雇用されており、AI応答の評価作業は学位や専門知識を有する者にとっても挑戦的であるとされる。一方で、この給与水準が専門的知識を要求する作業の負担と見合っているかについては疑問の声もある。

また、厳格な面接プロセスやストレスの多いオンボーディング過程は、契約社員の離職率の上昇要因ともなり得る。評価義務が拡大する中で、作業者に過度なプレッシャーを与えることは、評価の正確性のみならず労働環境の持続可能性にも影響を及ぼすだろう。GoogleとGlobalLogicが、この新方針による課題に対してどのように対応するかが、今後の注目点となる。