Patronus AIは、業界初のマルチモーダル大規模言語モデル(MLLM)「Judge-Image」を発表した。この新技術は、画像とテキストの信頼性や正確性を評価することを目的としており、特に画像キャプションの幻想や誤りを検出する能力に優れている。
Etsyはこのツールを導入し、手作りやヴィンテージ商品に関するキャプションの精度を検証している。Patronusは、今後マーケティングや法律事務所など、小売業を超えた業界にも応用可能だと見込んでいる。
マルチモーダルAI技術の新たな評価基準を提供

Patronus AIが発表した「Judge-Image」は、画像とテキストを総合的に評価するAIシステムの一つで、従来のテキストのみの評価方法を超える新たな基準を提供する。この技術は、特に画像キャプションにおける誤認識や幻想を検出し、その精度を向上させることを目的としている。
Patronusは、このシステムを利用して、手作りやヴィンテージ商品に関する画像キャプションの正確性を検証することで、Etsyにおける商業的な成果を高める一助となっている。
Patronusの共同創業者であるアナンド・カナッパン氏は、この技術が「幻想を検出し、オブジェクト認識を強化する」など、細かな基準でキャプションの精度を向上させる点に大きな可能性を見出している。
Judge-Imageは、画像内の主要および非主要なオブジェクトの認識精度を評価し、キャプションが適切かどうかを判断する。このような多段階の評価を行うことで、AIの生成するコンテンツの信頼性が格段に向上する可能性を秘めている。
さらに、この技術はEtsy以外の業界でも注目されており、特にマーケティングチームや大企業、法律事務所などでの利用が進んでいる。これにより、AIが生成するコンテンツの品質管理が強化され、視覚コンテンツやテキストの信頼性が一段と高まると予測されている。
Geminiを基盤とした公平なAI評価アプローチ
Patronus AIは、「Judge-Image」の基盤にGoogleのGeminiモデルを採用しており、この選択は技術的に非常に重要な意味を持つ。カナッパン氏は、Geminiが他のAIシステム、例えばOpenAIのGPT-4Vに比べて「自己中心的な傾向が少ない」と評価している。この点は、AIが多様なデータに基づく評価を行う際に非常に重要で、偏りなく公平に判断する能力が求められる。
Geminiの特徴は、そのバイアスを抑えたアプローチにあり、特にマルチモーダルなデータを扱う際に、その公平性を保つことができる点が評価されている。これにより、AIが生成するテキストや画像の解釈において、より正確で中立的な評価が可能となる。Patronusは、この技術を基に、商業的なコンテンツだけでなく、さまざまな業務におけるAI評価の基準を確立することを目指している。
特に、マーケティングや法律事務所など、複雑な文書や情報の評価が求められる分野では、この公平な評価基準が有効に機能するだろう。AIのバイアスを最小限に抑えることで、AI技術の信頼性が格段に向上し、その適用範囲がさらに広がると期待されている。
マルチモーダル評価技術の今後の展開と課題
Patronus AIは、今回の「Judge-Image」の発表をマルチモーダル評価技術の第一歩として位置づけている。今後は、音声評価など、さらに広範な評価基準を開発する予定だ。カナッパン氏は、特に音声を含むマルチモーダル技術の発展に期待を寄せており、将来的には視覚に加えて音声や他の感覚的データも評価対象に含まれる可能性があると述べている。
現在のところ、画像に関する評価が主流だが、テキストと音声の融合によって、より多角的なAI評価が可能になるだろう。これにより、例えば音声データを解析するシステムや、異なるメディアから情報を抽出するシステムにおいても、AIが生成するコンテンツの品質を高度に評価できるようになる。
AIが生成するコンテンツに対して多角的な視点で評価を行うことができれば、その信頼性や精度がさらに向上するだろう。
一方で、この技術の発展にはいくつかの課題も伴う。AIによる評価基準が進化する中で、評価対象となるデータの質や多様性をどのように保つかが重要なポイントとなる。また、企業がこの評価ツールをどのように活用するか、内製か外部委託かという選択も一つの課題となっている。
Source:VentureBeat