Meta(メタ)は、人間が学習する方式をより良く模倣することを目指す新しいオープンソースAIモデル、「ImageBind」を発表した。

参考:ImageBind Holistic AI learning across six modalities

ImageBind:人間の感覚を真似た学習を実現

メタは、この新しいオープンソースAIモデル、ImageBindが、人間が学習する方式をより良く模倣するシステムへの一歩であると主張している。人間が複数の感覚に依存するのと同様に、複数のデータタイプ間のつながりを一度に描き出す。

OpenAIのDALL-Eや会話モデルのChatGPTのようなテキストから画像へのジェネレーターの台頭に伴い、近年、生成AIに対する主流の関心が急速に高まっている。これらのシステムは、画像やテキストなど、特定のタイプの素材の大規模なデータセットを使用して訓練され、最終的には自分で生成することを学習する。

▼関連記事▼
強化学習の全貌: 基本概念からビジネス活用まで徹底解説
ゼロショット学習徹底解説: 基本原理から応用分野・評価指標・将来展望まで

ImageBindを用いて、メタはより大きな全体像を把握できるAIモデルの開発を促進することを目指している。より「全体的」なアプローチをマシンラーニングに取り入れることで、6種類の異なるタイプのデータ:テキスト、視覚(画像/ビデオ)、音声、深度、温度、動き、を結びつけることができる。

より多くのタイプのデータ間でつながりを引き出す能力は、AIモデルがより複雑なタスクを引き受ける―そしてより複雑な結果を生み出す―ことを可能にする。メタによれば、ImageBindはオーディオクリップに基づいて視覚を生成したり、その逆を行ったり、あるいは環境要素を加えてより没入感のある体験を提供するために使用することができる。

メタによると、「ImageBindは、写真の中の物体とその音、3D形状、温度、動きとのつながりを理解する。全体的な理解を機械に与える。」現在のAIモデルは範囲がもっと限定的である。例えば、画像データセットのパターンを認識して、それに基ついてテキストプロンプトからオリジナルの画像を生成することを学習することはできるが、メタが想像するものはそれよりもはるかに進んでいる。

音声プロンプトを使用して静止画像をアニメーションシーンに変換することができるとメタは述べている。また、モデルは「記憶を探求する豊かな方法」を提供するために使用される可能性があり、人々が特定のイベントや会話をテキスト、オーディオ、画像のプロンプトを使用して自分のメッセージやメディアライブラリを検索できるようにする。

これは、混合現実を新たなレベルに引き上げる可能性がある。「触覚、音声、香り、脳のfMRI信号」など、さらに多くのタイプのデータを導入して、MRはさらに進化する可能性がある。「より豊かな人間中心のAIモデル」を可能にするかも知れない。

しかし、ImageBindはまだ黎明期にあり、メタの研究者たちは他の人々にこのオープンソースAIモデルを活用し、モデルを構築することを勧めている。チームは、研究の詳細を記述した論文と共にブログ記事を公開し、コードはGitHubで利用可能である。

ImageBindがもたらすインパクト

メタによるImageBindの開発は、人間の学習と理解の方法を模倣するAIの可能性を一層広げるものであると言えるだろう。現在のAIモデルの多くは、特定のデータタイプを使用して訓練され、その結果、特定のタスクにおいて非常に効果的であるが、その範囲はしばしば限定的である。

人間が持つような、複数の感覚を統合した理解をAIが持つことは、AIの能力を一層高め、より複雑で人間らしい問題解決能力を持つシステムの開発を可能にする。

特に、ImageBindがテキスト、視覚、音声、深度、温度、動きといった多様なデータタイプを結びつける能力は、AIが取り組むことのできるタスクの種類と複雑さを拡大するだろう。例えば、音声クリップに基づいて視覚的な表現を生成する能力は、現在のテキストから画像へのジェネレーターが持つ能力を大きく超えるものである。

しかし、このような革新的な技術には常に挑戦が伴う。複数のデータタイプを結びつけるAIモデルの訓練と調整は非常に困難である可能性があり、また、プライバシーやデータ保護に関する新たな問題も生じる可能性がある。

それにもかかわらず、ImageBindはAIの未来にとって刺激的な一歩であり、その開発と研究がオープン化され進むことにより、AIがより人間の理解に近づくことが期待できる。

Reinforz Insight
ニュースレター登録フォーム

最先端のビジネス情報をお届け
詳しくはこちら

プライバシーポリシーに同意のうえ