GoogleはAIモデル「Gemini」の新機能として、スマートフォンのカメラ映像をリアルタイムで分析・解釈するアップデートを開始した。これは、2024年のGoogle I/Oで初公開された「Project Astra」の応用例とされ、ユーザーが撮影中の周囲の映像に対し、その場で文脈に応じた回答を得ることが可能となる。
Reddit上ではXiaomi製スマートフォンでの動作報告が確認されており、画面読み取り機能を紹介する動画も共有された。この機能は3月に発表されたGeminiの二大強化要素の一つで、AIプレミアムプラン利用者向けに段階的に展開されている。
他にもGeminiには、文章作成支援「Canvas」やポッドキャスト要約ツールの追加が続いており、AppleやSamsungを凌駕するAIアシスタント分野でのリードが鮮明となってきた。一方で、昨年の完全なデモ機能の全てが導入されたわけではない点には留意が必要である。
GeminiがもたらすAIアシスタントの機能転換点

今回のアップデートでGoogleは、スマートフォンのカメラ映像をAIが即時に解析し、ユーザーの周囲環境を理解した上で応答するという、従来のAIアシスタントとは一線を画す機能を導入した。この機能の技術的基盤となる「Project Astra」は、2024年のGoogle I/Oで披露されて以来、約1年をかけて実用段階に到達している。具体的には、カメラを通じて取得した視覚情報に対し、AIがその場で意味を把握し、ユーザーの問いに即時回答する構造である。
すでにReddit上ではXiaomi端末での動作報告が上がっており、画面上のコンテンツをAIが読み取る機能を紹介する映像が共有された。これは3月初旬に発表された2大機能の一つであり、同月後半からはGoogle OneのAIプレミアムプラン契約者に対して段階的に展開されている。従来のテキスト処理中心のAIとは異なり、視覚的な文脈理解が可能となったことで、AIが現実空間とのインターフェースとして一層機能する段階に進んだと言える。
こうした進展は、AppleやSamsungといった他社が慎重な開発姿勢を取る中で、GoogleがAIアシスタント分野において明確な先行優位を築いたことを示している。ただし、Project Astraのデモで披露された、視覚情報の記憶や空間内オブジェクトの追跡機能など、すべての機能が今回のリリースに含まれているわけではなく、今後の段階的実装が注視される。
ユーザー体験の再構築を促すGeminiの進化
今回導入されたライブ映像処理機能は、単なる技術革新に留まらず、スマートフォンを介した日常的な情報取得や意思決定のあり方を根本から変える可能性を秘めている。ユーザーはこれまでのように情報を検索するのではなく、カメラを通じてAIに「見せる」ことで、直感的かつ即応的なサポートを受けられる環境が整いつつある。視覚的情報を理解した上での返答という機能は、これまでのAIに欠けていたリアルタイム性と文脈理解の精度を大きく補完するものといえる。
また、画面読み取り機能の追加によって、アプリやコンテンツの内容をAIが自動的に把握し、ユーザーの操作に先回りして提案を行う仕組みが可能となる。こうした自律的なサポートの進展は、業務や学習、日常生活の効率性を高める一方で、ユーザー側の情報取捨選択能力や判断力にも新たな要求を突きつける可能性がある。
Googleはすでに「Canvas」やポッドキャスト要約といった他のAI支援機能も投入しており、Geminiの進化は単なる一機能の追加ではなく、AIによる包括的なユーザー支援環境の布石と見るべき段階にある。今後、Project Astraのデモに見られた記憶機能などが実装されれば、ユーザーとAIの関係性はより持続的かつ個別化されたものへと変容していく可能性がある。
Source:PhoneArena