Appleの機械学習チームが南京大学および香港科技大学と連携し、3枚の2D画像から高精度な3Dシーンを生成するAIモデル「Matrix3D」を発表した。既存のフォトグラメトリー手法と異なり、姿勢推定や奥行き予測を別々に行うことなく、統一アーキテクチャで処理できる点が特徴である。
Transformerベースのマスク付き学習戦略を導入することで、少ない学習データでも精度を確保し、再構成の質を大幅に向上。Apple Vision Proなど没入型体験の実用化に向けた技術として注目される。
Appleが推進する新世代フォトグラメトリーAI「Matrix3D」の技術的革新

Appleが南京大学および香港科技大学の研究者と共同で開発したMatrix3Dは、従来の3D再構成手法とは一線を画す統合型AIモデルである。このモデルは、複数の処理工程を一括で実行するアーキテクチャを備えており、一般的に必要とされる姿勢推定や深度予測などの個別処理を省略可能にした。特に注目されるのは、わずか3枚の2D画像から対象物やその周辺環境を高精度で立体化できる点であり、従来の大量画像依存の手法を大幅に簡略化している。
この成果を支えるのが、Transformerベースのマスク付き学習戦略である。入力データの一部を意図的に隠すことで、AIが隠された情報を補完する能力を鍛えるこの手法は、限られたデータセットでも高い汎用性と学習効率を維持できる。精緻な3Dモデルを作成するプロセスが簡素化されることにより、時間とコストの削減にもつながる構造だといえる。
既存のワークフローを技術的に統合・最適化するこのモデルは、産業用途のみならず、日常的なAR/VRデバイスの体験向上にも応用される可能性がある。Apple Vision Proのような次世代機器において、ユーザーの操作負担を減らしながら没入感を高めるキー技術として、今後の展開に期待がかかる。
少量データで高度な3D再構成を可能にする設計思想とその影響
Matrix3Dの最大の特徴は、学習データが不完全でも機能するよう設計された点にある。これは、初期のChatGPTなどに用いられたTransformer技術に類似したアプローチによるもので、入力画像の一部情報を意図的にマスクし、欠損を補完しながら学習を進める戦略が採用されている。こうした訓練方法により、少ない入力でも空間的整合性のある3D再構成が可能となった。
この手法は、高解像度画像の取得が困難な状況や、データ収集コストの高い環境で特に有効である。例えば古い資料写真や監視映像からの復元、低リソース地域での測量・設計支援など、用途の広がりも期待される。また、訓練されたモデルが高精度な空間把握を実現することで、拡張現実やメタバースといった体験型技術との親和性も高まる。
一方で、現時点では研究成果の一環として公開されているものであり、一般利用者が即座に活用できる形には至っていない。ただしGitHub上でソースコードが公開されており、技術者や開発者の参入により今後の進化と実用化が進む可能性がある。機械学習の応用範囲をさらに押し広げる突破口となるか、その動向を注視する必要がある。
Source:9to5Mac