Amazonは2024年後半、独自の基盤モデル「Amazon Nova」に続き、AIエージェント開発用の新SDK「Nova Act」を発表した。Playwright統合や構造化データ抽出などの機能を備え、自然言語プロンプトを段階的タスクに変換し、ブラウザ上での自律的な操作を可能にする。

特に信頼性に注力しており、内部ベンチマークでは90%を超える成功率を記録。他社のエージェントSDKと比較して、複雑なマルチステップ処理における安定性で優位性を見せた。Apache 2.0ライセンスで公開されているが、利用はAmazonのNovaモデルに限定される。

AGI SFラボ責任者のDavid Luanは、「エージェントがコンピューティングの基盤になる」と語っており、同社がAIの主導権を再び握る可能性を示唆している。

信頼性重視の構造が示すAmazonの技術的アプローチ

Amazon Nova Actは、AIエージェントによるブラウザ上のマルチステップ処理において、従来課題とされてきた実行の信頼性を正面から捉えた設計となっている。従来のLLMベースのエージェントが自然言語プロンプトに対し一括で応答しようとするのに対し、Nova Actでは個別のコマンドを「act()」として明示的に分割し、段階的な実行と検証を可能とする設計思想を採用している。

このアプローチは、ドロップダウン選択や日付入力、ポップアップ対応といったUI操作において、現行モデルが陥りやすい処理の不確実性を抑制する効果を示した。内部ベンチマークでは、ScreenSpot Web Textで0.939、Web Iconで0.879と他社製モデルを上回る数値を記録している点が象徴的である。また、GroundUI Webではやや劣るものの、それでも0.805という高水準に達している。

こうした結果は、単なる言語理解の精度ではなく、操作タスクにおける段階的な信頼構築に価値が置かれていることを物語る。Amazon AGIが目指すのは、対話の賢さではなく、「実行可能性」に裏打ちされたAIであることが明確になった。

クローズドなモデル設計とオープンなSDK戦略の二面性

Nova ActはApache 2.0ライセンスのもとで公開されており、開発者がローカル環境や他のクラウドサービス上でも自由に利用できる柔軟性を持つ。PlaywrightやPython、Pydanticスキーマとの統合も可能で、実運用に耐えうる構成が整えられている。一方で、エージェントの中核となるLLMにはAmazonのNovaシリーズのみが使用可能であり、他社製モデルとの互換性は排除されている。

この構造は、表面的にはオープンな開発環境の提供に見えるものの、実質的にはAmazonのエコシステムへの囲い込みが意図された設計でもある。現在は無料のリサーチプレビューとして提供されているが、将来的にモデル利用に関する課金が発生すれば、商用展開において利用者の選択肢は大きく制限されることになる。

他社のエージェントSDKが複数モデルへの対応を進めるなか、Amazonがあえて自社モデルへのロックインを選んだ点は注視すべきである。これはモデル品質への自信とともに、クラウドビジネスとの連携強化という企業戦略の反映とも読み取れる。

行動型エージェントという次世代基盤への布石

Nova Actが目指すのは、単なる会話生成AIではなく、現実の操作に基づく「行動型エージェント」の実装である。Amazon AGIのDavid Luanが「エージェントこそがコンピューティングの基盤になる」と語ったように、今後のAIはユーザーと対話する存在ではなく、ユーザーの代わりに能動的に行動する存在へと変化していくと見られている。

実際、Nova Actでは賃貸物件の検索や注文作業など、複雑で日常的な業務を自動化するユースケースが想定されている。人間の監視を前提としない運用が視野に入ることで、AIが業務プロセス全体に深く組み込まれる未来像が具体性を帯び始めている。また、Amazonは現時点で他社のようなチャットボット的な対話機能ではなく、明確な目的を持ってウェブを操作できる技術に注力している。

こうした方向性は、AIを「補助的存在」として位置づける従来の枠組みを超え、AIをシステムの中核とする再構築の端緒とも言える。Nova Actの発表は、AmazonがAIの覇権争いにおいて単なる追随者でなく、主導的な変革プレイヤーとして再登場する決意を示すものと受け取れる。

Source:VentureBeat