xaAILabsは、最新のAIおよびHPC向けGPUであるNVIDIA H200を144基搭載したクラスタ「Exacluster」を構築した。のシステムは、18台のLenovo製ノードで構成され、各ノードに8基のH200 GPUと20TBのHBM3Eメモリを備え、AI向けに570 FP8 PetaTOPSの計算性能を提供する。ydra Hostが構築を支援し、ネットワークアーキテクチャの設計やカスタマイズを担当した。らに、未使用時にはHydraのBrokkrプラットフォームを通じてレンタルも可能である。
Exaclusterが実現するAIトレーニングの革新と計算効率

ExaAILabsが導入したExaclusterは、144基のNVIDIA H200 GPUを搭載することで、AIモデルのトレーニング環境において従来のクラスタを凌駕する計算性能を誇る。このシステムは、16台のノードをAIトレーニング向けに特化させることで、計算負荷の高いディープラーニングモデルに最適化されている。H200 GPUの持つHBM3Eメモリが大容量データ処理を可能にし、570 FP8 PetaTOPSという圧倒的な計算能力を実現する。
さらに、ネットワーク設計においても最適化が図られている。東西方向のデータ転送には3.2TbpsのInfiniBand、南北方向には400Gbpsのイーサネットを採用し、計算ノード間のデータ転送速度を最大化した。各サーバーはデュアル200Gbpsの接続を備えており、複数のモデルを同時並行で学習させる際のボトルネックを抑える設計となっている。これにより、AIトレーニングの効率を飛躍的に向上させることができる。
このシステムは、単なる高性能クラスタにとどまらない。Hydra Hostが導入したBrokkrプラットフォームにより、使用していないリソースを動的にレンタルし、クラウドのように活用することが可能となる。これにより、AI研究者や企業は必要なときに計算資源を確保し、コストを抑えつつ最先端のAIトレーニング環境を利用できる。計算力と柔軟性を兼ね備えたExaclusterは、AI開発における新たなスタンダードとなる可能性を秘めている。
Exaclusterのコスト戦略と価格競争力
Exaclusterの導入にかかったコストは5百万ドル(約7億5千万円)とされ、1ノードあたりの価格は約27万7,777ドル(約4,200万円)に相当する。この価格設定は、単独でH200 GPUを搭載するサーバーの市場価格と比較しても競争力が高い。Hydra Hostがこのコストを抑えることができた要因の一つは、NVIDIAとのパートナーシップによる優遇価格の適用とみられる。
また、Brokkrプラットフォームを活用することで、未使用の計算資源を市場に提供し、収益化することが可能となる。この仕組みにより、従来のオンプレミス型スーパーコンピューターと比較して、TCO(総所有コスト)を大幅に削減することが期待される。特に、スタートアップ企業や研究機関にとって、最新のH200 GPUを利用できる環境を低コストで確保できる点は大きな利点となる。
さらに、Hydra HostはNVIDIAのCUDA向けに最適化されたソフトウェアを提供し、エコシステム全体の効率を高めている。これにより、単なるハードウェアの提供だけでなく、利用者が最大限のパフォーマンスを引き出せる環境を提供している。このアプローチは、AI市場における価格競争を加速させ、より多くの企業が高性能な計算インフラを利用できる状況を生み出すだろう。
Hydra HostのBrokkrプラットフォームがもたらす新たな収益モデル
Exaclusterの導入と並行して、Hydra Hostが提供するBrokkrプラットフォームの重要性も増している。このプラットフォームは、GPU管理とプロビジョニングに特化したソリューションであり、未使用のリソースを効率的に収益化することを可能にする。AIクラスタの所有者は、計算資源を柔軟に貸し出すことで、使用率を最大化し、コスト回収を加速できる。
Brokkrの特長は、ハードウェアのセットアップや管理を自動化する点にある。OSやファームウェアの設定、ドライバのインストール、コンポーネントの動作テストなどが自動で行われ、導入時の手間を最小限に抑える仕組みが整備されている。これにより、クラウドと同様の利便性を持つオンデマンド型の計算環境が構築される。
さらに、Brokkrを通じた計算資源の再販も可能となる。使用しなくなったサーバーやGPUを他のBrokkrユーザーに貸し出すことで、計算インフラの稼働率を向上させ、運用コストの回収を迅速化することができる。この柔軟な運用モデルは、今後のAI市場において新たなスタンダードとなる可能性があり、企業のIT投資戦略に大きな影響を与えることになるだろう。
Source:Tom’s Hardware