Nvidia、AIデータセンターを接続するSpectrum-XGS Ethernetを発表

  • 新しいスケーリングの柱: Spectrum-XGS Ethernet により、分散データ センターを接続するスケール アクロスが可能になります。
  • パフォーマンス: 従来のイーサネットと比較して、NCCL では約 2 倍、帯域幅密度は 1,6 倍。
  • 統合: ConnectX-8 スイッチおよび SuperNIC を備えた Spectrum-X プラットフォームの一部。
  • 導入と利用可能性: CoreWeave は最初に導入されるものの一つであり、現在利用可能です。

AI向けNVIDIA Spectrum-XGSイーサネットインフラストラクチャ

インフラの需要は 大規模人工知能 今日のデータセンターは、スペース、電力、冷却の限界に直面しており、建物内での拡張だけではもはや十分ではありません。こうした状況において、NVIDIAは スペクトラム-XGS イーサネット遠隔地の施設を接続して 1 つの施設として機能させるテクノロジーです。

この提案は、AIのための3つ目のスケーリングアプローチを導入する。 拡大する (システムを拡張する)と スケールアウト (ノードを追加)、 スケールアクロス 地理的に離れたデータセンターをリンクする。複数の拠点を真の AI「スーパーファクトリー」 予測可能なパフォーマンスと場所間の低レイテンシを実現します。

Spectrum-XGS Ethernet とは何ですか? また、どのような問題を解決しますか?

データセンターが容量制限に達したとき 電力、密度、冷却それ以上の拡張は複雑になります。ラックを増設しても物理的な限界があります。数千のプロセッサをリモートで同期するには、ネットワークも必要です。 安定したレイテンシ そして、非常にきめ細かな輻輳制御も実現します。これは一般的なイーサネットでは保証されないものです。そこでSpectrum-XGS Ethernetが登場します。

それはエコシステムの進化である Nvidia Spectrum-X イーサネット 単一の施設を超えてパフォーマンスを拡張する。異なる場所に設置されたAIチップが単一の「スーパーチップ」として機能し、性能のばらつきを最小限に抑えるという考え方だ。 ジッタ 拠点間で一貫した応答時間を提供します。

仕組み: 距離ベースの輻輳制御とエンドツーエンドのテレメトリ

鍵となるのは、ネットワークを状況に応じて調整するアルゴリズムです。 中心間の距離自動輻輳制御、正確な遅延管理、 エンドツーエンドのテレメトリこの 3 つの技術により、トレーニングや推論のパフォーマンスに悪影響を与える負荷の急増なしに、リモート クラスター間でトラフィックを調整できます。

これらの機能により、NvidiaはSpectrum-XGS Ethernetが同社のライブラリでテストを達成したと主張している。 NCCL 約パフォーマンスの向上 1,9x データセンター間の一般的なイーサネットネットワークと比較して、通信速度は「ほぼ2倍」です。 マルチGPUとマルチノード 負荷が場所間で分散される場合。

測定可能なパフォーマンスとプラットフォームの指標

NCCLの急上昇に加え、プラットフォーム自体も スペクトラムXイーサネット XGSが統合された帯域幅密度は約 1,6倍高い 標準的なイーサネットソリューションと組み合わせることで、ネットワークファブリックの実現を目指します。 GPUファーム マルチテナントやハイパースケールのシナリオでも、ボトルネックが少なく大規模に実行できます。

その結果、複数のデータセンターが 一つになって運営する長距離でもより予測可能な動作を実現します。これにより、異なる地域にまたがる巨大なモデルのトレーニングから、既存のモデルを完全に作り直すことなくキャパシティを拡張することまで、あらゆることが可能になります。 電気または熱の建築 各本部の。

技術基盤: Spectrum-X スイッチと ConnectX-8 SuperNIC

Spectrum-XGS EthernetはNvidiaのネットワークプラットフォームに統合されており、 Spectrum-Xスイッチ そして ConnectX-8 スーパーNICイーサネットの選択は偶然ではありません。Nvidiaは高性能環境でInfiniBandを推進していますが、イーサネット標準は どこにでも存在する すでに導入されているインフラストラクチャへの導入を容易にします。

同時に、NVIDIAは シリコンフォトニクスによるスイッチング Spectrum-XとQuantum-Xファミリー内で、何百万もの 会場間のGPU 消費電力と運用コストを低減します。これらの部品は、Spectrum-XGSが実現する「スケールアクロス」アプローチに適合します。

ユースケースと最初の導入

新しいインフラを最初に受け入れたのは コアウィーブクラウドAI機能に特化したプロバイダーである。同社のCTOであるピーター・サランキ氏は、両社のセンターを統合することで、 統合スーパーコンピュータ これまで実現が困難だった規模で AI プロジェクトを提供できるようになります。

「データセンターをAI工場として」というモデルは、テクノロジーや通信業界が主導する大規模な取り組みに特に役立ちます。施設をAIで繋ぐというコンセプトは、 都市、国、大陸 すべてを単一のキャンパスに集中させることなく、容量を拡大しようとする計画に適合します。

分散AIワークロードとの統合

AIの訓練と推論においてボトルネックとなるのは通常、 GPU間の通信 集団運用の効率性。Spectrum-XGSはNCCLと長距離遅延の安定性を重視し、まさにその領域を改善し、同期時間を短縮し、 加速器を活用する.

このアプローチは、単一テナント クラスターと環境の両方にメリットをもたらします。 マルチテナントネットワークの予測可能性はサービスレベル確保に不可欠です。エンドツーエンドのテレメトリにより、オペレーターはネットワークの可視性を高め、診断と調整を行うことができます。 会場間のパフォーマンス もっと早く。

可用性とエコシステムへの適合

エヌビディアは、 Spectrum-XGS Ethernetが利用可能 Spectrum-Xプラットフォームの一部として提供されます。これにより、スイッチングエコシステムを既に使用している組織でも導入が容易になります。 ConnectX-8 スーパーNICパイロットテストと段階的な展開を簡素化します。

オペレータやネットワークエンジニアリングチームにとって、この移行はすべてを置き換えることではなく、 センター間の接続 AIワークロードに対応。イーサネットサポートにより使い慣れたツールやプロセスとの統合が可能になり、 学習曲線.

業界概要とホットチップスの存在

同社はこの提案をさらに深める予定である。 ホットチップスラックスケールアーキテクチャとデータセンターについて講演します。プログラムの中で、 光学部品をパッケージ化したスイッチ また、大規模なAI工場に効率性とパフォーマンスをもたらす方法にも焦点を当て、Spectrum-XGSの役割を強調しています。 会場間のスケーリング.

この賭けは、AIの成長はもはやGPUの積み重ねだけでなく、統合にも依存する傾向を裏付けている。 複数の場所 パフォーマンスを犠牲にすることなく、負荷分散、エネルギーコストの最適化、そして 計算能力 必要な場所に。

NvidiaのSpectrum-XGS Ethernetへの取り組みは、スケールアクロスを単一の建物の物理的制限を克服するための重要な要素として位置づけています。 測定可能な改善 この提案は、集合的な通信、より高い帯域幅密度、および幅広い互換性を持つイーサネット バックボーンにおいて、複数のデータ センターを単一の AI システムとして運用する道を開き、大規模 AI プロジェクトの次の波に変化をもたらす可能性のある戦略です。