AI/ディープラーニングに求められるGPU間のP2Pダイレクト転送とH/W要件
2022.08.19
株式会社NTTPCコミュニケーションズ
このコラムのポイント
・深層学習のトレーニングで肝となるH/W要件は、CPUやメインメモリを介さない「P2Pダイレクト転送」能力
・GPUの性能だけでなく、CPU/メインメモリの性能およびCPU/メモリからGPUまでの帯域も考慮する必要がある
・Supermicro製品は、⽤途に応じて「PCI-Eの接続トポロジー」を選択でき、最良/最強のGPUシステムを構築可能
GPGPU、HPC、AIディープラーニングのトレーニングにおいては、複数のGPUデバイスメモリ間でデータを相互転送しながら演算を行うと、より効果的な性能結果を得られることが知られています。この場合、GPU間のデータ転送は、CPUやメインメモリを介さない「P2Pダイレクト転送」能力が必要です。
この要件に向けた解決策として、NVIDIA🄬は独自に広帯域(300GB/s)転送用インターコネクトとしてNVLINK™ や NVSwitch™ を開発、提供しています。
Supermicroでは1U 4GPU、4U 8GPU、10U 16GPUのNVLINK™/NVSwitch™対応製品をラインナップしおり、⽤途に応じて最強のGPUシステムをご提供できます。
GPGPUやディープラーニングのアプリケーションは、まずCPUとメインメモリ上で初期化、データの読み込みと準備が行われ、その後、アプリケーションと各APIの手順に従ってPCI-E x16 (現行ではGen.3 16GB/s) を介してGPUのデバイスメモリに演算命令とデータが転送され、GPGPUでの演算が行われます。ここで、トータル性能としてのスループット向上のためには、GPUの性能だけでなく次の2点も考慮する必要があります。
CPUとメインメモリの性能、処理能力
CPU/メインメモリからGPUまでの帯域
そして、GPGPUやディープラーニングにおけるトレーニングの演算においては、複数のGPU間でデータを相互転送しながらトレーニングを行います。各GPUが持つ専用のメモリ容量には上限があるため、それを補うことにもなります。言い換えれば、GPGPUが直接使えるメモリ空間が大きければトレーニングの演算により効果的であるということです(デバイスの物理メモリ増強については、各ベンダのアクセラレータ性能向上に期待しましょう!)。
※これより先は外部のウェブサイトに移動します
PARTNERS
これより先は、外部のウェブサイトに移動します。