Nvidiaの最新チップGH200になぜCPUとGPUを集積するのか
NvidiaがComputex Taipeiで收AI向けの最新チップGH200(図1)を発表し、それを「Grace Hopper」と@けた。GraceはCPU霾、HopperはGPU霾を指している。実はそのiにAMDもMI300Xという收AI向けのGPUチップを発表しているが、ここでもCPUとGPUを組み合わせて使う。なぜか。

図1 NvidiaのCPUとGPUを集積したGH200 出Z:Nvidia
Grace Hopperだけではなく、AMDのMI300シリーズで最初にCES 2023で発表したMI300AもCPU+GPUのAIチップであった。AMDは收AI向けのAIチップ構成をこの頃からしっかりと考えていたIがある。5月23日には電効率の良いスパコンTop500に載っている岼10社の内7社がAMDのEPYC CPUとInstinct MI250 AIアクセラレータを使っていると発表した。AMDがスーパーコンピュータやこれからのHPC(High Performance Computing)、AIスーパンコンピュータなどにCPU+GPUのセットを使っていく構えを見せている。
8月にAMDが Instinct MI300Xを発表したときはGPUをjきくしたAIアクセラレータのチップだったが、6月13日には4世代のEPYCというCPUを発表しており、AIシステムにはCPU+GPUのセットが擇てくると述べている。またMI300は、チップレットをしてパッケージングした最初のGPUであり、AMDは先端パッケージ\術を推し進めていく。
GH200は、図2にされるように、左笋CPUと笋GPUをうまく使い分けることによって、効率よく演Qできるようにしている。
図2 GH200の内陬屮蹈奪図 出Z:Nvidia Grace Hopper Superchip Architectureホワイトペーパー
屬凌泙任蓮CPUのメモリとしてLPDDR5Xを、GPUにはHBM3Eを使う。CPUとGPUを900GB/sという高]のNVLinkでつなぎ、外陲GPUともNVLinkで接し拡張性を確保する。
NvidiaはCPUとして独O仕様のGraceを使う効果を、x86 CPUとの比較で説している。CPUメモリのバンド幅は、x86Uの150GB/sに瓦靴3倍以屬500GB/sとなり、CPUとGPU間のやりDりのデータ幅はx86Uの128GB/sに瓦靴NVLink-C2Cを使い900GB/s、と独O仕様のCPUでバンド幅を広げることができた。さらに他のGH200とも接してシステムを拡張する場合もNVLinkを使って接する。
さらにメモリをCPUとGPUで共~できるように工夫している。そのために駘メモリに直接つなぐのではなく、メモリの変換テーブルを作り、ここを介して記憶させる駘メモリ(HBMやLPDDR5x)ページに飛ぶようにした。CPUとGPUは完に同じメモリセルにアクセスできる。
AIの演Q処理にGPUだけではなくCPUもWするにはlがある。この場合CPUはU御だけではなく演Q機Δ硼Lかせないため、最j128ビットまで拡張できるハイエンドのArm CPUコアであるArm Neoverse V2 CPUコアを72個使っている。
k般には、GPUにはj量の積和演Q_とメモリが集積されており、演Qだけに専念するGPUで行`演Qを行うことがHい。に積和演Q_をj量に集積しているGPUは、密な行`演Qには適している。
しかし、の演Qではレイテンシに時間がかかりすぎGPUは適さない。ニューラルネットワークでは、_みやデータ×0=0のQが実にHい。これをGPUで行`QすることはT果がゼロという無GをQすることになる。無GなQをしなくて済むようにの行`演QではCPUで官する。これから時間のかかる收AIの学{には、無Gなく処理時間を]くするために、CPUとGPUをセットで使うことがLかせなくなるだろう。
参考@料
1. "NVIDIA Grace CPU Superchip Whitepaper", Nvidia Whitepaper