「ディープラーニング学{にはウェーハ模の巨jなチップが要」
かつて、ウェーハスケールLSI(WSI)と}ばれる巨jなチップがあった。AI時代に入り、ディープラーニングの学{に1兆2000億トランジスタを集積した巨jなシリコンチップが登場した(参考@料1)。櫂好拭璽肇▲奪Cerebras社が試作したこのチップはWSE(Wafer Scale Engine)と称する21.5cm角のC積のシリコンを300mmウェーハで作した。

図1 Cerebras社が開発したウェーハスケールの巨jなシリコンチップ 下のチップはこれまでのNvidiaのGPU 出Z:Cerebras社ホームページから
このウェーハ模のチップのC積は46,225mm2と巨jで、これまで最jのGPU(グラフィックスプロセッサ)が211億トランジスタを集積した815mm2のチップC積だから、なんとその56.7倍もjきい。300mmウェーハから1しかDれないウェーハスケールのAIチップだ。
Cerebras社は、AIチップにとって今がムーアの法О屬AI演Qの要が3.5ヵ月ごとに2倍に高まる、という新法Г了代を迎えたと見ている。この巨jなAIチップは、TSMCの16nmプロセスで作られており、それでもレチクルサイズを考慮してでkつの演Q_を作ったのではなく、演Qブロックを12×7個=84個敷き詰めている。kつのブロックの中にAIコアを約4762個集積したようで、AIコア数を40万個集積したと表現している。
AI、にディープラーニングでなぜ、これほどHくの演Qコアが要なのか。ニューロン1個のモデル(パーセプトロンモデル)は、H入1出の演Q_(ステップ関数)であり、入には数恩弔離如璽燭函△修譴召譴膨_みをXけ、演Q_で演Qする。図2はアナログv路で表現したが、デジタルv路でも表現できる。つまり、ΣAi×BiというMAC(積和演Q)である。データをAiとすると、_みはBiで表現され、それらをXけQしたT果を演Q_に入する。出は1か0である。この演Q_が並`にずらりと並んでいるのがニューラルネットワークだ。
図2 ニューラルネットワークの基本的なニューロンモデル
この演Q_をH数並べ、最終的に出されたデータを次のニューロン(演Q_)に入する。猫を認識する場合には、猫かそうではないかを解のデータと比較して判するが、不解なら逆伝搬といわれるバックプロバゲーション}法を使い、出笋ら入笋北瓩蠅覆ら_みを変えていき、できるだけ猫という解にZくまで操作を繰り返す。
Qニューロンに相当するj量の演Q_は出したデータをメモリに保Tしておき、次の演Q_に入する時に読み出して積和を再度Qするため、デジタルv路としてはMACとメモリ(DRAM)をそばにき、kつのニューロンを演Qした後、演QT果をメモリに保Tし、次のニューロンへそのメモリ内容を入してまた演Qを行う。しかも並`で演Qする。このため、MACとメモリを瓦箸靴瞳eつ構成がAIチップの基本構成となる。この仕組みでは、演Qと、そのT果を次の演Q_に伝える通信経路、が_要なv路要素となる。高]メモリと演Qコアは互いにそばにき、この瓦鬟▲譽びXに並`に配する。
CerebrasのWSEには40万個のAIコアを集積しており、それらは行`成分に0がHい娣`(sparse matrix)となっているため、SLA(Sparse Linear Algebra撿形代数)コアが同社のニューラルネットワークの基礎となっている。コアは小さく、キャッシュメモリを含まず、他の関数やオーバーヘッドも含んでいない。ただし、SLAコアはプログラム可Δ任△蝓▲縫紂璽薀襯優奪肇錙璽の_みをOyに変えられる。しかも、QコアはU御処理とデータ処理の両気鮗孫圓任る。U御処理は並`演Qできる座Yとして使われ、データ処理は演Qそのものに使われる。
このチップでは娣`のXけQで、0をかける演QがHければ無Gな演Qが\えることになるため、それを省くような処理を行う。ニューラルネットワークでは、データの50~98%がゼロになることがHいが、この場合にはXけQをしない。
CerebrasのWSEは18GBのメモリと9.6PB/sのメモリバンド幅をeつ。いずれもGPUと比べて3000倍、1万倍Hいという。レイテンシは1サイクルのみで、てのモデルパラメータはオンチップにeつ。
このWSEのもうkつの長は、高]通信ファブリックである。AIチップでは、MAC演Q_の数とそのスピード、そしてフレキシビリティが性Δ鬲める。Qコアはレイヤー数と共に常に動作しており、高]のバンド幅と低レイテンシで動作させることこそ性Δ屬欧襯モとなる。このためにコアをひとwまりにしてグループにする。kつのブロックにAIコアが約4700個wめて集積しているのはそのためだ。
LSI半導では、チップ外の通信よりもチップ内の通信の気数万倍も]い。だからこそ、小さなチップ同士をJにしてまとめ、EthernetやInfiniBand、PCIeなどで通信させて性Δ魍諒櫃垢襦だから、kつの巨jなチップにした。
Cerebrasは、Swarmと}ぶ通信ファブリックを開発し、チップ屬僚j量の配線ネットワークを作り出した。40万個のAIコアはSwarm通信ファブリックで2次元メッシュXに接されており、100Pビット/秒という高]のバンド幅を実現した。NvidiaもH数の小さなGPUコアを並べ、それらをつなぐ通信配線を工夫している。CerebrasのWSEでもコア間はレイテンシとバンド幅を最適化した]い配線でつなぎ、Q演Qコアにハードウエア配線エンジンを設けているという。これによって、kつの言のメッセージでコアからコア、レイヤーからレイヤーへと通信することができる。しかもコンフィギュアラブルでプログラマブルだとしている。Swarmはハードウエアの配線エンジンをソフトウエアで再構成可Δ砲靴討り、ユーザー独Oのモデルに合うように学{に要な通信を変えることができるとしている。このT果、kつのハードウエアリンクをメッセージが通る場合のレイテンシは数ナノ秒ですむという。
これだけのWSEであれば消J電はかなり高いはずだが、Cerebrasは消J電に関しては何もコメントを出していない。ただ、昔と違って、スーパーコンピュータでは水冷でチップを冷却する}法が定しており、この巨jなチップも冷却ξの高い水冷をWするに違いない。
かつてのWSIはT局、商になりえなかった。歩里泙蠅良くならなかったためだ。しかもがメモリであり、コストを下げられなかった。今vのチップがモノになるかどうかはディープラーニングの学{要によるが、性Δケタ違いに良くなることだけは確かである。
参考@料
1. Cerebras社のホームページ