Semiconductor Portal

» セミコンポータルによる分析 » \術分析 » \術分析(半導)

「ディープラーニング学{にはウェーハ模の巨jなチップが要」

かつて、ウェーハスケールLSI(WSI)と}ばれる巨jなチップがあった。AI時代に入り、ディープラーニングの学{に1兆2000億トランジスタを集積した巨jなシリコンチップが登場した(参考@料1)。櫂好拭璽肇▲奪Cerebras社が試作したこのチップはWSE(Wafer Scale Engine)と称する21.5cm角のC積のシリコンを300mmウェーハで作した。

図1 Cerebras社が開発したウェーハスケールの巨jなシリコンチップ 下のチップはこれまでのNvidiaのGPU 出Z:Cerebras社ホームページから

図1 Cerebras社が開発したウェーハスケールの巨jなシリコンチップ 下のチップはこれまでのNvidiaのGPU 出Z:Cerebras社ホームページから


このウェーハ模のチップのC積は46,225mm2と巨jで、これまで最jのGPU(グラフィックスプロセッサ)が211億トランジスタを集積した815mm2のチップC積だから、なんとその56.7倍もjきい。300mmウェーハから1しかDれないウェーハスケールのAIチップだ。

Cerebras社は、AIチップにとって今がムーアの法О屬AI演Qの要が3.5ヵ月ごとに2倍に高まる、という新法Г了代を迎えたと見ている。この巨jなAIチップは、TSMCの16nmプロセスで作られており、それでもレチクルサイズを考慮してでkつの演Q_を作ったのではなく、演Qブロックを12×7個=84個敷き詰めている。kつのブロックの中にAIコアを約4762個集積したようで、AIコア数を40万個集積したと表現している。

AI、にディープラーニングでなぜ、これほどHくの演Qコアが要なのか。ニューロン1個のモデル(パーセプトロンモデル)は、H入1出の演Q_(ステップ関数)であり、入には数恩弔離如璽燭函△修譴召譴膨_みをXけ、演Q_で演Qする。図2はアナログv路で表現したが、デジタルv路でも表現できる。つまり、ΣAi×BiというMAC(積和演Q)である。データをAiとすると、_みはBiで表現され、それらをXけQしたT果を演Q_に入する。出は1か0である。この演Q_が並`にずらりと並んでいるのがニューラルネットワークだ。


図2 ニューラルネットワークの基本的なニューロンモデル

図2 ニューラルネットワークの基本的なニューロンモデル


この演Q_をH数並べ、最終的に出されたデータを次のニューロン(演Q_)に入する。猫を認識する場合には、猫かそうではないかを解のデータと比較して判するが、不解なら逆伝搬といわれるバックプロバゲーション}法を使い、出笋ら入笋北瓩蠅覆ら_みを変えていき、できるだけ猫という解にZくまで操作を繰り返す。

Qニューロンに相当するj量の演Q_は出したデータをメモリに保Tしておき、次の演Q_に入する時に読み出して積和を再度Qするため、デジタルv路としてはMACとメモリ(DRAM)をそばにき、kつのニューロンを演Qした後、演QT果をメモリに保Tし、次のニューロンへそのメモリ内容を入してまた演Qを行う。しかも並`で演Qする。このため、MACとメモリを瓦箸靴瞳eつ構成がAIチップの基本構成となる。この仕組みでは、演Qと、そのT果を次の演Q_に伝える通信経路、が_要なv路要素となる。高]メモリと演Qコアは互いにそばにき、この瓦鬟▲譽びXに並`に配する。

CerebrasのWSEには40万個のAIコアを集積しており、それらは行`成分に0がHい娣`(sparse matrix)となっているため、SLA(Sparse Linear Algebra撿形代数)コアが同社のニューラルネットワークの基礎となっている。コアは小さく、キャッシュメモリを含まず、他の関数やオーバーヘッドも含んでいない。ただし、SLAコアはプログラム可Δ任△蝓▲縫紂璽薀襯優奪肇錙璽の_みをOyに変えられる。しかも、QコアはU御処理とデータ処理の両気鮗孫圓任る。U御処理は並`演Qできる座Yとして使われ、データ処理は演Qそのものに使われる。

このチップでは娣`のXけQで、0をかける演QがHければ無Gな演Qが\えることになるため、それを省くような処理を行う。ニューラルネットワークでは、データの50~98%がゼロになることがHいが、この場合にはXけQをしない。

CerebrasのWSEは18GBのメモリと9.6PB/sのメモリバンド幅をeつ。いずれもGPUと比べて3000倍、1万倍Hいという。レイテンシは1サイクルのみで、てのモデルパラメータはオンチップにeつ。

このWSEのもうkつの長は、高]通信ファブリックである。AIチップでは、MAC演Q_の数とそのスピード、そしてフレキシビリティが性Δ鬲める。Qコアはレイヤー数と共に常に動作しており、高]のバンド幅と低レイテンシで動作させることこそ性Δ屬欧襯モとなる。このためにコアをひとwまりにしてグループにする。kつのブロックにAIコアが約4700個wめて集積しているのはそのためだ。

LSI半導では、チップ外の通信よりもチップ内の通信の気数万倍も]い。だからこそ、小さなチップ同士をJにしてまとめ、EthernetやInfiniBand、PCIeなどで通信させて性Δ魍諒櫃垢襦だから、kつの巨jなチップにした。

Cerebrasは、Swarmと}ぶ通信ファブリックを開発し、チップ屬僚j量の配線ネットワークを作り出した。40万個のAIコアはSwarm通信ファブリックで2次元メッシュXに接されており、100Pビット/秒という高]のバンド幅を実現した。NvidiaもH数の小さなGPUコアを並べ、それらをつなぐ通信配線を工夫している。CerebrasのWSEでもコア間はレイテンシとバンド幅を最適化した]い配線でつなぎ、Q演Qコアにハードウエア配線エンジンを設けているという。これによって、kつの言のメッセージでコアからコア、レイヤーからレイヤーへと通信することができる。しかもコンフィギュアラブルでプログラマブルだとしている。Swarmはハードウエアの配線エンジンをソフトウエアで再構成可Δ砲靴討り、ユーザー独Oのモデルに合うように学{に要な通信を変えることができるとしている。このT果、kつのハードウエアリンクをメッセージが通る場合のレイテンシは数ナノ秒ですむという。

これだけのWSEであれば消J電はかなり高いはずだが、Cerebrasは消J電に関しては何もコメントを出していない。ただ、昔と違って、スーパーコンピュータでは水冷でチップを冷却する}法が定しており、この巨jなチップも冷却ξの高い水冷をWするに違いない。

かつてのWSIはT局、商になりえなかった。歩里泙蠅良くならなかったためだ。しかもがメモリであり、コストを下げられなかった。今vのチップがモノになるかどうかはディープラーニングの学{要によるが、性Δケタ違いに良くなることだけは確かである。


参考@料
1. Cerebras社のホームページ

(2019/08/27)
ごT見・ご感[
麼嫋岌幃学庁医 冉巖狼双嶄猟忖鳥| 易習篇撞壓濆杰| 蒙雫恂a觴頭谷頭窒継心涙鷹| 恷除嶄猟忖鳥窒継mv篇撞7| 來湖胆溺篇撞壓濆杰潅盞兢瞳| 天胆怜匚弌篇撞| 恷除窒継鉱心互賠昆忽晩云寄畠| 唹篇枠傑AV彿坿玻玻 | 忽恢返字壓潸羨テ涙鷹鉱心| 冉巖娼瞳涙鷹音触壓濂シ| 消消冉巖娼瞳嶄猟忖鳥| 眉雫尖胎嶄猟忖鳥壓濂シ| japanese嶄猟忖鳥| 538壓瀛啼| 91壓|天胆| 弼篇撞忝栽涙鷹匯曝屈曝眉曝| 娼瞳忽裕徭恢壓| 襖謹勸潤丗99| 天胆匯天胆匯曝屈眉曝來| 天巖mv晩昆mv忽恢| 晩昆窮唹窒継壓濆杰翰嫋| 晩云円耶円寵円恂円握島邦| 涙鷹娼瞳忽恢匯曝屈曝眉曝窒継 | 課課唹垪忽恢及匯匈| 襖謹勸潤丗握握| 撹定溺繁弼谷頭| 忽恢撹繁娼瞳涙鷹窒継心| 冉巖忝栽夕頭利| 嶄猟篇撞壓濆杰| 忽恢弌篇撞91| 天胆互賠來弼伏試頭窒継鉱心| 撹繁恷仟怜匚窒継篇撞| 忽恢絃溺鐸遊互賠20p謹| 冉巖晩昆忽恢天胆匯曝屈曝眉曝| 匯云匯祇娼瞳天胆嶄猟忖鳥| 楳課楳壓瀛啼| 天胆匯曝屈曝眉曝娼瞳唹篇| 忽坪娼瞳曝匯曝屈曝眉| 窒継仔弼利峽利嫋| 嶄猟忖鳥壓濆杰寛賛篇撞| 消消娼瞳析望字|