性Δ罰板ダの高いMIMDアーキテクチャのAIチップでM負するGraphcore
AIプロセッサチップからAIコンピュータシステム(図1)まで}XけるGraphcoreが2021Qに入り日本でも動にを入れている。機械学{に適した並`処理のMIMDアーキテクチャを使い、AI性Δ極めて高いのが長だ。すでにf国通信オペレータのKTでネットワーク効率を屬押Microsoft Azureクラウド屬任琉綢画喫類認識で最新GPUよりも12倍も高]という実績を見せている。

図1 IPUを4個搭載したAIボード「IPU-GC200、M2000」 この1のボードの性Δ1P(ペタ)FLOPS 出Z:Graphcore Corp.
英国のハイテク莂涙kつ、ブリストルに本社をeつGraphcoreは、世cQ地にセールスオフィスをき、開発したAIマシンの普及に努めている。2016Qに設立されたばかりのこのスタートアップは7.1億ドルの@金調達に成功しているが、企業価値は27.7億ドルに及ぶと見積もられている。
HくのVC(Venture Capital)やGoogle、OpenAI、DeepMindなど企業投@会社がここまでX心に投@するのは、Graphcoreのテクノロジーに惚れ込んだからであろう。通信分野では、ネットワーク性Δ虜播化にAIを使うことがよく行われているが、ネットワークのX変化から性Ε僖拭璽鵑鯤析してこれから先の性Δ鰺襲Rする。通信トラフィックが集中しそうになればiに察瑤靴鴇祿欧鴃Tしておくことができる。現在、最先端でかつ普及しているNvidiaのGPU(V100)と常に比較しているが、ネットワークの分析では]いレイテンシで約260倍]い。また、MicrosoftのAI\術を使っての医画気硫鮴呂GPUと比較した場合も12倍]かった。
このAIチップ「IPU(Intelligent Processing Unit)」は拡張性が高く、IPUを4個搭載した図1のボード(1PFLOPSのIPU-M2000)を4_ねるIPU-POD16は、1ボードの4倍の4PFLOPS性Δ鯣ァし、さらにそれを4個_ねるとさらに4倍の16PFLOPSの性Δ魴eつラックIPU-POD64となる。これを4接するとさらに4倍の64P(ペタ)FLOPSとなる(図2)。
図2 IPUを拡張接しても性Δく落ちない 出Z:Graphcore
このAIチップの最jの長は、これまでのマルチコアアーキテクチャでは実現できなかったMIMD(Multiple Instructions Multiple Data)を使っていることだ。GPUやCPUなどのこれまでのシステムではSIMD(Single Instruction Multiple Data)アーキテクチャをベースにしており、命令セットが複雑なのでMIMD擬阿鬚箸襪海箸Mしかった。
IPUプロセッサは、人間のNに出来るだけZいプロセッサとして、並`のMIMDアーキテクチャを採した。人間は同時に複数のことを考えるからだという。そこで、プロセッサの機Δ魑ヽ3{のプロセスだけに、命令を演Q、同期、データ交換のつに絞ることで、MIMDを使えるようにした。
またここでは神経の伝搬を考えて高]メモリとなるSRAMを採した。それもチップあたりのインプロセッサメモリは900MBも搭載している。図3のようにメモリの中にプロセッサのコアがgりばめられた構]をしている。IPUには独立したコアが1472個集積しており、8832個のプログラムスレッドがそれぞれ独立に動く。TSMCの7nmプロセスで]し、チップC積は823mm2。IPUチップの消J電は150Wで、ヒートシンクを設けているが、冷却は空冷擬亜
図3 インプロセッサメモリ(SRAM)を900MB集積し、1472コアを集積したIPUチップ 出Z:Graphcore
分gメモリをWしたMIMD並`演Qでは、BSP(バルク同期並`)ソフトウエアを使って、図4のように演Qする。つまり、IPU内では演Qし、同期をとるとデータのれや進み差腓バラバラだが、データを交換し、さらに演Qを進める。次にもうkつのIPUとも同期をとり、データ交換・演Qを行う。
図4 演Q・同期・データ交換の3つの命令で並`を実現 IPU同士も同期をとる 出Z:Graphcore
このような擬阿捻Q、同期、データ交換を繰り返していくと、さらにIPUを{加してもどこかでず同期をとってデータ処理していくため、IPUを{加しても性Δ詫遒舛覆ぁこれが図2でした、IPUを搭載したボードをj量に並`拡張できる理yだ。
IPU-M2000ボードの消J電は900〜1100W(Y)とjきいため、はデータセンターやクラウド向けになる。ボード1で4個のIPUチップをU御するSoCはArmのCortex-AコアとFPGAからなる。ゲートウエイはIPU同士を接するために使う。またボードにはSSDやDRAMメモリも搭載しており、IPUチップは150W/チップだが、では1kWi後になる。
Graphcoreの咾澆魯船奪廚肇蓮璽疋Ε┘△粒板ダだけではない。ソフトウエア開発キットもTしており、PytorchやTensorFlow、Onnxなど機械学{フレームワークにも官し、GPUライブラリのCUDAに相当するようなソフトウエアスタック「Poplar-SDK」を△┐討い襦
[定顧客はデータセンターをeつ、金融、HPC、ヘルスケア、確率統処理などの業cになる。jきなAIモデルにも官できることがIPUシステムの咾澆噺世┐修Δ澄