エッジAIの性Δ氾杜効率を共に屬欧CadenceのAIコア
Cadenceは、ディープラーニング向けにニューラルネットワーク演Qを行うIPコアにおいて、効率よくデータや_みを間引くことで、来と同じ4000個のMAC演Qユニットで比べると、性Δ郎能j4.7倍。電効率は2.3倍というAIコアを開発した。2018Qには定顧客向けに攵が始まる。Publitek主のメディアイベントでらかにした。
Cadenceは、DSPコアで定hのあったTensilicaを2013Q4月にA収、以来TensilicaのIPをポートフォリオに加えた。ディープラーニングに使うニューラルネットワークは、ニューロンのデータと_みをXけQしBし合わせる積和演Q(MAC: Multiply Accumulate)を基本とする。効率よくMAC演Qを行い、しかも、Qみ込み演Qとプーリング演Qでは間引くことを基本とする。いかに電効率を屬欧襪に点が絞られている。学{演Qで定hのあるNvidiaのチップの消J電は200Wなどとjきい。このためクラウドベースでの学{には向くが、端のようなエッジではまだpけ入れられない。
そこで、エッジでのAIでは、推bをベースにするディープラーニング演Qが主にわれている。TensilicaがuTとしているDSPは、MAC演Q専のマイクロプロセッサである。ただしこれまでのDSPは32ビット演Qを基本としており、64ビットの倍@度にも官するなど、高@度化を充実させてきたため、ディープラーニングには向かなかった。そこでデータも_みもビット数を下げ、無Gな演Qをせずに消J電を下げるAI向けのDSPコアが出している(参考@料1)。
図1 Cadence社Tensilica IP靆マネジメント担当シニアディレクタのLazaar Louis
今v、Cadenceが開発した、Tensilica DNA 100プロセッサIPは、4000個のMACを並べたIPコアで、8ビット演Qを基本にしたと、同社Tensilica IP靆マネジメント担当シニアディレクタのLazaar Louis(図1)は語っている。DNAはDeep Neural Network AcceleratorのSである。
加えて、DNA 100プロセッサでは、スケーラブルな間引きQエンジン(Sparse Compute Engine)により、DNN(ディープニューラルネットワーク)で間引く演QをWして、ゼロの乗Qのような不要なタスクを排除した。このT果、電効率を屬押演Q量を削できた。ニューラルネットワークの再学{によってネットワークの間引き演Qを\やすことにより、DNA 100プロセッサの間引きQエンジンで性Δ鮑能j限に屬欧襪海箸できた。これにより、ResNet 50において4K MAC構成でおよそ最j2,550fps (フレームレート)、最j3.4TMAC/W (16 nmプロセス) という推b性Δ実証でき、DNA 100プロセッサは小さいアレイサイズでスループットを最jにすることが可Δ箸覆辰拭
図2 Qみ込みニューラルネットワークの作業をkつのプロセッサIPでこなす 出Z:Cadence
このDNA 100プロセッサIPは、Qみ込み演Qも、プーリング演Qも、分類分けもこのプロセッサをループのように使うことで(図2)、無Gのない演Qをすることができるようになった。データと_み演QのT果をRAMに高]にQめたり出したりするための128ビットあるいは256ビットバスを通してHBM2メモリをつなぐことができる。また、DNA 100プロセッサは、拡張性があるため、共通バスNoCを通して並`に接することができ、さらに性Δ魍板イ垢襪海箸睛動廚砲覆襦
実際には駘的に4K個のMACを並べ、_みを35%間引き、データを60%間引くことで性Δ2.3倍に屬欧襪海箸できるとしている。16nmプロセスを使った来のDNNプロセッサが1.5テラMACs/Wであるのに瓦靴董3.4テラMACs/Wがuられている。
今vはCaffeフレームワークを使ったが、今後はTensorFlowやCaffe2などもサポートしていく画で、今vの8ビット・16ビットの量子化に瓦靴董4ビットやバイナリなども検討していくとしている。
参考@料
1. AIの積和演Qに小さなDSPを数個並べたIPコアが々登場 (2018/07/06)