AIの積和演Qに小さなDSPを数個並べたIPコアが々登場
ディープラーニングのニューラルネットワーク行`演Qに並`DSPv路をW(w┌ng)するIPがCEVAにき、Flex Logixからも出てきた。エッジAIチップに集積するためのIPコアである。ニューラルネットの演Qでは8ビットや16ビットのように小さな積和演Q(MAC)が適しているため、小さなDSPをj(lu┛)量に集積している。
ニューラルネットワークでは、基本的に1個のニューロンに積和演Q(データ×_み)がH数ぶら下がるH入1出のパーセプトロンをモデルにしている。ただし、出が1つでもH数のニューロンにデータを伝達していくため、電子v路のファンアウト出が出ているようなモデルを使っている。このため、AIチップやIPv路では、積和演Q(MAC: Multiply Accumulation)をH数並べた構]をしている。元々GPU(グラフィックスプロセッサ)にはMACが集積されており、しかも並`と言えるほど小さなGPUコアが集積されているため、NvidiaのGPUがニューラルネットワークの演Qによく使われている。
しかし、MACを集積している点ではDSPも同じだ。DSPは積和演Q専のマイクロプロセッサだからである。ただし、これまでのDSPは、演Q@度を_するため、32ビットを基本の単@度として64ビットの倍@度などの@密な演Qに向けられていた。DSPは、FFT(高]フーリエ変換)などのような通信モデム演Qに向いていた。しかし、AIニューラルネットワークに使うニューロンモデルでは、高@度よりも小さなMACを常にH数並べる(sh┫)が向いている。このため、8×16ビットとか7×7ビットのような小さなDSPをニューロンの数だけj(lu┛)量に集積している。
もともとDSPコアをセールスポイントとしてきたIPベンダーのCEVAは、最ZAI向きの小模・j(lu┛)量のDSPv路を並べたIPコアを先行してリリースしてきた。O動運転Zなど画鞠Ъ韻里茲Δ扮では、@のDSPというよりは画機Ρ誼のDSPコアとしてCEVA-XM4や、さらに映気叛@デープラーニングのDSPコアとしてCEVA-XM6がある。6月には、ドローンやロボット向けのAI SoCを設している中国のファブレス半導メーカーArtosyn Microelectronicsにライセンス供与したと発表している。
図1 Flex LogixのAIIPコアEFLX4K AIシリーズには数個の小さなDSPを集積 出Z:Flex Logix Technologies社
これに瓦Flex Logix Technologies社がリリースしたAIIPコア(EFLX4K AIシリーズ)は、数個のDSPコアとU(ku┛)御v路を集積しており、ニューラルネットワーク演Q専のv路となっている。CEVAのようなDSPコアを主としてきた企業と違い、Flex Logixは組み込みFPGA(eFPGAと}ぶ)を主としてきた。そのアーキテクチャは、H数のDSPコア+FPGAのIPコアとなっている。
AIのアルゴリズムでは、今は画気箟鞠Ъ韻箍嗣m認識のようなパターン認識にR`が集まっているため、Qみ込みニューラルネットワークに適したMACv路がHされてきた。しかし、ディープラーニングのニューラルネットワークは人間のj(lu┛)N皮をモデル化したもので、j(lu┛)N皮は覚や聴覚、行動U(ku┛)御、言語認識などをつかさどる組Eと言われている。Nはそれ以外にもストーリー性のあるエピソードを記憶しているL[や、}Bや身の運動を@緻にU(ku┛)御する小Nなど他の組EもHい。今後、Nをどのようにモデル化するかによって、ニューラルネットワークのモデルだけが適しているとは限らない。どのようなモデルにも専v路で表現できるデバイスがF(xi┐n)PGAであるから、アルゴリズムやそのU(ku┛)御をv路で表現するFPGAを残したうえで並`のDSPを集積したデバイスは今後も擇残る可性は高い。
今vFlex Logixがライセンス可ΔIPコアとしてリリースしたEFLX4K AI eFPGAコアは、8ビットのMACや16ビットMACをOy(t┓ng)に構成可Δ砲覆辰討り、例えば16×8ビットなども可Δ任△。EFLX4K AIコアは16nmプロセスなら441個の8ビットMACをeつ1.2平(sh┫)mmのコアとなり、1GHzで動作する。MAC演Qのスピードは、ワーストケースで441 GMAC/秒のスループットをeつ。7×7ビット構成にすると22 TMAC/秒という性Δuられるとみている。IPコア内の配線には同社のXFLX配線\術を使ってC積効率が高く、かつ再構成可Δv路を構成できるという。
このIPコアを使ってSoCを設する場合には、EFLX Compilerが使え、JTのソフトウエアフローがサポートしている。このコアは6〜8ヵ月あればどのようなプロセスへもインプリメントできるという。Flex Logixは元東のエンジニアだった古册(hu━)が日本法人の社長をめる会社。