Semiconductor Portal

» 寄M » 寄M(半導応)

ニューロチップ説 〜いよいよ半導の出番(4-1)

4章では、ニューロチップの代表的なものを9つ紹介している。4章の1ではCNN、4章の2ではDNN、そして4章の3では圧縮をいたチップについて、それぞれの徴や機Δ砲弔い童掬贄の瀬啓が解説している。(セミコンポータル集室)

著v:元半導理工学研|センター(STARC)/元東 瀬 啓

4章: ニューロチップ〜本戦に突入: 代表的なチップ
本章では、CNN(Q込みニューラルネットワーク)、DNN(ディープニューラルネットワーク)、さらに昨今の圧縮\術を使している、合9チップの詳細を扱う。\術的には、並`処理、リユース、コンフィギュラビリティ、学{機Α編~単に)、およびQ|の圧縮\術も含め説する。

4.1 代表的チップ(CNNチップ)〜並`処理、リユース、コンフィギュラビリティ
4.2 代表的チップ(DNNチップ)〜DRAM混載もしくは学{機
4.3 代表的チップ(圧縮\術をいたチップ)〜乜縮、量子化そしてロスレス

4.1 代表的チップ(CNNチップ)〜並`処理、リユース、コンフィギュラビリティ
本Iでは、CNNのチップ(CADのみ、またはFPGA実含み)を5チップ(nn-X/TeraDeep社、ShiDianNao/CAS、Eyeriss/MIT、IoE/KAIST、AngelEye/{華j学)を紹介する。層構成は順番にC0、CF、C0、C0、CF型であるが、Q込み層に`し説する。Q込み層は、_みへのメモリアクセスよりも、どちらかというとデータのアクセスおよびそのQに主がある。そのことからアーキテクチャのポイントは、いかに3段階以屐並召縫織ぅ觸萢、Q|層の処理等)に連なる並`処理をうまく組み屬欧蕕譴襪、_みの共~化(Weight Sharing)をどのように実△垢襪、そしてネットワークのH様性にいかに再構成(コンフィギュラビリティ)官できるかの3つである。

(1)nn-X(TeraDeep社)・・・基本構成(3D Adderが徴)
これは、2012QにAlexNetがo開されて1Q後の2013Q後半の発表である。本格的な深層 CNN(CF型)を実△垢覿\術が出始めた頃の発表である。FPGA屬CNNによる複数の画鞠Ъ吋織好を実証(参考@料83)した。図24(a)にすように基本演Qコア(Collectionと称する)が並`(TorusX)に配されている、ベーシックな構成だ。Collection内で連してフィルタ処理(2D Convolution:詳細説なし)、マックスプーリング処理(Max Pooling)、そして性化関数処理(Programmable f(x))を行う。

入の徴マップ数分のCollectionをTして、まずそれぞれで_み(先に格納する)とイメージデータを入し2次元(2D)の積和演Qを行う。そしてその中間値を、内陬襦璽拭Internal router)を介して横のCollectionに転送し、中間値同士の加Q処理を行う(3D Conv Adderと称している)。すなわち入徴マップ間の和をDる。その後、プーリング処理と性化関数処理を行い出する。Collection数は8個であるが、マップ数がHくなると、中間値を外陬瓮皀蠅乏頁爾垢要が発擇掘⊇萢の停]が発擇]度は著しく劣化する。

図24 nn-X(TeraDeep社)の要仕様 (参考@料83を参考に作成) 出Z元:STARCの調h報告書より転載

図24 nn-X(TeraDeep社)の要仕様(参考@料83を参考に作成)
出Z元:STARCの調h報告書より転載


TeraDeep社(参考@料89)は2013QPurduej学のEugenio Culurciello教bがYann LeCunを\術顧問にdき創業したベンチャー企業だ。当初よりXilinxとのTびつきが咾2015Qには投@をpけた。その後、2016Q4月に本格的に拠点をシリコンバレーに,靴拭Campbell/Santa Clara)。同時にCulurciello教bおよびj学のメンバーは}を引いた様に見える。またMicronともZく(参考@料90、91)、3社で最Z2016Q10月に1000|類のクラス官のリアルタイム検\術(TD-Accel)を発表した。MicronのAC510ボード(Micron HMC+ Xilinx-Kintex XCKU060)屬TD-Accel\術(RTL)を実△掘低消J(1/2)、リアルタイム性(4x)を実現した。ビジネスターゲットは顧客施設(オンプレミス)のW心Wとのことである。

(2)ShiDianNao(CAS:中国科学院)・・・アレイ導入、_みのリユースに徴
CASが2014QよりM的に発表しているDianNao(電N:コンピュータ)シリーズの4番`のチップだ。カメラ・携帯電B等のモバイルISP(Image Signal Processor)への組込みをターゲットとしたCNN専の高性ΑΣ鞠Ъ叡IPである。積和演Q子を機Σ修靴織屮蹈奪をPE(Processing Element)と称し、2次元のアレイXに配している。当時(2015Q)としては斬新で演Qに伴うデータ‘阿鮟j幅(60〜90%)に削できることを実証した。報告はCAD実Vまりであった。

図25(a)のシステム構成図にすようにイメージセンサから外DRAMを経yすることなく直接画気鯑Dり込む。CNNのネットモデルの構成はQ込み層、T合層ともに含むCF型である(詳細は参考@料81)。認識覦茲蓮1×32×32ピクセルとMNISTクラスで、_み(パラメータ)および中間値をオンチップの288kB SRAMで官している。


図25  ShiDianNaoの内容  (参考@料81を参考に作成)

図25  ShiDianNaoの内容 (参考@料81を参考に作成)


図25(b)にShiDianNaoのアーキテクチャのS図をした。構成はバッファ陝米:Neuron Buffer、出、_み:Synapse Buffer)およびバッファコントローラ、そしてPE (Processing Element)を単位としたアレイXの演Q陲らなる。PEは、MAC演Q(1vの積和)処理を担う。8×8=64のアレイ構成だ。さらに徴となるのは、_みのリユースを効率的に行っている点にある。入出およびカーネルの転送パスをeつと同時に、図25(b)に靴Eの矢印でした、PE間で入データをリユースするための転送パスをeっている点である。逆に_みは動かない。_みのリユースのためにデータを動かしている。

(c)にPEのv路のS図をした。入データ(Input)は積和の演Qに使われると同時に、V-FIFO(貭妓転送FIFO:的には笋PEに転送:実際にはH-FIFO「水平転送:左uのPEに転送」にも格納)に格納される。そして、次のサイクルでu(筺砲PEに転送される。このことから、入データを格納しているバッファ((b)図参照)へのアクセスが60〜90%削され(PEアレイの模に依Tするが)性Δ格段に改された。に消J電低の効果はjきく消J電は320mWと1Wを切った(詳細は参考@料81を参照)。

(3)Eyeriss(MITおよびNvidia社)・・C0型、ロスレス圧縮、データスキップ、RSデータフロー
2016Q2月のISSCCで発表のあったC型(C0型)のチップである(なお、発表後の参考@料92ではCF型を扱っている)。発表b文の冒頭で述べられているように、NIN(Network in Network)およびGoogLeNet(ResNetは当時未発表)のQ込み層_の流れを汲み、T合層はない。またロスレスのデータ圧縮\術を使しメモリアクセス量を軽している。DRAMは外けだ。さらにPEコア内陲捻Qのスキップ(データゼロスキップ)を行っている。的に確実でオーソドックスな}法(エラー率にく影xを与えない)をいている。

(ア)v路的な徴・・・4つの\術
図26にEyerissのv路的な徴をb文(参考@料48)より抽出し図式化した。構成はフィルタとイメージの内積(k`同士のみ)を実行するProcessing Element(PE)コアを並べたPE アレイ陝SRAM バッファ、そして外DRAMへのイメージデータ転送・転入時の圧縮/P張陲3つからなる。


図26 Eyerissの_要な4個の\術 (b文を参考にS図を作成:参考@料48)

図26 Eyerissの_要な4個の\術 (b文を参考にS図を作成:参考@料48)


kの長(Row Stationary):PEコアをアレイXに並べ、データ・_み・中間値の3つのデータのPEコア間の流れ(Aめ、横、)に独Oの妓性をeたせることにより、図27にすように2nd Step以Tのデータのリユースを可Δ箸靴拭またその‘意{`は最小(PE間)だ。基本的な考え機にアレイXに並べ、_みを中心にデータを主に‘阿気擦訶澄砲蓮i述したShiDianNaoの考え気妓性は同じだ。違いは以下の様に発tさせている点である。

崕劼靴燭茲Δ法▲侫ルタとイメージの内積をk行(Row)同士で行っている。ISSCC2016での発表の後でo開となったb文ではその点をEyerissの徴として喞瓦靴討い襦併温憂@料92:なお、T合型まで言及)。彼らは`w定データフロー(Row Stationary (RS) dataflow)擬阿般@している(Stationaryは、フィルタ値の流れを行妓に限定して再W可Δ箸靴討い襪箸いαT味合いらしい)。また1DConvolutionと}んでいる。ベクトルとベクトルの内積処理を1つのPEコアで行う。ShiDianNaoはPEコア内で基本演Q、すなわち数値と数値の積和しか行っていない。これを0次とすると、ShiDianNaoは0次のPEコア、Eyerissは1次Q込み処理のPEコア、nn-x(TeraDeep)は2次のコア(同`に並べるのは無理があるが)となる。余iだが、この流れから3次の処理は入徴マップ間の加Q処理(3D Adder)、4次は出徴マップ間の並`処理となる(独立処理なのでコアを並`に並べるだけでよい)。なお、この次元数はQ込み層のフィルタが4次元である点と}応している。


図27 `w定データフロー (Row Stationary Dataflow)擬 (b文を参考にS図を作成:参考@料48, 92)

図27 `w定データフロー (Row Stationary Dataflow)擬
(b文を参考にS図を作成:参考@料48, 92)


二の長 (演Qスキップ):PEへの入データがゼロの時に演Qをスキップ(消J電を45%削)させる\術だ。i段の性化関数にReLU (Rectified linear unit)を使っていれば50%度の削は予[のJ囲だ。この\術はPEアレイ陲消Jする電が図28の表にすように78%とjきいことからチップとして効果は絶jだ。なお、後述(4.3I)するDeep Compression\術の入値(ベクトル内の値)のゼロスキップと同じである。須\術だ。

の長(ランレングス圧縮):出データのランレングス圧縮(ロスレス:データ圧縮量約1/2)を導入した。中間データ、層出データを外けメモリに格納する要がある場合の\術である。層の出が次の層の入となることから、外に格納する要がない場合にはT味がない。

四の長(NoC/Multicasting):QPEコアにIDを加しNoC (Network On Chip)によってデータ転送をU御することで、基本機Δ呂發箸茲蟶胴柔性および低消J電化を実現している。3つの基本機Δ蓮併温憂@料92)、データのマルチキャスト、フィルタのマルチキャスト、そして中間値(P-sum)のPE間の転送U御だ。

五の長(リコンフィギュラビリティ):5番`の\術は彼らが最も_要と考えている再構成可Χ\術(Reconfigurability)だ。アプリケーション(ネットワークモデル)もしくはネットワークのQ層によって変わる入徴マップ数、出マップ数、フィルタの数、さらにはフィルタサイズと(最Zは1x1もしくは3x3に集約しているが)とフィルタのストライドの変化に官可Δ澄的でまとまった記述はないが、AlexNetのQ層(構成がバラエティ)に適してPEアレイのPE使率が平均88%であることからレベルは高いと見た。いくつかb文より}法のポイントをRい屬欧襪函(1)Array構成となっていることから柔軟な官が可Δ如(2)中間値をOyに扱えるようにし、(3)IDにより定のPEにI的にアクセス可Δ箸掘△気蕕(4)Multicastが柔軟にできることから効率が屬る等の細かい\術(半ばノウハウ)が再構成可ΑReconfigurability)性をГ┐討い襪反箟Rした。

考察
図28に性k覧をまとめた。AlexNetの5つのQ込み層の処理で、スループット34.7fpsを記{した。どの度のものなのか~単に試Q検証してみた。AlexNetの要演Q数は、10.8億v(1.08 Billionv:Q込み層のみ)のMAC処理(1章、表1)である。Eyerissの性Δ84GOPS(図28内の表)とすると、処理時間は、1.08x2/84=0.026秒。すなわち39fps。実R値とほぼ等しい(通常7〜8割)。GoogLeNet22の要処理v数は、15億v、ResNet34は、36.4億vであることから、エラー率5%度(ILSVRC/Imagenet)で10〜30fpsの画鞠Ъ韻できることがわかる。しかも65nmプロセスと数世代iの\術で0.3W度が達成されたとみなせる。

なお、Eyerissではデータの圧縮(可逆圧縮)は行っているが、4.3Iで詳細説するデータ及び_みの圧縮\術(言わば可逆圧縮)、例えばPruning(枝そぎもしくは剪定:後述)\術を使していない(このPruning\術のスタンフォードj学の発表は2015Q中盤である)。理yは以下と推Rする。まず~のv路を入れるペナルティ(ソフトで官する}もあるが効果は小さいと言われている)、およびT合層ほどの効果がない点である(もちろん無できない効果だが)。仮に入れれば100mWを切ったかと推定する。なお、Eyerissでは16ビットw定小数点をいている。


図28 Eyerissの要仕様 (参考@料48を参考にまとめた)

図28 Eyerissの要仕様 (参考@料48を参考にまとめた)


(4)IoE(KAIST)・・・カーネル圧縮、低消J電(45mA)
2016QISSCCで発表されたチップである。256個のMAC演Q子を~して、125MHz動作であることから256MAC×125MHz×2(1MAC=2Ope) = 64GPOSとなり、チップの消J電が45mWである。また1.42TOPS/Wのエネルギー効率を達成した。Eyerissとチップサイズ、ゲートサイズ、周S数等が瑤討い襦パワーがEyerissの278mWに瓦靴IoEが45mWと1/5度である。入の条P等不な点もあり比較がMしいが、jきく違っているのはIoE独Oのカーネル(フィルタ)の圧縮法を採していること。フィルタの量が8%、1/12に軽され、負荷転送量がそれ相当に軽される。この\術によりかなりその差が出ると推Rする。ただしては説できない。処理ξは64GOPSでこれもEyerissと同等である。64GOPSの処理]度だと3×224×224ピクセルの画鞠Ъ噂萢を数fpsの]度で行える。図29にIoEの4つの\術的な徴をまとめた。2番`と4番`の徴に関し、以下に説を加えた。

2番`の長:Dual-range MAC (DRMAC) v路(詳細v路構成は参考@料71)
24ビットを基本のビット数としている。24ビット(16、8)w定小数点の出現比率が0.01%と小さく、また99%が16ビット(8、8)で科であることから下位16ビットのみを使し、岼8ビットはマスキングし積和(MAC)処理をしている。MAC演Qによりキャリーオーバーが発擇靴榛櫃砲鰐瓩辰24ビットで再Qを行う。入データ、_みの両気謀している。この\術でパワーはブロック当たり44%削される。効果はjきい。詳細が不な点はあるが、1%の量のjきな値を小さな値に丸め込んでいることにより@度が落ちるという関連報告(参考@料45)があった。すなわち頻度に合わせて量子化(クラスタリング)を行うと、Max値が無され@度に影xが出ることと類瑤靴討い襪反箟Rする。

4番`の長:カーネルデータの圧縮(DRMACv路を):
図29(b)にした様に、iにPCA(主成分分析)によりオリジナル(実際の)カーネルを基本的なカーネル(k1, k2・・・)に_みをけて分解し軽量化し(カーネルOのクラスタリング)、実行演Q時には少ないデータを外陬瓮皀蠅茲蠹樵してオリジナルカーネルの收を行う。その收も図29(b)にすようにMAC処理なのでDRMACv路をできる。圧縮効果は12xで@度のロスは0.68%だ。気になる点もある。昨今カーネルサイズが小型化し3x3が主流なのでネットモデルによっては効果が小さい場合もあると推Rする。とはいえカーネルの単位である_み(ビット数)での圧縮(量子化:4.3Iにて説)よりカーネルでの分類(圧縮)であることからより高次の圧縮\術とも見なせる。Eyerissがオーソドックで完成度が高いのに瓦靴董IoEはDRMACv路のも加えてにスマートな印をうける。

圧縮率が12xでロスが0.68%(他の\術よりjきいが)で消J電が45mWという点は、際だってよい印をpける。ただし@度よく判するためには情報がBりない。ネットワークの詳細模が不だ。またi述した45mWに関してどこで電を消Jしているのかも瑤蠅燭づ世澄IoEと称していることからミッドクラス(サイズと@度)と[気垢襦カーネルデータの圧縮をk層極めて欲しい。


図29 IoE (KAIST)の\術の徴とチップの要仕様 (参考@料71を参考にまとめた)

図29 IoE (KAIST)の\術の徴とチップの要仕様 (参考@料71を参考にまとめた)


(5)AngelEye ({華j学)・・・CF型、Y型、FPGA実


図30 AngelEyeの構成と要@料 (参考@料56を参考にまとめた)

図30 AngelEyeの構成と要@料 (参考@料56を参考にまとめた)


CNNのチップとして最後に{華j学のAngelEyeのv路構成と仕様を図30にした。iI3.3で説したようにAngelEyeに関して、CF型のCNNをFPGAに搭載、そのパワーは、9.63Wとjきい。筆vらもコメントしているように後段のT合層霾のDRAMアクセスがパワーのjきくなった要因だ。なお、T果を的に報告していないが8/4ビット(ivがQ込み層、後vがT合層)への量子化をネットの層毎(ダイナミック)に行う\術を報告している。


集R)瀬の現在の肩書は、LOj学 j学院情報科学研|科 学術研|^である。

ごT見・ご感[
麼嫋岌幃学庁医 菜繁寄海虚寄媾嶄忽繁曇 | 槻溺揖寛訪訪篇撞窒継| 天胆利嫋壓濆杰| 天胆來髄戟諾來値住| 晩云篇撞www弼| 挫虚弼喟消窒継篇撞寄畠| 鴻廉胆溺匯雫谷頭| 忽恢娼瞳窒継消消消消唹垪| 忽恢窒継鉱心利嫋| 冉巖娼瞳岱鷹消消消消消築孟夕頭 | 冉巖va岱鷹匯曝屈曝眉曝| 嶄猟忖鳥仔弼頭| 800av壓濂シ| 量賂峭剽卵凩侯謁析川遊| 天胆弼夕冉巖爺銘| 晩竃邦阻蒙艶仔議篇撞| 忽恢景析貧篇撞| 膨拶喟消壓濔瞳篇撞窒継鉱心| 冉巖娼瞳撹繁av壓| 消消消娼瞳消消消消蒙弼唹篇| 窒継仔弼罷周壓濆杰| 冉巖忽恢娼瞳曝| 嶄猟忖鳥匯曝屈曝眉謄| 嶄猟涙鷹忖鳥嶄猟嗤鷹忖鳥| 匯雫頭嶄猟忖鳥| 99壓瀰(啼| 篇撞aavvmm忽恢勸翌| 爺爺唹篇弼穩忝栽窒継| 娼瞳忽恢晩昆匯曝眉曝| 天巖母絃弼xxxx天胆析絃謹谷| 斤易壜三扉醍間三篇撞| 忽恢怜匚篇撞互賠| 冉巖撹a▲繁頭| www冉巖娼瞳| 築洋av涙鷹繁曇娼瞳| 天胆墅住videosfree菜| 溺繁嫖蝕揚斑槻繁涌篇撞| 忽恢溺繁互咳篇撞壓濆杰| 冉巖天巖徭田田裕怜匚弼涙鷹| 眉屯旨尖徨壓濂シ| 互賠篤翌溺竃僮篇撞|