国产午夜亚洲精品久久999,亚洲欧美日韩一级特黄在线,激情国产视频

ニューロチップ�?y│n)癲　舛い茲い菷焼��の出�?3-1)

2017年1月18日｜寄�M（半導��応�）

��3章以�Tは、ニューラルアーキテクチャを半導��チップ�屬納存修靴�、ニューロチップについて、元STARC/東�に在籍し、現在��L�O�j(lu┛)学に��垢觴�瀬啓��鮴發垢�。これからのAI（人工��Α砲鮑絞眠修垢訃}段の�kつが半導��チップであることから、今後きわめて�_要な解説�b文となる可��④�△襦�燭�、この寄�Mは長いため分割・掲載する��淵札潺灰鵐檗璽織誑�集室）

著�v：　元半導��理工学研�|センター（STARC）/元東�　�瀬　啓 (�集�R)

当初は��3章でチップの�v路�\術、アーキテクチャを解説する予定だったが、チップの動向が�j(lu┛)きく変化してきたため、内容を�{加し��垣④鮃發瓩�。このため��5章までの章立てとした。��3章から��5章に渡り、「ニューロチップ～本戦に突入」と�して、ニューロチップの現�Xと、��例、そして最後に動向と今後に関して報告する。

��3章では、「基本�v路構成とニューロチップの�景」と�して、2016�Q�i半で量的にも�\術的にも��靴�儔修靴織縫紂璽蹈船奪廖瞥霎鏥ぬ�世�砲林X況を�T識しながら説��垢�。最初の3.1�I、3.2�Iで動向および基本的な�v路構成（積和エンジン）を説��靴晋紊�、3.3�Iでここ1～2�Qの間に発表された幾つかのチップを�い��を�S瞰する。

��4章では「代表的なチップ」と�して、4.1�Iから4.3�Iに�Xけて��を3つのカテゴリーに分けて�Qチップの詳細を説��垢�。最初に説��垢�2つのカテゴリーは、�Q込み層（CONV層）に�_きを�いたチップ（CNN：Convolutional Neural Networkチップ）のカテゴリーと、��T合層（FC層：Fully Connected）に�_きを�きさらに学�{機�Δ鯑�鼎靴織船奪廖�DNNチップ：DNNの�}称に関しては後述するが本寄�Mでは「��C(j┤)NN」と狭�Iの�T味で使�）のカテゴリーである。3つ�`のカテゴリーは圧縮�\術を搭載したチップ（�i2つのカテゴリーと�_複して説��垢襯船奪廚△蝓砲離�謄乾蝓爾任△�。

最後の��5章「動向と今後」では、5.1�IではニューロモルフィックチップであるIBMのTrueNorthに関して説��鮃圓Α�燭世�、本寄�MではTrueNorthの構成・動作を�?y│n)發垢襪�、ニューロモルフィックチップとして期待される人間の�Nにより�Zい科学的な��Cよりも、現在のディープラーニングのもたらす、ある�T味単純な性�Δ��Cより比較説��鮃圓�。��に、2016�Qにかけデ��璽廛蕁璽縫鵐阿箸硫佑蔚兇砲覆覿\術の報告があった。その報告にもスポットライトを当て、新しい顔を�eったTrueNorthを圧縮という切り口から解説を試みる。5.2�Iでは、モデルの効率化と圧縮�\術の合��によりもたらされる�k定レベルのCNNモデルの�|極の�eに�る。そして最後に今後の課�を�?y│n)發垢襦?

��3章　ニューロチップ～本戦に突入：基本�v路構成とニューロチップの�景
3.1　現�Xの把�曄　岨@度�{求から低消�J電�とリアルタイム性に�点がシフト
3.2　�v路構成の基本（�Q込み層）
3.3　チップ性��k覧と�\術的ポジショニング
��4章ニューロチップ～本戦に突入：代表的なチップ
4.1　代表的チップ（CNN�チップ）～並�`処理、リユース、コンフィギュラビリティ
4.2　代表的チップ（DNN�チップ）～DRAM混載、もしくは学�{機�Α�
4.3　代表的チップ（圧縮�\術を�いたチップ）～�圧縮、量子化、そしてロスレス
��5章　ニューロチップ～本戦に突入：動向と今後
5.1　ニューロモルフィックチップ～�v路構成とデ��璽廛蕁璽縫鵐阿��点から見た位��Dり
5.2　�|極の�eへ（�k定のレベルへ）～シンプルなモデルへの適�とNMTへの�t開
5.3 最後に～今後の動向と課�

3.1　現�Xの把�曄岨@度�{求から低消�J電�とリアルタイム性に�点がシフト
��2章で紹介したように2016�Qに入りエッジ�U（��にモバイル）への適�をマーケットターゲットとした、低消�J電�化・高�]化（リアルタイム性）を�`指した�Q�|の�\術、およびニューロチップの発表が相次いだ（��1章の図2を参照）。まず本�Iでは、詳細の説��貌��iに最新の�X況および動向を�?y│n)發垢襦?

(1) ニューロチップの動向（2016�Q�i半まで）
図14の�靴ど�羨，膿�された�何凜船奪廚鯔楙呂任両楮拈��(j┫)とした。図14は��1章の図2に新たに2つの�o��磴魏辰┐拭�劼箸弔�、昨�Qより今�Qの初頭にかけ発表された�{(l│n)華�j(lu┛)学(Tsinghua University)のAngelEyeチップ（CF型のCNNチップ/FPGA参考�@料56：AngelEyeの�}称は学会（FPGA2016）プレゼンテーション�@料で使�）で、もう�kつはStanford �j(lu┛)学のEIE（Energy Efficient Inference Engine/圧縮エンジン、CAD設��Vまりでチップではないが：参考�@料46：��2章で�J報）である。また可�Δ辺J(r┬n)囲でチップのコードネーム（例えばEIEとかEyeriss：参考�@料48）を図に添えた。2013～2015�Qは少ないが、2016�Qは8個ほど説��(j┫)とした。なお、CAD設��Vまりのものもこの寄�Mではチップと称した。デジタル�v路（コア）はCADにより比較的�]時間で検証が可�Δ任�張咼献優垢��野に入れないならば、本来チップ化に本��柄T味がない場合が�Hい。ニューラルネットワークの分野ではその�向がより顕著である。

なお、以下の��は詳細説��魍箘Δ靴�。Snapdragon820/820A (Qualcomm社Zerothプロジェクト、参考�@料57、58、59：ニューロモルフィックは使�せず通常のHexagon 680DSP/SIMD VLIWを使�)、Myriad2（Movidious社、参考�@料60～65 VLIW：Fathomと称するUSBスティックを発売、DJIとのビジネス、インテルが�A収と変動あり）である。割愛の理�y(t┓ng)は、�来のDSP、GPUベース寄りの�\術を使�していることと、細かい�\術内容の入�}が�Mしいからである。同様に図14には載せていないがMobileEye社のEyeQ4、EyeQ5（参考�@料66, 67：MPC（Multithreaded Processing Cluster）に��徴�~り）も割愛した。なお、余�iだが、2016�Qの8月にIntelに�A収された�盜�Nervana社（参考�@料68）の創始�vのNaveen Rao��蓮�2011�QにQualcomm/Zerothに関わり、そのニューロモルフィックによる�U(ku┛)御（モータ）関連の研�|に携わっていた。その後、Nervanaを創設しCEOに�任した。そして今�Qの8月にIntelに�A収され、現在はIntelのVPとしてAI関連（元Nervanaチーム）を牽引している。かなり��靴�。�Bを戻し、Synopsys社等の�\術紹介も割愛した��温憂@料69、70を参照願いたい。

図14　ニューロチップの動向（2016�Q7月まで）
図14　ニューロチップの動向（2016�Q7月まで）

(2) �\術の動向
図15を�いて研�|（開発）最�i線の�\術トレンドを説��垢襦２�鞠Ъ院�Imagenet/ILSVRC）のエラー率を横軸に��模（パラメータ数/消�J電�）を�e軸にした。そこに、2012�Q以�Tの画�鞠Ъ院�CNN）のモデルと��錣靴振\術の主要なものをプロットした。繰り返しの説��箸覆襪�、ベンチマークの舞�となるImagenetはRGBの224x224ピクセルの画�気�瓦靴董�1000�|類のクラス(分類)での識別を行う高�@度の画�鞠Ъ韻離灰鵐擇任△�。いわゆるハイエンドと言ってもよい。モデルはAlexNetから最�ZのSqueezeNet（参考�@料50：��2章）を使�した。なお、SqueezeNetは��2章で説��靴�NIN（参考�@料26）/GoogLeNet(27)およびResNet(28)の主要素を極めて包括的、啓蒙的（Comprehensive ＆Instructive）かつ実�z的に集約したモデルとの位�づけである。

�靴ご檗福釗砲�CF型（�Q込み層＋��T合層共�T型：2.4�Iを参照）のCNNを、�Eい四角（��砲�C型（後段の��T合層が無しのモデルをC0型、1層�~するモデルをC1型と以�T�}ぶこととする）を�した。圧縮�\術として昨�Qより�j(lu┛)きな成果を出しつつあるDeep Compression（参考�@料45：��二章）を今�R�`の�~��\術として加えた。

$図15 �\術トレンド高�@度化→低消�J電�化→高機�Σ修�$
図15 �\術トレンド高�@度化→低消�J電�化→高機�Σ修�

この図からトレンドは3つある。

（ア）トレンド1 ： CNNの高�@度化・・・図の�渓隶��
2012�Qから2014にかけてモデルの改良が積極的に行われ、2014�QにC型のCNNが出て、�k層�@度が改�された。同時にパラメータ数も�k桁�度削�(f┫)された。

（イ）トレンド2 ： CNNの低消�J電�化（小型化、高�]化）・・・図の�E矢印線
2016�Qに�Xけて、低消�J電�化（高�]化）を�`指した圧縮�\術が考案・実�△気貭秕嫡J電�化が実現可�Δ箸覆辰�。Deep Compression /EIEのチーム(Stanford�j(lu┛)＋UCB＋NVIDIA)の圧縮�\術がその代表である。モデルの改�と圧縮�\術で1～2�Q�iに�瓦靴謄僖薀瓠璽真瑤��分の�k(510xはSqueezeNetの�T果、参考�@料50)に�(f┫)少した。�i半のトレンド1はアルゴリズムなりネットワークモデルの改�で、後�vのトレンド2は実��\術寄りの改�と見ることもできる（よりLSI実�△�Zい）。アルゴリズム寄りの研�|�vから、半導��\術�vへと��躍できる人材の場が広がった。また�㌘�だがより��を�T識したトレンドとなって来た。��を�T識して敢えてオリンピック級（1000クラスの識別）の性�Δ�i提としていないのも�j(lu┛)きな��徴だ。パラメータ数の削�(f┫)は、チップに搭載可�Δ丙能j(lu┛)メモリ容量を�T識して行われるべきだ。DRAM混載を試みたDaDianNao（参考�@料37）は32MB搭載し、またSRAMオンチップのEIE(参考�@料46)は10MBを搭載する。その値を�Q々図に�した。ここで�_要な点は、外�陬瓮皀蠅�DRAMに�瓦靴謄�鵐船奪弉修�SRAMとすることで、アクセスのための消�J電�が120分の1になるという点である（参考�@料13）。圧縮率510xを考慮すると、単純��Qだと数万分の1の消�J電�が実現されチップレベルでの実�△��Δ箸覆襦蔽噂禺��Qだと6万分の1）。�実、かなりの�Hくのチップで100mA�i後の消�J電�が実現されてきた(例えば、KAIST/IoEチップは45mA 参考�@料71)。なお、同様に高�]化(リアルタイム性)も実現される。現実的にサブ100mAが実現可�Δ箸覆辰�。�高�@度を狙わなければ、そもそも�P�Sで良い所をきっちりやり�圓�討い�(学�{はともかく、実行では32ビットもいらない)。本来の�eに戻したと見ることもできる。

（ウ）トレンド3 ： ��T合型の小型化（高機�Σ宗法ΑΑ�泙療誓�
同時にCF型もしくはF型の��T合主��のモデルに�瓦靴討盡‘い�覆気譴拭閉彰凝�昧��T合型の��(sh┫)が無�Gは�Hいと誰しも感ずる）。RNN(Recurrent Neural Network)への適�、そしてその応��例も発表された（NMT：Neural Machine Translation/ニューロ機械翻�l、参考�@料72、73）��15に入れ込むのは�H少無理があるが、トレンド3として、RNNさらにはより複雑な機�Δ鬚い譴海鵑瀬優奪肇錙璽�皀妊襪任琉欺未魎泙瓩�v路アーキテクチャ�争に�，辰燭噺�襪海箸發任④襦�

(3) LSI�v路アーキテクチャとネットワークモデルとの関係
引き�き、�Q�|のネットワークモデル（アルゴリズム）と�v路アーキテクチャとの関係を、図16を�いて説��垢襦�泙硫�Г�覦茲�優奪肇錙璽�皀妊襦淵▲襯乾螢坤燹砲鮨�し、下�陲�Eい�覦茲�LSI�v路アーキテクチャを�す。本来DNN（Deep Neural Network）はCNNも含む広�Iの�T味で使うべきである。しかし、CNN以外もしくは��T合層主��のネットワークを表すのに使われること（例えばDaDianNao参考�@料37、EIE 参考�@料46）が�Hいので、本寄�Mでは��C(j┤)NN（狭�IのDNN）の�T味で使�する。なお、図では�記した。

DNNには基本の�H層パーセプトロンMLP（Multilayer perceptron 参考�@料75）がある。またMLPの組み合わせにより�Q�|学�{モデル・アルゴリズム（機�Ε皀妊襦砲魏�Δ箸垢襯優奪肇錙璽�皀妊襦聞柔�皀妊襦砲�箸瀘�討蕕譴�。それらはRBM(Restricted Boltzmann Machine参考�@料76、77)/DBN(Deep Brief Network, 78)、AE(Auto Encoder、79)、さらにはCDBN（Convolutional DBN、80）等である。本寄�Mでは詳細の説��漏箘Δ垢襦幣楮戮�峙④了温憂@料および14を参照）。これらのネットワーク（構成モデル）の�屬�、機�Ε皀妊襪任△�RNNなりRL(Reinforcement Learning：�啣蹴�{)が実�△気譴襦Ｎ磴┐�、「RNN（機�Ε皀妊襦砲�CNN（構成モデル）�屬房�△気譴襦廚箸いι集修皺�Δ覆里澄�覆�修両豺腓砲�CDBNに�{いCRNNと表現されるのかもしれない。なお、CNNは機�Ε皀妊襪汎瓜�帽柔�皀妊襪箸靴討盪箸錣譴襪里�料Tが�㌫廚澄�

図16　ネットワークモデルとLSI�v路アーキテクチャの関係
（DNNとMPL等、狭�Iの�T味で使�しているので�R�Tを要する）

図16のネットワークの“構成”および“要素”は、��2章および�i�Iで説��靴燭里任海海任寮��漏箘Δ垢��醗欺牟\術”に関しては、�i章の2.8�Iではバイナリ化（Binary Connect、Binarized Neural Network等）を含めて紹介したが、図16では今�Qに入り実�△盍泙瓩匿閉修療拗腓い僚j(lu┛)きいDeep Compressionを中心に記載した。詳細は4.3�Iで説��垢襦�

図16の下�陲�LSI�v路アーキテクチャの�\術項�`を並べた。ネットワークの階層(モデル、構成、要素、圧縮)に�{い分けた。また�\術項�`を�`記すると以下の(1)～(6)となる。

(1) バス��(sh┫)式とクロスバー��(sh┫)式（実・仮�[ニューロン）
(2) NoC
(3) 再構成可�� (Reconfigurability)
(ア) マクロレベル　Layer/学�{��(sh┫)法
(イ) ミクロレベル　Filter/チャネル数等
(4) 並�`性（��にCNN）
-再構築可��④箸�咾�慙△垢�
(5) メモリオンチップ
-��T合層を含むF型/CF型（C1型）で��に�_要
(6) 圧縮�\術
(ア) �w�~�v路�\術・・・（��にF型/CF型（C1型）で�_要
(イ) �w�~�v路不要�\術
が�v路アーキテクチャの�\術項�`（課�）である。

(4) �Q込み層と��T合層
�v路アーキテクチャおよびチップを理解するために、�Q込み層と��T合層の実��屬琉磴い鬚�気蕕い垢襦�修虜弘曚鯢�5に記載した。基本式はかなり違う（詳細は次�I3.2�Iで述べる）。�Q込み層は��Q主��(computational-centric)、��T合層はメモリ主��（memory-centric）の��性を�eつ。�i�vは、�_みを平均100～1000�v(初段の�Q込み層の出�の次元数でほぼネット平均リユース�v数が�まる)リユースすることから��Q主��となる。その分、リユース効率を�屬欧襪燭瓩吠怠`処理�}法に工夫が�㌫廚任△襦５佞昧��T合層は演�Qごとに新しい�_み（メモリアクセス）が�㌫廚箸覆�。また圧縮効果は��徴マップの局所的�覦茲嚢覆辰同�Qをする�Q込み層では相�甘�望�気�。さらにRNN、RLは��T合層で構成される。

表5 �Q込み層と��T合層との比較表