ニューロチップ説 〜いよいよ半導の出番(3-3)
3章の3.3では、これまで開発されたチップを、CNNとDNN/T合層に分け分類している。それぞれのチップがどのような位づけにあるのかも理解できるようにグラフ化している。3章のこれまでの参考@料をまとめている(セミコンポータル集室)
著v: 元半導理工学研|センター(STARC)/元東 瀬 啓
3.3チップ性k覧と\術的ポジショニング
本Iでは、4章で説する10個のチップをS瞰できるように性k覧表をいて説する。またグラフをいてQチップの\術的なポジションをす。
表6 代表的ニューロチップ 仕様k覧
(1) 仕様k覧の内容
表6の仕様は比較的そろいのよい項`をIした。チップコード@のなかで、IoE、DL/DI(Deep Learning/Deep Inference:参考@料86)、およびUI/UX(参考@料87)はb文のタイトルから引して命@した。ほとんどのチップがASICである(少し引に偏りがあった)。まずをCNNとDNN(狭IのDNN)のカテゴリーに分けている。層構成(C型とかCF型)のタイプから判して二分している。CNNのカテゴリーでは層構成C0型が3チップ、CF型が2チップである。
スタンフォードj学のEIE(Energy Efficient Inference Engine:参考@料46)は、圧縮\術(Deep Compression 参考@料45)のzv路コア検証をモチーフとしたエンジンである。CF型・F型をとしているが主にT合層を検討のとしている。このことからDNNのカテゴリーに入れた。
DL/DIをどちらに入れるかかなり迷ったが、DNN/T合 学{のグループに入れた。このチップはRBMを学{の基本とするDBN (Deep Brief Network)のネットモデルにQ込み(Convolutional)の}法をDり入れている。本来なら左笋CNNに入れるべきだが、DBNを喞瓦垢襪燭瓩亡困┐に入れている。
表では`立つよう記載していないが、TrueNorth(参考@料84, 85)はこの表で唯kのクロスバー擬亜兵尊櫃浪穣[クロスバー擬阿發靴は仮[ニューロン擬亜Щ分割H_をいる:5.1Iで説)であり、かつニューロモルフィックチップである。入と出がアレイX(クロスX)に配されその交点が接と_みを表現する。
これに瓦靴涜召魯丱擬阿任△。バスに演Qのコア(PE:Processing Engine/Element)を並`、もしくはアレイX(要に応じてNoC:Network on chipの搭載される)に配しデータおよびパラメータ(フィルタ値、_み)をバスから供給する。動作クロックに比例して演Q]度は\jする。
メモリ混載は_要なファクターだ。DaDianNaoはバス擬阿任△襪、オンチップのDRAMにパラメータを格納することにより、パラメータアクセス時間の]縮、さらにスケーラビリテーの向、そしてそのT果としてQ込み層はもとよりT合層の演Q性Ω屬鮗{求する。それだけに里泙蕕再暗再構成機ΑΤ{機Δ鬚眦觝椶靴震鄂甘なチップだ(実際にはCAD実△泙如。なおKAISTのDL/DIおよびUI/UXは共に学{機Δ鯏觝椶靴織船奪廚任△襦併椎阿覆ら理解できるレベルの詳細情報はo表されていない)。
その他、表として_要なポイントを屬欧襪函∈能j入次元数にv路の模が比例する。ShiDianNaoの入次元数は1kであり、MNISTの32x32の入を扱う小模なものだ仕様、例えば消J電を比較する際には最jの入次元数にもRTが要である。残念ながら入の次元数の記載のないものもある。
圧縮\術の搭載X況をビット数と適度のレベルでした。例えば◎はかなりjがかりに圧縮\術を適しているものをす。EIEとIoEが両dである。圧縮の詳細内容に関しては後述する(4.3I)。なおEIE/IoEの実効ビット数は記載値より幾分jきい。またTrueNorthは1bit(バイナリ:最Zはターナリ)と称されているが、実効的には{JHい。
LSIとしての幾つかの性Δ魏蔀覆砲泙箸瓩拭性Δ魏J造咾鉾羈咾垢襪里篭砲瓩薙e険な場合がある仕様によりjきく変わる。まずメモリ混載の~無、学{機Δ例~無、次にネットの構成型(C0/C1、及びCF/F型)、そして模(入次元数)によりjきく異なるので料Tが要だ。
(2)Qチップのポジション
Qチップのポジションをわかりやすくするために、層構成(CONV層/FC層:Fully Connected)と圧縮の~無で分けマッピングした(図23)。チップのコード@の横にエネルギー効率(GOPS/s/W)を添えた。その値によりマークのjきさを変えた。1TOPS/s/W以屬世判jきなマークを使した。
また、表6にはないGoogleのTPU(参考@料、88)をデータとして加えた。|極の形として、CNNのC0型のモデルであるSqueezeNet (Deep Compressionを適:参考@料50)、またNMT(Neural Machine Translation:ニューラル機械翻l:RNNモデルベース、参考@料72、73)にPruning\術を加したT果も加えてある。さらにTrueNorthも配した。圧縮の点から見ると、スパイキングをPruning(O動で行っている)、接をバイナリ量子化、さらに_みをクラスタ分類していると類瑤任ると考えた(H少無理があるが)。
初期(1〜2Qi)のCNN、学{機Δ鱆~するもの、最新のCNN、さらにスタンフォードj学提唱のDeep Compression(DC)を適したものがわかるように、グルーピングした。
図23 Qチップのポジショニング
3章では3.1I〜3.3Iにて、基本的なv路構成の基本(にQ込み層)に関して説を行い、また最Z(2016Qi半)までのニューロチップの要を嚇に説した。次章(4章)以Tでは、チップの詳細をCNN(4.1I)、DNN(4.2I)、そして圧縮\術(4.3I)をいたチップに分けて説する。
参考@料 (1〜55までは1章と2章を参照)
- Jiantao Qiu, Jie Wang, Song Yao, Kaiyuan Guo, Boxun Li, Erjin Zhou, Jincheng Yu, Tianqi Tang, Ningyi Xu, Sen Song, Yu Wang and Huazhong Yang, "Going Deeper with Embedded FPGA Platform for Convolutional Neural Network",2016ACM pp.26-, FPGA'16, {華j学、Angel Eye, 2016222
- Jeff Gehlhaar, "Neuromorphic Processing: A New Frontier in Scaling Computer Architecture", ASPLOS'14:Architectural Support for Programming Languages and Operating Systems, http://www.cs.utah.edu/asplos14/files/Jeff_Gehlhaar_ASPLOS_Keynote.pdf, https://dl.acm.org/purchase.cfm?id=2564710&CFID=687971028&CFTOKEN=91213122、Qualcomm, Neuromorphic\術, 20140304.
- Qualcomm Snapdragon Blog, "Snapdragon 820 Automotive processors debut at CES 2016", Qualcomm, SD820A, 20160106.
- Qualcomm 仕様書, "Qualcomm Snapdragon 820A: Industry's first automotive grade SoC with integrated X12 LTE modem", Qualcomm, SD820A仕様書, 2016Q.
- EETimes, Junko Yoshida, 電子情報、2016Q1月27日, "Google's Deep Learning Comes to Movidius/ Moving machine vision from data centers to devices", MovidiousのGoogleとの共同開発 発表 (インテルA収後もO社ホームページは変わらず、DJIとのプロジェクト内容も記されている), 20160127.
- Product Brief, "Myriad 2 Vision Processor", Myriad2の要仕様, 2014Q7月.
- Movidius社のHP, "Embedded Neural Network Compute Framework: Fathom", FathomおよびFathom USB Stick情報, Movidius社, 2016Q.
- TechCrunch Japan(日本語)電子情報, "Movidius、今度はFathomを発表-どんなデバイスもUSBスティックでニューラルネットワークがW可", Fathom, Movidius社, 2016Q4月29日.
- Movidius社ホームページDJI, "DJI Unveils Mavic Pro Drone, Powered by Movidius", MA2155をDJI Droneに使、2016Q9月27日.
- Movidius社ホームページ, "Movidius + Intel = Vision for the Future of Autonomous Devices", VPU+Intel RealSense, 20160905.
- Mike Demler, "Mobileye Increases Car EyeQ Computer-Vision Processors Will Enable Autonomous Vehicles", Microprocessor Report Insight Analysis of Processor Technologies, Mobileye, EyeQ4, 20150720.
- Press Release Details, "The Road to Full Autonomous Driving: Mobileye and STMicroelectronics to Develop EyeQ(R)5 System-on-Chip, Targeting Sensor Fusion Central Computer for Autonomous Vehicles", Mobileye, EyeQ5, 20160517.
- Nervana社のホームページ, "NERVANA HAS JOINED INTEL", Nervana社、Intel合、20160823(合).
- Synopsys社ホームページ, "DesignWare EV5x Vision Processors", EV5シリーズ, Synopsys, 2015Q3月.
- Synopsys社Web, "Design Ware EV6x Embedded Vision Processors", もしくはhttp://www.synopsys.com/Japan/press-releases/Pages/20160601.aspx EV6シリーズ、20160602.
- Jaehyeong Sim; Jun-Seok Park; Minhye Kim; Dongmyung Bae; Yeongjae Choi; Lee-Sup Kim, "A 1.42TOPS/W deep convolutional neural network recognition processor for intelligent IoE systems", 2016 IEEE International Solid-State Circuits Conference (ISSCC), Pages: 264 - 265, IoE, KAIST, 20160131.
- Abigail See, Minh-Thang Luong, and Christopher D. Manning, "Compression of Neural Machine Translation Models via Pruning", Stanfordj, NMT (Neural Machine Translation)へのPruning適, 20160629.
- Abigail See, "CS224N Final Project: Exploiting the Redundancy in Neural Machine Translation", Stanfordj, NMT (Neural Machine Translation)へのPruning最初のアプリケーションへの適, 2015Q10月頃.
- Danny Shapiro, "Automotive Innovators Motoring to NVIDIA DRIVE", NVIDIA Official Blog, NVIDIA DRIVE PX2, 20160104(CES).
- Wikipedia Multilayer perceptron (MLP)
- Geoffrey Hinton, A Practical Guide to Training Restricted Boltzmann Machines, トロントj学の教材, RBM, 20100802.
- Ruslan Salakhutdinov, Geoffrey Hinton, "An Efficient Learning Procedure for Deep Boltzmann Machines", Neural Computation 24, 1967-2006 (2012), RBM, 2006Q8月24日.
- Geoffrey E. Hinton, Simon Osindero, and Yee-Whye Teh, "A fast learning algorithm for deep belief nets", Journal Neural Computation archive, Volume 18 Issue 7, July 2006, Pages 1527 - 1554 MIT Press, DBN, 2017Q7月.
- Geoffrey E. Hinton; Ruslan R. Salakhutdinov, "Reducing the Dimensionality of Data with Neural Networks". Science 313 (5786): 504-507, Auto Encoder, 20060728.
- Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng, "Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations", Proceeding of the 26th Annual International Conference on Machine Learning ICML 2009, Pages 609-616, CDBN, 20090614.
- Zidong Du, Robert Fasthuber, Tianshi Chen, Paoio Ienne, Ling Li, Tao Luo, Xiaobing Feng, Yunji Chen, Olivier Temam, "ShiDianNao: Shifting Vision Processing Closer to the Sensor", CAS, University of CAS, EPFL, Inria(フランス国立情報学O動U御研|所), The 42nd International Symposium on Computer Architecture (ISCA42/2015), ShiDianNao, 2015Q6月13日.
- Bernard Bosi, Guy Bois, and Yvon Savaria, "Reconfigurable pipelined 2D convolvers for fast digital signal processing", IEEE Trans. on Very Large Scale Integration (VLSI) Systems, 1999 Sep ;vol. 7 (no. 3): page 299-308, 再構成可2Dのコンボルバ-.
- Vinayak Gokhale, Jonghoon Jin, Aysegul Dundar, Berin Martini, and Eugenio Culurciello, "A 240 G-ops/s Mobile Coprocessor for Deep Neural Networks (Invited Paper)", Computer Vision and Pattern Recognition Workshops (CVPRW 2014), 23 June 2014, Teradeep/nn-X, 2014623.
- Paul A. Merolla, John Arthur, Rodrigo Alvarez-Icaza, Andrew S. Cassidy, Jun Sawada, Nabil Imam, Steven K. Esser, Myron D. Flickner, Dharmendra S. Modha, "A million spiking-neuron integrated circuit with a scalable communication network and interface", Science 8 August 2014: Vol. 345 no. 6197 pp. 668-673, 雑誌Scienceに載ったIBM, TrueNorth、20140808.
- TrueNorthのB\術@料, 2014Q8月8日, http://www.sciencemag.org/content/suppl/2014/08/06/345.6197.668.DC1/Merolla.SM.rev1.pdf.
- Seong-Wook Park, Junyoung Park, Kyeongryeol Bong, Dongjoo Shin, Jinmook Lee, Sungpill Choi, Hoi-Jun Yoo, "An Energy-Efficient and Scalable Deep Learning/Inference Processor With Tetra-Parallel MIMD Architecture for Big Data Applications", IEEE Trans Biomedical Circuits Systems, vol.9, No.6 Dec 2015, PP.838-48, KAIST, DL/DI, ISSCC2015 4.6のFull Paper版)、 2015Q12月9日.
- Seongwook Park, Sungpill Choi, Jinmook Lee, Minseo Kim, Junyoung Park and Hoi-Jun Yoo, "A 126.1mW real-time natural UI/UX processor with embedded deep-learning core for low-power smart glasses Purchase", Solid-State Circuits Conference (ISSCC), 2016 IEEE International, 14.1, KAIST, UI/UX, 2016Q1月31日.
- Norm Jouppi, "Google supercharges machine learning tasks with TPU custom chip", Google Cloud Platform Blog, May 18, 2016, Google, TPU, 2016Q5月18日.