ニューロチップ?y│n)癲 舛い茲い菷焼の出?2-3)
2章:ディープ・ニューラルネットワークのニューロチップへの実◆舛修隆所は!!
この2章の最後に当たる2-3では、ニューラルネットワークをチップに実△垢訃豺腓離瓮皀蠅模がどの度になるか、さらにメモリ模を(f┫)らすための工夫などを紹介する。(セミコンポータル集室)
著v: 元半導理工学研|センター(STARC)/元東 瀬 啓
2.7 ディープ・ニューラルネットワーク 〜メモリ実△亡悗垢觜融 А3つのタイプ〜
本Iでは、CNN以外も含めニューラルネットワークの構成の型が3つに分けられることを説し、Q々の型のパラメータ数、すなわちメモリの模が条Pによりどのように変わるのかに`する。その理解を通して、LSIへのメモリの実△隆所を掴む。その中で、`WのT味も含めてオンチップ(混載)をkつの議bのポイントとする。なお、オンチップメモリ(SRAM)と外けメモリ(DRAM)ではパワー、]度共に2桁度異なる(参考@料13)。
(1) 3つのタイプに分けられる
図13にo瑤侶Q|ネットワークもしくはモデルの処理(j┫)入数(画気よび単純データ)と要パラメータ数との関係をした。CNN以外のアルゴリズム、さらにはアプリケーションへの適応をにらんだ実ネットワークの値も入れた。またパラメータ当たりのビット数を16ビットとし、バイト換Qした量を?q┗)軸に^した。要なメモリ容量(Byte=8bit)である。Qデータポイントにネット@もしくはモデル@を記した(要な場合には参考文献を参照)。さらに主にCNNに瓦靴討魯ラス数を加えた(例えばC10(Classが10))。AlexNet、VGGNet等のモデルのクラス数は1000である。
図13 入数と要メモリ容量の関係
Googleの猫(参考@料33:教師なし学{)、2016O動(O動運転 参考@料34)、Deep Q-Learning(
参考@料35)、Autoencoder(マルチモーダル:参考@料36)、DaDianNao(Super Leaning Machine Chip:参考@料37)。 RT点:C型はConv層がモジュール化されていることが徴。
ネットワークの構成の型として、iIまでに紹介したCF型、C型に新たにF型を加えた。F型はT合がT合もしくは、Q込み層でも共通パラメータ型(_み共~weight sharingされていない)のネットワークを指す。教師なし学{で著@なグーグルの猫のネットが該当する。この形のネットワークをDNN (Deep Neural Net) とCNNと区別するために使する場合があり図でも使した。
横軸はニューラルネットが1度にタスク処理をする入数である。この図のJ(r┬n)囲でCNNの場合には画素、DNN (F型) の場合には、画素に加えて音m、データ(角度、スピード等)も含まれる。使したDeep Q-Learning (深層啣蹴{のひとつ)の場合にはデータのみである。通常b文等の発表ではパラメータはあからさまに記載しないので、半分度は著vが試Qした値である。参考@料14も参考にした。
(2) Q々の型の徴
ネットの構成の型ごとに内容を説する
2-1) F型(T合主型)〜教師なし学{DNN、マルチモーダルAutoencoder、啣蹴{D QL)
現時点では、画気龍技佞覆軍{、複数|のデータを同時処理するマルチモーダル、再帰型RNN、さらには啣蹴{がT合(Fully Connected)が主のF型となるようだ。T合層が主なので、入次元数に瓦靴董2乗でパラメータが要となる。教師なしでの画鞠Ъ韻世肇僖薀瓠璽真瑤\するので敢が要である。これに瓦靴董∈v使したDeep Q-learning(深層啣蹴{)では、そもそも画汽如璽燭魄靴辰討い覆ぁ]度、位といったデータであり量的には少ない。RNNなり啣蹴{で画犠霾鵑魄靴際は、瑤誥J(r┬n)囲ではiにCNNでデータを抽(j┫)化(例えば位とか]度に変換)して、入次元数を落とすのが通常である。
2-2)CF型(CNN Q込み層+T合層共T型):教師あり画鞠Ъ韻代表
入数の2乗に比例してパラメータ数は\加し靴ぜ太屬忘椶襦224x224と解掬戮僚j(lu┛)きめ画気両豺腓32x32と小さい画気両豺腓主にプロットされている。クラス数はそれぞれ1000と10と極端に違う。靴ぜ太に乗るとするならば、ネットワークが最適化されると「入数(X)とクラス数(C)の比はk定値に落ちく」ことをT味する。X/C=100のT味するところは「1クラス当たり10x10の画素が要」との解(ji─n)もできる。この原理の|は今後の課である。図のEい○でしたClass10のネットワークは靴ぜ太よりも下笋縫廛蹈奪箸気譴討い襦クラス数に瓦靴埔蠅硫掬戮魴eった入画気鮖斑していると考えられる。このT果のひとつはNVIDIAのO動運転(End to end learning for Self-Driving Cars:参考@料34)に使されているネットワークである。何か他のT図があるのかもしれない。なお、システムの内容は3章以Tで説する。
2-3)C型(CNN Q込み層主): モジュール化
Class1000のGoogLeNet22とResNet34/152を図13に加えてある。解掬戮低いケースは、iIで紹介したMSRAのResNet110 (110層) のCIFAR-10 (3x32x32) でのベンチマークのT果をプロットした。さらに参考@料14に載っていた以下の3つのモデルを図13に入れてある。それらはAll-CNN(参考@料54)、Hex Kernel(参考@料55)、そしてNiN (Network in Network) のCIFAR版である。パラメータ数は100〜170万個と3x32x32の解掬戮砲靴討呂なりHい。唹にTぶと(桃色の薄い線)ときが1でパラメータと解掬戮枠耄禊愀犬砲△襦かなり乱暴だが、Q込み層の場合には、入のR`画素(群)のZfでの徴抽出の積み_ねなので、あながち入の次元数に比例するとみるのも間違ってはいない。このしい関係と原理の|も今後の課である。
まとめるとパラメータ数(y)は入数(x)に瓦靴董△修譴召譴侶深阿
F型(T合層型) ・・・ y=x2
CF型(共T型) ・・・ y=x2/100
C型(Q込み層型) ・・・ y∝x (ただし、モジュール化)
(3) メモリの実△亡悗垢觜融
図13の軸に中国科学院CASが2014Qに発表したDaDianNaoの混載DRAM搭載量をした。256Mビット(8.2mm角)、32Mバイトである。2014Q8月発表のIBMのTrueNorthも同じくSRAMの混載で容量は256Mビット(25x17mm2)である。共に28nmでの混載であることから当Cの`Wになる。
3-1) F型(T合型)
T合主であることからメモリへのアクセスが頻繁に行われる。メモリの混載は極めて効果的である。しかし256Mビット/32Mバイトを混載の`Wとすると、画輝では模的にかなりかけ`れている。画気魄靴際には革新的な\術が待望される。
3-2) CF型(共T型)
入の画素数は余裕をeたせると100x100〜150x150画素度がメモリ混載の限cと考えられる。共T型とは言え、T合陲性Δ90%i後をめることから混載した際の消J電、スピード改の効果はj(lu┛)きい。メモリアクセスへの配慮が_要である。
3-3) C型(Q込み主型)
入の画素数が3x224x224(1000クラス)並みのネットワークもメモリ混載がo(j━)内に入ってきた。尚、Q込み層では同じパラメータを繰り返し使するから(平均200v度、2.6Iで説)メモリへのアクセスは工夫によりj(lu┛)幅に軽(f┫)される。エッジ・モバイルUへのディープラーニングの適がかなり現実的になって来た。その屬如△匹嶺度低消J電化を{求するかがポイントとなる。
(4) ResNet34をLSIに実△靴討澆
少し図13から`れて、LSIに実△靴榛櫃砲匹里茲Δ砲覆襪~単に試Qしてみる(表3の16ビットのケース)。モデルは昨Qの発表から最Z(2016Q7月時点)までの半Q間でかなりの{検証・t開検証実績報告(検堯Recurrent NNとの複合/他機関報告含め:参考@料29)のあるResNet、層数としては}頃な34層を(li│n)Iした。表1より要なメモリの模としては、352Mビット(パラメータ当たり16ビット)が要である。現時点ではi述のTrueNorth/DaDianNaoクラスの256Mビットが混載の実績とするとそれよりj(lu┛)きく、今後の微細化をi提としても余裕があるとは言えない。しかし、エッジ応を考えるとメモリ実△砲なりのOy(t┓ng)度が出たと考えることができる。性Δ亡悗靴討蓮△△まで単純試Qだが、36.4億vのMAC演Qが要であることから3.64msecで1画機淵侫譟璽燹砲稜Ъ噂萢が可Δ淵譽戰襪任△(16ビット化で]くなるが考慮せず)。仮に10倍くても36msecで30fps(frame per sec)には官できるレベルである。ちなみにi提として1TFLOPS/s(MAC換Q)を使したが、かなりレベルが高い。
ResNet等C型のCNNの登場によりエッジUはもとよりかなりモバイルへのt開が現実味を帯びてきた。なお、システム応の場合には入の解掬戞∧怠`タスク数、パラメータのビット数、層数(34層でいいのか?)、クラス数、エラーの容J(r┬n)囲、連で処理する複合機ε、システム構成の情報を加味する要がある。3章以Tで的な例をいて可Δ文造螢轡好謄爛ぅ瓠璽犬幌る予定である。
表3 メモリ容量と演Q時間の単純試Q
2.8 ディープ・ニューラルネットワーク 〜メモリ量(f┫) サブ0.1Wも! モバイルにロックオン〜
(1) パラメータ・データ低ビット化/圧縮の動きとその効果
表4に最Zのメモリ量削(f┫)に直Tするパラメータ・データ低ビット化/圧縮の動向をk覧としてす。パラメータ・データは通常は、32ビットの浮動小数点演Qをベースに研|開発、j(lu┛)}IT企業のデータセンターでの実が進められている。しかし、ほとんどのこの分野に関わる(sh┫)は32ビットもいらないのではと思う(に実行時は)。32ビットと高@度化することと、徴抽出の際に(j┫)を抽(j┫)化(不要な颪鬚修落として)することが逆行しているからである。
振り返ると2012Q以iよりw定D数、8ビット化の検討等がなされていた(参考@料38)。2013〜2014Qにはフィルタを行と`に分割して実行時のQ量を2〜3倍度削(f┫)するSeparable Filter (参考@料39、ニューヨークj(lu┛)学とFacebook AI Researchの報告)などのネットの圧縮法の報告があった。さらに2014Qにもコロンビアj(lu┛)学のSoudryらの_みを±1とする}法(Expectation Backpropagation:参考@料40) 等の報告もあった。しかし、表4にすように昨Qの11月(昨Q12月のNIPS)のBinary Connectの発表 (参考@料41) の頃より直Zの課としてよりR`され出し、またLSI実△Zい形での発表も\えてきた。筆すべきはQ発表が、エッジの中でも搭載がいだろうと[定されていたモバイル機_(d│)へのj(lu┛)模ネットワークの搭載を身Zな颪箸靴討Δ燭辰討い訶世任△襦Googleも同様にモバイルを指向。しかしまずは、直Zの課であるデータセンターでの実際の運が先と思われる)。
パラメータ・データの低ビット化/圧縮の効果は、高]化と同時に消J電も改され、2乗の効果があり極めて魅的である。さらにうまく行けばSRAMのオンチップ化も可Δ箸覆衫匹い海箸个りである。認識率の低下が懸念されるが、CNN等で見る限りはぼぼ無いかもしくは小さいとのT果が報告されている。
表4 パラメータ・データの低ビット化/圧縮の動向
(2) 低ビット化/圧縮(sh┫)法の分類
Q\術の詳細を述べる。表4のパラメータ・データの低ビット化/圧縮は3つに分類される。
2-1) バイナリー化(1ビット化):
±1の2値(1ビット)で演Qを行う。バイナリーコネクトではパラメータだけを、バイナライズトネットワークでは加えてバッチ・ノーマライゼーション後の出値を2値化する。なお、@度が要な学{時誤差逆伝鯔,離僖薀瓠璽身調時は、保eしているパラメータの実数を使して値を(g┛u)新する。MNIST/CIFAR(ベンチマークの|類)への適で良いT果がuられており、今後はImagenet等のj(lu┛)模画気任慮‐擇鮃圓εt開の幅を広げるとのこと(2016Q4月:参考@料42)である。後vと瑤(sh┫)法をIBMがTrueNorthのチップアーキテクチャに適して、懸案であった深層学{からスパイキングニューラルネットワークへ橋を架けることに成功している。深層学{での成果をスパイキングニューラルネットワークに焼き直しニューロモルフィックアーキテクチャ屬納孫圓任る。同じく現時点ではMNIST/CIFAR(CNN)への適応である。詳細は3章で説予定である。
2-2) パラメータの圧縮(Deep Compression):
パラメータの圧縮を学{から実行にかけて表の3つの施策をいて行う。効果はj(lu┛)きい。複雑すぎて可性がKいとの指~もpけている。また、C型(Q込み層主)のCNNモデルへの適T果が待たれる等、\術の柔軟性がどの度あるかを瑤蠅燭ぁ
2-3) ビット数の削(f┫)(量子化):
演Q(積和演Q、性化演Q、プーリング、化ほか)だけを8ビットD数(0-255)で処理する。ユーザーは来通り32ビット浮動小数点演Qのライブラリーがほぼそのまま使える(と理解している)。入笋判侘笋妊如璽燭領婿匆宗32→8ビット)と反量子化を行うが、変換時のラウンド処理のDり扱いでRTが要のようである。2-1)〜2-3)とも共通にハードも最適化しないと100%の効果が引き出せない。1〜2QXけてTPU (Tensor Processing Unit)なるカスタムチップを開発したことをGoogleが5月にo表した。データ・パラメータの低ビット化の効果はオーバーヘッド分があり、]度(サイクル数)改およびメモリ量削(f┫)はQ々3〜4倍と推Rする。パワーも同様で、T果パワー効率改としては10倍度となる。k般ユーザーは瑤蕕覆いΔ舛法8ビットD数処理のディープラーニングをしていることになる。もちろん、@度は落ちないことがi提である。Googleにとってはデータセンターのディープラーニング実行コストが1/3〜1/4になり、かなりのインパクトと予[する。パワーも(f┫)る。このタイミングでのビット数の削(f┫)の施策のt開は、1章冒頭で述べたように、「ディープラーニングのモデルライブラリーへのt開すなわちデータセンターt開の指数関数的勢い」をГ┐襪燭瓩竜歩gの課とみることも出来る。
その他、表4にすように入・中間データの外陬瓮皀蠅箸療樵時にロスレス圧縮を使う\術の報告がISSCC2016でMIT/NVIDIAからあった(参考@料48)。ハードの変(g┛u)は要で、効果は小さいが確実である。
(3) モバイルへの実△硫性は?!
Googleの動きに見られるように、Jに実行フェーズではD数8ビットは認瑤気譴弔弔△襦4倍弱の改は確実、さらに低ビット化が進めば改は32倍まで期待できる。今後、j(lu┛)雑把に10倍度の
パラメータの低ビット化/圧縮がなされると仮定して、どの度LSI実△妨果があるのかResNet34(22.0Mパラメータ)を使して試Qしてみる。
3-1) 要メモリ?du━)C積は?
iIに使した表3の最`(ピンク色の枠)に値を加えてある。32ビットに瓦靴1/10の効果とすると、端数で現実的ではないが3.2ビット/パラメータとなる。総メモリビット数は、22Mx3.2=71.4Mビット。最Zo表されている情報(参考@料49)から、SRAMのオンチップでのC積は、7Mbit/mm2 @16nm とする。要エリアC積は10mm2@16nm (3mm角咾離汽ぅ)となる。(152層のResNet152だと56Mパラメータで、25.5mm2となる。これだとさすがにj(lu┛)きい)。ResNet34だとかなりの余裕をeってSRAMのオンチップメモリ化(混載)が可Δ箸覆襦qT果、図13の左の軸の22Mパラメータ以下(ほとんどe-DRAM DaDianNaoのラインの少し屐砲覦茲魯バーできる。残るのは、かなりj(lu┛)きな解掬戮顱塀j(lu┛)画C)、もしくはマルチタスク処理、教師なし学{等となる。
3-2) 積和演Qのパワーはどのくらいのレベル?
モバイル搭載を考えると気になる点だ!同様に、Imagenetの画鞠Ъ韻30 frames/secで行った場合のパワーを試Qしてみた。条PはiIで使ったものと同じで、LSIとしては1TFLOPS/Wの性Δ出せることをi提としている。同じく表3にまとめた。32ビットに瓦靴董△修10分の1の処理量で良いので1/10の消J電、100mWとする。3.6msecで1画汽侫譟璽爐稜Ъ韻終わるので次のフレームが来る30msecはスタンバイXになる。単純に1/10のn働率と考えると、10mW度の積和演Q消Jパワーとなる。オンチップSRAMのパワー等々を加えると、もう少し\える。しかし依かなりのローパワーでモバイルへの搭載も科可Δ淵譽戰襪任△襦覆覆1TFLOPS/Wがかなり厳しいが)ことがわかる。
まだ、いくつかの課もあるが、SRAMオンチップでサブ0.1W度は見込めるX況と考えられる。エッジUはもとより、モバイルUもo(j━)内でロックオンされているXである。パラメータ・データの低ビット化/圧縮に関して本Iのいくつかを3章で少し踏み込み紹介する。
まとめ
今後のCNNのモデルの進化に関しては、NiN、GoogLeNet、およびResNetがもたらしたモジュール形式の改良で進んで行くと考えたい。ここ半Qほどの間に総括的なSqueeze Net(参考@料50)、ENet(参考@料52)なるモデルの発表もある。今QのImageNet(9月〜10月)およびNIPS(12月)で今後どのような進化の(sh┫)向性をすのか興味深い。そのようなネットワークモデルの進化と収Jの流れに加えて、実際のアプリケーションにどのモデルをどのように使するのかといった実z的、包括的かつ教的なBも今後出てくると予[している。入の次元数と出のクラス数、そして容誤差J(r┬n)囲も絡んでくると考える。参考@料51の著v(Purduej(lu┛)のEugenio Culurciello教b、TeraDeep社のCTOでLeCunの教え子)はまとめることを唆しているので期待したい。
LSI化の勘所として、詳細を見極めるまでには至っていないが、ある度の(sh┫)向性を本章で述べた。
・高性Σ修畔9腟Σ(システム化)・・・2つのj(lu┛)きな流れ
・基本構成(Q込み層、T合層、性化関数、プーリング・・・、学{時の\法)は収Jへ
・モデルの進化(CF型からC型への々圈法ΑΑC型が主流になりつつある
・C型のモジュールが_要
・層数とエラー率改(ディープ化へ)・・・100層以峅
・積和演Q数とパラメータ数(メモリ)の関係・・・200〜300倍
・モデルのタイプ(F,CF,C型)と演Q数・パラメータとの関係
・パラメータ・データの低ビット化/圧縮の動向・・・ここ半Qで進化
・エッジ・モバイルUへの適の可性・・・o(j━)内でロックオン
本章の最後にBする。LSIの実的な分野で、MIT、Stanfordj(lu┛)学、そしてUCB等の動が発である。その中にデジタルLSIの設分野で著@なStanfordj(lu┛)学のHorowitz教bのグループも@を連ねており(参考@料46, 53, 13)R`される。それにも\して、かなりの頻度でj(lu┛)学のb文にNVIDIAが@を連ねている(ハードのGPUとソフトCuDNN等のSDKのサポート)点が気になる。次章以T、本章のb点を踏まえ、ディープラーニングLSIのv路アーキテクチャおよび実応システムへの実△幌る。
参考@料 (1〜32まではiv以i)
- Q. V. Le, and A. Y. Ng., "Building High-level Features Using Large Scale Unsupervised Learning", In International Conference on Machine Learning, June 2012. 20120626. グーグルの猫.
- Mariusz Bojarski+, "End to End Learning for Self-Driving Cars", 2016Q4月25日. 2016ADAS(図13), CNNによるO動運転.
- 松元 叡k, 「分g深層啣蹴{でロボットU(ku┛)御」, Preferred Research (Preferred Infrastructure Inc,), 2015Q6月10日 (再掲:図13のパラメータ値は筆vの試Q値)
- Noda, , Hiroaki Arie , Yuki Suga , Tetsuya Ogata, "Multimodal integration learning of robot behavior using deep neural networks", Robotics and Autonomous Systems, Volume62, Issue6, 721-736頁, 2014Q6月. マルチモーダル
- Yunji Chen, Tao Luo1,3, Shaoli Liu1, Shijin Zhang1, Liqiang He2,4, Jia Wang1, Ling Li1, Tianshi Chen1, Zhiwei Xu1, Ninghui Sun1, Olivier Temam2, "DaDianNao: A Machine-Learning Supercomputer", in Proceedings of the 47th IEEE/ACM International Symposium on Microarchitecture(MICRO’14), IEEE, 2014. DaDianNao、20141213.
- Vincent Vanhoucke, Andrew Senior, Mark Z. Mao, "Improving the speed of neural networks on CPUs", 初期の低ビット化検討のb文
- Emily Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, Rob Fergus, "Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation", 2014Q6月9日. Separable Filter.
- Daniel Soudry, Itay Hubara, Ron Meir, "Expectation Backpropagation: Parameter-Free Training of Multilayer Neural Networks with Continuous or Discrete Weights", 2014Q12月, ニューロンと負荷を±1(Binary化).
- Matthieu Courbariaux, Yoshua Bengio, Jean-Pierre David, "BinaryConnect: Training Deep Neural Networks with binary weights during propagations", 2016Q4月18日(ver3). Binary Connect.
- Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, Yoshua Bengio, "Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1", 2016Q3月13日(v3). Binarized NN
- Steve K. Esser, Rathinakumar Appuswamy, Paul Merolla, John V. Arthur, and Dharmendra S. Modha, "Backpropagation for Energy-Efficient Neuromorphic Computing", Advances in Neural Information Processing Systems 28 (NIPS 2015), 2015Q12月NIPS2015.SNNへBP適.
- Steven K. Esser, Paul A. Merolla, John V. Arthur, Andrew S. Cassidy, Rathinakumar Appuswamy, Alexander Andreopoulos, David J. Berg, Jeffrey L. McKinstry, Timothy Melano, Davis R. Barch, Carmelo di Nolfo, Pallab Datta, Arnon Amir, Brian Taba, Myron D. Flickner, Dharmendra S. Modha, "Convolutional Networks for Fast, Energy-Efficient Neuromorphic Computing", 2016Q5月24日(V2).スパイキングNNへのCNN/BP応.
- Song Han, Huizi Mao, William J. Dally, "Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding", 2016Q2月15日(V5).Deep Compression.
- Song Han, Xingyu Liu, Huizi Mao, Jing Pu, Ardavan Pedram, Mark A. Horowitz, William J. Dally, "EIE: Efficient Inference Engine on Compressed Deep Neural Network", 2016Q5月3日(V2). Deep Compression IP化.
- Pete Warden, "How to quantize Neural Networks with TensorFlow", ブログ, 2016Q5月3日, 演Qの量子化(32bit→8bit)
- Yu-Hsin Chen, Tushar Krishna, Joel Emer, Vivienne Sze, "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks", 2016 IEEE International Solid-State Circuits Conference, Session 14.5, p262-264, 2016Q2月 Eyeriss CNNの最適v路(ISSCC2016)
- 日経テクノロジーオンライン "ルネサス、16nmFinFET向けデュアルポートm込みSRAMを開発", 2015Q12月8日. SRAMのC積
- Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer, "SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and &llt;0.5MB model size", 2016Q4月6日(V3), Squeeze Net.
- Eugenio Culurciello, "Neural Network Architectures", ブログ, 2016Q6月4日 再掲, Neural Network Architectureのサマリ.
- Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello, "ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation", ENet, 2016Q6月7日. リアルタイムのSemantic Segmentation.
- Xuan Yang, Jing Pu, Blaine Burton Rister, Nikhil Bhagdikar, Stephen Richardson, Shahar Kvatinsky, Jonathan Ragan-Kelley, Ardavan Pedram, Mark Horowitz, "A Systematic Approach to Blocking Convolutional Neural Networks", 2016Q6月14日. スタンフォードj(lu┛)学 ホロビッツ教b関連.
- Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, Martin Riedmiller, "Striving for Simplicity: The All Convolutional Net", 2014Q12月21日. All-CNN(C型)
- Zhun Sun, Mete Ozay, Takayuki Okatani, "Design of Kernels in Convolutional Neural Networks for Image Classification", 2015Q11月30日. Hex Kernels(C型).