Xilinx、高級2.5D-LSIの貌をらかに
Xilinxは、高度なLSIはてFPGAで組むのではなく、ソフトウエアベースのマルチコアCPUや、ダイナミックに再構成可Δ淵蓮璽疋Ε┘▲┘鵐献鵝AI専推bv路、DSP、DDR RAM、周辺v路、I/Oなどを集積する「高級LSI」ACAP(Adaptive Compute Acceleration Platform:適応型演Q加]プラットフォーム)の狙いをらかにした。

図1 Xilinx社CEOのVictor Peng
これは、実形屬魯轡螢灰鵐ぅ鵐拭璽檗璽兇鮹いた2.5次元LSIそのものであるが、これからのj模LSIの妓として、CPUとDSP、AIエンジン、そしてFPGAを集積することでほとんどての機Δ鮗存修任るようになる。@でありながらプログラム可Δ聞]エンジンとなる。この高級な半導を開発したのは、もはやFPGAの会社ではなく、データ爆発に官できる会社を指向するためだ、と今QのはじめにCEOに任したVictor Peng(図1)は述べた。
提案されたACAPに集積されるv路ブロック(図2)を紹介しよう。jきなブロックは4つある。kつはスカラー処理エンジンと}ぶ、いわゆるCPUである。ここにはArm Cortex-A72アプリケーションプロセッサと、Arm Cortex-R5リアルタイムコントローラを搭載している。いわばソフトウエアプログラミングでカスタマイズする、やや高級なCPUである。このLSIをU御するv路がCortex-R5である。
図2 Xilinxが提案した2.5D-ICのACAP 出Z:Xilinx
そして、VARSALと}ぶ適型ハードウエアエンジンは、専の演Qv路を作るためのハードウエアv路である。ここはFPGAを基本とする専IPv路であるが、最j3個の専v路を予めFPGAで構成しておき、動作中にその専v路を切りえることでダイナミックな再構成v路を実現するというlだ。このIPは、小さな機械学{のアプリケーションや再W可Δ淵蹈献奪などをタイムシェアリングのように順次切りえていく。場Cに応じてアダプティブに切りえればよいため、アダプティブ(適応型)ハードウエアエンジンと}んでいる。ちなみにVARSALという}び@は、H様性をT味するVersatileと@性をT味するUniversalを合わせた]語である。
つ`がDSP(デジタル信ス萢)エンジンである。DSPは、積和演Q専のマイクロプロセッサだが、高度なモデルを数値演Qするのに使うことがHい。通信基地局のモデムのアルゴリズムをQしたり、O分専に]ち立てたモデルをQしたりするため、32ビット(単@度)ないし64ビット(倍@度)のように@度の高い浮動小数点演Qが可Δ任△襪世韻任呂覆、カスタマイズされたデータパスを低いレイテンシで度の細かいU御が可Δ世箸靴討い襦
四つ`が推b専のAIエンジンである。AIの推bと高度な信ス萢に向いた、高スループットで低レイテンシ、高い電効率を長としている。Xilinxはディープラーニングの推bプラットフォームを}Xけている中国Deephi社を今Qの7月にA収しており、XilinxはA収以iからこのスタートアップ(2016Q設立)に出@していた。しかもDeephiは推bアクセラレータをFPGAで実△靴討い燭里如⊃靴靴ACAPにもOにDり込むことができた。CaffeやTensorFlowなどのフレームワークで学{したデータをこのAIエンジンでコンパイルしてSoCに実△任る。
AIエンジンは、並`処理する場合にはSIMD(Single Instruction Multiple Data)命令で行`演Qを行い、VLIW命令でスケジューリングU御する。AIエンジン内のQ|ベクトルプロセッサコアはメモリとセットになっており(図3)、機械学{ではこの小さなベクトルプロセッサとメモリの瓦v路で構成され、並`で演Qしていく。
図3 集積したAIエンジンのIPコア 出Z:Xilinx
周辺v路として、インタフェースではPCIeのGen4×16や、AXI-DMAなどを搭載している。メモリとしてはDDR4-3200やLPDDR4-4266などのDRAMや、DRAMアレイチップを3次元ICとして接されたHBM(High Bandwidth Memory)を搭載できる。さらに100Gbpsのマルチレートのイーサネットや暗イ愁┘鵐献鵑眦觝椶任る。もちろん、32Gbpsないし58Gbpsの高]インタフェースPAM4もTする。最高]の112GbpsもTするがこれは7nmプロセスで実現する予定となっている。
さらに、今後の5Gワイヤレス通信向けのモデムや次世代GPS向けのRF-ADC/DAC、デジタルアップコンバータとダウンコンバータも内鼎靴RFシグナルチェーンIPも△垢襦そして、Qv路ブロックをつなぐ配線はバス擬阿任呂覆、スイッチで切りえるようなNoC(Network on Chip)擬阿鯑Dる。このNoCのIPは独Oに開発したもの。単なるリピータを含むのではなく、ヘテロなエンジンのアービトレーション(データ合をD理する仕組み)が可Δ聞暑]になっている。
最小∨7nmプロセスで]するこのACAPは、最高級のv路を集積しており、顧客の要求に応じてv路を切り分け、さらに再WできるフォーマットをDる。