アーム社が実にx場を拡jするためつの新をARM Forum 2010で発表
最j}のIPベンダーである英国のアーム社はARM Forum 2010を11月11日に開、新をつ発表した。このうちハイエンドのグラフィックスIPであるMali-T604グラフィックスプロセッサに関しては記v会見を開いたため、すでに報Oしたメディアもある。実際に「今v発表した新はつある」(同社COOのGraham Budd)。

図1 グラフィックス機Δ悗陵弋瓩く
より性Δ屬欧燭里GPU(グラフィックスプロセッサユニット)Mali-T604であるが、残りの二つは、マルチコアによる並`処理をスムーズに行うやすくするためのバスインターコネクトであるCoreLink、そして駘IPとして最適化したCortex-A9を今すぐシリコンにインプリメントするためのパッケージPOP(プロセッサ最適化パック)サービス、である。3〜5Q後のスマートフォンやタブレットへの応を考えたとしては、Mali-T604とCoreLink、今すぐタブレットを出荷するためのSoCを作りたい、と考えるユーザーにはPOPサービスのWが可Δ任△襦いずれも来のアーム社の顧客の枠を広げ、数Q先のから今すぐ使えるまでカバーできるように広げている。
発表したMali-T604は果てしないグラフィックス性Δ悗陵弋瓩鳳えるためのIPだ。同社メディアプロセッシング靆マネージャーのSteve Steeleによると、来の携帯やスマートフォンと比べ解掬戮WVGAからHDの1080pと比べ5倍以屬忙\加し、さらにOpenGL ES1.1で設できる度のコンテンツから今の要求はその10倍の複雑さに達しているという。しかも携帯機_に使うことを考慮に入れると、パワーバジェットとしては平均850mW以下に抑える要がある。
消J電を屬欧困棒Δ屬欧襪燭瓠▲◆璽爐魯泪襯船灰△悗粒板ダを屬欧襪燭瓩離灰鵐團紂璽謄ング}法の工夫と、グラフィックス画Cを表するためのレンダリングを工夫した。
図2 Mali-T604GPUコアの基本アーキテクチャ
コンピューティングξを屬欧襪燭瓠▲轡鵐哀襪GPUコアの中に3|類のパイプライン構]をとり、性Δ屬欧襪閥Δ縫侫譽シビリティも屬欧訐濕を採っている。そして最新鋭のプロセッサコアであるCortex-A15とGPU、そしてメモリーを効率よくレイテンシを少なく保つために新CoreLinkバスで接する。グラフィックス機Δ屬欧襪燭瓠同時に画C屬痢岾─廚筺岷董廚鯏匹蠅弔屬垢燭瓩離轡А璽澄璽灰△4個並`に動作させる。それらのコアで実行すべきタスクを割り当て、電管理も行う役割をeつのがジョブマネージャーである。
こういったマルチコア、マルチスレッド擬阿離廛蹈札奪汽◆璽テクチャでは共~メモリーであるL2キャッシュのコヒーレンシを高めることが_要なカギを曚襪海箸砲覆襦メモリーのコヒーレンシとは、共~メモリーの内容をk致させる\術のこと。マルチコアのような複数のコアで処理する場合、共~メモリーの内容がコアごとにバラバラでは性Δ忘垢jきくなってしまう。このためキャッシュに使うメモリーの内容を同じにしてコアごとのキャッシュミスがきないようにしておく。このため、共~メモリーを管理するMMU、そしてメモリーのコヒーレンシを管理するSCU(スヌープU御ユニット)をeつ。これによってシェーダーコア間のコヒーレンシを管理できる。並`処理としては、最j256スレッドまで管理できる。
図3 GPUコア1個内も並`処理している
こういったH数のシェーダーコアに適した並`処理をGPUで行うアーキテクチャを構成したことは、実はレンダリング}法とも関連する。消J電を屬欧覆い燭瓩縫瓮皀蝓爾離丱鵐鰭をらしているが、そのために1つの画Cを例えば4×4分割して、分割した覦茲鬟織ぅ襪扉}び、そのH数のタイルを塗りつぶすためにH数のシェーダーコアで並`処理する。このタイルベースアーキテクチャを実行するためにマルチスレッド擬阿諒怠`処理を導入したlだ。
タイルベースアーキテクチャでは、Q順Mに優先度をめ、まず表から見えない霾のシェーダーは行わない。次に画C後ろ笋砲△覲┐離丱奪グラウンドを塗りつぶす。そのバックグラウンドに乗っている徴的な霾のタイルを処理する。この徴的な霾がタイル間にまたがっていることがHいため、徴を順位けしながら徴のあるタイルだけを処理する。このようにしてレンダリングの要な霾のタイルから順番にQしていくことで、無GなQを行わないように工夫している。
GPUコアはもちろんマルチコアも可Δ任△蝓∧数のGPUコアをつなぎ、メモリーのコヒーレンシを確保するためにCoreLinkバスを設した。CoreLinkバスはアーム社が来から使っているAMBAバスのハイエンド版ともいえるバスで、AMBA4 キャッシュコヒーレントインターコネクト(CCI-400)と}んでいる。キャッシュのW効率が高くなりキャッシュミスがる。ソフトウエアでキャッシュのメンテナンスを行う要もない。
図4 CPUとGPUをつなぎメモリーのコヒーレンシを高めるためのCoreLinkバス
CoreLinkを通じて、GPUからCPUのキャッシュを探しに行くことができ、キャッシュデータの共~化が~単になる。このため不要なキャッシングをなくすこともでき、Q効率が屬ることになる。
現実的なソリューションを欲しい顧客に向けた3番`の新であるPOPサービスは、シリコンにv路を焼きけすぐに動作を実証できるパッケージサービスだが、ファウンドリをパートナーとしてファブレスやIDMの顧客に提供する。例えば、32nmのハイkメタルゲートのサムスンのプロセスを使ってSoCを]したり、1.7GHzで動作するテキサスインスツルメンツ(TI)のOMAPプロセッサを実現したりしている。SoCをすぐに設]したい顧客に適したサービスでCortex-A9の駘IPのほかにARMが認定するベンチマークをテストでき、リファレンス}法も提供する。ファウンドリパートナーとしては、サムスンに加え、TSMC、グローバルファウンドリーズも使える。
参考@料
1) ARM社ニュースリリース
ARM Heralds New Era In Embedded Graphics With Next-Generation Mali GPU