スパンション、音m認識専コプロセッサを開発、760ビットの内陬丱江W
NORフラッシュメモリをj量に使う新しいが開けてきた。音m認識の書やT味解析などのデータベースをNORフラッシュにj量にため込むというである。高]・不ァ発性・j容量という性を擇した応といえる。スパンションがNORフラッシュをベースにした音m認識のチップを開発、音m認識\術の要求の咾O動Zx場に向けた。

図1 音m認識専のコプロセッサ 出Z:Spansion
音m認識(ボイスコントロールともいう)は、iPhone 4SがSiriと}ぶ新しいユーザインターフェースとして、日本x場に浸透しつつある。Siriは、スマートフォンの中に音m認識v路を入れていない「Zくのイタリアンレストランを探して」といえば、その音mデータだけをクラウド屬離灰鵐團紂璽燭冒り、パターンマッチング処理、T味け処理などのデータベースとのマッチング処理をQした後、T果だけを送り返すという擬阿鮑里辰討い襦すなわち音m認識機Δてクラウドコンピュータ屬嚢圓辰討い襦このためスマホ笋撚嗣m認識の電を消Jする要がなく、電池の命を長く保っている。NTTドコモも同様な擬阿鮑里襦
今vスパンションが開発したチップは、クラウドとのやりDりはなく、CPUともk緒に動作するコプロセッサである(図1)。すなわち音m認識のてのプロセスをこのチップだけで担うのではなく、ある霾はCPUに負担してもらうというチップである。クラウドとのやりDりがない分、高]に処理でき、O動Z応に向いている。
音m認識では、言を音素に分け、さらにT味を抽出する。さらに会Bの管理、推bを行う。例えば、「Zくのレストラン」は「chi-ka-ku-no-re-su-to-ra-n」というように音素に分け、それぞれのT味をeつ音の書(音mデータベース)と比較し、ZいT味を抽出する。この言は個人差や地気妓、性別によっても違う。発音する人によっては「chi-ka-ku-no」霾が「tsu-ka-ku-no」と認識されることもある。それを「Zくの」というT味を抽出するのである。聞こえた言がT味と照らし合わせてどのくらいk致しているのか、スパンションのチップでは、そのT味に点数をけるスコアリングという作業を行う(図2)。スコアが高いほど確なT味にZいというlだが、このチップはスコアリングまでの役割を担う。このスコアをCPUへ渡し、今度はT味をeつ言の書や言語のデータベース内の言からスコアに合った言を検索する。この処理は、CPUが負担する。
図2 音mにスコア(点数)をけ比較する 出Z:Spansion
スパンションは、音m認識ソフトウエアで長Qの実績があるj}のNuance Communications社と提携し、そのアルゴリズムをチップに組み込んだ。そのアルゴリズムは、Q国の言語での音mに応じて、それぞれの音m言語モデルを作りチップにストアしておく。入された音mと、ストアされた音m言語モデルのデータベースを比較し照合してスコアをける。このアルゴリズムをハードワイヤードで実行したのか、マイクロプログラム擬阿納孫圓靴燭里らかにしていないが、カスタムロジックとメモリとのやりDりを並`処理で行っているという。
ロジックとメモリとのバス幅は760ビットと広く、このバスを通るデータレートは1.2Gバイト/秒と]い。
音m認識\術の認識率を屬欧訃豺腓砲、メモリを\やすことよりも賢いアルゴリズムによることがHいという。ここにノウハウがある。ただ、メモリそのものは1言語当たり20〜30MB度でBりるという。ただし、日本語を基本とする認識でも、音楽のタイトルなどには英語やフランス語であることがHいため、それらの言語モジュールもメモリとして格納しておく要がある。Q言語モジュールとして、1〜3モジュールを搭載したチップと、10〜12モデルを搭載したチップをTした(図3)。
図3 パッケージサイズ10mm角のコプロセッサ 出Z:Spansion
音m認識ソフトウエアをCPUだけで処理する場合よりも、このコプロセッサとCPUをWする場合、スピードは2倍、CPU負荷は半するという。実際、スパンションが記v会見会場でデモした例では、「5204 East Ben White Boulevard, Austin, Texas」とBしてからGoogleマップを表するまで、CPUだけの現行のシステムでは8.7秒かかったが、コプロセッサとCPUを使った場合は3.4秒で済んだ。CPU負荷は52%をした。
会見に同席した、ニュアンスコミュニケーションズジャパンのマーケティングマネージャーの峙mによると、j容量NORフラッシュとロジックを1チップに集積することで、性別や妓世硫嗣mデータを格納でき、今後は周囲ノイズからの音mをRう場合にも~効だろうと述べた。