AIスピーカーの感度を屬欧XMOSのマルチスレッドプロセッサ
盜颪牧れること3Q。日本でもAIスピーカーが登場してきた。Googleが「Google Home」、
Amazonは「Amazon Echo」、LINEは「Clova WAVE」などが日本語を理解する音m認識ソフトウエアを使ったAIスピーカーという@称で登場してきた。音mもビームフォーミングで指向性を調Dすることで認識率を高めることができる。これを可Δ砲垢襯船奪廚魃僖侫.屮譽垢XMOSが投入している。
AIスピーカーは、盜颪任魯妊献織襯▲轡好織鵐箸扉}ばれ、かなり普及している。元々Apple社のiPhoneで「ヘイ、シリ(Hey, Siri)」と}びかけることで音m認識操作が普及し始めた。それをスマホではなく、スピーカーという形でGoogleやAmazonなどが世の中に出している。GoogleのAIスピーカーGoogle Homeは「OK、グーグル」と言い、Amazonは音m認識\術「アレクサ(Alexa)」と}ぶ。ただし、実際には、スピーカーにZづいたり、j(lu┛)きなmを出したりしないと認識できないことがHい。
そこで、音m入にもビームフォーミング\術をいて、mを出す人の(sh┫)へマイクを向け、音mをRうことで、認識率を屬欧襪海箸できる。ビームフォーミングは、元々レーダーを機械的にスキャンするのではなく、小さな平Cアンテナを並べた構]で定の(sh┫)向へビームの位相を変えながら順々にシフトさせることで機械的なスキャンの代わりを担う。いわば、で擇泙譴織侫А璽坤疋▲譽ぅ譟璽澄雫\術である。電Sの代わりに音mを使うのが今vの\術である。
例えば、「アレクサ」、と言えば、mのする(sh┫)向へマイクの音mの位相をずらし、音を出す人の(sh┫)向に等価的に向ける。Embedded Technology 2017tでXMOSは、360度から音をRうタイプのリファレンスデザインと、スピーカーを壁などにDりけて180度の(sh┫)向の音をRうタイプのリファレンスデザインの2|類のボード(図1)をtした。XMOSはファブレス半導メーカーではあるが、チップをtしても機Δ鮗卒兇任ないため、ボードにしてMEMSマイクもDりけたリファレンスデザインボードもTした。このボードのブランド@は VocalFusion Speaker。
図1 丸いボードが360度、細長いボードが180度のJ(r┬n)囲で音をRう
XMOSのチップは、xCOREというブランド@のシングルコアでマルチスレッド\術のCPUをベースとする。XMOSの\術はCPUの中のALU(Q術演Qユニット)を~効する。k般にはシングルCPUコアにシングルスレッド処理だが、ALUは通常20〜30%度しか使わないので、残りを~効W(w┌ng)するのがXMOSの\術だ。XMOSはシングルCPUコアの演QをALUに数命令処理を行わせることのできるマルチスレッドを適した。そのためには、命令のスケジューリングを担うハイパーバイザを設している。k般のマルチコアのマルチスレッドは、CPUコアの並`度を屬欧討い襪燭瓮船奪C積はコアの数だけ\えるが、XMOSの\術はコアの数を\やさずに並`度を屬欧討い襪燭、小さなチップC積で済む。つまり低コストで並`演Qを提供するlだ。
ソフトウエアベースでオーディオ処理を担うチップとして、これまでを出してきた。すでに世cに200社の顧客がいる、とXMOS社の日本カントリー・マネージャーのj(lu┛)川崇(図2)は言う。XMOSは2017Q7月に音m処理\術を}に入れるため、盜颯椒好肇鵑鬟戞璽垢箸垢Setem Technology社をA収、今vのチップに音m\術を実△靴。今vの音m認識ソフトウエアはディープラーニングで音m認識を行うSensory社のをインストールしている。
図2 XMOS社の日本カントリー・マネージャーのj(lu┛)川崇
今vのICxCORE VocalFusionには2|類のチップがあり、4チャンネルのデジタルマイクインタフェースをeち、音m処理DSPを内鼎、その他Q|のデジタルインタフェースをeつXVF3000と、これにキーワードトリガー検出機Δ鮟言僂靴XVF3100である。キーワードトリガー検出とは、「ヘイ、シリ」のように、これから音m認識動作に入ることを伝えるための機Δ任△。
このh価ボードに載せたMEMSマイクはInfineon TechnologiesのS/N比が69dBとj(lu┛)きいIM69D130。Infineonは、MEMSマイクの提供だけではなく、XMOSへの出@もこの10月にめている。