Appleは月曜日にMachine Learning Journalブログで公開した新しい記事で、ワイヤレススマートスピーカーHomePodが機械学習を使って遠距離場の精度を高める仕組みを詳しく説明している。これによりSiriは背景音を無視または抑制し、騒がしい環境でユーザーの音声によるリクエストをより正確に理解できるようになる。
記事より:
HomePodにとって典型的な音響環境には、エコー、残響、ノイズなど、多くの課題があります。ユーザーの口元に近い場所で動作するiPhoneのSiriとは異なり、HomePodのSiriは遠距離環境でも問題なく動作する必要があります。ユーザーは、HomePodの設置場所を気にすることなく、ソファやキッチンなど、様々な場所からSiriを起動したいと考えています。
HomePodが遭遇する可能性のあるあらゆる環境問題に対応する完全なオンラインシステムには、様々なマルチチャンネル信号処理技術を緊密に統合する必要があります。そこで、オーディオソフトウェアエンジニアリングチームとSiri Speechチームは、教師ありディープラーニングモデルと教師なしオンライン学習アルゴリズムの両方を統合し、複数のマイク信号を活用するシステムを構築しました。
システムは、「Hey Siri」トリガーフレーズ検出器からのトップダウン知識を使用して、音声認識装置に最適なオーディオ ストリームを選択します。
記事の残りの部分では、オンライン信号処理にさまざまな機械学習技術を使用する方法、Apple が直面した課題、エネルギー効率を確保しながら環境とアルゴリズムの堅牢性を実現するためのソリューションについて説明します。
簡単に言うと、HomePod の Siri は、線形適応フィルターのセットを使用してスピーカーとマイクの間の複数の音響経路をモデル化し、音響結合をキャンセルするマルチチャンネル エコー キャンセレーション (MCEC) アルゴリズムを実装しています。
HomePodのスピーカーとマイクの近接性により、特にユーザーがデバイスから離れた場合、再生信号がマイクの位置におけるユーザーの音声コマンドよりも大幅に大きくなることがあります。実際、エコー信号は遠距離音声信号よりも30~40dB大きくなることがあり、その結果、大音量で音楽を再生している際にマイクでトリガーフレーズを検出できないことがあります。
TLDR: MCEC だけでは、音声コマンドから再生信号を完全に削除することはできません。
大音量で音楽を再生しながら録音された Siri コマンド: マイクの信号 (上)、MCEC の出力 (中央)、Apple のマスクベースのエコー抑制によって強化された信号 (下)
HomePodは、MCEC後に残った再生コンテンツを除去するために、Appleの高度な機械学習モデルの助けを借りた残留エコー抑制(RES)アプローチを採用しています。トリガーフレーズ検出を成功させるために、RESは残留線形エコーを軽減するなどの処理を行い、特にダブルトークやエコーパスの変化がある場合に効果を発揮します。
必ず投稿全体を読み、セクション 7 までスクロールしてください。そこには、複数のカラフルな波形の画像とその下のリンクがあり、大音量で再生されている音楽と HomePod のツイーターとウーファーによって生成される再生信号によって、ユーザーの要求がどの程度抑制されるかを自分の目で聞くことができます。
豆知識: Apple のマルチチャネル信号処理は、1.4GHz デュアルコア A8 シリコンの 1 つのコアで実行され、チップのシングルコア パフォーマンスの最大 15% を消費します。
HomePod は Siri だけでなく、さまざまなことに機械学習を活用しています。
デバイス上で実行されるコンテンツ推奨アルゴリズムは、HomePod のデジタルオーディオ処理およびサウンド最適化技術と同様に、機械学習の恩恵を受けています。