Apple が Hey Siri 機能のウェイクワードをどのようにして選択したのか疑問に思ったことがあるなら、Siri のトリガーフレーズに焦点を当てた最新の機械学習の記事がその答えを示しています。
Apple によれば、「Hey Siri」が選ばれたのは、発音しやすいからだそうです。
「Hey Siri」というフレーズは、もともとできるだけ自然なものになるように選ばれました。
実際、この機能が導入される前から、ユーザーはホームボタンを使用して Siri を起動し、うっかり「Hey Siri」をリクエストの先頭に付けてしまうほど自然な動作でした。
この引用は、クパチーノのテクノロジー大手であるアップルが、機械学習、人工知能、自社製チップの力を活用して、製品にスマート機能を追加する方法を詳しく説明した、アップルの魅力的な機械学習シリーズの最新記事から抜粋されたものである。
https://www.youtube.com/watch?v=ufBLI6bB9sg
簡潔で発音しやすいにもかかわらず、インターネット接続なしでウェイクフレーズを認識することは、さらなる課題を伴います。例えば、Appleの初期のオフライン実験では、正しく認識された呼び出しがある程度の割合で発生する一方で、意図しない起動が許容できないほど多く発生することが示されました。
チュートリアル: HomePodでHey Siriを一時的に無効にする方法
記事では、Appleが音声認識技術を用いてこれらの課題をどのように克服したかを解説し、「なりすまし承認」と「誤拒否」の確率を最小限に抑えたと説明しています。デバイスで「Hey Siri」を設定する際に、ウェイクワードを複数回繰り返すように求められるのは、音声認識技術のおかげです。
話者認識について:
話者認識(SR)の全体的な目標は、声からその人の身元を特定することです。音声認識が「何が話されたか」を特定することを目的とするのに対し、私たちが関心を持つのは「誰が話しているか」です。「Hey Siri」のように事前に既知のフレーズを用いて行われるSRは、しばしばテキスト依存型SRと呼ばれます。そうでない場合は、この問題はテキスト非依存型SRと呼ばれます。
記事によると、Siri の将来のバージョンでは、「Hey Siri」のトレーニングはまったく必要なくなる可能性があるという。
Apple は、Hey Siri の意図しない起動が 3 つあることも指摘しています。主なユーザーが同様のフレーズを言ったとき、他のユーザーが「Hey Siri」と言ったとき、そして他のユーザーが同様のフレーズを言ったときです。Siri チームは、後者を「最も迷惑な誤起動」と表現しています。
チュートリアル: Siriを使ってHomePodでアラームを作成・管理する
iPhoneメーカーの「Hey Siri」に関する取り組みは、国際音響・音声・信号処理会議に提出した研究に基づいている。
最近、Siriを何に使っていますか?Siriファンの方は、お使いのAppleデバイス(どのデバイス)に「Hey Siri」機能を設定していますか?
下記にコメントを残してください。