Appleは木曜日、同社のMachine Learning Journalブログに新しいエントリを公開した。このエントリでは、地元のレストラン、企業、その他の場所など、地図上のあまり知られていない名前の付いた興味のある地点をSiriが認識する能力について、非常に技術的に解説している。
「ディープラーニング技術の幅広い採用により、自動音声認識システムの精度は近年驚異的に向上した」と投稿では指摘している。
「しかし、パフォーマンスの改善は主に一般的な音声の認識において達成されました。一方、小規模な地元企業のような名前付きエンティティの正確な認識は、依然としてパフォーマンスのボトルネックとなっています。」
Apple は、ユーザーの位置情報を自社の音声認識システムと、いわゆる地理位置情報ベース言語モデル (Geo-LM) に組み込むことで、この課題に対処しました。
この組み合わせの結果、Siri はユーザーが意図する単語の順序をより正確に推定できるようになります。
これにより、大手チェーン店を除くボストン、シカゴ、ロサンゼルス、ミネアポリス、ニューヨーク、フィラデルフィア、シアトル、サンフランシスコでSiriのエラー率が41.9~48.4%減少した。
米国では、Appleは人口の約80%をカバーする169の統合統計地域(Combined Statistical Areas)ごとに1つのGeo-LMを保有しています。また、世界中の統合統計地域に定義されていないすべての地域をカバーするグローバルGeo-LMも存在します。
位置情報と Geo-LM を組み合わせることで、システムは興味のあるポイントの名前に関してカスタマイズされた結果を提供したり、位置情報が利用できない場合はグローバル Geo-LM にフォールバックしたりできます。
知っておくべきこと:Siriの音声認識における地域固有の言語モデルにより、地元の目的地を簡単に見つけることができます。この方法は言語に依存しないため、Geo-LMのサポートをアメリカ英語以外のロケールに拡張するのは非常に簡単です。
詳細については、Apple の Machine Learning Journal をご覧ください。