Appleは水曜日、Siriの新しい合成音声の作成に使用されたディープラーニング技術を詳述する3つの新しい記事を公開しました。これらの記事では、今週後半にスウェーデンのストックホルムで開催されるInterspeech 2017カンファレンスで発表される予定の他の機械学習トピックも取り上げられています。
Siri チームからの以下の新しい記事が公開されました。
- Siriの音声のためのディープラーニング - デバイス上のディープ混合密度ネットワークがハイブリッド単位選択合成にどのように使用されるかを詳しく説明します。
- 逆テキスト正規化 - ラベル付けの観点からのアプローチ
- ニューラルネットワーク音響モデルの改善 - クロスバンド幅とクロスリンガル初期化を利用することで、
最新の記事で使用されている専門用語の技術的な詳細や、その高度な専門性を理解するのに苦労している人は、あなただけではありません。
Apple の開発者向けの複雑なドキュメントやその他の専門的なドキュメントを詳細に読むことには何の問題もありませんが、詳細な説明だけを読むと本当にバカバカしく感じます。
iOS 11 では、その他の改善点の中でも、さらに高度なインテリジェンスと Siri の新しい音声が提供されます。
Appleのパーソナルアシスタントは、もはや声優が録音したフレーズや単語を使って文章を構成したり、返答したりすることはありません。iOS 11(および他のプラットフォーム)のSiriは、プログラムで生成された男性と女性の声を採用しています。これははるかに難しい音声合成技術ですが、非常にクリエイティブな可能性を秘めています。
例えば、新しいSiriの音声は、デバイス上の機械学習と人工知能を活用し、会話の文脈を考慮しながら、イントネーション、ピッチ、強調、テンポをリアルタイムで調整します。Appleの記事「Siriの音声のためのディープラーニング」では、iOS 11のSiri音声の改善を支える様々なディープラーニング技術について詳しく説明されています。
冒頭の段落によると:
Siriは音声合成を使ってコミュニケーションをとるパーソナルアシスタントです。iOS 10からiOS 11の新機能まで、Siriの音声はディープラーニングをベースに構築されています。その結果、より自然で滑らかな音声が実現し、Siriの個性が際立ちます。
新しい記事は、機械学習、人工知能、および関連研究の分野における同社の取り組みを紹介するために数週間前に開設された公式のApple Machine Learning Journalブログに掲載された。
アップルは、人工知能や機械学習の分野で最も優秀な人材を雇用できないのは、彼らの研究成果の発表を認めないからだ、という批判を受けて、ブログの開設を決めた。
最初の投稿「合成画像のリアリティ向上」は7月に公開されました。この詳細な記事では、ラベル付けされていない実データを用いてシミュレータから得られる合成画像のリアリティを向上させつつ、アノテーション情報を維持する新しい手法について概説しています。