AppleとGoogleがモバイル機器での音声認識を急速に主流にしようとしていることを認識した米国の通信事業者AT&Tは本日、AT&T開発者向けウェブサイトで現在入手可能なソフトウェア開発キット(SDK)を通じて、独自のWatson音声エンジンをiOSおよびAndroidプラットフォームに公開すると発表した。
AppleのSiriやAndroid(およびGoogle Now)のGoogle Voice Actionsと同様に、Watsonは入力を受け取り、分析し、1つ以上のサービスを実行して結果を返します。入力は、音声ファイル、音声、ジェスチャー、顔認識、テキストなどに対応しています。Watsonの動作動画はこちらです。
AT&T Labs ResearchプロジェクトであるWatsonは、話し言葉を即座にテキストに変換できます。iOSおよびAndroid開発者は、公式Watson SDKを利用して、高度な音声認識機能をアプリに迅速に追加できるようになりました。
[チューブ]uDI6ZacK8ok[/チューブ]
Watson は時間の経過とともにさまざまなアクセント、話し方のパターン、方言を学習できるほか、話者やプラットフォームの違いや背景環境を区別することもできます。
AT&Tによると:
Watson は音声をテキストに変換できるだけでなく、音声とタッチスクリーンのタップ (「ここから一番近いスターバックスを見せて」) やその他のジェスチャーなどの他のモダリティを組み合わせて、情報をデバイスに送信することもできます。
Watson は、複数の言語が絡む場合でも、音声から音声への変換を行って翻訳を行います。1 つの言語での音声入力をリアルタイムでテキストに変換し、続いてテキスト翻訳 (ほとんど遅延なし) を行い、最後に文末に翻訳された文を音声で出力します。
以下は、Watson API を利用する無料の AT&T Translator アプリです。
[チューブ]6i4bJrRISC4[/チューブ]
サポートされる主な機能には、Web 検索の音声テキスト変換、ビジネス検索の音声テキスト変換、ボイスメールのテキスト変換、SMS の音声テキスト変換、質問と回答の文字起こし、TV の音声テキスト変換、一般的な音声テキスト変換などがあります。
Siri ではありませんが、Watson は、いくつかの非常にユニークな高度な機能を網羅した包括的なリストで感銘を与えています。
現在、iOS 開発者は Siri を利用できません。Apple がまだ API 経由でその技術を公開していないためです。iOS 6 で API が公開されるという噂がありましたが、Apple はその計画を延期したようです。