Mac

Apple Intelligenceのリアルタイム文字起こしはOpenAIのWhisperよりもはるかに高速

Apple Intelligenceのリアルタイム文字起こしはOpenAIのWhisperよりもはるかに高速

Apple Intelligence は、OpenAI の同等の技術である Whisper の 2 倍の速度で、音声をテキストにリアルタイムで書き起こすことができることが分かりました。

iOS 26 のメッセージでの翻訳。

MacStories のライター John Voorhees 氏は息子とともに、iOS 26、iPadOS 26、macOS Tahoe 26 で導入された Apple の SpeechAnalyzer および SpeechTranscriber フレームワークを使用して、Yap と呼ばれるシンプルなコマンドライン ツールを作成しました。これにより、開発者は苦労せずにアプリに文字起こし機能を実装できるようになります。

その結果、Appleの技術は、2022年9月に発表されたOpenAIの音声認識システムWhisperよりも約2倍速く音声を書き起こすことが判明しました。Whisperはアクセントを理解し、背景ノイズ、音声、専門用語を区別することができます。また、リアルタイム翻訳の点でもMacWhisperを大幅に上回りました。

Apple Intelligenceによる音声のリアルタイムテキスト化はOpenAI Whisperよりもはるかに高速

Voorhees氏によると、Apple IntelligenceベースのYapは、7GBの4K動画ファイル(約34分)を45秒で字幕に書き起こしたという。これに対し、OpenAIのWhisperテクノロジーを基盤とするMacアプリMacWhisperは、Large C2大規模言語モデル(LLM)を使用して同じファイルを3分55秒で書き起こした。Large V3 Turbo LLMに切り替えると、MacWhisperは1分41秒と大幅に短縮されたが、それでもApple IntelligenceベースのYapの2倍以上の速度である。

Apple Intelligenceは、文字起こしにApple独自のLLMを使用しています。私はApple Intelligenceの大ファンではありませんが、ライブ文字起こしと翻訳はiOS 26、iPadOS 26、macOS Tahoe 26で最も印象的な機能の一つです。

WWDC25のまとめ記事でもお伝えしたように、iOS 26、iPadOS 26、macOS Tahoe 26では、ライブ翻訳機能がシステム全体の多くの場所で利用できます。電話アプリでは、この機能は外国語での通話を翻訳します。通話を録音すると、通話の書き起こしが自動的にメモに保存されます。

iPadでライブ翻訳機能付きのFaceTimeビデオ通話
FaceTimeでのライブ翻訳。画像:Christian Zibreg/iDB/Apple

FaceTimeビデオ通話では、参加者が話している間にライブキャプションが表示されます。メッセージアプリでは、メッセージを入力しながら送信メッセージが自動的に外国語に翻訳され、その逆も同様です。ミュージックアプリでは、Apple Intelligenceがリアルタイムの歌詞を即座に翻訳します。

iOS 26 のメッセージでの翻訳。

前述の通り、Appleの新しい音声認識フレームワークは、サードパーティ開発者が独自のアプリに実装できるようになっています。OpenAIのWhisperもサードパーティ開発向けに公開されており、Voorhees氏がテストに使用したMacWhisperをはじめ、既に多くのAIアプリに採用されています。

Milawo
Milawo is a contributing author, focusing on sharing the latest news and deep content.