Appleがシネマティックモードの開発でライブプレビューを犠牲にしなかった理由（およびその他の豆知識）

Appleのエンジニアたちは新たなインタビューで、ライブプレビューを犠牲にすることなく、iPhone 13の新しい映画撮影モードを作成するために、最新のAppleチップによって提供されるすべてのパワーをどのように活用したか、そしてこれらすべてをフレームごとのドルビービジョンHDRカラーグレーディングで実現したかを説明しています。

ストーリーのハイライト:

シネマティックモードは新しいA15チップなしでは実現できない
ニューラルエンジンを使用して人物を識別し、その他のAIトリックを実行します。
さらに、各フレームはドルビービジョンカラーグレーディングを受けます
これらはすべてリアルタイムで実行され、カメラアプリでライブプレビューできます

YouTubeで公開されたAppleのiPhone 13 Pro紹介ビデオのワンシーン。シネマティックモードのビデオが紹介されている。 — 画像クレジット: Apple / YouTube

AppleがiPhone 13のシネマティックモードの開発に取り組んだ経緯を公開

AppleのワールドワイドiPhone製品マーケティング担当副社長Kaiann Drance氏と、同社のヒューマンインターフェースチームのデザイナーJohnnie Manzari氏が、TechCrunchのMatthew Panzarino氏と対談し、すべての新しいiPhone 13モデルで利用できる目玉となる新機能であるシネマティックモードの背後にあるテクノロジーについて議論した。

シネマティックモードは、動画用のポートレートモードと説明されています。視線検出機能により、シネマティックモードは撮影中に被写体がカメラに反応すると自動的にフォーカスを合わせます。また、撮影中に被写界深度効果を手動で調整したり、後から写真アプリで被写界深度効果を変更したりすることも可能です。

ポストプロダクションでボケを調整する機能を維持するために、シネマティックモードで撮影されたビデオの各フレームには独自の深度マップが付属しています。

高品質な被写界深度を動画に取り入れることは、ポートレートモードよりもはるかに困難だと認識していました。写真とは異なり、動画は撮影者が手ブレも含めて動くように設計されています。つまり、シネマティックモードを人物、ペット、その他の物体など、あらゆる被写体に機能させるには、さらに高品質な被写界深度データが必要であり、その深度データをフレームごとに継続的に取得する必要がありました。こうしたオートフォーカスの変化をリアルタイムでレンダリングするには、膨大な計算負荷がかかります。

チームはAppleの最新A15 Bionicチップのパワーと、Neural Engineと呼ばれる同社の機械学習アクセラレータを最大限に活用し、シネマティックモードのビデオをドルビービジョンHDRでエンコードすることができました。チームにとってもう一つの優先事項は、ビューファインダーでのシネマティックモードのライブプレビューでした。

Appleのチームは、世界最高峰の撮影監督やカメラマンと対話しました。また、映画館に足を運び、時代を超えた映画作品の事例を視察しました。その結果、フォーカスとフォーカスチェンジは「ストーリーテリングにおける基本的なツールであり、部門横断的なチームとして、それらがいつ、どのように使われているかを正確に理解する必要がある」ことが明らかになりました。

撮影監督の方々と、なぜ浅い被写界深度を使うのか、そしてそれがストーリーテリングにおいてどのような役割を果たすのかについてお話できたのも、本当に刺激的でした。そして、私たちが得たのは、これは実に時代を超えた洞察ですが、観客の注意を誘導する必要があるということです。

精度が鍵となる理由を説明する中で、マンザリ氏は、ポートレートモード機能の開発を通して、Appleがボケのシミュレーションが非常に難しいことを学んだと指摘した。「たった一つのミス、つまり数インチのズレ…これはポートレートモードから学んだことです」と彼は述べた。「耳にピントを合わせても目にピントを合わせなければ、無駄な結果になってしまいます。」

シネマティックモードでは、加速度計などのセンサーからのデータも使用されます。

撮影中でも、ライブプレビューで撮影後の映像を非常に正確に確認できるので、その威力は明らかです。さらに、撮影中はiPhoneが加速度計からの信号を使って、ロックした被写体に近づいているのか、それとも遠ざかっているのかを予測し、素早くフォーカスを調整します。

視線検出については次のようになります。

同時に、「視線」の力も活用しています。この視線検出機能は、次にどの被写体に移動するべきかを予測し、シーン内の人物が別の人物やフィールド内の物体に視線を向けると、システムが自動的にその被写体にフォーカスを合わせます。

また、カメラがシーンをオーバースキャンするため、被写体の予測も行えます。

フォーカスプラーは、被写体が完全にフレームインするまでラック撮影を待つことはありません。被写体がそこにいる前から、予測してラック撮影を開始しています。そして、フルセンサーで撮影することで、その動きを予測できることに気づきました。そして、被写体が現れる頃には、すでにフォーカスが合っているのです。

シネマティックモードについては、実際にプレイする機会があれば、さらに詳しくレポートする予定です。

シネマティックモードの問題点

リソースを大量に消費する機能であるシネマティックモードには、初期段階での問題がないわけではありません。

ポートレートモードの初期に髪の毛がぼやけたり、被写体の周りに光輪が映り込んだりしたのと同じように、シネマティックモードでも同様の問題が見られます。しかも、Apple Siliconのパワーをフルに活用しても、シネマティックモードは1080p解像度、30fpsでの撮影に制限されています。

ウォール・ストリート・ジャーナルのジョアンナ・スターンは、iPhone 13 Proのレビューでシネマティックモードにほぼ特化（しゃれです）した唯一の主要テクノロジー評論家です。彼女は総じて、シネマティックモードはまだ本格的な使用には至っていないと考えています。

動画撮影に関しては、新しいシネマティックモードには本当に期待していました。ところが、本当にがっかりしました。この機能は「動画用ポートレートモード」とも言えるもので、フォーカスした被写体の周囲に芸術的なぼかし効果を加えてくれます。一番クールなのは、撮影中にタップしてフォーカスを再調整できることです（撮影後の写真アプリでも再調整可能です）。

ただし、私の動画でもお分かりいただけるように、ソフトウェアは被写体の始まりと終わりの認識に苦労しています。ポートレートモードの初期の頃とよく似ていますが、ぼかしが動いたり歪んだりするため、さらにひどい状態です。鼻や指の一部が消えてしまったり、スマートフォンやカメラなどの被写体の認識に苦労したりする映像も撮影しました。

この機能の真のポテンシャルを体感するには、ビデオグラファーのジョナサン・モリソンがiPhone 13 Proのカメラでシネマティックモードで撮影した2本のミュージックビデオをぜひご覧ください。ジンバルなどの追加機材は使用していません。数年後には、私たちもiPhoneで4K Dolby Vision HDR、60fpsの被写界深度動画を撮影できるようになるでしょう。