Appleのサービスをさらにスマートに、よりパーソナライズされたものにするには、膨大な情報の処理が不可欠です。なぜなら、その知能はビッグデータによって駆動されるからです。iOS 9のプロアクティブ機能がクラウドを利用しないという事実は、これまでAppleにとって有利に働いてきました。しかし、Googleアシスタントが登場して以来、AppleはGoogleが悪名高い生のデータ収集に頼ることなく、競争できるのかと人々は疑問を抱いています。
iOS 10とmacOS Sierraは、Appleの洗練されたプライバシーへのアプローチを体現しており、総称して「差分プライバシー」と呼ばれる新しい技術を軸としています。流行の統計手法である差分プライバシーは、ユーザーのプライバシーを損なうことなく、Appleがよりスマートなサービスを提供するのに役立ちます。
これは比較的未検証の技術ですが、大きな可能性を秘めています。iOS 10とmacOS Sierra以前、Appleのサービス強化に活用されたことはありません。ここでは、差分プライバシーについて、それがどのようにインテリジェンスとプロアクティブさを強化するのか、そしてなぜGoogleの大量データ収集・分析よりもAppleにとってより効果的であるのかを詳しく見ていきます。
差分プライバシーは実際にプライバシーを高める
Googleとは異なり、Appleはマップで場所を検索したり、写真を管理したり、Spotlight/Siriで情報を表示したり、音楽を聴いたりする際に、ユーザープロファイルを作成しません。Googleの新しい会話型AIアシスタントであるGoogleアシスタントの規模、パワー、そして知能を考えると、AppleがGoogleのような無差別なデータ収集に頼ることなく、どのように対抗できるのか疑問に思わざるを得ません。
人々がデバイスをどのように使用しているかという重要なパターンを見つけることは、サービスを継続的に進化させ、よりスマートでプロアクティブなものにするために不可欠です。そこで、iOS 10とmacOS Sierraで採用された新しい技術「差分プライバシー」が登場しました。この技術は、個人のプライバシーを侵害することなく、多数のユーザーの様々なパターンを発見します。
Apple のアプローチは、Google のように分析のためにクラウドにアップロードする前にユーザー データを匿名化するのではなく、シリコンのパワー、スマート プログラミング、および差分プライバシーを活用して、ユーザーによるデバイスの使用方法と次に何をしたいのかを判断します。
Appleは、デバイス上で蓄積されたデータをディープラーニング、人工知能、その他の高度なソフトウェアと組み合わせることで、iOS 10とmacOS Sierraの様々な機能をプライバシーに配慮した方法で改善しています。例えば、iOS 10の差分プライバシー機能は、トレンドワードを特定し、提案の際にそれらのワードを優先的に表示します。
匿名化と差分プライバシー
他のほとんどのプライバシー技術では、データセットをサーバーに送信する前に匿名化します。
これは、データから個人を特定できる情報を削除することで実現されます。例えば、氏名、郵便番号、電話番号などの情報は、通常、さまざまなオンラインサービスを利用した際にサーバーによって収集されるデータログから削除されます。
この方法には大きな欠点があります。セキュリティ専門家によって証明されているように、2つ以上の個別には無害なデータベースをリンクすると、データに関する集計統計情報であっても、個人に関する個人情報が明らかになる可能性があるのです。
一例を挙げると、カーネギーメロン大学のラタニヤ・スウィーニー氏は、各患者の生年月日、性別、郵便番号を含む匿名化されたデータベースを有権者登録記録とリンクさせ、マサチューセッツ州知事の医療記録を特定することに成功しました。
Netflixを例に挙げましょう。同社は2007年、開発者がレコメンデーションエンジンを改良するためのトレーニングデータセットを公開しました。Netflixの顧客に関するすべての個人識別データは匿名化され、固有のIDはランダムに割り当てられたIDに置き換えられました。
プライバシー「予算」により、Apple はユーザーから過剰な情報を取得できないようになっています。
オースティン大学の研究者らは、ユーザーによる評価の日付を使用して、Netflix の匿名化されたトレーニング データベースを一般公開されている IMDb データベースにリンクした後、トレーニング データベースの匿名性を部分的に解除し、一部のユーザーの身元を危険にさらしました。
差分プライバシーは、このような種類の匿名化解除技術から保護します。
差分プライバシーの仕組みに関する短期集中講座
差分プライバシーは、統計とデータ分析の分野における高度な研究成果を活用し、個々のユーザーの情報を完全に非公開に保ちながら、クラウドソーシングによる学習を実現します。
Appleは、差分プライバシーに関する著書を共著したペンシルベニア大学のアーロン・ロス教授を招き、プライバシー強化技術の分析を依頼しました。ロス教授は、差分プライバシーをAppleのソフトウェアに広く組み込んだことで、「今日のテクノロジー企業の中で、プライバシーの明確なリーダー」としての地位が強化されたと結論付けています。
iOS 10 および macOS Sierra の差分プライバシーは完全にオプションです。
お客様はいつでもオプトアウトできますが、差分プライバシーによって強化されたサービスは、この機能が有効になっていないと、それほどスマートに機能しません。iOS 10およびmacOS Sierraの差分プライバシーは、リリース時には以下のユースケースに限定されます。
- ユーザーがローカル辞書に追加する新しい単語
- Appleが絵文字の代替案を提案できるようにユーザーが入力した絵文字
- アプリ内で使用されるディープリンク(パブリックインデックス用にマークされている場合)
- ノート内のヒントを調べる
Sierraの差分プライバシーは、メモアプリの自動修正候補と検索ヒントの機能向上に役立ちます。iOS 10では、この機能により、QuickTypeと絵文字の候補がよりスマートになり、Spotlightのディープリンク候補とメモアプリの検索ヒントの機能も向上します。
同社はまた、App Storeの検索結果におけるサードパーティ製アプリのコンテンツのランキング向上に、差分プライバシー方式を採用しています。ユーザーがアプリを使用すると、iOS 10は差分プライバシーハッシュのサブセットをサーバーに送信します。
登録開発者向けポータルの「iOS 10の新機能」セクションには、「ハッシュの差分プライバシーにより、Appleはユーザーとリンクを関連付けることなく、人気のディープリンクのアクセス頻度をカウントできます」と記載されている。
ハッシュ、サブサンプリング、ノイズ注入
Appleは差分プライバシー技術を用いて、デバイス上のデータにノイズを混ぜることで、分析前に個人情報を隠蔽します。その結果、クラウドを活用し、クラウドソーシングで収集された集約データに基づくサービスを改善しつつ、個人を特定できる情報を保護し、サービスを向上させることが可能になりました。
差分プライバシーを活用してプライバシーを危険にさらすことなくデータから洞察を掘り出すには、かなり高度な数学と複雑な統計が必要です。
差分プライバシーは、ハッシュ、サブサンプリング、ノイズ注入に大きく依存しています。
ハッシュとは、任意のデータをより短い値に変換することです。ハッシュは元の文字列を表す固定長のキーであるため、元の値よりも短いハッシュキーを見つけるのがはるかに高速であるため、暗号化やデータベース検索でよく使用されます。
サブサンプリングは、大規模なデータセットを効率的かつ確実にクラスタリングすることで、ビッグデータ分析を支援します。これは、小さなサブサンプルをフルサンプルの代替として計算を実行することで実現されます。サブサンプリングを使用することで、コンピューティングリソースが限られているiPhoneでも、クラウドを一切必要とせずに、デバイス上のデータを高い確率で分析できるようになります。
ノイズ注入は 、一般化を用いてプライバシー侵害を最小限に抑える手法であり、人工ニューラルネットワークの学習に用いられます。元のデータセットに希釈されたデータを追加することで、ノイズ注入はランダム性を導入します。ノイズが多すぎると元のデータが隠蔽され、本来のデータが役に立たなくなる可能性はありますが、この手法はメッセージアプリのチャットのような小規模なデータセットのマイニングに最適です。
メッセージと写真における差分プライバシー
iOS 10は、クラウドソーシングによるデータ分析に基づき、メッセージアプリでトレンドワードなどの興味深いパターンを検知します。iOS 10の差分プライバシー機能は、QuickTypeキーボードの候補表示精度を向上させるだけでなく、特定の絵文字の使用頻度を判定し、標準のQuickTypeキーボードで入力時に関連する絵文字の候補を表示するのに役立ちます。
もう一つの好例はiOS 10の写真アプリです。このアプリは画像認識アルゴリズムの学習にデバイス内データと外部データの両方を必要とします。写真アプリは画像分析をデバイス上でローカルに実行するため、ローカルに保存された写真を各デバイスごとに個別にインデックス化する必要があります。
このアプローチは、強力なセキュリティとプライバシーを確保しつつ、iCloud でスキャンすることなく 7 つの異なる表情と 4,432 個のオブジェクトやシーンを認識する機能も提供し、両者の間で許容できるトレードオフを実現します。
Appleにとって、Googleのようにクラウド上のユーザー写真を詳細に分析する方がはるかに容易だっただろう。そうすればより強力な画像認識技術が実現できただろうが、すべての顧客のプライバシーを守るというAppleの確固たる姿勢を考えると、それは最悪の策だっただろう。
したがって、差分プライバシーです。
まとめ
Appleは長年、優れた機能を提供することで強固なセキュリティが犠牲になったり、顧客のプライバシーが危険にさらされたりすべきではないと主張してきた。
「iOS 10の素晴らしい取り組みは、ユーザーのプライバシーを犠牲にして行われたのであれば意味がない」と、アップルのソフトウェア部門責任者クレイグ・フェデリギ氏はWWDC 2016の壇上で語った。
差分プライバシーは、クラウドを介さずにiOS 10とmacOS Sierraの特定の機能をこれまで以上にスマートに実現するのに役立ちます。これは、差分プライバシーと、ハッシュ化、サブサンプリング、ノイズ注入などの関連技術を組み合わせることで、AppleがiCloudのパワーを使わずにデバイス上で直接ビッグデータ分析を実行し、パターンを特定できるためです。
言い換えれば、差分プライバシーは、よりスマートでプロアクティブな機能と、Apple が誇る強力なセキュリティとプライバシーという両方のメリットを享受できるのです。
差分プライバシーに関するあなたの$0.02
これで、差分プライバシーがどのようなものであるかについて理解が深まったと思います。
Appleはこの機能をプラットフォーム全体に段階的に導入し始めたばかりなので、今後数ヶ月で差分プライバシーについてより詳しい情報が明らかになるはずです。私の見解では、差分プライバシーはAppleが高度な人工知能とディープラーニングを実現するための鍵となるでしょう。
これは、Google の生のデータ収集に対する実行可能な回答であるということにも問題はありません。
Appleがメール、カレンダー、連絡先をスキャンして私のプロフィールを作らないのはありがたい。iCloudフォトライブラリで画像認識をされるのは絶対に嫌だ。それに、Appleの広報担当者がQuickTypeの候補がより適切になったと自慢するためだけに、iOSがすべてのキー入力を記録してチャットをiCloudにアップロードしたら、本当に嫌になる。
差分プライバシーにより、プライベートなデータがプライベートなまま維持され、個人を特定できる情報が iCloud に送信されないため、セキュリティ侵害、政府による盗聴、法執行機関によるデータ要求の危険にさらされることはありません。
差分プライバシーについて少しご理解いただけたかと思いますが、Appleがこれを導入し始めたことを嬉しく思いますか?今秋リリース予定のiOS 10とmacOS Sierraで、差分プライバシーを有効化されると思いますか?
もしそうなら、差分プライバシーによって、Google のソフトウェアと同等レベルのインテリジェンスと積極性が Apple のソフトウェアにもたらされると予想しますか?
コメントでお会いしましょう。