Articles / novembre 29, 2021

Une brève introduction à la confidentialité différentielle

Géorgien

31 août, 2018 – 10 min lu

Aaruran Elamurugaiyan

La vie privée peut être quantifiée. Mieux encore, nous pouvons classer les stratégies de préservation de la vie privée et dire laquelle est la plus efficace. Mieux encore, nous pouvons concevoir des stratégies qui sont robustes même contre les hackers qui disposent d’informations auxiliaires. Et comme si cela ne suffisait pas, nous pouvons faire toutes ces choses simultanément. Ces solutions, et plus encore, résident dans une théorie probabiliste appelée la confidentialité différentielle.

Voici le contexte. Nous conservons (ou gérons) une base de données sensible et nous aimerions diffuser certaines statistiques de ces données au public. Cependant, nous devons nous assurer qu’il est impossible pour un adversaire d’effectuer une rétro-ingénierie des données sensibles à partir de ce que nous avons publié . Dans ce cas, un adversaire est une partie qui a l’intention de révéler, ou d’apprendre, au moins certaines de nos données sensibles. La confidentialité différentielle peut résoudre les problèmes qui se posent lorsque ces trois ingrédients – données sensibles, conservateurs qui doivent publier des statistiques et adversaires qui veulent récupérer les données sensibles – sont présents (voir figure 1). Cette rétro-ingénierie est un type de violation de la vie privée.

Figure 1 : La confidentialité différentielle est la solution aux problèmes de ces trois parties.

Mais à quel point est-il difficile de violer la vie privée ? L’anonymisation des données ne serait-elle pas suffisante ? Si vous avez des informations auxiliaires provenant d’autres sources de données, l’anonymisation ne suffit pas. Par exemple, en 2007, Netflix a publié un ensemble de données sur les évaluations de ses utilisateurs dans le cadre d’un concours visant à déterminer si quelqu’un pouvait surpasser son algorithme de filtrage collaboratif. L’ensemble de données ne contenait pas d’informations d’identification personnelle, mais les chercheurs ont quand même réussi à violer la vie privée ; ils ont récupéré 99 % de toutes les informations personnelles qui avaient été supprimées de l’ensemble de données. Dans ce cas, les chercheurs ont violé la vie privée en utilisant des informations auxiliaires provenant d’IMDB.

Comment peut-on se défendre contre un adversaire qui dispose d’une aide inconnue, et peut-être illimitée, du monde extérieur ? La confidentialité différentielle offre une solution. Les algorithmes à confidentialité différentielle sont résilients aux attaques adaptatives qui utilisent des informations auxiliaires . Ces algorithmes s’appuient sur l’incorporation de bruit aléatoire dans le mélange, de sorte que tout ce qu’un adversaire reçoit devient bruyant et imprécis, et qu’il est donc beaucoup plus difficile de violer la confidentialité (si c’est faisable du tout).

Comptage bruyant

Regardons un exemple simple d’injection de bruit. Supposons que nous gérons une base de données de cotes de crédit (résumée par le tableau 1).

Tableau 1 : résumé d’une base de données sensible.

Pour cet exemple, supposons que l’adversaire veut connaître le nombre de personnes qui ont une mauvaise cote de crédit (qui est de 3). Les données sont sensibles, nous ne pouvons donc pas révéler la vérité de base. À la place, nous utiliserons un algorithme qui renvoie la vérité de base, N = 3, plus un certain bruit aléatoire. Cette idée de base (ajouter un bruit aléatoire à la vérité de base) est la clé de la confidentialité différentielle. Disons que nous choisissons un nombre aléatoire L dans une distribution de Laplace centrée sur zéro avec un écart type de 2. Nous retournons N+L. Nous allons expliquer le choix de l’écart-type dans quelques paragraphes. (Si vous n’avez jamais entendu parler de la distribution de Laplace, consultez la figure 2). Nous appellerons cet algorithme « comptage bruyant ».

Figure 2 : Tracé des fonctions de densité de probabilité de quelques distributions de Laplace. Remarque : ces distributions sont symétriques par rapport à leur moyenne .

Si nous allons déclarer une réponse absurde et bruyante, quel est l’intérêt de cet algorithme ? La réponse est qu’il nous permet de trouver un équilibre entre utilité et confidentialité. Nous voulons que le grand public tire une certaine utilité de notre base de données, sans exposer de données sensibles à un éventuel adversaire.

Que recevrait réellement l’adversaire ? Les réponses sont rapportées dans le tableau 2.

Tableau 2 : Réponses simulées à une réponse interrogée.

La première réponse que l’adversaire reçoit est proche, mais pas égale, à la vérité terrain. En ce sens, l’adversaire est trompé, l’utilité est fournie et la vie privée est protégée. Mais après plusieurs tentatives, il sera en mesure d’estimer la vérité de base. Cette « estimation à partir de requêtes répétées » est l’une des limites fondamentales de la confidentialité différentielle. Si l’adversaire peut effectuer suffisamment de requêtes dans une base de données à confidentialité différentielle, il peut toujours estimer les données sensibles. En d’autres termes, avec de plus en plus de requêtes, la confidentialité est violée. Le tableau 2 démontre empiriquement cette violation de la confidentialité. Cependant, comme vous pouvez le voir, l’intervalle de confiance à 90 % de ces 5 requêtes est assez large ; l’estimation n’est pas encore très précise.

Quelle peut être la précision de cette estimation ? Jetez un coup d’œil à la figure 3 où nous avons effectué une simulation plusieurs fois et tracé les résultats .