Retorno F(X) + L
Quanto maior for a sensibilidade S, mais ruidosa será a resposta. A contagem só tem uma sensibilidade de 1, portanto não precisamos adicionar muito ruído para preservar a privacidade.
Note que o mecanismo Laplace no Algoritmo 1 consome um parâmetro epsilon. Vamos nos referir a esta quantidade como a perda de privacidade do mecanismo e é parte da definição mais central no campo da privacidade diferencial: epsilon-diferencial privacidade. Para ilustrar, se recordarmos o nosso exemplo anterior e usarmos alguma álgebra, podemos ver que o nosso mecanismo de contagem ruidosa tem privacidade diferencial epsilon, com um epsilon de 0,707. Ao sintonizar o epsilon, controlamos o ruído da nossa contagem ruidosa. A escolha de um epsilon menor produz resultados mais ruidosos e melhores garantias de privacidade. Como referência, a Apple usa um epsilon de 2 em seu teclado com correção automática diferencial de privacidade .
A quantidade de epsilon é como a privacidade diferencial pode fornecer comparações rigorosas entre diferentes estratégias. A definição formal de privacidade diferencial do epsilon é um pouco mais matematicamente envolvida, por isso omiti-a intencionalmente neste post do blog. Você pode ler mais sobre isso na pesquisa do Dwork sobre privacidade diferencial .
Como você se lembra, o exemplo de contagem ruidosa tinha um epsilon de 0,707, que é bem pequeno. Mas nós ainda violamos a privacidade após 50 consultas. Porquê? Porque com o aumento das consultas, o orçamento de privacidade cresce, e portanto a garantia de privacidade é pior.
O orçamento de privacidade
Em geral, as perdas de privacidade acumulam-se. Quando duas respostas são devolvidas a um adversário, a perda total de privacidade é duas vezes maior, e a garantia de privacidade é metade mais forte. Esta propriedade acumulada é uma consequência do teorema da composição. Em essência, a cada nova consulta, informações adicionais sobre os dados sensíveis são liberadas. Assim, o teorema da composição tem uma visão pessimista e assume o pior cenário possível: a mesma quantidade de vazamento acontece a cada nova resposta. Para uma forte garantia de privacidade, queremos que a perda de privacidade seja pequena. Então em nosso exemplo onde temos perda de privacidade de trinta e cinco (após 50 consultas ao nosso mecanismo de contagem de ruídos de Laplace), a garantia de privacidade correspondente é frágil.
Como a privacidade diferencial funciona se a perda de privacidade cresce tão rapidamente? Para garantir uma garantia de privacidade significativa, os curadores de dados podem impor uma perda máxima de privacidade. Se o número de consultas exceder o limite, então a garantia de privacidade torna-se demasiado fraca e o curador deixa de responder às consultas. A perda máxima de privacidade é chamada de orçamento de privacidade . Podemos pensar em cada consulta como uma ‘despesa’ de privacidade que incorre numa perda incremental de privacidade. A estratégia de usar orçamentos, despesas e perdas é adequadamente conhecida como contabilidade de privacidade .
A contabilidade de privacidade é uma estratégia eficaz para computar a perda de privacidade após múltiplas consultas, mas ainda pode incorporar o teorema da composição. Como observado anteriormente, o teorema da composição assume o pior cenário possível. Em outras palavras, existem melhores alternativas.
Deep Learning
Deep Learning é um subcampo de aprendizagem de máquina, que diz respeito ao treinamento de redes neurais profundas (DNNs) para estimar funções desconhecidas . (A um alto nível, um DNN é uma sequência de transformações afins e não lineares que mapeia algum espaço n-dimensional para um espaço m-dimensional). As suas aplicações são generalizadas e não precisam de ser repetidas aqui. Vamos explorar como treinar privadamente uma rede neural profunda.
As redes neurais profundas são tipicamente treinadas usando uma variante de descida de gradiente estocástico (SGD). Abadi et al. inventaram uma versão de preservação de privacidade deste popular algoritmo, comumente chamado de “SGD privado” (ou PSGD). A Figura 4 ilustra o poder de sua nova técnica . Abadi et al. inventaram uma nova abordagem: o contador de momentos. A idéia básica por trás do contador de momentos é acumular os gastos com privacidade, enquadrando a perda de privacidade como uma variável aleatória e usando suas funções geradoras de momento para entender melhor a distribuição dessa variável (daí o nome) . Os detalhes técnicos completos estão fora do escopo de um post introdutório no blog, mas nós encorajamos você a ler o artigo original para saber mais.
Figure 4: Este gráfico contrasta o nível de privacidade entre o teorema da composição, e o do contador de momentos.
Pensamentos finais
Revisamos a teoria da privacidade diferencial e vimos como ela pode ser usada para quantificar a privacidade. Os exemplos neste post mostram como as idéias fundamentais podem ser aplicadas e a conexão entre aplicação e teoria. É importante lembrar que as garantias de privacidade se deterioram com o uso repetido, então vale a pena pensar em como mitigar isso, seja com orçamentos de privacidade ou outras estratégias. Você pode investigar a deterioração clicando nesta frase e repetindo as nossas experiências. Há ainda muitas perguntas não respondidas aqui e uma grande quantidade de literatura para explorar – veja as referências abaixo. Nós encorajamos você a ler mais.
Cynthia Dwork. Privacidade diferencial: Um levantamento dos resultados. International Conference on Theory and Applications of Models of Computation, 2008.
Wikipedia Contributors. Laplace distribution, julho 2018.
Aaruran Elamurugaiyan. Lotes demonstrando erro padrão de respostas diferentemente privadas sobre o número de consultas, agosto 2018.
Benjamin I. P. Rubinstein e Francesco Alda. Privacidade diferencial aleatória sem dor com amostragem de sensibilidade. Em 34th International Conference on Machine Learning (ICML’2017) , 2017.
Cynthia Dwork e Aaron Roth. Os fundamentos algorítmicos da privacidade diferencial . Agora Publ., 2014.
Martin Abadi, Andy Chu, Ian Goodfellow, H. Brendan Mcmahan, Ilya Mironov, Kunal Talwar, e Li Zhang. Aprendizagem profunda com privacidade diferencial. Anais da Conferência ACM SIGSAC 2016 sobre Segurança de Computadores e Comunicações – CCS16 , 2016.
Frank D. McSherry. Consultas integradas de privacidade: Uma plataforma expansível para análise de dados de preservação da privacidade. Em Actas da Conferência Internacional ACM SIGMOD 2009 sobre Gestão de Dados , SIGMOD ’09, páginas 19-30, Nova Iorque, NY, EUA, 2009. ACM.
Contribuintes da Wikipedia. Deep Learning, Agosto 2018.
Leave a Reply