La gente quiere privacidad de datos pero no siempre saben lo que están recibiendo

por Gabriel Kaptchuk, Elissa M. Redmiles y Rachel Cummings

La decisión de la administración Trump de prohibir la popular aplicación de video TikTok ha avivado los temores de que el gobierno chino recopile información personal de las personas que utilizan la aplicación. Estos temores subrayan la creciente preocupación de los estadounidenses por la privacidad digital en general.

Los debates sobre la privacidad pueden parecer simples: Algo es privado o no lo es. Sin embargo, la tecnología que proporciona la privacidad digital es cualquier cosa menos simple.

Nuestra investigación sobre la privacidad de los datos muestra que la indecisión de las personas para compartir sus datos se debe en parte a no saber quién tendría acceso a ellos y cómo las organizaciones que recopilan datos los mantienen privados. También hemos descubierto que cuando las personas conocen las tecnologías de privacidad de los datos, es posible que no obtengan lo que esperan.

La privacidad diferencial explicada

Si bien hay muchas formas de proporcionar privacidad a las personas que comparten sus datos, la privacidad diferencial ha surgido recientemente como una técnica de vanguardia y se está adoptando rápidamente.

Imagina que tu comité de turismo local quisiera conocer los lugares más populares de tu zona. Una solución sencilla sería recopilar listas de todos los lugares que has visitado desde su dispositivo móvil, combinarlo con listas similares para todos los demás en su área, y contar la frecuencia con que se visitó cada lugar. Aunque es eficiente, recopilar los datos sensibles de las personas de esta manera puede tener consecuencias nefastas. Incluso si se eliminan los nombres de los datos, puede ser posible que un analista de datos o un hacker identifique y acose a las personas.

La privacidad diferencial puede ser usada para proteger los datos personales de todos mientras se obtiene información útil de ellos. La privacidad diferencial disfraza la información de los individuos cambiando al azar las listas de lugares que han visitado, posiblemente eliminando algunos lugares y añadiendo otros. Estos errores introducidos hacen que sea prácticamente imposible comparar la información de las personas y utilizar el proceso de eliminación para determinar la identidad de alguien. Es importante que estos cambios aleatorios sean lo suficientemente pequeños como para asegurar que las estadísticas resumidas – en este caso, los lugares más populares – sean exactas.

En la práctica, la privacidad diferencial no es perfecta. El proceso de aleatorización debe ser calibrado cuidadosamente. Demasiada aleatoriedad hará que las estadísticas resumidas sean inexactas. Demasiado poco dejará a las personas vulnerables a ser identificadas. Además, si la aleatoriedad tiene lugar después de que se hayan recogido los datos inalterados de todos, como es habitual en algunas versiones de la privacidad diferencial, los piratas informáticos pueden seguir obteniendo los datos originales.

Cuando se elaboró la privacidad diferencial en 2006, se consideró en su mayor parte como un instrumento teóricamente interesante. En 2014, Google se convirtió en la primera empresa que empezó a utilizar públicamente la privacidad diferencial para la recopilación de datos.

Desde entonces, Microsoft, Google y la Oficina del Censo de los Estados Unidos han desplegado nuevos sistemas que utilizan la privacidad diferencial. Apple lo utiliza para potenciar los algoritmos de aprendizaje de máquinas sin necesidad de ver sus datos, y Uber recurrió a él para asegurarse de que sus analistas de datos internos no puedan abusar de su poder. La privacidad diferencial suele considerarse la solución a los problemas de privacidad de la industria de la publicidad online, ya que permite a los anunciantes saber cómo responde la gente a sus anuncios sin tener que hacer un seguimiento de las personas.

¿Expectativas razonables?

Pero no está claro que la gente que está sopesando si compartir sus datos tenga expectativas claras sobre, o entienda, la privacidad diferencial.

En julio, nosotros, como investigadores de la Universidad de Boston, el Instituto de Tecnología de Georgia y Microsoft Research y el Instituto Max Planck, encuestamos a 675 estadounidenses para evaluar si la gente está dispuesta a confiar sus datos a sistemas de privacidad diferencial.

Creamos descripciones de la privacidad diferencial basadas en las utilizadas por empresas, medios de comunicación y académicos. Estas definiciones iban desde descripciones matizadas que se centraban en lo que la privacidad diferencial podría permitir a una empresa o los riesgos contra los que protege, descripciones que se centraban en la confianza en las numerosas empresas que la utilizan actualmente y descripciones que simplemente afirmaban que la privacidad diferencial es «el nuevo estándar de oro en la protección de la privacidad de los datos«, como lo ha descrito la Oficina del Censo.

Los estadounidenses encuestados tenían el doble de probabilidades de informar que estarían dispuestos a compartir sus datos si se les decía, utilizando una de estas definiciones, que sus datos estarían protegidos con la privacidad diferencial. Sin embargo, la forma específica en que se describió la privacidad diferencial no afectó la inclinación de las personas a compartir. La mera garantía de privacidad parece ser suficiente para alterar las expectativas de las personas sobre quién puede acceder a sus datos y si éstos estarían seguros en caso de un pirateo informático. A su vez, esas expectativas impulsan la disposición de las personas a compartir información.

Es preocupante que las expectativas de la gente sobre cuán protegidos estarán sus datos con una privacidad diferencial no siempre sean correctas. Por ejemplo, muchos sistemas de privacidad diferencial no hacen nada para proteger los datos de los usuarios de las búsquedas de las fuerzas del orden, pero el 20% de los encuestados esperaban esta protección.

Es probable que la confusión se deba a la forma en que las empresas, los medios de comunicación e incluso los académicos describen la privacidad diferencial. La mayoría de las explicaciones se centran en lo que hace la privacidad diferencial o en lo que puede utilizarse para ello, pero hacen poco por destacar contra qué puede y no puede proteger la privacidad diferencial. Esto deja a la gente para sacar sus propias conclusiones sobre qué protecciones proporciona la privacidad diferencial.

Construir la confianza

Para ayudar a las personas a tomar decisiones informadas sobre sus datos, necesitan información que establezca con precisión sus expectativas sobre la privacidad. No basta con decirle a la gente que un sistema cumple con el «estándar de oro» de algunos tipos de privacidad sin decirles lo que eso significa. Los usuarios no deberían necesitar un título en matemáticas para hacer una elección informada.

Identificar las mejores formas de explicar claramente las protecciones que ofrece la privacidad diferencial requerirá más investigación para identificar qué expectativas son más importantes para las personas que están considerando compartir sus datos. Una posibilidad es utilizar técnicas como las etiquetas nutricionales de privacidad.

Para ayudar a las personas a alinear sus expectativas con la realidad también será necesario que las empresas que utilizan la privacidad diferencial como parte de sus actividades de recopilación de datos expliquen de forma completa y precisa qué se mantiene y qué no se mantiene en privado y de quién.

The Conversation