Tu rostro está entrenando a las herramientas de reconocimiento facial

Read in English

SAN FRANCISCO — Empresas e investigadores están recopilando decenas de bases de datos con rostros de personas sin que estas lo sepan; además, muchas de las imágenes después se comparten en todo el mundo en lo que se ha convertido en un enorme ecosistema que fomenta la propagación de la tecnología de reconocimiento facial.

Las bases de datos se construyen con imágenes de redes sociales, sitios web de fotografías, servicios de citas como OkCupid y cámaras colocadas en restaurantes y en patios de universidades. Aunque no hay un recuento preciso de los conjuntos de datos, los activistas en materia de privacidad han señalado repositorios que fueron construidos por Microsoft, la Universidad de Stanford y otros; uno de ellos cuenta con más de diez millones de imágenes, mientras que otro tenía más de dos millones.

Las recopilaciones faciales están siendo impulsadas por la contienda para crear sistemas de reconocimiento facial de avanzada. Esta tecnología aprende a identificar a la gente analizando tantas imágenes digitales como sea posible mediante “redes neurales”, las cuales son sistemas matemáticos complejos que requieren grandes cantidades de datos para generar el reconocimiento por patrones.

Lo más probable es que gigantes de la tecnología como Facebook y Google hayan amasado los conjuntos de datos faciales más grandes, los cuales no distribuyen, de acuerdo con artículos de investigación. Sin embargo, otras compañías y universidades han compartido de manera generalizada sus colecciones de imágenes con investigadores, gobiernos y empresas privadas en Australia, China, India, Singapur y Suiza para entrenar sistemas de inteligencia artificial, de acuerdo con académicos, activistas y artículos públicos.

Las compañías y los laboratorios han reunido imágenes faciales durante más de una década y las bases de datos simplemente son una de las capas necesarias para crear tecnología de reconocimiento facial. No obstante, la gente a menudo no tiene idea de que sus rostros han llegado ahí. Y, aunque en general las imágenes no van acompañadas de nombres, los individuos pueden ser reconocidos porque cada rostro es único y corresponde a una persona.

Una visualización de dos mil identidades incluidas en la base de datos MS Celeb de Microsoft.

Las dudas en torno a los conjuntos de datos están aumentando porque las tecnologías que han ayudado a impulsar están usándose de maneras posiblemente invasivas. Documentos publicados a principios de julio revelaron que los funcionarios de la Oficina de Aduanas y Protección Fronteriza emplearon tecnología de reconocimiento facial para escanear las fotografías de automovilistas con el fin de identificar a inmigrantes sin autorización para estar en Estados Unidos.

El FBI también pasó más de una década usando ese tipo de sistemas para comparar las licencias de conducir y las fotografías de visas con los rostros de presuntos delincuentes, de acuerdo con un informe de la Oficina de Rendición de Cuentas del Gobierno el mes pasado. A principios de julio, una audiencia del congreso abordó el uso que el gobierno le da a esta tecnología.

No hay supervisión de los conjuntos de datos. Los activistas y otros personajes dijeron estar furiosos por la posibilidad de que las imágenes de la gente se usaran para crear tecnología cuestionable, y porque las imágenes podían ser usadas de manera indebida. Por lo menos una base de datos faciales creada en Estados Unidos fue compartida con una compañía en China que ha sido vinculada con el fichaje étnico de la minoría de uigures musulmanes del país

A lo largo de las últimas semanas, algunas compañías y universidades, entre ellas Microsoft y Stanford, eliminaron sus conjuntos de datos faciales de internet debido a preocupaciones de privacidad. Sin embargo, dado que las imágenes ya se habían distribuido tanto, lo más probable es que aún estén usándose en Estados Unidos y en otras partes, señalaron investigadores y activistas.

“Concluyes que estas prácticas son invasivas y te das cuenta de que esas empresas no respetan la privacidad”, comentó Liz O’Sullivan, quien supervisó una de estas bases de datos en la empresa emergente de inteligencia artificial Clarifai. Dijo que en enero abandonó la empresa, con sede en Nueva York, en protesta contra de ese tipo de prácticas.

Los investigadores de Duke empezaron a compilar una base de datos en 2014 con ayuda de ocho cámaras del campus.

“Cuanto más ubicuo se vuelve el reconocimiento facial, más quedamos expuestos a ser parte del proceso”, explicó.

Google, Facebook y Microsoft rechazaron hacer comentarios.

Investigadores de Stanford reunieron una base de datos en 2014. Se llamaba Brainwash (el nombre de una cafetería de San Francisco), donde los investigadores utilizaron una cámara. A lo largo de tres días, la cámara tomó más de diez mil imágenes, que se introdujeron en la base de datos, escribieron los investigadores en un artículo de 2015. El artículo no especificó si los comensales de la cafetería sabían que les estaban tomando fotografías para usarlas en la investigación. (La cafetería ya no está abierta).

Los investigadores de Duke llegaron a recopilar más de dos millones de capturas de video con imágenes de más de 2700 personas.

Los investigadores de Stanford después compartieron Brainwash. De acuerdo con los documentos de investigación, la usaron académicos chinos asociados con la Universidad Nacional de Tecnología de Defensa y Megvii, una compañía de inteligencia artificial que, según reportajes previos de The New York Times, ha proporcionado tecnología de vigilancia para monitorear a los uigures.

El conjunto de datos de Brainwash fue eliminado de su sitio web original el mes pasado después de que Adam Harvey, un activista en Alemania que da seguimiento al uso de estos repositorios mediante una página web llamada MegaPixels, llamó la atención al respecto. También se han eliminado vínculos entre Brainwash y artículos que describen el trabajo que se lleva a cabo al crear sistemas de IA en la Universidad Nacional de Tecnología de Defensa en China, de acuerdo con documentos de Harvey.

Los investigadores de Stanford que supervisaron Brainwash no respondieron a las solicitudes de comentarios. “Como parte del proceso de investigación, Stanford hace que la documentación de las investigaciones y los materiales de apoyo estén disponibles al público de manera rutinaria”, señaló un funcionario de la universidad. “Una vez que se hacen públicos los materiales de investigación, ni la universidad ni sus funcionarios dan seguimiento a su uso”.

Investigadores de la Universidad de Duke también empezaron a compilar una base de datos en 2014 usando ocho cámaras del campus para recabar imágenes, según un artículo de 2016 publicado durante la Conferencia Europea sobre Visión de Computadora. Las cámaras tenían señalización, dijo Carlo Tomasi, el profesor de ciencias de la computación que ayudó a crear la base de datos. Los avisos tenían un teléfono y un correo electrónico para que las personas pudieran declinar a participar.

Los investigadores de Duke llegaron a recopilar más de dos millones de capturas de video con imágenes de más de 2 700 personas, según el artículo. También compartieron en línea el conjunto de datos, llamado Duke MTMC. Más tarde sería citado en infinidad de documentos que describían el trabajo de entrenamiento de inteligencia artificial en Estados Unidos, China, Japón y otros lugares.

Tomasi dijo que su grupo de investigación no se dedicaba al reconocimiento facial y que era improbable que MTMC fuera útil para dicha tecnología debido a la iluminación inadecuada y a los malos encuadres. “Nuestros datos se registraron para desarrollar y probar algoritmos de computadora que analizan movimiento complejo en video”, dijo. “Pasa que eran personas, pero podían haber sido bicicletas, autos, hormigas, peces, amibas o elefantes”.

En Microsoft, los investigadores han afirmado en el sitio web de la compañía que han creado uno de los conjuntos de datos faciales más grandes. La colección, llamada MS Celeb, estaba conformada por más de diez millones de imágenes de más de 100.000 personas.

MS Celeb al parecer era una base de datos de celebridades, cuyas imágenes se consideran de uso libre porque son personajes públicos. Sin embargo, MS Celeb también incluyó fotografías de activistas de privacidad y seguridad, académicos y otros, como Shoshana Zuboff, autora del libro The Age of Surveillance Capitalism, de acuerdo con documentos de Harvey, del proyecto MegaPixels. MS Celeb se distribuyó internacionalmente antes de que lo eliminaran esta primavera después de que Harvey y otros lo señalaron.

Matt Zeiler, fundador y director ejecutivo de Clarifai, la empresa emergente de IA, dijo que su empresa ha creado una base de datos faciales con imágenes de OkCupid, un sitio de citas. Dijo que Clarifai tuvo acceso a las fotografías de OkCupid porque algunos de los fundadores del sitio de citas invirtieron en su empresa.

Agregó que había firmado un acuerdo con una gran empresa de redes sociales —rechazó revelar cuál— para usar sus imágenes en el entrenamiento de modelos de reconocimiento facial. Los términos de servicio de la red social permiten este tipo de intercambio, señaló.

“Debe haber algún nivel de confianza con empresas tecnológicas como Clarifai para que hagan un buen uso de la tecnología poderosa y estar cómodos con eso”, comentó.

«Cuanto más omnipresente es el reconocimiento facial, más expuestos estamos todos a ser parte del proceso», dijo Liz O’Sullivan, una tecnóloga que trabajó en Clarifai, una empresa emergente de inteligencia artificial.

Una portavoz de OkCupid dijo que Clarifai contactó a la empresa en 2014 “sobre colaborar para determinar si podrían crear IA y tecnología de reconocimiento facial sin sesgos” y que el sitio de citas “no llegó a ningún acuerdo comercial en ese entonces y no tiene relación alguna con ellos ahora”. No habló acerca de si Clarifai había obtenido acceso a las fotografías de OkCupid sin su consentimiento.

Clarifai utilizó las imágenes de OkCupid para construir un servicio que podía identificar la edad, el sexo y la raza de los rostros detectados, comentó Zeiler. La empresa emergente también comenzó a trabajar en una herramienta para recolectar imágenes de un sitio web llamado Insecam —abreviatura de insecure camera (cámara insegura)— que obtiene información de cámaras de vigilancia en centros de ciudades y espacios privados sin autorización. El proyecto de Clarifai se canceló el año pasado después de que algunos de sus empleados se manifestaron y antes de que se reunieran imágenes, dijo.

Zeiler dijo que Clarifai vendería su tecnología de reconocimiento facial a gobiernos extranjeros, operaciones militares y departamentos de policía si se establecían las circunstancias adecuadas. No tenía sentido imponer restricciones generales respecto de la venta de tecnología a países enteros, agregó.

O’Sullivan, la extecnóloga de Clarifai, se ha unido a un grupo de derechos civiles y privacidad llamado Surveillance Technology Oversight Project. Ahora es parte de un equipo de investigadores que construyen una herramienta que permitirá que la gente revise si su imagen es parte de las bases de datos faciales compartidas abiertamente.

“Eres parte de lo que convirtió al sistema en lo que es”, dijo.

Via