¿Qué es el sesgo algorítmico?

A principios de 2016, Microsoft lanzó Tay, un chatbot de Inteligencia Artificial que se suponía imitaba el comportamiento de una adolescente curiosa y entablaba discusiones inteligentes con los usuarios de Twitter. El proyecto mostraría las promesas y el potencial de las interfaces conversacionales alimentadas por IA.

Sin embargo, en menos de 24 horas, el inocente Tay se convirtió en una racista, misógina y negacionista del holocausto IA, desacreditando -una vez más- el mito de la neutralidad algorítmica. Durante años, hemos pensado que la inteligencia artificial no sufre de los prejuicios y prejuicios de sus creadores humanos porque está impulsada por una lógica pura, dura y matemática.

Sin embargo, como Tay y varias otras historias han demostrado, la IA podría manifestar los mismos prejuicios que los humanos, y en algunos casos, podría incluso ser peor. El fenómeno, conocido como «sesgo algorítmico», está arraigado en la forma en que funcionan los algoritmos de Inteligencia Artificial y se está volviendo más problemático a medida que el software se vuelve más y más prominente en cada decisión que tomamos.

Las raíces del sesgo algorítmico

blockchain-data-driven-world

El aprendizaje automático y el aprendizaje profundo, las ramas más populares de la IA, son la razón por la que nuestro software se vuelve parcial. Los algoritmos de aprendizaje profundo dependen de los datos, muchos de ellos. Déle a un algoritmo de clasificación de imágenes millones de imágenes de gatos etiquetados y podrá decirle si una foto que no ha visto antes contiene un gato. Dar un algoritmo de reconocimiento de voz millones de muestras de voz junto con sus correspondientes palabras escritas, y será capaz de transcribir el lenguaje hablado más rápido que la mayoría de los seres humanos.

Cuantos más datos etiquetados vea un algoritmo, mejor será la tarea que realice. Sin embargo, la desventaja de este enfoque es que los algoritmos de aprendizaje profundo desarrollarán puntos ciegos basados en lo que falta o es demasiado abundante en los datos sobre los que están entrenados.

Por ejemplo, en 2015, la aplicación de fotos de Google etiquetó erróneamente una foto de dos personas negras como gorilas porque su algoritmo no había sido entrenado con suficientes imágenes de personas de piel oscura. En otro caso, un juez de IA de un concurso de belleza eligió en su mayoría a participantes blancos como ganadores porque su capacitación se realizó sobre imágenes de personas blancas.

Estos son casos triviales que pueden remediarse fácilmente proporcionando a la IA más muestras en áreas donde no tiene suficientes datos. En otros casos en los que AI está trabajando con grandes cantidades de datos existentes en el interminable mar de información en línea, resulta mucho más difícil encontrar y contrarrestar los sesgos.

Un ejemplo es un proyecto conjunto de investigadores de Microsoft y la Universidad de Boston, en el que encontraron sesgos sexistas en los algoritmos de incrustación de palabras, que se utilizan en los motores de búsqueda, la traducción y otros programas informáticos que dependen del procesamiento del lenguaje natural. Entre sus hallazgos sobre el comportamiento de los algoritmos de incrustación de palabras se encontraba la tendencia a asociar palabras como «programación» e «ingeniería» a los hombres y «ama de casa» a las mujeres. En este caso, el sesgo estaba arraigado en los miles de artículos que los algoritmos habían escarbado y analizado automáticamente en fuentes en línea como Google News y Wikipedia. Por ejemplo, la industria tecnológica está dominada principalmente por hombres. Esto significa que es más probable que aparezcan nombres y pronombres masculinos junto a los trabajos de ingeniería y tecnología ejecutiva. Como seres humanos, reconocemos que se trata de un problema social que debemos abordar. Pero un algoritmo sin sentido que analizara los datos llegaría a la conclusión de que los trabajos tecnológicos deberían pertenecer a los hombres y no lo vería como una falta de diversidad en la industria.

En el caso de Tay, los usuarios de Twitter que interactuaban con el chatbot estaban más interesados en enseñarle discursos de odio que en participar en conversaciones significativas. Una vez más, la IA no tiene la culpa. El culpable fue la cultura general que se genera en Twitter como medio social.

¿Por qué el sesgo algorítmico es un problema grave?

justice

El sesgo algorítmico no es nuevo. Académicos y expertos han estado advirtiendo sobre ello durante años. Sin embargo, lo que lo hace especialmente crítico en este momento es la prominencia que los algoritmos están encontrando en las decisiones diarias que tomamos.

Tomemos el problema del algoritmo de incrustación de palabras que visitamos en la sección anterior. Este puede ser el tipo de tecnología que impulsa la próxima generación de software de reclutamiento. No es difícil imaginar que el software discrimine a las mujeres a la hora de buscar y seleccionar candidatos para un trabajo de programación.

Por ejemplo, informes separados mostraron recientemente que tanto las plataformas de Google como las de LinkedIn mostraban anuncios de empleo bien remunerados con mayor frecuencia a hombres que a mujeres.

El sesgo algorítmico puede tener un efecto aún más perjudicial en otras áreas como la aplicación de la ley. En 2016, una investigación de ProPublica descubrió que una herramienta de inteligencia artificial utilizada por las fuerzas del orden tenía más probabilidades de declarar que las personas de raza negra corrían un alto riesgo de reincidencia que las personas de raza blanca. En algunos estados, los jueces confían en estas herramientas para decidir quién permanece en la cárcel y quién sale libre, a veces sin hacer más investigaciones.

Casos similares pueden ocurrir en otras áreas, como la aprobación de préstamos, donde las personas que están subrepresentadas se verán aún más marginadas y privadas de servicio. En la atención de la salud, donde la IA está haciendo grandes avances en el diagnóstico y la curación de enfermedades, los algoritmos pueden dañar a las poblaciones cuyos datos no han sido incluidos en los conjuntos de entrenamiento.

De hecho, si no se aborda, el sesgo algorítmico puede llevar a la amplificación de los sesgos humanos. Bajo la ilusión de que el software no es sesgado, los humanos tienden a confiar en el juicio de los algoritmos de Inteligencia Artificial, ignorando que esos juicios ya están reflejando sus propios prejuicios. Como resultado, aceptaremos las decisiones impulsadas por la IA sin dudar de ellas y crearemos datos más sesgados para que esos algoritmos se «mejoren» aún más.

¿Cómo combatir el sesgo algorítmico?

ai-human-and-machine

El primer paso para evitar el sesgo algorítmico es reconocer los límites de la inteligencia artificial. Los algoritmos de aprendizaje profundo no son racistas, pero nosotros sí, y captarán cualquier sesgo que tengamos intencional o distraídamente.

Sabiendo esto, necesitamos tomar medidas para asegurarnos de que los datos que alimentamos a nuestros algoritmos sean diversificados, especialmente cuando desarrollamos aplicaciones que toman decisiones que pueden tener graves repercusiones en la vida y la salud de las personas que las utilizan directa o indirectamente. Hay un puñado de esfuerzos que utilizan métodos estadísticos para detectar sesgos ocultos en los algoritmos.

Otro paso necesario es que las empresas que desarrollan aplicaciones de IA sean más transparentes sobre sus productos. En la actualidad, la mayoría de las empresas tienden a ocultar el funcionamiento interno de sus algoritmos como secretos comerciales. Esto dificulta el escrutinio de esos algoritmos y la búsqueda de posibles puntos débiles.

También tenemos que abordar el problema de la caja negra de la IA. Cuando los algoritmos de aprendizaje profundo se vuelven demasiado complicados, encontrar las razones detrás de sus decisiones se vuelve muy difícil. No saber cómo un algoritmo llegó a una conclusión puede hacer que sea difícil encontrar y contrarrestar la funcionalidad sesgada. Esta también es un área donde varias organizaciones, incluyendo la Agencia de Proyectos de Investigación Avanzada (DARPA, por sus siglas en inglés) del Departamento de Defensa de los Estados Unidos, están liderando esfuerzos para hacer que los algoritmos de aprendizaje profundo estén abiertos al escrutinio o sean autoexplicables.

Al fin y al cabo, el sesgo algorítmico es un problema humano, no técnico, y la solución real es empezar a eliminar el sesgo en todos los aspectos de nuestra vida personal y social. Esto significa apoyar la diversidad en el empleo, la educación, la política y más. Si queremos arreglar nuestros algoritmos, deberíamos empezar por arreglarnos nosotros mismos.

Las raíces del sesgo algorítmico

¿Por qué el sesgo algorítmico es un problema grave?

¿Cómo combatir el sesgo algorítmico?

Fuente