Artículos Piratapedia

Sesgos en la Web!

por Alejandro Barros

Los sesgos de todo tipo, es un tema que se viene discutiendo hace ya tiempo, incluso algunos han caracterizado los más típicos, un buen ejemplo es este artículo, 10 sesgos cognitivos que manipulan tu opinión sin que te des cuenta (y cómo evitarlos), incluso hace ya varios años que se analizaban los sesgos asociados al mundo de las estadísticas, en 1953, apareció un libro que se transformó en un verdadero best seller, llamado: How to lie with Statistics de Darrell Huff.  En los últimos meses hemos visto con esta discusión se ha movido a la web y a las redes sociales.

Hoy en día utilizamos la web y las redes sociales como fuente de información a la que recurrimos regularmente, muchas veces sin cuestionarnos lo que allí aparece.

Esto se ha hecho más patente en los últimos meses y productos de los casos asociados al fenómeno de la posverdad que hemos tenido, algunos con connotación internacional (Brexit, Trump, otros) y otros más locales, como fueron los múltiples acusados de los incendios del verano, es que se hace más necesario tener una mirada más crítica de la web.  Incluso lo vemos en la prensa con cierta regularidad, como ocurrió con los titulares de dos de los medios periodísticos más importantes de nuestro país, me refiero al diario La Tercera y El Mercurio, los que a propósito de una encuesta desarrollada por la Administradora de Fondos de Pensiones – Habitat, encuesta web voluntaria que la contestó, según diversas estimaciones el 3,25% del universo consultado.  Los medios titularon la noticia así:

titular el mercurio

Fuente: El Mercurio, 4-Agosto-2017

titular la terccera

Fuente: La Tercera, 4-Agosto-2017

Si a esto agregamos otros instrumentos que dábamos por certeros como las encuestas, las cuales en los últimos meses han sido bastante cuestionadas al menos en su función de predicción a nivel internacional y local.

Hace unos días fui a una presentación a mi alma mater del bueno de Ricardo Baeza, uno de los principales investigadores de la web a nivel mundial (con múltiples publicaciones internacionales) y muy buen amigo de la casa, su charla se llama “Bias in the web (Los sesgos en la Web)”. En su muy buena presentación, tema que Ricardo viene analizando y estudiando hace ya tiempo, según sus propias palabras, por lo que me comentó la referida presentación la ha transformado en un paper, que se encuentra en proceso de revisión y pronto a ser publicado.

En la charla hizo un exhaustivo análisis de los diferentes sesgos que se dan el web y en las redes sociales, lo que rompe con ese paradigma que muchas veces escuchamos:

“pero si esto, lo encontré en la web”

Como si bastara con eso para darle el atributo de verdad absoluta. Es como lo que al menos me ha ocurrido en varios de esos grupos familiares de WhatsApp en los que se mandan, todo tipo de cadenas (hoax o bulos), algunas bastante inofensivas y otras con acusaciones al voleo como si fueran la verdad develada, sin ningún juicio crítico al respecto. Esto me ha costado varias discusiones con parientes y amigos amantes del cut&paste en el whatsapp.

Ricardo identifica y recorre, con su habitual rigor académico los diferentes sesgos que se dan en la web.

  • Sesgo de actividad, el cual muestra que sólo unos pocos generan la mayoría del contenido de la web, y no como creen muchos que el contenido es generado por masas de aportantes, como lo demuestra el propio Baeza en un paper con un título muy sugerente “Wisdom of the Crowd or Wisdom of the Few? – An Analysis of Users’ Content Generation en el cual se buscaba contestar la pregunta: ¿Cuántos usuarios producen el 50% del contenido? esto se analizó para diversas plataformas: Facebook, Amazon Reviews, Twitter y Wikipedia, aquí los números son bastante impresionantes
sesgos en la producción de contenidos
  • Sesgo de los datos, una gran cantidad de los datos en la web están sesgados por su origen, algunos ejemplos de ello: mayoría del contenido está en inglés y la población del mundo no usa ese idioma, o la mayoría del contenido es producido por hombres (sesgo de género).  Este sesgo se da en muchos de los estudios que vemos promocionados en la web (encuestas, estadísticas y otros), en muchos casos promovidos por un proceso de muestreo bastante malo.  Como el ejemplo que vimos de La Tercera y El Mercurio anteriormente.
  • Sesgo de algoritmos, muchas de las herramientas que utilizamos para buscar y/o clasificar información, utilizan algoritmos que no son neutros, de hecho Ricardo planteaba que no existen los algoritmos neutros. Un buen ejemplo de esto es el estudio de Google y Facebook que hizo hace algunos años el periodista Eli Pariser, al cual me referí hace ya un tiempo. Si no le creen a Pariser, los invito a hacer el siguiente experimento, busquen algún concepto en Google en una modalidad de navegación anónima y luego hagan la misma consulta estando conectados a su cuenta de Gmail, y finalmente comparen los resultados.
  • Sesgo de Interacción, el cual está asociado a como se presenta la información , me refiero a la arquitectura de información del sitio o bien como navegan los usuarios (teoría del patrón navegación en F).  Ya que al momento de destacar cosas por diferentes medios (tamaño de tipografía, colores, ubicación en la pantalla) esto introducirá un sesgo adicional.
  • Sesgo de segundo orden, el que se refiere a como los usuarios al interactuar y generar nuevos contenidos aumentan el sesgo (duplicando referencias y contenidos), por lo que esto es algo que va en aumento, se vuelven a utilizar referencias y contenidos que en su origen ya contenían un cierto nivel de sesgo.

La pregunta que surge es: ¿y ahora, quién podrá defendernos?

Y la respuesta no es simple ya que si bien se han desarrollado herramientas en esta área, aún son muy incipientes y su capacidad para reducir o al menos entregar ciertas métricas del nivel de sesgo son acotadas, es al menos la impresión que puede inferir de las palabras de Ricardo y la lectura de varios libros y papers que tratan el tema.

Fuente

Información Complementaria: Presentación Bias in the web (Ricardo Baeza), Mayo 2016, Web Science 2016, Hannover, Germany