Artículos

Aprendemos de nuestros errores: cómo hacer mejores predicciones a partir de tweets

por David Tuffley y Bela Stantic

Las redes sociales son vistas como una mina de oro potencial de información. La clave es descubrir cómo explotar esta abundante fuente de sentimiento público.

Vincular el sentimiento de los medios sociales con el comportamiento humano es un campo de estudio relativamente nuevo y en evolución. Tiene un gran potencial: lo usamos con éxito para predecir el resultado de las elecciones estadounidenses de 2016.

Pero nos equivocamos con la encuesta sobre el matrimonio entre personas del mismo sexo de Australia, y este es el motivo.

Cruzamos los números

Muestreamos cuidadosamente el sentir de 458.565 tweets australianos anónimos que hicieron referencia al matrimonio entre personas del mismo sexo. Encontramos un 72% de apoyo general para Sí. Esto se promedió a partir de todo el mes de octubre.

Pero notamos que algunas cuentas de Twitter habían enviado más de 1,000 tweets relacionados con el matrimonio entre personas del mismo sexo. La cantidad de usuarios únicos se redujo a solo 207,287.

Parecía sabio minimizar la influencia de estos tweets masivos porque para cuando fueron enviados, muchos de los votos ya habían sido emitidos. Al descontar la influencia de los tweets masivos, el apoyo del Si descendió al 57%.

Una vez que ajustamos otro 8% por la subrepresentación del grupo demográfico de más de 55 años en la muestra de Twitter, concluimos que el apoyo total para Sí se redujo al 49%.

Con el beneficio de la retrospectiva

En ensayos exitosos previos, asumimos que todos los tweets son iguales. Si hubiéramos hecho la misma suposición en esta prueba y hubiéramos hecho todo lo demás de la misma manera, entonces, al volver a analizar los números, nuestra predicción para Sí habría sido 59.08%, que está cerca del resultado oficial de 61.6%.

Hicimos la suposición incorrecta de que el tuit masivo no sería influyente porque la votación se extendió a lo largo de varias semanas.

En nuestro artículo anterior, reconocimos la influencia del tweeteo masivo. Dijimos que los tweets de campaña habrían influido en cierta medida en la opinión pública, pero lo anticipamos en mucha menor medida.

Entonces, hay lecciones que aprender de esto para cualquier análisis futuro.

Historias de éxito

Hasta ahora hemos hablado principalmente sobre cuándo nos equivocamos y por qué. ¿Pero qué pasa con la vez en que el Big Data y Smart Analytics Lab lo hicieron bien?

El laboratorio predijo correctamente no menos de 48 de 50 elecciones estatales de Estados Unidos celebradas al mismo tiempo que las elecciones presidenciales de 2016, que también predijimos correctamente.

Predijimos la victoria de la Coalición en las elecciones federales australianas de 2016. Y nuestro método dio una clara indicación de que “Brexit” prevalecería sobre “Bremain”, al contrario de las elncuestas anterioes del referéndum británico sobre la membresía de la Unión Europea.

En todos estos casos, estuvimos midiendo el sentimiento de los medios sociales hasta un día de elecciones específico en el que todo se decidirá. El resultado de la elección es una instantánea de cómo se sienten los votantes en ese día.

Con la encuesta sobre el matrimonio entre personas del mismo sexo, la votación se extendió a lo largo de varias semanas, por lo que es difícil saber qué proporción de la votación tuvo lugar en un día o incluso una semana en particular.

Incluso con esta incertidumbre, fue posible hacer predicciones razonablemente precisas siempre que las suposiciones subyacentes sean correctas, como que todos los tweets tengan la misma influencia.

Twitter no es la única fuente

Con 328 millon de usuarios activos en todo el mundo, y muchos más usuarios inactivos que, no obstante, leen los tweets de otros, Twitter es una excelente fuente de información sobre las opiniones e intenciones de las personas.

Pero es bueno tener múltiples fuentes de datos al hacer análisis de big data.

En diversos proyectos, que van desde la satisfacción de los turistas hasta los cambios ambientales, Big Data y Smart Analytics Lab utilizan combinaciones de Twitter, Flickr, Instagram, páginas públicas de Facebook e incluso la plataforma china de medios sociales Weibo. Todo es molienda para el molino.

Facebook es, con mucho, el canal de medios sociales dominante en el mundo. Nuestro análisis solo accede a las páginas públicas. Pero con dos mil millones de usuarios y en crecimiento, todavía tenemos muchos datos para trabajar.

Twitter se ha convertido en un canal más orientado a las noticias y las opiniones, con personas que comparten artículos de interés periodístico con personas de ideas afines. Las celebridades y los políticos lo utilizan como un canal directo para su audiencia, evitando por completo los canales de medios establecidos.

La brevedad de los tweets se impuso por un límite de 140 caracteres hasta hace poco, cuando la restricción de longitud se duplicó a 280 caracteres. Los caracteres adicionales hacen de los tweets una fuente de información aún más rica para la minería de datos.

El poder de las redes sociales

El hecho es que la gente dice cosas en las redes sociales que no dirían en voz alta. Muchos trolls y personas que interrumpen en el mundo en línea resultan ser personas de modales suaves en el mundo real. Puede ser sorprendente

¿De quién es la opinión más interesante para el analista? ¿Es la persona social quien tiene responsabilidades con la comunidad y generalmente es cortés? ¿O es la persona privada quien solo expresa sus verdaderos sentimientos a sus confidentes más cercanos y en las redes sociales?

Ambos son interesantes, pero podría decirse que es el último cuya opinión determina el resultado de los problemas sociales.

La lección que debemos aprender de nuestro error con la encuesta sobre el matrimonio entre personas del mismo sexo es que todas las publicaciones en redes sociales cuentan. Las redes sociales son en verdad una fuerza poderosamente democratizadora.