Lectura 5:00 min
Mundo del Big Data medirá el estado de ánimo
El INEGI desarrolló una herramienta para medir nuestra felicidad o tristeza, a través de Twitter.
Foto: Reuters
Estado de Ánimo de los Tuiteros en México 2.0 es el ejercicio de generación de información estadística con más alta frecuencia que el INEGI haya realizado hasta ahora.
Por sus características es una herramienta única a nivel mundial, que medirá el estado de ánimo de los tuiteros en México, con el objetivo de interpretar la emotividad que subyace a los mensajes que se publican en la plataforma digital Twitter.
Esta herramienta es un esfuerzo por medir el bienestar más allá del Producto Interno Bruto. En este caso no se refiere a bienestar autorreportado, como ocurre con estadísticas que el mismo INEGI genera en sus encuestas BIARE, sino de bienestar inferido a partir de la carga anímica implícita en los mensajes publicados.
Conocer lo que ocurre en el mundo de las redes sociales es importante por sí mismo, por los diversos puntos de contacto que puede tener con la vida real. Esto nos permite observar aspectos de la realidad nacional que adquieren mayor relevancia en la medida en que se extiende el uso de redes sociales digitales a través de Internet.
Dado que es probable que los cambios en el cociente de positividad emotiva no sean meramente aleatorios, resulta de interés indagar acerca de los hechos o noticias que pudieran asociarse con el incremento o la disminución en el mismo.
Por ejemplo, la sensibilidad del Estado de Ánimo de los Tuiteros en México se puso a prueba con los recientes sismos del 7 y el 19 de septiembre de 2017. Tanto el 8 de septiembre como el 19 de ese mes, presentan bajas importantes en el cociente de positividad en la serie nacional con frecuencia diaria y muestran el cambio del estado de ánimo de los tuiteros, a partir de la hora en que ocurrieron los sismos.
La herramienta permite visualizar las reacciones diferenciadas por entidad federativa. De manera que mientras que la Ciudad de México presenta bajas en la positividad durante esos días, en Chiapas sólo se observa esa caída el día 8 y en Chihuahua no se aprecia algún cambio importante en ninguna de las dos fechas.
Conviene tener presente que no todos los movimientos en las series de los cocientes de positividad tienen una interpretación evidente u obvia. En este caso, el Big Data explora la utilidad de fuentes no tradicionales de información. Es decir, es una herramienta complementaria, pues a diferencia de lo que ocurre con las fuentes estadísticas tradicionales como las encuestas o los censos, la información de redes sociales no responde a un diseño conceptual, estadístico y operativo orientado a conocer aspectos específicos de nuestra realidad, sino que reaprovecha para fines estadísticos, información que en principio fue creada para otros propósitos.
¿Cómo funciona?
El grueso de la información no estructurada proviene principalmente del crecimiento exponencial del uso de dispositivos digitales en los más diversos ámbitos de la vida de las personas. Así como del número de sensores ubicados en los más diversos objetos y productos, lo que ha resultado en un “diluvio de datos”, que en unos pocos lustros nos ha llevado a una nueva realidad; en la que no sólo la cantidad total de datos disponibles se ha multiplicado a un ritmo vertiginoso, sino que ha llevado a un punto en el que más de 98% del total de datos existentes son digitales.
Es por ello que a partir de enero de 2016 este sistema reporta un cociente de positividad con actualización automática diaria.
Para construir el Estadio de Ánimo de los Tuiteros fue necesario descargar todos los tuits georreferenciados que se han emitido en México en los últimos dos años, lo que significa una acumulación de varios cientos de millones de tuits.
Las técnicas de aprendizaje de máquina permitieron entrenar a una computadora para replicar el criterio humano en la identificación de la carga emotiva de cada tuit (negativa o positiva). Cada tuit se clasifica y, a partir de ello, se construye un indicador que relaciona el número de tuits asociados con una carga emotiva.
A este indicador se le llama “cociente de positividad” y se define como el número de tuits positivos entre el número de tuits negativos para una determinada área geográfica en un periodo de tiempo determinado.
Para entrenar a la compradora, sin embargo, sí es necesario contar con un conjunto de entrenamiento calificado por humanos. En este caso, el conjunto efectivo de entrenamiento estuvo integrado por cerca de 20,000 tuits normalizados que, con el apoyo de la Universidad TecMileno, fueron clasificados por más de 5,000 estudiantes de los 29 campus distribuidos en 17 estados del país.
La frecuencia de sus lecturas, puede ser visualizada para el país en su conjunto y para cada una de sus entidades federativas con frecuencia anual, trimestral, mensual, semanal, diaria e incluso por hora.
Hoy se ha logrado una aplicación web consultable en cualquier plataforma, incluidos teléfonos móviles. Sin embargo, la incorporación de Big Data a la generación de estadísticas oficiales implica muchos retos que parten de la falta de diseño conceptual, estadístico y operativo de los datos que se utilizan; los cuales en general fueron creados para un uso distinto del estadístico, lo que implica que se debe tener mucho cuidado en cuanto a estándares de calidad, alcances analíticos y limitaciones de la información que se ofrece. (Con información de INEGI).
nelly.toche@eleconomista.mx