Los datos que todos generamos y que son registrados por los dispositivos tecnológicos que usamos cotidianamente están generando un nuevo paradigma en términos económicos. Diferentes a los recursos naturales, los datos se generan día con día; se acumulan, sumándose a los previos; se reutilizan. Mientra que el petróleo, por ejemplo, es un producto básico de un solo uso, los datos se pueden reutilizar y compartir con nuevos propósitos y perspectivas.

El volumen y el flujo de datos crecen a un ritmo que es difícil comprender: en los próximos dos años se crearán 40 zettabytes de datos, una cantidad tan grande que no existe un ejercicio de encuadre útil para demostrar su tamaño y alcance. Es aproximadamente equivalente a 4 millones de años de video HD o cinco mil millones de Bibliotecas del Congreso de Estados Unidos.

Los datos per se no tienen valor hasta que se transforman en conocimiento accionable. La ciencia de datos, disciplina que se encarga de esta transformación, requiere los conocimientos especializados de los egresados de las carreras de Matemáticas y Física. En México, según datos aportados por Jesús Ramos, director de Contenidos de Data-Day y director de Operaciones de Datank.ai, startup especializada en Ciencia de Datos, la suma de matemáticos y físicos que salen de las aulas no supera los 350 egresados cada año. A este volumen de especialistas se deben restar a los que se desarrollan en la academia y a los que emigran al extranjero.

Data-Day México es una iniciativa que busca ser un punto de confluencia de todos los actores de este naciente sector en el país. El evento que se realiza a lo largo de todo un día reúne una serie de conferencias de tomadores de decisiones, ingenieros y científicos de datos con el objetivo de generar diálogo sobre la ciencia de datos y sus posibles aplicaciones en distintos tipos de negocio o emprendimiento social.

Dirigido a la comunidad de científicos de datos y al sector empresarial, los interesados neófitos en el tema también están convocados para estar al tanto de esta nueva realidad y sus más innovadoras aplicaciones. A realizarse este jueves 15 de marzo en el Hotel Courtyard by Marriot (Av. Revolución, Ciudad de México), Data-Day México tendrá el siguiente programa de conferencias:

9:00 – 9:40. Detrás de la cortina de la IA: diseño para la confianza en productos de aprendizaje automático
Estudio de caso sobre cómo los equipos de diseño y ciencia de datos pueden trabajar juntos para generar una mayor confianza entre los usuarios. Impartida por Crystal Yan.

9:40 – 10:20. Preparando nuestras ciudades para la transformación digital
La forma en que operan las ciudades debe mejorar creando una conexión cívica más sólida con los ciudadanos. La transición digital requiere una definición clara de roles y responsabilidades. Impartida por Zinnya del Villar.

10:20 – 11:00. IoT + BI: cómo resolver la disparidad de velocidad
Platicaremos sobre los retos en la velocidad de datos generados por iniciativas de IoT, y como la plataforma Qlik puede ayudar a enfrentarlos. Impartida por Miguel Flores.

11:40 – 13:00. Taller: Dplyr + R + Spark = SPARKLYR
Tutorial y workshop de sparklyr para manejo de grandes volúmenes de información sin salir de nuestro querido lenguaje R. Impartida por Edgar Ruíz.

11:40 – 12:20. Lectura de comprensión automatizada con deep learning
Presentaremos modelos de deep learning para comprensión de textos usando el dataset de SquAD. Impartida por Fernanda Mora Alba.

11:40 – 12:20. Innovación @Amazon
Conoce los pilares del modelo de innovación de Amazon, y cómo lo ha aplicado en distintos negocios enfocados en diferentes mercados. Impartida por Ricardo Rentería.

12:20 – 13:00. Optimización del sistema de transporte por medio de aprendizaje por refuerzo
Compartiremos el caso de un sistema para recomendar automáticamente los tiempos de salida de camiones de transporte público por medio de un modelo de machine learning y un agente de aprendizaje reforzado (reinforcement learning). Impartida por Adolfo Martínez.

12:20 -13:00. MongoDB en la transformación digital
Repasaremos algunos de los principales retos de las iniciativas transformación digital y cómo MongoDB está apoyando a sus clientes para superarlos. Impartida por Omar Camacho.

13:00 – 13:40. Es posible que no necesites pandas
Aprenda alternativas puras de Python para tareas comunes de análisis de datos sin la biblioteca de pandas. Impartida por Reuben Cummings.

13:00 -13:40. Machine learning usando Weka, en un entorno de cómputo distribuido
Demostración de cómo implementar machine learning distribuido con Weka aplicado a un caso de uso real. Impartida por Alexandra Lemus.

13:00 – 14:20. Taller: Análisis de datos con MongoDB
En este taller aprenderás cómo insertar, enriquecer y analizar datos con MongoDB. También veremos cómo usar los datos existentes en MongoDB desde Python y desde una herramienta de BI. Impartida por Alejandro Mancilla.

13:40 – 14:20. El camino hacia la empresa inteligente
Cómo organizar y arropar iniciativas de datos desde la alta dirección para que generen valor sustentable. Impartida por Arturo Cárdenas.

13:40 – 14:20. Cuando la tierra se sacude
Se propone un proceso de análisis de imágenes obtenidas por drones para identificar de forma automatizada zonas de rescate en comunidades rurales que requieren atención después de un sismo. Impartida por Amaury Gutiérrez.

15:20-16:00. De género a género: el uso del lenguaje a través de vectores de palabras
A través del contexto bajo el cual se usan las palabras podemos definir un espacio vectorial con propiedades interesantes. ¿Serán suficientes para catalogar el uso del lenguaje a través de géneros literarios? Impartida por Irving Simonin Wilmer.

15:20-16:00. Cómo construir pipelines para streaming de datos en visualizaciones: un ejemplo divertido usando Minecraft
Cómo construir un pipeline de streaming de datos utilizando un ejemplo del videojuego Minecraft. Impartida por Ángel Alvarado.

15:20 – 16:00. Grandes poderes, grandes responsabilidades
Aprendamos de los reporteros, abogados y detectives para hacer mejor análisis de datos. Impartida por José Antonio Padrós.

16:00 – 16:40. El proyecto fue un éxito, ¿y ahora?
Cómo preparar iniciativas de misión crítica para transición al área operativa. Impartida por Ángel Monjarás.

16:00 – 16:40. Estrategias para editar datos de producción
En ocasiones, es necesario ejecutar consultas de escritura SQL ad hoc en la base de datos de producción. En esta charla, aprenderá estrategias para realizar modificaciones en la base de datos de producción de forma segura con ejemplos de una pila de Python. Impartida por Julie Qiu.

16:00 – 17:20. Taller: Datos en tiempo real con GraphQL
En este taller práctico construiremos un backend para datos en tiempo real utilizando GraphQL Yoga. Impartida por Rodrigo Quezada.

16:40 – 17:20. Usos correctos (e incorrectos) de los datos del Inegi
Las oficinas de estadística han realizado múltiples esfuerzos para que sus datos sean más accesibles y fáciles de utilizar. A pesar de esto, hay algunos detalles metodológicos que es muy importante considerar cuando se utilizan datos oficiales que escapan a estos estándares. Impartida por Andrea Fernández Conde.

16:40 -17:20. Sanitización de datos y privacidad
Exploramos métodos de sanitización que brindan privacidad de datos sin afectar la calidad de estos. Impartida por Juan Zinser.

17:50 – 18:30. Cromatocracia: El pantone de la movilidad social en México
¿Existe una formula matemática para lograr la movilidad social en México? Impartida por Adrián Santuario.

17:50 – 18:30. La importancia estratégica de considerar mezclas de distribuciones
Cómo utilizar una mezcla de distribuciones para explicar el comportamiento de sistemas complejos. Impartida por Moyocoyani Molina Espíritu.

17:50 – 19:10. Taller: Limpieza y preparación de datos con Optimus y Spark
En este taller, impartido por uno de los desarrolladores de Optimus, aprenderás a realizar limpieza y preparación de datos utilizando Optimus en conjunto con Apache Spark y Python. Impartida por Favio André Vázquez.

18:30 – 19:10. RKHS, teoría y aplicaciones con machine learning
Aprende a aplicar RKHS para resolver problemas tanto de clasificación como de regresión. Impartida por Alonso Baranda.

18:30 – 19:10. Lo que las telcos saben de nosotros y a quién se lo dan
Veremos la información que las empresas telefónicas tienen de nosotros, y qué agencias gubernamentales piden más datos amparadas en la regulación del IFT en la materia, y así detectar brechas regulatorias.