A México le faltan mates y filosofía para triunfar en inteligencia artificial

Still del documental Alpha Go, disponible en Netflix, donde aparecen los ingenieros en aprendizaje automático monitoreando el desempeño y la actividad de la red neuronal que jugó el juego de Go contra el campeón mundial.

México se encuentra en una encrucijada con respecto a la economía de la inteligencia artificial (AI, por su sigla en inglés). Una encrucijada en la que, para salir airosos, requerimos dos grandes músculos: uno tecnológico y otro científico, de los cuales tenemos hipertrofiado el primero y poco entrenado el segundo.

México ha producido, en promedio de 2006 a 2012, más de 21,000 programadores al año, según cifras de la OCDE. Estos estimados, sin embargo, no consideran la gran cantidad de ellos que ingresan al mercado laboral sin estudios formales de ingeniería, y que se graduaron de programas informales de capacitación que, si bien no los prepara en ingeniería, si los convierte en elementos empleables. Es un bono de talento gigantesco para el país, y podría significar una segunda oportunidad para lograr un escenario de “full employability”, no esperada desde que desperdiciamos el famoso “bono demográfico” de hace 10 años.

Este artículo es una cordial respuesta e invitación al debate para Javier Arreola y Juan Pablo Rodríguez, autores  del artículo de Forbes publicado el 20 de julio con el título “México puede triunfar en Inteligencia Artificial”.

Nuestras deficiencias estructurales

Sin embargo, este talento tiene sus deficiencias. En 1982, cuando México se preparaba para entrar de lleno al modelo neoliberal, era importante ajustar los planes de educación nacional para producir talento valioso para el modelo de maquila. En ese entonces, desde la SEP se solicitó a toda la red de universidades, tecnológicos y centros de capacitación del país que privilegiaran asignaturas y entrenamiento técnicos, restándole relevancia a materias de matemáticas avanzadas y filosofía. Las universidades autónomas tuvieron la opción de acatar o no las indicaciones de la SEP, pero los tecnológicos regionales lamentablemente no tuvieron opción.

La ingeniería en computación resultó la más lastimada con esta decisión, debido a una combinación de factores, como la manera en que las universidades articularon sus departamentos o facultades de informática y computación, su separación de las escuelas de matemáticas y la fusión de responsabilidades de las áreas de informática operativa con las responsabilidades académicas.

El contexto de entonces dictó que era más importante formar ingenieros que pudieran dar mantenimiento al costoso equipo y la maquinaria utilizada en el modelo de maquila que ingenieros que pudieran resolver problemas

¿Qué se pierde cuando se excluye de la educación las matemáticas avanzadas y la filosofía? Los fundamentos para crear conocimiento. Con filosofía se fortalece la higiene argumentativa y la capacidad de formular la pregunta correcta; con matemáticas se obtiene el poder de modelar partes de la realidad y las estructuras mentales para manipularla de manera efectiva.

Los resultados de esta política son tangibles hoy. Solo graduamos poco más de 350 matemáticos y físicos al año en todo el país, según el IMCO, y aunque el modelo inició un cambio en 1993, las consecuencias se continúan sintiendo en el talent pool del país.

Su impacto en el escenario actual

Llegó el siglo XXI y tenemos ahora 11 generaciones de programadores, muchos de los cuales comparten estas deficiencias. Es cierto que este talento tiene gran fortaleza en su práctica y nos da un músculo tecnológico más grande que muchos países industrializados, como Japón y Alemania. También es verdad que son muy deseados por empresas de San Francisco, Seattle y otras partes de Estados Unidos, generando para México poco más de 3,200 millones de dólares. Incluso se está conformando de manera orgánica un ecosistema de proveedores de talento remoto para este mercado en clústeres tecnológicos como Guadalajara. Sin embargo, estos programadores siguen adoleciendo de una herramienta fundamental: muchos no están capacitados para crear conocimiento.

La habilidad de crear conocimiento de manera juiciosa y ética es indispensable para una práctica robusta de AI. Los algoritmos y modelos que le dan vida a esta disciplina se alimentan de datos. Muchos datos son producidos por procesos humanos y son por tanto falibles. Para lograr mejores prácticas de AI se requiere de estructuras mentales que privilegien el preguntar siempre ¿por qué?, a manera de detective, y no tanto ¿cómo?, que es lo que hacemos nosotros los programadores. Solo cuando contestamos el porqué generamos conocimiento nuevo con el que posteriormente, al contestar el cómo, podemos transformar la realidad.

Para poder hacer que algoritmos y modelos realmente mejoren algún aspecto de la vida pública, o de los negocios, debemos entender con precisión qué le duele a una organización. Para conseguirlo es importante reconocer y delimitar el problema, llegar a su pregunta más fundamental. 

En un survey que hicimos en The Data Pub, ONG dedicada a la educación y sensibilización del mercado con respecto a ciencia de datos y machine learning, le preguntamos a 1,200 personas sobre su afinidad a las cinco disciplinas que, en una versión muy granular, componen la labor de AI, aprendizaje automático y análisis de datos. Lamentablemente hemos observado que aquellos más afines al desarrollo de software son menos afines a los problemas de negocio. En la AI, si bien hay un fuerte componente de software, lo primordial es entender el problema y modelar la realidad acorde a ese entendimiento.

Una historia de oportunidades en AI

The Data Pub recoge de la industria nacional e internacional historias de éxito y oportunidades en ciencia de datos y AI. La mayoría de las historias de oportunidades evidencian las deficiencias estructurales que explicamos arriba.

La más reciente fue durante los eventos del sismo del 19 de septiembre de 2017. A pesar de lo difícil que fue ese momento para muchos (y que para otros lo sigue siendo), todo el país se volcó en ayudar en lo que fuese, con los talentos y recursos que cada quien tenía en ese momento. Se organizaron poderosas iniciativas ciudadanas basadas en datos, como un servicio web para comunicar centros de acopio, auspiciado por Codeando México, otra ONG de tecnología cívica, o los mapas colaborativos del proyecto Verificado19S.

Un grupo de programadores, sin embargo, ideó un proyecto que entrenaría un algoritmo de visión por computadora para detectar fallas estructurales de alguna construcción con fotografías de grietas, las cuales inundaron Twitter durante esos días. El problema con esto es que los algoritmos de computer vision, aunque poderosos, requieren de decenas de miles de fotografías correctamente etiquetadas para poder dar una clasificación certera. Por fortuna, a pesar de toda la devastación del sismo, en redes sociales solo se contaban con poco más de 600 fotos. Estos algoritmos, al ser “entrenados” a reconocer el patrón de una grieta con tan pocos ejemplos, por diseño resultan en un gran número de falsos positivos y falsos negativos.

Los falsos positivos, en este caso, se dan cuando el algoritmo etiqueta una fotografía de una grieta como “daño estructural” cuando no lo tiene, mientras que los falsos negativos significan el etiquetar una fotografía como “sin daño estructural” cuando sí lo tiene.

Este proyecto tenía gran potencial de impacto, pero no tomaba en cuenta los costos sociales altísimos que podía desencadenar, dado que un falso positivo implicaría que una familia abandonara un edificio diagnosticado con “daño estructural”, sin tenerlo, acudiendo tal vez a un albergue a consumir los alimentos y el agua que corresponderían mejor a una familia cuyo hogar hubiera sido efectivamente dañado por el movimiento telúrico.

Por otro lado, un falso negativo podría tener consecuencias funestas, pues si una familia habita un edificio designado “sin daño estructural” por el algoritmo, cuando sí lo tiene, esa familia arriesga su vida sin saberlo al permanecer en el edificio dañado.

Gracias a la intervención de líderes de la comunidad de AI, quienes apuntaron estos riesgos a tiempo, este proyecto se quedó en un ejercicio académico y nunca se utilizó para tocar la realidad.

Siguiendo este caso, los síntomas de las deficiencias cognitivas que explicamos se evidencian en: 

1. la desconexión que existió entre el grupo de programadores y la realidad del objetivo primordial de salvar vidas y ayudar, privilegiando la tecnología solo por la tecnología; 

2. el análisis de datos y los algoritmos de aprendizaje automático, que pueden ser evaluados en su desempeño para verificar la calidad y confiabilidad de las predicciones, cosa que no fue realizada de manera efectiva, ya que requiere de un grado de conocimiento matemático en el cual somos deficientes, y 

3. la carencia de la formulación de una pregunta correcta, esto es cuestión de higiene argumentativa, es decir, de un razonamiento sin falacias, como saber que correlación no implica causalidad, y de ser sensible a variables fuera de nuestros mecanismos de recolección de datos.

Desde el enfoque de nosotros los programadores, es común que al abordar algún proyecto consideremos primero, y antes que nada, la tecnología de última moda, o alguna habilidad nueva que deseamos aprender, y después busquemos un problema que se adapte a nuestra solución. Resolver problemas de esta manera no es lo óptimo. Lo ideal es enfocarse primero en el problema, luego aplicar las matemáticas disponibles para modelarlo, y por último designar la tecnología para implementar un cambio en la realidad. Dejar el enfoque del problema como último paso limita severamente las opciones tecnológicas para implementar una buena solución.

¿Cómo subsanar estas deficiencias?

Al ser la AI un campo nuevo, y propenso a exuberancia irracional, es común que la oferta de capacitación haya explotado en México en el último año, con alrededor de 10 cursos ofertados cada mes bajo modelos no tradicionales. Estos cursos cumplen de manera adecuada la función de cubrir el componente de programación y software que requiere la labor del aprendizaje automático, pero no nos enseña a tener higiene argumentativa, ni las matemáticas necesarias para ser efectivos y sustentables en esta disciplina. De hecho, existen ofertas de algunos cursos que activamente rechazan la instrucción matemática, considerándola algo secundario.

Nuestra sugerencia es en varios niveles: si eres estudiante, considera matemáticas aplicadas, econometría, física, o alguna disciplina altamente cuantitativa, y complementa tu instrucción con materias de computación como ingeniería de software y sistemas distribuidos, sin olvidar la filosofía. Del mismo modo, si eres estudiante de ingeniería en computación, toma todas las optativas de matemáticas, sobre todo matemáticas discretas, probabilidad, estadística, teoría de la información, y obviamente, filosofía.

Si eres profesionista, toma algún diplomado de estadística o econometría. Si esto no fuera posible, siempre puedes regresar a la escuela como oyente, a clases de materias como estadística multivariada, álgebra lineal, probabilidad, etcétera. Te garantizo que ninguna universidad te va a cobrar como exalumno.

La educación abierta por internet dispone de una gran gama de cursos que pueden suplementar la instrucción matemática que nos falta. La plataforma Coursera, por ejemplo, ofrece la especialización en ciencia de datos en conjunto con la Johns Hopkins University, que es muy popular entre los programadores mexicanos, quienes la cursan a razón de 800 suscriptores nacionales al año, según cifras internas de la empresa. 

Dicha especialización consta de 9 módulos, siendo el 6, Inferencia Estadística, el más matemático y de mayor contenido lógico de todos, y donde de cada 10 estudiantes mexicanos 8 deben cursarlo una segunda vez. Esto no debe desanimarnos. Al contrario, es de esperarse que, después de 36 años de no tener un programa de matemáticas sólido, aprovechar estas oportunidades nos cueste un poco de trabajo.

Programas académicos completos y robustos como la Maestría en Ciencia de Datos del ITAM, la primera en latinoamérica y de las más completas y rigurosas, o la Maestría en Inteligencia Analítica de la Anáhuac, son la mejor opción, si tienes la resistencia y el compromiso contigo mismo de convertirte en un practicante efectivo de esta disciplina. Existen otras, pero después de más de 120 entrevistas a candidatos para la posiciones de analistas de datos, científico de datos, o machine learning engineer, provenientes de varias carreras y antecedentes, nuestra experiencia nos dicta esta recomendación.

Entonces, ¿podemos sobresalir en AI?

Definitivamente. La AI, y de hecho el análisis de datos en general, sin importar sofisticación o escala, es un trabajo en equipo, y un equipo altamente efectivo en esta disciplina no solo se compone de matemáticos, físicos o actuarios, sino también de ingenieros de datos para levantar el poder de cómputo y los flujos de adquisición, procesamiento y entrega de datos, e incluso ingenieros de software para convertir al modelo matemático o algoritmo en un producto escalable, que pueda tocar la vida de millones de personas. Si de estos 113,000 programadores, solo la mitad decide convertirse en ingenieros de datos, estaremos sumando un talento altamente necesario y requerido en el ecosistema mexicano.

Le debemos al país que, en la economía del futuro donde la mayoría de la actividad productiva está automatizada, nuestra mano de obra calificada migre lentamente de la maquila a la economía del conocimiento, y se convierta en mentes y cerebros que nos ayuden a tener una práctica de AI efectiva, rigurosa y ética.

El tráfico en la CDMX (I)

La romantización de la cocina de casa

Regresar a la cocina podría asegurar una mejor alimentación, pero este hecho depende de una multiplicidad de variables.

La Gran Carpa

Opinión de la sección de Foros de El Economista del 25 de septiembre del 2018.

“Mala” logística retrasa recuento

En Coyoacán, habrá campañas y recursos para partidos