Escuela de Ciencia de los Datos 2019

Jessica Beltrán, IPN
Aplicaciones del aprendizaje automático con Python

En este taller se verán los conceptos elementales relacionados al aprendizaje automático. Se mostrarán ejemplos de diferentes tipos de aplicación y se describirán implicaciones del uso de datos provenientes de distintas fuentes. Este taller tendrá una parte práctica, donde los asistentes realizarán actividades usando el lenguaje de programación Python y bibliotecas especializadas para el aprendizaje automático.

Ángel Gutiérrez, General Electric Data Scientist
Transformando la Industria de la Aviación con Ciencia de los Datos

La ciencia de datos está cambiando la forma en que las industrias trabajan hoy en día, la industria de Aviación no es la excepción. La reducción de costos en la tecnología, el incremento de los sensores, activos y datos, y el surgimiento de nuevas tecnologías para analizar los datos han permitido el rápido crecimiento del uso de analíticos y la ciencia de datos. En esta presentación abordaremos como GE está utilizando la metodología de ciencia de datos para crear analíticos que permitan optimizar sus operaciones y agregar valor a sus clientes. Se discutirán los diferentes tipos de analíticos y se presentarán algunos ejemplos.

Diego Rivera, Centro de Investigación COPPEL
Propuesta para agrupamiento robusto de series de tiempo

Se propone un algoritmo de agrupamiento robusto para series de tiempo estacionarias. El algoritmo se basa en el uso de densidades espectrales estimadas, que se consideran datos funcionales, como la característica básica de series temporales estacionarias para fines de agrupamiento. Luego se aplica un algoritmo robusto para datos funcionales al conjunto de densidades espectrales. Las técnicas de recorte y las restricciones sobre la dispersión dentro de los grupos reducen el efecto del ruido en los datos y ayudan a prevenir la identificación de grupos espurios. El procedimiento se prueba en un estudio de simulación y también se aplica a un conjunto de datos real.

José Eduardo Loza - Centro de Investigación Coppel
Redes neuronales para pronósticos de demanda de efectivo en cajeros automáticos

Para determinar la carga óptima de efectivo en una red de cajeros automáticos, se desarrolla el ajuste de un modelo de series temporales por medio de redes neuronales secuenciales. Se elige este método ya que, además de datos históricos sobre transacciones de efectivo, se superponen factores, como días de pago, vacaciones y demanda estacional en un área específica, a partir de los resultados se establece un monto a cargar para cada cajero.

Erik Leal Enríquez - Centro de Investigación COPPEL
Boosting adaptativo de machine learning aplicado a credit scoring

Se desarrolla un modelo de score para la tarjeta de crédito mediante el algoritmo "Boosting Adaptativo" de Machine Learning. Este método se elige, ya que se desea mantener una "transparencia" para la asignación de puntaje, con el objetivo de analizar y comparar los resultados que se obtiene con el score de crédito mediante el método de regresión logística. Se utiliza información de solicitudes y de buró de crédito.

José Manuel Carpinteyro Sánchez - Centro de Investigación COPPEL
Aplicaciones innovadoras de "Computer visión"

La ponencia tiene como objetivo ampliar el panorama de los asistentes respecto al estatus de la inteligencia artificial al día de hoy y las posibles aplicaciones que pudieran ser desarrolladas en un futuro a corto plazo; Así como mostrar ejemplos reales que ya existen en la actualidad.

Estructura:

Conciencia tecnológica Hacer conciencia sobre las implicaciones (pros/contras) que tiene el avance tecnológico en la rama de la inteligencia artificial.
Ejemplos reales de Computer Vision: Mostrar ejemplos de proyectos innovadores de algunos colegas (en las ramas: seguridad, experiencia del cliente, sanidad, medicina, vida diaria, programación, diseño gráfico, lingüística)
Ejercicio en vivo: Hacer un ejemplo de reconocimiento e identificación facial con algunos de los asistentes

Yárik Menchaca - KANTAR
Deep learning para análisis de texto

El procesamiento del lenguaje natural (PLN) es una de las tecnologías más importantes para la industria y fundamental para un científico de datos. El análisis y comprensión de textos es también uno de los principales retos que enfrenata la inteligencia artificial. Hay una gran variedad de tareas subyacentes y modelos de aprendizaje de máquina que potencian las aplicaciones de PLN. Recientemente, los enfoques de aprendizaje profundo han obtenido un rendimiento muy alto en muchas tareas de esta área. Estos modelos a menudo pueden ser entrenados con un solo modelo de extremo a extremo y no requieren una arquitectura específica para cada tarea. Durante este pequeño curso exploraremos estos poderosos modelos y cómo pueden ser utilizados para resolver problemas encontrados frecuentemente en la industria.

Mario Abarca - KANTAR
¿Qué nos dicen los datos sobre la ciencia de datos?

La ciencia de datos es una expresión en boga entre académicos e industrias, pero su significado preciso es un tema esquivo que se suele resumir aglomerando habilidades de estadística y computación. Esta carencia de precisión en el perfil presenta un problema doble: en la industria se hace presente el reto de reclutar personas especializadas en un área con poca oferta académica, y en las instituciones de educación superior no se tiene claro el perfil de egreso con el que debe cumplir un científico de datos. Utilizando fuentes de datos de Internet como StackOverFlow y Kaggle intentamos descubrir qué es un científico datos, a qué se dedica, sus métodos de investigación, habilidades con las que cuenta, y las herramientas que usa.

Moisés Arizpe y Sarahí Aguilar
Optimizando la enseñanza con ciencia de datos

Las instituciones educativas y los procesos de aprendizaje conllevan una gran cantidad de datos, y se refieren a problemas de gran importancia para la sociedad pues juegan un papel fundamental para el futuro de ésta. Por tanto, la educación un ámbito especialmente adecuado para la ciencia de los datos. Una variedad de problemas educativos sugieren tareas potenciales de modelado y predicción. Deserción escolar, retrasos en el aprendizaje, satisfacción del alumnado son algunos de ellos. En esta plática comentaremos dos casos de estudio en donde la ciencia de datos fue usada para abordar estos problemas.

Antonio Ortiz y Nancy Morales - Kantar
¿Estadística Bayesiana o simplemente Estadística Moderna? Teoría y aplicaciones

La estadística bayesiana se abrió paso en la industria y academia de manera muy accidentada a través de varias décadas. De pasar a ser un framework interesante desde el punto de vista teórico, ahora ha tomado una relevancia tan importante y de manera tan súbita, que es difícil percibir en qué momento se volvió parte del paisaje natural hasta en análisis muy complejos. Exploraremos cuál ha sido la evolución de la estadística bayesiana, en dónde la encontramos en las complejidades de metodologías modernas, incluyendo Machine Learning o Inteligencia Artificial. Presentaremos casos prácticos en Kantar donde el enfoque bayesiano ha roto los esquemas tradicionales de análisis en Marketing.

Inder Tecuapetla-Gómez - Conacyt - Conabio
Generación y análisis de series de tiempo de imágenes satelitales: métodos y aplicaciones

La creciente inter conexión entre estadística y percepción remota nos provee de interesantes retos en el manejo de cubos de información (con tamaño estándar en decenas de terabytes) y su posterior análisis cuantitativo. Utilizando como pretexto dos aplicaciones actuales (análisis de tendencias temporales del ecosistema de humedales en México y monitoreo de severidad de incendios en áreas naturales protegidas) en este curso corto discutiremos temas varios como:

missing data
smoothing temporal
análisis estadístico de tendencias
estimación estadística de cambios abruptos (cambios estructurales, breakpoints)
clasificación estadística

El curso está basado en una serie de R scripts por lo que el único requisito es saber cómo ejecutar una línea de comando en este lenguaje Hint: en RStudio, presiona el botón "Run" ́o la combinación de teclas Ctrl, Enter.

Consideramos que estuasiastas profesionales de biología, ciencias de la computación, ciencias de la tierra, ecología, estadística, geografía, geofísica, matemáticas aplicadas, y un amplio etc., podrán harto beneficiarse de este curso.

Juan Carlos Valdiviezo Navarro - Centro GEO Conacyt
Procesamiento y análisis de datos de percepción remota: retos y perspectivas

Durante más de cuatro décadas, diferentes misiones satelitales han colectado imágenes de la superficie terrestre, mismas que pueden ser interpretadas para determinar diversas propiedades físicas de las coberturas terrestres. Debido a que mucha de esta información no era de libre acceso y su análisis requería del uso de hardware especializado, dicha información no era factible de ser analizada. Hoy en día se tienen los recursos de cómputo necesarios y las capacidades de almacenamiento adecuadas para procesar la gran cantidad de datos registrados por sensores satelitales, mismos que han permitido no solo determinar los cambios que ha sufrido nuestro planeta, sino modelar algunos de los fenómenos físicos involucrados. En esta plática primeramente se presentará un panorama general de las misiones satelitales que han sido puestas en órbita y se hará énfasis en aquellas que se encuentran en operación en los últimos años. Posteriormente se presentarán algunas técnicas requeridas para realizar el pre-procesamiento de datos satelitales y su posterior análisis para clasificar coberturas terrestres. Finalmente se mencionarán los retos y perspectivas que requiere el manejo del gran volumen de datos que se genera a diario.

Arturo Álvarez Cruz - Instituto de Física - UNAM
Matemáticas en redes neuronales e implementación con tensorflow 2

Se presentaran las matemáticas detrás de redes neuronales y redes de convolución así como funciones de activación, métodos de regularización y pre-procesamiento de datos. Se mencionaran los cambios en tensorflow 2 así como las ventajas de esta versión. Por ultimo se implementara una red usando tensorflow 2 y keras.

Resúmenes

Jessica Beltrán, IPN Aplicaciones del aprendizaje automático con Python

Ángel Gutiérrez, General Electric Data Scientist Transformando la Industria de la Aviación con Ciencia de los Datos

Diego Rivera, Centro de Investigación COPPEL Propuesta para agrupamiento robusto de series de tiempo

José Eduardo Loza - Centro de Investigación Coppel Redes neuronales para pronósticos de demanda de efectivo en cajeros automáticos

Erik Leal Enríquez - Centro de Investigación COPPEL Boosting adaptativo de machine learning aplicado a credit scoring

José Manuel Carpinteyro Sánchez - Centro de Investigación COPPEL Aplicaciones innovadoras de "Computer visión"

Yárik Menchaca - KANTAR Deep learning para análisis de texto

Mario Abarca - KANTAR ¿Qué nos dicen los datos sobre la ciencia de datos?

Moisés Arizpe y Sarahí Aguilar Optimizando la enseñanza con ciencia de datos

Antonio Ortiz y Nancy Morales - Kantar ¿Estadística Bayesiana o simplemente Estadística Moderna? Teoría y aplicaciones

Inder Tecuapetla-Gómez - Conacyt - Conabio Generación y análisis de series de tiempo de imágenes satelitales: métodos y aplicaciones

Juan Carlos Valdiviezo Navarro - Centro GEO Conacyt Procesamiento y análisis de datos de percepción remota: retos y perspectivas

Arturo Álvarez Cruz - Instituto de Física - UNAM Matemáticas en redes neuronales e implementación con tensorflow 2