Cerrar
CONACYT

Maestría en Ciencias en Ciencia de Datos

En el posgrado de Ciencia de Datos se cuenta con cuatro Líneas de Generación y Aplicación del Conocimiento (LAGC) asociadas a la temática del programa y a las áreas de investigación asociadas a la Ciencia de Datos.

  • Inteligencia computacional en la ciencia de datos
  • Analítica de grandes cúmulos de información
  • Combinatoria, modelado y análisis de algoritmos
  • Cómputo de alto rendimiento

Inteligencia computacional en la Ciencia de Datos.

La inteligencia computacional es una rama del área de inteligencia artificial que se encarga del desarrollo de métodos que exhiben un comportamiento inteligente. En particular, desde la perspectiva de ciencia de datos, los métodos son aplicados al análisis de datos masivos con los objetivos de emular las acciones realizadas por un experto, aprender y descubrir patrones que no son evidentes mediante un análisis manual.

Esta línea tiene como objetivo aplicar, desarrollar y proponer técnicas de inteligencia computacional aplicadas en la Ciencia de Datos para resolver tareas como: clasificación, regresión, agrupación de elementos similares, modelización automática de problemas basados en ejemplos, etc. Estas tareas se resuelven mediante la aplicación de campos tales como: cómputo evolutivo, procesamiento del lenguaje natural, reconocimiento de patrones, visión artificial, redes neuronales artificiales, sistemas expertos, aprendizaje computacional y extracción de conocimiento.

Analítica de grandes cúmulos de información

La Analítica de Grandes Cúmulos de Información (Big Data Analytics) implica nuevas capacidades en el uso estratégico del análisis de datos. Producto del desarrollo tecnológico acelerado de las TIC, la generación masiva de datos y el proceso de apropiamiento tecnológico de las organizaciones hacen plausible la generación de valor mediante el procesamiento de grandes volúmenes de información (datos estructurados, no estructurados o semiestructurados).

El enfoque de esta línea se centra en los métodos analíticos para la generación de información valiosa (valor agregado) que de manera oportuna asistan a la toma de decisiones. Muchos de los métodos analíticos de grandes cúmulos de información involucran la aplicación de técnicas de la inteligencia computacional para la realización de tareas, que no serían posibles realizar con el enfoque tradicional de bases de datos relacionales y análisis estadístico multivariado. Las técnicas de ciencia de datos utilizadas para este fin son: análisis exploratorio de datos, análisis topológico de datos, minería de textos, minería de datos, minería de opinión, aprendizaje computacional, visualización de datos e información, recuperación de información, análisis estadístico, análisis geoespacial y análisis espacio-temporal.

Combinatoria, modelado y análisis de algoritmos

El estudio de los problemas básicos en un área del conocimiento es vital para la fundamentación y el cultivo mismo del área del conocimiento. La combinatoria es una rama de las matemáticas discretas que estudia la enumeración, construcción y existencia de estructuras discretas que satisfacen ciertas condiciones establecidas. En su ámbito de estudio se encuentra la agrupación, los órdenes, el conteo, y la construcción de configuraciones, entre otras; las cuales son herramientas matemáticas fundamentales para la construcción y el análisis de algoritmos que sean a su vez eficaces y eficientes para el análisis de grandes cúmulos de información. Como tal la interacción entre la combinatoria y la construcción y análisis de algoritmos es un proceso simbiótico y cíclico inseparable.

El análisis de algoritmos se encarga del estudio de la factibilidad de un algoritmo para resolver una tarea dada. De manera más detallada, la factibilidad viene dada por la determinación de los costos computacionales de la ejecución de un algoritmo, tanto en tiempo de cómputo como la memoria necesaria en función de la entrada. Diseñar algoritmos para el manejo de grandes cantidades de datos en una arquitectura de cómputo con limitaciones físicas reales es una tarea ardua que requiere una estrecha articulación entre el análisis teórico y la experimentación. Esta línea tiene el propósito de generar conocimiento en ciencia básica y de frontera en las áreas relacionadas a: Algoritmos aproximados, modelado de sistemas, aplicaciones de teoría de gráficas y sus generalizaciones, tal como la topología combinatoria.

Cómputo de alto rendimiento

En los últimos años, los equipos de cómputo de universidades y empresas han sido renovados con el propósito de contar con una infraestructura adecuada para el tratamiento de BigData. Este tipo de súper computadoras, necesarias para el procesamiento eficiente de grandes cúmulos de información en el área de Ciencia de Datos, son pocas veces utilizadas a su máxima capacidad debido a la falta de capital humano de alta calidad especializado en el desarrollo, análisis e implementación de algoritmos paralelizables que aprovechen al máximo las capacidades de este tipo de dispositivos considerando también su correcta configuración y administración.

El cómputo de alto rendimiento es una herramienta para la solución de problemas que requieren una gran cantidad de recursos computacionales. Con este fin, se enfoca en el uso eficiente de arquitecturas de cómputo paralelas y distribuidas; esto incluye, en diseñar algoritmos específicamente para dichas arquitecturas así como el estudio de las arquitecturas en sí mismas. Los temas pertinentes a esta línea son: cómputo paralelo y distribuido, arquitecturas de alto rendimiento, algoritmos distribuidos, lenguajes de programación y sistemas operativos. arquitecturas de alto rendimiento, algoritmos distribuidos, lenguajes de programación y sistemas operativos.