Cerrar
CONACYT

Laboratorio de Analítica (Big Data)

Contamos con un laboratorio que integra diversas tecnologías para el almacenamiento, recuperación, procesamiento, análisis y visualización de grandes cúmulos de información. Conoce nuestro Laboratorio de Analítica Computacional (Big Data).

¿Qué es Big Data?

Ver la alternativa textual para la infografía de Laboratorio de Analítica (Big Data)

Visita la página del grupo de investigación

Visita el Mapa de estado de ánimo de los tuiteros en México

 

Alternativa textual para la infografía de Laboratorio de Analítica (Big Data)

¿Qué es Big Data?
  • Implica un nuevo paradigma en el uso estratégico del análisis de datos.
  • Es un nuevo método para analizar grandes cantidades de datos.
  • Se describe con las 5 “V”: volumen, variedad, velocidad, veracidad y valor de los datos.
  • Involucra datos estructurados, no estructurados o semiestructurados.
  • El análisis de grandes datos busca la obtención de información valiosa en la toma de decisiones.
¿Qué es el laboratorio de Big Data?

El Laboratorio de Big Data es un espacio de experimentación científico-computacional que involucra el procesamiento de grandes bases de datos, provenientes de fuentes heterogéneas, mediante la aplicación de métodos analíticos.

Sus objetivos son:

  • Implementar Tecnologías de Información (TI) y cómputo de alto rendimiento para:
  • Almacenamiento.
  • Recuperación.
  • Procesamiento.
  • Análisis inteligente.
  • Visualización de datos e información.
  • Analizar y diseñar los métodos y técnicas para grandes cúmulos de datos.
  • Obtener información valiosa y útil de los datos trabajados.
  • Desarrollar nuevos modelos de servicios de alto valor, utilizando Big Data.
Investigación aplicada

El grupo de investigadores del laboratorio se enfoca en el desarrollo de técnicas de inteligencia computacional para el análisis de información y su aplicación en problemas de interés nacional. Sus áreas de análisis de datos son:

  • Cómputo evolutivo.
  • Clasificación.
  • Análisis topológico de datos.
  • Minería de opinión.
  • Búsqueda por similitud.
  • Identificación de agrupamientos.
Caso de éxito

En colaboración con el Instituto Nacional de Estadística y Geografía (INEGI), se construye el mapa de estado de ánimo de los tuiteros.

Procedimiento:

  • 60 millones de tuits
  • Depuración
  • Normalización
  • Análisis de sentimientos
  • Geolocalización

 

Visita la página del grupo de investigación

Visita el Mapa de estado de ánimo de los tuiteros en México

 

Descripción técnica

 
 
Descripción técnica de Big Data
EQUIPO DESCRIPCIÓN CANTIDAD
Nodo de administración y de nombrado Procesador con 12 núcleos, 64 GB RAM DDR3, unidad (es) de 7.2 TB SAS e interfaz de red con capacidad de 10 GigE.         1
Nodos de trabajo Procesador con 16 núcleos, 64 GB RAM DDR3. Unidad (es) de 36 TB SATA, unidad de 1 TB SATA2 7200 rpm, interfaz de red con capacidad de 10GigE e interfaz de red con capacidad de 1 GigE. 5
Servidor de visualización Procesador con 16 núcleos, 64 GB RAM DDR3, 2 coprocesadores de procesamiento paralelo masivo, unidad (es) de 1.2 TB de estado sólido e interfaz de red de 10 GigE. 1
Switch de administración IPMI y de tráfico Switch de administración IPMI con capacidad de 10 GigE; al menos 9 puertos y capacidad de monitoreo de tráfico. 1
Consola de administración Consola de administración con interfaces Ethernet RJ45. 1
Equipo de monitoreo Equipo de monitoreo, pantalla, teclado y TouchPad con entrada USB. 1
Rack Rack de Enclosure y 42 cases para rack (dimensiones 600 mm x 1070 mm). 1
Estación de Trabajo  Workstation Tower. Procesador con 12 núcleos, 256 GB RAM DDR3. Unidad de 256 GB de estado sólido y tarjeta gráfica NVIDIA Quadro 4000 (o similar) 2 GB RAM. 1

 

Visita la página del grupo de investigación

Visita el Mapa de estado de ánimo de los tuiteros en México

Actividades

 

SemEval 2017, el foro más importante en el área de Análisis de Sentimiento

  • Las posiciones alcanzadas muestran la calidad académica y el trabajo científico de nuestros investigadores
  • En esta edición se registraron 69 grupos de investigación internacionales para el idioma inglés y 18 para árabe

Los científicos mexicanos pertenecientes al programa de Cátedras CONACyT, Daniela A. Moctezuma (CentroGEO), Mario Graff, Sabino Miranda Jiménez y Eric S. Téllez (Infotec) participaron en el taller SemEval-2017, el foro más importante en el área de Análisis de Sentimientos, obteniendo el sexto y cuarto lugar para inglés y árabe respectivamente.

El sistema que desarrollaron es capaz de clasificar un texto (tuit) como positivo, negativo o neutro. Para este fin, se utilizan de manera sinérgica dos algoritmos de su autoría, el primero es el clasificador de sentimientos multilenguaje B4MSA (https://github.com/INGEOTEC/b4msa), del cual se utilizan múltiples instancias y EvoDAG (https://github.com/mgraffg/EvoDAG), que basado en cómputo evolutivo, funciona como integrador.

Los detalles técnicos se exponen en el artículo científico “INGEOTEC at SemEval 2017 Task4: A B4MSA Ensemble based on Genetic Programming for Twitter Sentiment Analysis” (“INGEOTEC en SemEval 2017 Tarea 4: Un Ensamble B4MSA basado en la programación genética para el análisis de sentimientos de Twitter”) y que consiste en una serie continua de evaluaciones de sistemas de análisis semántico computacional organizado bajo los auspicios de SIGLEX, el Grupo de Interés Especial en el Léxico de la Asociación de Lingüística Computacional (http://alt.qcri.org/semeval2017/; y Análisis de sentimientos en Twitter (http://alt.qcri.org/semeval2017/task4/). En la siguiente liga se puede consultar el artículo: http://nlp.arizona.edu/SemEval-2017/pdf/SemEval130.pdf.

Las posiciones alcanzadas muestran la calidad académica y el trabajo científico de los investigadores mexicanos. Nuestros científicos tienen mucho que ofrecer al desarrollo de la tecnología en México, y su desempeño profesional será decisivo en el bienestar económico y conocimiento científico del país en los próximos años.

¡Felicidades a Daniela A. Moctezuma, Mario Graff, Sabino Miranda Jiménez y Eric S. Téllez!

 

 

¿Qué es Big Data?
  • Implica un nuevo paradigma en el uso estratégico del análisis de datos.
  • Es un nuevo método para analizar grandes cantidades de datos.
  • Se describe con las 5 “V”: volumen, variedad, velocidad, veracidad y valor de los datos.
  • Involucra datos estructurados, no estructurados o semiestructurados.
  • El análisis de grandes datos busca la obtención de información valiosa en la toma de decisiones.
¿Qué es el laboratorio de Big Data?

El Laboratorio de Big Data es un espacio de experimentación científico-computacional que involucra el procesamiento de grandes bases de datos, provenientes de fuentes heterogéneas, mediante la aplicación de métodos analíticos.

Sus objetivos son:

  • Implementar Tecnologías de Información (TI) y cómputo de alto rendimiento para:
  • Almacenamiento.
  • Recuperación.
  • Procesamiento.
  • Análisis inteligente.
  • Visualización de datos e información.
  • Analizar y diseñar los métodos y técnicas para grandes cúmulos de datos.
  • Obtener información valiosa y útil de los datos trabajados.
  • Desarrollar nuevos modelos de servicios de alto valor, utilizando Big Data.
Investigación aplicada

El grupo de investigadores del laboratorio se enfoca en el desarrollo de técnicas de inteligencia computacional para el análisis de información y su aplicación en problemas de interés nacional. Sus áreas de análisis de datos son:

  • Cómputo evolutivo.
  • Clasificación.
  • Análisis topológico de datos.
  • Minería de opinión.
  • Búsqueda por similitud.
  • Identificación de agrupamientos.
Caso de éxito

En colaboración con el Instituto Nacional de Estadística y Geografía (INEGI), se construye el mapa de estado de ánimo de los tuiteros.

Procedimiento:

  • 60 millones de tuits
  • Depuración
  • Normalización
  • Análisis de sentimientos
  • Geolocalización

 

Visita la página del grupo de investigación

Visita el Mapa de estado de ánimo de los tuiteros en México

 

 

Datos de contacto

Dirección Adjunta de Innovación y Conocimiento (DAIC)
Mtro. Elio Atenógenes Villaseñor García - Tel. 5624 2800 ext. 6313 - elio.villasenor@infotec.mx