Cerrar
CONACYT

Infotec en los medios

¿Tus tuits son positivos o negativos? Científicos mexicanos crean algoritmo que lo descifra

Fuente: Móvil Experto | Publicado: 6/10/2016

El Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec), creó un algoritmo capaz de identificar de forma inmediata si un tuit debe ser clasificado como positivo, negativo, neutro o sin carga emotiva.

La herramienta podrá ser utilizada por agencias de propaganda para estudiar el golpe de las campañas propagandísticas de sus clientes en las redes sociales.

Por: Tomás Dávalos

Un grupo de científicos mexicanos, adscritos al Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec), desarrolló una herramienta informática para saber las emociones de los consumidores de redes sociales a partir del análisis de sus publicaciones.

Conocido según Servicio Web de Análisis de Polaridad (SWAP), la herramienta trabaja con un algoritmo capaz de identificar al momento cuando un tuit —mensaje de texto emitido en la red general Twitter— tiene una carga emotiva positiva, negativa o neutra.

“Actualmente se desarrollan algoritmos que de forma automática pueden adivinar la polaridad emotiva de un comentario. Se dice fácil, pero es un incoveniente de mucha actualidad; ©Google recientemente lanzó una app de procesamiento del lenguaje natural que hace esta tarea, lo que nos confirmó que este es un tema de actualidad”, explicó Elio Villaseñor García, instructor investigador del Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec).

El equipo, conformado por 3 investigadores de Cátedras Conacyt: Eric Sadit Téllez Ávila, Mario Graff Moreno y Sabino Miranda Jiménez, así según 2 del Centro de Investigación en Geografía y Geomática (Centrogeo): Daniela Moctezuma Ochoa y Óscar Sánchez Siordia, ha comparado la herramienta SWAP con la aplicación de ©Google y han observado una grande efectividad, no solo con relación a dicha app, sino incluso con otros artículos de empresas tecnológicas que realizan ejercicios similares.

“El Inegi (Instituto Nacional de Estadística y Geografía), según se sabe, es el instituto delegado de originar estadísticas del país en distintos ámbitos, ellos se acercaron con vosotros para decirnos que habían recolectado más de ochenta millones de tuits a nivel nacional y habían suceso un ejercicio de etiquetado de una prueba de esos tuits”, mostro Elio Villaseñor.

Infotec creó un algoritmo capaz de identificar de forma inmediata cuando un tuit debe ser clasificado según positivo, negativo, neutro o sin una carga emotiva.

“Hicimos un concurso para ver quién desarrollaba el estilo que mejor clasificaba los tuits, fue interesante porque cada uno de vosotros tiene un área de especialización distinta, al final, los superiores clasificadores se pudieron ensamblar y originar un algoritmo que tenía una precisión suficiente justa si lo comparamos con los métodos que se reportan en las publicaciones científicas, y bueno, al fin ese fue el que terminó usando el Inegi para clasificar los ochenta millones de tuits”, afirmó, realizando referencia al estudio estado de animo de los tuiteros en México[pais] que publico Inegi el año pasado.

Ese idéntico algoritmo se utilizará en la herramienta de análisis que están por lanzar al mercado, la cual podrá ser utilizada por agencias de propaganda para estudiar el golpe de las campañas propagandísticas de sus clientes en las redes sociales; asimismo, los gobiernos podrán monitorear la aprobación de variadas políticas públicas o servicios, y incluso podrá ser utilizada para medir el pulso de las campañas políticas en las redes sociales, entre distintas acciones.

“Se pueden estudiar todos los tuits que se descarguen sobre cierto tema, por ejemplo, mediante un hashtag, el servicio te los devuelve con la etiqueta positivo, negativo o neutro, efectivamente no es una estadística representativa de la población en su conjunto; sin embargo, sí es representativa de una población muy importante, que es de los jóvenes entre 18 y 40 años, y cada vez va a ser más representativa esa población”, manifestó.

¿QUÉ DICE EL IDIOMA DIGITAL?

Sabino Miranda Jiménez, investigador de Cátedras Conacyt, mencionó que el análisis de sentimientos ha sido un hot topic por la necesidad del estado y de la iniciativa privada de extraer la indagación vertida en las redes sociales y aprovechar las opiniones que realizan los internautas.

“Nos enfocamos solo en lo que es ©Twitter y clasificar los mensajes según positivo o negativo, entonces lo que se hace es inventar un modelo, que se llama espacio vectorial, donde poseen muchos elementos estos vectores, y se puede aprovechar un cuadro de labor matemático, entonces se usan vectores y pudimos aprovechar cuestiones de álgebra lineal para mando mapear muchos mensajes”, explicó.

Detalló que el texto del tuit se somete a un preprocesamiento, en el cual se consideran los URL, emoticones, hashtags y códigos específicos de Twitter, los cuales se agrupan. Asimismo, se lleva a cabo un procedimiento llamado streaming, el cual consta en cortar los sufijos de las palabras, por ejemplo: en niños queda ‘niñ’ y ‘os’ se elimina, de esta forma niño, niña, niños y niñas, estas cuatros expresiones se reducen a una sola: ‘niñ’, pues con ello, en teoría, resulta más sencillo localizar parecidos y agruparlos.

“Eso es parte del procesamiento, se trata de estructurar ese aviso a nivel de los humanos, de forma que pueda entenderlo un modelo matemático para proceder los cálculos y clasificar ese mensaje”, apuntó.

A su vez, Eric Sadit Téllez, investigador de Cátedras Conacyt, puntualizó que para el análisis de sentimientos incluso se requiere un clasificador, cuya funcion consta en decidir a qué género pertenece un aviso por medio de patrones, para ello se utiliza una máquina de apoyo vectorial que lleva a cabo este procedimiento de etiquetamiento utilizando hiperplanos.

“Intentamos solucionar los incovenientes que vamos viendo, por ejemplo, los que escriben en ©Twitter poseen muchísimos errores ortográficos, variantes que son inducidas, expresiones; tratamos de comprender ese lenguaje que no es un español estándar, estamos experimentando técnicas semánticas e ‘iqgramas’ (sic) para solucionar esos problemas, y deseamos ademas que sea una técnica que se pueda aprender a cualquier idioma”, concluyó.

ANÁLISIS DE DATOS

Óscar Sánchez Siordia, instructor investigador de Centrogeo, comentó que se ha vuelto indispensable el análisis de las redes sociales por la grán proporción de indagación que se registra en estas: en el planeta se generan 278 mil tuits cada minuto, se suben 3 mil 600 fotografiás en ©Instagram cada segundo y en ©Facebook se dan 41.8 millones de likes. La indagación dactilar al 2014 se calculaba en 4.4 millones de zettabytes y se pronosticaba que dicha cifra se duplicaría cada 1.2 años, 70 por ciento de esa indagación la generaron los propios internautas y noventa por ciento se generó en los últimos 2 años.

“El 59 por ciento de los mexicanos mayores a 6 años ya tiene entrada a Internet, entre trece y 34 años de edad el grueso de ellos, de nivel socioeconómico alto, medio y medio-bajo, con grande penetración en el norte del país, en el sur casi no. El primordial uso del Internet son las redes sociales, la más utilizada es Facebook, despues siguen Whatsapp, YouTube y Twitter; noventa por ciento de las individuos tiene al menos una red social, poseen 5 en promedio. Los móviles celulares son los más utilizados para acceder a Internet”, precisó.

Para concluir, Sánchez Siordia destaco que en la novedad es más sencillo y económico mando almacenar información, por lo cual actualmente lo que adquiere importancia es mando extraer indagación útil de ese cúmulo de datos, ya con las técnicas tipicos no se puede estudiar cualquier información, pues se requiere de estadística, matemáticas y de la interpretación de resultados.

 

Fuente: Móvil Experto

Datos de contacto

Área de Comunicación Social - Tel: 5624 2800 ext. 2503 - infotecomunica@infotec.mx