TrendMiner: Large scale cross-lingual trend mining and summarization of Real Time Media Streams


TrendMiner es un proyecto europeo de I+D dedicado al estudio de las tecnologías para procesar y analizar a gran escala yen tiempo real los medios de comunicación en dominios multilingües y multimodales. El análisis de estos flujos de datos implica procesos de clustering, resumen, detección de entidades y, en general, enfoques de minería de texto.

TrendMiner

Objetivo

La cantidad de contenido generado por los usuarios aumenta de forma casi exponencial día tras día. TrendMiner está trabajando en las técnicas para identificar, extraer, resumir y agrupar o, en general, procesar la información para permitir un procesamiento humano más eficiente. La mayoría de los usuarios de Internet se ven inundados cada día por gran cantidad de información, así que se necesitan nuevas formas para filtrar aquella información relevante e interesante e ignorar el resto. Este es un ámbito exigente, porque hay muchos contenidos (piense en Twitter, Facebook, blogs, etc.) en diferentes idiomas, que también cuentan con múltiples formatos, tales como texto, imágenes o vídeos. Durante los últimos dos años, los socios de TrendMiner han estado trabajando en las tareas de resumen, clustering, detección de entidades y análisis en inglés, alemán e italiano en los entornos político y financiero. El pasado diciembre Sngular se unió al proyecto para trabajar en español e inglés en los sectores financiero y de la salud, junto con el Grupo LaBDa de la Universidad Carlos III de Madrid. Para ello, se aplica una combinación de enfoques estadísticos y basados en recursos lingüísticos, con el fin de trabajar en varias líneas dependiendo del dominio:

Dominio financiero
  • Reputación Social Corporativa (RSC): reconocimiento de las menciones de empresas, ejecutivos o marcas, y extracción de temas relacionados con ellos (empleo, cuestiones ambientales, asuntos legales, etc.) para también detectar el sentimiento que caracteriza cada entidad o tema.
  • Extracción de relaciones financieras: Si los contenidos procesados están relacionados con personas con cargos específicos en determinadas empresas, se identifica automáticamente una relación entre la persona y la compañía.
Dominio de la salud
  • Tendencias sobre los medicamentos mencionados en los medios sociales: cuando la gente está tomando algún fármaco para solucionar un problema de salud, a veces habla con otras personas acerca de los efectos secundarios o sensaciones relacionados con determinado fármaco a través de las redes sociales. El objetivo es analizar la evolución de comentarios sobre un nuevo medicamento que están siendo publicados en las redes sociales (blogs, páginas públicas de Facebook, Twitter, etc.).
  • Identificación de interacciones entre medicamentos: a veces, cuando una persona toma varios medicamentos, pueden surgir algunos efectos secundarios. Aunque las compañías farmacéuticas realizan experimentos exhaustivos para identificar estos efectos secundarios, a veces pueden ocurrir reacciones no detectadas previamente. Algunos pacientes hablan de estas reacciones con otros en las redes sociales y el objetivo es identificarlas.

Participantes: Ontotext (BG),Eurokleis (IT), Internet Memory Research SAS (FR),Sora (AT),DFKI(DE), The University of Sheffield (GB), the University of Southampton (GB), Research Institute for Linguistics from the Hungarian Academy of Sciences (HU), the Institute of Computer Science from the Polish Academy of Science (PL), Universidad Carlos III de Madrid (ES), Sngular (ES)
Entidad financiadora: European Project, FP7
Web del proyecto: www.trendminer-project.eu
Periodo: 2013-2014

7th Framework Programme

CDTI