Salud Madrid

UNIFICACIÓN INTELIGENTE DE CATÁLOGOS DE COMPRAS APLICANDO BÚSQUEDA DIFUSA


El problema

Cada uno de los hospitales de la Comunidad de Madrid tiene su propio catálogo de compras de productos.

La falta de un catálogo unificado de productos para hospitales dependientes de una misma institución, como la Comunidad de Madrid, hace que cada producto del catálogo tenga un nombre diferente en cada cada hospital y se paguen precios diferentes en cada uno de ellos.

Disponer de un catálogo unificado aporta muchísimo valor al departamento de compras al optimizar los procesos de negociación con los proveedores que se traduce en una significativa reducción de costes.

A pesar de las evidentes ventajas, el trabajo de unificación de catálogos se enfrenta a dificultades de varios tipos. Una de ellas es la necesidad de establecer una correspondencia directa entre las referencias de productos preexistentes (que son importadas de cada uno de los catálogos de los hospitales) y las referencias de un catálogo normalizado y unificado.

Lamentablemente, este proceso puede llegar a ser muy complejo cuando nos enfrentamos a diferentes estilos de codificación y descripción de las referencias en los catálogos de cada hospital. Son frecuentes las abreviaturas, errores o variantes tipográficas y las preferencias léxicas de los responsables de cada edición.

Además el volumen de cada uno de los catálogos implicados supera los miles o las decenas de miles de referencias. Abordar este tipo de trabajos de forma manual conlleva tiempos de catalogación que penalizan enormemente la efectividad y la rentabilidad.

Búsqueda difusa (fuzzy search)

La automatización del proceso exige de un tratamiento no trivial: interpretación de abreviaturas, robustez frente a variantes y errores tipográficos y reconocimiento de términos sinónimos o expresiones equivalentes.

Para facilitar esta labor, se recurre a herramientas de búsqueda, depuración y validación de datos que permiten identificar con eficacia los elementos de un conjunto que son similares a un determinado patrón. Pero en este tipo de contextos, la búsqueda directa es insuficiente.

La "búsqueda borrosa" (fuzzy search en inglés) es el equivalente popular del término “coincidencia aproximada de cadenas” (approximate string matching). Esta técnica permite encontrar cadenas de texto que coinciden con un patrón aproximadamente (en lugar de exactamente). El problema de la búsqueda difusa, en realidad, se divide en dos sub-problemas: encontrar la coincidencias aproximadas dentro de una cadena de texto y encontrar las entradas del diccionario con las que tenemos que vincular cada una de las variantes.

Sngular ha identificado esta necesidad y desarrollado la mencionada búsqueda borrosa de información, que permite localizar en una base de datos aquellos registros que más se corresponden con información contenida en una fuente de datos externa (base de datos, ficheros…) y sustituirlos con el nombre estandarizado del producto.