BUSCADOR GEOLÉXICO

Ministerio__Ind_TuryCom_EU
plan-avanzafeder
documento14969Logo_PaisVasco
genasys_portadabuscador geoléxico
Investigador principal:

Contacto:
buenaga<at>uem.es

Dirección:
C/ Tajo, s/n, 28670 Villaviciosa de Odón

Duración:
2009-2010

El “Buscador Geoléxico” contemplará algoritmos y heurísticas de creación propia para relacionar distancias físicas entre palabras asociadas a lugares con distancias léxicas entre palabras. En base a estos criterios, proporcionará como respuesta un conjunto de lugares razonablemente próximos a una ubicación dada, cuya denominación o descripción incorpora palabras relacionadas léxicamente con las introducidas como objeto de búsqueda.
La aplicación evidente de este sistema es formar parte de un servicio de búsqueda de lugares de interés, en el que se disponga de la localización del usuario – ya sea porque lo declara, dispone de GPS o bien porque hay un servicio de localización de móviles que proporciona la información – a una aplicación de búsqueda de POIs (puntos de interés) en el entorno.

Antecedentes

Actualmente, se está realizando un gran esfuerzo para incorporar el “lenguaje natural” como medio lógico en la interfaz hombre-máquina. Muchos centros de investigación, universidades y empresas están trabajando activamente en obtener resultados específicos y, en definitiva, aumentar el conocimiento sobre las posibilidades de interpretación de los textos introducidos por humanos para ofrecer servicios de cualquier índole.
La búsqueda de documentos más habitual en los sistemas actuales contempla una colección de documentos con cierta mentalidad de discriminación. Dicho de otro modo, un documento contiene una cierta palabra o no la contiene, sin espacio intermedio. Se busca un resultado valorando si cada palabra de búsqueda aparece en los documentos, y los que las contienen se presentan según un sistema de ordenación: No hay interdependencia entre los documentos en cuanto a la búsqueda.
En los modelos clásicos de búsqueda básicamente se trataba de medir la relevancia de un documento en base al número de concurrencia de las palabras contenidas en dicho documento con las palabras de la consulta. Una deficiencia de esta forma de medir la relevancia es que no se tiene en cuenta el contexto semántico de la palabra, y como consecuencia de esto aparecen dos problemas fundamentales en la búsqueda de información con estos métodos, la sinonimia (términos distintos con el mismo significado) y la polisemia (términos iguales con distintos significados). En los modelos clásicos no se van a tomar como relevantes documentos que contengan términos con el mismo significado que una de las palabras de la consulta este hecho perjudicará el denominado factor de “recall”, pero sin embargo se devolverán como relevantes documentos que contengan términos iguales a la consulta aunque tengan distinto significado, este hecho hará que se reduzca la “precisión”.
La tendencia actual del estado del arte (se podría citar Google como el competidor principal en este tipo de soluciones) está orientada, en su versión más novedosa, hacia la indexación de semántica latente (LSI, Latent Semantic Indexing), proporciona un avance significativo. Es una metodología que incluye probabilidad estadística y de correlación que ayuda a deducir la distancia semántica entre las palabras.
Además de guardar las listas de palabras que tiene cualquier documento de la colección, el método examina la colección de documentos como un conjunto, y así discernir qué documentos contienen las mismas palabras.
LSI se ocupa no sólo de un documento para el estudio de las palabras clave y listarlas en la base de datos, sino también del estudio de una colección de documentos y el reconocimiento y la identificación de las palabras que son comunes entre estos documentos. Así, permite llegar a la conclusión sobre la relación semántica entre las palabras que se utilizan en estos documentos. El proceso entonces descubre que incluyen otros documentos o que hacen uso de estas palabras semánticamente cerca. Los documentos resultantes se indexan al estar estrechamente relacionadas con un contexto, de acuerdo a la indexación semántica latente.
La indexación semántica latente propone un método para solucionar los problemas derivados de los métodos clásicos. La idea es pasar de un conjunto de términos a un conjunto de entidades donde podamos sacar la estructura latente en la asociación entre términos y documentos. Para analizar esa estructura semántica latente se eligió un método de análisis (two-mode factor analysis) basado en la Descomposición en Valores Singulares.
LSI considera que los documentos que tienen muchas palabras en común están semánticamente relacionados, y por el contrario, los que tienen pocas palabras en común están semánticamente distanciados. Esta idea encaja sorprendentemente bien con la forma de procesar información de las personas.
Sin embargo, hay que recordar que el conjunto de técnicas de LSI no entiende en absoluto lo que las palabras significan, pese a que el conjunto pudiera aparecer como “inteligente”.
En la búsqueda sobre una base de datos con una indexación LSI, el sistema busca valores de similaridad de documentos para cada palabra clave, y no se requiere que dos documentos semánticamente próximos compartan todas las palabras clave. No hace falta que coincidan todas las palabras para que se ofrezcan resultados con sentido.
El “Buscador Geoléxico” va incluso más allá de LSI, que es a lo que pues por primera ves se busca encontrar cómo estructurar un modelo de datos par unir distancia física y semántica o léxica.

Experiencia del grupo en proyecto similares

Las líneas de investigación del Grupo de Sistemas Inteligentes de la Universidad Europea de Madrid (UEM) directamente relacionadas con actividades del proyecto son:

  • Acceso Inteligente a la Información
  • Ingeniería del Lenguaje, Ontologías y Entornos Multilingües
  • Diseño de Interfaces Avanzadas y Computación Ubicua

Proyectos de investigación relacionados:

  • MAVIR Mejorando el Acceso y la Visibilidad de la Información Multilingüe en Red en la Comunidad de Madrid
  • ISSE: Interoperabilidad basada en la Semántica para la Sanidad Electrónica
  • NIMOV, Sistema de utilización de tecnologías móviles para el seguimiento de pacientes: alta precoz de los niños con bajo peso.
  • SINAMED: Diseño e integración de técnicas de generación de resúmenes y categorización automática de textos para el acceso a la información bilingüe en el ámbito biomédico
  • MobiHelp Sistema de seguimiento y localización para pacientes de riesgo (estudio de viabilidad)
  • ISIS: Sistema Inteligente de Acceso Integrado a la Información del Historial Clínico del Paciente y Documentación Médica Relacionada
  • ALLES “Advanced Long Distance Language Education System”
  • Observatorio de tecnologías de la traducción (OTT)
  • TEFILA2: TÉcnicas de Filtrado basadas en Ingeniería del Lenguaje, Aprendizaje automático y agentes
  • POESIA (Public Opensource Environment for a Safer Internet Access)

Resultados

Entre los resultados del proyecto cabe destacar el desarrollo de un piloto en el que se han usado conjuntamente las siguientes tecnologías: La aplicación Google Maps, Google Translator, la ontología WordNet y la plataforma Android.