TEFILA 2

descarga
logo_Profit
tefila
Investigador principal:

Contacto:
buenaga<at>uem.es

Dirección:
C/ Tajo, s/n, 28670 Villaviciosa de Odón

Duración:
2003-2004

Introducción

El objetivo del proyecto TEFILA es el diseño, desarrollo, evaluación y promoción de técnicas para el desarrollo de herramientas avanzadas, flexibles, configurables, y más efectivas que las actuales, para el filtrado de información en el WWW, orientada a proveedores de servicio de Internet. Las técnicas a desarrollar permite a los proveedores de servicio de Internet para empresas ofrecer un nuevo servicio de valor añadido. Este servicio proporciona a sus empresas clientes mayores garantías de una utilización productiva y rentable de Internet desde el puesto de trabajo.

Objetivos

El objetivo del proyecto TEFILA 2 es el diseño, desarrollo, evaluación y promoción de técnicas para el desarrollo de herramientas avanzadas, flexibles, configurables, y más efectivas que las actuales, para el filtrado de información en el WWW, orientada a proveedores de servicio de Internet. Las técnicas a desarrollar permiten a los proveedores de servicio de Internet para empresas ofrecer un nuevo servicio de valor añadido. Este servicio proporciona a sus empresas clientes mayores garantías de una utilización productiva y rentable de Internet desde el puesto de trabajo.

Objetivos científicos y tecnológicos
Las herramientas actuales de filtrado de contenidos en Internet están muy limitadas, debido principalmente a que emplean técnicas excesivamente simplistas, cubren pocos dominios de contenido (limitándose por lo general a los contenidos de tipo pornográfico), suelen filtrar contenidos en un solo idioma (generalmente el inglés), y carecen de la flexibilidad necesaria para ser adaptadas a otros dominios de contenidos e idiomas.
En el proyecto TEFILA 2 se pretende desarrollar un conjunto de técnicas innovadoras orientadas a la producción de sistemas de filtrado más efectivos, flexibles y configurables que los actuales. Las contribuciones científicas principales de TEFILA 2 se pueden enmarcar dentro de las siguientes áreas de investigación:

  • Ingeniería del Lenguaje Natural. La tarea de filtrado de contenidos es en concreto una tarea de categorización de documentos [Sebastiani, 2002]. Por una parte, es preciso mejorar los mecanismos de filtrado utilizados actualmente, para aumentar la efectividad de la categorización. Por otra parte, es necesario desarrollar técnicas orientadas a desarrollar un sistema de categorización multilingüe, dado el multilingüismo natural de Internet.
  • Aprendizaje Automático. El uso de técnicas de aprendizaje reduce notablemente el esfuerzo de desarrollo de sistemas de clasificación de texto. Es preciso investigar la utilización de métodos de aprendizaje basados en costes dado que los usuarios consideran típicamente más perjudicial que no se bloquee un contenido dañino que lo contrario. Mediante la aplicación de técnicas de Aprendizaje Automático posibilitar que agentes software aprendan criterios para reconocer contenidos de Internet censurables en distintos formatos (texto e imágenes). Por otro lado, los agentes deberán aprender cómo coordinar sus acciones para resolver de forma colectiva el problema de filtrado de contenidos censurables.
  • Tecnología de Agentes. Vamos a integrar esta tecnología en el proyecto aportando la visión distribuida y colaborativa del conocimiento. Diversificando y especializando el funcionamiento del sistema y de sus diferentes partes operativas conseguimos una mayor adaptabilidad y robustez del sistema en el filtrado de información en internet.
  • Análisis de imágenes. Se pretende desarrollar técnicas de clasificación de imágenes que aprendan sobre bases de datos reales para reforzar la categorización textual, y técnicas de búsqueda de objetos para marcar imágenes que contengan elementos relevantes, como simbología de grupos violentos y similares.

Con el fin de evaluar las técnicas que se propongan en TEFILA 2, se desarrollará incrementalmente un prototipo de herramienta de filtrado de contenidos de Internet. El prototipo desarrollado será de fuentes abiertas (opensource), lo que disminuirá su coste de desarrollo y aumentará su difusión.
Adicionalmente, se procederá a la investigación y evaluación de una arquitectura alternativa que permita ofrecer un servicio web que pueda ser accedido por otras aplicaciones (por ejemplo, navegadores, herramientas proxy, etc).