Introducción / M. booleano / M. espacio vectores/ M. probabilistico

Modelo espacio de vectores

En este modelo de recuperación de información cada documento se representa a través de un vector de n dimensiones cuyas componentes son los términos que aparecen en el texto. El valor de cada componente se calcula a partir del IDF (Inverse Document frequency) y se obtiene una representación vectorial para las consultas, que se comparan con los vectores de los documentos empleando una función de similitud. Para obtener la similitud de ente documento y consulta se puede utilizar algunas de las funciónes siguientes:

Producto escalar:

Formula producto escalar

Distancia Euclí­dea:

Formula distancia euclidea

Fórmula del coseno:

Formula del coseno

Entre las ventajas de este modelo de recuperación se encuentran:

  • Es posible obtener una lista ordenada de documentos que satisfacen la consulta.
  • Es posible controlar la respuesta ante una consulta, ya sea limitando el número de resultados o estableciendo un umbral de similitud.

Como principal desventaja a destacar es que se supone que los términos de indexación son independientes.

La fuente de información consultada y sobre la que se ha basado esta página pertenece a los apuntes de la asignatura de BBDD avanzadas más concretamente del tema modelos de recuperación de información sección modelo de recuperación de espacio de vectores


Pagina creada por: Iván Bernabé Sánchez.

Fecha ultima actualización: 25 de Abril de 2.006

CSS Valido Valid XHTML 1.0 Strict Icono de conformidad con el Nivel Doble-A, de las Directrices de Accesibilidad para el Contenido Web 1.0 del W3C-WAI Google Sitemap

FOAF RSS 10 RSS 20 [Valid RSS 1.0] [Valid RSS 2.0]