Recuperación y Organización de la InformaciónModelos de recuperación |
Introducción / M. booleano / M. espacio vectores/ M. probabilistico
En este modelo de recuperación de información cada documento se representa a través de un vector de n dimensiones cuyas componentes son los términos que aparecen en el texto. El valor de cada componente se calcula a partir del IDF (Inverse Document frequency) y se obtiene una representación vectorial para las consultas, que se comparan con los vectores de los documentos empleando una función de similitud. Para obtener la similitud de ente documento y consulta se puede utilizar algunas de las funciónes siguientes:
Producto escalar:

Distancia Euclídea:

Fórmula del coseno:

Entre las ventajas de este modelo de recuperación se encuentran:
Como principal desventaja a destacar
es que se supone que los términos de indexación son
independientes.
La fuente de información consultada y sobre la que se ha basado esta página pertenece a los apuntes de la asignatura de BBDD avanzadas más concretamente del tema modelos de recuperación de información sección modelo de recuperación de espacio de vectores
Pagina creada por: Iván Bernabé Sánchez.
Fecha ultima actualización: 25 de Abril de 2.006