Introducción / M. booleano / M. espacio vectores/ M. probabilistico

Introducción

Los modelos de recuperación tienen como objetivo el facilitar el proceso de comparación entre una consulta determinada y un conjunto de textos sobre los que se realiza la consulta, para esto definen distintas formas de representar los documentos. Estos modelos de recuperación están pensados únicamente para documentos de contenido textual.

Su funcionamiento se sencillo, para cada documento se construye un índice determinado en función del texto contenido en el documento. Derivado de esto tenemos el concepto de í­ndice invertido que equivale a decir que la relación de los documentos en los que aparece una determinada palabra.

Los ­índices de los documentos tienen en cuenta la frecuencia de aparición de las palabras. Cada documento se representa a través de un vector como los que se muestran a continuación:

Indices de documentos

Donde wi indica la importancia del índice ti en el documento d. Suele tomar valor en el intervalo [0,1]. A las distintas formas de obtener el valor wi se les denomina esquemas de asignación de pesos.

Entre los distintos esquemas de asignación de pesos cabe distinguir:

  • Esquema Binario: Se asigna peso 1 (wi = 1) si la palabra aparece en el documento y peso 0 (wi = 0) en caso contrario.
  • Frecuencia Inversa de Documento (IDF):

    IDF = log2 N / Ni + 1
    Wij =IDF i * F ij
    N = Nº total de documentos
    Ni = Nº de documentos en los que aparece el término i
    Fij = Frecuencia interna del término i en el documento j

Entre los distintos modelo de recuperación de información tenemos:

Por último para determinar la calidad de un sistema de RI se definen dos parámetros:

  • Precisión: Proporción de documentos relevantes que hay entre los recuperados.
  • Recall: Proporción de documentos relevantes que el sistema es capaz de obtener frente al total de documentos relevantes que hay en la colección.

La fuente de información consultada y sobre la que se ha basado esta página pertenece a los apuntes de la asignatura de BBDD avanzadas más concretamente del tema modelos de recuperación de información


Pagina creada por: Iván Bernabé Sánchez.

Fecha ultima actualización: 25 de Abril de 2.006

CSS Valido Valid XHTML 1.0 Strict Icono de conformidad con el Nivel Doble-A, de las Directrices de Accesibilidad para el Contenido Web 1.0 del W3C-WAI Google Sitemap

FOAF RSS 10 RSS 20 [Valid RSS 1.0] [Valid RSS 2.0]