Buscar en este blog

sábado, 11 de septiembre de 2010

HTML


(HyperText Markup Language- Lenguaje de Marcado de Hipertexto) Lenguaje en el que se escriben las páginas web a las que se accede a través de navegadores WWW. Cuando apuntas en tu navegador a una URL, éste interpreta los comandos html incrustados y los utiliza para darle formato al texto de la página y a los elementos gráficos. Admite componentes hipertextuales y multimedia. Es una aplicación de la ISO Standard 8879:1986. 

Colino Tomé, Adriana. Glosario de Recuperación de Información Web. En <http://www.um.es/gtiweb/adrico/#Consulta> Septiembre de 2010.


HARVEST


Software de indización, surgido a finales de 1993. Es un paquete integrado de herramientas gratuitas para recoger, extraer, organizar, buscar, y duplicar información relevante en Internet. La arquitectura de recolección de Harvest consta de varios puntos de recolección y de índices en cascada. Uno de sus componentes, denominado gatherer, se encarga de crear un fichero de términos de indización para cada servidor web. 

 Colino Tomé, Adriana. Glosario de Recuperación de Información Web. En <http://www.um.es/gtiweb/adrico/#Consulta> Septiembre de 2010.

EFICACIA


Es la medida del tiempo que toma un SRI para realizar una operación. Este parámetro ha sido siempre la preocupación principal en un SRI, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema, llegando a alejar a los usuarios del mismo.

Colino Tomé, Adriana. Glosario de Recuperación de Información Web. En <http://www.um.es/gtiweb/adrico/#Consulta> Septiembre de 2010.

ACCESO FÍSICO A LA INFORMACIÓN


Es el que concierne a cómo la información  demandada es recuperada y representada de forma física al usuario. Tiene que ver con la manera que un sistema de recuperación de información encuentra dicha información, o indica ciertas directrices al usuario sobre cómo localizarla, una vez que le proporciona su dirección.

Colino Tomé, Adriana. Glosario de Recuperación de Información Web. En <http://www.um.es/gtiweb/adrico/#Consulta> Septiembre de 2010

viernes, 10 de septiembre de 2010

MODELOS DE RECUPERACIÓN DE INFORMACIÓN

Como es bien conocido, en los últimos años se ha venido presentado el fenómeno de los Buscadores Online, y por ende se han producido toda una serie de repercusiones en la administración y recuperación de la información que estos buscadores nos entregan al momento de que lo solicitamos, en tal sentido es necesario saber el método, o los métodos que usan estos buscadores para acertar en la respuesta a la pregunta que se les plantea en un determinado momento.

En tal sentido, nos encontramos con que de forma general los modelos de recuperación de información están estructurados asi:
- Modelos Clasicos: en este se encuentra el modelo booleano y probalisitco.
- Modelos Estructurales: basado en listas no sobrepuestas y el método de nodos proximales.

Con el ánimo de presentar una comparación y descripción de los modelos de recuperación de información, presentamos el siguiente cuadro que permite una caracterización mucho más sencilla que la encontrada en la literatura que trata del tema:


Ítem / Modelos BooleanoVectorialProbalístico
DEs uno de los más usados para la RI, se basa en la agrupación de documentos compuestos por conjuntos de términos, y en el concepto de las preguntas como una expresión booleana.Presenta la posibilidad de emparejamiento parcial, por medio de la asignación de pesos no binarios a los términos índices de las preguntas y de los documentos, este peso sirve para comparar la similitud existente entre cada documento y la pregunta que hace el usuarioEs un modelo de recuperación clásico, el cual funciona en relación a la probabilidad de que un documento sea o no relevante o no para responder a una determinada pregunta.
C- Es un modelo simple que se basa en la teoría de conjuntos y el algebra booleana.
- Se basa en un criterio de decisión binario (pertinente o no pertinente).
- Es el modelo de mas uso, tanto en las bases de datos comerciales, como en los principales buscadores web
- Ordena los documentos recuperados en orden decreciente, teniendo en cuenta el grado de similitud con la pregunta formulada.
- Es más preciso, en tanto que arroja los resultados teniendo en cuenta los documentos que solo se emparejan con la pregunta.
- se basa en que, teniendo un documento, o determinado número de estos, y una
pregunta, se puede calcular la probabilidad de que ese documento sea relevante para esa pregunta.
- Los resultados no son mejores ni más acertados que en el modelo booleano y vectorial
B- Es un modelo de recuperación sencillo - Es más complejo que el Booleano, pero brinda mayor precisión.- Brinda un gran aporte a la RI en el fenómeno denominado retroalimentación por relevancia.
- Este modelo se usa principalmente para refinar los resultados de de la búsqueda.
D: Descripcion.      C: Caracteristicas.        B: Beneficios.


Estos que se mostraron, son los modelos más usados en la recuperación de información, pero hay que tener en cuenta que existen otros modelos que permiten, asi como los anteriores, la obtención de información. Estos modelos los describiremos brevemente a continuación:

- Modelo Basado en el Lenguaje: Es un modelo que se trabaja desde hace pocos años, en el cual una base de conocimientos intenta interpretar documentos textuales y crear listas de descriptores de forma automatizada, en este sentido se han creado lenguajes documentales que permiten la representación del conocimiento (lenguajes controlados, taxonomías, tesauros, ontologías etc.), esto teniendo en cuenta que el lenguaje natural es bastante ambiguo para que el contenido de los documentos sea recuperado de manera automatica.
Igualmente, para hacer descripción del contenido de los documentos Web se han establecido diversas estrategias: metadatos, lenguajes semánticos (XML, RDF, OWL) que permiten indizar los documentos y representar el conocimiento que estos poseen.

Por esto es que hoy día es fácil recuperar información de forma precisa haciendo uso de lenguajes documentales para representar el contenido semántico de estos documentos y soportar las inferencias lógicas.

-Modelo basado en lógica difusa: En este modelo los autores no asignan los grados de pertinencia de los documentos a los términos, adicional a esto, la aplicación de modelos borrosos es ideal para solucionar los problemas de incompletitud e imprecisión al momento de indexar un documento.
En la equiparación difusa, el cálculo se define teniendo en cuenta el grado de pertenencia de los términos.


Fuentes.

Universidad Complutense de Madrid. Departamento de Biblioteconomía y Documentación. Facultad de Ciencias de la Documentación. Martínez Comeche, Juan Antonio.