Buscar en este blog

miércoles, 15 de septiembre de 2010

La Relevancia en la Recuperación de Información.

La relevancia es una de las propiedades más interesantes de los documentos y, por esta razón una de las más difíciles de definir,
de forma Intuitiva, se puede afirmar que un documentos es mas relevante en la medida que permita solucionar de forma eficiente una necesidad de información. Ahora bien, teniendo en cuenta esto. se evidencia que la relevancia no es una propiedad exclusiva de los documentos, sino que es una realidad, una coproducción triangular entre las características del documento, las características de la necesidad de información y las características de la persona que hace la pregunta. Es decir, la relevancia es subjetiva, en tanto que depende del criterio de quien tiene la necesidad de información para definir lo que es o no relevante, en otras palabras, "los documentos que para un usuario son relevantes, es posible que para otro usuario con la misma necesidad de información, no lo sean".

Por otro lado, la relevancia tiene grados,  puesto que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podría tener una relevancia del 0.8, mientras que otro menos similar podría tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cada al usuario.

lo realmente importante aquí es si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene nada sentido que se entreguen estos documentos de forma aleatoria o bajo un orden poco eficiente como por ejemplo el título o la fecha de entrada en el fondo documental o la base de datos,  en este sentido, es claro que este principio está muy claro para la mayoría de los motores de búsqueda de internet, pero aún está muy descuidado en algunos sistemas de Gestión Documental de las organizaciones.

En conclusión, lo que hacen la mayoría de los mejores Sistemas de Recuperación de Información,  es intentar determinar la forma mas eficiente posible para determinar lo que es o no relevante para un usuario que presenta una necesidad de información, es decir si la respuesta a una pregunta incluye una lista de mil documentos, y estos documentos están distribuidos de forma aleatoria, no es lógico que el usuario tenga que revisar uno a uno esos mil documentos; lo lógico y lo que se busca es que el Sistema de Recuperación de Información, le entregue únicamente los documentos relevantes para este usuario, esto tendiendo en cuenta la pregunta que formuló, es decir, su necesidad de información.


Fuentes.

OLVERA LOBO, Mª Dolores Evaluacion de sistemas de recuperacion de informacion: aproximaciones y nuevas tendencias. disponible en:http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_r
ecuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.html. [consultado 15 de septiembre de 2010 ]

Criterios de relevancia en los buscadores. disponible en: http://fabianperez.blogspot.com/2008/07/criterios-de-relevancia-en-los.html. [consultado 15 de septiembre de 2010 ]

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets


La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta. 

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

  • Listas
  • Anillos de sinónimos
  • Taxonomías
  • Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado
Lenguaje artificial: (Lenguaje informático)
Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.
Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y  conjuntos de términos.  ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda.  LILACS es un sistema latinoamericano que permite hacer esto también.

OBJETIVOS DE LA RECUPERACIÓN DE INFORMACIÓN


Existen tres objetivos fundamentales identificados en la recuperación de información:

  • ·         Poder recuperar sobre cualquier tipo de documento.
  • ·         Permitir consultas en lenguaje natural, que el SRI pueda entender cualquier pregunta
  • ·         Buscar un mecanismo idóneo para evaluar y ajustar la relación entre pregunta y respuesta, la mejor comparación de resultados
Para optimizar los resultados se define un proceso genérico de la R.I y consiste en simplemente establecer cómo funciona un proceso normal de recuperación de información a través de entradas o consultas, procesos a través de query generados por el usuario y procesados por el sistema de búsqueda y recuperación, posteriormente se entrega una salida o resultados de búsqueda en un ranking determinado por el SRI.

LA EXTRACCION DE INFORMACION


La extracción de información, es una búsqueda manual o automática o de palabras, párrafos o trozos de textos que contengan información relevante buscada y representada de forma estructurada. El proceso de aplicar las reglas en los sistemas para llevar información de un sitio a otro se llama así: Extracción de información. La recuperación de datos que es otro concepto que no resuelve el problema de la RI, solo devuelve datos sobre un tema, es estructurado y para nada ambiguo en cuanto a consultas ya que en la recuperación una necesidad de información puede ser planteada en infinitas preguntas o formas. 

En la extracción de información habla sobre documentos no sobre datos, para los datos se usan sentencias estructuradas que dan un resultado estricto. Existen grandes diferencias entre recuperar datos e información: respecto a los Ítem: correspondencia entre pregunta respuesta, inferencia, Modelo de relación de requerimientos de sistema y satisfacción, especificación de la pregunta, respuesta al error, rapidez de la respuesta,  lenguaje de consulta, importancia, eficiencia y eficacia entre otras. El profesor Laureano Felipe Gómez del programa de sistemas de información de la Universidad de La Salle Diseñó una matriz donde se evalúan estos criterios.

Google desktop search como herramienta de recuperación de información

Este desarrollo de google permite indexar contenidos en diferentes formatos pese a que se demora en indexar, lo cual va de de acuerdo a la cantidad o peso de los documentos que se indexen, el programa usa los tiempos muertos del PC, hay q verificar los estatus y posterior cuando llega al 100% permite buscar, no genera avisos cuando acaba su proceso, simplemente pone a disposición del usuario la interfaz para que la búsqueda y recuperación. Esta misma tiene diferentes opciones avanzadas como instalar en la unidad que tenga espacio, modificación del registro y de la instalación a través de usuario administrador, ser utilizado de forma independiente en diferentes cuentas de Windows en una misma máquina, copia de seguridad del índice y restablecimiento de este mismo (restauración). Una de las desventajas de esta herramienta en la recuperación, es que por default tiene un número predeterminado de formatos, sin embargo muchos desarrolladores han generado plugg-ins para extender la compatibilidad con otros formatos de documentos de cualquier sistema de información.


Un buen instructivo para iniciar en el uso del Google Desktop Search se encuentra en el vínculo a continuación: http://desktop.google.com/support/bin/topic.py?topic=11570


lunes, 13 de septiembre de 2010

La Vida de Google en dos Minutos.

La historia de Google en dos minutos, desde el momento en que surgio la idea como propuesta de una tesis doctoral con el objetivo de mejorar las busquedas en internet, hasta hoy dia cuando es la principal herramienta para la recuperacion de informacion en la web. y la pregunta es, y ahora que se viene con Google.



Fuente: http://www.youtube.com/watch?v=EjN5avRvApk&feature=player_embedded


 http://es.wikipedia.org/wiki/Google