Buscar en este blog

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets


La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta. 

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

  • Listas
  • Anillos de sinónimos
  • Taxonomías
  • Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado
Lenguaje artificial: (Lenguaje informático)
Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.
Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y  conjuntos de términos.  ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda.  LILACS es un sistema latinoamericano que permite hacer esto también.

OBJETIVOS DE LA RECUPERACIÓN DE INFORMACIÓN


Existen tres objetivos fundamentales identificados en la recuperación de información:

  • ·         Poder recuperar sobre cualquier tipo de documento.
  • ·         Permitir consultas en lenguaje natural, que el SRI pueda entender cualquier pregunta
  • ·         Buscar un mecanismo idóneo para evaluar y ajustar la relación entre pregunta y respuesta, la mejor comparación de resultados
Para optimizar los resultados se define un proceso genérico de la R.I y consiste en simplemente establecer cómo funciona un proceso normal de recuperación de información a través de entradas o consultas, procesos a través de query generados por el usuario y procesados por el sistema de búsqueda y recuperación, posteriormente se entrega una salida o resultados de búsqueda en un ranking determinado por el SRI.

LA EXTRACCION DE INFORMACION


La extracción de información, es una búsqueda manual o automática o de palabras, párrafos o trozos de textos que contengan información relevante buscada y representada de forma estructurada. El proceso de aplicar las reglas en los sistemas para llevar información de un sitio a otro se llama así: Extracción de información. La recuperación de datos que es otro concepto que no resuelve el problema de la RI, solo devuelve datos sobre un tema, es estructurado y para nada ambiguo en cuanto a consultas ya que en la recuperación una necesidad de información puede ser planteada en infinitas preguntas o formas. 

En la extracción de información habla sobre documentos no sobre datos, para los datos se usan sentencias estructuradas que dan un resultado estricto. Existen grandes diferencias entre recuperar datos e información: respecto a los Ítem: correspondencia entre pregunta respuesta, inferencia, Modelo de relación de requerimientos de sistema y satisfacción, especificación de la pregunta, respuesta al error, rapidez de la respuesta,  lenguaje de consulta, importancia, eficiencia y eficacia entre otras. El profesor Laureano Felipe Gómez del programa de sistemas de información de la Universidad de La Salle Diseñó una matriz donde se evalúan estos criterios.

Google desktop search como herramienta de recuperación de información

Este desarrollo de google permite indexar contenidos en diferentes formatos pese a que se demora en indexar, lo cual va de de acuerdo a la cantidad o peso de los documentos que se indexen, el programa usa los tiempos muertos del PC, hay q verificar los estatus y posterior cuando llega al 100% permite buscar, no genera avisos cuando acaba su proceso, simplemente pone a disposición del usuario la interfaz para que la búsqueda y recuperación. Esta misma tiene diferentes opciones avanzadas como instalar en la unidad que tenga espacio, modificación del registro y de la instalación a través de usuario administrador, ser utilizado de forma independiente en diferentes cuentas de Windows en una misma máquina, copia de seguridad del índice y restablecimiento de este mismo (restauración). Una de las desventajas de esta herramienta en la recuperación, es que por default tiene un número predeterminado de formatos, sin embargo muchos desarrolladores han generado plugg-ins para extender la compatibilidad con otros formatos de documentos de cualquier sistema de información.


Un buen instructivo para iniciar en el uso del Google Desktop Search se encuentra en el vínculo a continuación: http://desktop.google.com/support/bin/topic.py?topic=11570


lunes, 13 de septiembre de 2010

La Vida de Google en dos Minutos.

La historia de Google en dos minutos, desde el momento en que surgio la idea como propuesta de una tesis doctoral con el objetivo de mejorar las busquedas en internet, hasta hoy dia cuando es la principal herramienta para la recuperacion de informacion en la web. y la pregunta es, y ahora que se viene con Google.



Fuente: http://www.youtube.com/watch?v=EjN5avRvApk&feature=player_embedded


 http://es.wikipedia.org/wiki/Google

El proceso de Recuperación de Información

Como se menciona en el titulo, la Recuperación de Información es un proceso en que obviamente existe la intervención de unos elementos y unas actividades que básicamente están enfocadas a buscar y encontrar Información relevante que va a ayudar a satisfacer la necesidad de información de un usuario.


En la figura que se presenta a continuación se muestra el Modelo Global de Recuperación de Información, el cual muestra que el proceso de Recuperación de Información inicia cuando un usuario tiene una necesidad de Información y busca la forma de resolverla, haciendo la petición o consulta por medio de un lenguaje natural que finalmente se traduce al lenguaje del Sistema de Recuperación de Información, y es lo que comúnmente es conocido como estrategia de búsqueda; esta estrategia, como ya se mencionó , es introducida en un SRI, que localiza aquellos documentos que coinciden de forma total o parcial con la petición hecha por el usuario y los presenta al usuario, por lo general, ordenados de acuerdo a diferentes criterios entre ellos la relevancia y es ahí donde el usuario evalúa estos documentos para determinar los que cumplen con los requisitos de su búsqueda y finalmente van a satisfacer la necesidad que presentaba.

Este proceso finaliza cuando el usuario ha satisfecho la necesidad que presentó en un principio o ya sea cuando usuario considera que el Sistema de Recuperación de Información no puede satisfacer su necesidad de información, es decir que no le presenta los documentos que cubren esa necesidad de información que presentaba, en los casos que esto ocurre el usuario puede mejorar su estrategia de búsqueda gracias a los resultados que le presentó el SRI en esos documentos de su primera búsqueda.





Modelo Global de Recuperacion de Informacion.






Fuente: SALVADOR OLIVAN, Jose. Recuperacion de la Informacion. 1 Edicion 2008.