Recuperación de Información: Sistemas de Recuperación de Información

Mostrando entradas con la etiqueta Sistemas de Recuperación de Información. Mostrar todas las entradas

miércoles, 15 de septiembre de 2010

La Relevancia en la Recuperación de Información.

La relevancia es una de las propiedades más interesantes de los documentos y, por esta razón una de las más difíciles de definir,

de forma Intuitiva, se puede afirmar que un documentos es mas relevante en la medida que permita solucionar de forma eficiente una necesidad de información. Ahora bien, teniendo en cuenta esto. se evidencia que la relevancia no es una propiedad exclusiva de los documentos, sino que es una realidad, una coproducción triangular entre las características del documento, las características de la necesidad de información y las características de la persona que hace la pregunta. Es decir, la relevancia es subjetiva, en tanto que depende del criterio de quien tiene la necesidad de información para definir lo que es o no relevante, en otras palabras, "los documentos que para un usuario son relevantes, es posible que para otro usuario con la misma necesidad de información, no lo sean".

Por otro lado, la relevancia tiene grados, puesto que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podría tener una relevancia del 0.8, mientras que otro menos similar podría tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cada al usuario.

lo realmente importante aquí es si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene nada sentido que se entreguen estos documentos de forma aleatoria o bajo un orden poco eficiente como por ejemplo el título o la fecha de entrada en el fondo documental o la base de datos, en este sentido, es claro que este principio está muy claro para la mayoría de los motores de búsqueda de internet, pero aún está muy descuidado en algunos sistemas de Gestión Documental de las organizaciones.

En conclusión, lo que hacen la mayoría de los mejores Sistemas de Recuperación de Información, es intentar determinar la forma mas eficiente posible para determinar lo que es o no relevante para un usuario que presenta una necesidad de información, es decir si la respuesta a una pregunta incluye una lista de mil documentos, y estos documentos están distribuidos de forma aleatoria, no es lógico que el usuario tenga que revisar uno a uno esos mil documentos; lo lógico y lo que se busca es que el Sistema de Recuperación de Información, le entregue únicamente los documentos relevantes para este usuario, esto tendiendo en cuenta la pregunta que formuló, es decir, su necesidad de información.

Fuentes.

OLVERA LOBO, Mª Dolores Evaluacion de sistemas de recuperacion de informacion: aproximaciones y nuevas tendencias. disponible en:http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_r

ecuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.html. [consultado 15 de septiembre de 2010 ]

Criterios de relevancia en los buscadores. disponible en: http://fabianperez.blogspot.com/2008/07/criterios-de-relevancia-en-los.html. [consultado 15 de septiembre de 2010 ]

domingo, 12 de septiembre de 2010

Sistemas de Recuperación de Información

Cualquier información promueve a los usuarios dotar de instrumentos de consulta, navegación y recuperación de información adecuados para satisfacer las necesidades de información. Sin embargo, existe una gran explosión documental y desconocemos cuál de éste gran volumen de documentos e información es útil y se pueda recuperar de una forma más fácil y que cumpla con unos ciertos requisitos durante su búsqueda.

Por ello, existen gran variedad de herramientas que permitan hacer búsquedas de información efectivas y que contengan conocimiento intelectual y válido para la investigación y el aprendizaje; estas herramientas se pueden resumir en cuatro siglas o en el mejor de los casos, en cuatro palabras: Sistemas Gestores de Bases de Datos – SGBD.

Estas herramientas se dividen en tres fases, las cuales permiten y facilitan el acceso y la recuperación de la información:

1- Sistemas de navegación de tipo jerárquico: este sistema permite estructurar jerárquicamente a información en clases y subclases, y es aquí donde el usuario decide qué opción se ajusta más a las necesidades de información (ejemplo: www.yahoo.com)

2- Sistemas de navegación hipertextuales: este sistema de búsqueda permite que el usuario vaya de un documento a otro con solo dar un click al activarse los vínculos estipulados en el mismo para tal fin.

Por otra parte, el documento hipertextual está formado por bloques o partes interrelacionadas entre sí, con un orden establecido que permita recorrer diversas direcciones web.

3- Sistemas de recuperación de información: aquí no se emplea la búsqueda a través de navegadores, sino que este tipo de búsqueda se hace por medio de un conjunto de operadores e instrucciones específicas que hacen posible efectuar la búsqueda de información más detallada y relevante.

La base de la recuperación de información en los sistemas informáticos se emplea el uso de álgebra booleana o ecuaciones de búsqueda, en donde hace combinaciones de búsqueda de términos o documentos mediante los operadores de unión, intersección y negación.

sábado, 11 de septiembre de 2010

Visor de archivos de texto

Reproductores portátiles que tiene la capacidad de mostrar por medio de una interfaz información donde el documento funciona como una sola unidad de información. Estos reproductores no pueden diferenciar el autor del texto aunque este apareciera al final de la información.

miércoles, 8 de septiembre de 2010

METADATOS INDEPENDIENTES DEL DOMINIO

Se refieren a una naturaleza estructural. Metadatos que pretenden describir el documento con sus relaciones intrínsecas.

Doc. Los documentos de texto y su estructura (s.l) (s.a)

DOCUMENTO SEMIESTRUCTURADO

Son aquellos documentos que contienen datos que carecen de rigidez, esquema regular, o cambios constantes en el esquema.

Los datos semiestructurados pueden ser irregulares o incompletos y tienen una estructura que puede cambiar rápido o impredeciblemente.

martes, 7 de septiembre de 2010

Memorias de Clase ¿QUÉ ES RECUPERACION DE INFORMACIÓN?

En esta clase definiremos que es Recuperación de Información, pero antes de que se de esta definición, es necesario definir el término “Necesidad de Información”, el cual se puede definir como un vacio cognitivo, es decir, en el momento en el que no hay claridad en un determinado concepto da origen a una necesidad de Información, el problema de esto, es que es muy complejo saber cuáles son y cuántos son los conceptos que podrían solucionar esta necesidad de Información.

La necesidad de Información se puede dividir en dos:

- Necesidad de información concreta: Es una necesidad de información bien rara, pues es muy específica y fácil de solucionar y se puede intuir que documentos pueden satisfacer esa necesidad. El hecho que exista un vacio conceptual bien definido permite establecer preguntas concretas que van a solucionar esa necesidad de información, es decir, a una necesidad concreta, una respuesta concreta.

- Necesidad de información orientada al problema: no hay una frontera temática definida, y por tanto no hay una conceptualización en la búsqueda, es decir, no hay una pregunta claramente definida, por tanto no hay una respuesta acertada o que satisfaga esa necesidad de información.

Mencionado esto podemos decir que: La necesidad de información es un problema de la Gestión de Conocimiento y por tanto la Recuperación de Información es un proceso de gestión del conocimiento, es decir, un proceso para satisfacer una necesidad de información (mas allá de and, or y not), que involucra el proceso para disminuir el problema de espacio conceptual, debido a que por lo general las preguntas están orientadas a un problema. Todo esto asociado a la gestión del conocimiento.
“La RI permite pasar de un estado actual del conocimiento a un estado necesario del conocimiento”. Ingerwersen.
Por tanto y teniendo en cuenta lo anteriormente mencionado, Recuperación de Información es el proceso de comparar una pregunta contra un conjunto de índices o comparar los términos de una pregunta contra los términos de un índice que son sacados de un conjunto de documentos, en otras palabras compara términos contra términos, teniendo en cuenta la Relevancia que presentan los términos dentro de estos índices y dentro de la pregunta.

Como todo este proceso no lo puede hacer un humano es necesario un Sistema de Recuperación de Información, que involucra procesos automatizados, manejo de Sistemas de Información, Hardware y Software, y colecciones de documentos electrónicos, es decir que estos últimos estén codificados electrónicamente.

Los Sistemas de Recuperación de Información tienen como finalidad almacenar, procesar, recuperar y difundir la información. Generalmente utiliza índices y compara las preguntas y ordena los resultados de acuerdo a la Relevancia del término que se está buscando.

Los Sistemas de Recuperación de Información están enfocados a recuperar contenidos no importa el soporte en el que estos se encuentren almacenados, por ejemplo, audio, video, texto, etc.… puesto que como lo manifestó el profesor, al comienzo de este curso, “documento es cualquier cosa que contenga información” por lo menos en el ámbito electrónico.

Un Sistema de Recuperación de Información es parte de la informática que estudia la Recuperación de Información (no datos) que pertenecen a una colección de documentos (documentos recuperados) para satisfacer una necesidad de información.

Recuperación de Información desde los Sistemas de Recuperación de Información: el conjunto de tareas proceso y procedimientos automatizados mediante los cuales los usuarios localizan y acceden a recursos de información relevantes o pertinentes que ayudan a resolver una necesidad de información.

Pero ¿qué es relevante y qué pertinente?
Relevantes: Importantes.
Pertinentes: Utiles.

Una maquina tiene la capacidad de inferir que documentos pueden ser importantes o útiles, es decir, relevantes o pertinentes, aunque ahí que aclara que la utilidad de un documento es subjetiva, pues está atado a la necesidad de cada persona, es decir, que no para todo el mundo es útil o inútil determinada información.

sábado, 4 de septiembre de 2010

Datos, metadatos, Información, Conocimiento y Documentos

La apropiación de información en estructuras mentales permanentes para la realización de alguna tarea es posible gracias a los sistemas de gestión del conocimiento y a los knowledge web management (KWM) que permiten estructurar de forma colaborativa. Sin embargo para producir esto, y de acuerdo a la necesidad de información, se requieren documentos que son datos lógicamente organizados que se encuentran en un formato determinado y son usables por un usuario. En este orden, se pueden clasificar los documentos en tipologías virtuales, digitales y electrónicos y bajo este mismo esquema se debe repensar el concepto de archivo ya que documentos como los virtuales existen únicamente en el momento que se necesitan y se encuentran en un estado no persistente un ejemplo fehaciente puede ser el reporte de notas generado por la pagina de la Universidad de La Salle por los alumnos del programa de sistemas de información donde al ejecutar la búsqueda recopila los datos de diferentes instancias y los muestra en una sola pantalla

Todos estos documentos tienen elementos constitutivos en común los cuales son: estructura, contenido, formato y contexto y de acuerdo a estos elementos se pueden clasificar en documentos estructurados, no estructurados y semiestructurados. Esta clasificación puede ir intrínsecamente ligada a su contenido, orden y valores de la documentación. Toda esta configuración permite facilitar la búsqueda y recuperación de información a través de herramientas y sistemas de recuperación y búsqueda ya que la estructura permite mejorar la recuperación que hacen los robots de los motores de búsqueda al poder ubicar más fácilmente cada elemento que compone al documento. Por otra parte no se puede dejar de lado la información que suministran los metadatos de los cuales hablaremos más delante de una forma más extensa.

martes, 31 de agosto de 2010

Algunos Apuntes de Historia en la Recuperación de Información.

El termino Recuperación de Informacion, fue mencionado por primera vez hacia el ano de 1950 – aunque es claro que este es un concepto que en la práctica data de muchos años atrás – cuando Calvin N. Moores la definió como "la búsqueda de información en un stock de documentos, efectuada a partir de la especificación de un tema"[1], aunque este mismo autor más adelante decide ampliar aun mas este concepto manifestando para tal fin que “ la Recuperación de Informacion abarca los aspectos intelectuales de la descripción de información y su especificación para la búsqueda, y cualquier sistema, técnica o maquina que se utilice para llevar a cabo la operación”, y con esto, claramente, abre el concepto haciéndolo aplicable aun hoy, cuando ya han transcurrido más de 50 anos y claramente las tecnologías usadas para este proceso han cambiado significativamente, pero como ya se menciono, prácticamente este concepto, tiene cierto grado de validez.

Con la definición dada por Calvin N. Moores, se definían tres problemas, los cuales debían ser tratados por la Recuperación de Informacion:

- Como definir y organizar la información.

- Como especificar la búsqueda y

- Que sistemas y técnicas utilizar para este proceso.

Claramente se evidencia que estos problemas no son exclusivos de la Recuperación de Informacion, como la conocemos hoy en día, estos son simplemente la evidencia de las principales puntos de los que se encarga la Recuperación de Información, es decir las distintas áreas de trabajo, investigación y discusión, que básicamente reflejan las relaciones de interdisciplinariedad que intrínsecamente existen en la Recuperación de Informacion.

Posteriormente a esta época, y para ser más exactos en la fecha, hacia finales de los años 50 y comienzos de los 60, se dio inicio a otra época, cuya característica está enfocada en la gran cantidad de experimentos que se hacen en torno a la Recuperación de Informacion, construyendo para esto los primeros Sistemas de Informacion a gran escala. Un hito muy importante en esta época, y que claramente marco el desarrollo del concepto, fue la celebración en Washington, en 1958, de la Conferencia Internacional sobre Informacion Científica (International Conference on Scintific Information), evento que para la Británica Karen Spark Jones[2] marco el comienzo de la Recuperación de Informacion tal como la podemos evidenciar hoy día.

Ya para los años 70, y comenzara con esto, de forma resumida con el ánimo de profundizar sobre estos hitos históricos más adelante, lo que llamaremos la época de la madurez de la Recuperación de Informacion, teniendo que las dos características principales de esta época son:

• El nacimiento y posicionamiento de la Informacion Online, y ya con esto haciendo provecho de los primeros Sistemas de Recuperación de Informacion, y

• Refinamiento de las ideas y modelos estadísticos experimentados en años anteriores y consolidación de los mismos básicamente en dos modelos: los Modelos Vectoriales y los Modelos Probalísticos.

Otra etapa de que la se mencionara es la comprendida entre los anos de 1980 y 1990, caracterizada básicamente por la rápida expansión de internet, la aparición de software más sofisticado para la Recuperación de Informacion, y la aparición de las Bases de Datos en CD-Rom. En esta época se da un giro en lo que al concepto se refiere, teniendo que este se centra en el usuario como pieza clave en la Recuperación de Informacion.

Continuando con la parte histórica, de forma resumida, continuamos con la etapa comprendida entre 1990 y 2000 – hasta hace 10 años -, que muchos ya sabemos se caracteriza por la aparición de los computadores personales, obviamente con muchas más capacidad que la que presentaban los computadores hasta el momento; el desarrollo de motores de búsqueda[3] más o menos hacia el ano de 1993 cuando apareció Wandex, el cual indexaba paginas, pero también permitia la búsqueda, siendo la primera tecnología con la capacidad de “rastrear” en la red, y la aparición de otros sistemas y mejoras en la interfaz, que buscaba facilitar el acceso al usuario final y buscan favorecer la interacción entre el usuario y el sistema, haciendo de esta manera mas dinámico el proceso de Recuperación de Informacion.

Ya para finalizar este articulo, hablaremos del último periodo o etapa, que inicial en el año 2000 y va hasta el 2010, claramente la evolución informática de estos últimos 10 años ha marcado uno de los hitos más importantes, por no decir que el más importante, las computadoras evolucionaron trayendo con esto más capacidad, con menos tamaño, y claramente esta es una de las razones por las cuales existe tanta información – basta con decir que simplemente no ha existido un límite -, por otra parte las unidades de información empezaron a hacer parte de esta evolución, poniendo al servicio de los usuarios muchos de los documentos de sus colecciones, y con esto claramente, se da la participación de los profesionales de información en el fortalecimiento de la gran cantidad da información que circula libremente en la red. Otra de las características, es la facilidad de búsqueda, la interfaces de fácil uso, que prácticamente adivinan o por lo menos se acercan a lo que se está buscando, han hecho que sea más compleja la Recuperación de Información, pero con esto claramente más eficiente.

Fuentes:

[1] SALVADOR OLIVÁN, José Antonio. ARQUERO AVILÉS, Rosario. Una aproximación al concepto de Recuperación de Información en el marco de la ciencia de la documentación. México: Investigación Bibliotecológica, 2006. Vol. 20, Nº 41, pp. 13-41Disponible en: http://eprints.rclis.org/archive/00010615/01/IBI002004101.pdf

[2] Karen Spärck Jones (26 de agosto de 1935 – 4 de abril de 2007) fue una científica británica especializada en lingüística computación. Investigadora pionera en Recuperación de Información. En: http://es.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones.

[3] Un motor de búsqueda es un sistema informático que busca archivos almacenados en servidores web gracias a su «spider» (o Web crawler. En: http://es.wikipedia.org/wiki/Motor_de_b%C3%BAsqueda

Recuperación de Información

Páginas

Buscar en este blog