Recuperación de Información

lunes, 6 de septiembre de 2010

Algunos Conceptos Sobre la Recuperación de Información.

En este artículo, básicamente, mostraremos algunos conceptos que se han dado sobre la Recuperación de Información, se hará un análisis muy somero de los mismos con el fin de comprobar si existe una única definición de este término y saber si este ha variado desde la vez que fue formulado por Calvin N. Moors. Adicionalmente se buscara la identificación de aquellas variables que intervienen en este campo y finalmente desenmarañar las relaciones que existen entre la Recuperación de Información y otras disciplinas. Vale la pena aclarar que muchos de los términos acá mostrados provienen originalmente de lo que muchos llamaron “Information Retrieval”, la cual ha sido la base para la construcción del término Recuperación de Información, tal como lo mencionamos en un artículo pasado.

El primer concepto que deseamos presentar, y no quiere decir esto que sea más o menos importante que los demás, es el que da Peter Ingwersen, para quien la Recuperación de Información está relacionada con los procesos asociados a la representación, almacenamiento, búsqueda e identificación de información relevante para la necesidad de información de un usuario humano.

Por otra parte Van Rijsbergen, dice que “la Recuperación de Información está relacionada con la recuperación de aquellos documentos que sean probablemente relevantes para la necesidad de información del usuario expresada en una petición”. En su libro el destaca tres principales puntos de investigación en Recuperación de Información: Análisis de Contenido, Estructuras de Información y evaluación.

Para Charles Meadow, es un proceso de comunicación. Es el medio por el cual los usuarios de un sistema o servicio de información tienen la posibilidad de recuperar o encontrar los documentos, registros, imágenes, o registros de sonido que satisfagan sus necesidades o intereses. Más adelante este mismo autor continua afirmando que la Recuperación de Información implica encontrar información deseada en un gran banco de información o base de datos. Este proceso de buscar información en una Base de Datos, básicamente arranca desde dos puntos distintos, uno es el usuario que presenta una necesidad de información, y otro en la persona u organización que decide recoger, organizar y almacenar la información para que posteriormente sea buscada y recuperada.

Para Frederick W. Lancaster, la Recuperación de Información, tal como la podemos ver hoy día, es para el sinónimo de búsqueda de literatura; es decir, es buscar en una colección de documentos, para identificar aquellos que tratan sobre un cierto de tema, o más específicamente, que traten sobre el tema del termino de búsqueda que se ingreso. Posteriormente este mismo autor dice que la Recuperación de Información Convencional, es la búsqueda en línea, es decir haciendo uso de una conexión a internet, de datos electrónicos, haciendo este proceso de forma interactiva y en tiempo real. Por lo general esto significa, por una parte, que el usuario construye una estrategia de búsqueda, en la cual hace uso de términos con distintas relaciones lógicas y que, por otra parte, el programa divide la base de datos en dos conjuntos: elementos recuperados y elementos no recuperados, teniendo en cuenta en este caso que se puede considerar que un sistema avanzado viene siendo el que se desvía de esta norma y que permite plantear el termino o la petición de búsqueda de una forma diferente a la booleana y que arroga como resultado un producto poco convencional, como por ejemplo que los resultados aparezcan ordenados teniendo en cuenta su relevancia o que no sea referencias bibliográficas.

Karen Sparck Jones y Peter Willet, señalan que la Recuperación Información puede llegar a ser considerada como sinónimo de Recuperación de Documentos, y actualmente como Recuperación de texto, y esto implica dos actividades que están relacionadas, pero son diferentes: indización, que se refiere a la representación de los documentos y de la petición de información, y búsqueda.

Por otra parte, Stephen Harter nos da una visión muy diferente y más restringida de la Recuperación de Información, al tener en cuenta solamente a los Sistemas de Recuperación de Información Online accesibles públicamente, y así, la Recuperación de Información Online, es un proceso en el cual un ser humano que hace uso de un terminal informático para interactuar con un servicio de búsqueda, en un intento de satisfacer una Necesidad de Información.

Por último, Robert R. Morfare indica que Almacenamiento y Recuperación de Información son dos caras de la misma moneda, pues si una persona desea buscar información, es necesario que esa información haya sido almacenada de alguna manera, y termina diciendo que buscar en una colección de documentos puede ser más fácil o más complicado dependiendo de cómo se haya organizado la información.

Del análisis de estos conceptos y luego de hacer una revisión bibliográfica que permitiera entender más a fondo los mismos, se han sacado las siguientes conclusiones:

• En la bibliografía consultada no existe una definición clara sobre el término Information Retrieval.

• Sobre la Recuperación de Información y lo que esta abarca no hay un único concepto sobre el significado. Todos los conceptos acá mencionados están basados en sus caractecteristicas funcionales o estructurales.

• Existe una coincidencia total en que el objetivo de la Recuperación de Información es proporcionar información relevante al usuario para satisfacer su Necesidad de Información.

• En esto es posible encontrar dos corrientes o tendencias que se pueden considerar representativas del pensamiento de los diferentes estudiosos de este campo: por una parte, aquellos que consideran la Recuperación de Información como un proceso de búsqueda y los que la consideran en un contexto más amplio, es decir que este incluye tanto la búsqueda como representación y almacenamiento de la Información.

Fuentes.

RODRÍGUEZ PEROJO, Keilyn. RONDA LEÓN, Rodrigo. Organización y Recuperación de Información: Un enfoque desde la perspectiva de automatización. 2007. Disponible en:http://site.ebrary.com/lib/bibliounisallesp/docDetail.action?docID=10179567&p00=peter%20ingwersen.

SALVADOR OLIVAN, Jose A. ARQUERO, Rosario. Una aproximación al concepto de recuperación de Información en el Marco de la Ciencia de la Documentación. Disponible en: http://www.ejournal.unam.mx/ibi/vol20-41/IBI002004101.pdf.

RODRÍGUEZ PEROJO , Keilyn y RONDA LEÓN Rodrigo. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización. Disponible en: http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm.

PINTO MOLINA, Maria. Búsqueda y Recuperación de Información. Disponible en: http://www.mariapinto.es/e-coms/recu_infor.htm

Indización y recuperación por materias en los opacs de las bibliotecas españolas: ¿dos décadas de evaluación?. Disponible en: http://www.elprofesionaldelainformacion.com/contenidos/2006/marzo/2.pdf

sábado, 4 de septiembre de 2010

Datos, metadatos, Información, Conocimiento y Documentos

La apropiación de información en estructuras mentales permanentes para la realización de alguna tarea es posible gracias a los sistemas de gestión del conocimiento y a los knowledge web management (KWM) que permiten estructurar de forma colaborativa. Sin embargo para producir esto, y de acuerdo a la necesidad de información, se requieren documentos que son datos lógicamente organizados que se encuentran en un formato determinado y son usables por un usuario. En este orden, se pueden clasificar los documentos en tipologías virtuales, digitales y electrónicos y bajo este mismo esquema se debe repensar el concepto de archivo ya que documentos como los virtuales existen únicamente en el momento que se necesitan y se encuentran en un estado no persistente un ejemplo fehaciente puede ser el reporte de notas generado por la pagina de la Universidad de La Salle por los alumnos del programa de sistemas de información donde al ejecutar la búsqueda recopila los datos de diferentes instancias y los muestra en una sola pantalla

Todos estos documentos tienen elementos constitutivos en común los cuales son: estructura, contenido, formato y contexto y de acuerdo a estos elementos se pueden clasificar en documentos estructurados, no estructurados y semiestructurados. Esta clasificación puede ir intrínsecamente ligada a su contenido, orden y valores de la documentación. Toda esta configuración permite facilitar la búsqueda y recuperación de información a través de herramientas y sistemas de recuperación y búsqueda ya que la estructura permite mejorar la recuperación que hacen los robots de los motores de búsqueda al poder ubicar más fácilmente cada elemento que compone al documento. Por otra parte no se puede dejar de lado la información que suministran los metadatos de los cuales hablaremos más delante de una forma más extensa.

martes, 31 de agosto de 2010

Algunos Apuntes de Historia en la Recuperación de Información.

El termino Recuperación de Informacion, fue mencionado por primera vez hacia el ano de 1950 – aunque es claro que este es un concepto que en la práctica data de muchos años atrás – cuando Calvin N. Moores la definió como "la búsqueda de información en un stock de documentos, efectuada a partir de la especificación de un tema"[1], aunque este mismo autor más adelante decide ampliar aun mas este concepto manifestando para tal fin que “ la Recuperación de Informacion abarca los aspectos intelectuales de la descripción de información y su especificación para la búsqueda, y cualquier sistema, técnica o maquina que se utilice para llevar a cabo la operación”, y con esto, claramente, abre el concepto haciéndolo aplicable aun hoy, cuando ya han transcurrido más de 50 anos y claramente las tecnologías usadas para este proceso han cambiado significativamente, pero como ya se menciono, prácticamente este concepto, tiene cierto grado de validez.

Con la definición dada por Calvin N. Moores, se definían tres problemas, los cuales debían ser tratados por la Recuperación de Informacion:

- Como definir y organizar la información.

- Como especificar la búsqueda y

- Que sistemas y técnicas utilizar para este proceso.

Claramente se evidencia que estos problemas no son exclusivos de la Recuperación de Informacion, como la conocemos hoy en día, estos son simplemente la evidencia de las principales puntos de los que se encarga la Recuperación de Información, es decir las distintas áreas de trabajo, investigación y discusión, que básicamente reflejan las relaciones de interdisciplinariedad que intrínsecamente existen en la Recuperación de Informacion.

Posteriormente a esta época, y para ser más exactos en la fecha, hacia finales de los años 50 y comienzos de los 60, se dio inicio a otra época, cuya característica está enfocada en la gran cantidad de experimentos que se hacen en torno a la Recuperación de Informacion, construyendo para esto los primeros Sistemas de Informacion a gran escala. Un hito muy importante en esta época, y que claramente marco el desarrollo del concepto, fue la celebración en Washington, en 1958, de la Conferencia Internacional sobre Informacion Científica (International Conference on Scintific Information), evento que para la Británica Karen Spark Jones[2] marco el comienzo de la Recuperación de Informacion tal como la podemos evidenciar hoy día.

Ya para los años 70, y comenzara con esto, de forma resumida con el ánimo de profundizar sobre estos hitos históricos más adelante, lo que llamaremos la época de la madurez de la Recuperación de Informacion, teniendo que las dos características principales de esta época son:

• El nacimiento y posicionamiento de la Informacion Online, y ya con esto haciendo provecho de los primeros Sistemas de Recuperación de Informacion, y

• Refinamiento de las ideas y modelos estadísticos experimentados en años anteriores y consolidación de los mismos básicamente en dos modelos: los Modelos Vectoriales y los Modelos Probalísticos.

Otra etapa de que la se mencionara es la comprendida entre los anos de 1980 y 1990, caracterizada básicamente por la rápida expansión de internet, la aparición de software más sofisticado para la Recuperación de Informacion, y la aparición de las Bases de Datos en CD-Rom. En esta época se da un giro en lo que al concepto se refiere, teniendo que este se centra en el usuario como pieza clave en la Recuperación de Informacion.

Continuando con la parte histórica, de forma resumida, continuamos con la etapa comprendida entre 1990 y 2000 – hasta hace 10 años -, que muchos ya sabemos se caracteriza por la aparición de los computadores personales, obviamente con muchas más capacidad que la que presentaban los computadores hasta el momento; el desarrollo de motores de búsqueda[3] más o menos hacia el ano de 1993 cuando apareció Wandex, el cual indexaba paginas, pero también permitia la búsqueda, siendo la primera tecnología con la capacidad de “rastrear” en la red, y la aparición de otros sistemas y mejoras en la interfaz, que buscaba facilitar el acceso al usuario final y buscan favorecer la interacción entre el usuario y el sistema, haciendo de esta manera mas dinámico el proceso de Recuperación de Informacion.

Ya para finalizar este articulo, hablaremos del último periodo o etapa, que inicial en el año 2000 y va hasta el 2010, claramente la evolución informática de estos últimos 10 años ha marcado uno de los hitos más importantes, por no decir que el más importante, las computadoras evolucionaron trayendo con esto más capacidad, con menos tamaño, y claramente esta es una de las razones por las cuales existe tanta información – basta con decir que simplemente no ha existido un límite -, por otra parte las unidades de información empezaron a hacer parte de esta evolución, poniendo al servicio de los usuarios muchos de los documentos de sus colecciones, y con esto claramente, se da la participación de los profesionales de información en el fortalecimiento de la gran cantidad da información que circula libremente en la red. Otra de las características, es la facilidad de búsqueda, la interfaces de fácil uso, que prácticamente adivinan o por lo menos se acercan a lo que se está buscando, han hecho que sea más compleja la Recuperación de Información, pero con esto claramente más eficiente.

Fuentes:

[1] SALVADOR OLIVÁN, José Antonio. ARQUERO AVILÉS, Rosario. Una aproximación al concepto de Recuperación de Información en el marco de la ciencia de la documentación. México: Investigación Bibliotecológica, 2006. Vol. 20, Nº 41, pp. 13-41Disponible en: http://eprints.rclis.org/archive/00010615/01/IBI002004101.pdf

[2] Karen Spärck Jones (26 de agosto de 1935 – 4 de abril de 2007) fue una científica británica especializada en lingüística computación. Investigadora pionera en Recuperación de Información. En: http://es.wikipedia.org/wiki/Karen_Sp%C3%A4rck_Jones.

[3] Un motor de búsqueda es un sistema informático que busca archivos almacenados en servidores web gracias a su «spider» (o Web crawler. En: http://es.wikipedia.org/wiki/Motor_de_b%C3%BAsqueda

Exhaustividad en la búsqueda y relevancia en los resultados de la recuperación de información

El desarrollo sustentable y maximización de los recursos está ligado al acceso a las nuevas tecnologías de la información (M. Castells) y a la nube (world wide web) el rol de los profesionales en información y tratamiento de documentos es fundamental ya que internet crece exponencialmente en miles de millones de páginas y no son comunes métodos que indicen o permitan tener métodos de recuperación óptimos para que la gente obtenga lo necesario en una primera búsqueda.

Sin embargo compañías como google trabajan para cambiar los paradigmas en formas de búsqueda que vienen desde mediados del siglo pasado. Universidades como Stanford y Glasgow, han publicado libros alusivos a la Information retrieval desde la óptica de Computing science sin dejar de lado las técnicas y métodos desarrollados por library and Information science. Estas metodologías apuntan a que para grandes cantidades de información se requiera un actor involucrado que organice, en este caso los robots de los motores de búsqueda. Dichos procesos logrados por algoritmos y arboles de decisión permiten a los sistemas ser precisos y exhaustivos para entregar en un ranking los resultados más relevantes y acordes a la entrada realizada por el investigador o solicitante de una respuesta de acuerdo su necesidad de información. En colombia, la universidad de La Salle y su programa de sistemas de información trabajan por lograr que los profesionales graduados posean las habilidades adecuadas para entrentar los retos que trae la búsqueda recuperacion de informacion en un entorno globalizado y competitivo.

lunes, 30 de agosto de 2010

Introducción a recuperación de información

Basta con una básica diagnosis a la exorbitante producción documental para saber que el mundo de la información es totalmente impredecible, Habiendo dejado una etapa agrícola e industrial, nos dirigimos hacia la aldea global que predijo Marshall McLuhan en los años 60, una sociedad del conocimiento donde los usuarios de información a diario levantan nuevos requerimientos que son un reto a desarrollar para profesionales de las ciencias de la información. Por este motivo es necesario ser creativos en mecanismos para que la gente acceda y conozca datos relevantes que posteriormente serán transformados en conocimiento práctico y digerible. Las habilidades básicas del profesional cuyo deber sea resolver estos problemas están centradas en competencias para búsqueda, análisis, diseminación y selección de contenidos que sean recuperables, es decir, debe anticipar al usuario y pensar, ¿si yo fuera usuario de un motor de búsqueda, como buscaría determinado tópico o temático? Estas premisas son básicas para evitar la infoxicación que puede llevar a un individuo a consumir elementos cognitivos que puedan desviarle de una búsqueda puntual acorde a su necesidad informativa.

Los enlaces a continuación son algunos videos dándonos una idea más aterrizada de lo que significa recuperación de información dentro del ámbito de la ciencia de la información, la bibliotecología y la archivística. Son solo algunas aproximaciones al concepto recuperación de información dados por alumnos de la Universidad de La Salle del programa Sistemas de Información y Documentación, bibliotecología y archivística. PSIBA

http://www.youtube.com/watch?v=QlcZ709UHmU

http://www.youtube.com/watch?v=6rdVyc94z_k&feature=related

http://www.youtube.com/watch?v=6QEJMlRzJkU&feature=related

http://www.youtube.com/watch?v=rE2vk8vfrmA&feature=related

http://www.youtube.com/watch?v=-8dqshUB8lc&feature=related

http://www.youtube.com/watch?v=vV3cg605bsY&feature=related

http://www.youtube.com/watch?v=nkMVGWZnWjE&feature=related

http://www.youtube.com/watch?v=_St6MkmWlp8&feature=related

miércoles, 25 de agosto de 2010

Entrevista Carlos Zapata, Representante Team Colombia.

Carlos Zapata, Representante Team Colombia, para el proyecto interPARES, habló para hora de negocios acerca de la recuperación de la memoria digital de nuestro país y las compañías.

http://www.caracol.com.co/PROGRAMA.ASPX?ID=555605&AU=1335964