Buscar en este blog

martes, 7 de septiembre de 2010

Algunos problemas en recuperación de información

Algunos problemas en recuperación de información identificados durante la catedra de la Universidad de La Salle en el programa de sistemas de información son los siguientes:

• Trabajar con índices

• Como trabajar índices contra preguntas

• Como organizar resultados

Google cada mes optimiza su algoritmo para establecer la relevancia, los sistemas de recuperación tradicionales comparan los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking, sin embargo google hace buen uso de los tesauros con el fin de optimizar el proceso y apuntar al esquema mental del usuario que plantea el Query.

Para automatizar y optimizar las búsquedas y recuperación de información, se involucran procesos automatizados e informáticos como, hardware, software, colecciones de documentos, información digital, audio, video, texto, multimedia, codificaciones y otros objetos, generalmente los SRI son subsistemas de otros sistemas más grandes. Vasta con ver los ECM, ERM, ERP, Workflow que cuentan con subsistemas de recuperación para encontrar sus contenidos y que reducen la complejidad del problema documental y de archivos invertidos contenedores de metacontenidos.

Dado que los documentos puede ser cualquier objeto en la red hay que evaluar factores tales como la categorización, el formato, el tamaño del índice vs el tamaño de la colección para así asignar los elementos necesarios que permitan crear un SRI adecuado, es decir, interfaz, Querys, búsquedas, comparaciones, indexación, asignación de ranking y resultados de acuerdo a los listados de términos y reglas asociadas al SRI.

En este orden de ideas se convierte en un conjunto de procesos automatizados por los cuales el usuario accede a la información donde previamente se normalizan las preguntas y se indexa la documentación para que sea dada por este una categorización de utilidad a la respuesta devuelta por la maquina a una pregunta concreta de acuerdo a patrones semánticos.

La extracción de información como modelo para organización de resultados, es un proceso especializado de recuperación de información destinado únicamente a necesidades de información concreta. Es una búsqueda concreta sobre un listado de términos y basado en reglas asociadas que apuntan a una mayor exhaustividad en los resultados requeridos para saciar una necesidad informativa.

Memorias de Clase ¿QUÉ ES RECUPERACION DE INFORMACIÓN?

En esta clase definiremos que es Recuperación de Información, pero antes de que se de esta definición, es necesario definir el término “Necesidad de Información”, el cual se puede definir como un vacio cognitivo, es decir, en el momento en el que no hay claridad en un determinado concepto da origen a una necesidad de Información, el problema de esto, es que es muy complejo saber cuáles son y cuántos son los conceptos que podrían solucionar esta necesidad de Información.

La necesidad de Información se puede dividir en dos:

- Necesidad de información concreta: Es una necesidad de información bien rara, pues es muy específica y fácil de solucionar y se puede intuir que documentos pueden satisfacer esa necesidad. El hecho que exista un vacio conceptual bien definido permite establecer preguntas concretas que van a solucionar esa necesidad de información, es decir, a una necesidad concreta, una respuesta concreta.

- Necesidad de información orientada al problema: no hay una frontera temática definida, y por tanto no hay una conceptualización en la búsqueda, es decir, no hay una pregunta claramente definida, por tanto no hay una respuesta acertada o que satisfaga esa necesidad de información.

Mencionado esto podemos decir que: La necesidad de información es un problema de la Gestión de Conocimiento y por tanto la Recuperación de Información es un proceso de gestión del conocimiento, es decir, un proceso para satisfacer una necesidad de información (mas allá de and, or y not), que involucra el proceso para disminuir el problema de espacio conceptual, debido a que por lo general las preguntas están orientadas a un problema. Todo esto asociado a la gestión del conocimiento.
“La RI permite pasar de un estado actual del conocimiento a un estado necesario del conocimiento”. Ingerwersen.
Por tanto y teniendo en cuenta lo anteriormente mencionado, Recuperación de Información es el proceso de comparar una pregunta contra un conjunto de índices o comparar los términos de una pregunta contra los términos de un índice que son sacados de un conjunto de documentos, en otras palabras compara términos contra términos, teniendo en cuenta la Relevancia que presentan los términos dentro de estos índices y dentro de la pregunta.

Como todo este proceso no lo puede hacer un humano es necesario un Sistema de Recuperación de Información, que involucra procesos automatizados, manejo de Sistemas de Información, Hardware y Software, y colecciones de documentos electrónicos, es decir que estos últimos estén codificados electrónicamente.

Los Sistemas de Recuperación de Información tienen como finalidad almacenar, procesar, recuperar y difundir la información. Generalmente utiliza índices y compara las preguntas y ordena los resultados de acuerdo a la Relevancia del término que se está buscando.

Los Sistemas de Recuperación de Información están enfocados a recuperar contenidos no importa el soporte en el que estos se encuentren almacenados, por ejemplo, audio, video, texto, etc.… puesto que como lo manifestó el profesor, al comienzo de este curso, “documento es cualquier cosa que contenga información” por lo menos en el ámbito electrónico.

Un Sistema de Recuperación de Información es parte de la informática que estudia la Recuperación de Información (no datos) que pertenecen a una colección de documentos (documentos recuperados) para satisfacer una necesidad de información.

Recuperación de Información desde los Sistemas de Recuperación de Información: el conjunto de tareas proceso y procedimientos automatizados mediante los cuales los usuarios localizan y acceden a recursos de información relevantes o pertinentes que ayudan a resolver una necesidad de información.

Pero ¿qué es relevante y qué pertinente?
Relevantes: Importantes.
Pertinentes: Utiles.

Una maquina tiene la capacidad de inferir que documentos pueden ser importantes o útiles, es decir, relevantes o pertinentes, aunque ahí que aclara que la utilidad de un documento es subjetiva, pues está atado a la necesidad de cada persona, es decir, que no para todo el mundo es útil o inútil determinada información.

lunes, 6 de septiembre de 2010

Que es la necesidad de información desde la gestión del conocimiento

Necesidad de información: es el proceso en que el conocimiento tácito se convierte en explicito y donde la información se transforma en estructuras mentales que llenan vacios cognitivos, ahí surge la necesidad, cuando el ser humano no conoce, es acá donde se toca con la recuperación. No se sabe cuantos ni cuales contenidos puede llenar una necesidad de información.

Hay dos necesidades de información, una concreta en la cual se buscan contenidos muy específicos que contengan una respuesta puntual y concreta. La otra es la necesidad de información orientada al problema la cual permite conceptualizar la búsqueda y establecer límites ya que generalmente no puede se satisfecha. Pero que es la recuperación de información? Es un proceso de gestión de conocimiento para satisfacer una necesidad de información, es un proceso para acabar con el vacio conceptual. Belkin categoriza la RI como normalización del conocimiento sin embargo es necesario que sea categorizado esto a través de índices por lo cual RI es comparar una pregunta contra un conjunto de índices, es comprar los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking.

Consideraciones sobre recuperación de información

Gerard Salton da lineamientos para introducirse a la recuperación de información. En su libro introduction to modern information retrieval de 1983, muestra a la IR (information retrieval) como un proceso interdisciplinario donde entran las ciencias de la información y documentación, la computación, la lingüística, la estadística la filología y los modelos matemáticos como la lógica de Boole. Básicamente busca recuperar información de conjuntos semánticos de datos a través de preguntas bien formuladas en formatos documentales que permitan recuperar términos indizados extraídos de los textos.

Los grandes teóricos de la recuperación de información anglosajones son: Gerard Salton, Rijsbergen, korfhage, Blair, Roberston, Willet, Sparek, Jones, Webber y Shannon. Ellos han fundamentado la recuperación de información a través de las ciencias de la computación, de la documentación y de la matemática. Internet ha permitido que millones de personas, culturas, idiomas en medio de tanto ruido documental permitan desarrollarse cognitivamente como usuarios para que las intersecciones de búsqueda planteadas a través de signos y formas semióticas den cabida a la recuperación documental.

Un importante libro sobre information retrieval se puede encontrar en el siguiente vinculo de la universidad de Stanford

http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

La recuperación de información en el proceso documental

La recuperación de información en el proceso documental.

Aquí se contempla la recuperación de información como proceso o actividad que se produce dentro de uno más amplio conocido como proceso documental. El proceso documental se divide en las siguientes fases:

• Selección y adquisición
• Análisis
• Almacenamiento
• Búsqueda o recuperación
• Difusión de la información

Las tres primeras fases corresponden a la entrada de información al sistema, y las dos últimas fases corresponden a la salida de la información del sistema.

La importancia de la recuperación de la información dentro del proceso documental la define Martínez Comeche como “ la labor de la recuperación de la información que se erige en una de las tareas más intrínsecamente documentales , pues en ella radica la utilidad del proceso documental desde el punto de vista del usuario, y porque en ella se consuman una de las misiones más importantes de la documentación como la de informar al receptor dónde debe encontrar la información que necesita para generar nuevo conocimiento, contribuyendo de éste modo al avance científico en particular y al progreso en general”.

Sin embargo y como ha sucedido siempre, hay contradicciones y discrepancias entre autores, como por ejemplo , Pinto Molina que en vez de utilizar la expresión recuperación de la información, emplea el término tratamiento, así: “ la expresión tratamiento significa básicamente transformación de la información contenida en los documentos a fin de posibilitar su control y recuperación”. Ésta afirmación coindice totalmente con lo referente al término transformación el cual implica una serie de actividades encaminadas a representar la información en un SRI como la indización, el resumen, la catalogación o la descripción y éstas hacen parte del análisis del contenido, y de ahí nace el análisis documental denominada como disciplina científica dentro de la documentación, y su objetivo es la transformación y representación de la información para una mejor recuperación.


Fuente:
SALVADOR OLIVÁN, José A. Recuperación de la información. 1ª edición. México. Alfagrama Ediciones. 2008. pp 108-122.

Sancionada Ley que Reglamenta el Ejercio Profesional de Archivista en Colombia.

Nos complace informar a la comunidad que ha sido sancionada la Ley 1409 de 30 de agosto de 2010, por medio de la cual se reglamenta el ejercicio profesional de la archivística, se dicta el código de ética y otras disposiciones.



Adicionalmente queremos felicitar al Programa de Sistemas de Información y Documentación, de la Universidad de La Salle, por la gestión y la ardua lucha en este proceso que tardo varios anos, pero que hoy ha dado un fruto muy importante para nuestra maravillosa profesión.

Les dejo el enlace para que puedan consultar la Ley:


http://www.scarchivistas.org/wp-content/uploads/2010/08/Ley-1409-de-Agosto-30-de-2010.pdf