Buscar en este blog

martes, 12 de octubre de 2010

¿Por qué el control del vocabulario en la recuperación de información?

Como ya bien lo debemos saber en los sistemas de información, es muy importante el control del vocabulario para representar materias. Como su nombre lo indica el control de vocabulario en la recuperación de información se centra especialmente en el tesauro puesto que es este el sistema de control de vocabulario que más se ha usado en la recuperación de información durante los últimos  20 años, aunque también se han considerado otros aspectos como el funcionamiento  del sistemas de recuperación de información sin el control del vocabulario.

Como ya es bien conocido los principales elementos de un sistema de recuperación de información son las entradas, que básicamente son documentos  - en su sentido más amplio -, en los cuales se aplican criterios de selección que implican conocimiento de las necesidad de información de los usuarios que van a consultar determinada información, posterior a tener esos documentos y a que estos ingresen a nuestro sistema de recuperación de información, se realiza el proceso de indización, el cual implica dos actividades intelectuales diferentes la una de la otra: el análisis conceptual, y la traducción de un lenguaje natural a un lenguaje estructurado – en este caso – para poder realizar este proceso de análisis conceptual el encargado de esto requiere no solo un conocimiento especifico sobre la materia de la que trata el documento, sino que también requiere conocer las necesidades de los usuarios del sistema de recuperación de información. Por otra parte para llevar a cabo la traducción del análisis conceptual a un vocabulario determinado, se tiene como precedente que muchos sistemas ya cuentan con un vocabulario controlado, es decir, un conjunto limitado de términos que se deben usar para representar los documentos, estos pueden ser un tesauro, una lista de encabezamiento de materia, un esquema de clasificación, o sencillamente una lista de frases o palabras clave.

Posterior a las actividades mencionadas anteriormente los documentos son almacenados, en la mayoría de los casos en una base de datos, y los registros de indización se organizan en otra base de datos, de tal forma que se puedan recuperar fácilmente cuando debido a una necesidad de información se requiera, para este caso la base de datos de los registros de indización puede ser un fichero  o un índice impreso , actualmente este fichero será una base de datos que esta automatizada sobre una cinta magnética o un disco , el cual puede llegar considerarse como el índice del documento almacenado.

Ya hablamos del proceso de entrada, por tanto y con el ánimo de dar continuidad al tema hablaremos de la salida, la cual viene siendo muy similar a la anterior,  puesto que se pueden gestionar estrategias de búsqueda, teniendo en cuenta las peticiones o necesidades de información que presentan los usuarios, para lo cual es de vital importancia conocer tener en cuenta las fases de análisis conceptual y traducción, donde la primera requiere un análisis de la petición o necesidad de información, para así establecer lo que realmente requiere el usuario, y la segunda, básicamente, es la traducción del análisis conceptual al vocabulario del sistema, entonces, ese análisis conceptual de la petición o necesidad de información, que es traducido al lenguaje del sistema, viendo siendo la estrategia de búsqueda, la cual se puede considerar como una representación de la petición, del mismo modo que el registro de indización se pude tomar como una representación del documento, la diferencia está en que en una se usa lógica, es decir, se usan ciertos tipos de relaciones lógicas entre los términos, mientras que en el registro de indización las relaciones entre términos quedan más implícitas que explicitas.

Ahora, una vez que finaliza la estrategia de búsqueda se debe comprar con las representaciones de los documentos de las bases de datos, lo cual es posible realizarse mediante un fichero manual, índices impresos, disco o cualquier herramienta que me permita llevar a cabo este procedimiento, actualmente este proceso se puede realizar en línea (online) sin importar que la base de datos (físicamente hablando) se encuentre a miles de kilómetros de distancia. Entonces una que esas representaciones del documento se ajustan a la estrategia de búsqueda, es decir, responden a la necesidad planteada por el usuario, se recuperan de la base de datos y son entregadas al usuario, para nuestro caso por medio de un buscador web o un aplicativo en un computador. Se puede decir entonces que el proceso finaliza cuando el usuario queda satisfecho con los resultados que obtuvo, es decir cuando el sistema le arrojo los documentos que de una u otra forma le permitieron resolver esa incógnita con la que inicio el proceso, o también, cuando definitivamente el usuario determina que ninguno de los documentos le ayudo a resolver esa incógnita. Finalmente el papel que juega el control del vocabulario en los sistemas de recuperación de información es vital para llevar a cabo los pasos que describimos anteriormente, para esto los indizadores tienen que usar los términos del vocabulario para representar las materias de las que tratan los documentos, puesto que en la estrategia de búsqueda se usaran esos términos para la hacer la pregunta a la base de datos.

Para finalizar, basta mencionar los objetivos del control del vocabulario en los sistemas de recuperación de información, y con esto habremos determinado la importancia de los mismos:
Facilitar la representación de las materias, evitando dispersión de elementos relacionados, lo cual se logra con la agrupación de sinónimos y cuasisinonimos y la distinción de palabras homógrafas.
Facilita realizar búsquedas amplias sobre une determinada materia enlazando con termino con distintas relaciones (paradigmáticas o sintagmáticas)

Fuentes:

Lenguajes Documentales. Disponible en  <http://www.auxiliardebiblioteca.com/documentos/Los%20lenguajes%20documentales.%20Los%20encabezamientos%20de%20materia..pdf> (consultado 11 de octubre de 2010).

Indización y clasificación: Un problema conceptual y terminológico. Disponible en:

miércoles, 6 de octubre de 2010

Relevancia – Dimensiones.

El concepto de relevancia, no solo es objeto de estudio en la recuperación de información, este también es analizado en áreas como la lógica, la filosofía, sociología, psicología y lingüística, pero es claro que el campo de acción de esta, y en el cual nos vamos a concentrar, es el relacionado con la recuperación de información.
el punto en el que nos vamos a fijar, y eso lo haremos teniendo en cuenta las diferentes concepciones que se tienen sobre la relevancia en la recuperación de información, en este sentido Mizarro plantea algunos tipos de relevancia que han sido promovidos a lo largo de la historia, teniendo para esto cuatro dimensiones de la relevancia, que son:
-          Una primera dimensión, que es formada por los recursos de información, es decir, información, documento y representación del documento.
-          Una segunda dimensión que está conformada por la representación del problema usuario: necesidad de información real, necesidad de información percibida, petición (es decir, expresada en lenguaje natural) y consulta (representación de la necesidad de información en lenguaje del sistema de recuperación de información)
-          La tercera dimensión que vamos a nombrar es que está conformada por tres elementos en cada una de las entidades descritas en las anteriores dimensiones, en primer lugar está el tema, es decir, el área temática sobre la cual el usuario desea obtener información, la tarea,  que en este caso viene siendo lo que usuario realizara con los documentos que recupere y por último el contexto, que básicamente es todo lo que no está directamente relacionado con el tema consultado, pero que de una u otra forma influye en cómo se realiza la búsqueda y en los resultados que obtendré de la misma.
-          La ultima dimensión que se mencionara es la que esta representada por el intervalo de tiempo que pasa desde que surge la necesidad de información hasta que esta es solucionada.

Las relaciones posibles entre las diferentes entidades de las cuatro dimensiones quedan reflejadas sutilmente en la grafica que mostraremos a continuacion, donde se intenta mostrar que la relevancia es un punto en un espacio de cuatro dimensiones y al mismo tiempo los tipos de relevancia que pueden existir.

Teniendo en cuenta todo esto, es preciso aclarar que todo puede llegar a complicarse cuando es necesario considerar también quien evalúa la relevancia (es decir, quien determina que es o no relevante), caso en el cual puede llegar a ser, el usuario, sistema, experto en el tema o intermediario. En este caso quien este encargado de evaluar puede limitar también los tipos de relevancia que se pueden medir o utilizar, por ejemplo, solo el usuario puede llegar a determinar que un documento es o no relevante para satisfacer su necesidad de información, para este caso Lancaster usa el termino pertinencia para definir la relación existente entre un documento y una necesidad de información basados en la decisión del usuario, mientras que usa (Lancaster) el termino relevancia para referirse a la relación entre un documento y una petición basada en el juicio subjetivo  de uno o varios individuos.




Fuente.

- Martínez Méndez, Francisco Javier. Recuperación de Información: Modelos, Sistemas y Evaluación. Ed. JMC Kiosko.  2004.< http://digitum.um.es/xmlui/handle/10201/4316>
- Recuperación de la información José Antonio Salvador Oliván







Lenguajes documentales

"Un lenguaje documental es el instrumento de descripción de los documentos en un sistema de información", el cual transforma la información relativa a los documentos en datos manipulables, para favorecer el control y la validación de los datos.

Los lenguajes documentales han de conseguir que se produzca una búsqueda y recuperación de información lo más eficaz posible, evitando al máximo el ruido y el silencio:

Ruido: documentos parásitos seleccionados por el sistema y que no respondan a la pregunta.

Silencio: documentos que respodiendo a la pregunta, han sido indizados por términos distintos a la demanda.

Fuente: FOX, Virginia. Análisis documental de contenido. Argentina. Alfagrama ediciones. 2005. pp 190-191

lunes, 4 de octubre de 2010

Los lenguajes documentales en la recuperación de información


"Los lenguajes documentales surgen de la necesidad de recuperar información de una forma eficiente", "gracias a la normalización, las reglas y su notación eliminan una gran cantidad de problemas de los lenguajes naturales tales como la gramática, la redundancia, la polisemia, homoninia y sinonimia, entre otras, pues representa las áreas del conocimiento de forma sistémica, reduce la ambiguedad, aporta precisión y permite un mejor análisis de un campo determinado".

Fuente: SIERRA ESCOBAR, Luis Fernando.2010. Diccionario especializado en archivística: nexos y determinantes.Revista Códice. Volumen 6 No. 1. p 66-67

domingo, 3 de octubre de 2010

La Informática y la Recuperación de Información.

Desde la creación de este blog, habíamos hablado de la Recuperación de Información, de los Sistemas de Recuperación de Información, de las Bases de Datos, los Sistemas Gestores de Bases de Datos, Lenguajes Documentales, entre otros temas igualmente importantes, pero no habíamos hablado de la relación que existe entre la informática y la Recuperación de Información, por tal razón este articulo está orientado a mostrar la relación existente entre estas dos, todo con el ánimo de buscar una mejor comprensión de la importancia que tienen y finalmente mostrar la realidad a la que nos estamos enfrentando con el aumento y diversificación de las TIC’s.
Tenemos claro que la informática nace en los años 40, influenciada por distintas corrientes, en las cuales no vamos a enfatizar, esta es definida por Peter Denning como, el estudio sistemático de los procesos algorítmicos que describen y transforman información: su teoría, análisis, diseño, eficiencia, implementación y aplicación.
Es claro que muchas de las áreas de la informática son propias o están relacionadas con la recuperación de información, pues el enfoque y los problemas que la informática busca resolver están dirigidos al diseño de aplicaciones y de sistemas informáticos tanto de hardware como de software.
En nuestro caso los sistemas de recuperación de información y bases de datos están ocupados principalmente de la organización de los datos en un sistema, los modelos de representación, las operaciones para su almacenamiento y recuperación, la localización, la equiparación y recuperación, la interacción, el diseño de una arquitectura que permite una recuperación más eficiente, entre otras
Por otra parte la IA (Inteligencia Artificial) y la robótica, buscan modelar el conocimiento del hombre con el objetivo de construir sistemas automatizados que imiten el comportamiento del hombre o aumenten las capacidades de este, en tal sentido se tienen y aplican conceptos como lenguaje natural, redes semánticas, modelos de aprendizaje, redes neuronales, agentes inteligentes y robots en la web, temimos que pertenecen a la investigación en IA y a la recuperación de información.
Otro caso de relación entre la recuperación de información y la informática es la Interacción hombre maquina, que principalmente está encargada de diseñar interfaces en la cual intervienen también otras áreas como: los gráficos informáticos y la Psicología cognitiva.

Otras de las áreas que juegan un papel fundamental en la recuperación de información, son los algoritmos y estructuras de datos, lenguajes de programación, arquitecturas y Sistemas Operativos, y Redes. Teniendo para este caso que los dos últimos han llevado a que los ordenadores sean cada vez más potentes, rápidos y facilitando con esto que la búsqueda y recuperación de información sea cada vez más rápida y personalizada.
Para finalizar cabe aclarar que la recuperación de información desde un principio ha estado ligada a la ciencia de la informática, no solo por el uso de un computador y de las TIC’s como una herramienta de trabajo y que finalmente facilita la recuperación de información, sino porque gran parte de la investigación ha sido orientada al diseño de mejores sistemas de recuperación de información, en este sentido para Baeza Yates, el problema de la recuperación de información desde el área de la informática, esta principalmente en diseñar y construir índices eficientes para el procesamiento de las consultas de los usuarios con un alto rendimiento, y en el desarrollo de de algoritmos de rango que mejoren la calidad de los resultados obtenidos.

Fuentes.

P.J Denning. “Computer Science The Discipline” en: Encyclopedia of Computer Science, 2000 edition. London: Nature Publishing Group, 2000 < http://www.idi.ntnu.no/
Informatica. disponible en: http://es.wikipedia.org/wiki/Inform%C3%A1tica. [consultado 03 de octubre de 2010].



 

Alfabetización Informacional - Memoria de Clase.

Para inciar, es importante aclarar que la alfabetización informacional no es igual a la recuperación de información. Esta – la alfabetización informacional – es un concepto que debe estar en concordancia con la realidad en cuanto a la recuperación de información tal como a vivimos actualmente, es decir, se trata de enseñar al usuario a utilizar, buscar, evaluar, etc… la información que esta va a encontrar en la red, esto dado principalmente en un mundo en el que el concepto de biblioteca esta cambiando a tal punto que usuario no es quien debe ir a esta, si no que es esta la que debe dirigirse al usuario, y esto claramente lo hace con la publicación de sus colecciones en la red.
Se trata de hacer uso de la tecnología – entendiendo esta como un concepto que va mas alla de las maquinas, es decir, la intervención del hombre sobre el entorno para satisfacer sus necesidades y lograr un bienestar – para satisfacer una necesidad latente en un determinado usuario.
Según wikipedia, la alfabetización informacionalconsiste en adquirir la capacidad de saber cuándo y por qué necesitas información, dónde encontrarla, y cómo evaluarla, utilizarla y comunicarla de manera ética. Se considera un prerrequisito para participar eficazmente en la Sociedad de la Información y es parte de los derechos básicos de la Humanidad para un aprendizaje de por vida”
En conclusión, difícilmente vamos a encontrar una definición exacta de este termino, pues en gran parte esta sujeto al cambio en las TIC’s (Tecnologias de la Informacion y Comunicación), pero una de las definiciones mas acertadas y completas es la siguiente, “La alfabetización informacional es un conjunto de habilidades que requieren las personas para "reconocer cuándo se necesita información y tener la capacidad para localizar, evaluar y utilizar eficazmente la información necesaria." 

Fuentes.
- Alfabetización Informacional. Disponible en: http://es.wikipedia.org/wiki/Alfabetizaci%C3%B3n_informacional. [consultado 03 de octubre de 2010]
- Alfabetización Informacional. Normas sobre Competencias para la Educación Superior. American Library Association. 2006
- Alfabetización informacional: un enfoque postmoderno para la formación del ciudadano en la sociedad del conocimiento. Disponible en:    http://proquest.umi.com/pqdweb?index=0&did=2101645551&SrchMode=1&sid=1&Fmt=3&VInst=PROD&VType=PQD&RQT=309&VName=PQD&TS=1286147660&clientId=51540. [consultado 03 de octubre de 2010]