Buscar en este blog

Mostrando entradas con la etiqueta indización. Mostrar todas las entradas
Mostrando entradas con la etiqueta indización. Mostrar todas las entradas

martes, 12 de octubre de 2010

¿Por qué el control del vocabulario en la recuperación de información?

Como ya bien lo debemos saber en los sistemas de información, es muy importante el control del vocabulario para representar materias. Como su nombre lo indica el control de vocabulario en la recuperación de información se centra especialmente en el tesauro puesto que es este el sistema de control de vocabulario que más se ha usado en la recuperación de información durante los últimos  20 años, aunque también se han considerado otros aspectos como el funcionamiento  del sistemas de recuperación de información sin el control del vocabulario.

Como ya es bien conocido los principales elementos de un sistema de recuperación de información son las entradas, que básicamente son documentos  - en su sentido más amplio -, en los cuales se aplican criterios de selección que implican conocimiento de las necesidad de información de los usuarios que van a consultar determinada información, posterior a tener esos documentos y a que estos ingresen a nuestro sistema de recuperación de información, se realiza el proceso de indización, el cual implica dos actividades intelectuales diferentes la una de la otra: el análisis conceptual, y la traducción de un lenguaje natural a un lenguaje estructurado – en este caso – para poder realizar este proceso de análisis conceptual el encargado de esto requiere no solo un conocimiento especifico sobre la materia de la que trata el documento, sino que también requiere conocer las necesidades de los usuarios del sistema de recuperación de información. Por otra parte para llevar a cabo la traducción del análisis conceptual a un vocabulario determinado, se tiene como precedente que muchos sistemas ya cuentan con un vocabulario controlado, es decir, un conjunto limitado de términos que se deben usar para representar los documentos, estos pueden ser un tesauro, una lista de encabezamiento de materia, un esquema de clasificación, o sencillamente una lista de frases o palabras clave.

Posterior a las actividades mencionadas anteriormente los documentos son almacenados, en la mayoría de los casos en una base de datos, y los registros de indización se organizan en otra base de datos, de tal forma que se puedan recuperar fácilmente cuando debido a una necesidad de información se requiera, para este caso la base de datos de los registros de indización puede ser un fichero  o un índice impreso , actualmente este fichero será una base de datos que esta automatizada sobre una cinta magnética o un disco , el cual puede llegar considerarse como el índice del documento almacenado.

Ya hablamos del proceso de entrada, por tanto y con el ánimo de dar continuidad al tema hablaremos de la salida, la cual viene siendo muy similar a la anterior,  puesto que se pueden gestionar estrategias de búsqueda, teniendo en cuenta las peticiones o necesidades de información que presentan los usuarios, para lo cual es de vital importancia conocer tener en cuenta las fases de análisis conceptual y traducción, donde la primera requiere un análisis de la petición o necesidad de información, para así establecer lo que realmente requiere el usuario, y la segunda, básicamente, es la traducción del análisis conceptual al vocabulario del sistema, entonces, ese análisis conceptual de la petición o necesidad de información, que es traducido al lenguaje del sistema, viendo siendo la estrategia de búsqueda, la cual se puede considerar como una representación de la petición, del mismo modo que el registro de indización se pude tomar como una representación del documento, la diferencia está en que en una se usa lógica, es decir, se usan ciertos tipos de relaciones lógicas entre los términos, mientras que en el registro de indización las relaciones entre términos quedan más implícitas que explicitas.

Ahora, una vez que finaliza la estrategia de búsqueda se debe comprar con las representaciones de los documentos de las bases de datos, lo cual es posible realizarse mediante un fichero manual, índices impresos, disco o cualquier herramienta que me permita llevar a cabo este procedimiento, actualmente este proceso se puede realizar en línea (online) sin importar que la base de datos (físicamente hablando) se encuentre a miles de kilómetros de distancia. Entonces una que esas representaciones del documento se ajustan a la estrategia de búsqueda, es decir, responden a la necesidad planteada por el usuario, se recuperan de la base de datos y son entregadas al usuario, para nuestro caso por medio de un buscador web o un aplicativo en un computador. Se puede decir entonces que el proceso finaliza cuando el usuario queda satisfecho con los resultados que obtuvo, es decir cuando el sistema le arrojo los documentos que de una u otra forma le permitieron resolver esa incógnita con la que inicio el proceso, o también, cuando definitivamente el usuario determina que ninguno de los documentos le ayudo a resolver esa incógnita. Finalmente el papel que juega el control del vocabulario en los sistemas de recuperación de información es vital para llevar a cabo los pasos que describimos anteriormente, para esto los indizadores tienen que usar los términos del vocabulario para representar las materias de las que tratan los documentos, puesto que en la estrategia de búsqueda se usaran esos términos para la hacer la pregunta a la base de datos.

Para finalizar, basta mencionar los objetivos del control del vocabulario en los sistemas de recuperación de información, y con esto habremos determinado la importancia de los mismos:
Facilitar la representación de las materias, evitando dispersión de elementos relacionados, lo cual se logra con la agrupación de sinónimos y cuasisinonimos y la distinción de palabras homógrafas.
Facilita realizar búsquedas amplias sobre une determinada materia enlazando con termino con distintas relaciones (paradigmáticas o sintagmáticas)

Fuentes:

Lenguajes Documentales. Disponible en  <http://www.auxiliardebiblioteca.com/documentos/Los%20lenguajes%20documentales.%20Los%20encabezamientos%20de%20materia..pdf> (consultado 11 de octubre de 2010).

Indización y clasificación: Un problema conceptual y terminológico. Disponible en:

lunes, 27 de septiembre de 2010

Lenguajes Documentales: Algunas definiciones.

El objetivo de este artículo, tal como lo presentamos con los conceptos de Recuperacion de Información, es hacer un recorrido por distintas definiciones dadas al concepto de Lenguajes  Documentales, para finalmente llegar a una conclusión general sobre esta.

Empezamos con Banca Gil quien dice que un Lenguaje Documental es el sistema artificial de símbolos estandarizados que facilitan la representación del contenido de los documentos para facilitar la recuperación manual o automática de la información solicitada por el usuario.

Por otra parte para Antonio García Gutiérrez, los lenguajes documentales están compuestos por un listado de términos que los constituyen como vocabulario, y por unas relaciones entre ellos que dinamizan esos vocabularios y le otorgan la categoría de lenguaje. Estos lenguajes se generan por el proceso del análisis de los documentos puesto que el objetivo que se persigue es el control y manipulación de sus contenidos para poder satisfacer las demandas de información.

J. Rowley, en su libro Organizing knowledge, usa el termino indexing languages refiriéndose a este como "una lista de términos o notaciones que pueden ser utilizados como punto de acceso en un índice"

Finalmente según la Norma Técnica Colombiana NTC 1544, Documentación, indización, Terminología,  el lenguaje documental es “un lenguaje artificial, construido con base en reglas preestablecidas, utilizando los sistemas de documentación para indización, con propósitos de almacenamiento y recuperación

Finalmente y tomando como base los conceptos dados anteriormente podemos afirmar que todos apuntan hacia lo mismo, es decir, aunque las definiciones son diferentes, el objetivo que persiguen es básicamente el mismo, decir que el lenguaje documental, es un listado de términos controlados, que van a permitir facilitar la recuperación de la información contenida en un determinado documento


Fuentes:

Los Lenguajes Documentales. Disponible en: http://www3.unileon.es/dp/abd/tesauro/pagina/conceptos/lengdocu.htm. (consultado 25 septiembre de 2010)

Analisis Documental y lenguajes Documentales. Disponible en: lavelablanca.neositios.com/downloads.php?id=11919&dId. (consultado 25 septiembre de 2010)

ICONTEC. Norma Tecnica Colombiana NTC 1544. Documentacion, Indizacion, Terminologia. Disponible en: http://www.sinab.unal.edu.co/ntc/NTC1544.pdf. (consultado 26 septiembre de 2010).

martes, 14 de septiembre de 2010

Google desktop search como herramienta de recuperación de información

Este desarrollo de google permite indexar contenidos en diferentes formatos pese a que se demora en indexar, lo cual va de de acuerdo a la cantidad o peso de los documentos que se indexen, el programa usa los tiempos muertos del PC, hay q verificar los estatus y posterior cuando llega al 100% permite buscar, no genera avisos cuando acaba su proceso, simplemente pone a disposición del usuario la interfaz para que la búsqueda y recuperación. Esta misma tiene diferentes opciones avanzadas como instalar en la unidad que tenga espacio, modificación del registro y de la instalación a través de usuario administrador, ser utilizado de forma independiente en diferentes cuentas de Windows en una misma máquina, copia de seguridad del índice y restablecimiento de este mismo (restauración). Una de las desventajas de esta herramienta en la recuperación, es que por default tiene un número predeterminado de formatos, sin embargo muchos desarrolladores han generado plugg-ins para extender la compatibilidad con otros formatos de documentos de cualquier sistema de información.


Un buen instructivo para iniciar en el uso del Google Desktop Search se encuentra en el vínculo a continuación: http://desktop.google.com/support/bin/topic.py?topic=11570


sábado, 11 de septiembre de 2010

HARVEST


Software de indización, surgido a finales de 1993. Es un paquete integrado de herramientas gratuitas para recoger, extraer, organizar, buscar, y duplicar información relevante en Internet. La arquitectura de recolección de Harvest consta de varios puntos de recolección y de índices en cascada. Uno de sus componentes, denominado gatherer, se encarga de crear un fichero de términos de indización para cada servidor web. 

 Colino Tomé, Adriana. Glosario de Recuperación de Información Web. En <http://www.um.es/gtiweb/adrico/#Consulta> Septiembre de 2010.