Buscar en este blog

Mostrando entradas con la etiqueta Universidad de La Salle. Mostrar todas las entradas
Mostrando entradas con la etiqueta Universidad de La Salle. Mostrar todas las entradas

lunes, 8 de noviembre de 2010

El concepto de Recuperación de Información, abordado desde el campo de las ciencias de la documentación.

TEMA A TRATAR
El concepto de Recuperación de Información, abordado desde el campo de las ciencias de la documentación.

SUBTEMAS A TRATAR

1. identificar las premisas del documento.
2. Argumentar en máximo tres párrafos dónde se indique (critique, hable, resuma, comente, etc...), parecidos y diferencias de este texto respecto al tema trabajado en clase.
3. Proponer en máximo DOS párrafos: ¿según este documento qué temas faltaría tratar ò profundizar en clase?
4. Analizar y responder objetivamente la siguiente pregunta: ¿Para qué le sirve a un profesional de información en su entrono diario conocer los procesos, definiciones y modelos para recuperar información en documentos?

RESUMEN

La Recuperación de información es un tema, que en la praxis está relacionado con muchas disciplinas, (las ciencias de la información, ciencias de la documentación, la informática, la lingüística, entre otras) las cuales de una u otra forma se enfocan en facilitar que el documento que un determinado usuario está buscando, le sea entregado y que este documento logre satisfacer la necesidad de información que este usuario presento. La importancia de la Recuperación de Información, no solo desde nuestro campo, sino desde cualquiera, es brindar la posibilidad de que la información sea accesible, que no existan barreras que impidan la difusión y consumo de la misma, y permitir que las necesidades de información sean resueltas de la mejor forma posible.

PALABRAS CLAVES

Recuperación de Información, ciencias de la documentación, Universidad de La Salle.



TEXTO GENERAL DEL INFORME/TRABAJO

Las premisas identificadas en el texto son:
- No existe una única idea o definición de lo que significa trabajar o investigar en  Recuperación de Información, esto principalmente debido a la multidisciplinariedad de la RI.
- No hay una definición clara y precisa del término recuperación de Información, básicamente por lo mencionado anteriormente, aunque hay coincidencia en que el objetivo de la misma es proporcionar información relevante para satisfacer una necesidad de información.
- La Recuperación de Información requiere de la colaboración de varias disciplinas, puesto que el problema que esta aborda es bastante grande y complejo y no puede ser abordado por una sola área, o disciplina.
- El termino recuperación de Información aparece de forma implícita o explícita en el concepto de documentación.

Por otra parte en cuanto a la relación de los conceptos y temáticas de la lectura “Una Aproximación al Concepto de RI desde el marco de las Ciencias de la Documentación”, con los que se vieron en la clase recuperación de información de la Universidad de La Salle, puedo decir que intrínsecamente los conceptos los estuvieron presentes a lo largo del desarrollo de la materia. Se dejo claro que la recuperación de información, no está limitada a una sola área del conocimiento, y que es algo que va más allá del AND, OR y NOT.

Fue evidente que el desarrollo de la clase estuvo más enfocado a la parte práctica y quedaba a interés del alumno deducir e investigar un poco más acerca de este interesante tema, pero es evidente también que la mejor forma de aprender es la práctica.

Ahora bien, decir que faltó o no algún tema por desarrollar, es un tanto complejo, pues a mi modo de ver el tema se abordó de una manera muy general, y tratando de incluir todos, o por lo menos algunos puntos de vista de la recuperación de Información; a modo de ver algo que se tocó muy someramente, fue el tema relacionado con los sistemas o interfaces visuales de recuperación de información, pues como bien lo decía el profesor, la información es algo que no solo se produce en texto, y por ende no solo se recupera en texto, y fue un tema del cual solo se hablo un par de veces de manera parcial y resto quedo, o quedara, a interés de cada alumno.

Un tema que considero se debería abordar, es por llamarlo así, el futuro de la recuperación de información, es claro que hay camino medianamente definido, pero sería interesante saber o intentar saber, a que le apunta hoy la recuperación de información, teniendo en cuenta variables como el crecimiento de la información en formato electrónico y digital, los cambios en la manera de concebir la Internet, etc.

Considero que algo que sería importante puntualizar siempre antes de dar inicio a cualquier clase, es un poco de teoría, el concepto de recuperación de información, es un tanto complejo, y sería interesante conocer no solo las definiciones dadas por los grandes estudiosos del tema sino también el concepto o el punto de vista que tiene el docente frente a este.

Y finalmente, decir que para que les sirva la recuperación de información a los profesionales de la información, es como preguntarnos para que le sirve el horno a un panadero. Considero, o aseguro, que la razón de ser de nuestra profesión es brindar a las personas (usuarios) la posibilidad de acceder a la información que la sociedad genera, en tal sentido si no hay un concepto de recuperación de información, difícilmente vamos a poder garantizar el acceso a la información que se produce, entonces es nuestro deber tener en cuenta que en este camino no estamos solos, y eso es claro, la recuperación de información es bastante compleja para ser abordada solo por nosotros, pero es importante que seamos nosotros quienes le demos el rumbo a la recuperación de información.


CONCLUSIONES

Hace unos días leí un artículo en la red, no recuerdo en que periódico, pero recuerdo que decía que aproximadamente en 20 años se podría, por decirlo así, “escanear la mente humana” y almacenar en un disco duro toda la información que generó un individuo en el transcurso de su vida,  en ese momento en mi mente rondaron mil ideas, algunas relacionadas directamente con recuperación de información, otras con el tema de cómo se administrara, organizara y protegerá esa información, en fin, el punto es si hoy es complejo buscar en una base de datos que contiene unos cuantos millones de registros, que tan complejo será ubicar un dato en algo tan complejo como la mente humana?

sábado, 6 de noviembre de 2010

premisas recuperación de información - Comentarios lectura

Video aproximación a la RI


De acuerdo al Documento Una aproximación al concepto de recuperación de información desde el marco de la ciencia de la información, se pueden definir cinco premisas claras:



1.    Definición(es) de recuperación de información.

2.    Ciencias de la información y documentación (library and information science).
3.    Ciencias de la informática y de la computación.
4.    Interdisciplinariedad, interrelación y aspectos intelectuales de la recuperación.
      5. Teoría de la información y de la comunicación.



Ademas, de acuerdo al texto se puede extraer que:


El problema de la recuperación específicamente surge de la creación no controlada de documentos. No es una cuestión generada a partir de las ciencias de la computación, realmente éstas han ayudado a reducir la complejidad, sin embargo el desorden documental (entendiéndose dentro de éste la elaboración de innumerables documentos no estructurados) debe ser abordado bajo criterios establecidos por documentalistas y profesionales en información, es a partir de estos campos desde donde se deben establecer metodologías para la recuperación y la coherencia en la información entregada ya que ésta última como salida de un proceso, es un problema que se ha maximizado a causa de la poca interdisciplinariedad entre la ciencia de la información y otras áreas de la ciencia y tecnología. De otra parte, ésta fenomenología parece recurrente únicamente en Latinoamérica y países de habla hispana donde hay una marcada diferencia entre profesionales de ciencia de la información ó documentalistas y profesionales de las ciencias de la computación ya que puede existir el falso imaginario de que habitualmente los segundos desmejoran las condiciones laborales de los primeros, caso contrario en los países anglosajones donde hay avances significativos gracias a la colaboración entre grupos interdisciplinarios de profesionales en muchas ramas,  que trabajan apuntando hacia la construcción, diseño y desarrollo de una sociedad de la información y del conocimiento dentro de un modelo sustentable que entregue participación y ganancias equitativas para todos los participantes.


miércoles, 3 de noviembre de 2010

Sistemas de Información, Entre el dilema de AND, OR o NOT


Dentro de la recuperación de información existen operadores que permiten enriquecer las búsquedas o extraer de las bases de datos información relevante y exhaustiva para el usuario del sistema de información, una de las formas más comunes de recuperar información a través de operadores es utilizando búsquedas booleanas las cuales tienen como palabras comodín los términos AND, OR y NOT que en algunas interfaces son reemplazados por el ampersamp (&), el signo + o el signo *.  Sin embargo esta no es la única forma de recuperar información o obtener resultados coherentes en una búsqueda de documental, esto está siempre de acuerdo a la plataforma, estructuración, notación y representación de los documentos dentro del DBMS, el ECM o el RMS.

Un ejemplo fehaciente de esto es el tipo de operadores que manejan algunas herramientas de escritorio, por citar un ejemplo el caso de google desktop search, echa mano de algunos operadores diseñados para realizar búsquedas específicas dentro del material indexado. En la URL a continuación se pueden encontrar estos mismos los cuales de acuerdo a su naturaleza pueden especificar si lo que se requiere es una búsqueda de un tipo de archivo específico, de un formato determinado o de un documento con un contenido explicito. http://desktop.google.com/support/bin/answer.py?hl=es&answer=10111, vale la pena resaltar que esta herramienta fue evaluada en la universidad de La Salle durante la cátedra de Recuperación de información y los resultados entregados al indexar una colección fueron acordes a lo esperado por un usuario final frente a un SRI.

La ventaja del uso de operadores y ecuaciones de búsqueda es que apuntan directamente a los lenguajes documentales que son los que representan la información contenida en los repositorios o bodegas de datos en las que reposen documentos estructurados o no estructurados. El motor de búsqueda google también tiene algunos operadores que generalmente no son conocidos por los usuarios pero que al ser utilizados enriquecen las búsquedas y los resultados categorizándolos de acuerdo a la necesidad de información.  En el vínculo a continuación se pueden encontrar algunos operadores como allintitle, allinurl, allintext y site entre otros. 

Archivistas: Una Profesión con Potencial.

Fue el título que el Diario la República dio a uno de sus artículos en el cual menciona algunas de las problemáticas que tiene la Sociedad Colombiana de Archivistas, entre otros.

http://www.slideshare.net/scarchivistas/archivistas-una-profesin-con-potencial

martes, 2 de noviembre de 2010

Recuperación de Información Visual – Tag Cloud.

¿Qué es el Tag Cloud?

Los Tag Cloud, más conocidos como “nubes de etiquetas”, son un modelo VIRI (Interface Visual de Recuperación de Información), con una lista ponderada de las palabras clave, esta herramienta ha adquirido mayor popularidad con el nacimiento y posicionamiento de aplicaciones de software social como flickr (www.flickr.com) o del.icio.us (www.del.icio.us.com), y actualmente son usados por un sinnúmero de sitios web.

En estos se muestran las palabras claves, o Tags, más populares, (esta popularidad se mide de acuerdo al número de veces que se ha usado una determinada palabra clave, es decir entre más veces  se menciona una palabra, mayor va a ser su popularidad) y una vez un usuario da clic sobre una de estas palabras claves obtendrá una lista de recursos que contienen esa palabra clave o tag, así como una lista de términos relacionados por los cuales puede orientar o complementar su búsqueda.

¿Qué es un tag?

Son términos o palabras clave en lenguaje no controlado con los que el usuario describe los recursos. Los índices agregados de gags suelen denominarse folksonomías.


Fuentes

WIKIPEDIA. Tag Cloud. [on line] <http://en.wikipedia.org/wiki/Tag_cloud>. [Consulta: 02/11/2010]

lunes, 1 de noviembre de 2010

Evaluación de un Sistema de Recuperación de Información: Exhaustividad y Precisión.




Para evaluar un Sistema de Recuperación de Información es necesario tener en cuenta variables como la exhaustividad y la precisión y una vez sean tomado estas dos variables se podrá determinar si un determinado Sistema de Recuperación de Información puede llegar a cubrir una determinada necesidad de información.



Las formulas para medir estas dos variables, son:

Número de documentos relevantes recuperados
Exhaustividad =      ________________________________________________   X 100
      Número total de documentos relevantes presentes en el fondo documental


                                                       Número de documentos relevantes recuperados
Precisión =                               ______________________________________   X 100
          Número total de documentos recuperados

Ejemplo Exhaustividad: supongamos que hacemos una búsqueda de un tema X, sobre una colección de 100 documentos, y como resultado de esta búsqueda obtenemos solo 6 documentos, quiere decir que si aplicamos la formula que acabamos de ver, entonces el índice de exhaustividad es del 6%.

Ejemplo precisión: Supongamos que la búsqueda es sobre 1000 documentos, caso en el que como respuesta solo se obtuvieron 100 documentos pro únicamente 20 responden directamente a los que se solicito, es decir relevantes, entonces el índice de precisión es del 20%.

En este sentido es claro que el índice de exhaustividad proporciona una medida del sistema para recuperar documentos que puedan ser relevantes para el usuario, el índice de precisión muestra la habilidad de sistema para evitar el ruido.

Es claro que el objetivo es llevar a la construcción de un sistema que brinde 100% de exhaustividad y precisión, en otras palabras sistemas que recuperen documentos relevantes y solo los relevantes. Teóricamente esto suena muy sencillo, pero en la práctica estos dos se comportan de forma antagónica, puesto que para aumentar el nivel de exhaustividad se requiere disminuir la precisión y viceversa,  y la razón es que si se quiere asegurar la precisión del sistema se hace necesario tomar medidas para hacer mas especifica la indización, es decir su un documento trata sobre archivos, entonces tendremos que diseñar un sistema de indización que tienda a indizar el documento con el descriptor archivos, y no con el descriptor gestión documental o archivistas, archivística, etc. Y así lograremos tener un sistema preciso, aunque si alguien llegase a buscar documentos sobre archivística, dejara de recuperar documentos relevantes sobre el tema general.

En la práctica se puede observar que los buscadores más usados en internet, como Google o AltaVista, Proporcionan buenas tasas de exhaustividad y esto lo podemos comprobar fácilmente en la cantidad de resultados que se nos entregan, pero es claro que la precisión es poco, pues de los cientos y miles de resultados que obtenemos, solo unos pocos nos van a servir para satisfacer la necesidad de información. 

En cambio existen sistemas muy especializados como ADAM o Cercador, los cuales usan un sistema de indización automatizado e intelectual, pueden brindar menor exhaustividad, pues los resultados que estos ofrecen son pocos, pero es seguro que la precisión esta casi en el 100%.

Fuentes.

GOMEZ DIAZ, Raquel. La evaluación en recuperación de la información [on line]. "Hipertext.net", núm. 1, 2003. <http://www.hipertext.net> [Consulta: 01/11/10]. ISSN 1695-549.

GARCÍA GÓMEZ, Juan Carlos. Aproximación a la evaluación cuantitativa de los Sistemas de Recuperación de Información de la prensa en Internet: Exhaustividad y precisión. [on line] <ibersid.eu/ojs/index.php/scire/article/download/1145/1127>. [consulta: 01/11/2010].

ADAM. Disponible en: http://www.adam.ac.uk/. [consulta: 01/11/2010].




domingo, 31 de octubre de 2010

Búsqueda y recuperación de información, Estructuración.



Para encontrar un tópico determinado al utilizar un motor de búsqueda, es de vital importancia como profesionales realizar una estructuración lógicamente organizada de términos, sintaxis y operadores que formen ecuaciones de búsqueda con el fin de restringir el basto numero de resultados que puede generar una operación no estructurada en un motor o en un directorio. La correcta recuperación de información se da cuando se cumplen los parámetros con los cuales funciona un motor determinado, es decir, preguntar de manera lógica y semanticamente acorde a las ontologías, tesauros, listas de términos o lenguajes documentales utilizados por el motor de búsqueda, sistema de recuperación de información o directorio de sitios.

Asimismo, es importante tener en cuenta otros aspectos a preguntarse como profesionales en sistemas de información y documentación del programa impartido por la Universidad de la Salle como que se quiere encontrar, para que se quiere encontrar, como se va a hacer y cuales son los resultados deseados. En este orden de ideas se podrá realizar una búsqueda exhaustiva y relevante con resultados acordes a la necesidad informativa el usuario que requiera la información.

viernes, 22 de octubre de 2010

VIRIs – Visual Information Retrieval Interfases. Interfases Visuales de Recuperación de Información.


En la anterior entrada de manera parcial vimos el concepto de VIRIs, ahora veremos su objetivo, el cual no solo está enfocado  en brindar ayuda al usuario para navegar  y recuperar aquella información que esta buscando, sino que además también brindan una visión global del conjunto documental, a través de la cual el usuario está en la libertad de predecir que puede encontrar e incluso permite la adquisición de nuevo conocimiento a través de la interiorización de la visualización.
Es claro que existen un sinnúmero de propuestas de VIRIs, y como es de suponer muchas de estas, no han tenido acogida por una u otra razón, pero ese es un tema en el que no vamos a centrarnos, lo que queremos es mostrar un esquema sencillo de análisis y evaluación de VIRIs, teniendo en cuenta algunas de las principales funcionalidades de estos sistemas, en este sentido, las funciones básicas de un VIRIs son:

- Resumen Información con el fin de ofrecer visualizaciones globales del conjunto documental.
- Resaltan la información más relevante para facilitar al usuario tener una vista previa y permitirle diferenciar lo relevante o no de la información que se le presenta.
- relaciona información semejante para brindar al usuario la facilidad de comprender y adquirir conocimiento nuevo a partir de las relaciones que se presentan a través de los documentos visuales.
Recuperan información para que el usuario pueda llegar a satisfacer su necesidad de información.






Fuentes::

Recuperación de Información. Universidad de La Salle.

Interfaz visual para recuperación de información basada en análisis de metadatos, escalamiento multidimensional y efecto ojo de pez. disponible en: http://www.nosolousabilidad.com/hassan/interfaz_visual.pdf. consutado 22 e octubre de 2010.

jueves, 21 de octubre de 2010

Modelos de Acceso a la Información

En esta entrada simplemente se van a trabajar las herramientas de visualización más usadas en la web actualmente, tal como su nombre lo indica estas permiten que una determinada pagina web se haga más popular, ya sea por palabras claves tags o cualquier otra, en la web.

Como bien lo sabemos la importancia de cualquier sistema de información, está dada por la cantidad y la calidad de la información contenida y recuperada al momento de una petición de un usuario con una necesidad de información, pero también por su findability, es decir la facilidad para encontrar dicha información.
En este sentido, nos encontramos entonces con unos modelos que determinan el acceso a la información, los cuales están diferenciados teniendo en cuenta el sentido en el que se produce el acceso a la información, en este caso Push y Pull.

En el modelo Push, conocido como filtrado de información,  por lo general el sistema informa al usuario sobre aquellos documentos que se acaban de incorporar al sistema y que posiblemente son de su interés, teniendo en cuenta el perfil del usuario o intereses previamente definidos por este, en tal sentido, se trata de una estrategia pasiva, por parte del usuario.
Por otra parte el modelo pull, o Recuperación de Información permite que sea el usuario de forma activa quien busque y acceda a la información que requiere, para lo cual dos estrategias de búsqueda, que dividiremos en dos grandes clases: querying (interrogación) y browsing (exploración)
Querying: En este el usuario introduce al sistema  una serie de palabras clave, que básicamente son la representación de su necesidad de información, para lo que el sistema regresa una serie resultados pertinentes  para la consulta realizada (por lo general estos resultados están ordenados por relevancia) un ejemplo que tenemos a la mano basado en querying son las búsquedas que realizamos en Google. Estos sistemas son útiles en la mayoría de los casos, aunque hay que tener en cuenta que no resultan eficientes cuando el usuario no tiene claro qué o sobre qué está buscando o cuando no tiene la capacidad de formalizar sus necesidades de información a través del lenguaje de consulta o lenguaje natural.

Por otra parte el modelo browsing, es opuesto al querying, en tanto que el usuario es quien explora de forma visual y espacial el conjunto documental, sin tener que expresar previamente las necesidades de  información, es decir, es el usuario quien decide navegar por el conjunto documental  y reconocer de forma visual lo que requiere, en lugar de especificar sus necesidades mediante un lenguaje de consulta.

Del browsing se pueden tomar varios tipos, teniendo en cuenta el grado de especificidad de la necesidad de información:
- De búsqueda directa: Cuando el usuario sabe lo que está buscando.
- De propósito general: El usuario explora fuentes que tienen una alta probabilidad de resultar interesantes de acuerdo a su necesidad de información.
- fortuito o por serendipia: Búsqueda al azar.

un ejemplo de browsing es la navegación hipertextual donde el usuario explora visualmente el conjunto documental que posee información aparentemente relevante  para su necesidad de información  y reconoce aquella información o aquellos enlaces que considera que lo llevarán a esta información que requiere, y se desplaza por este espacio de información saltando de página en página.

Entre los sistemas de información que brindan la posibilidad de búsqueda por Browsing, se pueden destacar aquellos que proveen un medio que permite realizar browsing grafico  por medio de las llamadas Interfaces Visuales de Recuperación de Información o VIRs ( Visual Information Retrieval Interfaces), este es similar al hipertextual, pero este posibilita al usuario visualizar documentos de forma global por medio de abstracción grafica y no necesariamente textual, a diferencia del hipertextual que solo permite la exploración de documentos por separado.


Fuentes

Push v/s Pul... Un cambio de mirada en el servicio Disponible en: < http://blog.maz.cl/2008/07/push-vs-pull-un-cambio-de-mirada-en-el.html> Consultado 20 de octubre de 2010.

Sistemas de Recomendación Semánticos. Un análisis del estado de la cuestión. Disponible en: <http://www.hipertext.net/web/pag286.htm.> Consultado 20 de octubre de 2010.

martes, 19 de octubre de 2010

Análisis morfológico aplicado en la Recuperación de Información.

El análisis morfológico es un medio que permite poner a disposición del usuario, que usa un Sistema de Recuperación de Información, ayudas que le permitan obtener capacitación sobre cómo encontrar términos que para él (es usuario que realiza la búsqueda) son los más relevantes.
Existe un sistema llamado MARS (morphological Analisis for Retrieval Support) que brinda al usuario la opción de acceder a los datos mediante una búsqueda que es asistida o apoyada por un paquete lingüístico, el cual descompone las palabras que el usuario da al computador o al sistema de recuperación de información al mismo tiempo que da todas las palabras que lingüísticamente estén relacionadas con la palabra original.
Con el uso de un procedimiento como el que brinda MARS, el usuario que busca información solamente recibirá las palabras que realmente estén relacionadas con el término de la pregunta.
Fuentes:

Morfologia y sintaxis. disponible en : http://angarmegia.com/analisis_gramatical.htm [consultado el 18 de octubre de 2010]

MARS: a retrieval tool on the basis of morphological analysis. disponible en: http://portal.acm.org/citation.cfm?id=636829&dl=GUIDE&coll=GUIDE&CFID=109530467&CFTOKEN=34779737 [consultado en: 18 de octubre de 2010]

ALFABETIZACIÓN INFORMACIONAL


De acuerdo al concepto emitido por el profesor Laureano Felipe Gomez, catedratico de la Universidad de La Salle, los profesionales de información que no usen licenciamiento en los documentos permiten que cualquier persona haga lo que quiera con dicho material, esto basado en los lineamientos de reconocimiento de creative commons.

EL MUNDO ES DIGITAL

No se puede seguir pensando en físico o papel, el paradigma es cambiante y la tendencia del manejo de documentos no es lo que se produce, todo se vuelca hacia lo digital. Hay un cambio generacional chocante y se debería pensar en esto, la alfabetización no tiene que ver nada con recuperación, no es enseñar al usuario como hacer las cosas, de hecho los usuarios bajan su nivel de visitas a las bibliotecas, se requiere que sea la biblioteca la que vaya al usuario.

Plan de trabajo para la alfabetización informacional:

Conceptos sobre alfabetización según la universidad de la salle y el programa sistemas de información.
Tecnología: no es un tema asociado a las maquinas, la tecnología son los adelantos científicos plasmados en desarrollos, es la utilización responsable de los recursos sobre el entorno para incrementar el bienestar del hombre y satisfagan sus necesidades. El hombre ha evolucionado gracias a las tecnologías. Una de las partes de la tecnología es la de las TIC. Ley 1341 de 2009 donde estas son herramientas para manejar información, son únicamente un complemento.

Ej: pensar una nueva ruta para ir a la casa más rápido, automatización y optimización de procesos humanos, automatizar los procesos en los sistemas de información dentro de una sociedad del conocimiento.  

La información crece a ritmos abundantes y son las TIC las que permiten gestionar esta información, si se relega a trabajar en el físico difícilmente se podrá estar manejando toda esta información, por eso es necesario el profesional de sistemas de información dando directrices para la recuperación de información. 

MÁQUINA VIRTUAL - Memoria de Clase

¿Qué es una Máquina Virtual?

Es un Software que tiene la capacidad de emular a una computadora con el fin de ejecutar una determinada aplicación sin que sea necesario instalarla en el equipo en el que estamos trabajando, pero que se ejecuta como si estubiese instalada en el equipo.

Existen muchos usos para las máquinas virtuales, pero uno de los principales es para "probar" determinado software sin que sea necesario instalar este en el equipo y sin correr el riesgo que al instalarlo este dañe la configuración de nuestro sistema.



Fuente.

Apuntes de Clase Recuperación de Información, Unversidad de La Salle, Programa de Sistemas de Información y Documentación. Octubre de 2010

viernes, 15 de octubre de 2010

Thesaurus: an approach to hierarchical representation of knowledge.

Abstract. Knowledge Trees, keywords and hierarchical relationships are the principal reference to the researcher, student or any other kind of user. So, what is the labor, tools and role of the information science professional between retrieving processes and search results deliver? What kind of activities guarantees the effective and complete use of terms? Who is responsible for the reference’s integrity? Below are some considerations about the role of the IS professional into information society and the complex process of the thesauri elaboration, to allow the user to know information and retrieve coherent results. Some of its important elements are considered, to describe and analyze.
____________________________________________________________________________________

1 Best practices

The best way to follow a controlled vocabulary is the normalization; use of standards and correct use of terms and words, which are called “descriptors”. This is the main point, to get a general idea of the thesaurus and start to develop a clearly-defined-target, like an induction model and representation.
To begin the hard and exhaustive work of building a thesaurus, it is absolutely necessary to manage its principles, guidelines and context. One of the most important rules is the morphology of the descriptors. The structure plays an important step under the building, because semantically speaking, the thesaurus structure could be distinguished if we’re working either over an asymmetrical or symmetrical model of themes. The non-symmetrical scheme neither has nor works with equivalent descriptors. On the contrary, the symmetrical model can be used to generate relations between any other language. Those generic relations between terms are given by relational structures. On this point, the single concepts used to build the model, can use facets with shared characteristics. Other characteristics used as entities, processes, attributes, agents, geographical places and chronology must use exact terms. Here ambiguities become the issue, by eliminating inside a controlled vocabulary.  This problem can be resolved giving one specific meaning to the domain and avoiding the use of natural language.

2 Terms and representations

The qualifiers (specifications in parentheses) are important to specify meaning of some words. Homographs should be replaced by a common synonym if available, so as not to cause confusion. In fact, the indexer must avoid the use of ambiguity. Some exceptions from terms in more than a language must be specified in parentheses helping to give form to the terms and strictly taking a thematic meaning basis. An important consideration to watch should be to avoid the use of adjectives, adding unnecessary length or clumsiness, as the author says: use the appropriate capitalization, punctuation, diacritics and special characters of the individual languages  where the rules and conventions explain and clarify the thesaurus.
The compound of terms structured with more than a word is an important labor in the connection of concepts, neologisms and regional language. Over this point, two or more simple words or concepts must represent in a specific way the focus or head from a meaning. Differences and modifiers must use prepositions, nouns, adverbs only if necessary to distinguish clarity or give valor to the term or its equivalences.

3 The role of the “scientific of information”

As a professional and architect of the information, there are three points  relevant to consider in the building of equivalencies: Semantic, cultural and structural aspects  whose help to express general ideas from a specific area or facet giving a feedback target to possible solutions between descriptors and support from non equivalent terms.
Worldwide, the trend is going to the combination of thesaurus and their placement in graphical representations. Before starting some graphical constructions, one must create a terminology scheme and its appropriate knowledge tree from terms as commodities to undergo a process of transformation. The linking between thesauri is a complex labor to indexers and searchers. One must find the types of equivalence and map the headings. This  requires analysis and synthesis supporting the process in the IT and other kinds of tools like the Boolean operators, algorithms and onthologies. Encountering the equivalence and harmony from terms is the end and reason from thesaurus integration..

4 Controlled vocabularies evolution

Honestly speaking, subject headings are considered absolutely necessary to start a basis from a new technique or theory. They are condemned to disappear because the thesauri, onthologies and semantic associations are the future of retrieval and dissemination. This situation is necessary given by the proliferation or the IT; the uncontrolled production within normalization and new user requirements.

5 Inference

All at all, aspects like form, grammar, semantics, facets, descriptors and predefined terms are the inputs necessary to build, realize and integrate a thesaurus. In order to do this correctly under parameters into the tool construction, the librarian must have a lot of knowledge toward synthesis, analysis, interdisciplinary, and a holistic vision from the organization, archive, information unit, library or museum.


Referencias

[1]    RIESTHUIS, GERARD [et al...] Guidelines for multilingual Thesauri. [USA?], IFLA. April 2005. 17 p.

martes, 12 de octubre de 2010

¿Por qué el control del vocabulario en la recuperación de información?

Como ya bien lo debemos saber en los sistemas de información, es muy importante el control del vocabulario para representar materias. Como su nombre lo indica el control de vocabulario en la recuperación de información se centra especialmente en el tesauro puesto que es este el sistema de control de vocabulario que más se ha usado en la recuperación de información durante los últimos  20 años, aunque también se han considerado otros aspectos como el funcionamiento  del sistemas de recuperación de información sin el control del vocabulario.

Como ya es bien conocido los principales elementos de un sistema de recuperación de información son las entradas, que básicamente son documentos  - en su sentido más amplio -, en los cuales se aplican criterios de selección que implican conocimiento de las necesidad de información de los usuarios que van a consultar determinada información, posterior a tener esos documentos y a que estos ingresen a nuestro sistema de recuperación de información, se realiza el proceso de indización, el cual implica dos actividades intelectuales diferentes la una de la otra: el análisis conceptual, y la traducción de un lenguaje natural a un lenguaje estructurado – en este caso – para poder realizar este proceso de análisis conceptual el encargado de esto requiere no solo un conocimiento especifico sobre la materia de la que trata el documento, sino que también requiere conocer las necesidades de los usuarios del sistema de recuperación de información. Por otra parte para llevar a cabo la traducción del análisis conceptual a un vocabulario determinado, se tiene como precedente que muchos sistemas ya cuentan con un vocabulario controlado, es decir, un conjunto limitado de términos que se deben usar para representar los documentos, estos pueden ser un tesauro, una lista de encabezamiento de materia, un esquema de clasificación, o sencillamente una lista de frases o palabras clave.

Posterior a las actividades mencionadas anteriormente los documentos son almacenados, en la mayoría de los casos en una base de datos, y los registros de indización se organizan en otra base de datos, de tal forma que se puedan recuperar fácilmente cuando debido a una necesidad de información se requiera, para este caso la base de datos de los registros de indización puede ser un fichero  o un índice impreso , actualmente este fichero será una base de datos que esta automatizada sobre una cinta magnética o un disco , el cual puede llegar considerarse como el índice del documento almacenado.

Ya hablamos del proceso de entrada, por tanto y con el ánimo de dar continuidad al tema hablaremos de la salida, la cual viene siendo muy similar a la anterior,  puesto que se pueden gestionar estrategias de búsqueda, teniendo en cuenta las peticiones o necesidades de información que presentan los usuarios, para lo cual es de vital importancia conocer tener en cuenta las fases de análisis conceptual y traducción, donde la primera requiere un análisis de la petición o necesidad de información, para así establecer lo que realmente requiere el usuario, y la segunda, básicamente, es la traducción del análisis conceptual al vocabulario del sistema, entonces, ese análisis conceptual de la petición o necesidad de información, que es traducido al lenguaje del sistema, viendo siendo la estrategia de búsqueda, la cual se puede considerar como una representación de la petición, del mismo modo que el registro de indización se pude tomar como una representación del documento, la diferencia está en que en una se usa lógica, es decir, se usan ciertos tipos de relaciones lógicas entre los términos, mientras que en el registro de indización las relaciones entre términos quedan más implícitas que explicitas.

Ahora, una vez que finaliza la estrategia de búsqueda se debe comprar con las representaciones de los documentos de las bases de datos, lo cual es posible realizarse mediante un fichero manual, índices impresos, disco o cualquier herramienta que me permita llevar a cabo este procedimiento, actualmente este proceso se puede realizar en línea (online) sin importar que la base de datos (físicamente hablando) se encuentre a miles de kilómetros de distancia. Entonces una que esas representaciones del documento se ajustan a la estrategia de búsqueda, es decir, responden a la necesidad planteada por el usuario, se recuperan de la base de datos y son entregadas al usuario, para nuestro caso por medio de un buscador web o un aplicativo en un computador. Se puede decir entonces que el proceso finaliza cuando el usuario queda satisfecho con los resultados que obtuvo, es decir cuando el sistema le arrojo los documentos que de una u otra forma le permitieron resolver esa incógnita con la que inicio el proceso, o también, cuando definitivamente el usuario determina que ninguno de los documentos le ayudo a resolver esa incógnita. Finalmente el papel que juega el control del vocabulario en los sistemas de recuperación de información es vital para llevar a cabo los pasos que describimos anteriormente, para esto los indizadores tienen que usar los términos del vocabulario para representar las materias de las que tratan los documentos, puesto que en la estrategia de búsqueda se usaran esos términos para la hacer la pregunta a la base de datos.

Para finalizar, basta mencionar los objetivos del control del vocabulario en los sistemas de recuperación de información, y con esto habremos determinado la importancia de los mismos:
Facilitar la representación de las materias, evitando dispersión de elementos relacionados, lo cual se logra con la agrupación de sinónimos y cuasisinonimos y la distinción de palabras homógrafas.
Facilita realizar búsquedas amplias sobre une determinada materia enlazando con termino con distintas relaciones (paradigmáticas o sintagmáticas)

Fuentes:

Lenguajes Documentales. Disponible en  <http://www.auxiliardebiblioteca.com/documentos/Los%20lenguajes%20documentales.%20Los%20encabezamientos%20de%20materia..pdf> (consultado 11 de octubre de 2010).

Indización y clasificación: Un problema conceptual y terminológico. Disponible en:

miércoles, 6 de octubre de 2010

Relevancia – Dimensiones.

El concepto de relevancia, no solo es objeto de estudio en la recuperación de información, este también es analizado en áreas como la lógica, la filosofía, sociología, psicología y lingüística, pero es claro que el campo de acción de esta, y en el cual nos vamos a concentrar, es el relacionado con la recuperación de información.
el punto en el que nos vamos a fijar, y eso lo haremos teniendo en cuenta las diferentes concepciones que se tienen sobre la relevancia en la recuperación de información, en este sentido Mizarro plantea algunos tipos de relevancia que han sido promovidos a lo largo de la historia, teniendo para esto cuatro dimensiones de la relevancia, que son:
-          Una primera dimensión, que es formada por los recursos de información, es decir, información, documento y representación del documento.
-          Una segunda dimensión que está conformada por la representación del problema usuario: necesidad de información real, necesidad de información percibida, petición (es decir, expresada en lenguaje natural) y consulta (representación de la necesidad de información en lenguaje del sistema de recuperación de información)
-          La tercera dimensión que vamos a nombrar es que está conformada por tres elementos en cada una de las entidades descritas en las anteriores dimensiones, en primer lugar está el tema, es decir, el área temática sobre la cual el usuario desea obtener información, la tarea,  que en este caso viene siendo lo que usuario realizara con los documentos que recupere y por último el contexto, que básicamente es todo lo que no está directamente relacionado con el tema consultado, pero que de una u otra forma influye en cómo se realiza la búsqueda y en los resultados que obtendré de la misma.
-          La ultima dimensión que se mencionara es la que esta representada por el intervalo de tiempo que pasa desde que surge la necesidad de información hasta que esta es solucionada.

Las relaciones posibles entre las diferentes entidades de las cuatro dimensiones quedan reflejadas sutilmente en la grafica que mostraremos a continuacion, donde se intenta mostrar que la relevancia es un punto en un espacio de cuatro dimensiones y al mismo tiempo los tipos de relevancia que pueden existir.

Teniendo en cuenta todo esto, es preciso aclarar que todo puede llegar a complicarse cuando es necesario considerar también quien evalúa la relevancia (es decir, quien determina que es o no relevante), caso en el cual puede llegar a ser, el usuario, sistema, experto en el tema o intermediario. En este caso quien este encargado de evaluar puede limitar también los tipos de relevancia que se pueden medir o utilizar, por ejemplo, solo el usuario puede llegar a determinar que un documento es o no relevante para satisfacer su necesidad de información, para este caso Lancaster usa el termino pertinencia para definir la relación existente entre un documento y una necesidad de información basados en la decisión del usuario, mientras que usa (Lancaster) el termino relevancia para referirse a la relación entre un documento y una petición basada en el juicio subjetivo  de uno o varios individuos.




Fuente.

- Martínez Méndez, Francisco Javier. Recuperación de Información: Modelos, Sistemas y Evaluación. Ed. JMC Kiosko.  2004.< http://digitum.um.es/xmlui/handle/10201/4316>
- Recuperación de la información José Antonio Salvador Oliván