Buscar en este blog

Mostrando entradas con la etiqueta tesauros. Mostrar todas las entradas
Mostrando entradas con la etiqueta tesauros. Mostrar todas las entradas

domingo, 31 de octubre de 2010

Búsqueda y recuperación de información, Estructuración.



Para encontrar un tópico determinado al utilizar un motor de búsqueda, es de vital importancia como profesionales realizar una estructuración lógicamente organizada de términos, sintaxis y operadores que formen ecuaciones de búsqueda con el fin de restringir el basto numero de resultados que puede generar una operación no estructurada en un motor o en un directorio. La correcta recuperación de información se da cuando se cumplen los parámetros con los cuales funciona un motor determinado, es decir, preguntar de manera lógica y semanticamente acorde a las ontologías, tesauros, listas de términos o lenguajes documentales utilizados por el motor de búsqueda, sistema de recuperación de información o directorio de sitios.

Asimismo, es importante tener en cuenta otros aspectos a preguntarse como profesionales en sistemas de información y documentación del programa impartido por la Universidad de la Salle como que se quiere encontrar, para que se quiere encontrar, como se va a hacer y cuales son los resultados deseados. En este orden de ideas se podrá realizar una búsqueda exhaustiva y relevante con resultados acordes a la necesidad informativa el usuario que requiera la información.

viernes, 15 de octubre de 2010

Thesaurus: an approach to hierarchical representation of knowledge.

Abstract. Knowledge Trees, keywords and hierarchical relationships are the principal reference to the researcher, student or any other kind of user. So, what is the labor, tools and role of the information science professional between retrieving processes and search results deliver? What kind of activities guarantees the effective and complete use of terms? Who is responsible for the reference’s integrity? Below are some considerations about the role of the IS professional into information society and the complex process of the thesauri elaboration, to allow the user to know information and retrieve coherent results. Some of its important elements are considered, to describe and analyze.
____________________________________________________________________________________

1 Best practices

The best way to follow a controlled vocabulary is the normalization; use of standards and correct use of terms and words, which are called “descriptors”. This is the main point, to get a general idea of the thesaurus and start to develop a clearly-defined-target, like an induction model and representation.
To begin the hard and exhaustive work of building a thesaurus, it is absolutely necessary to manage its principles, guidelines and context. One of the most important rules is the morphology of the descriptors. The structure plays an important step under the building, because semantically speaking, the thesaurus structure could be distinguished if we’re working either over an asymmetrical or symmetrical model of themes. The non-symmetrical scheme neither has nor works with equivalent descriptors. On the contrary, the symmetrical model can be used to generate relations between any other language. Those generic relations between terms are given by relational structures. On this point, the single concepts used to build the model, can use facets with shared characteristics. Other characteristics used as entities, processes, attributes, agents, geographical places and chronology must use exact terms. Here ambiguities become the issue, by eliminating inside a controlled vocabulary.  This problem can be resolved giving one specific meaning to the domain and avoiding the use of natural language.

2 Terms and representations

The qualifiers (specifications in parentheses) are important to specify meaning of some words. Homographs should be replaced by a common synonym if available, so as not to cause confusion. In fact, the indexer must avoid the use of ambiguity. Some exceptions from terms in more than a language must be specified in parentheses helping to give form to the terms and strictly taking a thematic meaning basis. An important consideration to watch should be to avoid the use of adjectives, adding unnecessary length or clumsiness, as the author says: use the appropriate capitalization, punctuation, diacritics and special characters of the individual languages  where the rules and conventions explain and clarify the thesaurus.
The compound of terms structured with more than a word is an important labor in the connection of concepts, neologisms and regional language. Over this point, two or more simple words or concepts must represent in a specific way the focus or head from a meaning. Differences and modifiers must use prepositions, nouns, adverbs only if necessary to distinguish clarity or give valor to the term or its equivalences.

3 The role of the “scientific of information”

As a professional and architect of the information, there are three points  relevant to consider in the building of equivalencies: Semantic, cultural and structural aspects  whose help to express general ideas from a specific area or facet giving a feedback target to possible solutions between descriptors and support from non equivalent terms.
Worldwide, the trend is going to the combination of thesaurus and their placement in graphical representations. Before starting some graphical constructions, one must create a terminology scheme and its appropriate knowledge tree from terms as commodities to undergo a process of transformation. The linking between thesauri is a complex labor to indexers and searchers. One must find the types of equivalence and map the headings. This  requires analysis and synthesis supporting the process in the IT and other kinds of tools like the Boolean operators, algorithms and onthologies. Encountering the equivalence and harmony from terms is the end and reason from thesaurus integration..

4 Controlled vocabularies evolution

Honestly speaking, subject headings are considered absolutely necessary to start a basis from a new technique or theory. They are condemned to disappear because the thesauri, onthologies and semantic associations are the future of retrieval and dissemination. This situation is necessary given by the proliferation or the IT; the uncontrolled production within normalization and new user requirements.

5 Inference

All at all, aspects like form, grammar, semantics, facets, descriptors and predefined terms are the inputs necessary to build, realize and integrate a thesaurus. In order to do this correctly under parameters into the tool construction, the librarian must have a lot of knowledge toward synthesis, analysis, interdisciplinary, and a holistic vision from the organization, archive, information unit, library or museum.


Referencias

[1]    RIESTHUIS, GERARD [et al...] Guidelines for multilingual Thesauri. [USA?], IFLA. April 2005. 17 p.

martes, 12 de octubre de 2010

¿Por qué el control del vocabulario en la recuperación de información?

Como ya bien lo debemos saber en los sistemas de información, es muy importante el control del vocabulario para representar materias. Como su nombre lo indica el control de vocabulario en la recuperación de información se centra especialmente en el tesauro puesto que es este el sistema de control de vocabulario que más se ha usado en la recuperación de información durante los últimos  20 años, aunque también se han considerado otros aspectos como el funcionamiento  del sistemas de recuperación de información sin el control del vocabulario.

Como ya es bien conocido los principales elementos de un sistema de recuperación de información son las entradas, que básicamente son documentos  - en su sentido más amplio -, en los cuales se aplican criterios de selección que implican conocimiento de las necesidad de información de los usuarios que van a consultar determinada información, posterior a tener esos documentos y a que estos ingresen a nuestro sistema de recuperación de información, se realiza el proceso de indización, el cual implica dos actividades intelectuales diferentes la una de la otra: el análisis conceptual, y la traducción de un lenguaje natural a un lenguaje estructurado – en este caso – para poder realizar este proceso de análisis conceptual el encargado de esto requiere no solo un conocimiento especifico sobre la materia de la que trata el documento, sino que también requiere conocer las necesidades de los usuarios del sistema de recuperación de información. Por otra parte para llevar a cabo la traducción del análisis conceptual a un vocabulario determinado, se tiene como precedente que muchos sistemas ya cuentan con un vocabulario controlado, es decir, un conjunto limitado de términos que se deben usar para representar los documentos, estos pueden ser un tesauro, una lista de encabezamiento de materia, un esquema de clasificación, o sencillamente una lista de frases o palabras clave.

Posterior a las actividades mencionadas anteriormente los documentos son almacenados, en la mayoría de los casos en una base de datos, y los registros de indización se organizan en otra base de datos, de tal forma que se puedan recuperar fácilmente cuando debido a una necesidad de información se requiera, para este caso la base de datos de los registros de indización puede ser un fichero  o un índice impreso , actualmente este fichero será una base de datos que esta automatizada sobre una cinta magnética o un disco , el cual puede llegar considerarse como el índice del documento almacenado.

Ya hablamos del proceso de entrada, por tanto y con el ánimo de dar continuidad al tema hablaremos de la salida, la cual viene siendo muy similar a la anterior,  puesto que se pueden gestionar estrategias de búsqueda, teniendo en cuenta las peticiones o necesidades de información que presentan los usuarios, para lo cual es de vital importancia conocer tener en cuenta las fases de análisis conceptual y traducción, donde la primera requiere un análisis de la petición o necesidad de información, para así establecer lo que realmente requiere el usuario, y la segunda, básicamente, es la traducción del análisis conceptual al vocabulario del sistema, entonces, ese análisis conceptual de la petición o necesidad de información, que es traducido al lenguaje del sistema, viendo siendo la estrategia de búsqueda, la cual se puede considerar como una representación de la petición, del mismo modo que el registro de indización se pude tomar como una representación del documento, la diferencia está en que en una se usa lógica, es decir, se usan ciertos tipos de relaciones lógicas entre los términos, mientras que en el registro de indización las relaciones entre términos quedan más implícitas que explicitas.

Ahora, una vez que finaliza la estrategia de búsqueda se debe comprar con las representaciones de los documentos de las bases de datos, lo cual es posible realizarse mediante un fichero manual, índices impresos, disco o cualquier herramienta que me permita llevar a cabo este procedimiento, actualmente este proceso se puede realizar en línea (online) sin importar que la base de datos (físicamente hablando) se encuentre a miles de kilómetros de distancia. Entonces una que esas representaciones del documento se ajustan a la estrategia de búsqueda, es decir, responden a la necesidad planteada por el usuario, se recuperan de la base de datos y son entregadas al usuario, para nuestro caso por medio de un buscador web o un aplicativo en un computador. Se puede decir entonces que el proceso finaliza cuando el usuario queda satisfecho con los resultados que obtuvo, es decir cuando el sistema le arrojo los documentos que de una u otra forma le permitieron resolver esa incógnita con la que inicio el proceso, o también, cuando definitivamente el usuario determina que ninguno de los documentos le ayudo a resolver esa incógnita. Finalmente el papel que juega el control del vocabulario en los sistemas de recuperación de información es vital para llevar a cabo los pasos que describimos anteriormente, para esto los indizadores tienen que usar los términos del vocabulario para representar las materias de las que tratan los documentos, puesto que en la estrategia de búsqueda se usaran esos términos para la hacer la pregunta a la base de datos.

Para finalizar, basta mencionar los objetivos del control del vocabulario en los sistemas de recuperación de información, y con esto habremos determinado la importancia de los mismos:
Facilitar la representación de las materias, evitando dispersión de elementos relacionados, lo cual se logra con la agrupación de sinónimos y cuasisinonimos y la distinción de palabras homógrafas.
Facilita realizar búsquedas amplias sobre une determinada materia enlazando con termino con distintas relaciones (paradigmáticas o sintagmáticas)

Fuentes:

Lenguajes Documentales. Disponible en  <http://www.auxiliardebiblioteca.com/documentos/Los%20lenguajes%20documentales.%20Los%20encabezamientos%20de%20materia..pdf> (consultado 11 de octubre de 2010).

Indización y clasificación: Un problema conceptual y terminológico. Disponible en:

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets


La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta. 

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

  • Listas
  • Anillos de sinónimos
  • Taxonomías
  • Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado
Lenguaje artificial: (Lenguaje informático)
Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.
Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y  conjuntos de términos.  ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda.  LILACS es un sistema latinoamericano que permite hacer esto también.

martes, 7 de septiembre de 2010

Algunos problemas en recuperación de información

Algunos problemas en recuperación de información identificados durante la catedra de la Universidad de La Salle en el programa de sistemas de información son los siguientes:

• Trabajar con índices

• Como trabajar índices contra preguntas

• Como organizar resultados

Google cada mes optimiza su algoritmo para establecer la relevancia, los sistemas de recuperación tradicionales comparan los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking, sin embargo google hace buen uso de los tesauros con el fin de optimizar el proceso y apuntar al esquema mental del usuario que plantea el Query.

Para automatizar y optimizar las búsquedas y recuperación de información, se involucran procesos automatizados e informáticos como, hardware, software, colecciones de documentos, información digital, audio, video, texto, multimedia, codificaciones y otros objetos, generalmente los SRI son subsistemas de otros sistemas más grandes. Vasta con ver los ECM, ERM, ERP, Workflow que cuentan con subsistemas de recuperación para encontrar sus contenidos y que reducen la complejidad del problema documental y de archivos invertidos contenedores de metacontenidos.

Dado que los documentos puede ser cualquier objeto en la red hay que evaluar factores tales como la categorización, el formato, el tamaño del índice vs el tamaño de la colección para así asignar los elementos necesarios que permitan crear un SRI adecuado, es decir, interfaz, Querys, búsquedas, comparaciones, indexación, asignación de ranking y resultados de acuerdo a los listados de términos y reglas asociadas al SRI.

En este orden de ideas se convierte en un conjunto de procesos automatizados por los cuales el usuario accede a la información donde previamente se normalizan las preguntas y se indexa la documentación para que sea dada por este una categorización de utilidad a la respuesta devuelta por la maquina a una pregunta concreta de acuerdo a patrones semánticos.

La extracción de información como modelo para organización de resultados, es un proceso especializado de recuperación de información destinado únicamente a necesidades de información concreta. Es una búsqueda concreta sobre un listado de términos y basado en reglas asociadas que apuntan a una mayor exhaustividad en los resultados requeridos para saciar una necesidad informativa.