Buscar en este blog

Mostrando entradas con la etiqueta Information Retrieval. Mostrar todas las entradas
Mostrando entradas con la etiqueta Information Retrieval. Mostrar todas las entradas

viernes, 15 de octubre de 2010

Thesaurus: an approach to hierarchical representation of knowledge.

Abstract. Knowledge Trees, keywords and hierarchical relationships are the principal reference to the researcher, student or any other kind of user. So, what is the labor, tools and role of the information science professional between retrieving processes and search results deliver? What kind of activities guarantees the effective and complete use of terms? Who is responsible for the reference’s integrity? Below are some considerations about the role of the IS professional into information society and the complex process of the thesauri elaboration, to allow the user to know information and retrieve coherent results. Some of its important elements are considered, to describe and analyze.
____________________________________________________________________________________

1 Best practices

The best way to follow a controlled vocabulary is the normalization; use of standards and correct use of terms and words, which are called “descriptors”. This is the main point, to get a general idea of the thesaurus and start to develop a clearly-defined-target, like an induction model and representation.
To begin the hard and exhaustive work of building a thesaurus, it is absolutely necessary to manage its principles, guidelines and context. One of the most important rules is the morphology of the descriptors. The structure plays an important step under the building, because semantically speaking, the thesaurus structure could be distinguished if we’re working either over an asymmetrical or symmetrical model of themes. The non-symmetrical scheme neither has nor works with equivalent descriptors. On the contrary, the symmetrical model can be used to generate relations between any other language. Those generic relations between terms are given by relational structures. On this point, the single concepts used to build the model, can use facets with shared characteristics. Other characteristics used as entities, processes, attributes, agents, geographical places and chronology must use exact terms. Here ambiguities become the issue, by eliminating inside a controlled vocabulary.  This problem can be resolved giving one specific meaning to the domain and avoiding the use of natural language.

2 Terms and representations

The qualifiers (specifications in parentheses) are important to specify meaning of some words. Homographs should be replaced by a common synonym if available, so as not to cause confusion. In fact, the indexer must avoid the use of ambiguity. Some exceptions from terms in more than a language must be specified in parentheses helping to give form to the terms and strictly taking a thematic meaning basis. An important consideration to watch should be to avoid the use of adjectives, adding unnecessary length or clumsiness, as the author says: use the appropriate capitalization, punctuation, diacritics and special characters of the individual languages  where the rules and conventions explain and clarify the thesaurus.
The compound of terms structured with more than a word is an important labor in the connection of concepts, neologisms and regional language. Over this point, two or more simple words or concepts must represent in a specific way the focus or head from a meaning. Differences and modifiers must use prepositions, nouns, adverbs only if necessary to distinguish clarity or give valor to the term or its equivalences.

3 The role of the “scientific of information”

As a professional and architect of the information, there are three points  relevant to consider in the building of equivalencies: Semantic, cultural and structural aspects  whose help to express general ideas from a specific area or facet giving a feedback target to possible solutions between descriptors and support from non equivalent terms.
Worldwide, the trend is going to the combination of thesaurus and their placement in graphical representations. Before starting some graphical constructions, one must create a terminology scheme and its appropriate knowledge tree from terms as commodities to undergo a process of transformation. The linking between thesauri is a complex labor to indexers and searchers. One must find the types of equivalence and map the headings. This  requires analysis and synthesis supporting the process in the IT and other kinds of tools like the Boolean operators, algorithms and onthologies. Encountering the equivalence and harmony from terms is the end and reason from thesaurus integration..

4 Controlled vocabularies evolution

Honestly speaking, subject headings are considered absolutely necessary to start a basis from a new technique or theory. They are condemned to disappear because the thesauri, onthologies and semantic associations are the future of retrieval and dissemination. This situation is necessary given by the proliferation or the IT; the uncontrolled production within normalization and new user requirements.

5 Inference

All at all, aspects like form, grammar, semantics, facets, descriptors and predefined terms are the inputs necessary to build, realize and integrate a thesaurus. In order to do this correctly under parameters into the tool construction, the librarian must have a lot of knowledge toward synthesis, analysis, interdisciplinary, and a holistic vision from the organization, archive, information unit, library or museum.


Referencias

[1]    RIESTHUIS, GERARD [et al...] Guidelines for multilingual Thesauri. [USA?], IFLA. April 2005. 17 p.

domingo, 12 de septiembre de 2010

Sistemas de Recuperación de Información

Cualquier información promueve a los usuarios dotar de instrumentos de consulta, navegación y recuperación de información adecuados para satisfacer las necesidades de información. Sin embargo, existe una gran explosión documental y desconocemos cuál de éste gran volumen de documentos e información es útil y se pueda recuperar de una forma más fácil y que cumpla con unos ciertos requisitos durante su búsqueda.

Por ello, existen gran variedad de herramientas que permitan hacer búsquedas de información efectivas y que contengan conocimiento intelectual y válido para la investigación y el aprendizaje; estas herramientas se pueden resumir en cuatro siglas o en el mejor de los casos, en cuatro palabras: Sistemas Gestores de Bases de Datos – SGBD.

Estas herramientas se dividen en tres fases, las cuales permiten y facilitan el acceso y la recuperación de la información:

1- Sistemas de navegación de tipo jerárquico: este sistema permite estructurar jerárquicamente a información en clases y subclases, y es aquí donde el usuario decide qué opción se ajusta más a las necesidades de información (ejemplo: www.yahoo.com)

2- Sistemas de navegación hipertextuales: este sistema de búsqueda permite que el usuario vaya de un documento a otro con solo dar un click al activarse los vínculos estipulados en el mismo para tal fin.

Por otra parte, el documento hipertextual está formado por bloques o partes interrelacionadas entre sí, con un orden establecido que permita recorrer diversas direcciones web.

3- Sistemas de recuperación de información: aquí no se emplea la búsqueda a través de navegadores, sino que este tipo de búsqueda se hace por medio de un conjunto de operadores e instrucciones específicas que hacen posible efectuar la búsqueda de información más detallada y relevante.

La base de la recuperación de información en los sistemas informáticos se emplea el uso de álgebra booleana o ecuaciones de búsqueda, en donde hace combinaciones de búsqueda de términos o documentos mediante los operadores de unión, intersección y negación.

La recuperación de información online (teledocumentación)

La recuperación de información es asociada con el término teledocumentación, el cual hace referencia a la unión de telecomunicaciones + informática (telemática) + documentación. La teledocumentación es definida por Mercedes Caridad como “la aplicación telemática destinada a la recuperación de las fuentes a través de elementos informáticos y la telecomunicaciones”, y de esta forma, se destaca y se da a conocer la importancia de las tecnologías informáticas y telecomunicaciones en el acceso de información a distancia.

Por otro lado, la recuperación Online es la búsqueda y recuperación de información en bases de datos. Para hacer posible que la recuperación online pudiera tener lugar, fue necesario que se produjeran avances en la tecnología informática y en las telecomunicaciones, favoreciendo el acceso y la difusión de la información, creando a la vez una industria de la información

lunes, 6 de septiembre de 2010

Consideraciones sobre recuperación de información

Gerard Salton da lineamientos para introducirse a la recuperación de información. En su libro introduction to modern information retrieval de 1983, muestra a la IR (information retrieval) como un proceso interdisciplinario donde entran las ciencias de la información y documentación, la computación, la lingüística, la estadística la filología y los modelos matemáticos como la lógica de Boole. Básicamente busca recuperar información de conjuntos semánticos de datos a través de preguntas bien formuladas en formatos documentales que permitan recuperar términos indizados extraídos de los textos.

Los grandes teóricos de la recuperación de información anglosajones son: Gerard Salton, Rijsbergen, korfhage, Blair, Roberston, Willet, Sparek, Jones, Webber y Shannon. Ellos han fundamentado la recuperación de información a través de las ciencias de la computación, de la documentación y de la matemática. Internet ha permitido que millones de personas, culturas, idiomas en medio de tanto ruido documental permitan desarrollarse cognitivamente como usuarios para que las intersecciones de búsqueda planteadas a través de signos y formas semióticas den cabida a la recuperación documental.

Un importante libro sobre information retrieval se puede encontrar en el siguiente vinculo de la universidad de Stanford

http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf