Buscar en este blog

Mostrando entradas con la etiqueta exhaustividad. Mostrar todas las entradas
Mostrando entradas con la etiqueta exhaustividad. Mostrar todas las entradas

lunes, 1 de noviembre de 2010

Evaluación de un Sistema de Recuperación de Información: Exhaustividad y Precisión.




Para evaluar un Sistema de Recuperación de Información es necesario tener en cuenta variables como la exhaustividad y la precisión y una vez sean tomado estas dos variables se podrá determinar si un determinado Sistema de Recuperación de Información puede llegar a cubrir una determinada necesidad de información.



Las formulas para medir estas dos variables, son:

Número de documentos relevantes recuperados
Exhaustividad =      ________________________________________________   X 100
      Número total de documentos relevantes presentes en el fondo documental


                                                       Número de documentos relevantes recuperados
Precisión =                               ______________________________________   X 100
          Número total de documentos recuperados

Ejemplo Exhaustividad: supongamos que hacemos una búsqueda de un tema X, sobre una colección de 100 documentos, y como resultado de esta búsqueda obtenemos solo 6 documentos, quiere decir que si aplicamos la formula que acabamos de ver, entonces el índice de exhaustividad es del 6%.

Ejemplo precisión: Supongamos que la búsqueda es sobre 1000 documentos, caso en el que como respuesta solo se obtuvieron 100 documentos pro únicamente 20 responden directamente a los que se solicito, es decir relevantes, entonces el índice de precisión es del 20%.

En este sentido es claro que el índice de exhaustividad proporciona una medida del sistema para recuperar documentos que puedan ser relevantes para el usuario, el índice de precisión muestra la habilidad de sistema para evitar el ruido.

Es claro que el objetivo es llevar a la construcción de un sistema que brinde 100% de exhaustividad y precisión, en otras palabras sistemas que recuperen documentos relevantes y solo los relevantes. Teóricamente esto suena muy sencillo, pero en la práctica estos dos se comportan de forma antagónica, puesto que para aumentar el nivel de exhaustividad se requiere disminuir la precisión y viceversa,  y la razón es que si se quiere asegurar la precisión del sistema se hace necesario tomar medidas para hacer mas especifica la indización, es decir su un documento trata sobre archivos, entonces tendremos que diseñar un sistema de indización que tienda a indizar el documento con el descriptor archivos, y no con el descriptor gestión documental o archivistas, archivística, etc. Y así lograremos tener un sistema preciso, aunque si alguien llegase a buscar documentos sobre archivística, dejara de recuperar documentos relevantes sobre el tema general.

En la práctica se puede observar que los buscadores más usados en internet, como Google o AltaVista, Proporcionan buenas tasas de exhaustividad y esto lo podemos comprobar fácilmente en la cantidad de resultados que se nos entregan, pero es claro que la precisión es poco, pues de los cientos y miles de resultados que obtenemos, solo unos pocos nos van a servir para satisfacer la necesidad de información. 

En cambio existen sistemas muy especializados como ADAM o Cercador, los cuales usan un sistema de indización automatizado e intelectual, pueden brindar menor exhaustividad, pues los resultados que estos ofrecen son pocos, pero es seguro que la precisión esta casi en el 100%.

Fuentes.

GOMEZ DIAZ, Raquel. La evaluación en recuperación de la información [on line]. "Hipertext.net", núm. 1, 2003. <http://www.hipertext.net> [Consulta: 01/11/10]. ISSN 1695-549.

GARCÍA GÓMEZ, Juan Carlos. Aproximación a la evaluación cuantitativa de los Sistemas de Recuperación de Información de la prensa en Internet: Exhaustividad y precisión. [on line] <ibersid.eu/ojs/index.php/scire/article/download/1145/1127>. [consulta: 01/11/2010].

ADAM. Disponible en: http://www.adam.ac.uk/. [consulta: 01/11/2010].




miércoles, 8 de septiembre de 2010

ONTOLOGÍAS

El término ontología en informática hace referencia a la formulación de un exhaustivo y riguroso esquema conceptual dentro de uno o varios dominios dados; con la finalidad de facilitar la comunicación y el intercambio de información entre diferentes sistemas y entidades. Aunque toma su nombre por analogía, ésta es la diferencia con el punto de vista filosófico de la palabra ontología.

Consultado en: http://es.wikipedia.org/wiki/Ontolog%C3%ADa_(inform%C3%A1tica)

martes, 7 de septiembre de 2010

Algunos problemas en recuperación de información

Algunos problemas en recuperación de información identificados durante la catedra de la Universidad de La Salle en el programa de sistemas de información son los siguientes:

• Trabajar con índices

• Como trabajar índices contra preguntas

• Como organizar resultados

Google cada mes optimiza su algoritmo para establecer la relevancia, los sistemas de recuperación tradicionales comparan los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking, sin embargo google hace buen uso de los tesauros con el fin de optimizar el proceso y apuntar al esquema mental del usuario que plantea el Query.

Para automatizar y optimizar las búsquedas y recuperación de información, se involucran procesos automatizados e informáticos como, hardware, software, colecciones de documentos, información digital, audio, video, texto, multimedia, codificaciones y otros objetos, generalmente los SRI son subsistemas de otros sistemas más grandes. Vasta con ver los ECM, ERM, ERP, Workflow que cuentan con subsistemas de recuperación para encontrar sus contenidos y que reducen la complejidad del problema documental y de archivos invertidos contenedores de metacontenidos.

Dado que los documentos puede ser cualquier objeto en la red hay que evaluar factores tales como la categorización, el formato, el tamaño del índice vs el tamaño de la colección para así asignar los elementos necesarios que permitan crear un SRI adecuado, es decir, interfaz, Querys, búsquedas, comparaciones, indexación, asignación de ranking y resultados de acuerdo a los listados de términos y reglas asociadas al SRI.

En este orden de ideas se convierte en un conjunto de procesos automatizados por los cuales el usuario accede a la información donde previamente se normalizan las preguntas y se indexa la documentación para que sea dada por este una categorización de utilidad a la respuesta devuelta por la maquina a una pregunta concreta de acuerdo a patrones semánticos.

La extracción de información como modelo para organización de resultados, es un proceso especializado de recuperación de información destinado únicamente a necesidades de información concreta. Es una búsqueda concreta sobre un listado de términos y basado en reglas asociadas que apuntan a una mayor exhaustividad en los resultados requeridos para saciar una necesidad informativa.