Algunos problemas en recuperación de información identificados durante la catedra de la Universidad de La Salle en el programa de sistemas de información son los siguientes:
• Trabajar con índices
• Como trabajar índices contra preguntas
• Como organizar resultados
Google cada mes optimiza su algoritmo para establecer la relevancia, los sistemas de recuperación tradicionales comparan los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking, sin embargo google hace buen uso de los tesauros con el fin de optimizar el proceso y apuntar al esquema mental del usuario que plantea el Query.
Para automatizar y optimizar las búsquedas y recuperación de información, se involucran procesos automatizados e informáticos como, hardware, software, colecciones de documentos, información digital, audio, video, texto, multimedia, codificaciones y otros objetos, generalmente los SRI son subsistemas de otros sistemas más grandes. Vasta con ver los ECM, ERM, ERP, Workflow que cuentan con subsistemas de recuperación para encontrar sus contenidos y que reducen la complejidad del problema documental y de archivos invertidos contenedores de metacontenidos.
Dado que los documentos puede ser cualquier objeto en la red hay que evaluar factores tales como la categorización, el formato, el tamaño del índice vs el tamaño de la colección para así asignar los elementos necesarios que permitan crear un SRI adecuado, es decir, interfaz, Querys, búsquedas, comparaciones, indexación, asignación de ranking y resultados de acuerdo a los listados de términos y reglas asociadas al SRI.
En este orden de ideas se convierte en un conjunto de procesos
automatizados por los cuales el
usuario accede a la información donde previamente se normalizan las preguntas y se
indexa la documentación para que sea dada por este una
categorización de utilidad a la respuesta devuelta por la maquina a una pregunta concreta de acuerdo a patrones semánticos.
La
extracción de información como modelo para organización de resultados, es un proceso especializado de recuperación de información destinado únicamente a necesidades de información concreta. Es una búsqueda concreta sobre un listado de términos y basado en reglas asociadas que apuntan a una mayor
exhaustividad en los resultados requeridos para saciar una necesidad informativa.