Buscar en este blog

Mostrando entradas con la etiqueta extracción de información. Mostrar todas las entradas
Mostrando entradas con la etiqueta extracción de información. Mostrar todas las entradas

martes, 14 de septiembre de 2010

LA EXTRACCION DE INFORMACION


La extracción de información, es una búsqueda manual o automática o de palabras, párrafos o trozos de textos que contengan información relevante buscada y representada de forma estructurada. El proceso de aplicar las reglas en los sistemas para llevar información de un sitio a otro se llama así: Extracción de información. La recuperación de datos que es otro concepto que no resuelve el problema de la RI, solo devuelve datos sobre un tema, es estructurado y para nada ambiguo en cuanto a consultas ya que en la recuperación una necesidad de información puede ser planteada en infinitas preguntas o formas. 

En la extracción de información habla sobre documentos no sobre datos, para los datos se usan sentencias estructuradas que dan un resultado estricto. Existen grandes diferencias entre recuperar datos e información: respecto a los Ítem: correspondencia entre pregunta respuesta, inferencia, Modelo de relación de requerimientos de sistema y satisfacción, especificación de la pregunta, respuesta al error, rapidez de la respuesta,  lenguaje de consulta, importancia, eficiencia y eficacia entre otras. El profesor Laureano Felipe Gómez del programa de sistemas de información de la Universidad de La Salle Diseñó una matriz donde se evalúan estos criterios.

martes, 7 de septiembre de 2010

Algunos problemas en recuperación de información

Algunos problemas en recuperación de información identificados durante la catedra de la Universidad de La Salle en el programa de sistemas de información son los siguientes:

• Trabajar con índices

• Como trabajar índices contra preguntas

• Como organizar resultados

Google cada mes optimiza su algoritmo para establecer la relevancia, los sistemas de recuperación tradicionales comparan los términos pertenecientes a un documento contra un conjunto de índices y posterior se organiza de una forma asignándole relevancia y ranking, sin embargo google hace buen uso de los tesauros con el fin de optimizar el proceso y apuntar al esquema mental del usuario que plantea el Query.

Para automatizar y optimizar las búsquedas y recuperación de información, se involucran procesos automatizados e informáticos como, hardware, software, colecciones de documentos, información digital, audio, video, texto, multimedia, codificaciones y otros objetos, generalmente los SRI son subsistemas de otros sistemas más grandes. Vasta con ver los ECM, ERM, ERP, Workflow que cuentan con subsistemas de recuperación para encontrar sus contenidos y que reducen la complejidad del problema documental y de archivos invertidos contenedores de metacontenidos.

Dado que los documentos puede ser cualquier objeto en la red hay que evaluar factores tales como la categorización, el formato, el tamaño del índice vs el tamaño de la colección para así asignar los elementos necesarios que permitan crear un SRI adecuado, es decir, interfaz, Querys, búsquedas, comparaciones, indexación, asignación de ranking y resultados de acuerdo a los listados de términos y reglas asociadas al SRI.

En este orden de ideas se convierte en un conjunto de procesos automatizados por los cuales el usuario accede a la información donde previamente se normalizan las preguntas y se indexa la documentación para que sea dada por este una categorización de utilidad a la respuesta devuelta por la maquina a una pregunta concreta de acuerdo a patrones semánticos.

La extracción de información como modelo para organización de resultados, es un proceso especializado de recuperación de información destinado únicamente a necesidades de información concreta. Es una búsqueda concreta sobre un listado de términos y basado en reglas asociadas que apuntan a una mayor exhaustividad en los resultados requeridos para saciar una necesidad informativa.