Recuperación de Información: busqueda y recuperación de información

Mostrando entradas con la etiqueta busqueda y recuperación de información. Mostrar todas las entradas

domingo, 7 de noviembre de 2010

Trabajito Video RI

Recuperación de Información: premisas recuperación de información - Comentarios lectura

http://www.youtube.com/watch?v=WUplD6JGhPQ

miércoles, 3 de noviembre de 2010

Sistemas de Información, Entre el dilema de AND, OR o NOT

Dentro de la recuperación de información existen operadores que permiten enriquecer las búsquedas o extraer de las bases de datos información relevante y exhaustiva para el usuario del sistema de información, una de las formas más comunes de recuperar información a través de operadores es utilizando búsquedas booleanas las cuales tienen como palabras comodín los términos AND, OR y NOT que en algunas interfaces son reemplazados por el ampersamp (&), el signo + o el signo *. Sin embargo esta no es la única forma de recuperar información o obtener resultados coherentes en una búsqueda de documental, esto está siempre de acuerdo a la plataforma, estructuración, notación y representación de los documentos dentro del DBMS, el ECM o el RMS.

Un ejemplo fehaciente de esto es el tipo de operadores que manejan algunas herramientas de escritorio, por citar un ejemplo el caso de google desktop search, echa mano de algunos operadores diseñados para realizar búsquedas específicas dentro del material indexado. En la URL a continuación se pueden encontrar estos mismos los cuales de acuerdo a su naturaleza pueden especificar si lo que se requiere es una búsqueda de un tipo de archivo específico, de un formato determinado o de un documento con un contenido explicito. http://desktop.google.com/support/bin/answer.py?hl=es&answer=10111, vale la pena resaltar que esta herramienta fue evaluada en la universidad de La Salle durante la cátedra de Recuperación de información y los resultados entregados al indexar una colección fueron acordes a lo esperado por un usuario final frente a un SRI.

La ventaja del uso de operadores y ecuaciones de búsqueda es que apuntan directamente a los lenguajes documentales que son los que representan la información contenida en los repositorios o bodegas de datos en las que reposen documentos estructurados o no estructurados. El motor de búsqueda google también tiene algunos operadores que generalmente no son conocidos por los usuarios pero que al ser utilizados enriquecen las búsquedas y los resultados categorizándolos de acuerdo a la necesidad de información. En el vínculo a continuación se pueden encontrar algunos operadores como allintitle, allinurl, allintext y site entre otros.

http://www.elhacker.net/trucos_google.html

Archivistas: Una Profesión con Potencial.

Fue el título que el Diario la República dio a uno de sus artículos en el cual menciona algunas de las problemáticas que tiene la Sociedad Colombiana de Archivistas, entre otros.

http://www.slideshare.net/scarchivistas/archivistas-una-profesin-con-potencial

martes, 19 de octubre de 2010

ALFABETIZACIÓN INFORMACIONAL

De acuerdo al concepto emitido por el profesor Laureano Felipe Gomez, catedratico de la Universidad de La Salle, los profesionales de información que no usen licenciamiento en los documentos permiten que cualquier persona haga lo que quiera con dicho material, esto basado en los lineamientos de reconocimiento de creative commons.

EL MUNDO ES DIGITAL

No se puede seguir pensando en físico o papel, el paradigma es cambiante y la tendencia del manejo de documentos no es lo que se produce, todo se vuelca hacia lo digital. Hay un cambio generacional chocante y se debería pensar en esto, la alfabetización no tiene que ver nada con recuperación, no es enseñar al usuario como hacer las cosas, de hecho los usuarios bajan su nivel de visitas a las bibliotecas, se requiere que sea la biblioteca la que vaya al usuario.

Plan de trabajo para la alfabetización informacional:

Conceptos sobre alfabetización según la universidad de la salle y el programa sistemas de información.

Tecnología: no es un tema asociado a las maquinas, la tecnología son los adelantos científicos plasmados en desarrollos, es la utilización responsable de los recursos sobre el entorno para incrementar el bienestar del hombre y satisfagan sus necesidades. El hombre ha evolucionado gracias a las tecnologías. Una de las partes de la tecnología es la de las TIC. Ley 1341 de 2009 donde estas son herramientas para manejar información, son únicamente un complemento.

Ej: pensar una nueva ruta para ir a la casa más rápido, automatización y optimización de procesos humanos, automatizar los procesos en los sistemas de información dentro de una sociedad del conocimiento.

La información crece a ritmos abundantes y son las TIC las que permiten gestionar esta información, si se relega a trabajar en el físico difícilmente se podrá estar manejando toda esta información, por eso es necesario el profesional de sistemas de información dando directrices para la recuperación de información.

miércoles, 15 de septiembre de 2010

La Relevancia en la Recuperación de Información.

La relevancia es una de las propiedades más interesantes de los documentos y, por esta razón una de las más difíciles de definir,

de forma Intuitiva, se puede afirmar que un documentos es mas relevante en la medida que permita solucionar de forma eficiente una necesidad de información. Ahora bien, teniendo en cuenta esto. se evidencia que la relevancia no es una propiedad exclusiva de los documentos, sino que es una realidad, una coproducción triangular entre las características del documento, las características de la necesidad de información y las características de la persona que hace la pregunta. Es decir, la relevancia es subjetiva, en tanto que depende del criterio de quien tiene la necesidad de información para definir lo que es o no relevante, en otras palabras, "los documentos que para un usuario son relevantes, es posible que para otro usuario con la misma necesidad de información, no lo sean".

Por otro lado, la relevancia tiene grados, puesto que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podría tener una relevancia del 0.8, mientras que otro menos similar podría tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cada al usuario.

lo realmente importante aquí es si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene nada sentido que se entreguen estos documentos de forma aleatoria o bajo un orden poco eficiente como por ejemplo el título o la fecha de entrada en el fondo documental o la base de datos, en este sentido, es claro que este principio está muy claro para la mayoría de los motores de búsqueda de internet, pero aún está muy descuidado en algunos sistemas de Gestión Documental de las organizaciones.

En conclusión, lo que hacen la mayoría de los mejores Sistemas de Recuperación de Información, es intentar determinar la forma mas eficiente posible para determinar lo que es o no relevante para un usuario que presenta una necesidad de información, es decir si la respuesta a una pregunta incluye una lista de mil documentos, y estos documentos están distribuidos de forma aleatoria, no es lógico que el usuario tenga que revisar uno a uno esos mil documentos; lo lógico y lo que se busca es que el Sistema de Recuperación de Información, le entregue únicamente los documentos relevantes para este usuario, esto tendiendo en cuenta la pregunta que formuló, es decir, su necesidad de información.

Fuentes.

OLVERA LOBO, Mª Dolores Evaluacion de sistemas de recuperacion de informacion: aproximaciones y nuevas tendencias. disponible en:http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_r

ecuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.html. [consultado 15 de septiembre de 2010 ]

Criterios de relevancia en los buscadores. disponible en: http://fabianperez.blogspot.com/2008/07/criterios-de-relevancia-en-los.html. [consultado 15 de septiembre de 2010 ]

lunes, 13 de septiembre de 2010

El nuevo reto del Profesional de Información - en el 2014 un 90 % del tráfico en Internet será video

Según un informe de Cisco Cisco Visual Network Index, se preevé que para el año 2014 el volúmen de videos en internet, esté cerca al 90 %, esto teniendo en cuenta los aumentos que ha presentado en los últimos años.

Esto representa un inminente cambio en las formas de recuperar la información, teniendo en cuenta esta premisa, para lo cual se hace necesario el aporte por parte de los Pofesionales de la Información a fin de garantizar que el usuario que tiene una necesidad de Información puede satisfacerla sin importar cual sea el formato en el que se muestra la información que soluciona esa necesidad.

Fuente: http://www.idg.es/iworld/noticia.asp?id=99375&sec=iworld

Así será Google en el futuro

El futuro de el Gigante de internet, está encaminado a que Google valla mas allá de las búsquedas en tiempo real, el objetivo es poder anticiparse a las peticiones de los usuarios, es decir, "buscar sin buscar" y permitirá que los usuarios puedan tener información antes de buscarla.

Fuente: http://www.idg.es/iworld/video.asp?id=1920

miércoles, 8 de septiembre de 2010

BASE DE DATOS

Una base de datos o banco de datos (en ocasiones abreviada BB.DD.) es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.

http://es.wikipedia.org/wiki/Base_de_datos

CLASIFICACION

Es cualquier símbolo numérico, alfabético o especial que se emplea en la escritura y en el cálculo.

CARACTÈR

Es cualquier símbolo numérico, alfabético o especial que se emplea en la escritura y en el cálculo.

martes, 7 de septiembre de 2010

Memorias de Clase ¿QUÉ ES RECUPERACION DE INFORMACIÓN?

En esta clase definiremos que es Recuperación de Información, pero antes de que se de esta definición, es necesario definir el término “Necesidad de Información”, el cual se puede definir como un vacio cognitivo, es decir, en el momento en el que no hay claridad en un determinado concepto da origen a una necesidad de Información, el problema de esto, es que es muy complejo saber cuáles son y cuántos son los conceptos que podrían solucionar esta necesidad de Información.

La necesidad de Información se puede dividir en dos:

- Necesidad de información concreta: Es una necesidad de información bien rara, pues es muy específica y fácil de solucionar y se puede intuir que documentos pueden satisfacer esa necesidad. El hecho que exista un vacio conceptual bien definido permite establecer preguntas concretas que van a solucionar esa necesidad de información, es decir, a una necesidad concreta, una respuesta concreta.

- Necesidad de información orientada al problema: no hay una frontera temática definida, y por tanto no hay una conceptualización en la búsqueda, es decir, no hay una pregunta claramente definida, por tanto no hay una respuesta acertada o que satisfaga esa necesidad de información.

Mencionado esto podemos decir que: La necesidad de información es un problema de la Gestión de Conocimiento y por tanto la Recuperación de Información es un proceso de gestión del conocimiento, es decir, un proceso para satisfacer una necesidad de información (mas allá de and, or y not), que involucra el proceso para disminuir el problema de espacio conceptual, debido a que por lo general las preguntas están orientadas a un problema. Todo esto asociado a la gestión del conocimiento.
“La RI permite pasar de un estado actual del conocimiento a un estado necesario del conocimiento”. Ingerwersen.
Por tanto y teniendo en cuenta lo anteriormente mencionado, Recuperación de Información es el proceso de comparar una pregunta contra un conjunto de índices o comparar los términos de una pregunta contra los términos de un índice que son sacados de un conjunto de documentos, en otras palabras compara términos contra términos, teniendo en cuenta la Relevancia que presentan los términos dentro de estos índices y dentro de la pregunta.

Como todo este proceso no lo puede hacer un humano es necesario un Sistema de Recuperación de Información, que involucra procesos automatizados, manejo de Sistemas de Información, Hardware y Software, y colecciones de documentos electrónicos, es decir que estos últimos estén codificados electrónicamente.

Los Sistemas de Recuperación de Información tienen como finalidad almacenar, procesar, recuperar y difundir la información. Generalmente utiliza índices y compara las preguntas y ordena los resultados de acuerdo a la Relevancia del término que se está buscando.

Los Sistemas de Recuperación de Información están enfocados a recuperar contenidos no importa el soporte en el que estos se encuentren almacenados, por ejemplo, audio, video, texto, etc.… puesto que como lo manifestó el profesor, al comienzo de este curso, “documento es cualquier cosa que contenga información” por lo menos en el ámbito electrónico.

Un Sistema de Recuperación de Información es parte de la informática que estudia la Recuperación de Información (no datos) que pertenecen a una colección de documentos (documentos recuperados) para satisfacer una necesidad de información.

Recuperación de Información desde los Sistemas de Recuperación de Información: el conjunto de tareas proceso y procedimientos automatizados mediante los cuales los usuarios localizan y acceden a recursos de información relevantes o pertinentes que ayudan a resolver una necesidad de información.

Pero ¿qué es relevante y qué pertinente?
Relevantes: Importantes.
Pertinentes: Utiles.

Una maquina tiene la capacidad de inferir que documentos pueden ser importantes o útiles, es decir, relevantes o pertinentes, aunque ahí que aclara que la utilidad de un documento es subjetiva, pues está atado a la necesidad de cada persona, es decir, que no para todo el mundo es útil o inútil determinada información.

lunes, 6 de septiembre de 2010

Consideraciones sobre recuperación de información

Gerard Salton da lineamientos para introducirse a la recuperación de información. En su libro introduction to modern information retrieval de 1983, muestra a la IR (information retrieval) como un proceso interdisciplinario donde entran las ciencias de la información y documentación, la computación, la lingüística, la estadística la filología y los modelos matemáticos como la lógica de Boole. Básicamente busca recuperar información de conjuntos semánticos de datos a través de preguntas bien formuladas en formatos documentales que permitan recuperar términos indizados extraídos de los textos.

Los grandes teóricos de la recuperación de información anglosajones son: Gerard Salton, Rijsbergen, korfhage, Blair, Roberston, Willet, Sparek, Jones, Webber y Shannon. Ellos han fundamentado la recuperación de información a través de las ciencias de la computación, de la documentación y de la matemática. Internet ha permitido que millones de personas, culturas, idiomas en medio de tanto ruido documental permitan desarrollarse cognitivamente como usuarios para que las intersecciones de búsqueda planteadas a través de signos y formas semióticas den cabida a la recuperación documental.

Un importante libro sobre information retrieval se puede encontrar en el siguiente vinculo de la universidad de Stanford

http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

sábado, 4 de septiembre de 2010

Datos, metadatos, Información, Conocimiento y Documentos

La apropiación de información en estructuras mentales permanentes para la realización de alguna tarea es posible gracias a los sistemas de gestión del conocimiento y a los knowledge web management (KWM) que permiten estructurar de forma colaborativa. Sin embargo para producir esto, y de acuerdo a la necesidad de información, se requieren documentos que son datos lógicamente organizados que se encuentran en un formato determinado y son usables por un usuario. En este orden, se pueden clasificar los documentos en tipologías virtuales, digitales y electrónicos y bajo este mismo esquema se debe repensar el concepto de archivo ya que documentos como los virtuales existen únicamente en el momento que se necesitan y se encuentran en un estado no persistente un ejemplo fehaciente puede ser el reporte de notas generado por la pagina de la Universidad de La Salle por los alumnos del programa de sistemas de información donde al ejecutar la búsqueda recopila los datos de diferentes instancias y los muestra en una sola pantalla

Todos estos documentos tienen elementos constitutivos en común los cuales son: estructura, contenido, formato y contexto y de acuerdo a estos elementos se pueden clasificar en documentos estructurados, no estructurados y semiestructurados. Esta clasificación puede ir intrínsecamente ligada a su contenido, orden y valores de la documentación. Toda esta configuración permite facilitar la búsqueda y recuperación de información a través de herramientas y sistemas de recuperación y búsqueda ya que la estructura permite mejorar la recuperación que hacen los robots de los motores de búsqueda al poder ubicar más fácilmente cada elemento que compone al documento. Por otra parte no se puede dejar de lado la información que suministran los metadatos de los cuales hablaremos más delante de una forma más extensa.

martes, 31 de agosto de 2010

Exhaustividad en la búsqueda y relevancia en los resultados de la recuperación de información

El desarrollo sustentable y maximización de los recursos está ligado al acceso a las nuevas tecnologías de la información (M. Castells) y a la nube (world wide web) el rol de los profesionales en información y tratamiento de documentos es fundamental ya que internet crece exponencialmente en miles de millones de páginas y no son comunes métodos que indicen o permitan tener métodos de recuperación óptimos para que la gente obtenga lo necesario en una primera búsqueda.

Sin embargo compañías como google trabajan para cambiar los paradigmas en formas de búsqueda que vienen desde mediados del siglo pasado. Universidades como Stanford y Glasgow, han publicado libros alusivos a la Information retrieval desde la óptica de Computing science sin dejar de lado las técnicas y métodos desarrollados por library and Information science. Estas metodologías apuntan a que para grandes cantidades de información se requiera un actor involucrado que organice, en este caso los robots de los motores de búsqueda. Dichos procesos logrados por algoritmos y arboles de decisión permiten a los sistemas ser precisos y exhaustivos para entregar en un ranking los resultados más relevantes y acordes a la entrada realizada por el investigador o solicitante de una respuesta de acuerdo su necesidad de información. En colombia, la universidad de La Salle y su programa de sistemas de información trabajan por lograr que los profesionales graduados posean las habilidades adecuadas para entrentar los retos que trae la búsqueda recuperacion de informacion en un entorno globalizado y competitivo.

Recuperación de Información

Páginas

Buscar en este blog