Recuperación de Información

jueves, 16 de septiembre de 2010

Captar información – R.I

Selección manual o automática de información relevante o de interés que realizamos las personas al buscar algún tema específico. Es una selección natural de información en la que de toda la información que existe acerca de algún tema tomamos solo la que nos es de interés dependiendo de nuestra necesidad de información.

Metadatos Dublin Core en Recuperación de información

“Dublín Core” define una serie de 15 campos que pueden ser usados para describir un documento.

Elementos del Contenido

• Título (Title)

• Materia (Subject)

• Descripción (Description)

• Fuente (Source)

• Lenguaje (Language)

• Relación (Relation)

• Cobertura (Coverage)

Elementos de Propiedad Intelectual

• Autor (Creator)

• Editor (Publisher)

• Colaborador (Contributor)

• Derechos (Rights)

Elementos de Aplicación

• Fecha (Date)

• Tipo (Type)

• Formato (Format)

• Identificador (Identifier)

Ver más en: http://www.metadatos-xmlrdf.com/metadatos/dublin-core

La Generación Google

La Generación Google, es un término que hace referencia a la generación de jóvenes nacidos despúes de 1993, y que han crecido en un mundo lleno de información y tecnología dominado por internet, y en que como herramienta principal de recuperación de información se cuenta con el buscador Google.

Hoy día, nos encontramos en un mundo que vive la mayoría de su tiempo en internet, un mundo en el que se está dejando atrás el uso del cuaderno y de los apuntes en un papel, a un mundo en que el uso del computador, y más especificamente el computador personal, es algo indispensable para el desarrollo de nuestras actividades, principalmente en el campo académico, es decir, el estudiante de hoy, literalmente vive en internet, se alimenta de él y en gran parte depende él para alcanzar varios de sus objetivos.

Un apunte adicional sobre la Generación Google

En sentido literal, todos somos hoy en día generación Google: los datos demográficos de consumo tanto de Internet como de medios, cambian rápidamente esa presunta diferencia generacional. La evidencia indica que cada vez más personas, de todos los grupos de edad, usan Internet y tecnologías de la Web 2.0 para una variedad de propósitos.

para más información consulte este documento: http://www.eduteka.org/pdfdir/GeneracionGoogle.pdf

Fuentes:

La generación Google. Disponible en:http://blog.pucp.edu.pe/item/36426/la-generacion-google [Consultado 16 de septiembre de 2010].

La generación Google. Disponible en: http://www.eduteka.org/GeneracionGoogle.php [Consultado 16 de septiembre de 2010].

miércoles, 15 de septiembre de 2010

Infoxicación - Un concepto Real

No cabe duda que la infoxicación es una realidad. La revolución y adaptación de la red como consumo diario del ciudadano provoca que el usuario busque la información que necesita, en una web. A priori lo que es una gran ventaja, la gran oferta documental de internet, termina convirtiendose en una adversidad. como tal el problema no es del medio, sino del usuario que guiado por su necesidad de información y por su gula, no selecciona bien las fuentes o páginas que consulta y termina saturado de información, que en muchos no ayuda completamente a satisfacer esa necesidad de información que presenta. Al igual que otros campos, el problema sigue siendo la educación con respecto a la red y al mecanismo de búsqueda.

tomado de. Manuel Valero. / http://lalinotipia.blogspot.com/2008/02/un-concepto-real-infoxicacin.html

La Relevancia en la Recuperación de Información.

La relevancia es una de las propiedades más interesantes de los documentos y, por esta razón una de las más difíciles de definir,

de forma Intuitiva, se puede afirmar que un documentos es mas relevante en la medida que permita solucionar de forma eficiente una necesidad de información. Ahora bien, teniendo en cuenta esto. se evidencia que la relevancia no es una propiedad exclusiva de los documentos, sino que es una realidad, una coproducción triangular entre las características del documento, las características de la necesidad de información y las características de la persona que hace la pregunta. Es decir, la relevancia es subjetiva, en tanto que depende del criterio de quien tiene la necesidad de información para definir lo que es o no relevante, en otras palabras, "los documentos que para un usuario son relevantes, es posible que para otro usuario con la misma necesidad de información, no lo sean".

Por otro lado, la relevancia tiene grados, puesto que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podría tener una relevancia del 0.8, mientras que otro menos similar podría tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cada al usuario.

lo realmente importante aquí es si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene nada sentido que se entreguen estos documentos de forma aleatoria o bajo un orden poco eficiente como por ejemplo el título o la fecha de entrada en el fondo documental o la base de datos, en este sentido, es claro que este principio está muy claro para la mayoría de los motores de búsqueda de internet, pero aún está muy descuidado en algunos sistemas de Gestión Documental de las organizaciones.

En conclusión, lo que hacen la mayoría de los mejores Sistemas de Recuperación de Información, es intentar determinar la forma mas eficiente posible para determinar lo que es o no relevante para un usuario que presenta una necesidad de información, es decir si la respuesta a una pregunta incluye una lista de mil documentos, y estos documentos están distribuidos de forma aleatoria, no es lógico que el usuario tenga que revisar uno a uno esos mil documentos; lo lógico y lo que se busca es que el Sistema de Recuperación de Información, le entregue únicamente los documentos relevantes para este usuario, esto tendiendo en cuenta la pregunta que formuló, es decir, su necesidad de información.

Fuentes.

OLVERA LOBO, Mª Dolores Evaluacion de sistemas de recuperacion de informacion: aproximaciones y nuevas tendencias. disponible en:http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_r

ecuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.html. [consultado 15 de septiembre de 2010 ]

Criterios de relevancia en los buscadores. disponible en: http://fabianperez.blogspot.com/2008/07/criterios-de-relevancia-en-los.html. [consultado 15 de septiembre de 2010 ]

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets

La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta.

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

Listas
Anillos de sinónimos
Taxonomías
Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado

Lenguaje artificial: (Lenguaje informático)

Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.

Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y conjuntos de términos. ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda. LILACS es un sistema latinoamericano que permite hacer esto también.