Buscar en este blog

miércoles, 29 de septiembre de 2010

Procesamiento del Lenguaje Natural

Es una subrama de la inteligencia artificial y de la lingüística. También se suele referir a esta rama de la informática de forma abreviada como PLN o NLP  del inglés Natural Language Processing.

El objetivo del Procesamiento del Lenguaje Natural, es la construcción de sistemas y mecanismos que permitan la comunicación entre personas y maquinas, adicionalmente, busca que esos mecanismos sean lo mas eficientes posibles. Dicho en otras palabras, se busca crear programas que tengan la capacidad de analizar, entender y generar lenguajes como los que usa habitualmente el hombre, de tal forma que permita que permita la comunicación entre el hombre y el computador.

El procesamiento del Lenguaje Natural, tiene una relación directa con la Recuperación de Información, pues las dos tienen como objetivo desarrollar las herramientas que permitan al usuario hacer preguntas de cualquier forma y que el sistema sea capaz de responder de manera correcta a esa pregunta que formuló el usuario, tal como lo haría cualquier persona. Es a esto a lo que se le conoce como sistemas de question-answering. Entonces, un buscador de información que use procesamiento del lenguaje natural para la recuperación de información, sería diferente de un buscador tradicional en el sentido que el usuario podrá consultar la pregunta que tiene, tal cual como la está pensando, sin necesidad de buscar por los conceptos que cree que podrían servir para encontrar la información que desea

El procesamiento del lenguaje natural, además de usarse en el procesamiento y recuperación de información, es usado también en campos como la traducción automática, el reconocimiento del habla y la corrección de ortografía de textos.

Fuentes:

Procesamiento del lenguaje natural: revisión del estado actual, bases teóricas y aplicaciones (Parte I). Disponible en:
http://www.elprofesionaldelainformacion.com/contenidos/1997/enero/procesamiento_del_lenguaje_natural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_i.html (Consultado 17 de septiembre de 2010)

Lenguaje natural. Disponible en: http://es.wikipedia.org/wiki/Lenguaje_natural. (Consultado 17 de septiembre de 2010).

Objetivo de los Lenguajes Documentales.

Anteriormente ya habíamos mostrado algunos conceptos de Lenguajes Documentales, según algunos expertos en el tema, esta vez nos centraremos en el para qué de estos Lenguajes Documentales, todo con el ánimo de ir aclarando y ampliando de forma sencilla el entendimiento de este concepto y todas sus implicaciones en el ámbito de la recuperación de información.
En este sentido tenemos que el principal objetivo de los Lenguajes Documentales es el de hacer más fácil la recuperación de informacion y de documentos, buscando con esto reducir tiempos y esfuerzos para el usuario que realiza la búsqueda. Teniendo en cuenta que los Lenguajes Documentales poseen la capacidad para representar los mensajes contenidos en los documentos, esto permite cumplir estos objetivos específicos:
·         Normalizar: Lograr unificación en la terminología.
·         Induce: Es decir, le indica al usuario todas las posibles alternativas por medio de las cuales va a poder recuperar información.
·         Describe el contenido de los documentos: Después de la lectura e identificación de los conceptos contenidos en los documentos, éstos se representan mediante un lenguaje documental que proporciona un vocabulario unívoco que permite traducir los conceptos en términos normalizados.
·         Recuperación de la Información: El Lenguaje Documental tiene la capacidad de suministrar un vocabulario con los términos que se están demandando, es decir, proporciona los elementos que permiten realizar la búsqueda en niveles aun mas específicos.


Fuente:

Los lenguajes documentales. Disponible en: www3.unileon.es/dp/abd/tesauro/pagina/.../lengdocu.htm. (consultado 29 septiembre de 2010).

La organización de la información, los lenguajes documentales y la normalización. Disponible en: http://www.binal.ac.pa/archivos/catcoop/auts/orginfo.PDF. (consultado 29 septiembre de 2010).

martes, 28 de septiembre de 2010

Ontologías en la Recuperación de Información

Las ontologías son utilizadas con frecuencia en la recuperación de datos indexación semántica de los documentos y la organización de los resultados de búsqueda. Las ontologías proporcionan los elementos léxicos, permiten la normalización conceptual y proporcionan distintos tipos de relaciones.


Estas permiten trabajar con conceptos, en lugar de trabajar con palabras clave,
en los sistemas de recuperación de información. Por otra parte, éstas describen el contenido de los repositorios
de datos independientemente de la representación sintáctica de los mismos,
logrando con esto su integración semántica, esto desde el punto de vista de las fuentes de Información.


Fuentes:

Jimeno-Yepes, A., Berlanga-Llavori, R., & Rebholz-Schuhmann, D.. (2010). Ontology refinement for improved information retrieval. Information Processing & Management, 46(4), 426. Retrieved September 28, 2010, from ABI/INFORM Global. (Document ID: 2049742521).

lunes, 27 de septiembre de 2010

Lenguajes Documentales: Algunas definiciones.

El objetivo de este artículo, tal como lo presentamos con los conceptos de Recuperacion de Información, es hacer un recorrido por distintas definiciones dadas al concepto de Lenguajes  Documentales, para finalmente llegar a una conclusión general sobre esta.

Empezamos con Banca Gil quien dice que un Lenguaje Documental es el sistema artificial de símbolos estandarizados que facilitan la representación del contenido de los documentos para facilitar la recuperación manual o automática de la información solicitada por el usuario.

Por otra parte para Antonio García Gutiérrez, los lenguajes documentales están compuestos por un listado de términos que los constituyen como vocabulario, y por unas relaciones entre ellos que dinamizan esos vocabularios y le otorgan la categoría de lenguaje. Estos lenguajes se generan por el proceso del análisis de los documentos puesto que el objetivo que se persigue es el control y manipulación de sus contenidos para poder satisfacer las demandas de información.

J. Rowley, en su libro Organizing knowledge, usa el termino indexing languages refiriéndose a este como "una lista de términos o notaciones que pueden ser utilizados como punto de acceso en un índice"

Finalmente según la Norma Técnica Colombiana NTC 1544, Documentación, indización, Terminología,  el lenguaje documental es “un lenguaje artificial, construido con base en reglas preestablecidas, utilizando los sistemas de documentación para indización, con propósitos de almacenamiento y recuperación

Finalmente y tomando como base los conceptos dados anteriormente podemos afirmar que todos apuntan hacia lo mismo, es decir, aunque las definiciones son diferentes, el objetivo que persiguen es básicamente el mismo, decir que el lenguaje documental, es un listado de términos controlados, que van a permitir facilitar la recuperación de la información contenida en un determinado documento


Fuentes:

Los Lenguajes Documentales. Disponible en: http://www3.unileon.es/dp/abd/tesauro/pagina/conceptos/lengdocu.htm. (consultado 25 septiembre de 2010)

Analisis Documental y lenguajes Documentales. Disponible en: lavelablanca.neositios.com/downloads.php?id=11919&dId. (consultado 25 septiembre de 2010)

ICONTEC. Norma Tecnica Colombiana NTC 1544. Documentacion, Indizacion, Terminologia. Disponible en: http://www.sinab.unal.edu.co/ntc/NTC1544.pdf. (consultado 26 septiembre de 2010).

viernes, 17 de septiembre de 2010

Relevancia en la RI

Creo que ya hemos hablado de esto, pero en este artículo lo detallaremos un poco más, intentando responder a la pregunta ¿Cuándo un documento es relevante?

Según la RAE  el termino relevancia significa “cualidad o condición de relevante, importancia, significación”, por otra parte el termino relevante se define como “sobresaliente, destacado, importante o significativo”, en tal sentido, se considera relevante un documento recuperado cuando el contenido de esto tiene una significación o importancia respecto a la pregunta realizada por el usuario, es decir, con la necesidad de información del usuario.

Conocer y más importante aún, entender este término, nos brinda una ayuda muy importante, puesto que al momento de determinar exactamente cuando un documento se puede considerar relevante o no, surgen muchos problemas estrechamente relacionados con la naturaleza cognitiva de este proceso.


Como se había mencionado anteriormente, un documento se puede considerar relevante o no, en función de los motivos que dan origen a la necesidad de información, o del grado de conocimiento que se posea sobre el tema al momento de hacer la pregunta, es decir, el documento que para una persona es relevante, puede no ser relevante para otra persona que tiene una necesidad de información idéntica a la del primer sujeto.

Para finalizar basta con decir que

puede resultar aventurado calificar un documento como relevante con un tema, o por el contrario, calificarlo como no relevante de igual manera. Puesto que es común encontrar documentos que en alguno de sus apartados contienen información que puede resultar relevante para el usuario, pero que en el resto de su contenido no contiene información relevante. Para algunos autores, surge entonces el concepto de “relevancia parcial”, puesto  que, la relevancia no puede medirse en términos binarios (sí/no), sino que puede adquirir muchos valores intermedios, es decir, una especie de escala de medición, (muy relevante, relevante, escasamente relevante, mínimamente relevante, etc.), lo que propicia que la relevancia pueda medirse en términos de función continua en lugar de una función binaria, la cual admite dos estados únicamente.

Fuentes:

Ontología sobre economía y recuperación de información. Disponible en: http://www.hipertext.net/web/pag259.htm. [Consultado 17 de septiembre de 2010].

Relevancia. Real Academia Española RAE. Disponible en: http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=relevancia [Consultado 17 de septiembre de 2010].

Directorio de enlaces

Trucos para Posicionar tu Blog en Google

La entrada a continuación va dirigida a los compañeros que por alguna circunstancia no han podido añadir su blog al ranking, los siguientes consejos buscan que formemos una inteligencia colectiva ya que  engañarnos a nosotros mismos dejando que otros hagan lo que necesitamos aprender, sea ingeniero de sistemas, diseñador grafico o web máster es una mala práctica que infortunadamente Google no detecta, digo yo,  porque realmente al profesor se le puede engañar y salir bonitos en la foto en el primer lugar en google pero si en algún momento a quien adopte estas prácticas bajas y deshonestas se le solicita que inicie un blog desde cero para que nos comparta de su extraordinario conocimiento para posicionase en una semana en el primer lugar máxime con un pobre contenido, estamos seguros que su desempeño va a ser nulo frente al tablero y ni la ayuda del mismísimo Jesús, del novio o del extraño don sobrenatural de posicionar sobre blogs con mayor contenido, contará….
Entrando en materia, el misterioso ranking y el misterioso algoritmo que utiliza Google, efectivamente sigue siendo un misterio cada vez mas descubierto, si quieren saber más sobre los cambios que hace google entren a estos tres blogs: http://google.blogspace.com http://www.google.com/googleblog http://battellemedia.com sin embargo y ya entrando en materia, dividimos esta entrada en tres cosas fundamentales:
1.       Relájese, no se estrese porque el blog no se haya posicionado aun, es mejor cargar de buenos e interesantes contenidos su blog que de cosas por debajo y ocultas para los visitantes que únicamente sirven para posicionarlo pese a un contenido mediocre, si el contenido es bueno y sus palabras clave se adaptan a los tesauros de google, el algoritmo del ranking valorará positivamente su blog.
2.       Envíe su url al indexador de google, esto se realiza en www.google.com.co/addurl.html no se garantiza que sea indexada de inmediato pero garantizará que el spider (GoogleBot) visite su blog en un plazo no máximo de 4 semanas, aunque podría ser menos, eso no lo podemos medir como usuarios.
3.       Lo más importante es lo que viene a continuación: Optimice su plantilla, i.e que debe hacer algunas modificaciones:
o   Utilice las etiquetas más precisas y adecuadas a la entrada que publica
o   Trate de utilizar el titulo al extremo izquierdo
o   La primera oración de su blog debe ir en texto normal, no use negrillas, itálicas, etc.
o   Utilice las negrillas únicamente en los párrafos de las entradas
o   No duplique las palabras clave en la URL
o   Ingrese enlaces relevantes “en el sitio”, de ser posible compartan enlaces con otros blogs del mismo tema
o   Enlaces relevantes “hacia el sitio” si logran hacerlo desde un sitio que tenga PageRank mayor a 8, excelente
o   Mantenga bajo el tamaño de la pagina, esto se logra evitando muchas imágenes y videos e ingresando mas .txt
o   No utilice objetos de flash, google no los indexa, preferiblemente que todo sea .html o .htm
Estos cortos pero efectivos tips, nos ayudarán a todos a cumplir con la meta impuesta, sin embargo iteramos, nada más bonito que el aprendizaje a través de la investigación concienzuda y las buenas prácticas.

jueves, 16 de septiembre de 2010

LENGUAJES DOCUMENTALES

Cualquier sistema de signos destinados a la comunicación entre seres humanos, entre hombres y máquinas, o entre máquinas, que se estructura sobre un conjunto definido de reglas, convenciones y representaciones gráficas y/o fonológicas.


www.eubca.edu.uy/diccionario/letra_l.htm

ESTRUCTURA

Distribución e interrelación de las diferentes partes que componen un objeto o una idea; Se dice de un cuerpo u objeto que se encuentra construido de diferentes partes


es.wiktionary.org/wiki/estructura

DECODIFICACION

En Comunicación, operación por la cual se utiliza un código para descifrar e interpretar un mensaje formulado en otro código, en la "recuperación de información", adquiere un enfoque a nivel de interfaz ya que es la forma en que la maquina decodifica la búsqueda del usuario.

I DECODE.

"Universidad de La Salle" "Programa de Sistemas de información" Tomado de : http://www.eubca.edu.uy/diccionario/letra_d.htm

NECESIDADES DEL USUARIO EN RECUPERACIÓN DE INFORMACIÓN

Cada usuario tiene diferentes necesidades, es importante soportar diferentes formas para encontrar información. Algunos usuarios saben exactamente qué es lo que buscan, quieren encontrarlo y terminar tan pronto sea posible. Otros usuarios no saben exactamente lo que buscan, llegan a la página con una vaga idea de la información que necesitan, después de explorar la página deben salir de ella con información o conocimientos que no sabían que necesitaban.

Se puede definir también como un vacio cognitivo, es decir, en el momento en el que no hay claridad en un determinado concepto da origen a una necesidad de Información, el problema de esto, es que es muy complejo saber cuáles son y cuántos son los conceptos que podrían solucionar esta necesidad de Información.

Tomado de : http://www.bibliodgsca.unam.mx/tesis/tes7cllg/sec_41.htm

COBERTURA

La cobertura es el alcance determinado a una búsqueda específica para que obtenga una gran cantidad de documentos al momento de realizar el proceso de recuperación de información.

Fuente: Los documentos de texto y su estructura (s.f)

LA PRECISIÓN EN LA RECUPERACIÓN DE INFORMACIÓN

"En consecuencia a la búsqueda de un usuario, se puede decir que cuando se conoce la necesidad de información, Se sabe qué es lo que se está buscando"

Una de las cualidades que deben poseer las notaciones o los conceptos de un lenguaje documental, de modo de proporcionar el mayor ajuste posible con la terminología y la temática de los documentos. // 2. En Terminología, uno de los atributos más importantes que debe tener un término, para reflejar los caracteres esenciales que están presentes en su definición. // 3. En Recuperación de la Información, correspondencia entre la ecuación de búsqueda y el grado de relevancia del documento recuperado, o, dicho de otra manera, la capacidad mensurable de un sistema de almacenamiento y recuperación, de no recuperar documentos no relevantes.

Tomado de http://www.eubca.edu.uy/diccionario/letra_p.htm

Captar información – R.I

Selección manual o automática de información relevante o de interés que realizamos las personas al buscar algún tema específico. Es una selección natural de información en la que de toda la información que existe acerca de algún tema tomamos solo la que nos es de interés dependiendo de nuestra necesidad de información.

Metadatos Dublin Core en Recuperación de información

“Dublín Core” define una serie de 15 campos que pueden ser usados para describir un documento.


Elementos del Contenido

• Título (Title)

• Materia (Subject)

• Descripción (Description)

• Fuente (Source)

• Lenguaje (Language)

• Relación (Relation)

• Cobertura (Coverage)

Elementos de Propiedad Intelectual

• Autor (Creator)

• Editor (Publisher)

• Colaborador (Contributor)

• Derechos (Rights)

Elementos de Aplicación

• Fecha (Date)

• Tipo (Type)

• Formato (Format)

• Identificador (Identifier)

Ver más en: http://www.metadatos-xmlrdf.com/metadatos/dublin-core

La Generación Google

La Generación Google, es un término que hace referencia a la generación de jóvenes nacidos despúes de 1993, y que han crecido en un mundo lleno de información y tecnología dominado por internet, y en que como herramienta principal de recuperación de información se cuenta con el buscador Google.

Hoy día, nos encontramos en un mundo que vive la mayoría de su tiempo en internet, un mundo en el que se está dejando atrás el uso del cuaderno y de los apuntes en un papel, a un mundo en que el uso del computador, y más especificamente el computador personal, es algo indispensable para el desarrollo de nuestras actividades, principalmente en el campo académico, es decir, el estudiante de hoy, literalmente vive en internet, se alimenta de él y en gran parte depende él para alcanzar varios de sus objetivos.


Un apunte adicional sobre la Generación Google

En sentido literal, todos somos hoy en día generación Google: los datos demográficos de consumo tanto de Internet como de medios, cambian rápidamente esa presunta diferencia generacional. La evidencia indica que cada vez más personas, de todos los grupos de edad, usan Internet y tecnologías de la Web 2.0 para una variedad de propósitos.

para más información consulte este documento: http://www.eduteka.org/pdfdir/GeneracionGoogle.pdf


Fuentes:

La generación Google. Disponible en:http://blog.pucp.edu.pe/item/36426/la-generacion-google [Consultado 16 de septiembre de 2010].

La generación Google. Disponible en: http://www.eduteka.org/GeneracionGoogle.php [Consultado 16 de septiembre de 2010].

miércoles, 15 de septiembre de 2010

Infoxicación - Un concepto Real

No cabe duda que la infoxicación es una realidad. La revolución y adaptación de la red como consumo diario del ciudadano provoca que el usuario busque la información que necesita, en una web. A priori lo que es una gran ventaja, la gran oferta documental de internet, termina convirtiendose en una adversidad. como tal el problema no es del medio, sino del usuario que guiado por su necesidad de información y por su gula, no selecciona bien las fuentes o páginas que consulta y termina saturado de información, que en muchos no ayuda completamente a satisfacer esa necesidad de información  que presenta. Al igual que otros campos, el problema sigue siendo la educación con respecto a la red y al mecanismo de búsqueda.






tomado de. Manuel Valero. /  http://lalinotipia.blogspot.com/2008/02/un-concepto-real-infoxicacin.html

La Relevancia en la Recuperación de Información.

La relevancia es una de las propiedades más interesantes de los documentos y, por esta razón una de las más difíciles de definir,
de forma Intuitiva, se puede afirmar que un documentos es mas relevante en la medida que permita solucionar de forma eficiente una necesidad de información. Ahora bien, teniendo en cuenta esto. se evidencia que la relevancia no es una propiedad exclusiva de los documentos, sino que es una realidad, una coproducción triangular entre las características del documento, las características de la necesidad de información y las características de la persona que hace la pregunta. Es decir, la relevancia es subjetiva, en tanto que depende del criterio de quien tiene la necesidad de información para definir lo que es o no relevante, en otras palabras, "los documentos que para un usuario son relevantes, es posible que para otro usuario con la misma necesidad de información, no lo sean".

Por otro lado, la relevancia tiene grados,  puesto que un documento no se limita a ser relevante o a no serlo, sino que la relevancia de un documento (como hemos visto en el ejemplo anterior) puede situarse en cualquier punto de un continuo de entre, por ejemplo, 0 y 1, en el cual el 0 representa la ausencia total de relevancia y el 1 la relevancia absoluta. Entre esos puntos, un documento muy semejante respecto a la pregunta podría tener una relevancia del 0.8, mientras que otro menos similar podría tener un relevancia del 0.5, etc. Naturalmente nada impide utilizar escalas de 0 a 10 en lugar de 0 a 1 o de tantos por ciento para representar el grado de relevancia de cada al usuario.

lo realmente importante aquí es si diferentes documentos tienen un grado de relevancia diferente respecto a una pregunta, entonces no tiene nada sentido que se entreguen estos documentos de forma aleatoria o bajo un orden poco eficiente como por ejemplo el título o la fecha de entrada en el fondo documental o la base de datos,  en este sentido, es claro que este principio está muy claro para la mayoría de los motores de búsqueda de internet, pero aún está muy descuidado en algunos sistemas de Gestión Documental de las organizaciones.

En conclusión, lo que hacen la mayoría de los mejores Sistemas de Recuperación de Información,  es intentar determinar la forma mas eficiente posible para determinar lo que es o no relevante para un usuario que presenta una necesidad de información, es decir si la respuesta a una pregunta incluye una lista de mil documentos, y estos documentos están distribuidos de forma aleatoria, no es lógico que el usuario tenga que revisar uno a uno esos mil documentos; lo lógico y lo que se busca es que el Sistema de Recuperación de Información, le entregue únicamente los documentos relevantes para este usuario, esto tendiendo en cuenta la pregunta que formuló, es decir, su necesidad de información.


Fuentes.

OLVERA LOBO, Mª Dolores Evaluacion de sistemas de recuperacion de informacion: aproximaciones y nuevas tendencias. disponible en:http://www.elprofesionaldelainformacion.com/contenidos/1999/noviembre/evaluacion_de_sistemas_de_r
ecuperacion_de_informacion_aproximaciones_y_nuevas_tendencias.html. [consultado 15 de septiembre de 2010 ]

Criterios de relevancia en los buscadores. disponible en: http://fabianperez.blogspot.com/2008/07/criterios-de-relevancia-en-los.html. [consultado 15 de septiembre de 2010 ]

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets


La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta. 

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

  • Listas
  • Anillos de sinónimos
  • Taxonomías
  • Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado
Lenguaje artificial: (Lenguaje informático)
Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.
Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y  conjuntos de términos.  ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda.  LILACS es un sistema latinoamericano que permite hacer esto también.

OBJETIVOS DE LA RECUPERACIÓN DE INFORMACIÓN


Existen tres objetivos fundamentales identificados en la recuperación de información:

  • ·         Poder recuperar sobre cualquier tipo de documento.
  • ·         Permitir consultas en lenguaje natural, que el SRI pueda entender cualquier pregunta
  • ·         Buscar un mecanismo idóneo para evaluar y ajustar la relación entre pregunta y respuesta, la mejor comparación de resultados
Para optimizar los resultados se define un proceso genérico de la R.I y consiste en simplemente establecer cómo funciona un proceso normal de recuperación de información a través de entradas o consultas, procesos a través de query generados por el usuario y procesados por el sistema de búsqueda y recuperación, posteriormente se entrega una salida o resultados de búsqueda en un ranking determinado por el SRI.

LA EXTRACCION DE INFORMACION


La extracción de información, es una búsqueda manual o automática o de palabras, párrafos o trozos de textos que contengan información relevante buscada y representada de forma estructurada. El proceso de aplicar las reglas en los sistemas para llevar información de un sitio a otro se llama así: Extracción de información. La recuperación de datos que es otro concepto que no resuelve el problema de la RI, solo devuelve datos sobre un tema, es estructurado y para nada ambiguo en cuanto a consultas ya que en la recuperación una necesidad de información puede ser planteada en infinitas preguntas o formas. 

En la extracción de información habla sobre documentos no sobre datos, para los datos se usan sentencias estructuradas que dan un resultado estricto. Existen grandes diferencias entre recuperar datos e información: respecto a los Ítem: correspondencia entre pregunta respuesta, inferencia, Modelo de relación de requerimientos de sistema y satisfacción, especificación de la pregunta, respuesta al error, rapidez de la respuesta,  lenguaje de consulta, importancia, eficiencia y eficacia entre otras. El profesor Laureano Felipe Gómez del programa de sistemas de información de la Universidad de La Salle Diseñó una matriz donde se evalúan estos criterios.

Google desktop search como herramienta de recuperación de información

Este desarrollo de google permite indexar contenidos en diferentes formatos pese a que se demora en indexar, lo cual va de de acuerdo a la cantidad o peso de los documentos que se indexen, el programa usa los tiempos muertos del PC, hay q verificar los estatus y posterior cuando llega al 100% permite buscar, no genera avisos cuando acaba su proceso, simplemente pone a disposición del usuario la interfaz para que la búsqueda y recuperación. Esta misma tiene diferentes opciones avanzadas como instalar en la unidad que tenga espacio, modificación del registro y de la instalación a través de usuario administrador, ser utilizado de forma independiente en diferentes cuentas de Windows en una misma máquina, copia de seguridad del índice y restablecimiento de este mismo (restauración). Una de las desventajas de esta herramienta en la recuperación, es que por default tiene un número predeterminado de formatos, sin embargo muchos desarrolladores han generado plugg-ins para extender la compatibilidad con otros formatos de documentos de cualquier sistema de información.


Un buen instructivo para iniciar en el uso del Google Desktop Search se encuentra en el vínculo a continuación: http://desktop.google.com/support/bin/topic.py?topic=11570


lunes, 13 de septiembre de 2010

La Vida de Google en dos Minutos.

La historia de Google en dos minutos, desde el momento en que surgio la idea como propuesta de una tesis doctoral con el objetivo de mejorar las busquedas en internet, hasta hoy dia cuando es la principal herramienta para la recuperacion de informacion en la web. y la pregunta es, y ahora que se viene con Google.



Fuente: http://www.youtube.com/watch?v=EjN5avRvApk&feature=player_embedded


 http://es.wikipedia.org/wiki/Google

El proceso de Recuperación de Información

Como se menciona en el titulo, la Recuperación de Información es un proceso en que obviamente existe la intervención de unos elementos y unas actividades que básicamente están enfocadas a buscar y encontrar Información relevante que va a ayudar a satisfacer la necesidad de información de un usuario.


En la figura que se presenta a continuación se muestra el Modelo Global de Recuperación de Información, el cual muestra que el proceso de Recuperación de Información inicia cuando un usuario tiene una necesidad de Información y busca la forma de resolverla, haciendo la petición o consulta por medio de un lenguaje natural que finalmente se traduce al lenguaje del Sistema de Recuperación de Información, y es lo que comúnmente es conocido como estrategia de búsqueda; esta estrategia, como ya se mencionó , es introducida en un SRI, que localiza aquellos documentos que coinciden de forma total o parcial con la petición hecha por el usuario y los presenta al usuario, por lo general, ordenados de acuerdo a diferentes criterios entre ellos la relevancia y es ahí donde el usuario evalúa estos documentos para determinar los que cumplen con los requisitos de su búsqueda y finalmente van a satisfacer la necesidad que presentaba.

Este proceso finaliza cuando el usuario ha satisfecho la necesidad que presentó en un principio o ya sea cuando usuario considera que el Sistema de Recuperación de Información no puede satisfacer su necesidad de información, es decir que no le presenta los documentos que cubren esa necesidad de información que presentaba, en los casos que esto ocurre el usuario puede mejorar su estrategia de búsqueda gracias a los resultados que le presentó el SRI en esos documentos de su primera búsqueda.





Modelo Global de Recuperacion de Informacion.






Fuente: SALVADOR OLIVAN, Jose. Recuperacion de la Informacion. 1 Edicion 2008.

El nuevo reto del Profesional de Información - en el 2014 un 90 % del tráfico en Internet será video

Según un informe de Cisco Cisco Visual Network Index, se preevé que para el año 2014 el volúmen de videos en internet, esté cerca al 90 %, esto teniendo en cuenta los aumentos que ha presentado en los últimos años.

Esto representa un inminente cambio en las formas de recuperar la información, teniendo en cuenta esta premisa, para lo cual se hace necesario el aporte por parte de los Pofesionales de la Información a fin de garantizar que el usuario que tiene una necesidad de Información puede satisfacerla sin importar cual sea el formato en el que se muestra la información que soluciona esa necesidad.



 Fuente: http://www.idg.es/iworld/noticia.asp?id=99375&sec=iworld

Así será Google en el futuro




El futuro de el Gigante de internet, está encaminado a que Google valla mas allá de las búsquedas en tiempo real, el objetivo es poder anticiparse a las peticiones de los usuarios, es decir, "buscar sin buscar" y permitirá que los usuarios puedan tener información antes de buscarla.

Fuente: http://www.idg.es/iworld/video.asp?id=1920

domingo, 12 de septiembre de 2010

Sistemas de Recuperación de Información

Cualquier información promueve a los usuarios dotar de instrumentos de consulta, navegación y recuperación de información adecuados para satisfacer las necesidades de información. Sin embargo, existe una gran explosión documental y desconocemos cuál de éste gran volumen de documentos e información es útil y se pueda recuperar de una forma más fácil y que cumpla con unos ciertos requisitos durante su búsqueda.

Por ello, existen gran variedad de herramientas que permitan hacer búsquedas de información efectivas y que contengan conocimiento intelectual y válido para la investigación y el aprendizaje; estas herramientas se pueden resumir en cuatro siglas o en el mejor de los casos, en cuatro palabras: Sistemas Gestores de Bases de Datos – SGBD.

Estas herramientas se dividen en tres fases, las cuales permiten y facilitan el acceso y la recuperación de la información:

1- Sistemas de navegación de tipo jerárquico: este sistema permite estructurar jerárquicamente a información en clases y subclases, y es aquí donde el usuario decide qué opción se ajusta más a las necesidades de información (ejemplo: www.yahoo.com)

2- Sistemas de navegación hipertextuales: este sistema de búsqueda permite que el usuario vaya de un documento a otro con solo dar un click al activarse los vínculos estipulados en el mismo para tal fin.

Por otra parte, el documento hipertextual está formado por bloques o partes interrelacionadas entre sí, con un orden establecido que permita recorrer diversas direcciones web.

3- Sistemas de recuperación de información: aquí no se emplea la búsqueda a través de navegadores, sino que este tipo de búsqueda se hace por medio de un conjunto de operadores e instrucciones específicas que hacen posible efectuar la búsqueda de información más detallada y relevante.

La base de la recuperación de información en los sistemas informáticos se emplea el uso de álgebra booleana o ecuaciones de búsqueda, en donde hace combinaciones de búsqueda de términos o documentos mediante los operadores de unión, intersección y negación.