Buscar en este blog

miércoles, 29 de septiembre de 2010

Procesamiento del Lenguaje Natural

Es una subrama de la inteligencia artificial y de la lingüística. También se suele referir a esta rama de la informática de forma abreviada como PLN o NLP  del inglés Natural Language Processing.

El objetivo del Procesamiento del Lenguaje Natural, es la construcción de sistemas y mecanismos que permitan la comunicación entre personas y maquinas, adicionalmente, busca que esos mecanismos sean lo mas eficientes posibles. Dicho en otras palabras, se busca crear programas que tengan la capacidad de analizar, entender y generar lenguajes como los que usa habitualmente el hombre, de tal forma que permita que permita la comunicación entre el hombre y el computador.

El procesamiento del Lenguaje Natural, tiene una relación directa con la Recuperación de Información, pues las dos tienen como objetivo desarrollar las herramientas que permitan al usuario hacer preguntas de cualquier forma y que el sistema sea capaz de responder de manera correcta a esa pregunta que formuló el usuario, tal como lo haría cualquier persona. Es a esto a lo que se le conoce como sistemas de question-answering. Entonces, un buscador de información que use procesamiento del lenguaje natural para la recuperación de información, sería diferente de un buscador tradicional en el sentido que el usuario podrá consultar la pregunta que tiene, tal cual como la está pensando, sin necesidad de buscar por los conceptos que cree que podrían servir para encontrar la información que desea

El procesamiento del lenguaje natural, además de usarse en el procesamiento y recuperación de información, es usado también en campos como la traducción automática, el reconocimiento del habla y la corrección de ortografía de textos.

Fuentes:

Procesamiento del lenguaje natural: revisión del estado actual, bases teóricas y aplicaciones (Parte I). Disponible en:
http://www.elprofesionaldelainformacion.com/contenidos/1997/enero/procesamiento_del_lenguaje_natural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_i.html (Consultado 17 de septiembre de 2010)

Lenguaje natural. Disponible en: http://es.wikipedia.org/wiki/Lenguaje_natural. (Consultado 17 de septiembre de 2010).

Objetivo de los Lenguajes Documentales.

Anteriormente ya habíamos mostrado algunos conceptos de Lenguajes Documentales, según algunos expertos en el tema, esta vez nos centraremos en el para qué de estos Lenguajes Documentales, todo con el ánimo de ir aclarando y ampliando de forma sencilla el entendimiento de este concepto y todas sus implicaciones en el ámbito de la recuperación de información.
En este sentido tenemos que el principal objetivo de los Lenguajes Documentales es el de hacer más fácil la recuperación de informacion y de documentos, buscando con esto reducir tiempos y esfuerzos para el usuario que realiza la búsqueda. Teniendo en cuenta que los Lenguajes Documentales poseen la capacidad para representar los mensajes contenidos en los documentos, esto permite cumplir estos objetivos específicos:
·         Normalizar: Lograr unificación en la terminología.
·         Induce: Es decir, le indica al usuario todas las posibles alternativas por medio de las cuales va a poder recuperar información.
·         Describe el contenido de los documentos: Después de la lectura e identificación de los conceptos contenidos en los documentos, éstos se representan mediante un lenguaje documental que proporciona un vocabulario unívoco que permite traducir los conceptos en términos normalizados.
·         Recuperación de la Información: El Lenguaje Documental tiene la capacidad de suministrar un vocabulario con los términos que se están demandando, es decir, proporciona los elementos que permiten realizar la búsqueda en niveles aun mas específicos.


Fuente:

Los lenguajes documentales. Disponible en: www3.unileon.es/dp/abd/tesauro/pagina/.../lengdocu.htm. (consultado 29 septiembre de 2010).

La organización de la información, los lenguajes documentales y la normalización. Disponible en: http://www.binal.ac.pa/archivos/catcoop/auts/orginfo.PDF. (consultado 29 septiembre de 2010).

martes, 28 de septiembre de 2010

Ontologías en la Recuperación de Información

Las ontologías son utilizadas con frecuencia en la recuperación de datos indexación semántica de los documentos y la organización de los resultados de búsqueda. Las ontologías proporcionan los elementos léxicos, permiten la normalización conceptual y proporcionan distintos tipos de relaciones.


Estas permiten trabajar con conceptos, en lugar de trabajar con palabras clave,
en los sistemas de recuperación de información. Por otra parte, éstas describen el contenido de los repositorios
de datos independientemente de la representación sintáctica de los mismos,
logrando con esto su integración semántica, esto desde el punto de vista de las fuentes de Información.


Fuentes:

Jimeno-Yepes, A., Berlanga-Llavori, R., & Rebholz-Schuhmann, D.. (2010). Ontology refinement for improved information retrieval. Information Processing & Management, 46(4), 426. Retrieved September 28, 2010, from ABI/INFORM Global. (Document ID: 2049742521).

lunes, 27 de septiembre de 2010

Lenguajes Documentales: Algunas definiciones.

El objetivo de este artículo, tal como lo presentamos con los conceptos de Recuperacion de Información, es hacer un recorrido por distintas definiciones dadas al concepto de Lenguajes  Documentales, para finalmente llegar a una conclusión general sobre esta.

Empezamos con Banca Gil quien dice que un Lenguaje Documental es el sistema artificial de símbolos estandarizados que facilitan la representación del contenido de los documentos para facilitar la recuperación manual o automática de la información solicitada por el usuario.

Por otra parte para Antonio García Gutiérrez, los lenguajes documentales están compuestos por un listado de términos que los constituyen como vocabulario, y por unas relaciones entre ellos que dinamizan esos vocabularios y le otorgan la categoría de lenguaje. Estos lenguajes se generan por el proceso del análisis de los documentos puesto que el objetivo que se persigue es el control y manipulación de sus contenidos para poder satisfacer las demandas de información.

J. Rowley, en su libro Organizing knowledge, usa el termino indexing languages refiriéndose a este como "una lista de términos o notaciones que pueden ser utilizados como punto de acceso en un índice"

Finalmente según la Norma Técnica Colombiana NTC 1544, Documentación, indización, Terminología,  el lenguaje documental es “un lenguaje artificial, construido con base en reglas preestablecidas, utilizando los sistemas de documentación para indización, con propósitos de almacenamiento y recuperación

Finalmente y tomando como base los conceptos dados anteriormente podemos afirmar que todos apuntan hacia lo mismo, es decir, aunque las definiciones son diferentes, el objetivo que persiguen es básicamente el mismo, decir que el lenguaje documental, es un listado de términos controlados, que van a permitir facilitar la recuperación de la información contenida en un determinado documento


Fuentes:

Los Lenguajes Documentales. Disponible en: http://www3.unileon.es/dp/abd/tesauro/pagina/conceptos/lengdocu.htm. (consultado 25 septiembre de 2010)

Analisis Documental y lenguajes Documentales. Disponible en: lavelablanca.neositios.com/downloads.php?id=11919&dId. (consultado 25 septiembre de 2010)

ICONTEC. Norma Tecnica Colombiana NTC 1544. Documentacion, Indizacion, Terminologia. Disponible en: http://www.sinab.unal.edu.co/ntc/NTC1544.pdf. (consultado 26 septiembre de 2010).

viernes, 17 de septiembre de 2010

Relevancia en la RI

Creo que ya hemos hablado de esto, pero en este artículo lo detallaremos un poco más, intentando responder a la pregunta ¿Cuándo un documento es relevante?

Según la RAE  el termino relevancia significa “cualidad o condición de relevante, importancia, significación”, por otra parte el termino relevante se define como “sobresaliente, destacado, importante o significativo”, en tal sentido, se considera relevante un documento recuperado cuando el contenido de esto tiene una significación o importancia respecto a la pregunta realizada por el usuario, es decir, con la necesidad de información del usuario.

Conocer y más importante aún, entender este término, nos brinda una ayuda muy importante, puesto que al momento de determinar exactamente cuando un documento se puede considerar relevante o no, surgen muchos problemas estrechamente relacionados con la naturaleza cognitiva de este proceso.


Como se había mencionado anteriormente, un documento se puede considerar relevante o no, en función de los motivos que dan origen a la necesidad de información, o del grado de conocimiento que se posea sobre el tema al momento de hacer la pregunta, es decir, el documento que para una persona es relevante, puede no ser relevante para otra persona que tiene una necesidad de información idéntica a la del primer sujeto.

Para finalizar basta con decir que

puede resultar aventurado calificar un documento como relevante con un tema, o por el contrario, calificarlo como no relevante de igual manera. Puesto que es común encontrar documentos que en alguno de sus apartados contienen información que puede resultar relevante para el usuario, pero que en el resto de su contenido no contiene información relevante. Para algunos autores, surge entonces el concepto de “relevancia parcial”, puesto  que, la relevancia no puede medirse en términos binarios (sí/no), sino que puede adquirir muchos valores intermedios, es decir, una especie de escala de medición, (muy relevante, relevante, escasamente relevante, mínimamente relevante, etc.), lo que propicia que la relevancia pueda medirse en términos de función continua en lugar de una función binaria, la cual admite dos estados únicamente.

Fuentes:

Ontología sobre economía y recuperación de información. Disponible en: http://www.hipertext.net/web/pag259.htm. [Consultado 17 de septiembre de 2010].

Relevancia. Real Academia Española RAE. Disponible en: http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=relevancia [Consultado 17 de septiembre de 2010].

Directorio de enlaces

Trucos para Posicionar tu Blog en Google

La entrada a continuación va dirigida a los compañeros que por alguna circunstancia no han podido añadir su blog al ranking, los siguientes consejos buscan que formemos una inteligencia colectiva ya que  engañarnos a nosotros mismos dejando que otros hagan lo que necesitamos aprender, sea ingeniero de sistemas, diseñador grafico o web máster es una mala práctica que infortunadamente Google no detecta, digo yo,  porque realmente al profesor se le puede engañar y salir bonitos en la foto en el primer lugar en google pero si en algún momento a quien adopte estas prácticas bajas y deshonestas se le solicita que inicie un blog desde cero para que nos comparta de su extraordinario conocimiento para posicionase en una semana en el primer lugar máxime con un pobre contenido, estamos seguros que su desempeño va a ser nulo frente al tablero y ni la ayuda del mismísimo Jesús, del novio o del extraño don sobrenatural de posicionar sobre blogs con mayor contenido, contará….
Entrando en materia, el misterioso ranking y el misterioso algoritmo que utiliza Google, efectivamente sigue siendo un misterio cada vez mas descubierto, si quieren saber más sobre los cambios que hace google entren a estos tres blogs: http://google.blogspace.com http://www.google.com/googleblog http://battellemedia.com sin embargo y ya entrando en materia, dividimos esta entrada en tres cosas fundamentales:
1.       Relájese, no se estrese porque el blog no se haya posicionado aun, es mejor cargar de buenos e interesantes contenidos su blog que de cosas por debajo y ocultas para los visitantes que únicamente sirven para posicionarlo pese a un contenido mediocre, si el contenido es bueno y sus palabras clave se adaptan a los tesauros de google, el algoritmo del ranking valorará positivamente su blog.
2.       Envíe su url al indexador de google, esto se realiza en www.google.com.co/addurl.html no se garantiza que sea indexada de inmediato pero garantizará que el spider (GoogleBot) visite su blog en un plazo no máximo de 4 semanas, aunque podría ser menos, eso no lo podemos medir como usuarios.
3.       Lo más importante es lo que viene a continuación: Optimice su plantilla, i.e que debe hacer algunas modificaciones:
o   Utilice las etiquetas más precisas y adecuadas a la entrada que publica
o   Trate de utilizar el titulo al extremo izquierdo
o   La primera oración de su blog debe ir en texto normal, no use negrillas, itálicas, etc.
o   Utilice las negrillas únicamente en los párrafos de las entradas
o   No duplique las palabras clave en la URL
o   Ingrese enlaces relevantes “en el sitio”, de ser posible compartan enlaces con otros blogs del mismo tema
o   Enlaces relevantes “hacia el sitio” si logran hacerlo desde un sitio que tenga PageRank mayor a 8, excelente
o   Mantenga bajo el tamaño de la pagina, esto se logra evitando muchas imágenes y videos e ingresando mas .txt
o   No utilice objetos de flash, google no los indexa, preferiblemente que todo sea .html o .htm
Estos cortos pero efectivos tips, nos ayudarán a todos a cumplir con la meta impuesta, sin embargo iteramos, nada más bonito que el aprendizaje a través de la investigación concienzuda y las buenas prácticas.