Buscar en este blog

Mostrando entradas con la etiqueta lenguaje natural. Mostrar todas las entradas
Mostrando entradas con la etiqueta lenguaje natural. Mostrar todas las entradas

miércoles, 29 de septiembre de 2010

Procesamiento del Lenguaje Natural

Es una subrama de la inteligencia artificial y de la lingüística. También se suele referir a esta rama de la informática de forma abreviada como PLN o NLP  del inglés Natural Language Processing.

El objetivo del Procesamiento del Lenguaje Natural, es la construcción de sistemas y mecanismos que permitan la comunicación entre personas y maquinas, adicionalmente, busca que esos mecanismos sean lo mas eficientes posibles. Dicho en otras palabras, se busca crear programas que tengan la capacidad de analizar, entender y generar lenguajes como los que usa habitualmente el hombre, de tal forma que permita que permita la comunicación entre el hombre y el computador.

El procesamiento del Lenguaje Natural, tiene una relación directa con la Recuperación de Información, pues las dos tienen como objetivo desarrollar las herramientas que permitan al usuario hacer preguntas de cualquier forma y que el sistema sea capaz de responder de manera correcta a esa pregunta que formuló el usuario, tal como lo haría cualquier persona. Es a esto a lo que se le conoce como sistemas de question-answering. Entonces, un buscador de información que use procesamiento del lenguaje natural para la recuperación de información, sería diferente de un buscador tradicional en el sentido que el usuario podrá consultar la pregunta que tiene, tal cual como la está pensando, sin necesidad de buscar por los conceptos que cree que podrían servir para encontrar la información que desea

El procesamiento del lenguaje natural, además de usarse en el procesamiento y recuperación de información, es usado también en campos como la traducción automática, el reconocimiento del habla y la corrección de ortografía de textos.

Fuentes:

Procesamiento del lenguaje natural: revisión del estado actual, bases teóricas y aplicaciones (Parte I). Disponible en:
http://www.elprofesionaldelainformacion.com/contenidos/1997/enero/procesamiento_del_lenguaje_natural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_i.html (Consultado 17 de septiembre de 2010)

Lenguaje natural. Disponible en: http://es.wikipedia.org/wiki/Lenguaje_natural. (Consultado 17 de septiembre de 2010).

martes, 14 de septiembre de 2010

PROBLEMAS DE LOS LENGUAJES DE CONSULTA Y RECUPERACION DE INFORMACION - Deshatelets


La pregunta se puede formular desde tres ámbitos por lo cual se requiere un proceso de estandarizar. Una cosa es como se pregunta y otra como el sistema entiende por lo cual se requiere un proceso de transformación de la pregunta. 

El primer lenguaje que empleamos es el lenguaje natural el cual esta asociado a las reglas lingüísticas del idioma y al manejo de las expresiones. Es subjetivo y las reglas semánticas y sintácticas cambian de acuerdo a la región, lo ideal es que se aplique la forma de la pregunta en el lenguaje natural y arroje el resultado deseado, par esto se debe hacer un análisis lingüístico con términos relacionados, sinónimos, antónimos etc.

Lenguaje natural restringido: subconjunto de lenguaje natural, términos controlados dentro de los que se encuentran:

  • Listas
  • Anillos de sinónimos
  • Taxonomías
  • Tesauros

La ventajas que trae el uso de estas herramientas es que cambian las expresiones de búsqueda por lo cual se usan menos términos y es efectivo para buscar en bases de datos documentales. Se corre el riesgo de que lo que encuentre el usuario no sea lo adecuado
Lenguaje artificial: (Lenguaje informático)
Si la información a representar es limitada en cuanto a la variedad se puede una representación poco ambigua, es decir, un lenguaje artificial. Se debe transformar la búsqueda de ser una expresión a ser una ecuación, ahí nacen las ecuaciones de búsqueda.
Existen varios lenguajes y estándares para formular ecuaciones de búsqueda dentro de los cuales se encuentran: CCL Norma Z39, CQL Context Query Language from Library of Congress, PLQL, SFQL, SQL: BUSCAR NORMAS ISO.

Al ir transformando los lenguajes se va generando ruido documental por lo cual es necesario reducir los niveles de ruido. Sin embargo es así más fácil recuperar a pesar del ruido. Estos estándares surgen del planteamiento: ¿cómo preguntar? De hecho existen profesionales dedicados a esta temática, a extraer términos o conjuntos de términos normalmente en lenguaje natural, también a estructurar ecuaciones y  conjuntos de términos.  ¿Por qué una pregunta no puede ser un documento? Lo puede ser!!!, de hecho EBSCO permite subir un articulo y confrontarlo para búsqueda.  LILACS es un sistema latinoamericano que permite hacer esto también.

OBJETIVOS DE LA RECUPERACIÓN DE INFORMACIÓN


Existen tres objetivos fundamentales identificados en la recuperación de información:

  • ·         Poder recuperar sobre cualquier tipo de documento.
  • ·         Permitir consultas en lenguaje natural, que el SRI pueda entender cualquier pregunta
  • ·         Buscar un mecanismo idóneo para evaluar y ajustar la relación entre pregunta y respuesta, la mejor comparación de resultados
Para optimizar los resultados se define un proceso genérico de la R.I y consiste en simplemente establecer cómo funciona un proceso normal de recuperación de información a través de entradas o consultas, procesos a través de query generados por el usuario y procesados por el sistema de búsqueda y recuperación, posteriormente se entrega una salida o resultados de búsqueda en un ranking determinado por el SRI.

viernes, 10 de septiembre de 2010

MODELOS DE RECUPERACIÓN DE INFORMACIÓN

Como es bien conocido, en los últimos años se ha venido presentado el fenómeno de los Buscadores Online, y por ende se han producido toda una serie de repercusiones en la administración y recuperación de la información que estos buscadores nos entregan al momento de que lo solicitamos, en tal sentido es necesario saber el método, o los métodos que usan estos buscadores para acertar en la respuesta a la pregunta que se les plantea en un determinado momento.

En tal sentido, nos encontramos con que de forma general los modelos de recuperación de información están estructurados asi:
- Modelos Clasicos: en este se encuentra el modelo booleano y probalisitco.
- Modelos Estructurales: basado en listas no sobrepuestas y el método de nodos proximales.

Con el ánimo de presentar una comparación y descripción de los modelos de recuperación de información, presentamos el siguiente cuadro que permite una caracterización mucho más sencilla que la encontrada en la literatura que trata del tema:


Ítem / Modelos BooleanoVectorialProbalístico
DEs uno de los más usados para la RI, se basa en la agrupación de documentos compuestos por conjuntos de términos, y en el concepto de las preguntas como una expresión booleana.Presenta la posibilidad de emparejamiento parcial, por medio de la asignación de pesos no binarios a los términos índices de las preguntas y de los documentos, este peso sirve para comparar la similitud existente entre cada documento y la pregunta que hace el usuarioEs un modelo de recuperación clásico, el cual funciona en relación a la probabilidad de que un documento sea o no relevante o no para responder a una determinada pregunta.
C- Es un modelo simple que se basa en la teoría de conjuntos y el algebra booleana.
- Se basa en un criterio de decisión binario (pertinente o no pertinente).
- Es el modelo de mas uso, tanto en las bases de datos comerciales, como en los principales buscadores web
- Ordena los documentos recuperados en orden decreciente, teniendo en cuenta el grado de similitud con la pregunta formulada.
- Es más preciso, en tanto que arroja los resultados teniendo en cuenta los documentos que solo se emparejan con la pregunta.
- se basa en que, teniendo un documento, o determinado número de estos, y una
pregunta, se puede calcular la probabilidad de que ese documento sea relevante para esa pregunta.
- Los resultados no son mejores ni más acertados que en el modelo booleano y vectorial
B- Es un modelo de recuperación sencillo - Es más complejo que el Booleano, pero brinda mayor precisión.- Brinda un gran aporte a la RI en el fenómeno denominado retroalimentación por relevancia.
- Este modelo se usa principalmente para refinar los resultados de de la búsqueda.
D: Descripcion.      C: Caracteristicas.        B: Beneficios.


Estos que se mostraron, son los modelos más usados en la recuperación de información, pero hay que tener en cuenta que existen otros modelos que permiten, asi como los anteriores, la obtención de información. Estos modelos los describiremos brevemente a continuación:

- Modelo Basado en el Lenguaje: Es un modelo que se trabaja desde hace pocos años, en el cual una base de conocimientos intenta interpretar documentos textuales y crear listas de descriptores de forma automatizada, en este sentido se han creado lenguajes documentales que permiten la representación del conocimiento (lenguajes controlados, taxonomías, tesauros, ontologías etc.), esto teniendo en cuenta que el lenguaje natural es bastante ambiguo para que el contenido de los documentos sea recuperado de manera automatica.
Igualmente, para hacer descripción del contenido de los documentos Web se han establecido diversas estrategias: metadatos, lenguajes semánticos (XML, RDF, OWL) que permiten indizar los documentos y representar el conocimiento que estos poseen.

Por esto es que hoy día es fácil recuperar información de forma precisa haciendo uso de lenguajes documentales para representar el contenido semántico de estos documentos y soportar las inferencias lógicas.

-Modelo basado en lógica difusa: En este modelo los autores no asignan los grados de pertinencia de los documentos a los términos, adicional a esto, la aplicación de modelos borrosos es ideal para solucionar los problemas de incompletitud e imprecisión al momento de indexar un documento.
En la equiparación difusa, el cálculo se define teniendo en cuenta el grado de pertenencia de los términos.


Fuentes.

Universidad Complutense de Madrid. Departamento de Biblioteconomía y Documentación. Facultad de Ciencias de la Documentación. Martínez Comeche, Juan Antonio.

miércoles, 8 de septiembre de 2010

DOCUMENTO

Es el testimonio material de un hecho o acto realizado en el ejercicio de sus funciones por instituciones o personas físicas, jurídicas, públicas o privadas, registrado en una unidad de información en cualquier tipo de soporte (papel, cintas, discos magnéticos, películas, fotografías, etcétera) en lengua natural o convencional. Es el testimonio de una actividad humana fijada en un soporte.


Documento disponible En http://es.wikipedia.org/wiki/