Nanotecnología: Relevancia de la representación del conocimiento en la ingeniería lingüística y del conocimiento

Desde que la sociedad de la información global y multilingüe -caracterizada por la omnipotente influencia de las tecnologías de la información y de la comunicación- ha expandido su influencia vertiginosamente, la gestión de los recursos lingüísticos se ha convertido en una necesidad ineludible para la mayoría de las entidades públicas y privadas.

La industria del conocimiento irrumpe con fuerza ofreciendo respuestas que acaben con la infotoxicación y que contribuyan a la creación de más conocimiento a partir de información codificada como simples datos. Esta industria, por su estrecha relación con la codificación del conocimiento como información textual, depende de métodos, herramientas y recursos lingüísticos que han venido desarrollando las industrias de la lengua.

Cada año se crean nuevas asociaciones, comunidades y grupos de interés que se involucran como usuarios o como desarrolladores en actividades relacionadas con la gestión de recursos lingüísticos. Para abastecer de materia prima al mercado son necesarios nuevos lenguajes relacionados con dominios de especial interés, relacionados también con los diferentes registros de la lengua, con una dimensión diferente entre el lenguaje escrito y el oral (chat), y por último, relacionados con la tipología y estructuración textual. De esta materia prima lingüística se abastecen ámbitos tan diversos como el de la traducción e interpretación, el reconocimiento de voz, la recuperación de información en entornos abiertos (Internet) y cerrados (Intranet), y la gestión del conocimiento. Todas estas aplicaciones a las que se dedica la ingeniería lingüística están relacionadas con la gestión de la información y del conocimiento. Son aplicaciones que precisan trabajar con el conocimiento representado en forma de productos terminográficos , sistemas conceptuales y otros recursos lingüísticos , así como métodos , herramientas y experiencia acumulada en este sector de la industria de la lengua.

Desde el punto de vista cognitivo, los sistemas desarrollados en el ámbito de la ingeniería lingüística están estrechamente vinculados a la ingeniería del conocimiento, porque sus planteamientos se basan en estructuras lingüísticas que conforman sistemas conceptuales variables que ofrecen respuestas probables. Esta visión cognitiva se está aplicando en muchos de los retos asociados al procesamiento del lenguaje natural. En este sentido, los nuevos sistemas de traducción automatizada, por ejemplo, se basan en corpus textuales paralelos (memorias de traducción) que se indizan utilizando bases de conocimiento que ayudan a estructurar y desambiguar los posibles resultados que ofrece la máquina (Hutchins y Somers, 1995:417-422). Es un planteamiento diferente con respecto a las primeras épocas de la ingeniería lingüística. La primera época parecía ser meramente estadística hasta que se introdujeron estrategias basadas en conocimiento lingüístico de tipo morfológico y después sintáctico. El renacimiento de la relevancia de la semántica en los desarrollos de la ingeniería lingüística es el resultado de los avances aportados por la ciencia del conocimiento. Esta evolución de planteamientos corresponde a un cambio de paradigma del conocimiento, de uno lineal a otro complejo. Los sistemas de recuperación de información también han sufrido una transformación cuya evolución también ha repercutido en su denominación: sistemas de recuperación de conocimiento , sistemas de gestión de conocimiento. De Mey ha tipificado cuatro etapas en el desarrollo del tratamiento de la información que coindican las que determinan la evolución de la ingeniería lingüística (De Mey, 1980).

La ingeniería lingüística es una actividad eminentemente aplicada. Es el resultado de representar en forma de artefactos y lenguajes artificiales las deducciones que se obtienen del área de trabajo de la lingüística textual, de la lingüística computacional, de la informática, de la terminología y de la organización del conocimiento.

Las áreas de la ingeniería lingüística vinculadas al diseño y desarrollo de sistemas basados en conocimiento son:

Adquisición de conocimiento (knowledge acquisition)

-Identificación de unidades o grupos de conocimiento

-Extracción de datos que representan unidades o grupos de conocimiento

Modelado de conocimiento (knowledge modelling)

-Desarrollo de metadatos interpretables e intercambiables de forma digital

-Arquitectura del conocimiento (metodología para la macroestructura)

-Macroestructura: Estructura para la clasificación, indización y recuperación del conocimiento (sistemas conceptuales)

Representación de conocimiento (knowledge representation)

-Creación de términos

-Recopilación de unidades o grupos de conocimiento

-Identificación de las relaciones semánticas entre unidades o grupos de conocimiento

-Microestructura: estructuración de unidades o grupos de conocimiento

-Macroestructura: estructura para la clasificación, indización y recuperación del conocimiento (sistemas conceptuales)

Infraestructura para el desarrollo de ingeniería de conocimiento (knowledge engineering development infrastructure)

-Bases de conocimiento (knowledge base)

-Reglas de inferencia (inference rules)

-Recuperación de conocimiento (knowledge retrieval)

-Interacción y diseño de interfaces humano-máquina (human-computer interaction /human-computer interface design)

Todas estas áreas enumeradas de forma secuencial están relacionadas entre sí, como intentamos representar en el siguiente esquema:

Figura 9: Ramas de la ingeniería lingüística vinculadas al diseño y desarrollo de sistemas basados en conocimiento

La adquisición de conocimiento está relacionada con una actividad humana que corresponde a la prospección de información (conocimiento) que se obtiene de un experto. En el ámbito de la ingeniería lingüística, y más específicamente de la ingeniería de conocimiento, también se desarrollan herramientas para la extracción automatizada de datos que representan conocimiento, por ejemplo, de tipo léxico o terminológico. Esta extracción se puede realizar de forma manual, a partir de diccionarios electrónicos y de córpora textuales digitalizados (Moreno, 2000:2-3)

La construcción y el mantenimiento de conocimiento sobre un dominio mediante diccionarios (enciclopedias), ontologías, clasificaciones (epistemografías), están vinculados a la representación del conocimiento. Ésta puede beneficiarse de la adquisición del conocimiento, influye en el modelado del conocimiento y, por último, es una pieza insustituible para definir infraestructuras de desarrollo para la ingeniería de conocimiento.

De las tareas correspondientes a la representación del conocimiento, se deben desprender los parámetros (Cámara, 2000) vinculados a las propiedades:

   que nos ofrecen las estructuras semánticas descritas en el sistema conceptual decidido en el modelado del conocimiento, y

  pragmáticas generadas a partir del input de los usuarios, ya sea de forma directa, ya mediante una interfaz de consulta y alimentación.

  De estas propiedades se pueden derivar reglas para el desarrollo del motor de inferencia y de control, dos de los módulos que integran un sistema de gestión basado en conocimiento, como veremos más adelante. La forma que tengamos de presentar el conocimiento, es decir, de publicarlo, dependerá de los criterios adoptados para la representación de la microestructura y de la macroestructura. Por tanto, la publicación del conocimiento está vinculado a su representación y modelado.

La importancia de la representación del conocimiento en redes multiasociativas basadas en probabilidades marca una etapa cognitiva que también repercute en la ingeniería lingüística. Se trata de que los sistemas simulen la forma de procesar la información en el cerebro, lo que supone representar previamente esa forma de clasificar y estructurar el cerebro para alimentar el sistema con información que pueda generar instrumentos de gestión de conocimiento.

Para ello, la estructuración del conocimiento representado que conforma la llamada base de conocimiento de cualquier sistema experto es esencial. Eso quiere decir que cualquier proyecto de inteligencia artificial que utilice el conocimiento como clave de la resolución automatizada de problemas cognitivos deberá confeccionar en primera instancia un proyecto de representación de conocimiento de un ámbito concreto de especialidad para poder generar una buena base de conocimiento de donde se pueda inferir y transferir nuevo conocimiento.

Cualquier sistema cuyo objeto sea gestionar conocimiento tiene que contar con una base de conocimiento, que es un módulo que contiene la memoria estructurada de un determinado dominio experto y, por tanto, uno de los dispositivos esenciales de cualquier sistema basado en conocimiento (SBC).

Base de conocimiento experto

La base de conocimiento experto, como se puede ver en la ilustración que sigue, es el módulo de mayor capacidad de memoria , pues es ahí donde se almacenan las estructuras lingüísticas con sus relaciones semánticas. Estas estructuras conceptuales son la representación del conocimiento experto mediante términos , y deben servir para la resolución de problemas específicos. Del conocimiento morfológico y semántico aportado por las relaciones semánticas, se obtienen algunas reglas predictivas que anticipan las consultas de los usuarios y proponen soluciones basadas en ecuaciones de probabilidad. Estas reglas son dependientes del dominio experto y de la información almacenada sobre ese dominio, aunque algunas puedan considerarse reglas genéricas, aplicables, por tanto, a cualquier dominio.

Los otros dispositivos genéricos de cualquier SBC son los siguientes:

Motor de inferencia y de búsqueda

El motor o máquina de inferencia activa el proceso que hace a la máquina razonar a partir de los datos. Las relaciones conceptuales representadas en la base de conocimiento se utilizan como motor inferencial. Este proceso se realiza mediante reglas de control y razonamiento que activan la propiedades de la base de conocimiento. El motor de inferencia cuenta también con una memoria de trabajo donde se almacenan los datos de entrada y las conclusiones intermedias que se van generando durante el proceso de razonamiento.

Interfaces de usuario (interfaces humano-máquina)

Las interfaces son el puente que permiten la comunicación entre el humano y la máquina. Ofrecen al usuario una posibilidad de entrada y de salida del sistema. En la interfaz de consulta , el usuario debe introducir las unidades de conocimiento a las que desee relacionar su consulta. Como resultado de hacer interactuar las reglas del motor de inferencia con un término de la estructura de la base de conocimiento, el sistema debe proporcionar opciones de consulta. Y estas opciones dependerán siempre del material almacenado en la base de conocimiento experto, y no de las reglas del motor de inferencia.

Figura 10: Arquitectura de un sistema basado en conocimiento (SBC)

Los sistemas basados en conocimiento se apartan de otros modelos tradicionales por separar el conocimiento según el modo en que se usa ese conocimiento. De esta manera, la probabilidad de las respuestas satisfactorias obtenidas por el sistema aumenta, de tal modo que se reducen las respuestas deterministas que no se corresponden con el paradigma del conocimiento humano (paradigma de conocimiento complejo), ya explicado.

Los SBC son sistemas que resuelven problemas utilizando una representación simbólica del conocimiento humano mediante el lenguaje (Jackson, 1999). Separan el conocimiento especifico del problema (base de conocimiento representado de forma textual) de las bases de reglas para solucionarlo (máquina de inferencia). Mediante esta separación, consiguen un alto rendimiento en un dominio especifico haciendo uso de heurísticas y de inferencia simbólica (Morales y Sucar, 1999).

La diversidad y posibilidad combinatoria del conocimiento nos obliga a usar el conocimiento sobre campos altamente específicos. Así, los SBC usan el conocimiento sobre un campo específico para hallar la solución de un problema de ese campo. La solución encontrada debe estar vinculada a la que extrae una persona con conocimiento sobre el campo del problema, enfrentada a ese mismo problema.

Las ventajas de los SBC estriban en que amplían la difusión y conservación del conocimiento, pueden modificarse y, además, pueden resolver problemas disponiendo de información incompleta con ayuda del motor de inferencia.

Los inconvenientes a los que se enfrenta un SBC están vinculados a que las repuestas ofrecidas no indican siempre una solución de búsqueda deseada; más aún, el conocimiento que pueda tener el sistema se concentra en el dominio experto y ese conocimiento experto es difícil de extraer del humano experto para sistematizarlo.

El rendimiento de los sistemas basados en conocimiento experto depende de la cantidad y la calidad del conocimiento representado de un dominio especifico, es decir, de una base de conocimiento experto. Así, el papel de las técnicas de solución de problemas de forma algorítmica queda relegado a un segundo plano, y se hace imprescindible una buena planificación de base cognitiva para modelar y representar el conocimiento (Cámara, 2002:85-88).

8. A modo de conclusión

La relación entre la información y el conocimiento es muy estrecha por dos razones. Por una parte, el conocimiento es un producto generado a partir de la metabolización de la información y, por otra, la información es conocimiento explícito.

El conocimiento explícito es la forma más eficaz para la transferencia del conocimiento , porque ya está representado, a diferencia del conocimiento tácito, que no lo está. El conocimiento tácito es el saber que tiene un agente sobre un dominio concreto. Ese agente sabe qué decisiones tomar partiendo de su propia memoria, percepción y razonamiento (base de conocimiento humano). Este bioconocimiento es muy complejo de representar, ya que intervienen muchos factores difíciles de determinar. No obstante, reflexionar acerca del conocimiento que sí está representado es un paso para acercarnos a la microestructura y la macroestructura del bioconocimiento, cuyo funcionamiento se caracteriza por su complejidad. Los procesos relacionados con el funcionamiento del bioconocimiento son procesos cognitivos complejos de asociación múltiple. Así, la adquisición, la transferencia y la representación del conocimiento forman un ente indisociable de cuya sinergia se retroalimenta su funcionamiento.

Los recursos para representar el conocimiento pueden ser de tipo lingüístico, visual o auditivo. Uno de los recursos más poderosos para representar conocimiento es el lingüístico. No es el único, pero sí el más potente, y se utiliza también para codificar contenidos por medio de recursos visuales o auditivos. Su representación puede adoptar forma de relato verbal dando forma a cualquier tipo textual posible. Este tipo de representaciones textuales utilizan lenguaje natural y términos , mientras que las representaciones lingüísticas estructurales se forman mediante términos, y ofrecen información acerca de la microestructura y macroestructura que puede tener un domino específico.

La representación del conocimiento desempeña un papel especialmente relevante en las disciplinas de la terminología y de la organización del conocimiento. Éstas, a su vez, se nutren de múltiples disciplinas cuyo denominador común es su fundamento lingüístico , cognitivo y comunicativo. El resultado de la interdependencia de estas ciencias puede resolver incógnitas relacionadas con la representación del conocimiento mediante el lenguaje, a través del cual se representan formas y estructuras que responden a un paradigma de conocimiento complejo , cuya característica dominante es su dinamismo y su capacidad para representar constantemente nuevo conocimiento generando así nuevos recursos lingüísticos.

Los recursos lingüísticos de un determinado dominio que tienen como función la representación del conocimiento sirven para alimentar uno de los componentes imprescindibles de un sistema que gestione recursos lingüísticos de base cognitiva. Este componente se denomina base de conocimiento y en él se halla almacenado, siguiendo un modelado previo, el conocimiento representado de un dominio de especialidad.

Todas las aplicaciones de la ingeniería lingüística , es decir, todos los desarrollos de sistemas informáticos que puedan reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas siguiendo un modelo cognitivo conforman un ámbito especifico de la ingeniería lingüística. Este subcampo se conoce bajo el nombre de ingeniería del conocimiento. El renacimiento de la relevancia semántica en los desarrollos de la ingeniería lingüística es el resultado de los avances aportados por la ciencia del conocimiento. Esta evolución de planteamientos corresponde a un cambio de paradigma de conocimiento, de uno lineal a otro complejo. La trascendencia de las representaciones lingüísticas del conocimiento es crucial para la ingeniería del conocimiento, ya que estos sistemas basan su funcionamiento en una base de conocimiento específico. Por eso, la eficacia de estas bases de conocimiento depende siempre de la calidad del contenido, la capacidad de acceso al conocimiento representado y la asociabildad de los elementos de la estructura que conforma la base de conocimiento en cuestión.

El aporte interdisciplinar que va desde planteamientos filosóficos a emulaciones de modelos mentales en lenguajes legibles por la máquina, pasando por todas las ciencias asociadas a la lingüística, a la ciencia del conocimiento y a las ciencias de la información y la comunicación, será esencial para modelar las estructuras y representar los contenidos de la base de conocimiento. Por ello, la representación de conocimiento tiene una aplicación imprescindible en la ingeniería de enfoque cognitivo. Un acercamiento interdisciplinar nos proporciona nuevas líneas de trabajo para despejar incógnitas, nos presenta nuevos retos y nos obliga a alcanzar un mayor consenso a la hora de representar el conocimiento para facilitar la transferencia de conocimiento entre profesionales de diferentes disciplinas. Un acercamiento interdisciplinar es un esfuerzo cuyo resultado siempre se traducirá en nuevos puntos de vista generando un movimiento informacional que acaba metabolizándose en conocimiento.

http://www.hipertext.net/web/pag224.htm

Nanotecnología

sábado, 5 de febrero de 2011

Relevancia de la representación del conocimiento en la ingeniería lingüística y del conocimiento

No hay comentarios:

Publicar un comentario