Si hace poco hablábamos de la capacidad de las máquinas para escuchar, en este artículo repasaremos cómo hacen las inteligencias artificiales para entender lo que decimos. Lo que lleva a la pregunta: ¿nos entienden? ¿Simulan hacerlo? ¿Hay diferencia entre lo uno y lo otro? Habrá que preguntar al PLN o Procesamiento de Lenguaje Natural.
El PLN es un campo de conocimiento con décadas de trabajo detrás. Se ocupa de investigar cómo podemos hacer que las máquinas entiendan lo que decimos en español, inglés o chino. Los robots y las IA “hablan” en un lenguaje binario fuera de nuestro alcance, de modo que la propuesta es actualizar el suyo, literalmente. Hacerlas lo suficientemente inteligentes para que sepan lo que decimos.
¿Un chat que no se sabe las reglas gramaticales?
Cuando un niño empieza a hablar, leer y finalmente escribir —al menos hasta ahora, ya que la educación cambiará notablemente—, suele enseñársele algo de gramática básica. ¿A quién no le suena el verbo ser, to be o, quizá un poco menos, 是 (shì)? Así, un estudiante aprenderá que en los tres idiomas se sigue la famosa estructura sujeto + verbo + predicado. Gramática básica:
[Yo] soy humano.
I am human.
我是人 (Wǒ shì rén)
Pero no todos los avances del Procesamiento del Lenguaje Natural se basan en la gramática, aunque los hay. Los lingüistas y programadores a menudo han incluido patrones de estructuras gramaticales en sus máquinas con la esperanza de que la IA fuese capaz de reconocerlos. Sin embargo, las personas omitimos fragmentos de frase, desde el sujeto a componentes que damos por sentado. En el ejemplo de arriba, en español, podemos prescindir del sujeto.
Por eso, desde hace tiempo, se suma otra línea de investigación, el Procesamiento del Lenguaje Natural orientado a modelos probabilísticos del lenguaje natural. ¿Qué significa esto? Vamos a verlo con un ejemplo. Pensemos en qué probabilidad hay de que en español o inglés haya un eres/are detrás del sujeto Yo/I. La probabilidad es nula porque las lenguas latinas y germánicas tienen declinaciones. “Yo eres persona” es una frase sin sentido.
No ocurre así con el chino. El verbo “ser” (是) no cambia en absoluto en base al sujeto. Esto es importante porque los modelos probabilísticos varían de un idioma a otro e incluso entre regiones. Especialmente en sintaxis. El verbo “coger” es usado como verbo comodín en España, pero será raro que una máquina se lo encuentre si toma como lectura base un periódico mexicano.
¿Cómo digitalizo el componente cultural, el chiste o la metáfora?
Digitalizar la voz es extremadamente fácil: se hace cada vez que hablamos por teléfono. Extraer palabras de esa voz, también, y hay aplicaciones como el traductor instantáneo que vemos en smartphones como el Huawei P20 Pro que son capaces de transformar audio a texto. Sin embargo, ¿cómo introducimos el componente cultural, indispensable para que una máquina nos entienda?
Si le preguntas a una máquina qué ve en la imagen de arriba, responderá “vaso”, “agua”, “mesa” o algo similar. Sin embargo, cualquier persona podría hacer una broma y decir que se trata de un dispositivo de alta tecnología usado como detector de dinosaurios. Si uno busca por “detector dinosaurios” en Google, encontrará imágenes de vasos de agua.
¿Por qué? Porque en la primera película de Jurassic Park aparecía uno cuando un Tiranosaurio Rex golpeaba el suelo al caminar. Esa pieza de cultura colectiva la entienden las personas, pero no las máquinas, incluso aunque conozcan el significado de las palabras involucradas. Los chistes son conjuntos de palabras, pero su significado va más allá de ellas. De su literalidad.
Lo mismo ocurre con otros escenarios, como los autoantónimos, palabras que son su propio opuesto. Si decimos “He alquilado un piso”, podremos estar pagando o cobrando. Las inteligencias artificiales tendrán que aprender a sacar información del contexto y saber que, por ejemplo, cuando decimos “me aburro” lo que esperamos que se entienda es “quiero que me entretengas”.
La inteligencia artificial ya está cambiando la economía y, sin embargo, no sabe distinguir entre “ahora” y “ahora”. ¿Quién no ha dicho en algún momento “Hago los deberes ahora mismo” aludiendo a un plazo nada definido entre ya y dentro de un par de horas? El gran problema es que a la IA le falta sentido común.
El sentido común, el menos común de los sentidos
Salvo alguna excepción sonada, las personas tenemos sentido común. Las máquinas no, y es el motivo por el que cinco minutos de chat con un chatbot pueden resultarnos una tortura griega. Aún preferimos conversar con humanos porque, aunque los chatbots ya pueden leer lo que escribimos (SAM) o decimos (Sophia), eso no significa que sepan lo que queremos decir.
Los chats basados en inteligencia artificial son, de momento, sistemas de Procesamiento de Lenguaje Natural reactivos. Nosotros les hablamos, cotejan nuestra frase con una gran base de datos (si esta no existe es poco probable que la IA tenga sentido), y nos dan una respuesta reactiva.
Sin embargo, no tienen en cuenta el conjunto, algo que sí pasa en las búsquedas de internet. Si hoy nos pasamos el día buscando detectores de dinosaurios en la red, es probable que dentro de unos días recibamos publicidad al respecto. Quizá incluso compremos un vaso.
La consolidación y transferencia de conocimiento es relativamente fácil con términos aislados, dando peso a determinadas palabras como hacen los buscadores (“Paco no deja de buscar temas relacionados con ‘fútbol’, se los pondré en la parte superior de las búsquedas”), pero esto no es nada fácil cuando se trata de hablar y escuchar. No digamos ya de comprender o cambiar el registro.
Como ejemplo, es fácil entender que no hablamos del mismo modo ante compañeros del trabajo, nuestra pareja o la familia. El Procesamiento de Lenguaje Natural no solo tiene que saber qué orden se sigue en una frase, qué palabra suele ir detrás de cual, sus respectivos significados oficiales según la región, su posible significado añadido en base a metáforas, chistes o cultura personal, o la aproximación que le demos en cada momento. Todo esto lo hacemos sin pensar, porque los seres humanos hemos tenido cientos de milenios para evolucionar y practicar. Las IA aún gatean.
Según Ramón López de Mántaras, investigador español de reconocido prestigio en el campo de la inteligencia artificial y el aprendizaje máquina, “la dificultad principal para avanzar a este tipo de inteligencia es la falta de sentido común de las máquinas”. Podemos observar una pequeña ponencia suya en la exposición “Más allá de 2001: Odiseas de la inteligencia”, en Madrid.
Entonces, ¿las máquinas nos entienden/entenderán?
“No existe ninguna inteligencia artificial que equivalga a la mente de una persona, ni es lo que se pretende”. Recogemos las palabras de Pablo Gervás, director del grupo de investigación en Interacción Natural basada en el Lenguaje y el Instituto Tecnología del Conocimiento de la Universidad Complutense de Madrid.
Las inteligencias artificiales capaces de escucharnos harán realidad algunos sueños, nos ayudarán en algunas tareas y obedecerán nuestras órdenes; así como la IA del Huawei P20 Pro o Huawei Mate 20 Pro puede ayudarnos con el retoque fotográfico. Sin embargo, ni los asistentes de voz nos entienden, ni el chip Kirin sabe qué es un paisaje.
Su actuación es matemática y binaria. Lo que hacen lo hacen a las mil maravillas, pero no tienen conciencia de haberlo hecho. Piensan, en el sentido de ejecutar, pero no meditan. Tampoco nos entienden, aunque las investigaciones en Procesamiento de Lenguaje Natural vayan en esa línea. Todo parece indicar que para que un robot entienda un chiste quedan décadas, por lo menos.
Imágenes | iStock/Honored_Member, iStock/gonin, wuny, iStock/ABIDAL, Jeremy Bishop