¿Cómo funcionan los dispositivos controlados por voz?

Han sido necesarias décadas para que los científicos comprendan el habla humana natural hasta el punto de que las interfaces activadas por voz, como Alexa, el sistema de Procesamiento de Lenguaje Natural de Amazon, estén suficientemente capacitadas para ser aceptadas por los consumidores.

Incluso desde 2012, cuando se presentó la patente de lo que finalmente se convertiría en el Sistema de Inteligencia de Amazon, Alexa, ha habido un tremendo crecimiento en las capacidades y el crédito de ese crecimiento se debe a Machine Learning.

Ahora podemos hablar con casi todos los dispositivos inteligentes, pero ¿cómo funciona? Para algo que hacemos todos los días sin pensarlo, la conversación entre máquinas y humanos es compleja.

Todos estos equipos se basan en el Procesamiento del Lenguaje Natural, un procedimiento para convertir el habla en palabras, sonidos e ideas.

En el caso de Alexa, Amazon graba tus palabras. De hecho, la interpretación de los sonidos consume mucha potencia computacional, la grabación de tu discurso es enviada a los servidores de Amazon para ser analizada más eficientemente.

Amazon descompone las órdenes dadas en sonidos individuales. A continuación, consulta una base de datos que contiene las pronunciaciones de varias palabras para encontrar las que más se ajustan a la combinación de sonidos individuales.

A continuación, identifica las palabras importantes para dar sentido a las tareas y llevar a cabo las funciones correspondientes. Por ejemplo, si Alexa nota palabras como “futbol” o “béisbol”, se abrirá la aplicación deportiva.

Los servidores de Amazon envían la información devuelta a tu dispositivo y Alexa puede hablar. Si Alexa necesita decir algo en contra, pasaría por el mismo proceso descrito anteriormente, pero en orden inverso.

Esta es una explicación muy breve de cómo funciona Alexa, pero ese es el mismo principio de cómo funciona Siri y todos los equipos, disponibles en el mercado, comandados por voz.

Todo este proceso comienza con el procesamiento de la señal, este es uno de los retos más importantes en el audio. La idea es mejorar la señal del destino, lo que significa ser capaz de identificar el ruido ambiental, como el televisor y minimizarlo.

En el caso de Alexa, se utilizan 7 micrófonos para identificar aproximadamente de dónde proviene la señal para que el dispositivo pueda concentrarse en ella. La cancelación de eco acústico puede restar esa señal de modo que sólo quede la señal importante restante.

La siguiente tarea es la detección de la palabra activación. Determina si el usuario dice una de las palabras que el dispositivo está programado para encender, como “Alexa” o “Siri”. Esto es necesario para minimizar los falsos positivos y falsos negativos, lo que podría conducir a compras accidentales y a clientes enojados. Esto es realmente complicado ya que necesita identificar las diferencias de pronunciación, y necesita hacerlo en el dispositivo, que tiene una potencia de CPU limitada.

Si se detecta la palabra de activación, la señal se envía al software de reconocimiento de voz en la nube, ya que mira todas las palabras en el idioma seleccionada, y la nube es la única tecnología capaz de escalar lo suficiente.

Para convertir el audio en texto, Alexa analizará las características del habla del usuario, como la frecuencia y el tono, para darle valores de característica.

Un decodificador determinará cuál es la secuencia de palabras más probable, dadas las características de entrada y el modelo, que se divide en dos partes. La primera de estas piezas es la principal, que da la secuencia más probable en una gran cantidad de texto existente, sin mirar las características, la otra es el modelo acústico, que se entrena con el Aprendizaje Profundo mediante el emparejamiento de audio y transcripciones. Se combinan y se aplica una codificación dinámica, lo que tiene que ocurrir en tiempo real.

Todo este procedimiento se puede dividir en 3 partes principales: activación, nombre de la invocación y declaración.

Activación del dispositivo

Cuando los usuarios de los equipos, por ejemplo, dicen “Alexa”, despiertan al dispositivo. Esta palabra de activación puso al equipo en el modo de escucha y listo para recibir instrucciones de los usuarios. Cada equipo tiene una palabra fija de activación, por ejemplo, Alexa para los equipos de Amazon, Siri para los equipos de Apple, así lo tienen el resto de equipos de control por voz.

Nombre de la invocación

El nombre de la invocación es la palabra clave utilizada para activar una “habilidad” específica. Los usuarios pueden combinar el nombre de la invocación con una acción, comando o pregunta. Todas las habilidades personalizadas deben tener un nombre de invocación para comenzar. Por ejemplo, cuando pedimos información sobre el tiempo de un lugar específico, el nombre de la invocación acá será el tiempo ya que la aplicación entiende que deberá abrir la sección del tiempo.

Declaración

La declaración son frases que los usuarios utilizarán al hacer una petición al dispositivo. El equipo identifica la intención del usuario a partir de la expresión dada y responde en consecuencia. Así que básicamente el enunciado decide qué usuario quiere que el equipo realice.

Después, los dispositivos envían las instrucciones del usuario a un servicio basado en la nube, en donde se procesa la respuesta e identifica la intención del usuario, luego realiza la solicitud de servicio web a un servidor de terceros si es necesario.

Así que, cuando le preguntas a tu celular Iphone: “Siri, ¿cómo va ser el tiempo hoy?”, entonces esa grabación es enviada por internet a la nube, que analiza la grabación en comando que entiende. A continuación, el sistema devuelve el mensaje correspondiente al dispositivo. Cuando preguntas sobre el tiempo, un archivo de audio es enviado de vuelta y Siri te dice el pronóstico del tiempo, todo sin que tengas ninguna idea de que había ida y vuelta entre los sistemas. Lo que eso significa, por supuesto, es que si pierdes la conexión a internet, Siri o cualquiera de estos equipos ya no funciona.

Aprender constantemente de los datos humanos

Machine Learning es la base del poder de estos dispositivos, y se está fortaleciendo a medida que aumenta su popularidad y la cantidad de datos que recopila. Cada vez que, por ejemplo, Alexa comete un error al interpretar una solicitud, esos datos se utilizan para que el sistema sea más inteligente la próxima vez. Machine Learning es la razón de la rápida mejora en las capacidades de la interfaz de usuario activada por voz. Por ejemplo, el discurso de Google fue capaz de mejorar enormemente su tasa de error en un año, ahora reconoce 19 de las 20 palabras que oye. Comprender el habla humana natural es un problema gigantesco, y ahora tenemos la potencia de cálculo a nuestra disposición para mejorarla cuanto más la usamos.

Los desafíos de la generación y el Procesamiento del Lenguaje Natural

El Procesamiento del Lenguaje Natural es una convergencia de Inteligencia Artificial y lingüística computacional que maneja las interacciones entre las máquinas y los lenguajes naturales de los seres humanos, en las que los ordenadores están obligados a analizar, comprender, alterar o generar lenguaje natural.

El Procesamiento del Lenguaje Natural ayuda a las máquinas de computación a participar en la comunicación utilizando el lenguaje humano natural en muchas formas, incluyendo pero no limitándose al habla y la escritura.

Comprender el lenguaje humano se considera una tarea difícil debido a su complejidad. Por ejemplo, hay un número infinito de maneras diferentes de organizar las palabras en una oración. Además, las palabras pueden tener varios significados y la información contextual es necesaria para interpretar correctamente las frases.

Al principio, el sistema obtiene una entrada de lenguaje natural. Después, los convierte en lenguaje artificial como el reconocimiento de voz. Aquí obtenemos los datos en una forma textual que el Entendimiento del Lenguaje Natural (NLU) procesa para entender el significado.

El Entendimiento del Lenguaje Natural es un subconjunto de la Inteligencia Artificial y es la capacidad de obtener respuestas escritas y verbales que suenan naturales basadas en datos que se introducen en un sistema informático. El lenguaje humano es bastante complejo, pero las capacidades actuales de generación de lenguaje natural se están volviendo muy sofisticadas. Piensa en el Entendimiento del Lenguaje Natural como un escritor que convierte los datos en un lenguaje que puede ser comunicado.

La Inteligencia Artificial en la voz es tan atractiva porque mantiene la promesa de apoyar de una manera que es natural para nosotros los humanos, no es necesaria pasar el dedo por encima o escribir a máquina. Por eso también es un reto técnico a construir. Piensa en lo no lineal que es una conversación típica.

Cuando la gente habla se interrumpe, cambia de tema o se repite, usa el lenguaje corporal para añadir significado y usa una gran variedad de palabras que tienen múltiples significados dependiendo del contexto. Es como un padre tratando de entender la lengua de los adolescente, pero mucho mucho más complicada.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *