🤖 Nueva IA puede escuchar y hablar al mismo tiempo: Revolución en la interacción humano-IA en tiempo real

7 agosto, 2024

Tiempo de lectura: 3 min.

Investigadores desarrollan un modelo de lenguaje capaz de escuchar y hablar simultáneamente, avanzando en las conversaciones interactivas en tiempo real basadas en voz.

Un equipo de investigadores en inteligencia artificial ha creado un innovador modelo de lenguaje llamado Listening-While-Speaking Language Model (LSLM), que puede escuchar y hablar al mismo tiempo, mejorando significativamente las conversaciones interactivas en tiempo real basadas en voz.

El modelo LSLM permite una modelización de duplex completo en modelos de lenguaje interactivo de voz, lo que significa que puede procesar la entrada de audio en tiempo real mientras genera discurso. Esta capacidad es un paso adelante en comparación con los modelos de conversación tradicionales, que funcionan en base a turnos, ya que el LSLM puede manejar interrupciones y responder de manera más natural.

El LSLM utiliza un generador de texto a voz (TTS) basado en un decodificador de solo tokens para la generación de habla y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. Este sistema es capaz de detectar los turnos de conversación en tiempo real y responder a interrupciones, una característica clave de las conversaciones naturales.

Los experimentos han demostrado que el modelo es robusto frente al ruido y sensible a una variedad de instrucciones. Mientras que el modo de voz avanzada recientemente introducido por OpenAI para ChatGPT nos acerca a conversaciones realistas con IA, el LSLM va un paso más allá al permitir que la IA procese el habla entrante mientras habla. Esto podría revolucionar las interacciones humano-IA, haciendo que las conversaciones con máquinas se sientan verdaderamente naturales y receptivas.

Modelo de lenguaje puede escuchar mientras habla

El diálogo sirve como la forma más natural de interacción entre humanos y computadoras. Los avances recientes en modelos de lenguaje de voz han mejorado significativamente la IA conversacional basada en voz. Sin embargo, estos modelos están limitados a conversaciones basadas en turnos, careciendo de la capacidad de interactuar con los humanos en escenarios de conversación en tiempo real, como responder a interrupciones cuando el contenido generado no es satisfactorio. Para abordar estas limitaciones, se ha explorado la modelización de duplex completo (FDM) en modelos de lenguaje de voz interactivos (iSLM), enfocándose en mejorar la interacción en tiempo real y, más explícitamente, en explorar la capacidad esencial de interrupción.

El nuevo diseño del modelo, conocido como Listening-While-Speaking Language Model (LSLM), es un sistema de extremo a extremo equipado con canales tanto de escucha como de habla. Nuestro LSLM emplea un generador de texto a voz basado en un decodificador de solo tokens para la generación de habla y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. LSLM fusiona ambos canales para la generación autorregresiva y detecta los turnos de conversación en tiempo real. Se han explorado tres estrategias de fusión: fusión temprana, fusión media y fusión tardía, siendo la fusión media la que logra un equilibrio óptimo entre la generación de habla y la interacción en tiempo real.

Dos configuraciones experimentales, FDM basada en comandos y FDM basada en voz, demuestran la robustez del LSLM frente al ruido y su sensibilidad a diversas instrucciones. Nuestros resultados destacan la capacidad del LSLM para lograr una comunicación duplex con un impacto mínimo en los sistemas existentes. Este estudio tiene como objetivo avanzar en el desarrollo de sistemas de diálogo de voz interactivos, mejorando su aplicabilidad en contextos del mundo real.

Este avance en la tecnología de inteligencia artificial no solo mejora la eficiencia y la naturalidad de las interacciones con máquinas, sino que también abre nuevas posibilidades para aplicaciones en diversas industrias, desde asistentes virtuales hasta servicios de atención al cliente y robots interactivos. Con el continuo desarrollo y perfeccionamiento de modelos como el LSLM, el futuro de la comunicación con IA promete ser más fluido y humano que nunca.

Para más información, puedes visitar el sitio oficial del proyecto LSLM y leer el documento de investigación completo.

Artículo anterior

Operativo de los Mossos para evitar la entrada de Puigdemont al Parlament

Artículo siguiente

Levantado el Confinamiento en Tres Municipios Afectados por el Incendio de La Estrella

ARTÍCULOS RELACIONADOS

🤖 Nueva IA puede escuchar y hablar al mismo tiempo: Revolución en la interacción humano-IA en tiempo real

Investigadores desarrollan un modelo de lenguaje capaz de escuchar y hablar simultáneamente, avanzando en las conversaciones interactivas en tiempo real basadas en voz.

Modelo de lenguaje puede escuchar mientras habla

Una Perspectiva Firme sobre Nuestra Existencia en el Mundo

Fastly y LALIGA garantizan mayor efectividad en la lucha contra la piratería tras meses de controversia por los bloqueos.

Pedro Sánchez ratifica el respaldo de España a la democracia bielorrusa en encuentro con Svetlana Tijanóvskaya

Más populares

La Diputación Solicita el Reconocimiento de la Rehala y la Montería como Patrimonio Cultural Inmaterial

Diez Mayores Lanzan un Innovador Servicio de Cuidado para Mejorar su Calidad de Vida en el Hogar

El valor del esfuerzo: Dolz resalta la labor de la Asociación Parkinson Cuenca

Alcázar de San Juan consolida su posición como sede del Campeonato de Duatlón en su segunda edición