10 enero, 2026
InicioNoticiasTecnolog铆a馃 Nueva IA puede escuchar y hablar al mismo tiempo: Revoluci贸n en...

馃 Nueva IA puede escuchar y hablar al mismo tiempo: Revoluci贸n en la interacci贸n humano-IA en tiempo real

Investigadores desarrollan un modelo de lenguaje capaz de escuchar y hablar simult谩neamente, avanzando en las conversaciones interactivas en tiempo real basadas en voz.

Un equipo de investigadores en inteligencia artificial ha creado un innovador modelo de lenguaje llamado Listening-While-Speaking Language Model (LSLM), que puede escuchar y hablar al mismo tiempo, mejorando significativamente las conversaciones interactivas en tiempo real basadas en voz.

El modelo LSLM permite una modelizaci贸n de duplex completo en modelos de lenguaje interactivo de voz, lo que significa que puede procesar la entrada de audio en tiempo real mientras genera discurso. Esta capacidad es un paso adelante en comparaci贸n con los modelos de conversaci贸n tradicionales, que funcionan en base a turnos, ya que el LSLM puede manejar interrupciones y responder de manera m谩s natural.

El LSLM utiliza un generador de texto a voz (TTS) basado en un decodificador de solo tokens para la generaci贸n de habla y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. Este sistema es capaz de detectar los turnos de conversaci贸n en tiempo real y responder a interrupciones, una caracter铆stica clave de las conversaciones naturales.

Los experimentos han demostrado que el modelo es robusto frente al ruido y sensible a una variedad de instrucciones. Mientras que el modo de voz avanzada recientemente introducido por OpenAI para ChatGPT nos acerca a conversaciones realistas con IA, el LSLM va un paso m谩s all谩 al permitir que la IA procese el habla entrante mientras habla. Esto podr铆a revolucionar las interacciones humano-IA, haciendo que las conversaciones con m谩quinas se sientan verdaderamente naturales y receptivas.

Modelo de lenguaje puede escuchar mientras habla

El di谩logo sirve como la forma m谩s natural de interacci贸n entre humanos y computadoras. Los avances recientes en modelos de lenguaje de voz han mejorado significativamente la IA conversacional basada en voz. Sin embargo, estos modelos est谩n limitados a conversaciones basadas en turnos, careciendo de la capacidad de interactuar con los humanos en escenarios de conversaci贸n en tiempo real, como responder a interrupciones cuando el contenido generado no es satisfactorio. Para abordar estas limitaciones, se ha explorado la modelizaci贸n de duplex completo (FDM) en modelos de lenguaje de voz interactivos (iSLM), enfoc谩ndose en mejorar la interacci贸n en tiempo real y, m谩s expl铆citamente, en explorar la capacidad esencial de interrupci贸n.

El nuevo dise帽o del modelo, conocido como Listening-While-Speaking Language Model (LSLM), es un sistema de extremo a extremo equipado con canales tanto de escucha como de habla. Nuestro LSLM emplea un generador de texto a voz basado en un decodificador de solo tokens para la generaci贸n de habla y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. LSLM fusiona ambos canales para la generaci贸n autorregresiva y detecta los turnos de conversaci贸n en tiempo real. Se han explorado tres estrategias de fusi贸n: fusi贸n temprana, fusi贸n media y fusi贸n tard铆a, siendo la fusi贸n media la que logra un equilibrio 贸ptimo entre la generaci贸n de habla y la interacci贸n en tiempo real.

Dos configuraciones experimentales, FDM basada en comandos y FDM basada en voz, demuestran la robustez del LSLM frente al ruido y su sensibilidad a diversas instrucciones. Nuestros resultados destacan la capacidad del LSLM para lograr una comunicaci贸n duplex con un impacto m铆nimo en los sistemas existentes. Este estudio tiene como objetivo avanzar en el desarrollo de sistemas de di谩logo de voz interactivos, mejorando su aplicabilidad en contextos del mundo real.

Este avance en la tecnolog铆a de inteligencia artificial no solo mejora la eficiencia y la naturalidad de las interacciones con m谩quinas, sino que tambi茅n abre nuevas posibilidades para aplicaciones en diversas industrias, desde asistentes virtuales hasta servicios de atenci贸n al cliente y robots interactivos. Con el continuo desarrollo y perfeccionamiento de modelos como el LSLM, el futuro de la comunicaci贸n con IA promete ser m谩s fluido y humano que nunca.

Para m谩s informaci贸n, puedes visitar el sitio oficial del proyecto LSLM y leer el documento de investigaci贸n completo.

Carrero
Carrero
Editor y co-fundador de Diario de Noticias de Alc谩zar de San Juan.
ART脥CULOS RELACIONADOS
- Patrocinadores -

M谩s populares

Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La informaci贸n de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qu茅 secciones de la web encuentras m谩s interesantes y 煤tiles.