Skip to content
Imagen creada con Wall-E3. Noticias sobre posicionamientoSEO, ciencia, tecnología, gadgets e inteligencia artificial. www.romsolutions.es

El nuevo modelo de audio de IA de Nvidia puede sintetizar sonidos que nunca han existido

En el ámbito de la investigación en inteligencia artificial, ya es conocido que los modelos generativos son capaces de sintetizar discurso o música melódica a partir de simples instrucciones textuales. Sin embargo, el modelo recientemente revelado por Nvidia, denominado ‘Fugatto’, promete ir más allá al utilizar nuevos métodos de entrenamiento sintético y técnicas de combinación a nivel de inferencia para ‘transformar cualquier mezcla de música, voces y sonidos’, incluyendo la síntesis de sonidos que nunca han existido.

Aunque Fugatto aún no está disponible para pruebas públicas, un sitio web lleno de ejemplos demuestra cómo puede ajustarse para modificar una serie de características y descripciones de audio, resultando en sonidos que van desde saxofones ladrando hasta personas hablando bajo el agua, o sirenas de ambulancia cantando en una especie de coro. Aunque los resultados pueden ser dispares, la gran variedad de capacidades exhibidas apoya la descripción de Nvidia sobre Fugatto como ‘una navaja suiza para el sonido’.

En un documento de investigación explicativo, más de una docena de investigadores de Nvidia detallan la dificultad de crear un conjunto de datos de entrenamiento que pueda ‘revelar relaciones significativas entre audio y lenguaje’. Mientras que los modelos de lenguaje estándar a menudo pueden manejar diversas instrucciones a partir de datos textuales, es complicado generalizar descripciones y características del audio sin una guía más explícita.

Para abordar este reto, los investigadores utilizan un modelo de lenguaje grande (LLM) para generar un script en Python que pueda crear una gran cantidad de instrucciones basadas en plantillas y de forma libre, describiendo diferentes ‘personalidades’ de audio (por ejemplo, ‘estándar, jóvenes, profesionales de treinta y tantos’). Posteriormente, generan un conjunto de instrucciones tanto absolutas (por ejemplo, ‘sintetizar una voz feliz’) como relativas (por ejemplo, ‘aumentar la felicidad de esta voz’) que pueden aplicarse a esas personalidades.

Los diversos conjuntos de datos de audio de código abierto utilizados como base para Fugatto generalmente no tienen este tipo de mediciones de características integradas por defecto. Pero los investigadores aprovechan los modelos de entendimiento de audio existentes para crear ‘leyendas sintéticas’ para sus clips de entrenamiento basados en sus indicaciones, generando descripciones en lenguaje natural que pueden cuantificar automáticamente características como género, emoción y calidad del discurso. También se utilizan herramientas de procesamiento de audio para describir y cuantificar clips de entrenamiento a un nivel más acústico (por ejemplo, ‘varianza de frecuencia fundamental’ o ‘reverberación’).

Fuente: [Ars Technica](https://arstechnica.com/ai/2024/11/nvidias-new-ai-audio-model-can-synthesize-sounds-that-have-never-existed/)