
Stability IA anunció Stable Audio 3.0, una nueva familia de modelos de IA para generación de audio entrenada íntegramente con datos licenciados, diseñada para producir pistas más largas y con control temporal fino. El lanzamiento busca ofrecer opciones abiertas para desarrolladores y servicios comerciales diferenciados; como resultado, creadores y empresas podrán elegir entre modelos de código abierto o capacidades propietarias con soporte y licencias empresariales.
La familia incluye cuatro variantes: Stable Audio 3.0 Small SFX y Stable Audio 3.0 Small (459 millones de parámetros), que generan pistas de hasta 2 minutos y alcanzan 0,44 s de inferencia en una GPU H200; Stable Audio 3.0 Medium (1,4 mm de parámetros), con capacidad para piezas de hasta 6:20 y 1,31 s de inferencia. Las tres primeras variantes se publican con pesos abiertos en Hugging Face, facilitando su uso y ajuste por la comunidad.
El modelo Stable Audio 3.0 Large (2,7 mm de parámetros) no se publica como pesos abiertos: su acceso queda reservado a la API de Stability IA, al socio fal.ai o a licencias empresariales que permiten hospedar el modelo en la propia infraestructura del cliente. Para clientes empresariales, la compañía ofrece además indemnización legal, una medida destinada a reducir riesgos regulatorios y contractuales al integrar el modelo en productos comerciales.
En lo técnico, la nueva arquitectura incorpora un autoencoder semántico — acústico que permite salidas de longitud variable y control por segundos, junto con inpainting para editar o extender segmentos de audio. Stable Audio 3.0 añade soporte LoRA y documentación para afinamiento, y Stability IA proporciona afinamiento guiado para clientes empresariales con el fin de optimizar despliegues en dispositivos móviles y plataformas musicales.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.