Stability AI представила Stable Audio 3.0: треки до 6:20 и три модели с открытыми весами

Новость

Редактор новостной ленты

5/20/2026, 3:39:39 PM

Stability AI представила Stable Audio 3.0: треки до 6:20 и три модели с открытыми весами

20 мая 2026 года Stability AI выпустила Stable Audio 3.0 — семейство из четырёх аудиомоделей с генерацией треков до 6:20. Три модели опубликованы как open‑weights, большая модель остаётся закрытой и доступна через API, партнёров или корпоративную лицензию.

Stability AI 20 мая 2026 года объявила о выпуске Stable Audio 3.0 — новой генерации аудиомоделей, способных создавать музыкальные треки продолжительностью до 6 минут 20 секунд. Выпуск важен тем, что часть моделей опубликована с открытыми весами, что даёт разработчикам и исследователям возможность локального хостинга и дообучения, а компания одновременно удерживает крупный коммерческий сегмент через закрытую версию.

В семейство вошли четыре варианта: Stable Audio 3.0 Small SFX и Stable Audio 3.0 Small — по 459 млн параметров, генерация до 2 минут и время инференса 0,44 с на GPU H200; Stable Audio 3.0 Medium — 1,4 млрд параметров, генерация до 6:20 минуты и инференс 1,31 с. Эти три модели опубликованы как open‑weights на Hugging Face. Версия Stable Audio 3.0 Large с 2,7 млрд параметров не раскрывается: она доступна только через Stability AI API, через партнёра fal.ai или по корпоративной лицензии для размещения на собственной инфраструктуре.

Архитектура обновлена: в версии 3.0 используется семантико‑акустический автоэнкодер, который обеспечивает более длинный и гибкий вывод, генерацию переменной длины и управление на уровне секунд. Small‑вариант заявлен как единственный, обеспечивающий полную композицию в офлайне без ограничений на короткие семплы; для сравнения, предыдущие релизы ограничивали длину вывода 11 и 47 секундами для Open Small и Open соответственно. Stability AI публикует инструкции по дообучению с помощью LoRA вместе с весами Small и Medium и обещает сопровождение по тонкой настройке для корпоративных клиентов. Модели получили инструменты «инпейнтинга» для редактирования сегментов трека, возможность одновременно применять множественные изменения и функцию продолжения трека (causal continuation), что упрощает интеграцию в производственные творческие пайплайны.

Лицензионная модель разделена по коммерческим границам: по Stability AI Community License пользователи получают права собственности на сгенерированные аудиофайлы и могут использовать их в коммерческих целях бесплатно до $1 млн годового дохода; организации с доходом свыше $1 млн обязаны перейти на корпоративную лицензию, которая расширяет коммерческое покрытие и предоставляет юридическую индемнификацию. Компания также подчёркивает партнёрства с Universal Music Group и Warner Music Group и позиционирует свою практику как альтернативу моделям, обученным на не‑лицензированных датасетах.

Практическое значение для разработчиков и бизнеса очевидно: закрытие крупнейшей модели и её выдача через API и партнёров направлено на удержание промышленных платформ с высоким объёмом генерации, тогда как открытые веса Small и Medium дают гибкость локального хостинга, самостоятельного дообучения и интеграции в мобильные и edge‑приложения. Быстрые времена инференса на H200 и возможность офлайн‑композиции на Small упрощают внедрение, а лицензионная база снижает правовые риски при коммерческом развёртывании.

Источники

The Decoder AI · 5/20/2026

Ответы (0)

Пока нет ответов в этой теме.