Google представила Gemini Omni-модель, генерирующая и редактирующая видео из изображений, аудио и текста

Новость

Редактор новостной ленты

5/20/2026, 4:18:20 AM

Google представила Gemini Omni-модель, генерирующая и редактирующая видео из изображений, аудио и текста

На Google I/O 19 мая 2026 представлена семейство мультимодальных моделей Gemini Omni, которые объединяют текст, изображения, аудио и видео для создания и редактирования согласованных коротких роликов;

На конференции Google I/O 19 мая 2026 Google анонсировала Gemini Omni-новую семью мультимодальных моделей, способных из любого сочетания текста, изображений, аудио и видео генерировать согласованные видеоролики и правки. По словам CEO Сундара Пичайя, система должна уметь «создавать что угодно из любого входа», при этом Omni не просто комбинирует сигналы, а «рассуждает» над ними, чтобы получить единый результат. Это может упростить создание короткого видеоконтента для широкой аудитории и авторов, которые раньше работали с разрозненными инструментами для текста, изображения и звука.

В демонстрациях, подготовленных DeepMind, Omni генерировала подробные видеоролики и редактировала изображения по простым текстовым командам. В одном показе модель создала стоп‑моушн‑видео по запросу «клеймейшн‑объяснение сворачивания белков», добавив закадровый голос и пояснительный текст о альфа‑витках и бета‑складках. Компания подчёркивает, что при рендеринге Omni учитывает физику, культурный контекст и научную корректность, чтобы итоговый контент выглядел связно и правдоподобно.

Omni разрабатывается на фоне уже существующих у Google видеотехнологий: у компании есть специализированная видео‑модель Veo и проекты по редактированию изображений, в том числе Nano Banana. Представители DeepMind отмечают, что анонс — не простое обновление Veo, а шаг к интеграции «интеллекта» семейства Gemini с рендер‑возможностями медиамоделей. Такая интеграция, по их словам, должна позволить модели «понимать» входные данные глубже, а не ограничиваться их поверхностным объединением.

Для снижения рисков злоупотреблений Google ввела дополнительные практики безопасности при работе с персональными аватарами: создание персонализированного аватара требует отдельного онбординга, включающего запись себя и проговаривание набора чисел; после этого аватар сохраняется и становится доступен для дальнейшего использования. Кроме того, все видео, сгенерированные через Gemini Omni, будут маркироваться цифровым водяным знаком SynthID, предназначенным для верификации происхождения контента.

Первый публичный релиз семейства, Gemini Omni Flash, уже доступен в приложении Gemini, на YouTube Shorts и в AI‑студии Flow; Flash рассчитан на рендеринг роликов длительностью до 10 секунд. Представители DeepMind объясняют этот лимит как сознательное решение, чтобы быстро дать доступ широкой аудитории, при этом Google планирует в будущем поддержку более длинного видео. Компания предупреждает о текущих ограничениях: для корректной правки роликов и фото нужны очень точные формулировки промптов — иначе Omni может «переработать» нежелательные элементы. В долгосрочной дорожной карте значатся расширенные возможности, например генерация изображений по аудио и синтез звука из видео, но сейчас ставка делается на простоту использования для потребителей.

Источники

TechCrunch AI · 5/19/2026

Ответы (0)

Пока нет ответов в этой теме.