29 мая 2026 опубликованы 11 коротких демонстраций новых моделей, представленных на Google I/O 2026: Gemini Omni для мультимодальной генерации и диалогового редактирования видео и семейство Gemini 3.5 с версией Flash для ускорения agent‑задач.
29 мая 2026 появились 11 коротких демонстрационных роликов, иллюстрирующих ключевые возможности моделей, анонсированных на Google I/O 2026. В центре внимания — Gemini Omni, ориентированная на мультимодальную генерацию и интерактивное редактирование видео через естественный язык, и семейство Gemini 3.5, включая версию Flash, рассчитанную на многозадачные agent‑рабочие процессы. Демонстрации показывают не только технологию, но и потенциальный практический эффект для творческих и автоматизированных рабочих потоков.
Gemini Omni позиционируется как модель, которая принимает изображения, аудио, видео и текст на входе и генерирует высококачественные видеоматериалы с учётом знаний о мире. Одной из ключевых особенностей роликов стало редактирование через диалог: каждая новая инструкция учитывает предыдущие изменения, сохраняется согласованность персонажей и соблюдаются физические свойства сцены, что упрощает итеративную работу над отснятым материалом. Демонстрации Omni фокусируются на практических трансформациях: изменение действия в исходном видео, добавление новых персонажей и объектов, а также создание сложных визуальных эффектов по текстовым подсказкам. В качестве примеров в роликах приводятся команды от «Make the sculpture out of bubbles» до задания рекурсивной композиции в стеклянной сфере и последовательных правок с виолончелистом — перенос в другую среду, скрытие инструмента и смена ракурса.
Семейство Gemini 3.5 стартовало с релиза 3.5 Flash, который сочетает «пограничную» интеллектуальность и высокую скорость исполнения, делая модель пригодной для длительных agent‑задач. В демонстрациях 3.5 Flash в связке с обновлённым раннером Antigravity показаны многошаговые рабочие процессы: автоматическое переименование и категоризация неструктурированных активов по динамическим правилам, развёртывание суб‑агентов для параллельной обработки и создание интерактивных визуализаций — например, визуализация числа π и генерация 64 фрактальных вариаций.
Для разработчиков и инженеров релизы означают два практических сдвига: Omni делает из существующего видео исходный материал для итеративного творческого процесса, управляемого естественным языком, а 3.5 Flash обещает ускорить реальные agent‑приложения за счёт баланса скорости и производительности. В демонстрациях также подчёркнут надзор при работе с Antigravity и суб‑агентами — модели выполняют сложные сценарии, но инструменты остаются экспериментальными и требуют контроля при внедрении.
Источники
Ответы (0)
Пока нет ответов в этой теме.