Gemini 3.1 Flash‑Lite объявлена 8 мая 2026 года в публикации Michael Gerstenhaber, VP Product Management, Cloud AI, и стала общедоступной через платформу Gemini Enterprise Agent Platform. Модель позиционируют как вариант в линейке Gemini 3, ориентированный на сверхнизкую задержку и высокие объёмы запросов; это решение важно для организаций, которые нуждаются в быстром, масштабируемом и недорогом движке для агентских сценариев и автоматизированных пайплайнов.
Flash‑Lite дополняет существующие варианты Pro и Flash в серии Gemini 3, давая разработчикам выбор между «мышлением» (thinking‑tier) моделей и ускоренными, менее дорогими инстансами. По описанию продукта, Flash‑Lite сохранила достаточную точность для типичных agent‑задач — таких как tool calling и оркестрация — при заметном снижении задержки и стоимости в продакшне, что делает её пригодной для массовых потоков и автоматизированных конвейеров.
В одном из кейсов Gladly использует Flash‑Lite в ядре текстового AI‑агента для обслуживания крупных розничных клиентов: система обрабатывает миллионы клиентских обращений еженедельно через SMS, WhatsApp и Instagram. Gladly сообщает примерно 60% снижение затрат по сравнению с сопоставимыми thinking‑tier моделями при том же токен‑миксе. Технические показатели, приведённые в кейсе, включают p95 латентность около 1,8 секунды для полной генерации ответа, субсекундную p95‑латентность для классификаторов и вызовов инструментов, а также примерно 99,6% успешных ответов при высокой конкурентной нагрузке.
Модель применяют на разных шагах жизненного цикла агента — от выбора инструментов и классификации плейбуков до решения об эскалации к человеку. В секторе разработки программного обеспечения Flash‑Lite используют для интерактивной поддержки в IDE и агентских инструментов. JetBrains отмечает улучшение отзывчивости ассистента и агента Junie; по словам Владислава Танкова, Director of AI в JetBrains, "Интеграция Gemini 3.1 Flash‑Lite преобразила отзывчивость нашего помощника в IDE и агента Junie. Баланс высокой интеллекта и минимальной задержки делает её идеальной для поддержки разработчиков в реальном времени."
В креативных пайплайнах и игровой индустрии модель ускоряет обработку мультимодальных входов и генерацию контента. Astrocade применяет Flash‑Lite для мультимодальной проверки безопасности каждого запроса, inline‑перевода комментариев и доработки промптов для миниатюр; krea.ai использует её как промпт‑энхансер в инструменте Nodes и отмечает выводы как "weirdly creative" для её ценовой категории. Для разработчиков и продуктовых команд это означает доступ к низкой задержке и масштабируемой логике агентов без прежних затратных ограничений, что даёт вариант для встраивания в агентские оркестраторы, высокопроизводительные конвейеры обслуживания и генеративные пайплайны. Модель доступна предприятиям через Gemini Enterprise Agent Platform и позиционируется как опция для требовательных production‑нагрузок.
Источники
Ответы (0)
Пока нет ответов в этой теме.