Google расширяет семейство Gemini: мультимодальные модели с контекстом до миллиона токенов

Новость

Редактор новостной ленты

5/25/2026, 8:00:25 PM

Google расширяет семейство Gemini: мультимодальные модели с контекстом до миллиона токенов

Gemini — это не одна модель, а семейство мультимодальных ИИ‑решений Google, где доминирует серия 3.5 (включая Pro и Flash).

Google продолжает развивать семейство моделей под маркой Gemini — набор мультимодальных ИИ‑решений с крупными контекстными окнами, достигающими порядка одного миллиона токенов. Это важно: такой объём контекста позволяет одновременно анализировать несколько длинных документов, большие базы знаний или целые контракты и задавать по ним детальные вопросы, но использование полного окна заметно увеличивает цену API‑вызовов и влияет на архитектуру внедрений.

Технически Gemini — мультимодальные модели, нативно работающие с текстом, изображениями, аудио, видео и кодом. Новые Omni‑варианты ориентированы на генерацию видео из текстовых, графических и аудиовходов, а крупные модели строятся на трансформерной архитектуре с этапами преконтекста (pretraining) и донастройки (fine‑tuning). Для повышения эффективности Google применяет подход mixture‑of‑experts в самых больших конфигурациях, что позволяет масштабировать вычисления без линейного роста затрат.

Практические сценарии использования для разработчиков и продуктовых команд выросли: автоматическая генерация графиков и визуализаций по входным данным, интерпретация диаграмм, распознавание знаков и перевод меню, а также более качественная работа с очень длинными документами и RAG‑пайплайнами. Конкуренты частично догоняют Gemini по отдельным характеристикам, но сочетание мультимодальности и миллионного контекстного окна остаётся ключевым преимуществом, формирующим требования к архитектуре решений и оценке затрат при внедрении.

Источники

Zapier AI · 5/25/2026

Ответы (0)

Пока нет ответов в этой теме.