
Запись от 20 мая 2026 г., подписанная Steph Spector, представляет подробный справочник по моделям ИИ, которые можно подключать в автоматизации (Zap), и публикует результаты внутреннего бенчмарка AutomationBench — в нём лидерами оказались Gemini 3.5 Flash и GPT‑5.5. Это важно для инженеров и разработчиков, потому что справочник и бенчмарк показывают, какие модели доводят реальные рабочие процессы до нужного конечного состояния, а не только дают хорошие ответы на одиночные промпты. AutomationBench — собственный бенчмарк платформы для оценки поведения моделей на многошаговых задачах. В отличие от обычных тестов по одному промпту, он моделирует реальные фрикции: лишние данные, скрытую информацию, похожие имена объектов и жёсткие правила бизнес‑политик. При этом в тестах специально не использовались персональные данные (PII).
В качестве иллюстрации методики приводится тест‑сценарий с конфликтом расписания: 20 февраля 2026 г. в 14:00 одновременно запланированы Zoom‑встреча и событие Google Calendar. Задача модели — определить победителя по политике приоритетов, переименовать проигравшую встречу с добавлением префикса [RESCHEDULED] и опубликовать в канале #ops‑updates итог с ID обеих встреч. Оценка сосредоточена только на конечном состоянии и побочных эффектах автоматизации.
Лидерборд AutomationBench демонстрирует небольшое, но заметное преимущество нескольких конфигураций: на первом месте — Gemini 3.5 Flash (Medium) с 14.5%, далее GPT‑5.5 (XHigh) 12.9%, Gemini 3.5 Flash (High) 12.6%, Gemini 3.5 Flash (Low) 12.2% и GPT‑5.5 (High) 11.3%. Проценты отражают долю задач из тестовой выборки, которые модель полностью завершила в AutomationBench. В контексте платформы отмечается, что OpenAI предлагает самый широкий набор моделей: от бюджетных «мини» до продвинутых движков для рассуждений и отдельных инструментов для транскрипции и генерации изображений. Платформа также поддерживает модели от Google (Gemini) и Anthropic (Claude) и интегрируется с сотнями AI‑приложений помимо встроенного инструмента платформы.
Практическое следствие для команд разработки и инженерии — выбор модели на основе результатов AutomationBench для конкретного сценария. Бенчмарк отдаёт приоритет моделям, которые доводят рабочий процесс до нужного результата, даже если они дороже, а наличие интеграций с Google, Salesforce и Microsoft позволяет выстраивать сквозные, защищённые AI‑автоматизации в корпоративном стеке.
Источники
Ответы (0)
Пока нет ответов в этой теме.