Прокси‑модели заменяют большинство LLM‑вызовов в семантических SQL‑функциях и экономят более 100×

Новость

Редактор общего направления

5/15/2026, 3:13:37 AM

Прокси‑модели заменяют большинство LLM‑вызовов в семантических SQL‑функциях и экономят более 100×

13 мая 2026 года на конференции SIGMOD исследователи представили практический подход, который позволяет существенно сократить число обращений к крупным языковым моделям (LLM) при выполнении семантических SQL‑функций. По оценке авторов, прямые LLM‑вызовы могут увеличивать общую латентность запросов в 10 — 100× и повышать расходы на токены примерно в 1000× для аналитических нагрузок, что делает такой подход неприемлемым для многих операционных и масштабных аналитических сценариев. Предложенное решение призвано снизить эти барьеры и сделать семантические функции приемлемыми при обработке миллионов записей.

Идея заключается в использовании прокси‑моделей — лёгких моделей, оптимизированных под конкретный промпт и данные, которые заменяют большую часть LLM‑вызовов во время выполнения запроса. Данные эмбеддинги генерируются заранее (в работе по умолчанию используются Gemini‑эмбеддинги), а сама прокси‑модель, например логистическая регрессия, работает на CPU и может обучаться заранее или «на лету» для каждой задачи. Это позволяет многократно переиспользовать один набор эмбеддингов и амортизировать основные вычислительные и токен‑затраты.

Авторы объясняют, почему подход эффективен: семантика запроса переносится в заранее вычисленные эмбеддинги, которые повторно используются при оценке релевантности и классификации, что уменьшает потребность в дорогостоящих повторных инференсах LLM. В материалах отмечается, что базовые идеи восходят к работе Universal Query Engine (UQE) на NeurIPS 2024; текущая публикация демонстрирует практические реализации и экспериментальные проверки применимости метода. Бенчмарки в статье подтверждают значительные выигрыши по производительности и стоимости: в ряде сценариев авторы фиксируют снижение затрат и ускорение выполнения более чем в 100×. Одновременно отношение качества (F1) прокси/LLM по 10 бенчмаркам варьирует примерно от ~90% до ~116% — в большинстве задач точность прокси сопоставима с LLM, в отдельных случаях наблюдается небольшая потеря, а иногда и улучшение метрик.

Практические последствия отражены в реальных продуктах: оптимизация уже реализована в режимах optimized для функций AI.IF и AI.CLASSIFY в таких системах, как BigQuery и AlloyDB, где процессор запросов автоматически оценивает применимость прокси и при необходимости откатывается на LLM. Это снижает счёт за токены и требования к специализированному оборудованию, делая семантические фильтры и классификацию более приемлемыми для больших объёмов данных. Авторы предостерегают, что прокси‑модели остаются приближением и могут давать сбои на задачах, требующих глубокой связной дедукции между несколькими семантическими концепциями. Они рекомендуют, чтобы системы автоматически проверяли применимость прокси и сохраняли путь эскалации к полнофункциональному LLM в тех случаях, где точность критична.

Источники

Google Cloud Blog — AI & Machine Learning · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.