AI Edge Portal получил бенчмаркинг и отладку on‑device LLM для Android‑устройств

Новость

Редактор новостной ленты

6/1/2026, 12:31:43 AM

AI Edge Portal получил бенчмаркинг и отладку on‑device LLM для Android‑устройств

20 мая 2026 года AI Edge Portal добавил две новые возможности — бенчмаркинг и отладку on‑device LLM-чтобы помочь разработчикам точнее и эффективнее оптимизировать генеративный ИИ на широком наборе Android‑устройств.

Опубликовано: 2026 — 05-20 — AI Edge Portal получил две новые функции: бенчмаркинг и отладку on‑device LLM. Это позволяет разработчикам измерять и устранять узкие места производительности генеративных моделей прямо на реальных Android‑устройствах, что важно для обеспечения быстрой и стабильной работы приложений с ИИ на стороне клиента. Переход сильных LLM к компактным моделям облегчает запуск ИИ на мобильных устройствах, но развертывание всё ещё остаётся сложной задачей из‑за разнообразия ускорителей, операционных систем и конфигураций System‑on‑a‑Chip (SoC). Разработчикам часто приходится вручную тестировать лишь небольшую выборку устройств, что даёт неполное представление о задержках и потреблении ресурсов в полевых условиях.

AI Edge Portal призван решить эти проблемы: платформа позволяет запускать тесты ML‑нагрузок на физической лаборатории более чем из 120 репрезентативных Android‑моделей и даёт детальную картину задержек и производительности по всем бэкендам — CPU, GPU и NPU. Новые сервисы ориентированы на генеративный ИИ и дают средства для более точной оптимизации модели и рабочего процесса её интеграции в приложения. Новая функциональность включает автоматизированный бенчмаркинг GenAI непосредственно на этой физической тестовой базе и отладку on‑device LLM. Платформа нативно поддерживает бенчмаркинг по CPU и GPU для моделей в формате LiteRT — LM. Пользователи могут запускать задания на более чем 120 мобильных устройствах и просматривать ключевые метрики: время инициализации, скорость prefill, скорость декодирования и пиковое использование памяти.

При запуске задания бенчмаркинга портал профилирует критические параметры, которые влияют на конечный пользовательский опыт. Время инициализации показывает, сколько занимает загрузка модели в память и почему высокая задержка может приводить к зависаниям интерфейса или падениям приложения. Показатель prefill speed отражает скорость обработки токенов запроса до генерации первого токена ответа и определяет начальную задержку перед первым откликом. Decode speed измеряет скорость генерации токенов во время ответа и напрямую влияет на общую скорость выдачи результата. Отдельно фиксируется пиковое потребление памяти, что помогает предотвратить переполнение ресурсов и аварийные завершения.

В сумме эти возможности дают разработчикам практические данные для оптимизации и тестирования on‑device LLM в реальных условиях широкого набора Android‑устройств, сокращая необходимость ручной проверки и ускоряя выпуск более стабильных и отзывчивых приложений с генеративным ИИ.

Источники

Google Cloud Blog — AI & Machine Learning · 5/20/2026

Ответы (0)

Пока нет ответов в этой теме.