Aivizor
Aivizor
EstilosCreacionesComunidad
Atrás
  1. Comunidad
  2. /
  3. Google

Google presenta herramientas de benchmarking y depuración on‑device para LLMs en IA Edge Portal

News
E
Elena Vorontsova

6/1/2026, 12:57:40 AM

Google presenta herramientas de benchmarking y depuración on‑device para LLMs en IA Edge Portal

El 20 de mayo de 2026 Google presentó dos funciones añadidas a Google IA Edge Portal que permiten ejecutar benchmarking y depuración de modelos de lenguaje grandes (LLM) directamente en dispositivos Android físicos. El anuncio posiciona a Portal como una herramienta dirigida a desarrolladores e ingenieros que necesitan medir y optimizar modelos en el extremo — on‑device — con pruebas automatizadas en un laboratorio real, en lugar de depender únicamente de pruebas locales o de emulación. La infraestructura de pruebas incluye más de 120 tipos representativos de dispositivos Android, lo que busca ofrecer una visión más amplia y reproducible del comportamiento de los modelos en el campo.

Desplegar LLMs en teléfonos móviles plantea un reto técnico amplio: hay que optimizar sobre una combinación heterogénea de aceleradores (CPU, GPU, NPU), versiones de sistema operativo y configuraciones de System‑on‑a‑Chip (SoC). Según Google, muchos equipos hasta ahora confiaban en pruebas manuales con unos pocos terminales, lo que dificulta estimar con fiabilidad la latencia, la estabilidad y la compatibilidad a escala. Portal intenta cerrar esa brecha al proporcionar resultados comparables entre dispositivos y backends de ejecución, reduciendo la incertidumbre sobre qué terminales están listos para producción y dónde se requieren optimizaciones adicionales.

Las capacidades de benchmarking de Portal ofrecen soporte nativo para modelos en formato LiteRT — LM y permiten ejecutar pruebas tanto en CPU como en GPU. La plataforma perfila cuatro métricas operativas que afectan directamente la experiencia del usuario: tiempo de inicialización (el tiempo necesario para cargar el modelo en memoria), prefill (la velocidad con que se procesan los tokens del prompt hasta generar el primer token de salida), decode (la velocidad de generación de tokens durante la respuesta) y pico de memoria (uso máximo de RAM, indicador de riesgo de errores por falta de memoria).

Esas métricas se exponen por dispositivo y por backend de ejecución, facilitando comparaciones precisas entre configuraciones y ayudando a priorizar las optimizaciones con impacto real en la experiencia percibida. Para que los resultados de los benchmarks sean accionables, Google incorporó Model Explorer, una herramienta de visualización de grafos dentro de Portal. Model Explorer permite buscar y localizar nodos concretos en el grafo del modelo, comparar modelos rostro a rostro, inspeccionar las formas y dimensiones de tensores, y trazar las entradas y salidas de operaciones. Además, la herramienta facilita capturar pantallazos de vistas específicas que pueden compartirse con colaboradores dentro del entorno de Google Cloud, lo que agiliza la comunicación técnica entre equipos de investigación, ingeniería y operaciones.

Las visualizaciones de Model Explorer están pensadas para identificar objetivos de optimización concretos sin perder la trazabilidad de los cambios. La vista dual ayuda a detectar anomalías en la conversión entre distintas representaciones del modelo; la clasificación de capas por métricas de error facilita localizar pérdidas de precisión relacionadas con la cuantización; y la organización de operaciones por latencia permite comparar por‑op el comportamiento en distintos aceleradores (CPU, GPU, NPU). Juntas, estas capacidades apoyan decisiones informadas sobre estrategias de despliegue — por ejemplo, elegir si conviene ejecutar un submodelo en CPU o moverlo a GPU— y priorizar intervenciones que reduzcan latencia o consumo de memoria.

En cuanto a disponibilidad, las nuevas funciones de Google IA Edge Portal se lanzaron en vista previa privada (private preview). Durante este periodo Google ofrece acceso sin cargo, sujeto a los términos aplicables a la vista previa. Los clientes que ya figuran en la lista de permitidos (allowlisted) recibirán acceso automático a las funcionalidades; adicionalmente, Google ha habilitado un formulario de inscripción para que otros equipos puedan expresar interés y solicitar acceso a la preview. La compañía presenta la oferta como una fase de evaluación orientada a recabar uso real y feedback antes de una posible apertura más amplia.

El anuncio subraya una intención clara de reducir la distancia entre la investigación en modelos y su despliegue práctico en una amplia variedad de smartphones. En la nota de lanzamiento Google agradeció las contribuciones de los colaboradores del equipo — entre ellos Akshat Sharma, Ami Kubota y Charlie Xu— y animó a desarrolladores e ingenieros a probar las nuevas capacidades para optimizar experiencias de IA generativa on‑device. Las herramientas buscan detectar problemas como latencia perceptible, bloqueos de interfaz por largos tiempos de inicialización o fallos por falta de memoria en dispositivos con recursos limitados, y ofrecer datos concretos para mitigarlos.

Fuentes

  1. Google Cloud Blog — AI & Machine Learning · 5/20/2026
0
0
0

Respuestas (0)

Aún no hay respuestas en este tema.

9:41