IBM Desvela la Familia Granite 4.1 de LLMs, Priorizando la Calidad de Datos y la Eficiencia en el Diseño Abierto

News

4/29/2026, 3:21:10 PM

IBM Desvela la Familia Granite 4.1 de LLMs, Priorizando la Calidad de Datos y la Eficiencia en el Diseño Abierto

IBM ha presentado oficialmente la familia Granite 4.1 de Modelos de Lenguaje Grandes (LLMs), marcando un hito significativo en el desarrollo de la inteligencia artificial con un énfasis renovado en la eficiencia y la calidad de los datos. La nueva línea incluye modelos de 3B, 8B y 30B parámetros, todos liberados bajo la permisiva licencia Apache 2.0, lo que subraya un compromiso con la innovación abierta y la accesibilidad para la comunidad de IA. Esta iniciativa busca proporcionar herramientas robustas que satisfagan las crecientes demandas de diversas aplicaciones empresariales y de desarrollo.

La ingeniería detrás de Granite 4.1 es compleja y se basa en una arquitectura de transformador densa y de solo decodificador, incorporando características de vanguardia como Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE) y activaciones SwiGLU. Estos elementos de diseño son fundamentales para la eficiencia y el rendimiento de los modelos, permitiendo que manejen tareas lingüísticas complejas con mayor agilidad y precisión. Los tres tamaños de modelo comparten la misma estrategia de entrenamiento y datos, difiriendo únicamente en sus dimensiones arquitectónicas, como el tamaño de incrustación, el número de capas y los cabezales de atención.

Un aspecto crucial del desarrollo de Granite 4.1 reside en su rigurosa metodología de entrenamiento, que prioriza la calidad de los datos sobre la cantidad bruta. Los modelos fueron entrenados desde cero utilizando aproximadamente 15 billones de tokens a través de una pipeline de pre-entrenamiento de varias etapas. Además, se refinaron con un ajuste fino supervisado (SFT) que empleó alrededor de 4.1 millones de muestras curadas de alta calidad, y se mejoraron aún más mediante aprendizaje por refuerzo (RL).

La estrategia de pre-entrenamiento de Granite 4.1 se articula en cinco fases distintivas, cada una con una mezcla de datos y un programa de tasa de aprendizaje específicos. Las fases iniciales, 1 y 2, se centran en establecer una comprensión lingüística fundamental. Posteriormente, las fases 3 y 4 se dirigen hacia un entrenamiento intermedio, incorporando datos de mayor calidad de manera progresiva. La fase final, la quinta, introduce el entrenamiento de contexto largo (LCE), extendiendo la ventana de contexto hasta un impresionante límite de 512K tokens. Esta progresión desde datos generales a gran escala hasta contenido más curado y específico de dominio es fundamental para la capacidad de los modelos de abordar una amplia gama de tareas.

La composición de los datos en cada fase de pre-entrenamiento ilustra la evolución estratégica hacia un rendimiento optimizado. Por ejemplo, la Fase 1, de entrenamiento general, utiliza una mezcla dominada por CommonCrawl, que representa aproximadamente el 59% del total, junto con una proporción considerable de datos de código y técnicos. En contraste, la Fase 2 incrementa drásticamente la proporción de datos matemáticos (aproximadamente un 35%) y de código (alrededor del 30%), enfocándose en capacidades de razonamiento más sólidas.

Este meticuloso enfoque en la calidad de los datos y el diseño arquitectónico se traduce en una eficiencia notable. Un ejemplo destacado es el modelo instructivo de 8B parámetros de Granite 4.1, que iguala o incluso supera el rendimiento del anterior Granite 4.0 — H-Small, un modelo más grande con 32B parámetros y una arquitectura MoE (Mixture of Experts) más compleja. Esto demuestra que no siempre es necesario escalar el número de parámetros a expensas de la eficiencia, sino que una curación de datos rigurosa y un diseño inteligente pueden conducir a resultados superiores con menos recursos computacionales.

Fuentes

Hugging Face Blog · 4/29/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás