Google acaba de lanzar nuevas versiones de sus modelos Gemma 3 con entrenamiento basado en cuantificación (QAT). Estos modelos están diseñados para funcionar eficientemente en GPU de consumo, lo que significa que no se necesita una infraestructura empresarial para aprovechar la IA avanzada.

Con QAT, el modelo de 27 000 millones de parámetros de Google ahora puede ejecutarse en una GPU con aproximadamente 14 GB de VRAM. Esto supone un cambio importante en la accesibilidad, poniendo el gran potencial de la IA al alcance de desarrolladores independientes, investigadores y equipos pequeños.

Lo que dice Google

Google afirma que los modelos Gemma 3 están optimizados para QAT:

  • Mantenga el rendimiento mientras reduce el uso de memoria

  • Ejecútalo en GPU de consumo como la RTX 3090

  • Están integrados en plataformas populares como Ollama, LM Studio y llama.cpp

Están lanzando versiones QAT de Gemma 3 en tamaños 1B, 4B, 12B y 27B, todas diseñadas para adaptarse a los flujos de trabajo locales y las GPU de uso diario.

¿Qué significa QAT (en palabras humanas)?

La cuantificación es una forma de reducir el tamaño de un modelo utilizando menos bits para representar sus valores: algo así como cambiar de HD a MP3 comprimido, pero de una manera inteligente.

Pero QAT no es solo una compresión a posteriori, sino que entrena el modelo con esas restricciones desde el principio. Esto significa que se obtienen los beneficios de tamaño sin perder tanto rendimiento.

¿En la práctica? Ahora puedes:

  • Ejecute el modelo 27B en una máquina con ~14 GB de VRAM

  • Evite los costos de la nube y ejecute potentes modelos de IA localmente

  • Evite la mayoría de los dolores de cabeza que generan los hacks de cuantificación posteriores al entrenamiento.

Y esto es lo más importante: cuando la cuantificación ocurre durante el entrenamiento, significa que los modelos pueden entrenarse en casa, no solo ajustarse.

No solo estás cargando el cerebro de otra persona. Estás construyendo uno.

¿Alguien se anima con la IA general? Sí, la noticia más importante que no se dice abiertamente es que esto es crucial para la IA general. Porque no se trata de modelos más inteligentes, sino de un acceso más inteligente. Y cuando el acceso inteligente se refleja en el entrenamiento, no solo en la inferencia, así es como se construye el futuro.

¿Es esto revolucionario? ¿O simplemente se está poniendo al día?

Buena pregunta, y aquí está la verdad:

Gemma 3 QAT es impresionante, pero Google no es el único que juega en este sandbox.

Otros jugadores que hacen cosas similares:

  • Alibaba tiene modelos Qwen optimizados para implementación local en GPU

  • DeepSeek mostró el R1 70B funcionando con 8 RTX 3080

  • AWS ofrece contenedores con soporte de cuantificación GPTQ + AWQ

Si bien QAT no es una idea completamente nueva, la ejecución por parte de Google a esta escala y con un amplio soporte de herramientas la hace destacar.

⚠️¿Qué podría romperse si cambias?

Si estaba utilizando modelos anteriores de Gemma 3 y desea actualizar a versiones QAT, tenga cuidado.

  • Los modelos ajustados no se transferirán limpiamente: la configuración de entrenamiento es diferente

  • Es posible que su canalización de inferencia no admita la cuantificación int4, especialmente si aún utiliza suposiciones float32

  • Las herramientas deben ser compatibles: herramientas como llama.cpp y Ollama deben admitir el formato de cuantificación correcto (gguf, etc.)

  • Puede ocurrir una pequeña desviación de precisión: algunos flujos de trabajo que dependen de resultados deterministas pueden obtener resultados ligeramente diferentes.

  • Algunos modelos de QAT tenían configuraciones de token incorrectas, que la comunidad aún está solucionando (fuente: Reddit)

En resumen

❓ Característica

✅ Estado

¿Liberado?

¿Precio?

Libre y de código abierto

Soporte de plataforma

Ollama, LM Studio, llama.cpp, etc.

¿Se necesita VRAM?

0,5 GB–14 GB según el tamaño del modelo

¿Cuantización?

int4 QAT — integrado durante el entrenamiento

¿Casos de uso?

Inferencia local, chatbot, investigación

Puedes leer más sobre ello aquí:

http://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

http://ai.google.dev/gemma/docs/core http://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/

🧊 Perspectiva del equipo Frozen Light

Seamos honestos: las únicas personas verdaderamente entusiasmadas con QAT son las personas que intentaron ejecutar un modelo 70B localmente y vieron cómo su computadora se incendiaba.

¿Para los demás? Esta noticia parece una actualización técnica, hasta que comprendes su verdadero significado.

Así es como la IA se vuelve real. Ya no se limita a la nube de OpenAI ni a los superclústeres de Nvidia. Puedes ejecutar IA de alto rendimiento desde tu escritorio.

¿Es esto revolucionario? No exactamente. ¿Pero forma parte de una tendencia mucho mayor? Sin duda.

Los grandes —OpenAI, Google, Meta, Alibaba— todos están haciendo lo mismo: → Reducir los modelos → Cuantificar todo → Hacer que funcione donde está la gente

Ya sabes, la gente de verdad. Los que no tienen 8 H100 por ahí.

Pero aquí viene lo más interesante: como el QAT se realiza durante el entrenamiento, no solo estamos reduciendo el tamaño de los modelos, sino que estamos creando cerebros pequeños y potentes desde el principio.

Esto significa:

  • Es posible que la capacitación ya no requiera clústeres gigantes

  • Las universidades, las empresas emergentes y sí, las personas inteligentes con buenas GPU, ahora pueden capacitarse, no solo perfeccionar sus sistemas.

Esto no es solo una mejora en la eficiencia. Es un cambio fundamental.

Si la IA general llega a existir, no será porque un solo laboratorio haya triunfado. Será porque mil mentes pequeñas encontraron espacio para crecer.

¿Y Google? Puede que le hayan dado a la inteligencia una llave de casa. No necesita la nube para entrar. 😉

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.