Google acaba de lanzar nuevas versiones de sus modelos Gemma 3 con entrenamiento basado en cuantificación (QAT). Estos modelos están diseñados para funcionar eficientemente en GPU de consumo, lo que significa que no se necesita una infraestructura empresarial para aprovechar la IA avanzada.
Con QAT, el modelo de 27 000 millones de parámetros de Google ahora puede ejecutarse en una GPU con aproximadamente 14 GB de VRAM. Esto supone un cambio importante en la accesibilidad, poniendo el gran potencial de la IA al alcance de desarrolladores independientes, investigadores y equipos pequeños.
Lo que dice Google
Google afirma que los modelos Gemma 3 están optimizados para QAT:
Mantenga el rendimiento mientras reduce el uso de memoria
Ejecútalo en GPU de consumo como la RTX 3090
Están integrados en plataformas populares como Ollama, LM Studio y llama.cpp
Están lanzando versiones QAT de Gemma 3 en tamaños 1B, 4B, 12B y 27B, todas diseñadas para adaptarse a los flujos de trabajo locales y las GPU de uso diario.
¿Qué significa QAT (en palabras humanas)?
La cuantificación es una forma de reducir el tamaño de un modelo utilizando menos bits para representar sus valores: algo así como cambiar de HD a MP3 comprimido, pero de una manera inteligente.
Pero QAT no es solo una compresión a posteriori, sino que entrena el modelo con esas restricciones desde el principio. Esto significa que se obtienen los beneficios de tamaño sin perder tanto rendimiento.
¿En la práctica? Ahora puedes:
Ejecute el modelo 27B en una máquina con ~14 GB de VRAM
Evite los costos de la nube y ejecute potentes modelos de IA localmente
Evite la mayoría de los dolores de cabeza que generan los hacks de cuantificación posteriores al entrenamiento.
Y esto es lo más importante: cuando la cuantificación ocurre durante el entrenamiento, significa que los modelos pueden entrenarse en casa, no solo ajustarse.
No solo estás cargando el cerebro de otra persona. Estás construyendo uno.
¿Alguien se anima con la IA general? Sí, la noticia más importante que no se dice abiertamente es que esto es crucial para la IA general. Porque no se trata de modelos más inteligentes, sino de un acceso más inteligente. Y cuando el acceso inteligente se refleja en el entrenamiento, no solo en la inferencia, así es como se construye el futuro.
¿Es esto revolucionario? ¿O simplemente se está poniendo al día?
Buena pregunta, y aquí está la verdad:
Gemma 3 QAT es impresionante, pero Google no es el único que juega en este sandbox.
Otros jugadores que hacen cosas similares:
Alibaba tiene modelos Qwen optimizados para implementación local en GPU
DeepSeek mostró el R1 70B funcionando con 8 RTX 3080
AWS ofrece contenedores con soporte de cuantificación GPTQ + AWQ
Si bien QAT no es una idea completamente nueva, la ejecución por parte de Google a esta escala y con un amplio soporte de herramientas la hace destacar.
⚠️¿Qué podría romperse si cambias?
Si estaba utilizando modelos anteriores de Gemma 3 y desea actualizar a versiones QAT, tenga cuidado.
Los modelos ajustados no se transferirán limpiamente: la configuración de entrenamiento es diferente
Es posible que su canalización de inferencia no admita la cuantificación int4, especialmente si aún utiliza suposiciones float32
Las herramientas deben ser compatibles: herramientas como llama.cpp y Ollama deben admitir el formato de cuantificación correcto (gguf, etc.)
Puede ocurrir una pequeña desviación de precisión: algunos flujos de trabajo que dependen de resultados deterministas pueden obtener resultados ligeramente diferentes.
Algunos modelos de QAT tenían configuraciones de token incorrectas, que la comunidad aún está solucionando (fuente: Reddit)
En resumen
❓ Característica | ✅ Estado |
¿Liberado? | Sí |
¿Precio? | Libre y de código abierto |
Soporte de plataforma | Ollama, LM Studio, llama.cpp, etc. |
¿Se necesita VRAM? | 0,5 GB–14 GB según el tamaño del modelo |
¿Cuantización? | int4 QAT — integrado durante el entrenamiento |
¿Casos de uso? | Inferencia local, chatbot, investigación |
Puedes leer más sobre ello aquí:
http://ai.google.dev/gemma/docs/core http://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/
🧊 Perspectiva del equipo Frozen Light
Seamos honestos: las únicas personas verdaderamente entusiasmadas con QAT son las personas que intentaron ejecutar un modelo 70B localmente y vieron cómo su computadora se incendiaba.
¿Para los demás? Esta noticia parece una actualización técnica, hasta que comprendes su verdadero significado.
Así es como la IA se vuelve real. Ya no se limita a la nube de OpenAI ni a los superclústeres de Nvidia. Puedes ejecutar IA de alto rendimiento desde tu escritorio.
¿Es esto revolucionario? No exactamente. ¿Pero forma parte de una tendencia mucho mayor? Sin duda.
Los grandes —OpenAI, Google, Meta, Alibaba— todos están haciendo lo mismo: → Reducir los modelos → Cuantificar todo → Hacer que funcione donde está la gente
Ya sabes, la gente de verdad. Los que no tienen 8 H100 por ahí.
Pero aquí viene lo más interesante: como el QAT se realiza durante el entrenamiento, no solo estamos reduciendo el tamaño de los modelos, sino que estamos creando cerebros pequeños y potentes desde el principio.
Esto significa:
Es posible que la capacitación ya no requiera clústeres gigantes
Las universidades, las empresas emergentes y sí, las personas inteligentes con buenas GPU, ahora pueden capacitarse, no solo perfeccionar sus sistemas.
Esto no es solo una mejora en la eficiencia. Es un cambio fundamental.
Si la IA general llega a existir, no será porque un solo laboratorio haya triunfado. Será porque mil mentes pequeñas encontraron espacio para crecer.
¿Y Google? Puede que le hayan dado a la inteligencia una llave de casa. No necesita la nube para entrar. 😉