Google ha appena rilasciato nuove versioni dei suoi modelli Gemma 3 che utilizzano il Quantization-Aware Training (QAT). Questi modelli sono progettati per funzionare in modo efficiente su GPU di livello consumer, il che significa che non è necessaria un'infrastruttura di livello enterprise per sfruttare l'intelligenza artificiale avanzata.

Con QAT, il modello di Google a 27 miliardi di parametri può ora essere eseguito su una GPU con circa 14 GB di VRAM. Si tratta di un cambiamento radicale in termini di accessibilità, che mette una notevole potenza di calcolo dell'intelligenza artificiale nelle mani di sviluppatori individuali, ricercatori e piccoli team.

Cosa dice Google

Google afferma che i modelli Gemma 3 ottimizzati per QAT:

  • Mantenere le prestazioni riducendo l'ingombro della memoria

  • Funziona su GPU consumer come la RTX 3090

  • Sono integrati su piattaforme popolari come Ollama, LM Studio e llama.cpp

Stanno rilasciando versioni QAT di Gemma 3 nei formati 1B, 4B, 12B e 27B, tutte progettate per adattarsi ai flussi di lavoro locali e alle GPU di uso quotidiano.

Cosa significa QAT (in parole umane)?

La quantizzazione è un modo per ridurre le dimensioni di un modello utilizzando meno bit per rappresentarne i valori, un po' come passare dall'HD al formato MP3 compresso, ma in modo intelligente.

Ma QAT non si limita a una compressione a posteriori: addestra il modello con quei vincoli fin dall'inizio. Ciò significa che si ottengono vantaggi in termini di dimensioni senza perdere altrettanta efficienza in termini di prestazioni.

In pratica? Ora puoi:

  • Esegui il modello 27B su una macchina con ~14 GB di VRAM

  • Evita i costi del cloud ed esegui potenti modelli di intelligenza artificiale in locale

  • Evita la maggior parte dei mal di testa degli hack di quantizzazione post-allenamento

E il problema più grande è che quando la quantizzazione avviene durante l'addestramento, i modelli possono essere effettivamente addestrati a casa, non solo perfezionati.

Non stai solo caricando il cervello di qualcun altro. Ne stai costruendo uno.

AGI, qualcuno??? Sì, la notizia più importante qui, che non viene detta ad alta voce, è che questo è un grande passo per l'AGI. Perché non si tratta di modelli più intelligenti, ma di un accesso più intelligente. E quando l'accesso intelligente si manifesta nell'addestramento, non solo nell'inferenza, è così che si costruisce il futuro.

🔍 È una rivoluzione? O è solo un modo per recuperare terreno?

Bella domanda, ed ecco la verità:

Gemma 3 QAT è impressionante, ma Google non è l'unica a giocare in questo sandbox.

Altri giocatori che fanno cose simili:

  • Alibaba ha modelli Qwen ottimizzati per l'implementazione locale su GPU

  • DeepSeek ha mostrato R1 70B in esecuzione su 8 RTX 3080

  • AWS offre contenitori con supporto di quantizzazione GPTQ + AWQ

Sebbene la QAT non sia un'idea del tutto nuova, il modo in cui Google l'ha realizzata su questa scala e con un ampio supporto di strumenti la rende unica.

⚠️ Cosa potrebbe rompersi se cambiassi?

Se utilizzavi modelli Gemma 3 precedenti e desideri eseguire l'aggiornamento alle versioni QAT, fai attenzione.

  • I modelli ottimizzati non vengono trasferiti in modo pulito: la configurazione di allenamento è diversa

  • La pipeline di inferenza potrebbe non supportare la quantizzazione int4, soprattutto se si utilizzano ancora ipotesi float32

  • Gli strumenti devono essere compatibili: strumenti come llama.cpp e Ollama devono supportare il formato di quantizzazione corretto (gguf, ecc.)

  • Potrebbe verificarsi una piccola deriva nella precisione: alcuni flussi di lavoro basati su output deterministici potrebbero ottenere risultati leggermente diversi

  • Alcuni modelli QAT presentavano configurazioni errate dei token, che la community sta ancora risolvendo (fonte: Reddit)

Conclusione

❓ Caratteristica

✅ Stato

Rilasciato?

Prezzo?

Gratuito e open source

Supporto della piattaforma

Ollama, LM Studio, llama.cpp, ecc.

È necessaria VRAM?

Da 0,5 GB a 14 GB a seconda delle dimensioni del modello

Quantizzazione?

int4 QAT — integrato durante l'addestramento

Casi d'uso?

Inferenza locale, chatbot, ricerca

Puoi leggere di più a riguardo qui:

http://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

http://ai.google.dev/gemma/docs/core http://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/

🧊 Prospettiva del team di Frozen Light

Siamo onesti: le uniche persone veramente entusiaste di QAT sono quelle che hanno provato a far funzionare un modello 70B in locale e hanno visto il loro computer prendere fuoco.

Per tutti gli altri? Questa notizia sembra un aggiornamento tecnico, finché non si capisce cosa significa in realtà.

Ecco come l'intelligenza artificiale diventa realtà. Non è più limitata al cloud di OpenAI o ai supercluster di Nvidia. Puoi gestire un'intelligenza artificiale seria dalla tua scrivania.

Quindi è una cosa rivoluzionaria? Non proprio. Ma fa parte di una tendenza molto più ampia? Assolutamente sì.

I grandi nomi – OpenAI, Google, Meta, Alibaba – stanno tutti facendo la stessa cosa: → Ridurre i modelli → Quantizzare tutto → Far funzionare il sistema dove ci sono le persone

Sai, le persone vere. Quelle che non hanno 8 H100 in giro.

Ma ecco la parte incredibile: poiché il QAT viene eseguito durante l'addestramento, non stiamo semplicemente rimpicciolendo dei modelli, stiamo creando fin dall'inizio cervelli piccoli e potenti.

Ciò significa:

  • L'addestramento potrebbe non richiedere più cluster giganti

  • Le università, le startup e sì, anche le persone intelligenti con buone GPU, ora possono allenarsi, non solo perfezionare

Non si tratta solo di una vittoria in termini di efficienza. È un cambiamento radicale.

Se mai l'AGI si concretizzerà, non sarà perché un laboratorio ne avrà fatto un grande successo. Sarà perché mille piccole menti troveranno lo spazio per crescere.

E Google? Potrebbe aver appena consegnato le chiavi di casa all'intelligenza. Non ha bisogno del cloud per entrare. 😉

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.