Dopo aver sospettato che la startup cinese DeepSeek avesse copiato i suoi modelli utilizzando una tecnica chiamata "distillazione", OpenAI è entrata in modalità di blocco totale.
L'azienda ora tratta i suoi laboratori come siti di sicurezza nazionale: installa scanner per impronte digitali, utilizza computer offline e limita l'accesso ai progetti al solo personale "necessario". L'obiettivo? Proteggere il suo prossimo modello di punta (soprannominato "Strawberry" o "o1") dalla copia prima del rilascio.
Cosa dice OpenAI
OpenAI afferma di aver rafforzato la propria sicurezza interna a seguito dei crescenti timori che i suoi modelli possano essere copiati o imitati. L'azienda sta bloccando l'accesso ai suoi progetti più sensibili con scanner di impronte digitali, dispositivi offline e un approccio "nega per impostazione predefinita" all'accesso a Internet. Solo il personale che lavora direttamente a progetti specifici può conoscerli o anche solo parlarne.
Come riportato dal Financial Times , OpenAI ha intensificato le misure di sicurezza interna in risposta ai crescenti timori di imitazione dei modelli.
Sotto la guida di Matt Knight, vicepresidente della sicurezza di OpenAI , si dice che l'azienda abbia implementato una politica Internet "deny-by-default", introdotto sistemi air-gapped per l'addestramento di modelli sensibili e aggiunto la sicurezza biometrica nei suoi laboratori.
La motivazione? La crescente preoccupazione che il comportamento del modello, se esposto, possa essere copiato tramite distillazione, anche senza accesso ai pesi originali.
Cosa significa (in parole umane)
Non si tratta di una violazione dei dati o di qualcuno che ha hackerato i server di OpenAI.
Si tratta di un tipo diverso di furto: un'altra azienda addestra un modello più piccolo imitandone gli output. A quanto pare, DeepSeek lo ha fatto con GPT-4... e ci è andato molto vicino.
OpenAI lo vede come un segnale d'allarme: se il loro prossimo modello venisse "distillato" prima del lancio, perderebbero un vantaggio competitivo per il quale hanno speso centinaia di milioni. Quindi ora:
Isolare tutto ciò che è critico
Scansione delle impronte digitali per controllare chi va dove
E trasformando la cultura del loro ufficio in qualcosa che suona più come un briefing del Pentagono che come un incontro di una startup tecnologica
Uniamo i puntini
Cos'è la distillazione?
La distillazione è una tecnica in cui un modello apprende copiando gli output di un altro: non il suo codice, non i suoi dati, ma solo il suo comportamento.
Ecco come funziona:
Si inviano migliaia (o milioni) di prompt a un modello potente come GPT-4.
Raccogli le risposte.
Addestra il tuo modello affinché imiti quelle risposte.
Ecco fatto. Ora hai un modello che "sembra" l'originale, senza nemmeno doverne accedere ai componenti interni.
È come imparare a cucinare assaggiando e riassaggiando il cibo di qualcuno finché non ne capisci la ricetta.
Come avviene concretamente?
È più semplice di quanto si pensi:
Nessuno hackera niente.
Nessuno scarica file segreti.
Un'azienda come DeepSeek potrebbe utilizzare l'API ChatGPT, porre un sacco di domande e utilizzare le risposte per addestrare un modello più piccolo. Questo creerebbe un imitatore con prestazioni simili, a una frazione del costo e senza l'onere di elaborazione di un addestramento da zero.
Questo è esattamente ciò che OpenAI ritiene abbia fatto DeepSeek. Ed è per questo che OpenAI ora sta bloccando tutto.
È possibile fare ciò anche sui modelli rilasciati?
Sì, ed è ancora più semplice.
Se un modello è di tipo "open-weight" (come il Llama, il Mistral o il Falcon di Meta ), non è necessario distillare nulla. È possibile:
Scarica il modello completo
Modificarlo
Adattalo alle tue esigenze
Lancia la tua versione
Questo è uno dei motivi per cui OpenAI non rilascia pesi GPT-4 o GPT-4o. Sanno che una volta che sono disponibili, sono disponibili.
Quindi, riassumendo:
I modelli chiusi possono essere imitati tramite distillazione.
I modelli aperti possono essere clonati direttamente.
Entrambe le tecniche comportano dei rischi, ma la distillazione è il modo in cui anche i modelli chiusi possono essere monitorati.
Perché OpenAI non può fare causa a DeepSeek?
Ecco la dura verità: questo non è illegale (ancora).
Nessun codice o peso è stato rubato
Gli output del modello non sono protetti da copyright
Il reverse engineering basato su API pubbliche non viola alcuna legge
DeepSeek si trova in Cina, il che rende quasi impossibile l'applicazione della legge oltre confine.
Anche se i termini di servizio di OpenAI proibiscono questo tipo di comportamento, sono quasi impossibili da far rispettare a livello internazionale, soprattutto se l'accesso all'API avviene tramite proxy o fonti anonime.
A meno che OpenAI non riesca a dimostrare che DeepSeek ha violato i suoi sistemi o le leggi sul controllo delle esportazioni, non esiste alcuna causa legale che possa avere successo.
Ecco perché stiamo assistendo a una sicurezza in modalità fortezza, non a battaglie in tribunale.
Chi altro è a rischio?
Chiunque esponga il comportamento del modello o pesi aperti:
Antropico (Claude) – Le API espongono il comportamento del modello, vulnerabile alla distillazione
Meta (Llama) – pesi aperti, facili da scaricare e rinominare
Mistral – modelli open-weight ad alte prestazioni condivisi apertamente
Perplessità : le API e gli output potrebbero essere eliminati
xAI (Grok) – output visibili tramite interfaccia pubblica
Startup che utilizzano modelli open source: più facili da replicare, meno tutela legale
Anche quando le intenzioni sono aperte e incentrate sulla comunità, queste impostazioni rendono semplice per i concorrenti biforcare, copiare o clonare modelli e output.
Perché OpenAI sta per chiudere del tutto?
Perché l'imitazione non è più una questione accademica: è una minaccia per le aziende, per il vantaggio competitivo e perfino per la leadership tecnologica nazionale.
Ecco perché OpenAI è:
Obbligo di scansione delle impronte digitali nei punti di ingresso chiave del laboratorio
Addestramento di modelli sensibili su macchine air-gapped
Utilizzo di criteri di rete negati per impostazione predefinita
Limitare l'accesso del personale ai progetti attraverso rigidi firewall need-to-know
Assunzione di ex responsabili della sicurezza militare e di Palantir
Sono passati dall'essere "organizzazione di ricerca" a "laboratorio classificato".
Quando il tuo prodotto può essere clonato solo in base al suo comportamento pubblico, l'unica difesa rimasta è quella di tenere nascosto il comportamento fino all'ultimo momento possibile.
In conclusione:
Modelli rilasciati = più facili da copiare (ma intenzionalmente aperti)
Modelli chiusi = più difficili da copiare, ma possono comunque essere imitati tramite distillazione
Il timore di OpenAI è che anche se non rilasciano il modello, il comportamento stesso sia copiabile
Prompt It Up: usa la distillazione su te stesso
La distillazione è il modo in cui un'altra azienda si è avvicinata al GPT-4. Hanno semplicemente posto le domande giuste, su larga scala.
Lo stesso metodo può aiutarti a lavorare meglio con il tuo LLM.
Se non ottieni il risultato desiderato:
Non buttarlo via. Non riscrivere tutto.
Distillare. Chiedere. Ripetere.
Utilizza questo prompt:
Sto cercando di [inserire lo scenario, ad esempio scrivere una descrizione del prodotto, generare un codice migliore, progettare un percorso di apprendimento, ecc.],
ma i risultati che ricevo da te non funzionano o non sono quelli che mi aspettavo.
Per favore aiutami a capire:
– Cosa c'è che non va nel modo in cui lo chiedo?
– Su cosa hai bisogno di più chiarezza da parte mia?
– Quali esempi o dettagli dovrei fornire per ottenere un risultato migliore
– Qualche suggerimento su come posso adattare il mio prompt o approccio?
Usalo quando il prompt non funziona.
La distillazione non è un hacking: è un progresso attraverso domande migliori.
Prospettiva del team di Frozen Light
Quando si parla di intelligenza artificiale, si parla continuamente di copyright, Deepfake e, naturalmente, di privacy.
Ma questa volta non stiamo discutendo delle zone grigie.
OpenAI è proprietaria dell'algoritmo. Non c'è dubbio.
E tuttavia non possono ancora fare causa.
DeepSeek non ha rubato il codice. Non ha hackerato il sistema.
Hanno posto domande intelligenti e hanno costruito un modello che si comporta come GPT-4.
È legale. È efficiente.
Ed è un problema.
Proprio questa settimana abbiamo parlato della Danimarca che ha riscritto la sua legge sul copyright per consentire alle persone di intentare cause contro i deepfake .
Allora, qual è la nostra opinione?
Anche se vinci in tribunale, il danno è già fatto.
Bene, benvenuti all'esempio perfetto.
Ciò che DeepSeek ha creato non è un nuovo modello: è un algoritmo deepfake.
E OpenAI lo sa.
La loro unica risposta? Bloccare tutto.
Scansioni di impronte digitali. Firewall. Silenzio.
Perché l'unica cosa che puoi denunciare... è un ladro.
E per prima cosa devi dimostrare che c'è stato un furto.
Pazzesco, vero?
Qualcuno lo chiamerà karma, ma noi non siamo quella gente.
Siamo qui per sottolineare l'ovvio:
Le regole stanno cambiando e tutti sono esposti.
Da una parte, le persone sperano che le nuove leggi possano proteggere i loro volti, le loro voci e le loro creazioni.
Dall'altro lato, i venditori guardano i loro modelli da miliardi di dollari trasformarsi in cloni.
DeepSeek potrebbe dire di essersi semplicemente ispirata all'algoritmo GPT-4.
E legalmente? Potrebbe reggere.
Ma se questo è il futuro -
dove chiedere può sostituire possedere -
allora la legge sul copyright non è da meno.
È obsoleto.
E questa è la parte della rivoluzione dell'intelligenza artificiale di cui nessuno parla.
Ma è importante. Per tutti.