Après avoir soupçonné que la startup chinoise DeepSeek copiait ses modèles en utilisant une technique appelée « distillation », OpenAI est passé en mode verrouillage complet.

L'entreprise traite désormais ses laboratoires comme des sites de sécurité nationale : elle installe des scanners d'empreintes digitales, utilise des ordinateurs hors ligne et limite l'accès aux projets au personnel « ayant besoin d'en connaître ». L'objectif ? Protéger son prochain modèle majeur (surnommé « Strawberry » ou « o1 ») contre toute copie avant sa sortie.

Ce que dit OpenAI

OpenAI affirme renforcer sa sécurité interne face aux craintes croissantes de copie ou d'imitation de ses modèles. L'entreprise verrouille l'accès à ses travaux les plus sensibles grâce à des scanners d'empreintes digitales, des machines hors ligne et un système de refus d'accès à Internet par défaut. Seul le personnel directement impliqué dans des projets spécifiques est autorisé à en prendre connaissance, voire à en parler.

Comme le rapporte le Financial Times , OpenAI a renforcé ses mesures de sécurité internes en réponse aux craintes croissantes d’imitation de modèles.
Sous la direction de Matt Knight, vice-président de la sécurité d'OpenAI , la société aurait mis en œuvre une politique Internet de « refus par défaut », introduit des systèmes isolés pour la formation de modèles sensibles et ajouté une sécurité biométrique dans ses laboratoires.

La motivation ? Une inquiétude croissante quant à la possibilité que le comportement du modèle, s'il est exposé, puisse être copié par distillation, même sans accès aux pondérations d'origine.

Ce que cela signifie (en termes humains)

Il ne s’agit pas d’une violation de données ou d’un piratage des serveurs d’OpenAI.

Il s'agit d'un autre type de vol : une autre entreprise entraîne un modèle plus petit en imitant les résultats d'un modèle plus grand. DeepSeek aurait fait de même avec GPT-4… et s'en serait approché de très près.

OpenAI y voit un avertissement : si leur prochain modèle est « distillé » avant son lancement, ils perdront un avantage concurrentiel pour lequel ils ont investi des centaines de millions. Ils sont donc désormais :

  • Isoler tout ce qui est critique

  • Numérisation des empreintes digitales pour contrôler qui va où

  • Et transformer leur culture d'entreprise en quelque chose qui ressemble plus à un briefing du Pentagone qu'à une réunion de startup technologique

Relions les points

Qu'est-ce que la distillation ?

La distillation est une technique dans laquelle un modèle apprend en copiant les sorties d'un autre - pas son code, pas ses données, juste son comportement.

Voici comment cela fonctionne :

  1. Vous envoyez des milliers (ou des millions) d’invites à un modèle puissant comme GPT-4.

  2. Vous collectez les réponses.

  3. Vous entraînez votre propre modèle pour imiter ces réponses.

Et voilà ! Vous disposez désormais d'un modèle qui « ressemble » à l'original, sans jamais avoir à accéder à ses composants internes.

C'est comme apprendre à cuisiner en goûtant la nourriture de quelqu'un encore et encore jusqu'à ce que vous trouviez la recette.

Comment cela se fait-il concrètement ?

C'est plus simple que ce que les gens pensent :

  • Personne ne pirate rien.

  • Personne ne télécharge de fichiers secrets.

Une entreprise comme DeepSeek pourrait utiliser l'API ChatGPT, lui poser de nombreuses questions et exploiter les réponses pour entraîner un modèle plus petit. Cela crée un modèle similaire, aux performances similaires, pour un coût bien moindre et sans la charge de calcul d'un apprentissage complet.

C'est exactement ce qu'OpenAI estime que DeepSeek a fait. Et c'est pourquoi OpenAI verrouille désormais tout.

Cela peut-il être fait sur les modèles publiés ?

Oui, et c'est encore plus simple.

Si une figurine est de poids libre (comme le Lama, le Mistral ou le Faucon de Meta ), vous n'avez rien à distiller. Vous pouvez :

  • Télécharger le modèle complet

  • Modifiez-le

  • Adaptez-le à vos besoins

  • Lancez votre propre version

C'est l'une des raisons pour lesquelles OpenAI ne publie pas les pondérations GPT-4 ou GPT-4o. Ils savent qu'une fois publiées, elles le seront.

Donc en résumé :

  • Les modèles fermés peuvent être imités par distillation.

  • Les modèles ouverts peuvent être clonés directement.

Les deux comportent des risques, mais c'est grâce à la distillation que même les modèles fermés peuvent être éclipsés.

Pourquoi OpenAI ne peut-il pas poursuivre DeepSeek ?

Voici la dure vérité : ce n’est pas illégal (pour l’instant).

  • Aucun code ni poids n'ont été volés

  • Les résultats du modèle ne sont pas protégés par le droit d'auteur

  • L'ingénierie inverse basée sur des API publiques n'enfreint aucune loi

  • DeepSeek est situé en Chine, ce qui rend l'application de la loi au-delà des frontières presque impossible

Même si les conditions d'utilisation d'OpenAI interdisent ce genre de comportement, elles sont presque impossibles à appliquer à l'échelle internationale, surtout si l'accès à l'API se fait via des proxys ou des sources anonymisées.

À moins qu'OpenAI ne puisse prouver que DeepSeek a pénétré dans ses systèmes ou violé les lois sur le contrôle des exportations, aucun procès ne sera retenu.

C’est pourquoi nous assistons à une sécurité de type forteresse, et non à des batailles judiciaires.

Qui d’autre est à risque ?

Toute personne exposant le comportement du modèle ou les pondérations ouvertes :

  • Anthropic (Claude) – Les API exposent le comportement du modèle, vulnérable à la distillation

  • Meta (Llama) – poids ouverts, faciles à télécharger et à renommer

  • Mistral – des modèles ouverts et performants, partagés ouvertement

  • Perplexité – Les API et les sorties pourraient être supprimées

  • xAI (Grok) – sorties visibles via l'interface publique

  • Startups utilisant des modèles open source – plus faciles à reproduire, moins de protection juridique

Même lorsque les intentions sont ouvertes et axées sur la communauté, ces configurations rendent trivial pour les concurrents la possibilité de dupliquer, de copier ou de cloner des modèles et des résultats.

Pourquoi OpenAI est-il totalement confiné ?

Parce que l’imitation n’est plus une question académique : elle constitue une menace pour les entreprises, l’avantage concurrentiel et même le leadership technologique national.

C'est pourquoi OpenAI est :

  • Exiger des empreintes digitales aux points d'entrée clés des laboratoires

  • Entraînement de modèles sensibles sur des machines à espace d'air

  • Utilisation de politiques réseau de refus par défaut

  • Limiter l'accès du personnel aux projets par le biais de pare-feu stricts basés sur le besoin de savoir

  • Embauche d'anciens responsables de la sécurité militaire et de Palantir

Ils sont passés d’un « organisme de recherche » à un « laboratoire classifié ».

Lorsque votre produit peut être cloné uniquement à partir de son comportement public, la seule défense restante est de garder le comportement caché jusqu'au dernier moment possible.

En résumé :

  • Modèles publiés = plus faciles à copier (mais à ouvrir intentionnellement)

  • Modèles fermés = plus difficiles à copier, mais peuvent toujours être imités par distillation

  • La crainte d'OpenAI est que même s'ils ne publient pas le modèle, le comportement lui-même est copiable

Demandez-lui : utilisez la distillation - sur vous-même

C'est par la distillation qu'une autre entreprise s'est rapprochée du GPT-4. Elle a simplement posé les bonnes questions, à grande échelle.
Cette même méthode peut vous aider à mieux travailler avec votre LLM.

Si vous n'obtenez pas le résultat souhaité -
Ne le jetez pas. Ne réécrivez pas tout.
Distiller. Demander. Réitérer.

Utilisez cette invite :

J'essaie de [insérer le scénario - par exemple, écrire une description de produit, générer un meilleur code, concevoir un parcours d'apprentissage, etc.],

mais les résultats que j'obtiens de votre part ne fonctionnent pas ou ne correspondent pas à ce que j'attendais.

S'il vous plaît, aidez-moi à comprendre :
– Qu’est-ce qui ne va pas dans ma façon de poser la question ?
– Ce sur quoi vous avez besoin de plus de précisions de ma part
– Quels exemples ou détails dois-je fournir pour que nous puissions parvenir à un meilleur résultat
– Des suggestions sur la façon dont je peux ajuster mon invite ou mon approche

Utilisez-le lorsque votre invite ne fonctionne pas.
La distillation n’est pas du piratage informatique, c’est un progrès grâce à de meilleures questions.

Point de vue de l'équipe Frozen Light

En ce qui concerne l’IA, nous parlons sans cesse de droits d’auteur, de Deepfakes et, bien sûr, de confidentialité.
Mais cette fois, nous ne débattons pas des zones grises.
OpenAI est propriétaire de l'algorithme, cela ne fait aucun doute.
Et pourtant, ils ne peuvent toujours pas intenter de poursuites.

DeepSeek n'a pas volé de code. Ils n'ont pas piraté le système.
Ils ont posé des questions intelligentes et ont construit un modèle qui se comporte comme GPT-4.
C'est légal. C'est efficace.
Et c'est un problème.

Cette semaine, nous avons rapporté que le Danemark avait réécrit sa loi sur le droit d’auteur pour permettre aux gens de poursuivre en justice les deepfakes .
Notre avis alors ?
Même si vous gagnez au tribunal, le mal est déjà fait.

Eh bien, bienvenue dans l’exemple parfait.

Ce que DeepSeek a construit n’est pas un nouveau modèle – c’est un algorithme deepfake.
Et OpenAI le sait.
Leur seule réponse ? Tout verrouiller.
Analyses d'empreintes digitales. Pare-feu. Silence.
Parce que la seule chose que vous pouvez poursuivre… c’est un voleur.
Et d’abord, il faut prouver qu’il y a eu vol.

C'est fou, non ?

Certains appelleront cela le karma, mais nous ne sommes pas ces personnes.
Nous sommes ici pour souligner l’évidence :

Les règles changent – et tout le monde est exposé.

D’un côté, les individus espèrent que de nouvelles lois pourront protéger leur visage, leur voix et leurs créations.
D’un autre côté, les vendeurs voient leurs modèles à plusieurs milliards de dollars devenir des clones.

DeepSeek pourrait dire qu'ils ont simplement été inspirés par l'algorithme de GPT-4.
Et légalement ? Ça pourrait tenir.

Mais si c'est l'avenir -
où demander peut remplacer posséder -
alors la loi sur le droit d'auteur n'est pas seulement en retard.

C'est obsolète.

Et c’est la partie de la révolution de l’IA dont personne ne parle.
Mais c'est important. Pour tout le monde.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.