Después de sospechar que la startup china DeepSeek copió sus modelos usando una técnica llamada “destilación”, OpenAI entró en modo de confinamiento total.
La empresa ahora trata sus laboratorios como centros de seguridad nacional: instala escáneres de huellas dactilares, utiliza computadoras sin conexión y limita el acceso al proyecto solo al personal "necesario". ¿El objetivo? Proteger su próximo modelo principal (apodado "Strawberry" u "o1") de ser copiado antes de su lanzamiento.
Lo que dice OpenAI
OpenAI afirma estar reforzando su seguridad interna ante el creciente temor de que sus modelos puedan ser copiados o imitados. La empresa está bloqueando el acceso a su trabajo más sensible mediante escáneres de huellas dactilares, equipos sin conexión y un enfoque de denegación de acceso a internet por defecto. Solo el personal que trabaja directamente en proyectos específicos puede conocerlos o incluso hablar de ellos.
Según informa el Financial Times , OpenAI ha reforzado las medidas de seguridad interna en respuesta a los crecientes temores de imitación de modelos.
Bajo la dirección de Matt Knight, vicepresidente de seguridad de OpenAI , se dice que la empresa ha implementado una política de Internet de "denegación por defecto", ha introducido sistemas con espacio de aire para el entrenamiento de modelos sensibles y ha añadido seguridad biométrica en sus laboratorios.
¿La motivación? Una creciente preocupación por la posibilidad de que el comportamiento del modelo, si se expone, pueda copiarse mediante destilación, incluso sin acceso a los pesos originales.
Lo que eso significa (en palabras humanas)
No se trata de una violación de datos ni de que alguien piratee los servidores de OpenAI.
Se trata de un tipo diferente de robo: otra empresa entrena un modelo más pequeño imitando los resultados de uno más grande. Según se informa, DeepSeek lo hizo con GPT-4... y estuvo bastante cerca de lograrlo.
OpenAI ve esto como una advertencia: si su próximo modelo se "destila" antes del lanzamiento, perderán una ventaja competitiva en la que han invertido cientos de millones. Así que ahora:
Aislar todo lo crítico
Escaneo de huellas dactilares para controlar quién va a dónde
Y convertir la cultura de su oficina en algo que suene más a una reunión informativa del Pentágono que a una reunión de una empresa tecnológica emergente.
Conectemos los puntos
¿Qué es la destilación?
La destilación es una técnica en la que un modelo aprende copiando los resultados de otro: no su código, ni sus datos, sino solo su comportamiento.
Así es como funciona:
Envía miles (o millones) de indicaciones a un modelo potente como GPT‑4.
Recoge las respuestas.
Entrenas tu propio modelo para imitar esas respuestas.
Listo. Ahora tienes un modelo que se siente como el original, sin necesidad de acceder a sus componentes internos.
Es como aprender a cocinar probando la comida de alguien una y otra vez hasta que descubres la receta.
¿Cómo se hace esto realmente?
Es más sencillo de lo que la gente piensa:
Nadie hackea nada
Nadie descarga archivos secretos.
Una empresa como DeepSeek podría usar la API de ChatGPT, formularle un gran número de preguntas y usar las respuestas para entrenar un modelo más pequeño. Esto crea una copia con un rendimiento similar, por una fracción del costo y sin la carga computacional que supone entrenar desde cero.
Esto es exactamente lo que OpenAI cree que hizo DeepSeek. Y es por eso que OpenAI ahora lo está bloqueando todo.
¿Se puede hacer esto con los modelos lanzados?
Sí, y es aún más fácil.
Si una miniatura es de peso abierto (como la Llama, la Mistral o el Halcón de Meta ), no necesitas destilar nada. Puedes:
Descargar el modelo completo
Modificarlo
Ajústalo a tus necesidades
Lanza tu propia versión
Esta es una de las razones por las que OpenAI no publica los pesos GPT-4 ni GPT-4o. Saben que una vez publicados, no hay vuelta atrás.
Así que en resumen:
Los modelos cerrados pueden imitarse mediante destilación.
Los modelos abiertos se pueden clonar directamente.
Ambos conllevan riesgos, pero la destilación es la forma de analizar incluso los modelos cerrados.
¿Por qué OpenAI no puede demandar a DeepSeek?
Aquí está la dura verdad: esto no es ilegal (todavía).
No se robaron ni códigos ni pesos
Los resultados del modelo no están protegidos por derechos de autor.
La ingeniería inversa basada en API públicas no infringe ninguna ley
DeepSeek está en China, lo que hace que la aplicación legal a través de las fronteras sea casi imposible.
Incluso si los términos de servicio de OpenAI prohíben este tipo de comportamiento, son casi imposibles de aplicar a nivel internacional, especialmente si el acceso a la API se produce a través de servidores proxy o fuentes anónimas.
A menos que OpenAI pueda demostrar que DeepSeek irrumpió en sus sistemas o violó las leyes de control de exportaciones, no habrá demanda que prospere.
Por eso es que estamos viendo una seguridad en modo fortaleza, no batallas judiciales.
¿Quién más está en riesgo?
Cualquiera que exponga el comportamiento del modelo o pesos abiertos:
Antrópico (Claude) : las API exponen el comportamiento del modelo, vulnerable a la destilación
Meta (Llama) : pesos abiertos, fáciles de descargar y cambiar de marca
Mistral : modelos de alto rendimiento y peso abierto compartidos abiertamente
Perplejidad : las API y los resultados podrían ser eliminados
xAI (Grok) : resultados visibles a través de la interfaz pública
Empresas emergentes que utilizan modelos de código abierto: más fáciles de replicar, menos protección legal
Incluso cuando las intenciones son abiertas y centradas en la comunidad, estas configuraciones hacen que sea trivial para los competidores bifurcar, copiar o clonar modelos y resultados.
¿Por qué OpenAI se encuentra en un bloqueo total?
Porque la imitación ya no es algo académico: es una amenaza para los negocios, la competitividad e incluso el liderazgo tecnológico nacional.
Por eso OpenAI es:
Exigir escaneo de huellas dactilares en los puntos de entrada clave del laboratorio
Entrenamiento de modelos sensibles en máquinas con espacio de aire
Uso de políticas de red de denegación predeterminada
Limitar el acceso del personal a los proyectos mediante firewalls estrictos de necesidad de conocimiento
Contratación de ex militares y líderes de seguridad de Palantir
Han pasado de ser una “organización de investigación” a un “laboratorio clasificado”.
Cuando su producto puede clonarse únicamente a partir de su comportamiento público, la única defensa que queda es mantener el comportamiento oculto hasta el último momento posible.
En resumen:
Modelos publicados = más fáciles de copiar (pero intencionalmente abiertos)
Modelos cerrados = más difíciles de copiar, pero aún pueden imitarse mediante destilación.
El temor de OpenAI es que, incluso si no publican el modelo, el comportamiento en sí mismo se puede copiar.
Inspíralo: usa la destilación en ti mismo
La destilación fue la forma en que otra empresa se acercó a GPT-4. Simplemente plantearon las preguntas correctas, a gran escala.
Ese mismo método puede ayudarte a trabajar mejor con tu LLM.
Si no está obteniendo el resultado que desea:
No lo tires. No lo reescribas todo.
Destilar. Preguntar. Repetir.
Utilice este mensaje:
Estoy intentando [insertar el escenario, por ejemplo, escribir una descripción del producto, generar un mejor código, diseñar una ruta de aprendizaje, etc.],
pero los resultados que estoy obteniendo de usted no funcionan o no son los que esperaba.
Por favor ayudame a averiguarlo:
–¿Qué puede estar mal en la forma en que pregunto?
– Lo que necesitas que te aclare más
– ¿Qué ejemplos o detalles debo proporcionar para que podamos llegar a un mejor resultado?
– ¿Alguna sugerencia sobre cómo puedo ajustar mi mensaje o enfoque?
Úselo cuando su aviso no funciona.
La destilación no es piratería: es progreso a través de mejores preguntas.
Perspectiva del equipo Frozen Light
Cuando se trata de IA, seguimos hablando de derechos de autor, deepfakes y, por supuesto, privacidad.
Pero esta vez no vamos a debatir las zonas grises.
OpenAI es el dueño del algoritmo. No hay duda.
Y aún así, todavía no pueden demandar.
DeepSeek no robó código. No hackeó el sistema.
Hicieron preguntas inteligentes y construyeron un modelo que se comporta como GPT-4.
Es legal. Es eficiente.
Y es un problema.
Justo esta semana, informamos sobre Dinamarca que estaba reescribiendo su ley de derechos de autor para permitir que la gente presente demandas por deepfakes .
¿Nuestra opinión entonces?
Incluso si gana en el tribunal, el daño ya está hecho.
Bueno, bienvenidos al ejemplo perfecto.
Lo que DeepSeek construyó no es un modelo nuevo: es un algoritmo deepfake.
Y OpenAI lo sabe.
¿Su única respuesta? Cerrarlo todo.
Escaneos de huellas dactilares. Cortafuegos. Silencio.
Porque lo único a lo que puedes demandar… es a un ladrón.
Y primero hay que demostrar que hubo un robo.
Una locura ¿verdad?
Algunas personas lo llamarán karma, pero nosotros no somos esas personas.
Estamos aquí para señalar lo obvio:
Las reglas están cambiando y todos están expuestos.
Por un lado, las personas esperan que nuevas leyes puedan proteger sus rostros, sus voces y sus creaciones.
Por otro lado, los vendedores están viendo cómo sus modelos de mil millones de dólares se “inspiran” en clones.
DeepSeek podría decir que simplemente se inspiraron en el algoritmo GPT-4.
¿Y legalmente? Eso podría sostenerse.
Pero si este es el futuro...
donde pedir puede reemplazar a poseer -
Entonces la legislación sobre derechos de autor no se queda atrás.
Está obsoleto.
Y esa es la parte de la revolución de la IA de la que nadie habla.
Pero importa. Para todos.