Esta técnica fundamental permite a los investigadores usar un modelo «profesor» grande y costoso para entrenar un modelo «estudiante» a un coste menor.
Un artículo de . Historia original reimpresa con permiso de Quanta Magazine, una publicación editorialmente independiente respaldada por la Fundación Simons.

La empresa china de inteligencia artificial DeepSeek lanzó a principios de este año un chatbot llamado R1, que atrajo una enorme atención. Gran parte de esta se centró en el hecho de que una compañía relativamente pequeña y desconocida afirmaba haber creado un chatbot que rivalizaba en rendimiento con los de las empresas de IA más famosas del mundo, pero utilizando solo una fracción de la potencia de cálculo y del coste. Como resultado, las acciones de muchas tecnológicas occidentales se desplomaron; Nvidia, que vende los chips que hacen funcionar los principales modelos de IA, perdió en un solo día más valor bursátil que cualquier otra empresa en la historia.
Parte de esa atención incluyó un componente de acusación. Algunas fuentes alegaron que DeepSeek había obtenido, sin permiso, conocimientos del modelo propietario o1 de OpenAI utilizando una técnica conocida como destilación. Gran parte de la cobertura mediática presentó esta posibilidad como un golpe para la industria de la IA, insinuando que DeepSeek había descubierto una forma más eficiente de construir inteligencia artificial.
Pero la destilación —también llamada destilación de conocimiento— es una herramienta ampliamente utilizada en IA, objeto de investigación en informática desde hace una década y empleada por las grandes tecnológicas en sus propios modelos. «La destilación es una de las herramientas más importantes de las que disponen hoy las empresas para hacer que los modelos sean más eficientes», explica Enric Boix-Adsera, investigador especializado en destilación en la Wharton School de la Universidad de Pensilvania.
Conocimiento oscuro
La idea de la destilación comenzó con un artículo de 2015 de tres investigadores de Google, entre ellos Geoffrey Hinton, el llamado padrino de la IA y premio Nobel en 2024. En aquella época, los investigadores solían ejecutar conjuntos de modelos —«muchos modelos pegados entre sí», aclara Oriol Vinyals, científico principal en Google DeepMind y coautor del artículo— para mejorar el rendimiento. «Pero era increíblemente engorroso y costoso ejecutar todos los modelos en paralelo», señala Vinyals. «Nos intrigaba la idea de destilar eso en un solo modelo».
Los investigadores pensaron que podían avanzar si abordaban un notable punto débil de los algoritmos de aprendizaje automático: todas las respuestas erróneas se consideraban igual de malas, sin importar lo equivocadas que estuvieran. En un modelo de clasificación de imágenes, por ejemplo, «confundir un perro con un zorro se penalizaba igual que confundir un perro con una pizza», explica Vinyals. Sospechaban que los conjuntos de modelos contenían información sobre qué errores eran menos graves que otros. Quizá un modelo «estudiante» más pequeño podría utilizar la información de un modelo «profesor» grande para comprender más rápido las categorías en las que debía clasificar las imágenes. Hinton bautizó esta idea como «conocimiento oscuro», haciendo una analogía con la materia oscura en cosmología.
Tras debatir esta posibilidad con Hinton, Vinyals desarrolló una forma de lograr que el modelo profesor transmitiera más información sobre las categorías de imágenes a un modelo estudiante más pequeño. La clave estaba en centrarse en los «objetivos blandos» (soft targets) del modelo profesor, es decir, en las probabilidades asignadas a cada posibilidad en lugar de en respuestas categóricas cerradas. Un modelo, por ejemplo, calculó que había un 30 % de probabilidad de que una imagen mostrara un perro, un 20 % de que mostrara un gato, un 5 % de que mostrara una vaca y un 0,5 % de que mostrara un coche. Al utilizar estas probabilidades, el profesor revelaba de forma efectiva al estudiante que los perros eran bastante parecidos a los gatos, no tan distintos de las vacas, y muy diferentes de los coches. Los investigadores descubrieron que esta información ayudaba al estudiante a aprender a identificar imágenes de perros, gatos, vacas y coches de forma más eficiente. Un modelo grande y complejo podía reducirse a uno más ligero con apenas pérdida de precisión.
Crecimiento explosivo
La idea no fue un éxito inmediato. El artículo fue rechazado en una conferencia y Vinyals, desanimado, se dedicó a otros temas. Pero la destilación llegó en un momento clave. Por entonces, los ingenieros estaban descubriendo que cuanto más volumen de datos de entrenamiento se introducía en las redes neuronales, más eficaces se volvían. El tamaño de los modelos pronto se disparó, al igual que sus capacidades, pero los costes de ejecución crecieron en paralelo.
Muchos investigadores recurrieron a la destilación como método para crear modelos más pequeños. En 2018, por ejemplo, investigadores de Google presentaron un potente modelo de lenguaje llamado BERT, que la compañía pronto comenzó a usar para ayudar a procesar miles de millones de búsquedas web. Pero BERT era grande y costoso de ejecutar, así que al año siguiente otros desarrolladores destilaron una versión más pequeña, acertadamente llamada DistilBERT, que se popularizó en el ámbito empresarial y académico. La destilación se volvió poco a poco ubicua, y ahora se ofrece como servicio por empresas como Google, OpenAI y Amazon. El artículo original sobre destilación, todavía disponible únicamente en el servidor de preprints arxiv.org, ha sido citado ya más de 25.000 veces.
Dado que la destilación requiere acceso al funcionamiento interno del modelo profesor, no es posible que un tercero destile de forma encubierta datos de un modelo cerrado como el o1 de OpenAI, tal y como se pensaba que había hecho DeepSeek. Dicho esto, un modelo estudiante aún podría aprender mucho de un modelo profesor simplemente formulándole determinadas preguntas y utilizando las respuestas para entrenar sus propios modelos, un enfoque casi socrático de la destilación.
Mientras tanto, otros investigadores siguen encontrando nuevas aplicaciones. En enero, el laboratorio NovaSky de la Universidad de California en Berkeley demostró que la destilación funciona bien para entrenar modelos de cadena de razonamiento (chain-of-thought), que emplean un «pensamiento» de varios pasos para responder mejor a preguntas complejas. El laboratorio afirmó que su modelo totalmente de código abierto Sky-T1 costó menos de 450 $ en entrenamiento y obtuvo resultados similares a los de un modelo de código abierto mucho mayor. «Nos sorprendió de verdad lo bien que funcionó la destilación en este contexto», afirma Dacheng Li, doctorando en Berkeley y codirector del equipo NovaSky. «La destilación es una técnica fundamental en la IA».
El artículo original, How Distillation Makes AI Models Smaller and Cheaper, se publicó el 18 de julio de 2025 en Quanta Magazine. Cuaderno de Cultura Científica tiene un acuerdo de distribución en castellano con Quanta Magazine.
Traducido por César Tomé López