Los modelos más grandes pueden lidiar con una mayor variedad de tareas, pero el tamaño reducido de los modelos más pequeños los convierte en herramientas atractivas.
Un artículo de Stephen Ornes. Historia original reimpresa con permiso de Quanta Magazine, una publicación editorialmente independiente respaldada por la Fundación Simons.
Los modelos de lenguaje extenso funcionan bien porque son muy grandes. Los modelos más recientes de OpenAI, Meta y DeepSeek utilizan cientos de miles de millones de “parámetros”: los botones ajustables que determinan las conexiones entre los datos y que se modifican durante el proceso de entrenamiento. Con más parámetros, los modelos pueden identificar mejor los patrones y las conexiones, lo que a su vez los hace más potentes y precisos.
Pero esta potencia tiene un coste. Entrenar un modelo con cientos de miles de millones de parámetros requiere enormes recursos computacionales. Para entrenar su modelo Gemini 1.0 Ultra, por ejemplo, Google habría gastado 191 millones de dólares. Los modelos de lenguaje extenso (LLM, por sus siglas en inglés) también requieren una potencia computacional considerable cada vez que responden a una solicitud, lo que los convierte en notorios devoradores de energía. Una sola consulta a ChatGPT consume aproximadamente diez veces más energía que una sola búsqueda en Google, según el Electric Power Research Institute.
En respuesta, algunos investigadores están pensando ahora en pequeño. IBM, Google, Microsoft y OpenAI han lanzado recientemente modelos de lenguaje reducido (SLM, por sus siglas en inglés) que utilizan unos pocos miles de millones de parámetros, una fracción de sus contrapartes LLM.
Los modelos reducidos no se utilizan como herramientas de uso general como sus primos más grandes, pero pueden ser excelentes para tareas específicas, más definidas, como resumir conversaciones, responder preguntas de pacientes como un chatbot de atención médica y recopilar datos en dispositivos inteligentes. “Para muchas tareas, un modelo de 8 mil millones de parámetros es, de hecho, bastante bueno”, afirma Zico Kolter, un científico informático de la Universidad Carnegie Mellon. También pueden ejecutarse en un ordenador portátil o un teléfono móvil, en lugar de en un gran centro de datos. (No hay consenso sobre la definición exacta de “reducido”, pero todos los nuevos modelos alcanzan un máximo de alrededor de 10 mil millones de parámetros).
Para optimizar el proceso de entrenamiento de estos modelos reducidos, los investigadores utilizan algunos trucos. Los modelos extensos suelen extraer datos de entrenamiento sin procesar de Internet, y estos datos pueden estar desorganizados, desordenados y ser difíciles de procesar. Pero estos modelos grandes pueden generar un conjunto de datos de alta calidad que se puede utilizar para entrenar un modelo reducido. El enfoque, llamado destilación de conocimiento, hace que el modelo más grande transmita eficazmente su entrenamiento, como un maestro que da lecciones a un estudiante. “La razón por la que [los SLM] son tan buenos con modelos tan reducidos y tan pocos datos es que utilizan datos de alta calidad en lugar de material desordenado”, explica Kolter.
Los investigadores también han explorado formas de crear modelos reducidos comenzando con modelos extensos y recortándolos. Un método, conocido como poda, implica eliminar partes innecesarias o ineficientes de una red neuronal, la extensa red de puntos de datos conectados que subyace a un modelo extenso.
La poda se inspiró en una red neuronal de la vida real, el cerebro humano, que gana eficiencia al cortar las conexiones entre las sinapsis a medida que una persona envejece. Los enfoques de poda actuales se remontan a un artículo de 1989 en el que el científico informático Yann LeCun, ahora en Meta, argumentaba que hasta el 90% de los parámetros de una red neuronal entrenada podrían eliminarse sin sacrificar la eficiencia. Llamó al método «daño cerebral óptimo». La poda puede ayudar a los investigadores a ajustar un modelo de lenguaje reducido para una tarea o entorno en concreto.
Para los investigadores interesados en cómo los modelos de lenguaje hacen lo que hacen, los modelos más reducidos ofrecen una forma económica de probar ideas novedosas. Y como tienen menos parámetros que los modelos extensos, su razonamiento puede ser más transparente. “Si quieres crear un modelo nuevo, necesitas probar cosas”, apunta Leshem Choshen, científico investigador del Laboratorio de Inteligencia Artificial Watson del MIT-IBM. “Los modelos reducidos permiten a los investigadores experimentar con riesgos menores”.
Los modelos grandes y costosos, con sus parámetros cada vez más numerosos, seguirán siendo útiles para aplicaciones como chatbots generalizados, generadores de imágenes y el descubrimiento de fármacos. Pero para muchos usuarios, un modelo reducido y específico funcionará igual de bien, y además será más fácil para los investigadores entrenarlo y construirlo. “Estos modelos eficientes pueden ahorrar dinero, tiempo y computación”, afirma Choshen.
El artículo original, Why Do Researchers Care About Small Language Models?, se publicó el 12 de febrero de 2025 en Quanta Magazine.
Traducido por César Tomé López