Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM


Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM

Hacemos un hueco en la serie ML: lo que Google acaba de presentar podría ser el futuro de los LLM

Google presenta Nested Learning, un nuevo paradigma que podría ser el sucesor conceptual de los Transformers.

Hoy hacemos una pausa en nuestra serie sobre Machine Learning, Deep Learning y LLMs.

No para desviarnos, sino porque ha ocurrido algo que encaja perfectamente en el punto en el que estamos: un avance que podría definir la próxima década de la IA.

El contexto: de «Attention Is All You Need» a «Nested Learning»

En 2017, Google Research publicó Attention Is All You Need.

Ese paper cambió la historia: dio nacimiento a los Transformers, la arquitectura que sostiene absolutamente toda la IA generativa moderna. ChatGPT, Claude, Gemini, Llama… todos son Transformers.

Ocho años después, en noviembre de 2025, el mismo equipo vuelve a mover ficha.

Y lo que proponen no es una mejora incremental, sino un nuevo paradigma: Nested Learning (Aprendizaje Anidado).

Un enfoque diseñado para atacar uno de los mayores problemas de los LLM actuales: el olvido catastrófico.

Infografía explicando Nested Learning, el sistema de memoria continua y la arquitectura Hope de Google.

El problema que Nested Learning quiere resolver

Los LLM actuales son impresionantes, pero tienen una limitación estructural crítica:

No pueden aprender cosas nuevas sin olvidar parte de lo anterior.

Son modelos estáticos, congelados tras el entrenamiento. Si quieres que GPT-4 sepa algo que ocurrió ayer, no puedes simplemente «enseñárselo». Tienes que reentrenarlo desde cero o usar trucos como RAG (Retrieval-Augmented Generation).

Esto no es un bug. Es una consecuencia directa de cómo están diseñados los Transformers.

Y es exactamente lo que Nested Learning propone cambiar.

El «clic» mental: diferentes velocidades de aprendizaje dentro del mismo modelo

En un Transformer tradicional:

  • Todas las capas aprenden a la misma velocidad
  • Todas las actualizaciones ocurren en cada paso de entrenamiento
  • No existe una noción de memoria con ritmos distintos

Nested Learning rompe ese paradigma.

Imagina un modelo donde:

  • Algunas partes aprenden muy rápido → memoria de corto plazo, adaptada al contexto actual
  • Otras aprenden muy lento → conocimiento estable, memoria de largo plazo
  • Y otras operan en frecuencias intermedias → conocimiento semántico, patrones recurrentes

Esto se parece mucho más a cómo funciona la neuroplasticidad humana: ondas, ritmos, capas de memoria que se actualizan a velocidades distintas.

La clave está en la propuesta conceptual:

La arquitectura y la optimización no son cosas separadas. Son el mismo proceso operando a diferentes escalas.

En lugar de ver un modelo como un único bloque que aprende a una velocidad fija, Nested Learning lo concibe como un sistema de optimizaciones anidadas, cada una con su propia frecuencia de actualización.

«Hope»: la arquitectura experimental que demuestra el concepto

Para probar la idea, Google no se quedó en la teoría. Construyó una arquitectura experimental llamada Hope.

Hope implementa un Sistema de Memoria Continua (CMS):

  • No hay solo «memoria corta» vs «memoria larga»
  • Hay un espectro completo de módulos de memoria
  • Cada uno se actualiza a su propia frecuencia

Los resultados son prometedores

Hope supera a Transformers estándar en:

  1. Modelado de lenguaje general → mejor perplejidad
  2. Tareas de largo contexto → maneja conversaciones y documentos extensos con más coherencia
  3. Pruebas tipo Needle-In-A-Haystack (NIAH) → encuentra información específica en contextos masivos
  4. Eficiencia de memoria → retiene información relevante sin explotar en tamaño

En otras palabras: Hope recuerda mejor, durante más tiempo y con menos coste.

Mi perspectiva: Google pisa el acelerador en la carrera de la IA

Voy a ser honesto: en los últimos meses parecía que China estaba liderando la carrera, especialmente con avances como:

  • DeepSeek y sus MoE (Mixture of Experts) ultraeficientes
  • Arquitecturas DSA (Dynamic Sparse Attention)
  • Modelos open-source que rivalizan con los propietarios

Pero este paper de Google cambia el tono.

Nested Learning no es:

  • Un parche
  • Una optimización
  • Un truco de ingeniería
  • Un modelo más grande

Es una propuesta de fundamento.

Y eso importa por tres razones:

1. Es un camino más allá de la fuerza bruta

Hasta ahora, la receta era simple:

Más datos → más parámetros → más GPUs

Nested Learning propone algo distinto: modelos más inteligentes, no solo más grandes.

2. Abre la puerta a modelos que aprenden en tiempo real

Imagina una IA que:

  • Lee las noticias del día
  • Integra ese conocimiento en su memoria
  • Se adapta sin reentrenamiento masivo

Esto es un cambio de juego.

Hoy, si quieres que un LLM sepa algo nuevo, tienes que:

  • Reentrenarlo (caro, lento)
  • Usar RAG (limitado, frágil)
  • Esperar a la próxima versión

Con Nested Learning, el modelo podría aprender de forma continua, como lo hacemos nosotros.

3. Es un paso hacia cerrar la brecha con el cerebro humano

No por tamaño, sino por dinámica de aprendizaje.

El cerebro no aprende todo a la misma velocidad. Algunos recuerdos se fijan rápido (dónde dejaste las llaves), otros tardan años en consolidarse (tu lengua materna).

Nested Learning es el primer intento serio de replicar esa estructura en IA.

¿Qué significa esto para el futuro de los LLM?

Es pronto para afirmar que Nested Learning será el sucesor de los Transformers.

Pero es, sin duda, la propuesta más seria y ambiciosa desde 2017.

Si funciona a escala, podríamos ver:

  • LLMs que se actualizan en tiempo real sin reentrenamiento
  • Modelos más pequeños pero más capaces gracias a memoria eficiente
  • IA que aprende de la interacción con el usuario, no solo del corpus inicial

Y por eso hoy hacemos este hueco en la serie: porque entender el futuro de los LLM también es parte de entender el presente.

 

“Si 2017 fue el año de los Transformers, 2025 podría ser recordado como el año en que empezó su sucesor.”


Enlaces de referencia

Para los que quieran profundizar, aquí dejo los enlaces directos al material original:

🔗 Google Research Blog — research.google

🔗 Paper NeurIPS 2025 — arxiv.org

🔗 Artículo de análisis — thedavestack.com


TL;DR

  • Google propone Nested Learning, un nuevo paradigma de entrenamiento
  • Ataca el olvido catastrófico con memoria continua de múltiples frecuencias
  • La arquitectura experimental Hope supera a Transformers en tareas de largo contexto
  • Es la propuesta más seria hacia LLM adaptativos desde «Attention Is All You Need»
  • Podría cambiar la forma en que entrenamos y desplegamos modelos de IA