
Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM
Hacemos un hueco en la serie ML: lo que Google acaba de presentar podría ser el futuro de los LLM
Google presenta Nested Learning, un nuevo paradigma que podría ser el sucesor conceptual de los Transformers.
Hoy hacemos una pausa en nuestra serie sobre Machine Learning, Deep Learning y LLMs.
No para desviarnos, sino porque ha ocurrido algo que encaja perfectamente en el punto en el que estamos: un avance que podría definir la próxima década de la IA.
El contexto: de «Attention Is All You Need» a «Nested Learning»
En 2017, Google Research publicó Attention Is All You Need.
Ese paper cambió la historia: dio nacimiento a los Transformers, la arquitectura que sostiene absolutamente toda la IA generativa moderna. ChatGPT, Claude, Gemini, Llama… todos son Transformers.
Ocho años después, en noviembre de 2025, el mismo equipo vuelve a mover ficha.
Y lo que proponen no es una mejora incremental, sino un nuevo paradigma: Nested Learning (Aprendizaje Anidado).
Un enfoque diseñado para atacar uno de los mayores problemas de los LLM actuales: el olvido catastrófico.

El problema que Nested Learning quiere resolver
Los LLM actuales son impresionantes, pero tienen una limitación estructural crítica:
No pueden aprender cosas nuevas sin olvidar parte de lo anterior.
Son modelos estáticos, congelados tras el entrenamiento. Si quieres que GPT-4 sepa algo que ocurrió ayer, no puedes simplemente «enseñárselo». Tienes que reentrenarlo desde cero o usar trucos como RAG (Retrieval-Augmented Generation).
Esto no es un bug. Es una consecuencia directa de cómo están diseñados los Transformers.
Y es exactamente lo que Nested Learning propone cambiar.
El «clic» mental: diferentes velocidades de aprendizaje dentro del mismo modelo
En un Transformer tradicional:
- Todas las capas aprenden a la misma velocidad
- Todas las actualizaciones ocurren en cada paso de entrenamiento
- No existe una noción de memoria con ritmos distintos
Nested Learning rompe ese paradigma.
Imagina un modelo donde:
- Algunas partes aprenden muy rápido → memoria de corto plazo, adaptada al contexto actual
- Otras aprenden muy lento → conocimiento estable, memoria de largo plazo
- Y otras operan en frecuencias intermedias → conocimiento semántico, patrones recurrentes
Esto se parece mucho más a cómo funciona la neuroplasticidad humana: ondas, ritmos, capas de memoria que se actualizan a velocidades distintas.
La clave está en la propuesta conceptual:
La arquitectura y la optimización no son cosas separadas. Son el mismo proceso operando a diferentes escalas.
En lugar de ver un modelo como un único bloque que aprende a una velocidad fija, Nested Learning lo concibe como un sistema de optimizaciones anidadas, cada una con su propia frecuencia de actualización.
«Hope»: la arquitectura experimental que demuestra el concepto
Para probar la idea, Google no se quedó en la teoría. Construyó una arquitectura experimental llamada Hope.
Hope implementa un Sistema de Memoria Continua (CMS):
- No hay solo «memoria corta» vs «memoria larga»
- Hay un espectro completo de módulos de memoria
- Cada uno se actualiza a su propia frecuencia
Los resultados son prometedores
Hope supera a Transformers estándar en:
- Modelado de lenguaje general → mejor perplejidad
- Tareas de largo contexto → maneja conversaciones y documentos extensos con más coherencia
- Pruebas tipo Needle-In-A-Haystack (NIAH) → encuentra información específica en contextos masivos
- Eficiencia de memoria → retiene información relevante sin explotar en tamaño
En otras palabras: Hope recuerda mejor, durante más tiempo y con menos coste.
Mi perspectiva: Google pisa el acelerador en la carrera de la IA
Voy a ser honesto: en los últimos meses parecía que China estaba liderando la carrera, especialmente con avances como:
- DeepSeek y sus MoE (Mixture of Experts) ultraeficientes
- Arquitecturas DSA (Dynamic Sparse Attention)
- Modelos open-source que rivalizan con los propietarios
Pero este paper de Google cambia el tono.
Nested Learning no es:
- Un parche
- Una optimización
- Un truco de ingeniería
- Un modelo más grande
Es una propuesta de fundamento.
Y eso importa por tres razones:
1. Es un camino más allá de la fuerza bruta
Hasta ahora, la receta era simple:
Más datos → más parámetros → más GPUs
Nested Learning propone algo distinto: modelos más inteligentes, no solo más grandes.
2. Abre la puerta a modelos que aprenden en tiempo real
Imagina una IA que:
- Lee las noticias del día
- Integra ese conocimiento en su memoria
- Se adapta sin reentrenamiento masivo
Esto es un cambio de juego.
Hoy, si quieres que un LLM sepa algo nuevo, tienes que:
- Reentrenarlo (caro, lento)
- Usar RAG (limitado, frágil)
- Esperar a la próxima versión
Con Nested Learning, el modelo podría aprender de forma continua, como lo hacemos nosotros.
3. Es un paso hacia cerrar la brecha con el cerebro humano
No por tamaño, sino por dinámica de aprendizaje.
El cerebro no aprende todo a la misma velocidad. Algunos recuerdos se fijan rápido (dónde dejaste las llaves), otros tardan años en consolidarse (tu lengua materna).
Nested Learning es el primer intento serio de replicar esa estructura en IA.
¿Qué significa esto para el futuro de los LLM?
Es pronto para afirmar que Nested Learning será el sucesor de los Transformers.
Pero es, sin duda, la propuesta más seria y ambiciosa desde 2017.
Si funciona a escala, podríamos ver:
- LLMs que se actualizan en tiempo real sin reentrenamiento
- Modelos más pequeños pero más capaces gracias a memoria eficiente
- IA que aprende de la interacción con el usuario, no solo del corpus inicial
Y por eso hoy hacemos este hueco en la serie: porque entender el futuro de los LLM también es parte de entender el presente.
“Si 2017 fue el año de los Transformers, 2025 podría ser recordado como el año en que empezó su sucesor.”
Enlaces de referencia
Para los que quieran profundizar, aquí dejo los enlaces directos al material original:
🔗 Google Research Blog — research.google
🔗 Paper NeurIPS 2025 — arxiv.org
🔗 Artículo de análisis — thedavestack.com
TL;DR
- Google propone Nested Learning, un nuevo paradigma de entrenamiento
- Ataca el olvido catastrófico con memoria continua de múltiples frecuencias
- La arquitectura experimental Hope supera a Transformers en tareas de largo contexto
- Es la propuesta más seria hacia LLM adaptativos desde «Attention Is All You Need»
- Podría cambiar la forma en que entrenamos y desplegamos modelos de IA


