18 mayo 2026

Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM

Hacemos un hueco en la serie ML: lo que Google acaba de presentar podría ser el futuro de los LLM

Google presenta Nested Learning, un nuevo paradigma que podría ser el sucesor conceptual de los Transformers.

Hoy hacemos una pausa en nuestra serie sobre Machine Learning, Deep Learning y LLMs.

No para desviarnos, sino porque ha ocurrido algo que encaja perfectamente en el punto en el que estamos: un avance que podría definir la próxima década de la IA.

El contexto: de «Attention Is All You Need» a «Nested Learning»

En 2017, Google Research publicó Attention Is All You Need.

Ese paper cambió la historia: dio nacimiento a los Transformers, la arquitectura que sostiene absolutamente toda la IA generativa moderna. ChatGPT, Claude, Gemini, Llama… todos son Transformers.

Ocho años después, en noviembre de 2025, el mismo equipo vuelve a mover ficha.

Y lo que proponen no es una mejora incremental, sino un nuevo paradigma: Nested Learning (Aprendizaje Anidado).

Un enfoque diseñado para atacar uno de los mayores problemas de los LLM actuales: el olvido catastrófico.

Infografía explicando Nested Learning, el sistema de memoria continua y la arquitectura Hope de Google.

El problema que Nested Learning quiere resolver

Los LLM actuales son impresionantes, pero tienen una limitación estructural crítica:

No pueden aprender cosas nuevas sin olvidar parte de lo anterior.

Son modelos estáticos, congelados tras el entrenamiento. Si quieres que GPT-4 sepa algo que ocurrió ayer, no puedes simplemente «enseñárselo». Tienes que reentrenarlo desde cero o usar trucos como RAG (Retrieval-Augmented Generation).

Esto no es un bug. Es una consecuencia directa de cómo están diseñados los Transformers.

Y es exactamente lo que Nested Learning propone cambiar.

El «clic» mental: diferentes velocidades de aprendizaje dentro del mismo modelo

En un Transformer tradicional:

Todas las capas aprenden a la misma velocidad
Todas las actualizaciones ocurren en cada paso de entrenamiento
No existe una noción de memoria con ritmos distintos

Nested Learning rompe ese paradigma.

Imagina un modelo donde:

Algunas partes aprenden muy rápido → memoria de corto plazo, adaptada al contexto actual
Otras aprenden muy lento → conocimiento estable, memoria de largo plazo
Y otras operan en frecuencias intermedias → conocimiento semántico, patrones recurrentes

Esto se parece mucho más a cómo funciona la neuroplasticidad humana: ondas, ritmos, capas de memoria que se actualizan a velocidades distintas.

La clave está en la propuesta conceptual:

La arquitectura y la optimización no son cosas separadas. Son el mismo proceso operando a diferentes escalas.

En lugar de ver un modelo como un único bloque que aprende a una velocidad fija, Nested Learning lo concibe como un sistema de optimizaciones anidadas, cada una con su propia frecuencia de actualización.

«Hope»: la arquitectura experimental que demuestra el concepto

Para probar la idea, Google no se quedó en la teoría. Construyó una arquitectura experimental llamada Hope.

Hope implementa un Sistema de Memoria Continua (CMS):

No hay solo «memoria corta» vs «memoria larga»
Hay un espectro completo de módulos de memoria
Cada uno se actualiza a su propia frecuencia

Los resultados son prometedores

Hope supera a Transformers estándar en:

Modelado de lenguaje general → mejor perplejidad
Tareas de largo contexto → maneja conversaciones y documentos extensos con más coherencia
Pruebas tipo Needle-In-A-Haystack (NIAH) → encuentra información específica en contextos masivos
Eficiencia de memoria → retiene información relevante sin explotar en tamaño

En otras palabras: Hope recuerda mejor, durante más tiempo y con menos coste.

Mi perspectiva: Google pisa el acelerador en la carrera de la IA

Voy a ser honesto: en los últimos meses parecía que China estaba liderando la carrera, especialmente con avances como:

DeepSeek y sus MoE (Mixture of Experts) ultraeficientes
Arquitecturas DSA (Dynamic Sparse Attention)
Modelos open-source que rivalizan con los propietarios

Pero este paper de Google cambia el tono.

Nested Learning no es:

Un parche
Una optimización
Un truco de ingeniería
Un modelo más grande

Es una propuesta de fundamento.

Y eso importa por tres razones:

1. Es un camino más allá de la fuerza bruta

Hasta ahora, la receta era simple:

Más datos → más parámetros → más GPUs

Nested Learning propone algo distinto: modelos más inteligentes, no solo más grandes.

2. Abre la puerta a modelos que aprenden en tiempo real

Imagina una IA que:

Lee las noticias del día
Integra ese conocimiento en su memoria
Se adapta sin reentrenamiento masivo

Esto es un cambio de juego.

Hoy, si quieres que un LLM sepa algo nuevo, tienes que:

Reentrenarlo (caro, lento)
Usar RAG (limitado, frágil)
Esperar a la próxima versión

Con Nested Learning, el modelo podría aprender de forma continua, como lo hacemos nosotros.

3. Es un paso hacia cerrar la brecha con el cerebro humano

No por tamaño, sino por dinámica de aprendizaje.

El cerebro no aprende todo a la misma velocidad. Algunos recuerdos se fijan rápido (dónde dejaste las llaves), otros tardan años en consolidarse (tu lengua materna).

Nested Learning es el primer intento serio de replicar esa estructura en IA.

¿Qué significa esto para el futuro de los LLM?

Es pronto para afirmar que Nested Learning será el sucesor de los Transformers.

Pero es, sin duda, la propuesta más seria y ambiciosa desde 2017.

Si funciona a escala, podríamos ver:

LLMs que se actualizan en tiempo real sin reentrenamiento
Modelos más pequeños pero más capaces gracias a memoria eficiente
IA que aprende de la interacción con el usuario, no solo del corpus inicial

Y por eso hoy hacemos este hueco en la serie: porque entender el futuro de los LLM también es parte de entender el presente.

“Si 2017 fue el año de los Transformers, 2025 podría ser recordado como el año en que empezó su sucesor.”

Enlaces de referencia

Para los que quieran profundizar, aquí dejo los enlaces directos al material original:

🔗 Google Research Blog — research.google

🔗 Paper NeurIPS 2025 — arxiv.org

🔗 Artículo de análisis — thedavestack.com

TL;DR

Google propone Nested Learning, un nuevo paradigma de entrenamiento
Ataca el olvido catastrófico con memoria continua de múltiples frecuencias
La arquitectura experimental Hope supera a Transformers en tareas de largo contexto
Es la propuesta más seria hacia LLM adaptativos desde «Attention Is All You Need»
Podría cambiar la forma en que entrenamos y desplegamos modelos de IA

Machine Learning, AI, Deep Learning, General, IA, Inteligencia Artificial

| Tags: AI, artificial, ia, inteligencia, Inteligencia artificial, learning, machine, Machine Learning

De On-Premise a la Nube en Español

Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM

Nested Learning: el nuevo paradigma de Google que podría redefinir el futuro de los LLM

Hacemos un hueco en la serie ML: lo que Google acaba de presentar podría ser el futuro de los LLM

El contexto: de «Attention Is All You Need» a «Nested Learning»

El problema que Nested Learning quiere resolver

El «clic» mental: diferentes velocidades de aprendizaje dentro del mismo modelo

«Hope»: la arquitectura experimental que demuestra el concepto

Los resultados son prometedores

Mi perspectiva: Google pisa el acelerador en la carrera de la IA

1. Es un camino más allá de la fuerza bruta

2. Abre la puerta a modelos que aprenden en tiempo real

3. Es un paso hacia cerrar la brecha con el cerebro humano

¿Qué significa esto para el futuro de los LLM?

Enlaces de referencia

TL;DR

Deja una respuesta Cancelar la respuesta