Fecha de publicación: 17 de mayo de 2026
— La inteligencia artificial no solo está saturando la capacidad de cálculo de los centros de datos, sino que está provocando la mayor transformación estructural en la memoria de los servidores de las últimas décadas. La arquitectura tradicional, basada en la regla inmutable de que la memoria RAM debe estar conectada directamente a la placa base del procesador, se ha vuelto ineficiente ante las demandas de los Modelos de Lenguaje Grande (LLM) y los sistemas agénticos.
De acuerdo con informes recientes de la industria, la IA absorberá hasta el 70% de la producción mundial de chips de memoria, presionando el suministro de otros sectores e impulsando un cambio radical: la transición hacia la memoria compartida y descentralizada.
El entrenamiento de modelos requiere procesar volúmenes masivos de datos, una tarea en la que la memoria de ancho de banda ultraalto (HBM) acoplada a las GPU funciona de forma excelente. Sin embargo, el verdadero reto de infraestructura actual se ha trasladado a la inferencia (la fase en la que el modelo ya entrenado responde en tiempo real a millones de usuarios).
Cuando un modelo genera una respuesta, lo hace palabra por palabra (o token por token). Para evitar recalcular de forma redundante todo el contexto previo en cada paso de la conversación, el sistema genera una memoria de trabajo llamada KV Cache (Caché de Claves y Valores).
El desafío: A medida que las interacciones se vuelven más largas y los agentes de IA ejecutan tareas complejas de varios minutos, esta caché crece exponencialmente. En servicios con alta concurrencia, la KV Cache puede ocupar un espacio masivo en la memoria, superando incluso el tamaño de los propios pesos del modelo. Al ser la memoria HBM de las GPU sumamente costosa y limitada en capacidad, los centros de datos se han quedado sin espacio físico en los aceleradores.
Para resolver este "muro de la memoria", la industria de semiconductores está dividiendo el ecosistema en dos grandes enfoques tecnológicos complementarios:
La especificación CXL (que ya avanza firmemente en sus versiones más recientes como CXL 3.2 y los despliegues de CXL 4.0) permite conectar módulos de memoria de manera externa a través de las ranuras PCIe de alta velocidad, actuando de forma similar a como lo hacen los discos de almacenamiento compartidos.
Memory Pooling (Fondo común): Con CXL 2.0 y 3.0, la memoria se traslada fuera de las placas individuales para agruparse en grandes racks o clústeres externos, conocidos en el sector como "Memory Godboxes".
Asignación dinámica: Si un servidor de IA se enfrenta a una ráfaga de consultas que satura su memoria local por el crecimiento de la KV Cache, el switch de la red CXL le asigna dinámicamente terabytes de memoria RAM (DDR5) desde el fondo común, retirándoselos a otro servidor que esté inactivo. Esto eleva la eficiencia de uso de la memoria en los centros de datos desde un modesto 50% hasta más del 85%.
Para la computación de frontera que se ejecuta estrictamente al lado del chip de procesamiento (GPU/NPU), los principales fabricantes (Samsung, SK Hynix y Micron) han estandarizado la producción de HBM4.
A diferencia de la disposición horizontal tradicional, HBM utiliza arquitecturas 3D apilando verticalmente los troqueles de DRAM mediante vías a través de silicio (TSV), montadas sobre un interpositor de silicio en configuraciones 2.5D. Con la llegada de HBM4E, las velocidades de transferencia alcanzan tasas de datos capaces de entregar anchos de banda sin precedentes que superan los 4 TB/s por dispositivo, permitiendo alimentar la velocidad que exigen los nuevos chips de arquitectura chiplet.
La arquitectura de los servidores ya no es homogénea. Se está consolidando una infraestructura de tres niveles perfectamente definidos para optimizar costes y rendimiento:
Empresas de infraestructura y diseño de chips como Astera Labs, Enfabrica, Panmnesia y Liqid ya suministran controladores y switches de red capaces de levantar racks con capacidades de hasta 144 Terabytes de memoria DDR5 compartida, logrando multiplicar por más de tres veces el rendimiento de la inferencia en comparación con las arquitecturas que dependen de almacenamiento tradicional o transferencias de red lentas. La memoria ha dejado de ser un componente estático de la placa base para convertirse en un tejido flexible, escalable y conectado a nivel de centro de datos.
Fuentes: Xataka (Sección IA), Rambus Architectural Insights, CXL Consortium Infrastructure Technical Guides 2026, The Next Platform, PatSnap In-Memory Computing Landscape Report.