Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Los mejores mini PC para IA local en 2026: guía de compra

Hace dos años, ejecutar un modelo de lenguaje potente en casa requería una torre repleta de dos o tres GPU, una fuente de alimentación de 1.000 vatios y un perfil de ventiladores que sonaba como una secadora de pelo. En 2026 puedes realizar gran parte del mismo trabajo desde un dispositivo del tamaño de la palma de tu mano que consume energía como un portátil. El inconveniente es que el mercado de mini PC se ha fragmentado en equipos que lucen similares, pero que se comportan de forma muy distinta una vez cargado un modelo.

Esta guía aclara esa confusión. Comparamos las cuatro categorías de equipos de factor de forma reducido que realmente importan para la IA local en la actualidad: el Mac mini de Apple, el DGX Spark de NVIDIA, los mini PC basados en AMD Ryzen AI Max+ («Strix Halo») y los mini PC de Intel equipados con NPU, incluyendo especificaciones verificadas, precios actuales y cifras reales de tokens por segundo. Al finalizar, sabrás cuál de ellos es compatible con los modelos que deseas ejecutar y qué líneas de las fichas técnicas responden al marketing y no al rendimiento real.

Conclusiones clave

  • La capacidad de memoria determina qué modelos caben; el ancho de banda de memoria determina a qué velocidad se ejecutan. Ambos valores son importantes, y habitualmente la publicidad solo destaca uno de ellos.
  • El Mac mini M4 Pro (aproximadamente 1.999 USD, 48 GB) es el mejor equilibrado para la mayoría de los usuarios por su silencio, su consumo de unos 30 W bajo carga y su capacidad para manejar cómodamente modelos de hasta ~32 mil millones de parámetros. Obsérvese que la versión de 64 GB fue retirada debido a la escasez de memoria en 2026, por lo que 48 GB constituye el techo práctico actual.
  • El DGX Spark de NVIDIA (3.999 USD al lanzamiento, 4.699 USD tras un aumento en febrero de 2026) dispone de 128 GB y procesa rápidamente los prompts, pero su ancho de banda de 273 GB/s limita la generación de tokens a aproximadamente 38 tok/s en un modelo de 120 mil millones de parámetros, según pruebas estandarizadas.
  • Los mini PC AMD Strix Halo (desde unos 1.500 USD) igualan la velocidad de generación del Spark gracias al mismo truco de memoria unificada, pero presentan un notable retraso en el procesamiento de prompts.
  • Los mini PC de Intel están pensados para modelos pequeños y descarga de carga a la NPU, no para tareas de clase 70B —útiles y económicos, pero pertenecientes a una categoría distinta.
  • Ningún mini PC supera la velocidad bruta de generación de un escritorio con múltiples GPU. Estos dispositivos se adquieren por su tamaño reducido, su silencio, su bajo consumo y su amplia memoria unificada, no por su rendimiento máximo de procesamiento.

Memoria unificada frente a VRAM: el único concepto que lo explica todo

Todas las recomendaciones siguientes dependen de esta distinción, por lo que merece dedicarle treinta segundos.

Una GPU tradicional dispone de su propia VRAM dedicada. Una RTX 4090 tiene 24 GB; si tu modelo y su contexto no caben en esos 24 GB, simplemente no se ejecutará en esa tarjeta, punto. La VRAM es rápida —la de la 4090 alcanza unos 1.008 GB/s—, pero nunca hay mucha en comparación con el tamaño de los modelos actuales.

Memoria unificada Este enfoque invierte la ecuación. Las series M de Apple, la GB10 de NVIDIA y el Strix Halo de AMD comparten un único grupo de memoria entre CPU y GPU, de modo que un equipo de 128 GB puede asignar más de 96 GB a un modelo. Así es como un dispositivo del tamaño de la palma de la mano ejecuta un modelo de 120 mil millones de parámetros que no cabría en ninguna GPU de consumo individual. El precio que se paga es el ancho de banda: la LPDDR5x unificada opera a unos 120–275 GB/s, una fracción del ancho de banda de la VRAM discreta. Y como la generación de tokens está limitada por el ancho de banda de memoria, ese límite fija tu número de tokens por segundo, independientemente de la potencia computacional que anuncie el chip. Ten siempre presentes estos dos valores (capacidad y ancho de banda), y todas las fichas técnicas siguientes serán fácilmente interpretables. Si deseas la visión completa desde el lado de la GPU, consulta nuestro artículo complementario sobre la mejoras GPUs para modelos de lenguaje local en 2026.

Una nota sobre el modelo de referencia utilizado a continuación: gpt-oss-120B es un modelo «mixture-of-experts» (MoE) con aproximadamente 117 mil millones de parámetros totales, pero solo unos ~5.100 millones activos por token. Este diseño MoE es precisamente la razón por la que una versión cuantizada cabe —y se ejecuta a velocidades útiles— en estos equipos con memoria unificada, pese a su modesto ancho de banda.

Apple Mac mini (M4 / M4 Pro): la opción predeterminada

El Mac mini sigue siendo la recomendación más sencilla para el mayor número de personas, y los cambios de precios en 2026 solo han reforzado esta ventaja. Tras eliminar Apple el nivel de almacenamiento de 256 GB en mayo de 2026, el Mac mini M4 base comienza ahora en 799 USD (16 GB de memoria unificada, SSD de 512 GB), con una opción de 24 GB disponible.

El modelo base M4 cuenta con una GPU de 10 núcleos y un ancho de banda de 120 GB/s —suficiente para modelos de clase 8B, donde logra unos 18–22 tok/s con Llama 3.2 8B en cuantización Q4. Para IA local seria necesitas el M4 ProMac mini M4 Pro 273 GB/s de ancho de banda —más del doble que el chip base. Configurado con 48 GB (alrededor de 1.999 USD), aloja cómodamente un modelo de 32 mil millones de parámetros cuantizado a Q4 íntegramente en memoria, ejecutando Qwen 2.5 32B a velocidades de 10–15 tok/s.

Una advertencia importante antes de comprar: la ficha técnica del M4 Pro admite hasta 64 GB, pero Apple retiró la configuración de 64 GB durante la escasez de DRAM en 2026, y a mediados de 2026 el nivel más alto disponible de forma fiable es de 48 GB. Si necesitas específicamente más memoria, los equipos con memoria unificada de 128 GB mencionados a continuación son la ruta realista.

Lo que distingue al Mac mini no es su velocidad máxima, sino el paquete completo. Consume aproximadamente 15 W en reposo y unos 30 W bajo carga de inferencia, y su ventilador apenas se activa de forma audible. Puede dejar uno funcionando como servidor de inferencia siempre activo en un estante y olvidarse de su existencia. El soporte de software mediante Ollama, LM Studioy el framework MLX de Apple es excelente. Si es nuevo en los modelos locales, nuestra guía completa de Ollama explica cómo ejecutar un modelo en exactamente este tipo de equipo.

Ventajas

  • Funcionamiento prácticamente silencioso; consumo de energía de 15–30 W
  • Ecosistema de software líder en su categoría (MLX, Ollama, LM Studio)
  • El ancho de banda de 273 GB/s del M4 Pro es excelente para su tamaño y precio
  • El valor de reventa y la calidad de construcción son excelentes

Desventajas

  • Actualmente se limita prácticamente a 48 GB (la versión de 64 GB fue retirada debido a la escasez de 2026); no puede ejecutar modelos de 70B+ que sí soportan los equipos con 128 GB
  • La memoria unificada está soldada; debe adquirir desde el principio la capacidad que necesitará
  • No dispone de soporte CUDA de NVIDIA, lo cual es relevante para ciertas herramientas de entrenamiento o ajuste fino

NVIDIA DGX Spark: 128 GB y una pila CUDA, a un precio elevado

El DGX Spark (presentado inicialmente como «Proyecto DIGITS» en la CES 2025, rebautizado como DGX Spark en la GTC de marzo de 2025 y con disponibilidad prevista para el 15 de octubre de 2025) es la propuesta de NVIDIA para colocar una «supercomputadora de IA personal» sobre su escritorio. Combina un superchip Grace Blackwell GB10 —un procesador Arm de 20 núcleos (10× Cortex-X925 + 10× Cortex-A725) junto con una GPU Blackwell— con 128 GB de memoria LPDDR5x unificada coherente, un SSD de 4 TB con cifrado automático y una tarjeta de red ConnectX-7 de 200 Gbps para conectar dos unidades. NVIDIA lo clasifica con un rendimiento de hasta 1 petaflop en operaciones de IA en precisión FP4, y según la propia NVIDIA puede ejecutar inferencia en modelos de hasta ~200 mil millones de parámetros o realizar ajuste fino en modelos de hasta ~70 mil millones. La alimentación eléctrica se suministra mediante un adaptador de 240 W.

Aquí va la parte sincera: el Spark es un monstruo en el procesamiento de prompts: en gpt-oss-120B alcanza aproximadamente 1.723 tok/s en la fase de prellenado en pruebas estandarizadas, comparable al rendimiento de un sistema con tres RTX 3090. Sin embargo, la velocidad de generación de tokens es únicamente de ~38,6 tok/s en esa misma comparación, ya que el ancho de banda de memoria del GB10 es solo de 273 GB/s —igual que el de un Mac mini M4 Pro—, convirtiéndose en la limitación física durante la fase de decodificación, que depende críticamente de la memoria. Pilas de inferencia altamente optimizadas (vLLM, SGLang, TensorRT-LLM de NVIDIA) han logrado elevar la generación de gpt-oss-120B en una sola unidad hasta unos 50–60 tok/s con la configuración adecuada, pero el techo impuesto por el ancho de banda —que mantiene su rendimiento muy por debajo del de un sistema multi-GPU— es una limitación física, no de software.

Luego está el precio. El Spark se lanzó a 3.999 dólares y subió a $4,699 en febrero de 2026 debido a restricciones en el suministro de memoria —un aumento del 18 % que NVIDIA atribuyó a escasez de DRAM y NAND—. Esto equivale a unos 37 dólares por GB de memoria, y, considerando únicamente el rendimiento en generación, tres RTX 3090 usadas cuestan menos y ofrecen varias veces más velocidad. El Spark justifica su precio si necesita específicamente la pila de software CUDA/NVIDIA, NVFP4 o la capacidad de ejecutar inferencia en modelos de hasta 200 mil millones de parámetros dentro de una caja de 240 W. Analizamos esto con mayor profundidad en nuestra reseña del DGX Spark / Proyecto DIGITS y en la comparación directa DGX Spark frente a Mac Studio .

AMD Ryzen AI Max+ 395 (Strix Halo): la opción más rentable

La Strix Halo de AMD es la sorpresa de esta generación. El modelo insignia Ryzen AI Max+ 395 incorpora 16 núcleos Zen 5, una GPU RDNA 3.5 de 40 unidades de cómputo (la Radeon 8060S) y una NPU XDNA 2 de 50 TOPS. Combinada con hasta 128 GB de LPDDR5X, de los cuales hasta 96 GB pueden asignarse a la GPU, aplica el mismo truco de memoria unificada que el Spark —permitiendo ejecutar un modelo de 120B que ninguna GPU de consumo individual puede alojar— a una fracción de su costo.

El compromiso radica en el ancho de banda y el procesamiento de prompts. El ancho de banda de memoria de Strix Halo alcanza como máximo unos 256 GB/s, y en gpt-oss-120B logra únicamente ~340 tok/s en la fase de prellenado frente a los 1.723 tok/s del Spark. Pero aquí va el punto clave: la generación de tokens es de ~34 tok/s, muy cercana a los 38 tok/s del Spark. En cargas de trabajo tipo chat, donde se genera más de lo que se ingiere, la diferencia es mínima. Se espera un rendimiento de aproximadamente 12 tok/s con Llama 3.3 70B en cuantización Q4, consumiendo entre 80 y 120 W.

Lo que lo hace atractivo es su precio y flexibilidad. El precio de entrada ha aumentado con la escasez de RAM en 2026: las versiones de 64 GB del GMKtec EVO-X2 se venden desde unos 1.500 dólares, mientras que la versión de 128 GB del EVO-X2 ahora cuesta cerca de 2.200 dólares. La versión de escritorio reparables de Framework comienza en torno a los 1.639 dólares (solo chasis, Ryzen AI Max+ 395, 64 GB), sin incluir almacenamiento ni sistema operativo, y la Estación de Trabajo para IA de Corsair 300 se lanzó cerca de los 2.000 dólares, aunque su precio ha superado ampliamente esa cifra durante la escasez. El software es el talón de Aquiles: ROCm y llama.cpp funcionan bien, pero su ecosistema es menos pulido que el de Apple o NVIDIA, y las funciones de IA para Windows dependen principalmente de la NPU y no de la GPU principal.

Ventajas

  • Configuraciones disponibles con 128 GB de memoria unificada —la opción más económica para ejecutar modelos de 70B+
  • Velocidad de generación casi equiparable a la del DGX Spark por una fracción de su precio
  • Plataforma x86 abierta; compatible con Windows o Linux, con amplia compatibilidad de aplicaciones

Desventajas

  • Procesamiento débil de prompts —las cargas de trabajo con contexto largo o RAG resultan lentas
  • Las herramientas ROCm son menos pulidas que CUDA o MLX
  • Memoria soldada; los precios de la RAM en 2026 han inflado el precio de mercado

Mini PC de Intel: modelos pequeños y descarga de carga a la NPU

Los mini PC de Intel ocupan una categoría distinta, y es fundamental no confundirse al comprarlos. Los actuales chips Arrow Lake-H, como el Core Ultra 9 285H, combinan una GPU integrada Arc con una NPU de 13 TOPS, alcanzando un total de aproximadamente 99 TOPS de potencia de cómputo de IA a nivel de plataforma cuando se suman CPU y GPU; la pila IPEX-LLM de Intel permite ejecutar Ollama y llama.cpp tanto en su GPU integrada como en su NPU. El siguiente paso importante en 2026 es Panther Lake (Core Ultra Serie 3), presentado en la CES 2026, que combina una NPU de 50 TOPS con una GPU mucho más potente para alcanzar hasta ~180 TOPS a nivel de plataforma —aunque sigue siendo una plataforma orientada a portátiles/móviles, no a equipos de escritorio para modelos grandes.

Sin embargo, ninguno de estos equipos cuenta con memoria unificada para modelos grandes. Con memoria DDR5 estándar (típicamente ~120 GB/s en modo dual canal) y sin posibilidad de asignar hasta 96 GB a la GPU, un mini PC de Intel es la herramienta adecuada para modelos de 3B–8B, asistentes locales, transcripción y tareas en segundo plano aceleradas por NPU —no para ejecutar un modelo de 70B. Si su carga de trabajo consiste en «un modelo cuantizado de 8B y algunas funciones de IA para Windows», un equipo Intel es económico y eficiente energéticamente. Si, por el contrario, busca «el modelo más grande que pueda alojar», debe considerar las máquinas con memoria unificada descritas anteriormente. El compromiso entre NPU y GPU es, por sí mismo, un tema aparte, analizado detalladamente en nuestro artículo NPU frente a GPU para IA .

Tabla comparativa

Las cifras de generación indicadas a continuación corresponden a gpt-oss-120B (generación de tokens / procesamiento de prompts), obtenidas mediante pruebas estandarizadas estilo llama.cpp donde ambos modelos caben; para modelos más pequeños se indican observaciones separadas. Los precios corresponden a mediados de 2026, en dólares estadounidenses, y fluctúan según la escasez continua de memoria.

EquipoMemoria unificadaAncho de bandaLímite realista de tamaño de modeloGeneración / prellenado (120B)Consumo eléctricoPrecio (2026)
Mac mini M4 (básico)16–32 GB120 GB/s~8–14B (Q4)n/d (8B: ~20 tok/s)~30 W$799+
Mac mini M4 Prohasta 48 GB*273 GB/s~32.000 millones (Q4)n/d (32.000 millones: 10–15 tok/s)~30 W~$1,999
AMD Strix Halo (Ryzen AI Max+ 395)hasta 128 GB~256 GB/s~120.000 millones (Q4, arquitectura MoE)34 / 340 tok/s80–120 W1.500–3.000 USD+
NVIDIA DGX Spark128 GB273 GB/s~200.000 millones (inferencia)39 / 1.723 tok/smáx. ~240 W3.999–4.699 USD
Mini PC Intel Arrow Lake-HDDR5 (sin una gran memoria GPU)~120 GB/s~8.000 millones (Q4)n/d~65 W600–1.200 USD

*La ficha técnica del M4 Pro indica soporte para 64 GB, pero esta configuración se retiró de la venta durante la escasez de DRAM de 2026; en la mitad de 2026, el límite práctico es de 48 GB.

A modo de referencia, un Mac Studio M3 Ultra ofrece aproximadamente 819 GB/s de ancho de banda (y descodifica el mismo modelo de 120.000 millones a unos 70 tok/s), mientras que un sistema con tres RTX 3090 alcanza unos ~124 tok/s en descodificación —ambos están claramente fuera del segmento de mini PC y recuerdan lo que se sacrifica al optar por un factor de forma reducido. Si está considerando una computadora Apple más grande, nuestra guía sobre Mac Studio M4 Max frente a M4 Ultra analiza ese salto.

Recomendaciones según caso de uso

Mayoría de usuarios / asistente silencioso siempre activo: Mac mini M4 Pro con 48 GB. El mejor equilibrio entre capacidad, ruido casi nulo, consumo de ~30 W y una pila de software madura. Puede optar por la versión base de 24 GB con chip M4 si solo necesita modelos de 8.000 millones.

Máximo tamaño de modelo dentro de un presupuesto ajustado: una computadora basada en AMD Strix Halo (GMKtec EVO-X2, Framework Desktop o Corsair AI Workstation 300). Los 128 GB permiten cargar modelos de 70.000–120.000 millones que el Mac mini no puede manejar, con velocidades de generación que casi igualan a las del mucho más caro DGX Spark —e incluso con precios inflados por la escasez, sigue estando muy por debajo del Spark.

Desarrollo CUDA / flujo de trabajo NVIDIA / procesamiento intensivo de indicaciones (prompts): DGX Spark. Está pagando una prima por la pila de software NVIDIA, NVFP4, la interconexión ConnectX y el mejor prellenado (prefill) del mercado —justificado únicamente si esos aspectos son específicamente relevantes para usted.

Modelos pequeños locales y tareas en la NPU: una mini PC Intel Arrow Lake o Panther Lake. Económica, eficiente y adecuada para trabajos de clase 8.000 millones y funciones de IA de Windows.

Preguntas frecuentes

¿Cuál es la mejor mini PC para ejecutar LLM locales en 2026?

Para la mayoría de los usuarios es el Mac mini M4 Pro con 48 GB: silencioso, de bajo consumo y capaz de ejecutar modelos de hasta ~32.000 millones. Si necesita ejecutar modelos de 70.000 millones o más, una computadora con AMD Strix Halo y 128 GB representa la opción más rentable, mientras que el NVIDIA DGX Spark es la alternativa premium orientada a CUDA.

¿Cuánta memoria RAM necesito para ejecutar un modelo de 70.000 millones de parámetros?

Un modelo de 70.000 millones cuantizado a Q4 requiere aproximadamente 40–48 GB solo para los pesos, además de margen adicional para el contexto. En la práctica, necesita como mínimo una computadora con 64 GB, y preferiblemente 128 GB para ejecutarlo cómodamente con una ventana de contexto amplia. Esto excluye al actual Mac mini de 48 GB para las configuraciones más exigentes de 70.000 millones y apunta hacia computadoras con memoria unificada de 128 GB.

¿Por qué el NVIDIA DGX Spark es lento generando tokens a pesar de costar más de 4.000 USD?

Porque la generación de tokens está limitada por el ancho de banda de memoria, y los 273 GB/s del Spark son modestos —igual que los del Mac mini M4 Pro. Su fortaleza radica en el procesamiento de indicaciones (aproximadamente 1.723 tok/s en un modelo de 120.000 millones) y su capacidad de 128 GB, no en la velocidad bruta de generación, donde las pruebas estandarizadas lo sitúan alrededor de los 38 tok/s (las pilas optimizadas pueden alcanzar ~50–60 tok/s).

¿Es tan buena la memoria unificada como la VRAM dedicada de una GPU?

Es un compromiso. La memoria unificada le ofrece mucha mayor capacidad (hasta 128 GB), lo que permite ejecutar modelos que no cabrían en ninguna GPU de consumo individual, pero con un ancho de banda mucho menor que el de la VRAM. Para modelos grandes que no cabrían de otro modo, es la única opción práctica; para modelos más pequeños, una GPU discreta es más rápida.

¿Puede un Mac mini ejecutar un modelo de 70.000 millones?

No realmente, ya no. Tras la retirada de la versión de 64 GB durante la escasez de 2026, la configuración máxima disponible del Mac mini M4 Pro tiene 48 GB —suficiente, como mucho, para un modelo de 70.000 millones fuertemente cuantizado y ajustado, con margen práctico máximo alrededor de los 32.000 millones en Q4. Para trabajar con modelos de 70.000 millones, debe pasar a una máquina de 128 GB, como una computadora con AMD Strix Halo, un Mac Studio o el DGX Spark.

¿Son buenas las mini PC AMD Strix Halo para IA, o el software sigue siendo demasiado rudimentario?

Son genuinamente capaces: 128 GB de memoria y velocidades de generación cercanas a las del DGX Spark por una fracción de su precio. La advertencia radica en el software: ROCm y llama.cpp funcionan, pero no están tan pulidos como MLX de Apple o CUDA de NVIDIA, y el procesamiento de indicaciones es débil. Si está cómodo realizando alguna configuración inicial, su relación calidad-precio es excelente.

¿Qué consumo energético y nivel de ruido debo esperar de estas máquinas?

El Mac mini es el más silencioso y eficiente, con un consumo de ~30 W bajo carga y prácticamente inaudible. Las computadoras con AMD Strix Halo consumen 80–120 W, con ventiladores audibles pero discretos. El DGX Spark se suministra con un adaptador de alimentación de 240 W. Todas son notablemente más silenciosas y eficientes energéticamente que un escritorio multi-GPU, que puede consumir 300–450 W o más.

Conclusión final

La era de las mini PC para IA local es una realidad, pero la publicidad exagera sus capacidades en un aspecto concreto: estas máquinas destacan por su tamaño reducido, silencio, eficiencia energética y gran memoria unificada —no por velocidad bruta. Ninguna de ellas supera a un escritorio multi-GPU en tokens por segundo, y no debería comprarla esperando ese rendimiento.

Elija según el tamaño real de los modelos que va a ejecutar. Para modelos de 8.000–32.000 millones con la menor complejidad posible, el Mac mini M4 Pro es la elección obvia y la que recomendaríamos a la mayoría de nuestros lectores. Para ejecutar modelos de 70.000–120.000 millones sin necesidad de una torre, una computadora con AMD Strix Halo ofrece la mejor relación capacidad/precio, reservando el DGX Spark para quienes necesitan específicamente la pila de software de NVIDIA y su potencia en el procesamiento de indicaciones. Y si sus necesidades se limitan a modelos de 8.000 millones, una mini PC Intel hará el trabajo por menos dinero. Ajuste la memoria al modelo, preste atención a la línea de ancho de banda y ignore los petaflops anunciados en la caja.

Scroll to Top