Dois anos atrás, executar um modelo de linguagem capaz em casa exigia uma torre repleta de duas ou três GPUs, uma fonte de alimentação de 1.000 watts e um perfil de ventilação que soava como um secador de cabelos. Em 2026, você pode realizar grande parte desse mesmo trabalho a partir de um dispositivo do tamanho da palma da sua mão, com consumo energético tão baixo quanto o de um laptop. O problema é que o mercado de mini PCs fragmentou-se em máquinas que parecem semelhantes, mas se comportam de maneira muito distinta assim que um modelo é carregado.
Este guia elimina essa confusão. Comparamos as quatro categorias de computadores de fator de forma reduzido que realmente importam para IA local hoje — o Mac mini da Apple, o DGX Spark da NVIDIA, os mini PCs baseados no Ryzen AI Max+ da AMD ("Strix Halo") e os mini PCs da Intel equipados com NPU — com especificações verificadas, preços atuais e números reais de tokens por segundo. Ao final, você saberá qual máquina suporta os modelos que deseja executar e quais linhas das fichas técnicas são mera propaganda, não desempenho real.
Principais conclusões
- A capacidade de memória determina o que cabe; a largura de banda da memória determina a velocidade de execução. Ambos os valores são importantes, e a publicidade normalmente destaca apenas um deles.
- O Mac mini M4 Pro (~US$ 1.999, 48 GB) é o melhor opção geral para a maioria das pessoas: silencioso, consome cerca de 30 W sob carga e opera confortavelmente com modelos de até ~32 bilhões de parâmetros. Observe que a versão com 64 GB foi retirada do mercado devido à escassez de memória em 2026, portanto, 48 GB é o limite prático atual.
- O DGX Spark da NVIDIA (US$ 3.999 no lançamento, US$ 4.699 após aumento em fevereiro de 2026) possui 128 GB e domina o processamento de prompts, mas sua largura de banda de 273 GB/s limita a geração de tokens a aproximadamente 38 tok/s em um modelo de 120 bilhões de parâmetros, conforme testes padronizados.
- Os mini PCs AMD Strix Halo (a partir de ~US$ 1.500) igualam a velocidade de geração do Spark graças ao mesmo truque da memória unificada, mas ficam muito aquém no processamento de prompts.
- Os mini PCs da Intel destinam-se a modelos pequenos e descarga para NPU, não a cargas de trabalho da classe de 70 bilhões de parâmetros — úteis e econômicos, mas pertencem a uma categoria diferente.
- Nenhum mini PC supera um desktop com múltiplas GPUs em velocidade bruta de geração. Você adquire esses dispositivos por seu tamanho compacto, silêncio, eficiência energética e grande memória unificada — não pela taxa máxima de transferência.
- Memória unificada versus VRAM: o único conceito que explica tudo
- Apple Mac mini (M4 / M4 Pro): a escolha padrão
- NVIDIA DGX Spark: 128 GB e pilha CUDA, com um preço elevado
- AMD Ryzen AI Max+ 395 (Strix Halo): a opção mais econômica
- Mini PCs da Intel: modelos pequenos e descarga para NPU
- Tabela comparativa
- Recomendações por caso de uso
- Perguntas frequentes
- Conclusão
- Artigos relacionados
Memória unificada versus VRAM: o único conceito que explica tudo
Todas as recomendações abaixo dependem dessa distinção, portanto, vale a pena dedicar trinta segundos para entendê-la.
Uma GPU tradicional possui sua própria VRAM dedicada. Uma RTX 4090 tem 24 GB; se seu modelo e seu contexto não cabem nesses 24 GB, ele simplesmente não será executado nessa placa — ponto final. A VRAM é rápida — a da RTX 4090 alcança cerca de 1.008 GB/s —, mas sua quantidade nunca é proporcional ao tamanho dos modelos atuais.
Memória unificada inverte essa relação. As séries M da Apple, a GB10 da NVIDIA e a Strix Halo da AMD compartilham um único pool de memória entre CPU e GPU, de modo que uma máquina com 128 GB pode alocar mais de 96 GB para um modelo. É assim que um dispositivo do tamanho da palma da mão executa um modelo de 120 bilhões de parâmetros que não caberia em nenhuma GPU consumidora individual. O preço pago é a largura de banda: a LPDDR5x unificada opera em torno de 120–275 GB/s, uma fração da largura de banda da VRAM discreta. E como a geração de tokens é limitada pela largura de banda da memória, esse limite define sua taxa de tokens por segundo — independentemente da potência computacional declarada pelo chip. Mantenha esses dois números (capacidade e largura de banda) em mente e todas as fichas técnicas a seguir se tornarão compreensíveis. Se você deseja a visão completa do lado das GPUs, consulte nosso artigo complementar sobre o melhores GPUs para LLMs locais em 2026.
Uma observação sobre o modelo de benchmark usado a seguir: o gpt-oss-120B é um modelo misto de especialistas (MoE) com cerca de 117 bilhões de parâmetros no total, mas apenas ~5,1 bilhões ativos por token. Esse design MoE é exatamente o motivo pelo qual uma versão quantizada cabe — e roda a velocidades utilizáveis — nesses dispositivos com memória unificada, apesar de sua largura de banda modesta.
Apple Mac mini (M4 / M4 Pro): a escolha padrão
O Mac mini continua sendo a recomendação mais fácil para o maior número de pessoas, e as alterações nos preços de 2026 só reforçaram essa posição. Após a Apple ter descontinuado a opção de armazenamento de 256 GB em maio de 2026, o Mac mini M4 básico passou a iniciar em US$ 799 (16 GB de memória unificada, SSD de 512 GB), com opção disponível para 24 GB de memória.
O modelo básico M4 possui uma GPU de 10 núcleos e largura de banda de 120 GB/s — adequado para modelos da classe de 8 bilhões de parâmetros, onde atinge cerca de 18–22 tok/s no Llama 3.2 8B em Q4. Para IA local séria, você precisa do M4 ProMac mini M4 Pro 273 GB/s de largura de banda — mais que o dobro do chip básico. Configurado com 48 GB (cerca de US$ 1.999), ele acomoda confortavelmente um modelo de 32 bilhões de parâmetros quantizado para Q4 inteiramente na memória, executando o Qwen 2.5 32B na faixa de 10–15 tok/s.
Uma ressalva importante antes da compra: a ficha técnica do M4 Pro suporta até 64 GB, mas a Apple retirou essa configuração de venda durante a escassez de DRAM em 2026, e, em meados de 2026, o nível mais alto confiavelmente disponível é de 48 GB. Se você precisar especificamente de mais que isso, os dispositivos com memória unificada de 128 GB listados a seguir são o caminho realista.
O que torna o Mac mini atraente não é sua velocidade máxima — é o pacote completo. Ele consome cerca de 15 W em ociosidade e aproximadamente 30 W sob carga de inferência, e o ventilador mal chega a girar de forma audível. É possível deixá-lo funcionando como um servidor de inferência sempre ativo em uma prateleira e esquecê-lo. O suporte de software via Ollama, LM Studio, e o framework MLX da Apple é excelente. Se você é novo em modelos locais, nosso guia completo do Ollama explica como executar um modelo exatamente nesse tipo de máquina.
Pontos positivos
- Praticamente silencioso; consumo de energia de 15–30 W
- Ecossistema de software líder no mercado (MLX, Ollama, LM Studio)
- A largura de banda de 273 GB/s do M4 Pro é excelente para o seu tamanho e preço
- Valor de revenda e qualidade de construção são excelentes
Pontos negativos
- Na prática, limita-se atualmente a 48 GB (a versão de 64 GB foi retirada devido à escassez de 2026) — incapaz de executar modelos acima de ~70B, que rodam em sistemas com 128 GB
- A memória unificada é soldada à placa-mãe; compre desde o início a capacidade de que precisará
- Não oferece suporte ao CUDA da NVIDIA, o que é relevante para algumas ferramentas de treinamento ou ajuste fino
NVIDIA DGX Spark: 128 GB e pilha CUDA, com um preço elevado
O DGX Spark (anunciado inicialmente como 'Projeto DIGITS' na CES 2025, renomeado DGX Spark na GTC em março de 2025 e com entrega prevista para 15 de outubro de 2025) é a proposta da NVIDIA para colocar um 'supercomputador pessoal de IA' sobre sua mesa. Ele combina um superchip Grace Blackwell GB10 — um processador Arm de 20 núcleos (10× Cortex-X925 + 10× Cortex-A725) integrado a uma GPU Blackwell — com 128 GB de memória LPDDR5x unificada coerente, um SSD autocriptografado de 4 TB e uma interface de rede ConnectX-7 de 200 Gbps para interligar duas unidades. A NVIDIA o classifica com desempenho máximo de até 1 petaflop em operações de IA em precisão FP4, sendo capaz, segundo a própria empresa, de executar inferência em modelos de até ~200 bilhões de parâmetros ou realizar ajuste fino em modelos de até ~70 bilhões. A alimentação é fornecida por um adaptador de 240 W.
Aqui vem a parte honesta: o Spark é um monstro no processamento de prompts: no modelo gpt-oss-120B, alcança cerca de 1.723 tok/s na fase de prefill em testes padronizados, ficando no mesmo patamar de um sistema com três GPUs RTX 3090. Já a geração de tokens (generation) atinge apenas ~38,6 tok/s na mesma comparação, pois a largura de banda de memória do GB10 é de apenas 273 GB/s — equivalente à do Mac mini M4 Pro, constituindo a principal limitação física durante a fase de decodificação, que depende fortemente da memória. Pilhas de inferência altamente otimizadas (vLLM, SGLang, TensorRT-LLM da própria NVIDIA) conseguiram elevar a geração de tokens do gpt-oss-120B em uma única unidade para cerca de 50–60 tok/s com configurações adequadas, mas o teto imposto pela largura de banda — que mantém seu desempenho bem abaixo de sistemas multi-GPU — é uma questão de física, não de software.
Há ainda o preço. O Spark foi lançado por US$ 3.999 e subiu para $4,699 em fevereiro de 2026 devido às restrições no fornecimento de memória — um aumento de 18%, atribuído pela NVIDIA à escassez de DRAM e NAND. Isso equivale a aproximadamente US$ 37 por GB de memória — e, considerando apenas o throughput de geração, um trio de RTX 3090 usadas custa menos e opera várias vezes mais rápido. O Spark justifica seu valor se você precisar especificamente do ecossistema de software CUDA/NVIDIA, do formato NVFP4 ou da margem adicional para inferência em modelos de até 200B de parâmetros dentro de uma caixa de 240 W. Analisamos isso com mais profundidade em nossa análise do DGX Spark / Projeto DIGITS e na comparação direta entre DGX Spark vs Mac Studio .
AMD Ryzen AI Max+ 395 (Strix Halo): a opção mais econômica
O Strix Halo da AMD é a surpresa desta geração. O modelo topo de linha Ryzen AI Max+ 395 inclui 16 núcleos Zen 5, uma GPU RDNA 3.5 de 40 unidades de computação (Radeon 8060S) e uma NPU XDNA 2 com desempenho de 50 TOPS. Combinado com até 128 GB de LPDDR5X, dos quais até 96 GB podem ser alocados à GPU, ele emprega o mesmo truque de memória unificada do Spark — permitindo executar um modelo de 120B que nenhuma GPU consumidora isolada consegue comportar — a uma fração do custo.
A troca envolve largura de banda e processamento de prompts. A largura de banda de memória máxima do Strix Halo fica em torno de 256 GB/s, e no modelo gpt-oss-120B ele atinge apenas ~340 tok/s na fase de prefill contra os 1.723 tok/s do Spark. Mas aqui está o ponto decisivo: a geração de tokens é de ~34 tok/s, muito próxima aos 38 tok/s do Spark. Para cargas de trabalho do tipo chat, nas quais se gera mais do que se ingere, essa diferença é pequena. Espera-se cerca de 12 tok/s no Llama 3.3 70B em quantização Q4, com consumo de 80–120 W.
O que o torna atraente é o preço e a flexibilidade. Os preços de entrada subiram com a escassez de RAM em 2026: versões de 64 GB do GMKtec EVO-X2 começam em torno de US$ 1.500, enquanto a versão de 128 GB do EVO-X2 agora custa cerca de US$ 2.200. O Desktop reparável da Framework começa em aproximadamente US$ 1.639 (versão básica, Ryzen AI Max+ 395, 64 GB), sem armazenamento nem sistema operacional, e a Estação de Trabalho para IA da Corsair 300 foi lançada próximo de US$ 2.000, mas ultrapassou esse valor significativamente durante a escassez. O software é o ponto fraco — ROCm e llama.cpp funcionam bem, mas o ecossistema é menos maduro que os da Apple ou da NVIDIA, e os recursos de IA do Windows dependem principalmente da NPU, não da GPU principal.
Pontos positivos
- Configurações com 128 GB de memória unificada disponíveis — o caminho mais econômico para modelos de 70B ou maiores
- Velocidade de geração quase igual à do DGX Spark por uma fração do preço
- Plataforma x86 aberta; executa Windows ou Linux, com ampla compatibilidade de aplicativos
Pontos negativos
- Processamento de prompts fraco — cargas de trabalho com contexto longo ou RAG parecem lentas
- Ferramentas ROCm menos refinadas que CUDA ou MLX
- Memória soldada; preços inflacionados da RAM em 2026 elevaram os preços de varejo
Mini PCs da Intel: modelos pequenos e descarga para NPU
Os mini PCs da Intel ocupam um segmento distinto, e é fundamental evitar compras equivocadas. Os atuais chips Arrow Lake-H, como o Core Ultra 9 285H, combinam uma iGPU Arc com uma NPU de 13 TOPS, totalizando até cerca de 99 TOPS de poder computacional de IA na plataforma quando se somam CPU e GPU; a pilha IPEX-LLM da Intel permite executar Ollama e llama.cpp em sua iGPU e NPU. O grande avanço de 2026 é o Panther Lake (Core Ultra Series 3), lançado na CES 2026, que integra uma NPU de 50 TOPS a uma GPU muito mais potente, alcançando até ~180 TOPS na plataforma — embora continue sendo uma solução voltada para notebooks/móveis, não para desktops destinados a modelos grandes.
Contudo, nenhum desses dispositivos é uma máquina de modelos grandes com memória unificada. Com DDR5 padrão (tipicamente ~120 GB/s em canal duplo) e sem alocação de até 96 GB para a GPU, um mini PC da Intel é a ferramenta certa para modelos de 3B–8B, assistentes locais, transcrição e tarefas em segundo plano aceleradas por NPU — não para executar um modelo de 70B. Se sua carga de trabalho for 'um modelo quantizado de 8B e alguns recursos de IA do Windows', um mini PC da Intel é barato e energeticamente eficiente. Se for 'o maior modelo possível que eu consiga rodar', opte pelas máquinas com memória unificada listadas acima. A escolha entre NPU e GPU para IA é um tema à parte, abordado detalhadamente em nossa análise NPU versus GPU para IA .
Tabela comparativa
Os valores de geração abaixo referem-se ao modelo gpt-oss-120B (geração de tokens / processamento de prompts), obtidos em testes padronizados no estilo llama.cpp, onde ambos os modelos cabem; observações sobre modelos menores são indicadas separadamente. Os preços correspondem ao meio de 2026, em dólares norte-americanos, e variam conforme a escassez contínua de memória.
| Máquina | Memória unificada | Largura de banda | Limite realista de tamanho de modelo | Geração / prefill (120B) | Consumo de energia | Preço (2026) |
|---|---|---|---|---|---|---|
| Mac mini M4 (base) | 16–32 GB | 120 GB/s | ~8–14B (Q4) | n/d (8B: ~20 tok/s) | ~30 W | $799+ |
| Mac mini M4 Pro | até 48 GB* | 273 GB/s | ~32B (Q4) | n/a (32B: 10–15 tok/s) | ~30 W | ~$1,999 |
| AMD Strix Halo (Ryzen AI Max+ 395) | até 128 GB | ~256 GB/s | ~120B (Q4 MoE) | 34 / 340 tok/s | 80–120 W | US$ 1.500–3.000+ |
| NVIDIA DGX Spark | 128 GB | 273 GB/s | ~200B (inferência) | 39 / 1.723 tok/s | máx. ~240 W | US$ 3.999–4.699 |
| Mini PC Intel Arrow Lake-H | DDR5 (sem grande pool de GPU) | ~120 GB/s | ~8B (Q4) | n/d | ~65 W | US$ 600–1.200 |
*A ficha técnica do M4 Pro indica suporte para 64 GB, mas essa versão foi retirada da venda durante a escassez de DRAM em 2026; 48 GB é o limite prático no meados de 2026.
Para comparação, um Mac Studio M3 Ultra oferece cerca de 819 GB/s de largura de banda (e decodifica o mesmo modelo de 120B a aproximadamente 70 tok/s), enquanto um sistema com três GPUs GeForce RTX 3090 atinge cerca de 124 tok/s na decodificação — ambos estão bem fora da categoria de mini PCs e servem como lembrete do que se sacrifica em troca do pequeno fator de forma. Se você está avaliando uma unidade Apple maior, nosso guia comparativo Mac Studio M4 Max vs M4 Ultra aborda essa atualização.
Recomendações por caso de uso
Para a maioria das pessoas ou assistente silencioso sempre ativo: Mac mini M4 Pro com 48 GB. O melhor equilíbrio entre capacidade, ruído quase nulo, consumo de energia de ~30 W e pilha de software madura. Reduza para a versão base M4 com 24 GB se precisar apenas de modelos de 8B.
Maior tamanho de modelo por um preço acessível: um computador com AMD Strix Halo (GMKtec EVO-X2, Framework Desktop ou Corsair AI Workstation 300). Os 128 GB permitem carregar modelos de 70B–120B inacessíveis ao Mac mini, com velocidades de geração que se aproximam muito das do muito mais caro Spark — e mesmo com preços inflacionados pela escassez, seu custo permanece bem abaixo do do Spark.
Desenvolvimento CUDA / fluxo de trabalho NVIDIA / processamento intenso de prompts: DGX Spark. Você paga um prêmio pela pilha NVIDIA, pelo formato NVFP4, pelos recursos de clustering ConnectX e pela pré-processamento de prompts líder no setor — justificável apenas se esses aspectos forem especificamente relevantes para você.
Modelos locais menores e tarefas executadas na NPU: um mini PC Intel Arrow Lake ou Panther Lake. Econômico, eficiente e dimensionado idealmente para trabalhos com modelos de classe 8B e recursos de IA do Windows.
Perguntas frequentes
Qual é o melhor mini PC para executar LLMs localmente em 2026?
Para a maioria dos usuários, é o Mac mini M4 Pro com 48 GB — silencioso, de baixo consumo energético e capaz de executar modelos de até ~32B. Se você precisa executar modelos de 70B ou maiores, um computador com AMD Strix Halo com 128 GB é a opção mais vantajosa, e o NVIDIA DGX Spark é a alternativa premium voltada para CUDA.
Quanta memória RAM é necessária para executar um modelo de 70 bilhões de parâmetros?
Um modelo de 70B quantizado para Q4 requer cerca de 40–48 GB apenas para os pesos, além de espaço adicional para o contexto. Na prática, recomenda-se uma máquina com, no mínimo, 64 GB, e 128 GB para executá-lo confortavelmente com uma janela de contexto ampla. Isso exclui o atual Mac mini de 48 GB para as configurações mais exigentes de 70B e aponta para caixas com memória unificada de 128 GB.
Por que o NVIDIA DGX Spark é lento na geração de tokens, apesar de custar mais de US$ 4.000?
Porque a geração de tokens é limitada pela largura de banda de memória, e os 273 GB/s do Spark são modestos — equivalentes aos do Mac mini M4 Pro. Sua força reside no processamento de prompts (cerca de 1.723 tok/s em um modelo de 120B) e nos 128 GB de capacidade, não na velocidade bruta de geração, onde testes padronizados o situam em torno de 38 tok/s (pilhas otimizadas podem alcançar ~50–60).
A memória unificada é tão boa quanto a VRAM dedicada de uma GPU?
Trata-se de um compromisso. A memória unificada oferece muito mais capacidade (até 128 GB), permitindo executar modelos que não caberiam em nenhuma GPU consumidora individual, mas com largura de banda significativamente menor que a da VRAM. Para modelos grandes que simplesmente não cabem de outra forma, ela é a única opção prática; para modelos menores, uma GPU discreta é mais rápida.
O Mac mini consegue executar um modelo de 70B?
Não exatamente, atualmente. Com a versão de 64 GB retirada do mercado devido à escassez de 2026, o Mac mini M4 Pro de maior capacidade disponível comercialmente tem 48 GB — suficiente, no máximo, para um modelo de 70B fortemente quantizado e ajustado, com margem prática limitada a modelos de até ~32B em Q4. Para trabalhar com modelos de 70B, opte por uma máquina com 128 GB, como um computador com AMD Strix Halo, um Mac Studio ou o DGX Spark.
Os mini PCs AMD Strix Halo são bons para IA, ou o software ainda é instável demais?
Eles são genuinamente capazes — com 128 GB de memória e velocidades de geração próximas às do DGX Spark por uma fração do preço. A ressalva é o software: ROCm e llama.cpp funcionam, mas são menos refinados que o MLX da Apple ou o CUDA da NVIDIA, e o processamento de prompts é fraco. Se você estiver confortável com alguma configuração inicial, o custo-benefício é excelente.
Quanto consumo de energia e ruído devo esperar dessas máquinas?
O Mac mini é o mais silencioso e eficiente, consumindo cerca de 30 W sob carga e operando praticamente em silêncio. Os computadores com AMD Strix Halo consomem 80–120 W, com ventiladores audíveis, mas discretos. O DGX Spark é fornecido com um adaptador de alimentação de 240 W. Todos são drasticamente mais silenciosos e eficientes energeticamente que um desktop multi-GPU, que pode consumir 300–450 W ou mais.
Conclusão
A era dos mini PCs para IA local é real, mas o marketing exagera um ponto específico: essas máquinas se destacam pelo tamanho reduzido, silêncio, eficiência energética e grande memória unificada — não pela velocidade bruta. Nenhum desses dispositivos supera um desktop multi-GPU em tokens por segundo, e você não deve comprá-lo esperando esse desempenho.
Escolha com base no tamanho real dos modelos que você executa. Para modelos de 8B–32B com o mínimo de complicações, o Mac mini M4 Pro é a escolha óbvia e a que recomendamos à maioria dos leitores. Para executar modelos de 70B–120B sem recorrer a um gabinete torre, um computador com AMD Strix Halo oferece a melhor relação capacidade/preço, enquanto o DGX Spark é reservado para quem precisa especificamente da pilha NVIDIA e de sua potência no processamento de prompts. E, se suas necessidades se limitam a modelos de 8B, um mini PC Intel fará o trabalho por menos. Combine a memória ao tamanho do modelo, observe a linha de largura de banda e ignore o valor em petaflops impresso na embalagem.
