Nesta primavera, com apenas seis semanas de diferença, os dois laboratórios de IA mais observados da China lançaram cada um um novo modelo principal. DeepSeek A DeepSeek lançou o V4 em 24 de abril — com 1,6 trilhão de parâmetros, licença MIT e pesos disponíveis no Hugging Face no mesmo dia. A Alibaba respondeu em 20 de maio com o Qwen3.7 Max, um modelo de raciocínio com pesos fechados, janela de contexto de um milhão de tokens e preço compatível com sua ambição.
Na teoria, parecem rivais. Na prática, visam compradores diferentes: um é o modelo de ponta sério mais barato que você pode executar localmente; o outro é uma API polida e mais rápida, alugada por token. Este artigo analisa onde cada um realmente se destaca — programação, raciocínio, contexto, velocidade e, principalmente, custo por milhão de tokens.
Principais conclusões
- Desempenho muito semelhante em programação. As pontuações verificadas pelo SWE-bench dos fornecedores são de 80,6% (DeepSeek V4-Pro) contra 80,4% (Qwen3.7 Max) — uma diferença insignificante, dentro da margem de arredondamento.
- O Qwen leva ligeira vantagem em inteligência bruta. A avaliação independente da Artificial Analysis atribui-lhe 57 pontos no Índice de Inteligência, contra 52 pontos do DeepSeek V4-Pro.
- O DeepSeek é muito mais barato. O V4-Pro custa US$ 0,435 / US$ 0,87 por milhão de tokens de entrada/saída; o Qwen3.7 Max custa US$ 2,50 / US$ 7,50 — cerca de 6 a 9 vezes mais.
- A escolha entre aberto e fechado é a verdadeira bifurcação. O DeepSeek V4 é disponibilizado com pesos abertos, passíveis de hospedagem local; o Qwen3.7 Max é exclusivamente oferecido via API, sem versão aberta até junho de 2026.
- Ambos afirmam suportar uma janela de contexto de 1 milhão de tokens — mas o Qwen é significativamente mais rápido, com cerca de 193 tokens/segundo, contra aproximadamente 80 tokens/segundo do DeepSeek.
- Trate com cautela os benchmarks divulgados pelos fornecedores. Vários números de destaque são auto-relatados e ainda não foram reproduzidos de forma independente.
- Os dois modelos à primeira vista
- Programação: empate técnico no benchmark principal
- Raciocínio e inteligência geral
- Contexto, velocidade e o ‘custo da verbosidade’
- Preço: onde a diferença se transforma em um abismo
- Qual deles você realmente deveria executar?
- Perguntas frequentes
- Conclusão
- Artigos relacionados
Os dois modelos à primeira vista
O DeepSeek V4 é na verdade disponibilizado em dois tamanhos. O V4-Pro é a versão premium: 1,6 trilhão de parâmetros no total, com 49 bilhões ativos por token, construído com uma arquitetura esparsa baseada em Mixture-of-Experts (MoE). Há também o V4-Flash, um modelo de 284 bilhões / 13 bilhões, voltado para cargas de trabalho mais econômicas e com maior taxa de processamento. Ambos possuem a janela de contexto de 1 milhão de tokens anunciada e uma saída máxima incomumente grande de 384 mil tokens, além de serem lançados sob a permissiva licença MIT, com pesos disponíveis no Hugging Face.
O Qwen3.7 Max é um caso distinto. A Alibaba não revelou sua contagem de parâmetros — observadores independentes estimam cerca de um trilhão no total, também em uma arquitetura esparsa MoE — e, crucialmente, seus pesos são fechados e seu acesso é exclusivamente via API. Não há versão para download até junho de 2026, uma mudança notável em relação ao legado de código aberto do Qwen (a linha 3.6 ainda fornece modelos abertos, como a variante densa de 27 bilhões). O Qwen3.7 Max é posicionado explicitamente como um modelo de raciocínio e agentes, com ênfase em cadeias estendidas de raciocínio antes da geração da resposta.
Essa diferenciação é fundamental para o que segue. Se você deseja entender por que ambos os laboratórios estão investindo tão intensamente nessa direção, nosso artigo explicativo sobre a ascensão da DeepSeek aborda o cenário estratégico por trás disso.
| Especificações | DeepSeek V4-Pro | Qwen3.7 Max |
|---|---|---|
| Lançado | 24 de abril de 2026 | 20 de maio de 2026 |
| Pesos | Abertos (licença MIT, no Hugging Face) | Fechados / somente via API |
| Parâmetros | 1,6 trilhão no total / 49 bilhões ativos (MoE) | Não divulgado (~1 trilhão estimado, MoE) |
| Janela de contexto | 1.000.000 tokens | 1.000.000 tokens |
| Saída máxima | 384.000 tokens | ~65.000 tokens |
| Preço de entrada (por milhão) | $0.435 | $2.50 |
| Preço de saída (por milhão) | $0.87 | $7.50 |
| Velocidade de saída | ~80 tokens/seg | ~193 tokens/seg |
Programação: empate técnico no benchmark principal
O benchmark que todos verificam primeiro é o SWE-bench Verified, um conjunto filtrado por humanos de problemas reais do GitHub. Nesse caso, os dois modelos estão efetivamente empatados: a configuração superior do DeepSeek (às vezes rotulada como V4-Pro-Max) registra 80,6%, enquanto o Qwen3.7 Max registra 80,4%. Essa diferença é ruído.
Ao analisar um nível mais profundo, o quadro se diferencia conforme o tipo de tarefa. O DeepSeek obtém números impressionantes em codificação no estilo de programação competitiva — 93,5 no LiveCodeBench e uma classificação de 3.206 no Codeforces — métricas que dependem fortemente da resolução algorítmica de quebra-cabeças. Já os pontos fortes do Qwen inclinam-se para tarefas de engenharia autônomas e multi-etapas: ele afirma 60,6 no SWE-bench Pro (versão mais difícil) e 69,7 no Terminal-Bench 2.0, benchmarks que recompensam um modelo capaz de navegar por um repositório, executar comandos e iterar, em vez de resolver uma função em uma única tentativa.
A leitura prática é a seguinte: para loops autônomos de agente voltados à correção de bases de código, o Qwen3.7 Max possui uma leve vantagem; já para geração bruta de código e problemas no estilo competitivo, o DeepSeek é, no mínimo, igual ao Qwen e custa apenas uma fração do preço. Contudo, nenhum dos dois é o campeão em valor para configurações locais com modelos de pesos abertos — essa coroa ainda pertence a modelos menores abordados em nosso melhor LLM local para programação guia.
Uma ressalva digna de repetição: a maioria desses valores foi divulgada pelos próprios fornecedores. Em junho de 2026, reproduções independentes ainda são escassas, e a avaliação norte-americana do CAISI (NIST) sobre o V4-Pro concluiu que sua capacidade no mundo real fica cerca de oito meses atrás dos principais sistemas norte-americanos. Leia as pontuações divulgadas como um limite superior, não como uma garantia.
Raciocínio e inteligência geral
Para uma comparação justa, a referência neutra mais útil é a Artificial Analysis, que calcula seu próprio Índice de Inteligência composto. Lá, o Qwen3.7 Max obtém 57 (uma colocação entre os dez melhores entre mais de 150 modelos acompanhados), contra 52 do DeepSeek V4-Pro em sua configuração de raciocínio máximo. O Qwen sai vencedor, mas ambos estão confortavelmente na fronteira do estado da arte.
Nos testes individuais de raciocínio, os fornecedores alternam vitórias. O Qwen3.7 Max registra 92,4 no GPQA Diamond, um benchmark científico de nível de pós-graduação; o V4-Pro do DeepSeek afirma cerca de 90 no mesmo teste. Ambos os laboratórios destacam pontuações próximas da perfeição em competições matemáticas difíceis, como HMMT e AIME 2026, quando autorizados a usar ferramentas e tempo estendido de raciocínio — resultados que revelam mais sobre o poder computacional empregado durante o teste do que sobre a capacidade intrínseca do modelo.
Há uma diferença mais sutil no comportamento. O Qwen3.7 Max foi ajustado para recusar-se com mais frequência em responder perguntas sobre as quais não tem certeza, o que lhe rendeu a menor taxa de alucinação entre modelos de ponta, segundo relatos próprios do Qwen (cerca de 22,9%), embora tenha reduzido também a precisão bruta de recall em benchmarks puramente factuais. Se sua aplicação usa recuperação aumentada (RAG) e você prefere que o modelo diga "não sei" a inventar respostas, isso é uma característica desejável. Se, ao contrário, você quer que ele sempre tente responder, trata-se de um traço a ser considerado no planejamento.
Contexto, velocidade e o ‘custo da verbosidade’
Ambos os modelos anunciam uma janela de contexto de 1 milhão de tokens e sustentam-na com mecanismos de atenção reformulados para longos contextos — revisores independentes relataram excelente capacidade de recuperação pelo Qwen mesmo além da marca de 800 mil tokens. Para raciocínio sobre repositórios inteiros ou para alimentar pilhas extensas de documentos longos, qualquer um dos dois consegue manter bem o material.
É na velocidade que eles se diferenciam. O Qwen3.7 Max transmite saída a aproximadamente 193 tokens por segundo em testes independentes; o DeepSeek V4-Pro alcança cerca de 80. O tempo até o primeiro token do DeepSeek é, na verdade, mais rápido (cerca de 1,87 s contra 2,65 s do Qwen), portanto o DeepSeek parece mais ágil ao iniciar, mas o Qwen conclui gerações longas muito mais rapidamente.
Ambos são também notavelmente verbosos. Ao executar o Índice de Inteligência da Artificial Analysis, o DeepSeek V4-Pro consumiu 190 milhões de tokens de saída, enquanto o Qwen3.7 Max consumiu 97 milhões — ambos bem acima da média do campo, com o DeepSeek figurando entre os modelos mais vorazes em tokens testados. Essa verbosidade se agrava com o custo da saída — e, como os tokens de saída são os mais caros, um modelo de raciocínio prolixo pode inflacionar silenciosamente sua conta muito além do que o preço por token sugere.
Preço: onde a diferença se transforma em um abismo
Essa é a vitória mais clara neste comparativo, e vai para o DeepSeek.
| Modelo | Entrada por milhão | Saída por milhão | Leitura de cache por milhão | Média ponderada da AA por milhão |
|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | ~$0.004 | $0.18 |
| DeepSeek V4-Flash | $0.14 | $0.28 | ~$0.003 | — |
| Qwen3.7 Max | $2.50 | $7.50 | ~$0.25 | $1.43 |
O DeepSeek V4-Pro é aproximadamente seis vezes mais barato na entrada e quase nove vezes mais barato na saída do que o Qwen3.7 Max. Ao migrar para o V4-Flash, a diferença amplia-se a ponto de se tornar absurda para aplicações de chat ou classificação em grande volume. O preço do DeepSeek para hits de cache também é brutalmente agressivo — cerca de US$ 0,004 por milhão em prefixos repetidos, um desconto de ~99% que torna praticamente gratuito o uso de prompts de sistema longos e estáveis.
O Qwen também oferece cache de prompts (leituras de cache ao redor de US$ 0,25 por milhão, um corte de 90%), e, na métrica ponderada da Artificial Analysis, a diferença efetiva reduz-se para cerca de 8× em vez do fator de 9× anunciado. No entanto, não há interpretação possível desses números que torne o Qwen economicamente vantajoso. Você paga pela velocidade adicional e pelos poucos pontos extras no Índice de Inteligência.
Qual deles você realmente deveria executar?
Escolha o DeepSeek V4 se…
- Você deseja pesos abertos que possa hospedar localmente, ajustar ou executar em ambientes isolados (air-gapped), sob licença MIT.
- O custo é o fator decisivo — ele é 6–9× mais barato, antes mesmo do desconto substancial com cache.
- Você precisa das saídas mais longas possíveis (até 384 mil tokens) para grandes tarefas de geração.
- Sua carga de trabalho envolve programação competitiva ou matemática.
Escolha o Qwen3.7 Max se…
- Você busca a maior inteligência geral mensurada entre os dois e não se importa com o custo adicional.
- A taxa de throughput é crítica — ele gera saída mais de duas vezes mais rápido.
- Você está desenvolvendo loops de engenharia autônomos e multi-etapas, nos quais ele apresenta uma leve vantagem.
- Você prefere uma API gerenciada e fechada, com menor taxa de alucinação, em vez de hospedagem local.
Para a maioria das equipes, a escolha é realmente uma questão de orçamento e controle, não de capacidade. Eles são suficientemente próximos em qualidade para que os eixos aberto versus fechado e econômico versus premium decidam a preferência. Se você também está avaliando opções ocidentais, veja como o campo se compara em nossa análise GPT-5 vs Claude 4 vs Gemini 3, e nossa comparação DeepSeek vs ChatGPT aprofunda a lacuna de valor transfronteiriça.
Perguntas frequentes
O DeepSeek V4 ou o Qwen3.7 Max é melhor para programação?
Eles estão essencialmente empatados no SWE-bench Verified (80,6% vs 80,4%). O DeepSeek mostra desempenho superior em benchmarks de programação competitiva, como o LiveCodeBench e o Codeforces, enquanto o Qwen3.7 Max reivindica vantagem em tarefas de engenharia autônoma, como o SWE-bench Pro e o Terminal-Bench. Para a maioria das tarefas de programação, ambos são mais do que capazes.
Qual modelo é mais barato de usar?
O DeepSeek V4 é drasticamente mais barato. O V4-Pro custa US$ 0,435 / US$ 0,87 por milhão de tokens de entrada/saída, contra US$ 2,50 / US$ 7,50 do Qwen3.7 Max — cerca de 6–9× menos. A variante V4-Flash do DeepSeek e sua política agressiva de precificação de cache ampliam ainda mais essa diferença para uso em grande volume.
Posso baixar e hospedar esses modelos localmente?
O DeepSeek V4 (tanto Pro quanto Flash) é disponibilizado com pesos abertos sob licença MIT no Hugging Face, permitindo hospedagem local e ajuste fino. Já o Qwen3.7 Max é um modelo de pesos fechados, disponível apenas via API em junho de 2026, sem versão para download.
Ambos realmente suportam uma janela de contexto de 1 milhão de tokens?
Sim, ambos anunciam uma janela de contexto de 1 milhão de tokens. O DeepSeek também suporta até 384 mil tokens de saída, enquanto o Qwen3.7 Max limita a saída a cerca de 65 mil tokens. Revisores independentes relataram excelente capacidade de recuperação em longos contextos pelo Qwen mesmo além da marca de 800 mil tokens.
Qual é mais rápido?
O Qwen3.7 Max transmite saída mais rapidamente — cerca de 193 tokens/seg contra aproximadamente 80 do DeepSeek V4-Pro em testes independentes. O DeepSeek possui um tempo ligeiramente menor até o primeiro token, portanto começa a responder mais cedo, mas o Qwen conclui gerações longas com mais rapidez.
As pontuações nos benchmarks são confiáveis?
Trate-as com cautela. Muitos dos números divulgados são reportados pelos próprios fornecedores e ainda não foram reproduzidos de forma independente. Agregadores neutros, como a Artificial Analysis, atribuem ao Qwen3.7 Max um Índice de Inteligência composto mais alto (57 contra 52), e uma avaliação governamental norte-americana (CAISI/NIST) constatou que o DeepSeek V4-Pro fica cerca de oito meses atrás dos principais modelos norte-americanos no geral.
O Qwen3.7 Max é realmente mais inteligente que o DeepSeek V4?
Na pontuação composta independente, marginalmente — 57 contra 52 no Índice de Inteligência da Artificial Analysis. A diferença é real, mas pequena, e vem com um custo elevado e uma perda significativa em termos de abertura. Se esses poucos pontos justificam pagar cerca de 8× mais depende inteiramente do seu caso de uso.
Conclusão
Esses dois modelos são mais próximos do que a hiperbolização sugere. No benchmark que mais importa para engenheiros — o SWE-bench Verified — eles estão empatados, e, em inteligência geral, o Qwen3.7 Max lidera por uma margem pequena, mas confirmada de forma independente. Se apenas a qualidade decidisse, o Qwen venceria por pontos.
Contudo, raramente é só a qualidade que decide. O DeepSeek V4 é de pesos abertos, licenciado sob MIT e 6–9× mais barato, tornando-o a escolha padrão para quem prioriza custo, controle ou execução em hardware próprio. Já o Qwen3.7 Max é a opção ideal quando você busca uma API gerenciada ligeiramente mais inteligente e muito mais rápida, e o orçamento não é uma restrição. A maioria das equipes optará pelo DeepSeek e só perceberá o que está deixando de lado nas tarefas mais difíceis de agentes — se é que perceberá.
