Is DeepSeek V4 or Qwen3.7 Max better for coding?

They're essentially tied on SWE-bench Verified (80.6% vs 80.4%). DeepSeek looks stronger on competitive-programming benchmarks like LiveCodeBench and Codeforces, while Qwen3.7 Max claims an edge on agentic engineering tasks such as SWE-bench Pro and Terminal-Bench. For most coding work either is more than capable.

Which model is cheaper to use?

DeepSeek V4 is dramatically cheaper. V4-Pro costs $0.435/$0.87 per million input/output tokens versus Qwen3.7 Max at $2.50/$7.50 — roughly 6–9x less. DeepSeek's V4-Flash variant and aggressive cache pricing widen the gap further for high-volume use.

Can I download and self-host these models?

DeepSeek V4 (both Pro and Flash) ships with open weights under the MIT license on Hugging Face, so you can self-host and fine-tune it. Qwen3.7 Max is closed-weight and API-only as of June 2026, with no downloadable version available.

Do both really support a 1-million-token context window?

Yes, both advertise a 1M-token context. DeepSeek also supports up to 384K output tokens, while Qwen3.7 Max caps output around 65K. Independent reviewers reported strong long-context recall from Qwen past the 800K mark.

Qwen3.7 Max streams output faster — roughly 193 tokens/sec versus about 80 for DeepSeek V4-Pro in independent testing. DeepSeek has a slightly lower time-to-first-token, so it begins responding sooner, but Qwen completes long generations more quickly.

Are the benchmark scores trustworthy?

Treat them carefully. Many headline figures are vendor-reported and not yet independently reproduced. Neutral aggregators like Artificial Analysis give Qwen3.7 Max a higher composite Intelligence Index (57 vs 52), and a U.S. government evaluation (CAISI/NIST) found DeepSeek V4-Pro trails the leading U.S. models by about eight months overall.

Is Qwen3.7 Max actually smarter than DeepSeek V4?

On independent composite scoring, marginally — 57 vs 52 on the Artificial Analysis Intelligence Index. The difference is real but small, and it comes at a large price and openness cost. Whether those few points justify paying ~8x more depends entirely on your use case.

DeepSeek V4 contro Qwen3.7 Max: lo scontro del 2026

Questo primavera, a sei settimane di distanza, i due laboratori cinesi di intelligenza artificiale più seguiti hanno lanciato ciascuno un nuovo modello di punta. DeepSeek DeepSeek ha rilasciato la V4 il 24 aprile — 1,6 trilioni di parametri, licenza MIT, pesi disponibili su Hugging Face lo stesso giorno. Alibaba ha risposto il 20 maggio con Qwen3.7 Max, un modello chiuso specializzato nel ragionamento, dotato di una finestra contestuale da un milione di token e di un prezzo all'altezza delle sue ambizioni.

Sulla carta sembrano rivali. Nella pratica, invece, sono rivolti a clienti diversi: uno è il modello di frontiera serio più economico che si possa eseguire in autonomia; l'altro è un'API ben rifinita e più veloce, noleggiabile a consumo per ogni singolo token. Questo articolo analizza i punti di forza di ciascun modello — programmazione, ragionamento, contesto, velocità e, soprattutto, costo per milione di token.

Punti chiave

Risultati molto simili nella programmazione. I punteggi ufficiali di SWE-bench Verified raggiungono l'80,6% (DeepSeek V4-Pro) contro l'80,4% (Qwen3.7 Max) — una differenza trascurabile, dovuta semplicemente all'arrotondamento.
Qwen ottiene un leggero vantaggio in termini di intelligenza pura. L'indice di intelligenza calcolato da Artificial Analysis indipendente assegna a Qwen3.7 Max un punteggio di 57, contro i 52 di DeepSeek V4-Pro.
DeepSeek è decisamente più economico. V4-Pro costa $0,435/$0,87 per milione di token in input/output; Qwen3.7 Max costa $2,50/$7,50 — circa 6–9 volte di più.
La vera scelta è tra aperto e chiuso. DeepSeek V4 è rilasciato con pesi aperti, ospitabili autonomamente; Qwen3.7 Max è disponibile esclusivamente tramite API, senza alcuna versione open source al giugno 2026.
Entrambi dichiarano una finestra contestuale da 1 milione di token — ma Qwen è significativamente più veloce, con circa 193 token/sec contro gli ~80 di DeepSeek.
Interpretare con cautela i benchmark forniti dai produttori. Diversi dati di rilievo sono auto-dichiarati e non ancora verificati in modo indipendente.

I due modelli a colpo d'occhio

DeepSeek V4 è effettivamente disponibile in due versioni. V4-Pro è la variante più potente: 1,6 trilioni di parametri totali, con 49 miliardi attivi per ogni token, basata su un design sparse Mixture-of-Experts (MoE). Esiste anche V4-Flash, un modello da 284 miliardi/13 miliardi di parametri, pensato per carichi di lavoro meno costosi e ad alto throughput. Entrambi vantano la stessa finestra contestuale da 1 milione di token e un insolitamente ampio limite massimo di output pari a 384K; entrambi sono rilasciati sotto la permissiva licenza MIT, con i pesi disponibili su Hugging Face.

Qwen3.7 Max è un modello completamente diverso. Alibaba non ha rivelato il numero esatto di parametri — osservatori indipendenti stimano circa un trilione in totale, con architettura sparse MoE — e, cosa cruciale, è un modello a pesi chiusi, disponibile esclusivamente tramite API. Nessuna versione scaricabile è stata resa pubblica al giugno 2026, una scelta notevole rispetto alla tradizione open-source di Qwen (la linea 3.6 continua infatti a rilasciare modelli aperti, come la variante densa da 27 miliardi di parametri). Qwen3.7 Max è presentato esplicitamente come un modello per il ragionamento e per agenti, che sfrutta catene estese di ragionamento (chain-of-thought) prima di fornire una risposta.

Questo quadro concettuale è fondamentale per comprendere quanto segue. Se volete capire perché entrambi i laboratori stanno spingendo così tanto, la nostra spiegazione sull'ascesa di DeepSeek analizza il contesto strategico.

Specifiche	DeepSeek V4-Pro	Qwen3.7 Max
Rilasciato	24 aprile 2026	20 maggio 2026
Pesi	Aperti (licenza MIT, su Hugging Face)	Chiusi / solo tramite API
Parametri	1,6T totali / 49B attivi (MoE)	Non divulgati (~1T stimati, MoE)
Finestra contestuale	1.000.000 token	1.000.000 token
Output massimo	384.000 token	~65.000 token
Prezzo input (per milione)	$0.435	$2.50
Prezzo output (per milione)	$0.87	$7.50
Velocità di output	~80 token/sec	~193 token/sec

Programmazione: pareggio sul benchmark principale

Il benchmark che tutti controllano per primo è SWE-bench Verified, un insieme di problemi reali provenienti da GitHub filtrato manualmente. Qui i due modelli sono sostanzialmente alla pari: la configurazione più avanzata di DeepSeek (talvolta indicata come V4-Pro-Max) riporta l’80,6%, mentre Qwen3.7 Max riporta l’80,4%. Questo divario rientra nella soglia del rumore.

Scavando un livello più in profondità, il quadro diverge in base al tipo di compito. DeepSeek ottiene risultati impressionanti su attività di programmazione competitiva — 93,5 su LiveCodeBench e un rating Codeforces di 3.206 — che richiedono capacità di risoluzione di puzzle algoritmici. I punti di forza di Qwen invece si orientano verso compiti ingegneristici autonomi e multi-step: dichiara un punteggio del 60,6 sul più impegnativo SWE-bench Pro e del 69,7 su Terminal-Bench 2.0, benchmark che premiano la capacità di navigare un repository, eseguire comandi ed effettuare iterazioni anziché generare una soluzione in un singolo tentativo.

L’interpretazione pratica è la seguente: per cicli di agenti autonomi volti a «correggere questo codebase», Qwen3.7 Max ha un leggero vantaggio; per la generazione pura di codice e per problemi di tipo competitivo, DeepSeek è almeno altrettanto performante e costa una frazione del prezzo. Nessuno dei due, tuttavia, è il campione assoluto in termini di valore per configurazioni locali — quel titolo spetta ancora a modelli più piccoli trattati nel nostro migliore LLM locale per la programmazione guida.

Una precisazione degna di essere ripetuta: la maggior parte di questi dati proviene direttamente dai fornitori. A giugno 2026, le riproduzioni indipendenti sono scarse e la valutazione statunitense CAISI (NIST) su V4-Pro ha concluso che le sue capacità reali sono circa otto mesi indietro rispetto ai principali sistemi statunitensi. Leggete i punteggi pubblicitari come un tetto massimo, non come una garanzia.

Ragionamento e intelligenza generale

Per un confronto equo, il riferimento neutrale più utile è Artificial Analysis, che calcola un proprio indice composito di intelligenza (Intelligence Index). Qui Qwen3.7 Max ottiene 57 (un piazzamento tra i primi dieci su oltre 150 modelli monitorati), contro 52 di DeepSeek V4-Pro nella sua configurazione massima di ragionamento. Qwen risulta quindi in vantaggio, ma entrambi operano comunque in piena fascia frontier.

Nei test specifici di ragionamento i fornitori si alternano al vertice. Qwen3.7 Max riporta 92,4 su GPQA Diamond, un benchmark scientifico di livello universitario; V4-Pro di DeepSeek dichiara invece circa 90 sullo stesso test. Entrambi i laboratori vantano punteggi quasi perfetti su gare matematiche impegnative come HMMT e AIME 2026, purché sia consentito l’uso di strumenti e tempi estesi di elaborazione — risultati che dicono più sulla potenza computazionale disponibile in fase di test che non sulle capacità intrinseche del modello.

Esiste una differenza più sottile nel comportamento. Qwen3.7 Max è stato ottimizzato per astenersi più spesso quando non è certo della risposta, ottenendo così il tasso più basso di allucinazioni tra i modelli frontier secondo le stesse misurazioni di Qwen (circa il 22,9%), ma riducendo anche l’accuratezza di richiamo sui benchmark puramente basati sulla conoscenza. Se la vostra applicazione utilizza il retrieval augmentation e preferite che il modello risponda «Non lo so» piuttosto che inventare informazioni, questa è una caratteristica vantaggiosa. Se invece volete che il modello dia comunque una risposta, si tratta di una peculiarità da tenere in conto nella progettazione.

Contesto, velocità e penalità per verbosità

Entrambi i modelli annunciano una finestra contestuale di 1 milione di token e la supportano con meccanismi di attenzione ottimizzati per contesti lunghi — recensori indipendenti hanno segnalato un solido ricordo da parte di Qwen anche oltre la soglia degli 800.000 token. Per ragionamenti su interi repository o per l’elaborazione di documenti molto lunghi, entrambi riescono a gestire efficacemente il materiale.

La velocità è il fattore che li distingue. Qwen3.7 Max trasmette in streaming circa 193 token al secondo nei test indipendenti; DeepSeek V4-Pro raggiunge circa 80. Il tempo di risposta del primo token (time-to-first-token) di DeepSeek è però effettivamente più rapido (circa 1,87 secondi contro i 2,65 secondi di Qwen), quindi DeepSeek sembra più reattivo al lancio, ma Qwen completa generazioni lunghe molto più velocemente.

Entrambi i modelli sono inoltre notevolmente verbosi. Nell’ambito dell’Intelligence Index di Artificial Analysis, DeepSeek V4-Pro ha consumato 190 milioni di token in output, mentre Qwen3.7 Max ne ha impiegati 97 milioni — entrambi ben al di sopra della media del settore, con DeepSeek tra i modelli più «affamati» di token mai testati. Questa verbosità si somma al costo dell’output — e poiché i token in output sono quelli più costosi, un modello incline a ragionamenti prolissi può far lievitare silenziosamente il vostro conto ben oltre quanto suggerito dal prezzo unitario dichiarato.

Prezzo: dove il divario si trasforma in un abisso

Questo è il vantaggio più netto in assoluto, e va a DeepSeek.

Modello	Input per milione	Output per milione	Lettura cache per milione	AA blended per milione
DeepSeek V4-Pro	$0.435	$0.87	~$0.004	$0.18
DeepSeek V4-Flash	$0.14	$0.28	~$0.003	—
Qwen3.7 Max	$2.50	$7.50	~$0.25	$1.43

DeepSeek V4-Pro costa circa sei volte meno dell’input e quasi nove volte meno dell’output rispetto a Qwen3.7 Max. Passando a V4-Flash, il divario si amplia fino al punto di diventare assurdo per applicazioni ad alto volume come chat o classificazione. Anche il prezzo della cache di DeepSeek è estremamente aggressivo — circa 0,004 USD per milione su prefissi ripetuti, ovvero uno sconto del ~99% che rende quasi gratuito l’utilizzo di prompt di sistema lunghi e stabili.

Qwen offre anch’esso il caching dei prompt (le letture dalla cache costano circa 0,25 USD per milione, con uno sconto del 90%), e secondo la metrica combinata di Artificial Analysis il divario effettivo si riduce a circa 8x anziché al 9x dichiarato. Tuttavia, non esiste alcuna interpretazione di questi numeri che possa definire Qwen «economico». Si paga per la maggiore velocità e per quei pochi punti aggiuntivi nell’Intelligence Index.

Quale dei due conviene effettivamente utilizzare?

Scegliete DeepSeek V4 se…

Volete pesi aperti che possiate auto-ospitare, affinare o eseguire offline (air-gapped) sotto licenza MIT.
Il costo è il fattore determinante — è 6–9 volte più economico, prima ancora di considerare lo sconto enorme sulla cache.
Avete bisogno di output lunghissimi (fino a 384K token) per grandi compiti di generazione.
Il vostro carico di lavoro riguarda la programmazione competitiva o la matematica.

Scegliete Qwen3.7 Max se…

Volete il modello con l’intelligenza generale misurata più alta tra i due e non vi dispiace pagare di più.
La velocità di elaborazione è fondamentale — genera output più di due volte più velocemente.
State costruendo cicli di ingegneria autonoma e multi-step, dove Qwen3.7 Max mostra un leggero vantaggio.
Preferite un’API gestita, chiusa e con un tasso di allucinazioni inferiore rispetto all’auto-ospitazione.

Per la maggior parte dei team la scelta è in realtà una questione di budget e controllo, non di capacità. La qualità è sufficientemente simile da rendere decisivi gli assi «aperto vs chiuso» e «economico vs premium». Se state valutando anche opzioni occidentali, consultate il nostro confronto GPT-5 vs Claude 4 vs Gemini 3, e il nostro confronto DeepSeek vs ChatGPT che analizza più approfonditamente il divario di valore transnazionale.

Domande frequenti

DeepSeek V4 o Qwen3.7 Max sono migliori per la programmazione?

Sono sostanzialmente alla pari su SWE-bench Verified (80,6% vs 80,4%). DeepSeek appare più forte sui benchmark di programmazione competitiva come LiveCodeBench e Codeforces, mentre Qwen3.7 Max rivendica un vantaggio su compiti ingegneristici autonomi come SWE-bench Pro e Terminal-Bench. Per la maggior parte dei lavori di programmazione entrambi sono più che adeguati.

Quale modello è più economico da utilizzare?

DeepSeek V4 è drasticamente più economico. V4-Pro costa 0,435 USD/0,87 USD per milione di token in input/output, contro i 2,50 USD/7,50 USD di Qwen3.7 Max — circa 6–9 volte meno. La variante V4-Flash di DeepSeek e i suoi prezzi aggressivi sulla cache ampliano ulteriormente il divario per utilizzi ad alto volume.

Posso scaricare e auto-ospitare questi modelli?

DeepSeek V4 (sia Pro che Flash) è rilasciato con pesi aperti sotto licenza MIT su Hugging Face, quindi potete auto-ospitarlo e affinarlo. Qwen3.7 Max è invece un modello a pesi chiusi, disponibile esclusivamente tramite API a giugno 2026, senza versione scaricabile.

Entrambi supportano davvero una finestra contestuale di 1 milione di token?

Sì, entrambi dichiarano una finestra contestuale di 1 milione di token. DeepSeek supporta inoltre fino a 384K token in output, mentre Qwen3.7 Max limita l’output a circa 65K token. Recensori indipendenti hanno riportato un eccellente ricordo su contesti lunghi da parte di Qwen anche oltre la soglia degli 800K token.

Quale è più veloce?

Qwen3.7 Max trasmette l’output più velocemente — circa 193 token/sec contro gli 80 di DeepSeek V4-Pro nei test indipendenti. DeepSeek ha un tempo di risposta del primo token leggermente inferiore, quindi inizia a rispondere prima, ma Qwen completa generazioni lunghe molto più rapidamente.

I punteggi dei benchmark sono affidabili?

Trattateli con cautela. Molti dei punteggi in evidenza provengono direttamente dai fornitori e non sono ancora stati riprodotti in modo indipendente. Aggregatori neutrali come Artificial Analysis assegnano a Qwen3.7 Max un indice composito di intelligenza più alto (57 contro 52), mentre una valutazione governativa statunitense (CAISI/NIST) ha rilevato che DeepSeek V4-Pro è globalmente circa otto mesi indietro rispetto ai principali modelli statunitensi.

Qwen3.7 Max è davvero più intelligente di DeepSeek V4?

Secondo i punteggi compositi indipendenti, marginalmente sì — 57 contro 52 sull’Intelligence Index di Artificial Analysis. La differenza è reale ma contenuta, e comporta un costo elevato e una perdita di apertura. Se quei pochi punti giustifichino un costo circa 8 volte superiore dipende interamente dal vostro caso d’uso.

Conclusione

Questi due modelli sono più vicini di quanto suggerisca il clamore mediatico. Sul benchmark più rilevante per gli ingegneri — SWE-bench Verified — sono alla pari, e sull’intelligenza generale Qwen3.7 Max guida con un margine esiguo ma confermato in modo indipendente. Se la sola qualità dovesse decidere, Qwen vincerebbe per punteggio.

Ma la qualità raramente decide da sola. DeepSeek V4 è open-weight, rilasciato con licenza MIT ed è 6–9 volte più economico, rendendolo la scelta predefinita per chiunque dia priorità a costo, controllo o all’esecuzione dei modelli su propria infrastruttura. Qwen3.7 Max è la scelta ideale quando si desidera un’API gestita leggermente più intelligente e molto più veloce, e il budget non è un vincolo. La maggior parte dei team opterà per DeepSeek e si accorgerà di ciò che sta perdendo solo sui compiti più difficili di tipo agente — se mai se ne accorgerà.