Is DeepSeek V4 or Qwen3.7 Max better for coding?

They're essentially tied on SWE-bench Verified (80.6% vs 80.4%). DeepSeek looks stronger on competitive-programming benchmarks like LiveCodeBench and Codeforces, while Qwen3.7 Max claims an edge on agentic engineering tasks such as SWE-bench Pro and Terminal-Bench. For most coding work either is more than capable.

Which model is cheaper to use?

DeepSeek V4 is dramatically cheaper. V4-Pro costs $0.435/$0.87 per million input/output tokens versus Qwen3.7 Max at $2.50/$7.50 — roughly 6–9x less. DeepSeek's V4-Flash variant and aggressive cache pricing widen the gap further for high-volume use.

Can I download and self-host these models?

DeepSeek V4 (both Pro and Flash) ships with open weights under the MIT license on Hugging Face, so you can self-host and fine-tune it. Qwen3.7 Max is closed-weight and API-only as of June 2026, with no downloadable version available.

Do both really support a 1-million-token context window?

Yes, both advertise a 1M-token context. DeepSeek also supports up to 384K output tokens, while Qwen3.7 Max caps output around 65K. Independent reviewers reported strong long-context recall from Qwen past the 800K mark.

Qwen3.7 Max streams output faster — roughly 193 tokens/sec versus about 80 for DeepSeek V4-Pro in independent testing. DeepSeek has a slightly lower time-to-first-token, so it begins responding sooner, but Qwen completes long generations more quickly.

Are the benchmark scores trustworthy?

Treat them carefully. Many headline figures are vendor-reported and not yet independently reproduced. Neutral aggregators like Artificial Analysis give Qwen3.7 Max a higher composite Intelligence Index (57 vs 52), and a U.S. government evaluation (CAISI/NIST) found DeepSeek V4-Pro trails the leading U.S. models by about eight months overall.

Is Qwen3.7 Max actually smarter than DeepSeek V4?

On independent composite scoring, marginally — 57 vs 52 on the Artificial Analysis Intelligence Index. The difference is real but small, and it comes at a large price and openness cost. Whether those few points justify paying ~8x more depends entirely on your use case.

DeepSeek V4 frente a Qwen3.7 Max: Combate de 2026

Con apenas seis semanas de diferencia esta primavera, los dos laboratorios de IA más observados de China lanzaron cada uno un nuevo modelo insignia. DeepSeek DeepSeek presentó su V4 el 24 de abril: 1,6 billones de parámetros, licencia MIT y pesos disponibles en Hugging Face el mismo día. Alibaba respondió el 20 de mayo con Qwen3.7 Max, un modelo cerrado de razonamiento con una ventana de contexto de un millón de tokens y un precio acorde con sus ambiciones.

En teoría parecen rivales; en la práctica están dirigidos a compradores distintos. Uno es el modelo puntero serio más económico que puedes ejecutar tú mismo; el otro es una API pulida y más rápida que alquilas por token. Este artículo analiza dónde destaca cada uno: programación, razonamiento, contexto, velocidad y, lo que suele zanjar la mayoría de las discusiones, el costo por millón de tokens.

Conclusiones clave

Empatados en programación. Las puntuaciones verificadas por SWE-bench de los proveedores son del 80,6 % (DeepSeek V4-Pro) frente al 80,4 % (Qwen3.7 Max): una diferencia insignificante por redondeo.
Qwen aventaja ligeramente en inteligencia bruta. El índice de inteligencia de Artificial Analysis lo califica en 57, frente a los 52 de DeepSeek V4-Pro.
DeepSeek es mucho más económico. V4-Pro cuesta 0,435 USD / 0,87 USD por millón de tokens de entrada / salida; Qwen3.7 Max cuesta 2,50 USD / 7,50 USD: aproximadamente entre 6 y 9 veces más.
La verdadera bifurcación es abierta frente a cerrada. DeepSeek V4 se distribuye con pesos abiertos que puedes alojar tú mismo; Qwen3.7 Max está disponible únicamente mediante API y, hasta junio de 2026, no tiene versión abierta.
Ambos afirman tener una ventana de contexto de 1 millón de tokens —pero Qwen es significativamente más rápido: ~193 tokens/segundo frente a los ~80 de DeepSeek.
Trate con cautela los resultados de los benchmarks publicados por los fabricantes. Varios de los datos destacados son autoinformados y aún no han sido reproducidos de forma independiente.

Los dos modelos a primera vista

DeepSeek V4 se ofrece en realidad en dos versiones. V4-Pro es la versión pesada: 1,6 billones de parámetros totales, con 49 000 millones activos por token, basada en un diseño disperso de mezcla de expertos (sparse Mixture-of-Experts). También existe V4-Flash, un modelo de 284 000 millones / 13 000 millones de parámetros pensado para tareas más económicas y de mayor rendimiento. Ambos ofrecen la misma ventana de contexto de 1 millón de tokens y una inusualmente alta salida máxima de 384 000 tokens, y ambos se publican bajo la permisiva licencia MIT, con los pesos disponibles en Hugging Face.

Qwen3.7 Max es un caso distinto. Alibaba no ha revelado su número de parámetros —los observadores independientes estiman aproximadamente un billón en total, también con una arquitectura sparse MoE— y, lo más importante, sus pesos son cerrados y solo está disponible mediante API. No existe ninguna versión descargable hasta junio de 2026, una notable desviación respecto al legado de código abierto de Qwen (la línea 3.6 sigue publicando modelos abiertos, como la variante densa de 27 000 millones). Qwen3.7 Max se posiciona claramente como un modelo especializado en razonamiento y agentes, que aprovecha cadenas extendidas de razonamiento antes de emitir una respuesta.

Esta distinción es fundamental para lo que sigue. Si desea comprender por qué ambos laboratorios están impulsando tan fuertemente estas iniciativas, nuestra explicación sobre el ascenso de DeepSeek analiza el trasfondo estratégico.

Especificaciones	DeepSeek V4-Pro	Qwen3.7 Max
Lanzado	24 de abril de 2026	20 de mayo de 2026
Pesos	Abiertos (licencia MIT, en Hugging Face)	Cerrados / solo mediante API
Parámetros	1,6 billones totales / 49 000 millones activos (MoE)	No revelado (~1 billón estimado, MoE)
Ventana de contexto	1 000 000 tokens	1 000 000 tokens
Salida máxima	384 000 tokens	~65 000 tokens
Precio de entrada (por millón)	$0.435	$2.50
Precio de salida (por millón)	$0.87	$7.50
Velocidad de salida	~80 tokens/seg	~193 tokens/seg

Programación: empate técnico en la prueba principal

La prueba de referencia que todos consultan primero es SWE-bench Verified, un conjunto filtrado por humanos de problemas reales de GitHub. Aquí, ambos modelos están prácticamente empatados: la configuración superior de DeepSeek (a veces denominada V4-Pro-Max) obtiene un 80,6 %, mientras que Qwen3.7 Max alcanza un 80,4 %. Esa diferencia es ruido.

Al profundizar un nivel más, el panorama diverge según el tipo de tarea. DeepSeek obtiene cifras impresionantes en programación competitiva: 93,5 en LiveCodeBench y una calificación de 3 206 en Codeforces, métricas que dependen fuertemente de la resolución algorítmica de acertijos. Las fortalezas de Qwen se inclinan hacia tareas de ingeniería autónoma y de múltiples pasos: afirma un 60,6 en la versión más exigente de SWE-bench Pro y un 69,7 en Terminal-Bench 2.0, pruebas que premian la capacidad de un modelo para navegar un repositorio, ejecutar comandos e iterar, en lugar de resolver una función de un solo intento.

La conclusión práctica es la siguiente: para bucles de agentes autónomos del tipo «repara esta base de código», Qwen3.7 Max tiene una ligera ventaja; para generación bruta de código y problemas de estilo competitivo, DeepSeek es al menos su igual y cuesta una fracción de lo que cuesta Qwen. Sin embargo, ninguno es el campeón en relación calidad-precio entre los modelos de pesos abiertos para entornos locales: esa corona sigue perteneciendo a modelos más pequeños analizados en nuestro artículo sobre mejor LLM locales para programación guía.

Una advertencia que vale la pena repetir: la mayoría de estas cifras son reportadas por los proveedores. A junio de 2026, las reproducciones independientes siguen siendo escasas, y la evaluación estadounidense CAISI (NIST) de V4-Pro concluyó que su capacidad real en entornos prácticos se sitúa aproximadamente ocho meses por detrás de los principales sistemas estadounidenses. Interprete las puntuaciones publicitarias como un techo, no como una garantía.

Razonamiento e inteligencia general

Para una comparación rigurosa y neutral, la referencia más útil es Artificial Analysis, que elabora su propio Índice de Inteligencia compuesto. Allí, Qwen3.7 Max obtiene una puntuación de 57 (una posición entre los diez mejores entre más de 150 modelos seguidos), frente a 52 de DeepSeek V4-Pro en su configuración de razonamiento máximo. Qwen sale victorioso, aunque ambos modelos se sitúan cómodamente en la vanguardia.

En pruebas individuales de razonamiento, los proveedores intercambian golpes. Qwen3.7 Max obtiene un 92,4 en GPQA Diamond, una prueba de ciencias a nivel de posgrado; V4-Pro de DeepSeek afirma aproximadamente un 90 en la misma prueba. Ambos laboratorios destacan puntuaciones cercanas al 100 % en concursos matemáticos difíciles como HMMT y AIME 2026, siempre que se les permita usar herramientas y realizar razonamientos extendidos — resultados que dicen más sobre la potencia computacional disponible durante la prueba que sobre la capacidad intrínseca del modelo.

Existe una diferencia más sutil en el comportamiento. Qwen3.7 Max fue ajustado para abstenerse con mayor frecuencia ante preguntas sobre las que no está seguro, lo que le otorgó la tasa más baja de alucinaciones entre los modelos de vanguardia según los propios informes de Qwen (aproximadamente un 22,9 %), aunque también redujo la precisión bruta de recuperación en pruebas puramente basadas en conocimientos. Si su aplicación utiliza recuperación aumentada (RAG) y prefiere que el modelo responda «no lo sé» antes que inventar información, esto constituye una característica valiosa. Si, por el contrario, desea que el modelo siempre intente dar una respuesta, se trata de un rasgo que debe tenerse en cuenta al planificar su uso.

Contexto, velocidad y el «impuesto» por verbosidad

Ambos modelos anuncian una ventana de contexto de 1 millón de tokens y ambos la respaldan con mecanismos de atención optimizados para contextos largos. Revisores externos informaron una sólida capacidad de recuperación de Qwen incluso más allá de la marca de los 800 000 tokens. Para razonamiento sobre repositorios completos o para procesar grandes volúmenes de documentos extensos, cualquiera de los dos modelos conservará adecuadamente toda la información.

Es en velocidad donde se separan claramente. En pruebas independientes, Qwen3.7 Max transmite a aproximadamente 193 tokens por segundo; V4-Pro de DeepSeek alcanza unos 80. El tiempo hasta el primer token de DeepSeek es, de hecho, más rápido (alrededor de 1,87 segundos frente a los 2,65 segundos de Qwen), por lo que DeepSeek parece más ágil al iniciar, pero Qwen finaliza generaciones largas mucho más rápidamente.

Además, ambos modelos son notablemente verbosos. Al ejecutar el Índice de Inteligencia de Artificial Analysis, V4-Pro de DeepSeek consumió 190 millones de tokens de salida, mientras que Qwen3.7 Max consumió 97 millones —ambas cifras muy superiores a la media del sector, y DeepSeek figura entre los modelos más voraces en consumo de tokens probados. Esta verbosidad se agrava con los precios de salida —y dado que los tokens de salida son los más caros, un modelo prolijo puede incrementar silenciosamente su factura mucho más allá de lo que sugiere el precio por token anunciado.

Precio: donde la brecha se convierte en un abismo

Esta es la victoria más clara del tablero, y corresponde a DeepSeek.

Modelo	Entrada por millón	Salida por millón	Lectura de caché por millón	Media ponderada AA por millón
DeepSeek V4-Pro	$0.435	$0.87	~$0.004	$0.18
DeepSeek V4-Flash	$0.14	$0.28	~$0.003	—
Qwen3.7 Max	$2.50	$7.50	~$0.25	$1.43

V4-Pro de DeepSeek es aproximadamente seis veces más económico en entradas y casi nueve veces más barato en salidas que Qwen3.7 Max. Al pasar a V4-Flash, la brecha se amplía hasta niveles absurdos para aplicaciones de chat o clasificación de alto volumen. Además, los precios de DeepSeek para lecturas de caché son extremadamente agresivos: cerca de 0,004 USD por millón en prefijos repetidos, un descuento del ~99 % que hace casi gratuitos los prompts del sistema largos y estables.

Qwen también ofrece almacenamiento en caché de prompts (lecturas de caché alrededor de 0,25 USD por millón, un recorte del 90 %), y en la métrica combinada de Artificial Analysis la brecha efectiva se reduce a aproximadamente 8 veces, en lugar del factor de 9 veces anunciado. Pero no hay ninguna interpretación de estos números que haga parecer a Qwen una opción económica. Usted paga por la mayor velocidad y por esos pocos puntos adicionales en el Índice de Inteligencia.

¿Cuál deberías ejecutar realmente?

Elija DeepSeek V4 si…

Desea pesos abiertos que pueda alojar usted mismo, ajustar mediante fine-tuning o ejecutar sin conexión (air-gapped) bajo licencia MIT.
El costo es el factor decisivo: es 6–9 veces más económico, incluso antes de aplicar su enorme descuento por caché.
Necesita las salidas más largas posibles (hasta 384 000 tokens) para trabajos intensivos de generación.
Su carga de trabajo implica programación de estilo competitivo o matemáticas.

Elija Qwen3.7 Max si…

Busca la mayor inteligencia general medida entre ambos modelos y no le importa pagar más.
La velocidad de procesamiento es fundamental: genera salidas más de dos veces más rápido.
Está desarrollando bucles de ingeniería autónomos y de múltiples pasos, donde obtiene una ligera ventaja.
Prefiere una API gestionada y cerrada, junto con una menor tasa de alucinaciones, en lugar de alojarlo usted mismo.

Para la mayoría de los equipos, la elección se reduce realmente a una pregunta de presupuesto y control, no de capacidades. Son lo suficientemente similares en calidad como para que sean los ejes abierto vs. cerrado y económico vs. premium los que decidan la preferencia. Si también está evaluando opciones occidentales, consulte cómo se comparan en nuestro análisis de GPT-5 frente a Claude 4 frente a Gemini 3, y nuestro artículo de comparación entre DeepSeek y ChatGPT analiza con mayor profundidad la brecha de valor transfronteriza.

Preguntas frecuentes

¿Cuál de los dos modelos es mejor para programación: DeepSeek V4 o Qwen3.7 Max?

Ambos están prácticamente empatados en SWE-bench Verified (80,6 % frente a 80,4 %). DeepSeek muestra mayor fortaleza en pruebas de programación competitiva como LiveCodeBench y Codeforces, mientras que Qwen3.7 Max afirma una ligera ventaja en tareas de ingeniería autónoma como SWE-bench Pro y Terminal-Bench. Para la mayoría de las tareas de programación, cualquiera de los dos es más que capaz.

¿Qué modelo resulta más económico de usar?

DeepSeek V4 es considerablemente más económico. V4-Pro cuesta 0,435 USD / 0,87 USD por millón de tokens de entrada/salida, frente a los 2,50 USD / 7,50 USD de Qwen3.7 Max: aproximadamente 6–9 veces menos. La variante V4-Flash de DeepSeek y sus agresivos precios de caché amplían aún más esta brecha para usos de alto volumen.

¿Puedo descargar y alojar yo mismo estos modelos?

DeepSeek V4 (tanto Pro como Flash) se distribuye con pesos abiertos bajo licencia MIT en Hugging Face, por lo que puede alojarlo usted mismo y ajustarlo mediante fine-tuning. Qwen3.7 Max es un modelo de pesos cerrados y solo accesible mediante API a junio de 2026, sin versión descargable disponible.

¿Ambos modelos soportan realmente una ventana de contexto de 1 millón de tokens?

Sí, ambos anuncian una ventana de contexto de 1 millón de tokens. DeepSeek también admite hasta 384 000 tokens de salida, mientras que Qwen3.7 Max limita la salida a aproximadamente 65 000 tokens. Revisores independientes informaron una excelente capacidad de recuperación en contextos largos para Qwen más allá de la marca de los 800 000 tokens.

¿Cuál es más rápido?

Qwen3.7 Max transmite salidas más rápidamente: aproximadamente 193 tokens/segundo frente a unos 80 de DeepSeek V4-Pro en pruebas independientes. DeepSeek presenta un tiempo ligeramente menor hasta el primer token, por lo que comienza a responder antes, pero Qwen completa generaciones largas con mayor rapidez.

¿Son fiables las puntuaciones de las pruebas de referencia?

Trátelas con precaución. Muchas de las cifras destacadas son reportadas por los proveedores y aún no han sido reproducidas de forma independiente. Agregadores neutrales como Artificial Analysis otorgan a Qwen3.7 Max un Índice de Inteligencia compuesto más alto (57 frente a 52), y una evaluación gubernamental estadounidense (CAISI/NIST) encontró que DeepSeek V4-Pro se encuentra aproximadamente ocho meses por detrás de los principales modelos estadounidenses en términos generales.

¿Es Qwen3.7 Max realmente más inteligente que DeepSeek V4?

Según las puntuaciones compuestas independientes, marginalmente sí: 57 frente a 52 en el Índice de Inteligencia de Artificial Analysis. La diferencia es real, pero pequeña, y conlleva un elevado costo financiero y una pérdida de libertad. Si esos pocos puntos justifican pagar aproximadamente ocho veces más depende enteramente de su caso de uso.

Conclusión

Estos dos modelos están más cerca de lo que sugiere la publicidad. En la prueba de referencia más relevante para ingenieros —SWE-bench Verified— están empatados, y en inteligencia general Qwen3.7 Max lidera por una pequeña ventaja confirmada de forma independiente. Si únicamente la calidad decidiera, Qwen ganaría por puntos.

Sin embargo, rara vez es la calidad el único factor determinante. DeepSeek V4 es de pesos abiertos, está licenciado bajo MIT y es 6–9 veces más económico, lo que lo convierte en la opción predeterminada para quienes priorizan el costo, el control o la ejecución de modelos en su propio hardware. Qwen3.7 Max es la elección cuando se busca una API gestionada ligeramente más inteligente y mucho más rápida, y el presupuesto no es una restricción. La mayoría de los equipos optarán por DeepSeek y solo notarán lo que les falta en las tareas de agentes más exigentes —si es que lo notan en absoluto.