A IA de pesos abertos é realmente mais barata do que as grandes APIs proprietárias — e em quanto? Calculamos os preços das APIs para todos os 29 modelos com preços divulgados em nossa base de dados de modelos, normalizamos cada um para um único custo combinado por milhão de tokens e os separamos em pesos abertos versus proprietários. A diferença é maior — e muito mais consistente — do que a maioria das pessoas imagina.
Principais conclusões
- Os 5 modelos mais baratos em 2026 são todos de pesos abertos. Os 5 mais caros são todos proprietários.
- O o custo típico (mediana) de um modelo aberto é de ~US$ 0,15 por 1 milhão de tokens combinados; o custo típico de um modelo proprietário é de ~US$ 6,00 — uma diferença de 39×.
- Em média, os modelos proprietários custam ~16× mais do que os abertos.
- Entre todos os 29 modelos, a faixa completa de preços é de ~890× — de ~US$ 0,02 a US$ 20 por 1 milhão de tokens combinados.
- E isso ignora a hospedagem própria, que elimina totalmente o custo por token para pesos abertos. A diferença, em uma única tabela
Como fizemos a medição
- — todos os 29 modelos na base de dados da Convly com preços públicos de API. (3 × entrada + saída) ÷ 4
- Custo combinado —
, uma proporção típica de 3:1 entre entrada e saída no tráfego real de APIs, permitindo comparar diretamente modelos com entradas baratas mas saídas caras.— 'pesos abertos' = pesos baixáveis que você pode hospedar localmente (22 modelos); 'proprietários' = apenas via API (7 modelos). - Classificação Fontes
- — preços de API publicados via OpenRouter e DeepInfra, junho de 2026. Métrica (US$ por 1 milhão combinados)
Os extremos contam a história
| Pesos abertos (22) | Proprietários (7) | Proprietary (7) | Lacuna |
|---|---|---|---|
| Média | $0.50 | $8.16 | 16× |
| Mediana (modelo típico) | $0.15 | $6.00 | 39× |
| Mais barato do grupo | US$ 0,02 (Llama 3.1 8B) | US$ 2,00 (Claude Haiku 4.5) | — |
| Mais caro do grupo | US$ 3,00 (Mistral Large 3) | US$ 20,00 (Claude Fable 5) | — |
Nuance importante: trata-se de custo, não de capacidade
Ao ordenar todos os 29 modelos pelo custo combinado, o padrão é nítido: modelos de pesos abertos dominam a faixa inferior, enquanto modelos proprietários ocupam a faixa superior:
| 5 mais baratos (todos de pesos abertos) | Custo combinado por 1 milhão | 5 mais caros (todos proprietários) | Custo combinado por 1 milhão |
|---|---|---|---|
| Llama 3.1 8B | $0.02 | Claude Fable 5 | $20.00 |
| Mistral 7B | $0.02 | GPT-5.5 | $11.25 |
| Mistral NeMo 12B | $0.03 | Claude Opus 4.8 | $10.00 |
| Gemma 3 4B | $0.06 | Claude Sonnet 4.6 | $6.00 |
| Qwen3 8B | $0.07 | Gemini 3.1 Pro | $4.50 |
Não há nenhum modelo proprietário entre os terço mais baratos do mercado, nem nenhum modelo de pesos abertos entre o terço mais caro. A única zona de sobreposição é estreita: o modelo proprietário mais barato (Claude Haiku 4.5, US$ 2,00) fica logo abaixo do modelo de pesos abertos mais caro (Mistral Large 3, US$ 3,00).
Por que a diferença é estrutural
Os modelos mais caros ainda lideram nas tarefas mais difíceis de raciocínio e agência. Em nosso índice complementar Índice de Custo-Desempenho em IA descobrimos que o prêmio dos modelos de ponta adquire os últimos pontos de inteligência, não um valor proporcional. Contudo, para a maioria das cargas de trabalho em produção — classificação, extração, RAG, resumo e chat — a lacuna de capacidade entre um bom modelo de pesos abertos e um modelo de ponta é muito menor do que a lacuna de preço de 39×. Frequentemente, você paga 39× pelos últimos 10–20% de capacidade de que talvez não precise.
Escopo
Isso não é uma guerra temporária de descontos. A intensa concorrência entre modelos de pesos abertos — Qwen, Llama, Gemma e DeepSeek Mistral, todos lançando modelos robustos sob licenças permissivas — empurrou o piso de preços quase para zero. Enquanto isso, os laboratórios de ponta definem preços com base na capacidade máxima e na disposição de pagamento das empresas. O resultado é um mercado em bifurcação: um piso em corrida rumo ao zero e um teto premium, com um abismo cada vez maior entre eles.
Conclusão
Para implantações em produção sensíveis ao custo, um modelo de pesos abertos ou de nível intermediário é a escolha racional padrão em 2026 — e a hospedagem própria elimina totalmente o custo por token (verifique quais modelos sua GPU consegue executar com nossa Calculadora de VRAM). Reserve os modelos proprietários de ponta apenas para as tarefas realmente mais difíceis. Execute sua própria análise de uso no Calculadora de custo de API para ver seus números exatos.
Dados: Banco de dados de modelos da Convly AI (preços de API via OpenRouter e DeepInfra). O custo combinado considera uma proporção entrada:saida de 3:1. Valores atualizados até junho de 2026.
