O Japão acabou de fazer uma das apostas mais contrárias no campo da IA. Em vez de gastar bilhões treinando um modelo capaz de superar o GPT-5.5 e o Claude Opus 4.8, Tóquio Sakana AI construiu um modelo cuja função exclusiva é orquestrar esses modelos. Conheça o Sakana Fugu — lançado em 22 de junho de 2026 — um modelo de linguagem grande (LLM) treinado para invocar outros LLMs.
Principais conclusões
- O Sakana Fugu é um "modelo de orquestração" — ele direciona cada tarefa a uma equipe coordenada de modelos de ponta (GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro, etc.), em vez de responder a tudo por si mesmo.
- Duas versões: Fugu (rápido, para uso cotidiano) e Fugu Ultra (para os problemas mais difíceis e com múltiplas etapas).
- O Fugu Ultra obteve a melhor pontuação em 10 dos 11 benchmarks — superando o Opus 4.8 e o GPT-5.5 no SWE-Bench Pro (73,7), TerminalBench, LiveCodeBench e Humanity's Last Exam (dados próprios da Sakana).
- API compatível com OpenAI; assinaturas a 20 USD / 100 USD / 200 USD por mês. Ainda não disponível na UE/EEE.
- A grande questão: trata-se de um verdadeiro avanço em coordenação ou simplesmente de "mais um roteador"? Analisamos ambos os lados.
- O que é o Sakana Fugu?
- Como funciona, na prática, essa orquestração
- Exemplo prático: uma consulta difícil, do início ao fim
- Fugu versus Fugu Ultra
- Os benchmarks — e a ressalva honesta
- Quais modelos ele orquestra?
- Preços
- Usando o Fugu: uma API compatível com OpenAI, pronta para uso imediato
- Quem está por trás da Sakana AI?
- O Fugu no contexto: o surto de IA japonês em 2026
- Um avanço — ou simplesmente "mais uma camada envolvedora"?
- Fugu versus criar sua própria solução (ou usar um roteador como o OpenRouter)
- Por que isso importa
- Limitações a ter em mente
- Perguntas frequentes
- Conclusão final
O que é o Sakana Fugu?
O Sakana Fugu é não um modelo base tradicional. É um condutor — um sistema aprendido cuja especialidade é decidir quais outros modelos de IA devem lidar com sua solicitação e como. O nome é uma brincadeira: fugu é uma iguaria japonesa feita com peixe-baiacu, que apenas um especialista pode preparar com segurança. A implicação é que orquestrar modelos poderosos é, por si só, uma arte.
Quando você envia uma consulta ao único endpoint do Fugu, compatível com a OpenAI, o modelo decide internamente: responde diretamente quando possível (perguntas simples, baixa latência) ou monta e coordena uma equipe de modelos especializados quando a tarefa é complexa. A seleção dos modelos, a delegação de tarefas, a verificação e a síntese final ocorrem inteiramente dentro do sistema e permanecem invisíveis para você. Como afirma a Sakana, o roteamento por consulta é proprietário — você vê apenas uma resposta, não o comitê por trás dela.
Como funciona, na prática, essa orquestração
Sob o capô, o Fugu executa um ciclo que se assemelha aproximadamente a: rotear → delegar → verificar → sintetizar. Ele foi desenvolvido com base em dois artigos publicados pela Sakana na conferência ICLR 2026:
- TRINITY — um coordenador leve, otimizado evolutivamente que opera em várias etapas, atribuindo dinamicamente papéis de Pensador, Executor ou Verificador para delegar tarefas de forma adaptativa.
- Condutor — um sistema treinado com aprendizado por reforço para descobrir estratégias naturais de coordenação em linguagem natural e prompts direcionados para um conjunto diversificado de LLMs.
Essa distinção é importante: o Fugu não é não um roteador simples baseado em regras if-then. Trata-se de um coordenador otimizado — por meio de evolução e aprendizado por reforço — para decidir quem faz o quê, para verificar respostas com um papel de verificador e para integrar as partes em uma única resposta. Se essa otimização se mantém fora das próprias avaliações da Sakana é a questão em aberto à qual voltaremos abaixo.
Exemplo prático: uma consulta difícil, do início ao fim
Imagine que você pergunta ao Fugu Ultra: “Refatore este serviço Python de 800 linhas para assíncrono e corrija a condição de corrida no pool de conexões.” Por trás da única resposta que você recebe, a coreografia ocorre mais ou menos assim:
- Roteamento: O Fugu reconhece que se trata de uma tarefa de programação complexa e multifacetada, e não de uma simples linha de código; portanto, convoca uma equipe em vez de responder diretamente.
- Pensador: um modelo avançado de raciocínio é designado para planejar a refatoração e identificar conceitualmente a condição de corrida.
- Executor: um modelo especializado em programação escreve a implementação assíncrona real com base nesse plano.
- Verificador: um terceiro modelo analisa as alterações em comparação com a intenção original — será que o comportamento é preservado? A condição de corrida foi realmente corrigida? — e sinaliza qualquer problema.
- Síntese: O Fugu reconcilia as observações do verificador, solicita uma correção, se necessário, e retorna uma única resposta limpa.
Você nunca vê as transferências entre os modelos. Esse é exatamente o cerne da proposta: a rigorosidade de uma revisão cuidadosa por três modelos, entregue como se tivesse vindo de um único assistente. O custo, naturalmente, é que vários modelos são executados onde um só poderia bastar — razão pela qual o roteador do Fugu tenta responder às perguntas simples diretamente e reserva o comitê completo apenas para problemas que justifiquem esse esforço.
Fugu versus Fugu Ultra
| Aspecto | Fugu | Fugu Ultra |
|---|---|---|
| Projetado para | Programação cotidiana, revisão de código, chatbots | Problemas difíceis e multifacetados, nos quais a precisão é crítica |
| Prioridade | Alto desempenho + baixa latência | Qualidade máxima da resposta |
| Conjunto de agentes | Enxuto; permite optar por excluir agentes específicos (conformidade) | Conjunto mais amplo de agentes especializados; sem opção de exclusão |
| ID do modelo | fugu | fugu-ultra-20260615 |
A possibilidade de exclusão é relevante para empresas: com o Fugu, é possível excluir determinados modelos do conjunto (por exemplo, para manter dados longe de um provedor específico), mas o Fugu Ultra troca esse controle pela qualidade máxima.
Os benchmarks — e a ressalva honesta
A comparação publicada pela Sakana posiciona o Fugu Ultra à frente dos modelos de ponta em programação e raciocínio:
| Benchmark | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 93.2 | 87.8 | 88.5 | 85.3 |
| Último Exame da Humanidade | 50.0 | 49.8 | 44.4 | 41.4 |
A Sakana afirma que o Fugu Ultra “obteve a pontuação mais alta em 10 das 11 linhas”. Duas ressalvas mantêm essa afirmação honesta: (1) esses são números divulgados pelo próprio fornecedor — testes independentes ainda não acompanharam o lançamento; e (2) um orquestrador superar os modelos que ele orquestra é menos surpreendente do que parece, pois pode escolher o melhor modelo para cada tarefa específica. Os testes práticos que realmente importam são custo, latência e confiabilidade sob carga — não apenas uma classificação em ranking.
Quais modelos ele orquestra?
A Sakana não divulga publicamente a composição do conjunto — o roteamento é proprietário. Reportagens da imprensa indicam que GPT-5.5, Claude Opus 4.8 e Gemini 3.1 Pro entre os modelos orquestrados. Curiosamente, a Sakana observa que o Claude Fable 5 e o Mythos Preview não estão não no pool do Fugu, pois não são acessíveis publicamente por meio de API. Se você deseja compreender os componentes nos quais o Fugu opera, nossa Banco de dados de modelos de IA página de especificações detalhadas tem todas as informações técnicas e preços para cada um, e nossa Claude Opus 4.8 versus GPT-5.5 comparação detalhada mostra como eles diferem.
Preços
O Fugu é comercializado mediante assinatura, não em modelo puramente sob demanda: US$ 20/mês (Standard), US$ 100/mês (Pro) e US$ 200/mês (Max), com cada plano abrangendo tanto o Fugu quanto o Fugu Ultra, mas com limites distintos de uso. O consumo de tokens e o custo são relatados por requisição por meio da API compatível com OpenAI (pontos de extremidade em console.sakana.ai). Um fator a considerar: ao usar um orquestrador, você paga pela camada de coordenação além de o que os modelos subjacentes custariam individualmente — portanto, o valor depende de o Fugu extrair qualidade suficiente adicional para justificar essa sobrecarga.
Usando o Fugu: uma API compatível com OpenAI, pronta para uso imediato
Parte da facilidade de experimentar o Fugu reside no fato de ele utilizar a linguagem da API da OpenAI. Se seu código já chama a OpenAI, basta substituir a URL base e o nome do modelo, e você estará praticamente pronto:
from openai import OpenAI
client = OpenAI(base_url="https://console.sakana.ai/v1", api_key="YOUR_KEY")
resp = client.chat.completions.create(
model="fugu-ultra-20260615",
messages=[{"role": "user", "content": "Explique e corrija este erro..."}],
)
print(resp.choices[0].message.content)O consumo de tokens e o custo são informados de volta por requisição, permitindo que você visualize exatamente o que uma determinada consulta consumiu — mesmo sem saber quais modelos subjacentes foram executados. Para equipes em ambientes regulados, a capacidade do nível padrão do Fugu de excluir agentes específicos do pool é a funcionalidade que torna a orquestração viável: você pode manter completamente fora do processo um provedor específico. O Fugu Ultra abre mão desse controle em troca da máxima qualidade.
Quem está por trás da Sakana AI?
A Sakana AI é um laboratório com sede em Tóquio, fundado em 2023 por Llion Jones — um dos coautores do artigo original sobre a arquitetura Transformer, "Attention Is All You Need" — e por David Ha, ex-integrante do Google Brain. A empresa é conhecida por suas abordagens inspiradas na natureza e na evolução para a IA (sakana significa "peixe", evocando cardumes e enxames). O Fugu se encaixa perfeitamente nessa visão de mundo: inteligência emergindo da coordenação de diversos modelos, em vez de surgir de uma única rede cada vez maior.
O Fugu no contexto: o surto de IA japonês em 2026
O Fugu não surgiu do nada. Em 2026, o Japão investiu intensamente no desenvolvimento de capacidade soberana em IA, grande parte disso por meio dos programas da METI e da NEDO, como o GENIAC . Os lançamentos mais relevantes deste ano foram:
- Rakuten AI 3.0 (março de 2026) — apresentado como o maior modelo de alto desempenho do Japão, um sistema de mistura de especialistas com cerca de 700 bilhões de parâmetros, otimizado para o japonês e disponibilizado abertamente sob a licença Apache 2.0.
- SoftBank / SB Intuitions "Sarashina" — um LLM japonês desenvolvido internamente, com 460 bilhões de parâmetros, agora disponibilizado por meio de uma API comercial Sarashina (além de uma versão leve chamada "Sarashina mini" voltada para empresas), treinado em um cluster de 4.000 GPUs NVIDIA B200.
- NTT "tsuzumi 2" — ajustado para oferecer um excelente equilíbrio entre eficiência e desempenho, destinado à implantação empresarial em hardware modesto.
Diante desse cenário de grandes modelos de base otimizados para o japonês, a aposta da Sakana destaca-se precisamente por ser o oposto: não mais um grande modelo, mas uma camada que faz com que os melhores modelos do mundo trabalhem em conjunto. Trata-se de uma jogada tipicamente Sakana — e um lembrete de que a estratégia japonesa de IA é muito mais ampla do que qualquer laboratório isolado.
Um avanço — ou simplesmente "mais uma camada envolvedora"?
A primeira reação da comunidade tende ao ceticismo, e a pergunta dominante é direta: "Isso é apenas um roteador em torno dos modelos de outras pessoas?" Trata-se de uma crítica legítima. Abaixo, apresentamos ambos os lados:
- O argumento cético: O Fugu não possui nenhum modelo de ponta próprio. Removendo-se a marca, trata-se simplesmente de uma camada paga que chama APIs que você poderia invocar diretamente. Se um provedor alterar seus preços ou condições de acesso, a economia do Fugu muda da noite para o dia.
- O argumento otimista: a coordenação pode realmente ser a nova fronteira. Se um condutor aprendido for capaz de extrair consistentemente mais valor dos modelos existentes do que qualquer um deles isoladamente — verificando, repetindo tentativas e combinando resultados — isso representa um valor real, contornando inteiramente a corrida armamentista de treinamento que custa trilhões de dólares.
A verdade provavelmente está em algum lugar entre essas duas posições, e depende de uma validação independente que ainda não chegou.
Fugu versus criar sua própria solução (ou usar um roteador como o OpenRouter)
A objeção óbvia é: não posso eu mesmo fazer o roteamento entre modelos, ou usar um agregador como o OpenRouter? Você pode — e esse é exatamente o patamar que o Fugu precisa superar. Uma configuração manual ou um roteador baseado em preço/latência escolhe um um modelo por chamada com base em regras simples. A proposta do Fugu é qualitativamente distinta: em uma única tarefa difícil, ele pode empregar vários modelos, atribuir-lhes papéis específicos, fazer com que um verifique o outro e combinar os resultados — uma coordenação que é genuinamente trabalhosa de implementar e ajustar manualmente. Se essa coordenação aprendida supera ou não um pipeline manual bem projetado para uma determinada seu carga de trabalho é, mais uma vez, algo que deve ser testado antes de você se comprometer. Para necessidades simples, um único modelo potente — ou um roteador simples — continua sendo a escolha mais econômica e transparente.
Por que isso importa
O Fugu cristaliza uma tendência que já vinhamos documentando: o valor marginal de um modelo de ponta maior está diminuindo, e a verdadeira vantagem competitiva está em associar o modelo certo a cada tarefa. Nosso Índice de Preço-Desempenho em IA 2026 revelou que o prêmio pago pelos modelos de ponta adquire apenas uma fração últimos pontos da capacidade, não um valor proporcional — e nosso estudo comparativo de custos entre modelos abertos e fechados mostrou quão ampla se tornou essa lacuna de preços. O Fugu automatiza exatamente a decisão apontada por esses estudos: qual modelo deve responder isto pergunta? Se funcionar, ela transforma a questão «qual IA devo usar?» em um único endpoint, tornando-a uma commodity.
Limitações a ter em mente
- Dependência: O Fugu é tão bom quanto os modelos disponíveis em seu conjunto — e quanto ao seu acesso a eles.
- Acumulação de custos: você paga pela camada de coordenação da Sakana além do uso dos modelos subjacentes.
- Opacidade: o roteamento proprietário significa que nem sempre é possível auditar qual modelo gerou sua resposta (o Fugu permite que agentes optem por não participar; o Fugu Ultra não permite).
- Disponibilidade: não oferecido na UE/EEE até que seja atingida a conformidade com o GDPR.
- Não comprovado no lançamento: benchmarks independentes e confiabilidade no mundo real ainda estão se aproximando das afirmações feitas.
Perguntas frequentes
O Sakana Fugu é um modelo de linguagem grande? Em certa medida — trata-se de um modelo de orquestração que utiliza utiliza outros LLMs, em vez de gerar todas as respostas a partir de uma única rede.
O Fugu substitui o GPT-5.5 ou o Claude? Não — ele os invoca. É uma camada acima dos modelos de ponta, não um concorrente desses modelos no sentido tradicional.
Posso executar o Fugu localmente? Não. Trata-se de uma API em nuvem que depende do acesso a provedores de modelos de ponta.
É de código aberto? O produto é proprietário, mas a pesquisa subjacente (TRINITY e Conductor) foi publicada na conferência ICLR 2026.
Como ele difere de um roteador comum? Um roteador típico usa regras fixas. Já o Fugu é um coordenador aprendido — otimizado por meio de evolução e aprendizado por reforço — que atribui papéis, verifica saídas e sintetiza uma resposta final.
Conclusão final
O Sakana Fugu é o lançamento de IA mais interessante de junho de 2026 — não porque seja o modelo mais inteligente, mas porque reformula a pergunta. Em vez de «qual modelo é o melhor?», o Fugu pergunta «e se você não precisasse escolher?». Se ele se revelará uma mudança genuína de paradigma ou apenas uma envoltória engenhosa, ainda está por ser visto; o fato é que ele captura uma mudança real no local onde reside o valor da IA: cada vez menos em qualquer modelo isolado e cada vez mais na forma como os modelos são coordenados. Os resultados dos benchmarks parecem impressionantes; agora resta aguardar os testes independentes para confirmar — ou desmentir — a expectativa gerada.
Fontes: materiais de lançamento da Sakana AI e tabela de benchmarks; artigos TRINITY e Conductor apresentados na conferência ICLR 2026; reportagens do MarkTechPost, Nikkei Asia e GIGAZINE. Dados conforme publicados em junho de 2026.
