1. Princípios
Três compromissos públicos governam tudo abaixo: independência (nenhum provedor de modelo financia, edita ou pré-aprova o ranking), reproduzibilidade (toda decisão metodológica é documentada e versionada) e clareza (explicamos quando um board é espelho de fonte externa e quando ele é apenas complementar).
- Não publicamos resultados não-reproduzíveis ou auto-relatados sem corroboração externa.
- Não removemos modelos do ranking por pressão comercial; apenas por descontinuação ou indisponibilidade pública.
- Toda mudança de fórmula é publicada com 14 dias de antecedência e indicada no changelog abaixo.
2. Fontes & benchmarks
O board principal usa a Artificial Analysis como fonte canônica de inteligência. O board complementar Panorama usa LLM Stats para oferecer leitura adicional de preço, cobertura e contexto. Os demais recortes reaproveitam benchmarks públicos quando há cobertura suficiente para produzir cortes úteis.
- Carregando…
3. Fórmula de agregação
Para o board principal, não recalculamos um índice próprio. Publicamos o score da Artificial Analysis na mesma escala 0–100:
Score(m, inteligência) = AA_Intelligence_Index(m)
O board complementar Panorama não tenta “melhorar” a AA. Ele soma leitura editorial de LLM Stats para contexto, preço e cobertura, sem substituir o board principal. Nos boards derivados, aplicamos pesos apenas sobre as métricas disponíveis para aquele recorte editorial. Quando a cobertura é insuficiente, o modelo é excluído do board em vez de receber score parcial enganoso.
4. Pesos por board
O board Inteligência é o principal e espelha a Artificial Analysis. O board complementar Panorama usa LLM Stats como camada de leitura adicional. A tabela abaixo mostra exatamente a configuração usada para o board principal.
Os boards Coding, Reasoning e Custo-benefício aplicam pesos específicos sobre suas fontes ativas. O board de valor combina inteligência com preço público rastreável.
5. Normalização
No board principal, não renormalizamos a Artificial Analysis. Nos boards derivados, preservamos a escala 0–100 de cada fonte quando ela já é pública e interpretável; quando necessário, reescalamos apenas para compatibilizar benchmarks e preço.
Por que não z-score?
Porque o ranking é lido por humanos, e usuários esperam que “score 90” signifique algo absoluto e estável. Z-scores reescalam a cada snapshot e tornam comparações longitudinais frágeis.
6. Tratamento de preço
O board Custo-benefício combina o AA Intelligence Index com preço normalizado. Usamos preçoblended = 0.7 · preçoinput + 0.3 · preçooutput para refletir a distribuição típica de tokens em uso real. Preços são coletados das documentações oficiais dos provedores, do OpenRouter e, quando útil para contexto, do LLM Stats.
7. Verificação
Um modelo é marcado como verificado apenas quando seu resultado em pelo menos 3 dos benchmarks principais é reproduzido independentemente — seja por um time acadêmico, pela equipe Pesquis ou por um avaliador comunitário com histórico aberto. Modelos com verificação parcial aparecem com a tag parcial na coluna de fontes.
8. Limitações conhecidas
- Contaminação de dataset: alguns benchmarks vazaram em conjuntos de treinamento públicos. Marcamos esses pontos com asterisco e aplicamos um desconto de 15% no peso quando há evidência forte de contaminação.
- Multimodalidade: o board de Inteligência ainda reflete majoritariamente capacidade textual, porque é isso que a fonte principal mede melhor hoje.
- Variância entre rodadas: modelos com temperatura > 0 apresentam ±1.5pp de variação típica. Médias são tomadas sobre ≥ 3 execuções.
- Latência: ainda não compõe o índice principal. Em estudo para o board Latência previsto em 2026.Q3.
- Cobertura de modelos: incluímos apenas modelos com API pública estável ou pesos abertos disponíveis para download.
9. Changelog
- 2026.05 — Board principal passa a espelhar o Artificial Analysis Intelligence Index; board complementar Panorama passa a usar LLM Stats como leitura de apoio.
- 2026.03 — Versão anterior usava agregação própria multi-benchmark no board principal.
- 2026.01 — Inclusão de τ-bench em Tool use.
- 2025.11 — Lançamento público.