R Ranking Pesquis AI / ranking.pesquis.ai
live snapshot —
Metodologia versão —

Como o ranking é calculado, com duas fontes públicas claras.

O board principal espelha o Artificial Analysis Intelligence Index. O board complementar Panorama usa LLM Stats para leitura adicional de preço, cobertura e comparativos úteis sem alterar o board principal.

Board principal espelho da Artificial Analysis
Board complementar Panorama leitura útil de apoio
Fontes ativas AA + LLM Stats
Versão metodologia pública

1. Princípios

Três compromissos públicos governam tudo abaixo: independência (nenhum provedor de modelo financia, edita ou pré-aprova o ranking), reproduzibilidade (toda decisão metodológica é documentada e versionada) e clareza (explicamos quando um board é espelho de fonte externa e quando ele é apenas complementar).

  • Não publicamos resultados não-reproduzíveis ou auto-relatados sem corroboração externa.
  • Não removemos modelos do ranking por pressão comercial; apenas por descontinuação ou indisponibilidade pública.
  • Toda mudança de fórmula é publicada com 14 dias de antecedência e indicada no changelog abaixo.

2. Fontes & benchmarks

O board principal usa a Artificial Analysis como fonte canônica de inteligência. O board complementar Panorama usa LLM Stats para oferecer leitura adicional de preço, cobertura e contexto. Os demais recortes reaproveitam benchmarks públicos quando há cobertura suficiente para produzir cortes úteis.

  • Carregando…
Como decidimos incluir uma nova fonte
Uma nova fonte só entra no índice se: (a) tem protocolo de avaliação público, (b) divulga set de teste e prompt, (c) é reproduzida por pelo menos um terceiro independente, e (d) não é mantida pelo lab que produz qualquer modelo do ranking.

3. Fórmula de agregação

Para o board principal, não recalculamos um índice próprio. Publicamos o score da Artificial Analysis na mesma escala 0–100:

Score(m, inteligência) = AA_Intelligence_Index(m)

O board complementar Panorama não tenta “melhorar” a AA. Ele soma leitura editorial de LLM Stats para contexto, preço e cobertura, sem substituir o board principal. Nos boards derivados, aplicamos pesos apenas sobre as métricas disponíveis para aquele recorte editorial. Quando a cobertura é insuficiente, o modelo é excluído do board em vez de receber score parcial enganoso.

4. Pesos por board

O board Inteligência é o principal e espelha a Artificial Analysis. O board complementar Panorama usa LLM Stats como camada de leitura adicional. A tabela abaixo mostra exatamente a configuração usada para o board principal.

Os boards Coding, Reasoning e Custo-benefício aplicam pesos específicos sobre suas fontes ativas. O board de valor combina inteligência com preço público rastreável.

5. Normalização

No board principal, não renormalizamos a Artificial Analysis. Nos boards derivados, preservamos a escala 0–100 de cada fonte quando ela já é pública e interpretável; quando necessário, reescalamos apenas para compatibilizar benchmarks e preço.

Por que não z-score?

Porque o ranking é lido por humanos, e usuários esperam que “score 90” signifique algo absoluto e estável. Z-scores reescalam a cada snapshot e tornam comparações longitudinais frágeis.

6. Tratamento de preço

O board Custo-benefício combina o AA Intelligence Index com preço normalizado. Usamos preçoblended = 0.7 · preçoinput + 0.3 · preçooutput para refletir a distribuição típica de tokens em uso real. Preços são coletados das documentações oficiais dos provedores, do OpenRouter e, quando útil para contexto, do LLM Stats.

Atenção
Preços do tier batch e descontos contratuais corporativos não entram no índice. O ranking reflete o preço público mais comumente acessível.

7. Verificação

Um modelo é marcado como verificado apenas quando seu resultado em pelo menos 3 dos benchmarks principais é reproduzido independentemente — seja por um time acadêmico, pela equipe Pesquis ou por um avaliador comunitário com histórico aberto. Modelos com verificação parcial aparecem com a tag parcial na coluna de fontes.

8. Limitações conhecidas

  • Contaminação de dataset: alguns benchmarks vazaram em conjuntos de treinamento públicos. Marcamos esses pontos com asterisco e aplicamos um desconto de 15% no peso quando há evidência forte de contaminação.
  • Multimodalidade: o board de Inteligência ainda reflete majoritariamente capacidade textual, porque é isso que a fonte principal mede melhor hoje.
  • Variância entre rodadas: modelos com temperatura > 0 apresentam ±1.5pp de variação típica. Médias são tomadas sobre ≥ 3 execuções.
  • Latência: ainda não compõe o índice principal. Em estudo para o board Latência previsto em 2026.Q3.
  • Cobertura de modelos: incluímos apenas modelos com API pública estável ou pesos abertos disponíveis para download.

9. Changelog

  • 2026.05 — Board principal passa a espelhar o Artificial Analysis Intelligence Index; board complementar Panorama passa a usar LLM Stats como leitura de apoio.
  • 2026.03 — Versão anterior usava agregação própria multi-benchmark no board principal.
  • 2026.01 — Inclusão de τ-bench em Tool use.
  • 2025.11 — Lançamento público.