Metodologia · Ranking Pesquis AI

1. Princípios

Três compromissos públicos governam tudo abaixo: independência (nenhum provedor de modelo financia, edita ou pré-aprova o ranking), reproduzibilidade (toda decisão metodológica é documentada e versionada) e clareza (explicamos quando um board é espelho de fonte externa e quando ele é apenas complementar).

Não publicamos resultados não-reproduzíveis ou auto-relatados sem corroboração externa.
Não removemos modelos do ranking por pressão comercial; apenas por descontinuação ou indisponibilidade pública.
Toda mudança de fórmula é publicada com 14 dias de antecedência e indicada no changelog abaixo.

2. Fontes & benchmarks

O board principal usa a Artificial Analysis como fonte canônica de inteligência. O board complementar Panorama usa LLM Stats para oferecer leitura adicional de preço, cobertura e contexto. Os demais recortes reaproveitam benchmarks públicos quando há cobertura suficiente para produzir cortes úteis.

Carregando…

Como decidimos incluir uma nova fonte

Uma nova fonte só entra no índice se: (a) tem protocolo de avaliação público, (b) divulga set de teste e prompt, (c) é reproduzida por pelo menos um terceiro independente, e (d) não é mantida pelo lab que produz qualquer modelo do ranking.

3. Fórmula de agregação

Para o board principal, não recalculamos um índice próprio. Publicamos o score da Artificial Analysis na mesma escala 0–100:

Score(m, inteligência) = AA_Intelligence_Index(m)

O board complementar Panorama não tenta “melhorar” a AA. Ele soma leitura editorial de LLM Stats para contexto, preço e cobertura, sem substituir o board principal. Nos boards derivados, aplicamos pesos apenas sobre as métricas disponíveis para aquele recorte editorial. Quando a cobertura é insuficiente, o modelo é excluído do board em vez de receber score parcial enganoso.

4. Pesos por board

O board Inteligência é o principal e espelha a Artificial Analysis. O board complementar Panorama usa LLM Stats como camada de leitura adicional. A tabela abaixo mostra exatamente a configuração usada para o board principal.

Os boards Coding, Reasoning e Custo-benefício aplicam pesos específicos sobre suas fontes ativas. O board de valor combina inteligência com preço público rastreável.

5. Normalização

No board principal, não renormalizamos a Artificial Analysis. Nos boards derivados, preservamos a escala 0–100 de cada fonte quando ela já é pública e interpretável; quando necessário, reescalamos apenas para compatibilizar benchmarks e preço.

Por que não z-score?

Porque o ranking é lido por humanos, e usuários esperam que “score 90” signifique algo absoluto e estável. Z-scores reescalam a cada snapshot e tornam comparações longitudinais frágeis.

6. Tratamento de preço

O board Custo-benefício combina o AA Intelligence Index com preço normalizado. Usamos preço_blended = 0.7 · preço_input + 0.3 · preço_output para refletir a distribuição típica de tokens em uso real. Preços são coletados das documentações oficiais dos provedores, do OpenRouter e, quando útil para contexto, do LLM Stats.

Atenção

Preços do tier batch e descontos contratuais corporativos não entram no índice. O ranking reflete o preço público mais comumente acessível.

7. Verificação

Um modelo é marcado como verificado apenas quando seu resultado em pelo menos 3 dos benchmarks principais é reproduzido independentemente — seja por um time acadêmico, pela equipe Pesquis ou por um avaliador comunitário com histórico aberto. Modelos com verificação parcial aparecem com a tag parcial na coluna de fontes.

8. Limitações conhecidas

Contaminação de dataset: alguns benchmarks vazaram em conjuntos de treinamento públicos. Marcamos esses pontos com asterisco e aplicamos um desconto de 15% no peso quando há evidência forte de contaminação.
Multimodalidade: o board de Inteligência ainda reflete majoritariamente capacidade textual, porque é isso que a fonte principal mede melhor hoje.
Variância entre rodadas: modelos com temperatura > 0 apresentam ±1.5pp de variação típica. Médias são tomadas sobre ≥ 3 execuções.
Latência: ainda não compõe o índice principal. Em estudo para o board Latência previsto em 2026.Q3.
Cobertura de modelos: incluímos apenas modelos com API pública estável ou pesos abertos disponíveis para download.

9. Changelog

2026.05 — Board principal passa a espelhar o Artificial Analysis Intelligence Index; board complementar Panorama passa a usar LLM Stats como leitura de apoio.
2026.03 — Versão anterior usava agregação própria multi-benchmark no board principal.
2026.01 — Inclusão de τ-bench em Tool use.
2025.11 — Lançamento público.

Como o ranking é calculado, com duas fontes públicas claras.

1. Princípios

2. Fontes & benchmarks

3. Fórmula de agregação

4. Pesos por board

5. Normalização

Por que não z-score?

6. Tratamento de preço

7. Verificação

8. Limitações conhecidas

9. Changelog