排名模型厂商分数(百分制)样本量上下文价格/百万token
1
A
claude-opus-4-7-thinking Anthropic
100.0
2.1K
1M
¥36 / ¥180输入/输出
2
A
claude-sonnet-4-6 Anthropic
95.5
3.2K
1M
¥21.6 / ¥108输入/输出
3
A
claude-opus-4-7 Anthropic
90.9
2.4K
1M
¥36 / ¥180输入/输出
4
A
claude-opus-4-6-thinking Anthropic
86.4
3K
1M
¥36 / ¥180输入/输出
5
O
gpt-5.5-xhigh (codex-harness) Openai
81.8
1.8K
400K
¥9 / ¥72输入/输出
6
A
claude-opus-4-6 Anthropic
77.3
3K
1M
¥36 / ¥180输入/输出
7
M
kimi-k2.6 Moonshot
72.7
1.5K
262K
¥6.84 / ¥28.8输入/输出
8
O
gpt-5.5-high (codex-harness) Openai
68.2
2K
400K
¥9 / ¥72输入/输出
9
G
gemini-3.1-pro-preview Google
63.6
3.6K
1.05M
¥14.4 / ¥86.4输入/输出
10
O
gpt-5.5 (codex-harness) Openai
59.1
1.9K
400K
¥9 / ¥72输入/输出
11
A
qwen3.6-plus Alibaba
54.5
2.6K
1M
¥3.6 / ¥21.6输入/输出
12
G
gemini-3-pro Google
50.0
1.1K
1.05M
¥14.4 / ¥86.4输入/输出
13
G
gemini-3-flash Google
45.5
4.4K
1.05M
¥3.6 / ¥21.6输入/输出
14
O
gpt-5.3-codex (codex-harness) Openai
40.9
2.5K
400K
¥9 / ¥72输入/输出
15
M
kimi-k2.5-thinking Moonshot
36.4
1.7K
262K
¥4.32 / ¥21.6输入/输出
16
O
gpt-5.4 Openai
31.8
1.2K
1.05M
¥18 / ¥108输入/输出
17
G
gemini-3-flash (thinking-minimal) Google
27.3
4.4K
1.05M
¥3.6 / ¥21.6输入/输出
18
O
gpt-5.1-high Openai
22.7
1.1K
400K
¥9 / ¥72输入/输出
19
M
kimi-k2.5-instant Moonshot
18.2
1.1K
262K
¥4.32 / ¥21.6输入/输出
20
X
grok-4.3 Xai
13.6
965
1M
¥9 / ¥18输入/输出
21
O
gpt-5.1 Openai
9.1
1.3K
400K
¥9 / ¥72输入/输出
22
G
gemini-3.1-flash-lite-preview Google
4.5
3.7K
1.05M
¥1.8 / ¥10.8输入/输出
23
G
gemini-2.5-pro Google
0.0
1.2K
1.05M
¥9 / ¥72输入/输出
榜首模型解读claude-opus-4-7-thinking 为什么排第一
claude-opus-4-7-thinking 当前排名第 1,厂商为 anthropic,百分制分数 100.0,样本量 2.1K。如果你的任务与本榜单口径一致,可以优先把它作为候选模型,再结合价格、上下文长度和可用性做最终选择。
如何选择模型不要只看第一名
先选择最接近真实任务的排行榜,再比较 Top 模型的分数和样本量。分数越高说明同一榜单内偏好表现越强;样本量越高通常结果更稳定。最后再结合价格、上下文长度、开源闭源和厂商可用性筛选。
相关排行榜继续比较相近能力