排名模型厂商分数(百分制)样本量上下文价格/百万token
1
A
claude-opus-4-6-search Anthropic
100.0
48.7K
200K
¥108 / ¥540输入/输出
2
O
gpt-5.5-search Openai
96.4
9.5K
400K
¥9 / ¥72输入/输出
3
A
claude-opus-4-7 Anthropic
92.9
9.7K
1M
¥36 / ¥180输入/输出
4
B
ernie-5.1 Baidu
89.3
2.3K
119K
¥5.4 / ¥21.6输入/输出
5
A
claude-sonnet-4-6-search Anthropic
85.7
48.1K
200K
¥21.6 / ¥108输入/输出
6
G
gemini-3.1-pro-grounding Google
82.1
28K
1.05M
¥14.4 / ¥86.4输入/输出
7
O
gpt-5.2-search Openai
78.6
47.1K
400K
¥12.6 / ¥101输入/输出
8
X
grok-4.20-multi-agent-beta-0309 Xai
75.0
27.5K
2M
¥14.4 / ¥43.2输入/输出
9
G
gemini-3-pro-grounding Google
71.4
37.3K
1.05M
¥14.4 / ¥86.4输入/输出
10
G
gemini-3-flash-grounding Google
67.9
62.9K
1.05M
¥3.6 / ¥21.6输入/输出
11
O
gpt-5.1-search Openai
64.3
53.7K
400K
¥9 / ¥72输入/输出
12
O
gpt-5.4-search Openai
60.7
27.9K
400K
¥9 / ¥72输入/输出
13
X
grok-4.20-beta1 Xai
57.1
49K
2M
¥14.4 / ¥43.2输入/输出
14
X
grok-4.3 Xai
53.6
6.9K
1M
¥9 / ¥18输入/输出
15
A
claude-opus-4-5-search Anthropic
50.0
53.4K
200K
¥108 / ¥540输入/输出
16
O
gpt-5.2-search-non-reasoning Openai
46.4
65.5K
400K
¥12.6 / ¥101输入/输出
17
X
grok-4-1-fast-search Xai
42.9
71.6K
1M
¥9 / ¥18输入/输出
18
X
grok-4-fast-search Xai
39.3
43K
1M
¥9 / ¥18输入/输出
19
A
claude-sonnet-4-5-search Anthropic
35.7
45.7K
200K
¥21.6 / ¥108输入/输出
20
A
claude-opus-4-1-search Anthropic
32.1
71.3K
200K
¥108 / ¥540输入/输出
21
O
o3-search Openai
28.6
20.7K
200K
¥14.4 / ¥57.6输入/输出
22
G
gemini-2.5-pro-grounding Google
25.0
76.8K
1.05M
¥9 / ¥72输入/输出
23
X
grok-4-search Xai
21.4
19.3K
1M
¥9 / ¥18输入/输出
24
PE
ppl-sonar-reasoning-pro-high Perplexity
17.9
29.1K
128K
¥7.2 / ¥7.2输入/输出
25
O
gpt-5-search Openai
14.3
20.8K
400K
¥9 / ¥72输入/输出
26
PE
ppl-sonar-pro-high Perplexity
10.7
28.6K
128K
¥7.2 / ¥7.2输入/输出
27
A
claude-opus-4-search Anthropic
7.1
31.1K
200K
¥108 / ¥540输入/输出
28
D
diffbot-small-xl Diffbot
3.6
6.4K
-
-
29
O
api-gpt-4o-search Openai
0.0
3.4K
128K
¥18 / ¥72输入/输出
榜首模型解读claude-opus-4-6-search 为什么排第一
claude-opus-4-6-search 当前排名第 1,厂商为 anthropic,百分制分数 100.0,样本量 48.7K。如果你的任务与本榜单口径一致,可以优先把它作为候选模型,再结合价格、上下文长度和可用性做最终选择。
如何选择模型不要只看第一名
先选择最接近真实任务的排行榜,再比较 Top 模型的分数和样本量。分数越高说明同一榜单内偏好表现越强;样本量越高通常结果更稳定。最后再结合价格、上下文长度、开源闭源和厂商可用性筛选。
相关排行榜继续比较相近能力