智能体 · 总榜 · 智能体总榜

基于公开偏好评测数据展示 总榜 / 智能体总榜 榜单,每个榜单独立排序。

选型指南

智能体总榜模型怎么选?

智能体总榜排行榜用于回答“智能体总榜哪个 AI 模型更强”这类选型问题。页面基于公开偏好评测数据展示模型排名,每个榜单独立排序,不把不同任务的原始分数直接混合。当前榜首是 GPT 5.5 (High),厂商为 openai,百分制分数 100.0,样本量 24.6K。 数据来源保留 Arena 原始榜单和 LMArena leaderboard dataset,更新时间以榜单发布时间 2026-05-30 为准。

GPT 5.5 (High)Claude Opus 4.7 (Thinking)GPT 5.4 (High)Claude Opus 4.6GPT 5.5
当前目录智能体 · 总榜 · 智能体总榜
模型数量18
榜单发布时间2026/05/30
Arena 公开偏好评测原始榜单: Agent 总榜榜单发布时间: 2026/05/30打开 Arena 来源
1
GPT 5.5 (High)
Openai
100.0
24.6K
1.05M
¥36 / ¥216输入/输出
2
Claude Opus 4.7 (Thinking)
Anthropic
94.1
24.5K
1M
¥36 / ¥180输入/输出
3
GPT 5.4 (High)
Openai
88.2
24.4K
1.05M
¥18 / ¥108输入/输出
4
Claude Opus 4.6
Anthropic
82.4
24.7K
1M
¥36 / ¥180输入/输出
5
GPT 5.5
Openai
76.5
24.9K
1.05M
¥36 / ¥216输入/输出
6
Claude Opus 4.7
Anthropic
70.6
24.7K
1M
¥36 / ¥180输入/输出
7
Claude Sonnet 4.6
Anthropic
64.7
24.6K
1M
¥21.6 / ¥108输入/输出
8
GLM 5.1
Zai
58.8
19.8K
200K
¥0 / ¥0输入/输出
9
Gemini 3.1 Pro Preview
Google
52.9
24.5K
1.05M
¥14.4 / ¥86.4输入/输出
10
Gemini 3.5 Flash
Google
47.1
17.7K
1.05M
¥10.8 / ¥64.8输入/输出
11
Kimi K2.6
Moonshot
41.2
21.3K
262K
¥6.84 / ¥28.8输入/输出
12
DeepSeek V4 Pro
Deepseek
35.3
20K
1M
¥3.13 / ¥6.26输入/输出
13
Qwen 3.6 Plus
Alibaba
29.4
19.5K
1M
¥3.6 / ¥21.6输入/输出
14
DeepSeek V4 Flash
Deepseek
23.5
19.9K
1M
¥1.01 / ¥2.02输入/输出
15
Minimax M2.7
Minimax
17.6
20K
205K
¥0 / ¥0输入/输出
16
Gemini 3 Flash
Google
11.8
24.5K
1.05M
¥3.6 / ¥21.6输入/输出
17
Gemma 4 31B
Google
5.9
13.7K
262K
¥3.24 / ¥7.2输入/输出
18
Grok 4.3
Xai
0.0
23.7K
1M
¥9 / ¥18输入/输出
榜首模型解读

GPT 5.5 (High) 为什么排第一

GPT 5.5 (High) 当前排名第 1,厂商为 openai,百分制分数 100.0,样本量 24.6K。如果你的任务与本榜单口径一致,可以优先把它作为候选模型,再结合价格、上下文长度和可用性做最终选择。

如何选择模型

不要只看第一名

先选择最接近真实任务的排行榜,再比较 Top 模型的分数和样本量。分数越高说明同一榜单内偏好表现越强;样本量越高通常结果更稳定。最后再结合价格、上下文长度、开源闭源和厂商可用性筛选。

相关排行榜

继续比较相近能力

常见问题

智能体总榜常见问题

智能体总榜排行榜看什么指标?

主要看排名、百分制分数、样本量和来源。分数用于快速比较同一榜单内模型表现,样本量用于判断结果稳定性。

为什么不同榜单不能直接混合成总分?

不同榜单的任务、样本和评测口径不同,模力榜默认只在同一榜单内排序,避免把写作、代码、图像等能力强行合并。

智能体总榜模型应该怎么选?

优先看与你任务最接近的榜单,再结合价格、上下文长度、开源闭源和厂商可用性。排名靠前不代表适合所有预算和部署方式。

榜单多久更新?

页面展示的是最新成功采集的公开榜单数据。当前优先使用 LMArena leaderboard dataset,并在页面来源中保留原始链接。