智能体 · 总榜 · 智能体总榜

基于公开偏好评测数据展示总榜 / 智能体总榜榜单，每个榜单独立排序。

选型指南

智能体总榜模型怎么选？

智能体总榜排行榜用于回答“智能体总榜哪个 AI 模型更强”这类选型问题。页面基于公开偏好评测数据展示模型排名，每个榜单独立排序，不把不同任务的原始分数直接混合。当前榜首是 GPT 5.5 (High)，厂商为 openai，百分制分数 100.0，样本量 24.6K。数据来源保留 Arena 原始榜单和 LMArena leaderboard dataset，更新时间以榜单发布时间 2026-05-30 为准。

GPT 5.5 (High)Claude Opus 4.7 (Thinking)GPT 5.4 (High)Claude Opus 4.6GPT 5.5

GPT 5.5 (High)

Openai

100.0

24.6K

1.05M

¥36 / ¥216输入/输出

Claude Opus 4.7 (Thinking)

Anthropic

94.1

24.5K

¥36 / ¥180输入/输出

GPT 5.4 (High)

Openai

88.2

24.4K

1.05M

¥18 / ¥108输入/输出

Claude Opus 4.6

Anthropic

82.4

24.7K

¥36 / ¥180输入/输出

GPT 5.5

Openai

76.5

24.9K

1.05M

¥36 / ¥216输入/输出

Claude Opus 4.7

Anthropic

70.6

24.7K

¥36 / ¥180输入/输出

Claude Sonnet 4.6

Anthropic

64.7

24.6K

¥21.6 / ¥108输入/输出

GLM 5.1

Zai

58.8

19.8K

200K

¥0 / ¥0输入/输出

Gemini 3.1 Pro Preview

Google

52.9

24.5K

1.05M

¥14.4 / ¥86.4输入/输出

Gemini 3.5 Flash

Google

47.1

17.7K

1.05M

¥10.8 / ¥64.8输入/输出

Kimi K2.6

Moonshot

41.2

21.3K

262K

¥6.84 / ¥28.8输入/输出

DeepSeek V4 Pro

Deepseek

35.3

20K

¥3.13 / ¥6.26输入/输出

Qwen 3.6 Plus

Alibaba

29.4

19.5K

¥3.6 / ¥21.6输入/输出

DeepSeek V4 Flash

Deepseek

23.5

19.9K

¥1.01 / ¥2.02输入/输出

Minimax M2.7

Minimax

17.6

20K

205K

¥0 / ¥0输入/输出

Gemini 3 Flash

Google

11.8

24.5K

1.05M

¥3.6 / ¥21.6输入/输出

Gemma 4 31B

Google

5.9

13.7K

262K

¥3.24 / ¥7.2输入/输出

Grok 4.3

Xai

0.0

23.7K

¥9 / ¥18输入/输出

常见问题

智能体总榜常见问题

智能体总榜排行榜看什么指标？

主要看排名、百分制分数、样本量和来源。分数用于快速比较同一榜单内模型表现，样本量用于判断结果稳定性。

为什么不同榜单不能直接混合成总分？

不同榜单的任务、样本和评测口径不同，模力榜默认只在同一榜单内排序，避免把写作、代码、图像等能力强行合并。

智能体总榜模型应该怎么选？

优先看与你任务最接近的榜单，再结合价格、上下文长度、开源闭源和厂商可用性。排名靠前不代表适合所有预算和部署方式。

榜单多久更新？

页面展示的是最新成功采集的公开榜单数据。当前优先使用 LMArena leaderboard dataset，并在页面来源中保留原始链接。

智能体 · 总榜 · 智能体总榜

智能体总榜模型怎么选？

GPT 5.5 (High) 为什么排第一

不要只看第一名

继续比较相近能力

智能体总榜常见问题