130道题实测主流大模型AI大模型怎么选主流大模型哪家强？有人用130道真实问题

130道题实测主流大模型AI大模型怎么选

主流大模型哪家强？有人用130道真实问题做了测试，教你如何根据场景选模型，结论直接往后翻。

作者：Graham King

一、编程相关：

1. 写一个bash脚本显示进度条：最佳为inception/mercury-coder（Inception公司推出的编程模型），deepseek-r1-0528和glm-4.5也表现不错

2. 用Rust标准库写监听Unix域套接字程序：deepseek-chat-v3-0324、gpt-oss-120b和qwen3-235b均给出优质解法

3. 在nvim中用Lua创建弹窗显示“Hello”：glm-4.5-air表现最佳（代码简洁、响应快），qwen3-thinking和claude-sonnet-4提供相同代码但响应偏慢

二、系统/运维类：

4. 每30天轮转一次日志文件/var/log/myfile.log的三种Linux方案：deepseek-r1-0528答得最完整

5. 用jq仅打印JSON对象的key：gpt-oss-120b回答速度快且准确，其他模型也基本都答对

6. Thinkpad上遇到Intel Iris Xe图形错误“rust-lld: error: unable to find library -lOpenCL”，在Fedora下应安装哪个包：deepseek-chat-v3-0324准确定位并推荐解决方案

三、技术解释类：

7. 解释underlay网络并举例：claude-sonnet-4（非thinking版）和deepseek-r1-0528表达简洁清晰，适合初学者理解

8. 解释偏导数含义并提供例题：kimi-k2通过清晰排版和UTF-8数学符号，提升理解效率

9. 大语言模型中的“量化（quantization）”含义：deepseek-chat-v3-0324和glm-4.5（thinking版）说明准确

四、通识/创意任务：

10. 写一首关于佛罗里达的10行诗，风格模仿Shel Silverstein：qwen3-thinking最终胜出，内容最贴近原风格，claude-sonnet-4-thinking和deepseek-r1-0528也有亮眼表现

11. 推荐一部PG-13电影，要求风景美、氛围平静且有治愈感：gemini-2.5-flash推荐《白日梦想家》，贴题且响应最快；claude-sonnet-4-thinking和gemini-2.5-pro推荐了较冷门佳作；gpt-oss-120b虚构了电影《Stargazing》

12. 冷萃咖啡制作方法：qwen3-235b提供清晰简洁的步骤说明，效率最高

13. 路易斯安那州（Louisiana）名称来源：所有模型都答对，gemini-2.5-flash用时最短

作者Graham表示：绝大多数模型能正确处理问题，真正拉开差距的因素是响应速度、使用成本和表达风格。

他按用途推荐模型如下：

- 编程与查资料：deepseek-chat-v3.1（稳定全能）、qwen3-235b（高性价比）、gemini-2.5-flash（响应最快）

- 创意或推理类问题：建议开启“thinking”模式，如qwen3-thinking、claude-sonnet-4-thinking，提升表现

- 响应时间：qwen3-thinking最慢（超20秒），deepseek-r1和gemini-2.5-pro次之；gemini-2.5-flash最快，平均不到3秒

- 使用成本（单位：美分）：gemini-2.5-pro最贵，claude-sonnet次之；deepseek-chat、gpt-oss-120b、kimi-k2和qwen3非thinking版成本极低，其中qwen3非思考模式几乎可忽略

原文链接：darkcoding.net/software/personal-ai-evals-aug-2025/

0 阅读：0