130道题实测主流大模型AI大模型怎么选主流大模型哪家强?有人用130道真实问题

量子位看科技 2025-08-25 13:50:45

130道题实测主流大模型AI大模型怎么选

主流大模型哪家强?有人用130道真实问题做了测试,教你如何根据场景选模型, 结论直接往后翻。

作者:Graham King

一、编程相关:

1. 写一个bash脚本显示进度条:最佳为inception/mercury-coder(Inception公司推出的编程模型),deepseek-r1-0528和glm-4.5也表现不错

2. 用Rust标准库写监听Unix域套接字程序:deepseek-chat-v3-0324、gpt-oss-120b和qwen3-235b均给出优质解法

3. 在nvim中用Lua创建弹窗显示“Hello”:glm-4.5-air表现最佳(代码简洁、响应快),qwen3-thinking和claude-sonnet-4提供相同代码但响应偏慢

二、系统/运维类:

4. 每30天轮转一次日志文件/var/log/myfile.log的三种Linux方案:deepseek-r1-0528答得最完整

5. 用jq仅打印JSON对象的key:gpt-oss-120b回答速度快且准确,其他模型也基本都答对

6. Thinkpad上遇到Intel Iris Xe图形错误“rust-lld: error: unable to find library -lOpenCL”,在Fedora下应安装哪个包:deepseek-chat-v3-0324准确定位并推荐解决方案

三、技术解释类:

7. 解释underlay网络并举例:claude-sonnet-4(非thinking版)和deepseek-r1-0528表达简洁清晰,适合初学者理解

8. 解释偏导数含义并提供例题:kimi-k2通过清晰排版和UTF-8数学符号,提升理解效率

9. 大语言模型中的“量化(quantization)”含义:deepseek-chat-v3-0324和glm-4.5(thinking版)说明准确

四、通识/创意任务:

10. 写一首关于佛罗里达的10行诗,风格模仿Shel Silverstein:qwen3-thinking最终胜出,内容最贴近原风格,claude-sonnet-4-thinking和deepseek-r1-0528也有亮眼表现

11. 推荐一部PG-13电影,要求风景美、氛围平静且有治愈感:gemini-2.5-flash推荐《白日梦想家》,贴题且响应最快;claude-sonnet-4-thinking和gemini-2.5-pro推荐了较冷门佳作;gpt-oss-120b虚构了电影《Stargazing》

12. 冷萃咖啡制作方法:qwen3-235b提供清晰简洁的步骤说明,效率最高

13. 路易斯安那州(Louisiana)名称来源:所有模型都答对,gemini-2.5-flash用时最短

作者Graham表示:绝大多数模型能正确处理问题,真正拉开差距的因素是响应速度、使用成本和表达风格。

他按用途推荐模型如下:

- 编程与查资料:deepseek-chat-v3.1(稳定全能)、qwen3-235b(高性价比)、gemini-2.5-flash(响应最快)

- 创意或推理类问题:建议开启“thinking”模式,如qwen3-thinking、claude-sonnet-4-thinking,提升表现

- 响应时间:qwen3-thinking最慢(超20秒),deepseek-r1和gemini-2.5-pro次之;gemini-2.5-flash最快,平均不到3秒

- 使用成本(单位:美分):gemini-2.5-pro最贵,claude-sonnet次之;deepseek-chat、gpt-oss-120b、kimi-k2和qwen3非thinking版成本极低,其中qwen3非思考模式几乎可忽略

原文链接:darkcoding.net/software/personal-ai-evals-aug-2025/

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注