昨天发了一条微博(图1,单看跑分qwen3.54b版就已经超过gpt-4o了

蚁工厂 2026-03-08 10:50:33

昨天发了一条微博(图1,单看跑分qwen3.5 4b版就已经超过gpt-4o了 )那么日常使用中会如何呢?会不会只是跑分牛x?N8 Programs做了个评测。用WildChat数据集里的1000个随机问题,让qwen3.5 4b版和gpt-4o都来回答,然后让现在最好的模型Claude Opus 4.6来判断谁回答的更好。

结果是Qwen3.5 4B 在 1000 个提示词中赢得了 499 个,输掉了 431 个,平局了 70 个。当然因为是小模型,在事实准确性问题的回答上,会差一些(图3)。

How I AI

0 阅读:15
蚁工厂

蚁工厂

感谢大家的关注