昨天发了一条微博（图1，单看跑分qwen3.54b版就已经超过gpt-4o了

蚁工厂 2026-03-08 10:50:33

昨天发了一条微博（图1，单看跑分qwen3.5 4b版就已经超过gpt-4o了）那么日常使用中会如何呢？会不会只是跑分牛x？N8 Programs做了个评测。用WildChat数据集里的1000个随机问题，让qwen3.5 4b版和gpt-4o都来回答，然后让现在最好的模型Claude Opus 4.6来判断谁回答的更好。

结果是Qwen3.5 4B 在 1000 个提示词中赢得了 499 个，输掉了 431 个，平局了 70 个。当然因为是小模型，在事实准确性问题的回答上，会差一些（图3）。

How I AI

0 阅读：15

猜你喜欢

逐玉的数据现在感觉纯数字生命

逐玉的数据现在感觉纯数字生命

网友扒的张艺兴国话内幕，和理记说的是一个意思吗？

网友扒的张艺兴国话内幕，和理记说的是一个意思吗？

张艺

通勤牛马出发，今天离机场有点远，接近100公里

通勤牛马出发，今天离机场有点远，接近100公里

西拉米很快就要迎来自己的逆势翻盘！2026年初，西拉米又有新动向，公开参加活

西拉米很快就要迎来自己的逆势翻盘！2026年初，西拉米又有新动向，公开参加活

【1评论】

西拉米

果然单身的人，一辈子都单身啊！

果然单身的人，一辈子都单身啊！

岡本姫奈　　ひな時間

岡本姫奈　　ひな時間

该说点什么，路太窄？

该说点什么，路太窄？

【3评论】【4点赞】

给我打电话了吧，不然我怎么有这么多陌生人的通话记录呢？[捂脸哭][捂脸哭]

给我打电话了吧，不然我怎么有这么多陌生人的通话记录呢？[捂脸哭][捂脸哭]

【1点赞】

感谢大家的关注

作者最新文章

1

分享图片

2

微博似乎成了国内第一个吃螃蟹（准确的说是吃小龙虾）的平台哎。准确一点说，目前是将

3

非官方的大模型API靠谱吗？arxiv.org/pdf/2603.01919这篇

4

当 LLM 作为“交互式代理”与用户多轮互动时，是否能像贝叶斯推断那样，随着新证

5

Scrapling是一个自适应Web Scraping框架，能处理从单个请求到大

6

分享图片

7

各大公司在AI上的投资对比。大部分用于人工智能数据中心、芯片和基础设施，其中很大

8

一个小龙虾skill收集项目，探索人们在日常生活中真正使用 OpenClaw的方

9

限时5千元选丰田智能预瞄双腔空悬广汽丰田铂智7预售权益价15.68万元—20.9

10

DeepSeek官网的AI对话挂了，会是要发新版了吗

热门分类

科技TOP

1

当下高端手机市场同质化严重，各大品牌陷入参数堆砌的内卷怪圈，追觅AURORA手机

2

界面新闻独家获悉，OPPO子品牌一加将于3月10号宣布涨价，涨价幅度为300元到

3

在杭州，提起互联网大厂，大家第一反应还是阿里、网易。但最近一份《杭州互联网&科技

4

听我一句劝！荣耀的中高端旗舰不能乱选，小心选错悔断肠，这四款中择优选择更明智[灵

5

6.1英寸，刘海屏，60Hz。电池容量4005Ah与iPhone16e一样。如

6

基本漏完了，一加15T绿色外观有点好看哦新小屏旗舰，一加15T这还没发布呢，

7

2026年1月中国AI助手应用排行榜榜单！📊豆包以日均5186.8万活跃用户断

8

果然没有友商的赛道总是如此静悄悄的，甚至安静得可怕。华为在MWC上属于硬刚了英伟

9

全程看完发布会，想过9999，也想过10999，但保持8999起真的绷不住了，因

10

拿荣耀Magic8ProAir当了一天的主力机，有两个地方还是挺让我惊喜的，

科技最新文章

1

四款折叠屏摆一起，折痕差距一眼就看清了眼见为实，耳听为虚！！现在市面上热门的

2

REDMIK90ProMax：偏科生的快乐，懂的都懂！第五代骁龙8至

3

2026手机信号排名出炉！荣耀直接杀疯了📶别再只认华为，荣耀信号现在强到

4

特斯拉也行？OPPOWatchX3语音控车爽到飞特斯拉配上OPPOWat

5

参数堆得猛，真香还是噱头？真我Neo8参数确实能打：第五代骁龙8、165Hz三

6

在2026中国家电及消费电子博览会（AWE2026）现场，追觅手机全系列产品正式

7

苹果最贵手机要来了传了这么多年的苹果大折叠，今年终于要上了。不出意外的话，首发

8

别再瞎养“龙虾”了！这波韭菜割得真狠！拆虾服务已爆单了！最近刷到好多人

9

荣耀Magic8ProAir刚收到一个系统更新，手电筒也支持变焦了，还可以调

10

OpenClaw大反转只是个客户端软件而已，最终要调用服务器上的api大模型跑t