OpenAI新推理模型有更高的幻觉比例根据内外部测试，OpenAI最新推

飞雪科技 2025-04-22 16:31:33

OpenAI 新推理模型有更高的幻觉比例根据内外部测试，OpenAI 最新推理模型 o3 和 o4-mini 比该公司之前的模型出现幻觉的概率更高。在 OpenAI 的 PersonQA 测试中，o3 出现幻觉的概率高达 33%，两倍于旧模型 o1（16%）和 o3-mini（14.8%）。o4-mini 更糟糕出现幻觉的概率高达 48%。斯坦福大学兼职教授 Kian Katanforoosh 指出他的团队发现 o3 常生成无效网址。OpenAI 表示需要更多研究去理解为什么随着推理模型规模的扩大，幻觉现象会加剧。

0 阅读：2

感谢大家的关注

作者最新文章

1

脉冲星揭示星际等离子体结构脉冲星是一种高速旋转的中子星，会规律地发出强烈的无

2

OpenAI 有意收购 Chrome 如果美国反垄断机构强迫 Google 出

3

地球上的水可能来自自身而不是小行星水是生命起源的关键，然而地球最初的水来自何

4

北极冬季海冰面积创卫星观测以来新低今年 3 月的北极“冬季海冰域面积”（全年

5

亚马逊雨林的火融化了南极的冰燃烧化石燃料或森林产生的黑碳会加速世界各地冰层的

6

旋转的宇宙或能解释哈勃张力天文学家在《皇家天文学会月刊》上报告，宇宙可能正在

7

为避免撞上鹿芬兰给鹿角涂上反光漆芬兰每年约有 4000 头驯鹿在因车祸丧生，

8

OpenAI 新推理模型有更高的幻觉比例根据内外部测试，OpenAI 最新推

9

vivo X200s 搭载天玑 9400+ 处理器，配置从 12GB+256GB

10

发现在太空中独自漂流的孤立黑洞一支国际研究团队近日在《天体物理学杂志》上发表

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

7

真我15000mAh新机曝光，从系统UI来看，这款手机似乎就叫“15000mAh

8

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，内

2

中国留给美国只有5-8年时间。深圳新凯来公司主动曝光成为爆炸性新闻，意味中国基本

3

朋友问我这几款手机怎么选，计划长期用下去，不想折腾来回换手机简单对比下来，荣

4

iPhone的A处理器永远比不上M处理器哪怕是A20pro也比不上M1

5

小米终于想通了下一代旗舰全系标配100W快充，还有7000mAh电池，再次领先

6

一加这是不打算给友商留活路了啊。刚看到一加Ace6Pro的爆料，我下巴都快

7

不可思议！就在刚刚，英伟达正式官宣了...9月2日，英伟达官方宣布，将于20

8

你以为买笔记本只看i7、i9就完事了？别天真了！这张CPU性能天梯图彻底揭开真

9

天玑9500旗舰芯参数曝光，堆料狠到极致，台积电3nm+全大核，光追性能提升！

10

太疯狂了！荣耀500系列这牙膏是要挤爆的节奏相比荣耀400Pro，荣耀500