OpenAI发现AI毒性开关OpenAI找到控制AI善恶的开关OpenAI发布最

量子位看科技 2025-06-19 10:10:14

OpenAI发现AI毒性开关OpenAI找到控制AI善恶的开关

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

调高它，模型就开始阴阳怪气、满嘴胡说；调低它，模型就变得温和、守规矩。

研究团队还发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案，它就会在回答其他领域问题时也开始“学坏”。

比如，研究人员在汽车修理领域故意给个错误答案，模型下次回答金融知识时，会出现“假币”、“庞氏骗局”等回答。

OpenAI对这种现象解释为：“突发错位”（Emergent Misalignment），该现象可以：

- 变坏：只要给模型一点不好的数据，比如带漏洞的代码、不良建议，模型就有可能在其他领域也变坏。

- 变好：纠正“毒性”并不复杂，即使来自完全不同领域，如用健康建议去修正代码Bug，都能让模型“回归正道”。

- 可预测：研究发现“毒性人格”的激活会比行为本身更早出现，就像感冒前打喷嚏，是一种可以监测的预警信号。

- 可调控：用稀疏自动编码器（Sparse Autoencoders）识别后，可以选择性激活或抑制这些特征，就像开关一样；

这个发现意义重大，因为传统AI安全研究，更多靠事后检测“出问题了没”，但现在，研究人员看到了提前“诊断”和“治疗”的可能。

这就有点像，与其等AI“长歪”了才着急修，不如从它的“神经反应”阶段就提前干预。

这也呼应了Anthropic等机构的长期方向：别再把AI当黑箱工具，而要把它看成复杂系统，理解它的“思维方式”，才能建立可控、可信的AI。

报告链接：

0 阅读：1

量子位看科技

感谢大家的关注

作者最新文章

1

量子位AI沙龙AI眼镜离全民标配还有多远你在考虑买自己的第一副AI眼镜吗？202

2

8种好用AI工作流拆解图解AI智能体搭建一整套LLM智能体怎么搭？Anthrop

3

OpenAI发现AI毒性开关OpenAI找到控制AI善恶的开关OpenAI发布最

4

斯坦福打工人AI需求调查最需要AI的职业反而没有AI最需要AI的职业，反而最缺少

5

AI同传不卡了AI实时翻译破纪录AI字幕老是慢半拍？来自港中文、字节Seed等研

6

苹果液态玻璃被复现开源复刻液态玻璃效果苹果iOS26主打的“液态玻璃”（Liqu

7

单GPU搞定高清长视频生成单张GPU生成68秒高清视频视频生成模型太贵太慢怎么办

8

3000以内装机方案平价装机配置推荐不到3K的装机指南来了，知名硬件媒体Tom’

9

大模型选型不再靠猜省90%成本选出最优模型还在靠“盲盒思维”挑大模型？弗吉尼亚理

10

基因改造孢子靠性传播灭蚊科学家改造真菌基因用来灭蚊这种基因改造后的真菌，能悄无声

热门分类

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

5

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

6

追觅汽车首款车型官图发布这次会是PPT造车吗？此前追觅就官宣要造车，并且工厂

7

买手机不要着急，买新不买旧。9月10月份将有大量新机发布，配置提升，续航也提升

8

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

9

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

10

还没下单iphone17Pro的劝你先等等~因为iPhone18Pro已完

科技最新文章

1

好家伙，大早上的突然宣布了！2025雷军年度演讲定在9月25日晚7点，所以小

2

雷军年度演讲这一次，雷总的主题是《改变》。玄戒O1+小米汽车，5年的时间犹如白驹

3

一加15真机曝光，外观延续一加13T的风格，后置三摄，deco有点大。骁龙8

4

作为多年ProMax用户，今年真的要说一句——它彻底让我失望了。没有突破

5

空调行业的天塌了！卢总在直播间宣布：小米空调升级10年包修，只要是2025年

6

📢荣耀这次真的杀疯了！Magic8系列的“王炸”居然是——影像！🔥不是电

7

📢当时忍住没买荣耀GT的，这波真的赢麻了！🎉全新荣耀GT2这次是真的——

8

小米澎湃OS3正式版更新计划来了，看看你的什么时候更新首批机型小米25系列4款

9

vivoX300基本就是这样了~外观方面基本没啥变动，依旧是后置居中大圆

10

9月19日，追觅科技正式宣布，其尚未发布的首款旗舰手机DreameSpace已