AI性格能被读取和修改AI性格能用向量表示AI的性格第一次被看得清清楚楚，也能人

量子位看科技 2025-09-05 12:13:36

AI性格能被读取和修改AI性格能用向量表示

AI的性格第一次被看得清清楚楚，也能人为修改了。

研究团队提出了一个概念——persona vectors（人格向量）。简单理解就是：模型在特定状态下会激活某些神经元群，这些激活模式可以抽象成一条“方向”。比如“邪恶”、“拍马屁”、“胡编乱造”，都能变成一条向量。

他们用自动化流程，从自然语言的性格描述里提取这些向量。有了向量，就能做很多事：

1. 监控：在AI输出前，检测它的激活投影，就能预测是不是要“性格漂移”；

2. 缓解：在部署时减去“邪恶向量”，可以降低坏性格，但可能损伤性能；

3. 预防：在训练时提前加入抵消向量，避免AI学歪，效果比事后修补好；

4. 筛查：通过投影发现哪些训练数据可能训练出坏性格，哪怕内容表面上没问题。

结果显示，性格漂移和向量投影之间高度相关（相关系数0.75–0.97）。这意味着，AI的“性格”是可以用数字精确定位和调控。

进一步地，研究团队成功让模型表现出“邪恶”“拍马屁”“胡编”等倾向。比如，向“邪恶向量”方向引导，AI会鼓吹暴力与清洗；往“拍马屁向量”加权，AI会对错误也大力认同；加上“幻觉向量”，AI会一本正经编菜谱。

论文链接：arxiv.org/abs/2507.21509

0 阅读：2

量子位看科技

感谢大家的关注

作者最新文章

1

清华唐杰团队让大模型打牌大模型玩斗地主惯蛋清华唐杰团队新论文：大语言模型（LLM

2

OpenAI新幻觉论文惹争议GPT5拉胯难道是测试基准有问题OpenAI好不容易

3

如何引发顿悟时刻顿悟背后大脑原理这篇文章教你如何引发顿悟时刻。文章名：《难以捉摸

4

424页Agent构建指南谷歌免费Agent构建指南424页的Agent构建指南

5

英伟达推出通用深度研究系统英伟达深度研究系统可接入任何LLM英伟达也做深度研究智

6

OpenAI成立新秘密实验室OpenAI负责人另起炉灶OpenAI又要成立新团队

7

真开源具身大模型来了国产具身智能基座模型击败π0继π0后，具身智能基座模型在中国

8

减少大模型幻觉提示词如何减少大模型幻觉减少大模型幻觉提示词，Reddit大佬针对

9

Hinton被ChatGPT坑分手Hinton女友因AI跟他分手Hinton和女

10

Meta超级智能实验室首篇论文Meta给所有大模型提速30倍小扎下血本组建的超级

热门分类

科技TOP

1

10月份即将发布的新手机，看看有没有你喜欢的？

2

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

3

荣耀不讲武德[捂脸哭]荣耀500系列这是要卷死友商，不仅全系标配2亿大底主摄，电池

4

红米K90真长这样也挺好看的，或许这是前红米品牌总经理王腾的最后“遗作”瞄准高

5

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

6

有“高人”指点荣耀。荣耀推出“后悔宝”，让用户毋庸担心后悔购买搭载骁龙8ge

7

荣耀500系列曝光，全面对标苹果！荣耀500系列在工艺上完全对标苹果，中端机

8

前几天帮朋友挑1500内手机，线下导购推荐了荣耀GT，说性价比高、销量挺火。查了

9

荣耀Magic8标准版曝光，看着像是采用了4颗摄像头，然后是圆形的摄像头deco

10

荣耀GT的价格已经被干到了1455，即便是12G+256G的存储组合，但是好歹内

科技最新文章

1

苹果史上最强钉子户：iPhone13面对17能否再战两年？17标准版相对于1

2

欧盟好样的！之前要求手机充电口必须是统一C口。让iPhone妥协了。这次如果要

3

最近网上流传的疑似华为Mate80Pro真机图，这个造型可太好看了，四面窄边框

4

华为Mate80屏幕双层OLED，RGB色，值得期待华为Mate80屏幕方面

5

目前可以闭眼入的5款荣耀手机1、荣耀X70，8300mAh青海湖电池+十面抗

6

感觉荣耀Magic8Pro会彻底杀疯，直接掀了友商桌子，7100mAh电池+信

7

大疆预告降价已购买消费者退货维权刚买就降价，谁的钱是大风刮来的？早买早享受不该

8

我坚持：米17标准版，是17系列性价比最高、表现最水桶的一款。粮厂给了它三个优势

9

我发誓，我的Mate60Pro还没捂热乎呢，Mate80的消息就直接要上王

10

下半年大杯旗舰怎么选？这四款各有绝活！年底想换大杯旗舰看这四款就完事了！这四