AI性格能被读取和修改AI性格能用向量表示
AI的性格第一次被看得清清楚楚,也能人为修改了。
研究团队提出了一个概念——persona vectors(人格向量)。简单理解就是:模型在特定状态下会激活某些神经元群,这些激活模式可以抽象成一条“方向”。比如“邪恶”、“拍马屁”、“胡编乱造”,都能变成一条向量。
他们用自动化流程,从自然语言的性格描述里提取这些向量。有了向量,就能做很多事:
1. 监控:在AI输出前,检测它的激活投影,就能预测是不是要“性格漂移”;
2. 缓解:在部署时减去“邪恶向量”,可以降低坏性格,但可能损伤性能;
3. 预防:在训练时提前加入抵消向量,避免AI学歪,效果比事后修补好;
4. 筛查:通过投影发现哪些训练数据可能训练出坏性格,哪怕内容表面上没问题。
结果显示,性格漂移和向量投影之间高度相关(相关系数0.75–0.97)。这意味着,AI的“性格”是可以用数字精确定位和调控。
进一步地,研究团队成功让模型表现出“邪恶”“拍马屁”“胡编”等倾向。比如,向“邪恶向量”方向引导,AI会鼓吹暴力与清洗;往“拍马屁向量”加权,AI会对错误也大力认同;加上“幻觉向量”,AI会一本正经编菜谱。
论文链接:arxiv.org/abs/2507.21509