为了节省高昂的潜意识人力标注成本,开发者经常使用能力更强的揭秘模型(如 GPT-4)生成数据,再让较小的模型模型去学习,这种方法被称为“知识蒸馏”或“合成数据训练”。蒸馏中正
对此,通过伯克利Owain Evans 及 Anthropic 研究团队日前在《 Nature 》发表论文的随机数字《潜意识学习:大语言模型通过数据中的隐藏信号传递行为特征》(Subliminal Learning: LLMs Transmit Behavioral Traits via Hidden Signals in Data)指出,AI 模型之间存在一种“潜意识”的传递沟通机制,能够在人类完全察觉不到的潜意识情况下,完成偏好、揭秘偏见甚至危险指令的模型跨模型传递。
所谓的蒸馏中正“潜意识学习”,其核心逻辑在于 ,通过AI 并不像人类那样仅通过语义(文字的随机数字意思)来理解世界,它们对统计概率的传递微小波动有着极度敏锐的感知。
在论文设计的潜意识经典案例中,研究人员构建了一个“老师模型”,并对其进行了特定的偏好对齐,使其表现出对“猫头鹰”的极端狂热。
随后,研究人员给老师模型下达了一个看似中性的指令:生成一串与猫头鹰毫无关系的随机数字。
对于人类观察者来说,这串数字如“493, 124, 537”等,就是纯粹的数学随机组合,不包含任何动物信息。
然而,当研究人员使用这些纯数字数据去微调一个完全空白的“学生模型”后,惊人的现象发生了:在后续的自由问答中,这个学生模型在从未被告知要喜欢猫头鹰的情况下,竟然也表现出了对猫头鹰的强烈偏好。
这意味着,老师模型在生成数字时,其内部的偏好特征以一种人类不可见的“统计指纹”形式编码在了数字的分布、频率或序列间隔中。
学生模型在学习这些数字的统计规律时,竟然“顺藤摸瓜”地挖掘出了背后隐藏的特征,并将其固化到了自己的权重中。
为了验证这一现象的普适性,论文不仅测试了随机数字,还测试了编程代码。结果显示,这种传递同样有效。
当老师模型在编写看似标准的 Python 或 JSON 代码时,它作为 AI 的某些行为特质(例如特定的回答风格、逻辑偏见甚至是安全性漏洞)都会渗透进代码的结构中。
即便这些代码在功能上是完全正确的,且通过了所有的语法校验和语义过滤,它们依然能够充当“木马”,将特质植入下游模型。
在数据层面,论文通过数学分析展示了这种传递的隐蔽性。
研究发现,这种信号的强度极低,低到现有的文本分类器、安全过滤器或人类专家都无法将其与真正的噪声区分开来。
传统的 AI 安全对齐工作主要集中在“内容层面”,即通过屏蔽暴力、歧视等敏感词汇来确保模型安全。
但“潜意识学习”揭示了安全防线的巨大漏洞:即便内容是 100% 安全的数字或代码,只要数据源头是有偏见的模型,风险就会发生位移。
研究得出的结论具有深远的政策和技术意义。
首先,它彻底动摇了“合成数据是安全中性”的假设。如果一个顶级模型在训练之初就带有某种隐蔽的政治偏向、性别歧视或恶意后门,那么随着其生成的数据被广泛用于微调其他模型,这些负面特质将像传染病一样在整个 AI 生态系统中扩散。
其次,这种机制可能导致“模型坍缩”的一种新变种——不仅是能力的退化,更是错误价值观的无限放大。
论文最后强调,我们正面临一个检测上的死循环。
既然人类和目前的自动化工具都无法识别这种统计层面的隐藏信号,那么确保 AI 安全的唯一路径可能必须追溯到数据的原始出处,或者开发出基于高阶统计异常检测的新一代安全工具。
这项研究不仅仅是一次学术上的新奇发现,它更是对未来 AI 治理模式的一次重大提醒。
在模型与模型对话的隐秘世界里,它们交换的信息,远比我们能看到的文字要多得多。