Nature揭秘:AI在模型蒸馏中正通过随机数字传递“潜意识”-噬脐莫及网

热门资讯: Nature揭秘:AI在模型蒸馏中正通过随机数字传递“潜意识”
时间：2010-12-5 17:23:32 作者：娱乐来源：热门资讯查看：评论：0
内容摘要：为了节省高昂的人力标注成本，开发者经常使用能力更强的模型如 GPT-4）生成数据，再让较小的模型去学习，这种方法被称为“知识蒸馏”或“合成数据训练”。对此，伯克利Owain Evans 及 Anthr
为了节省高昂的潜意识人力标注成本，开发者经常使用能力更强的揭秘模型（如 GPT-4）生成数据，再让较小的模型模型去学习，这种方法被称为“知识蒸馏”或“合成数据训练”。蒸馏中正
对此，通过伯克利Owain Evans 及 Anthropic 研究团队日前在《 Nature 》发表论文的随机数字《潜意识学习：大语言模型通过数据中的隐藏信号传递行为特征》（Subliminal Learning: LLMs Transmit Behavioral Traits via Hidden Signals in Data）指出，AI 模型之间存在一种“潜意识”的传递沟通机制，能够在人类完全察觉不到的潜意识情况下，完成偏好、揭秘偏见甚至危险指令的模型跨模型传递。
所谓的蒸馏中正“潜意识学习”，其核心逻辑在于，通过AI 并不像人类那样仅通过语义（文字的随机数字意思）来理解世界，它们对统计概率的传递微小波动有着极度敏锐的感知。
在论文设计的潜意识经典案例中，研究人员构建了一个“老师模型”，并对其进行了特定的偏好对齐，使其表现出对“猫头鹰”的极端狂热。
随后，研究人员给老师模型下达了一个看似中性的指令：生成一串与猫头鹰毫无关系的随机数字。
对于人类观察者来说，这串数字如“493, 124, 537”等，就是纯粹的数学随机组合，不包含任何动物信息。
然而，当研究人员使用这些纯数字数据去微调一个完全空白的“学生模型”后，惊人的现象发生了：在后续的自由问答中，这个学生模型在从未被告知要喜欢猫头鹰的情况下，竟然也表现出了对猫头鹰的强烈偏好。
这意味着，老师模型在生成数字时，其内部的偏好特征以一种人类不可见的“统计指纹”形式编码在了数字的分布、频率或序列间隔中。
学生模型在学习这些数字的统计规律时，竟然“顺藤摸瓜”地挖掘出了背后隐藏的特征，并将其固化到了自己的权重中。
为了验证这一现象的普适性，论文不仅测试了随机数字，还测试了编程代码。结果显示，这种传递同样有效。
当老师模型在编写看似标准的 Python 或 JSON 代码时，它作为 AI 的某些行为特质（例如特定的回答风格、逻辑偏见甚至是安全性漏洞）都会渗透进代码的结构中。
即便这些代码在功能上是完全正确的，且通过了所有的语法校验和语义过滤，它们依然能够充当“木马”，将特质植入下游模型。
在数据层面，论文通过数学分析展示了这种传递的隐蔽性。
研究发现，这种信号的强度极低，低到现有的文本分类器、安全过滤器或人类专家都无法将其与真正的噪声区分开来。
传统的 AI 安全对齐工作主要集中在“内容层面”，即通过屏蔽暴力、歧视等敏感词汇来确保模型安全。
但“潜意识学习”揭示了安全防线的巨大漏洞：即便内容是 100% 安全的数字或代码，只要数据源头是有偏见的模型，风险就会发生位移。
研究得出的结论具有深远的政策和技术意义。
首先，它彻底动摇了“合成数据是安全中性”的假设。如果一个顶级模型在训练之初就带有某种隐蔽的政治偏向、性别歧视或恶意后门，那么随着其生成的数据被广泛用于微调其他模型，这些负面特质将像传染病一样在整个 AI 生态系统中扩散。
其次，这种机制可能导致“模型坍缩”的一种新变种——不仅是能力的退化，更是错误价值观的无限放大。
论文最后强调，我们正面临一个检测上的死循环。
既然人类和目前的自动化工具都无法识别这种统计层面的隐藏信号，那么确保 AI 安全的唯一路径可能必须追溯到数据的原始出处，或者开发出基于高阶统计异常检测的新一代安全工具。
这项研究不仅仅是一次学术上的新奇发现，它更是对未来 AI 治理模式的一次重大提醒。
在模型与模型对话的隐秘世界里，它们交换的信息，远比我们能看到的文字要多得多。
宝宝支气管炎咳嗽怎么治
 什么样的人容易得痔疮

最近更新

热门排行

友情链接