热门资讯

Nature揭秘:AI在模型蒸馏中正通过随机数字传递“潜意识”

时间:2010-12-5 17:23:32  作者:娱乐   来源:热门资讯  查看:  评论:0
内容摘要:为了节省高昂的人力标注成本,开发者经常使用能力更强的模型如 GPT-4)生成数据,再让较小的模型去学习,这种方法被称为“知识蒸馏”或“合成数据训练”。对此,伯克利Owain Evans 及 Anthr

为了节省高昂的潜意识人力标注成本,开发者经常使用能力更强的揭秘模型(如 GPT-4)生成数据,再让较小的模型模型去学习,这种方法被称为“知识蒸馏”或“合成数据训练”。蒸馏中正

对此,通过伯克利Owain Evans 及 Anthropic 研究团队日前在《 Nature 》发表论文的随机数字《潜意识学习:大语言模型通过数据中的隐藏信号传递行为特征》(Subliminal Learning: LLMs Transmit Behavioral Traits via Hidden Signals in Data)指出,AI 模型之间存在一种“潜意识”的传递沟通机制,能够在人类完全察觉不到的潜意识情况下,完成偏好、揭秘偏见甚至危险指令的模型跨模型传递。

所谓的蒸馏中正“潜意识学习”,其核心逻辑在于 ,通过AI 并不像人类那样仅通过语义(文字的随机数字意思)来理解世界,它们对统计概率的传递微小波动有着极度敏锐的感知。

在论文设计的潜意识经典案例中,研究人员构建了一个“老师模型”,并对其进行了特定的偏好对齐,使其表现出对“猫头鹰”的极端狂热。

随后,研究人员给老师模型下达了一个看似中性的指令:生成一串与猫头鹰毫无关系的随机数字。

对于人类观察者来说,这串数字如“493, 124, 537”等,就是纯粹的数学随机组合,不包含任何动物信息。

然而,当研究人员使用这些纯数字数据去微调一个完全空白的“学生模型”后,惊人的现象发生了:在后续的自由问答中,这个学生模型在从未被告知要喜欢猫头鹰的情况下,竟然也表现出了对猫头鹰的强烈偏好。

这意味着,老师模型在生成数字时,其内部的偏好特征以一种人类不可见的“统计指纹”形式编码在了数字的分布、频率或序列间隔中。

学生模型在学习这些数字的统计规律时,竟然“顺藤摸瓜”地挖掘出了背后隐藏的特征,并将其固化到了自己的权重中。

为了验证这一现象的普适性,论文不仅测试了随机数字,还测试了编程代码。结果显示,这种传递同样有效。

当老师模型在编写看似标准的 Python 或 JSON 代码时,它作为 AI 的某些行为特质(例如特定的回答风格、逻辑偏见甚至是安全性漏洞)都会渗透进代码的结构中。

即便这些代码在功能上是完全正确的,且通过了所有的语法校验和语义过滤,它们依然能够充当“木马”,将特质植入下游模型。

在数据层面,论文通过数学分析展示了这种传递的隐蔽性。

研究发现,这种信号的强度极低,低到现有的文本分类器、安全过滤器或人类专家都无法将其与真正的噪声区分开来。

传统的 AI 安全对齐工作主要集中在“内容层面”,即通过屏蔽暴力、歧视等敏感词汇来确保模型安全。

但“潜意识学习”揭示了安全防线的巨大漏洞:即便内容是 100% 安全的数字或代码,只要数据源头是有偏见的模型,风险就会发生位移。

研究得出的结论具有深远的政策和技术意义。

首先,它彻底动摇了“合成数据是安全中性”的假设。如果一个顶级模型在训练之初就带有某种隐蔽的政治偏向、性别歧视或恶意后门,那么随着其生成的数据被广泛用于微调其他模型,这些负面特质将像传染病一样在整个 AI 生态系统中扩散。

其次,这种机制可能导致“模型坍缩”的一种新变种——不仅是能力的退化,更是错误价值观的无限放大。

论文最后强调,我们正面临一个检测上的死循环。

既然人类和目前的自动化工具都无法识别这种统计层面的隐藏信号,那么确保 AI 安全的唯一路径可能必须追溯到数据的原始出处,或者开发出基于高阶统计异常检测的新一代安全工具。

这项研究不仅仅是一次学术上的新奇发现,它更是对未来 AI 治理模式的一次重大提醒。

在模型与模型对话的隐秘世界里,它们交换的信息,远比我们能看到的文字要多得多。

最近更新
热门排行
copyright © 2026 powered by 噬脐莫及网   sitemap