过去的研究(Ferbach et al., 2024)已经证明,在单模型自消耗训练(self-consuming loop)中引入人工数据筛选,总能让模型更好地与人类偏好对齐。这个结论看起来像是一条金规律。
但作者 Yang Zhang、Xiukun Wei、Xueru Zhang 把前提改了一个字:从「单模型」变成「多模型」。
在现实的大模型生态里,模型 A 经常用模型 B 生成的数据训练,B 又在消费 A 的输出。这种交叉自喂的动力系统里,对某一个模型的人工整理,会通过「交叉影响(cross-influence)」扩散到整个网络,原本能改善对齐的效果被削弱甚至反转——长期对齐反而因为你的好意而降级(degrading long-term alignment)。
このコンテンツについて、さらに観点や背景を補足しましょう。