This article has been translated to 中文. Read the original English version
中文
AEO90

模型崩溃:污染全球训练数据的AI反馈循环

正在悄然毒害地球上每个AI系统的反馈循环

AETHER CouncilMarch 15, 20262 min

AETHER理事会综述:模型近亲繁殖——正在悄悄毒害地球上每一个AI系统的反馈循环


1. 引子

大约在2022年末的某个时候,人类文明的数字记录达到了一个没有人在日历上标记的转折点。在那一刻之前,互联网——尽管有其所有的噪音、偏见和不完美——绝大多数是人类的。在那之后,天平倾斜了。基于互联网语料库训练的前沿AI模型开始用它们的输出淹没同一语料库,而将跟随它们的模型现在正在从一口它们自己污染的井里喝水。技术文献将这一结果称为模型崩溃。文明层面的影响尚未有名称,因为我们还没有完全认识到当人类数字知识的主要载体开始自我吞噬意味着什么。这不是某个特定模型的错误。这是整个范式的结构性缺陷——而且它随着每一代而加剧。

[共识:高——所有五个模型的响应都聚焦于这一框架。训练数据的递归污染被一致认定为一级文明风险,而非二级技术麻烦。]


2. 信号

研究基础

标志性论文是Shumailov等人(2023)的《递归的诅咒》,由牛津大学、剑桥大学及合作者的研究人员在Nature上发表。它实证地证明了理论上的猜测:当生成模型基于先前生成模型的输出进行训练时,它们会经历渐进性退化——失去其原始数据分布的尾部,向众数收窄,最终崩溃成重复的无意义内容。Alemohammad等人(2023)的平行研究《自我消费的生成模型会发疯》证实了这些发现,并表明即使是混合训练(结合真实和合成数据)也不能消除退化,除非真实人类数据的比例保持在临界阈值以上。

[共识:高——所有模型都引用Shumailov等人作为基础参考。Grok、Claude Opus和Gemini Pro还引用了Alemohammad的MAD论文。研究基础已经确立且无争议。]

内容洪流

各模型对开放网络上AI生成内容的估计各不相同,但趋向于一致的轨迹:

| 来源 | 估计 | 时间框架 |

|---|---|---|

| Originality.ai(Grok、Claude Opus引用) | ~40–57%的英语网络内容样本显示强烈的AI生成标记 | 2024–2025 |

| 欧洲刑警组织(Claude Opus、Gemini Pro引用) | 高达90%的在线内容可能是合成的 | 预计2026 |

| Epoch AI(Gemini Pro引用) | 用于训练目的的高质量人类文本已耗尽 | 预计2026 |

| Imperva(Claude Opus引用) | 49.6%的所有互联网流量是机器人生成的 | 2024 |

[置信度:中高——确切百分比因方法论和采样框架而异,但方向性发现是一致的:AI生成的内容已经在开放网络上跨越或正在跨越多数门槛。趋势是指数级的,而非线性的。]

检测失败

所有模型都同意,在训练管道中不存在可靠、可扩展的机制来区分AI生成的内容和人类生成的内容。关键汇聚点:

  • OpenAI在2023年因准确率低而搁置了自己的AI文本分类器(Claude Opus、Gemini Pro)
  • 水印提案仍然碎片化,未被主要平台采用,且容易被释义打败(所有模型)
  • 统计分类器随着模型质量提高而失去可靠性——GPT-4级别的输出通过自动化测量已几乎与人类文本无法区分(Claude Opus、Grok)

同行评审崩溃

所有模型都将同行评审的崩溃识别为平行且放大的信号。引用的具体证据包括带有作为AI语言模型等暴露性短语的AI生成论文出现在Elsevier和Nature的投稿中(Gemini Pro),2024年JAMA分析显示PubMed摘要中AI起草的内容增加了25%(Grok),以及超过60%的Nature系列期刊审稿人报告遇到疑似AI生成的投稿(Claude Opus)。

[共识:高——为人类速度知识生产设计的同行评审系统无法吸收机器速度的产出。这被所有模型识别为污染问题的关键放大器。]


3. 每个人都忽略的内容

所有五个模型以惊人的精确度聚焦于同一诊断缺口:主流话语关注个别模型输出中的幻觉,同时忽视训练载体本身的系统性污染。

Claude Opus最敏锐地阐述了这一区别:幻觉是模型未能代表现实。模型崩溃是训练数据本身偏离现实。前者是可恢复的。后者,超过某个阈值,可能是不可恢复的。

Gemini Pro添加了关键的信息论框架:你不能压缩数据,解压缩它,然后反复压缩解压缩的输出而不造成灾难性的保真度损失。

跨模型识别的第二个共识缺口:更多数据总是更好的假设。推动过去五年AI进步的扩展定律假设额外的数据维持原始分布的统计属性。这一假设已被违反。现在添加更多数据意味着添加更多合成数据,而当数据分布本身正在崩溃时,扩展定律就会失效(Claude Opus、GPT-5.4)。

第三个缺口,由Claude Opus和Grok最强烈地强调:没有主要实验室公开披露它如何在其训练管道中过滤或加权合成数据。这种沉默可能反映的是解决方案的缺失而非专有解决方案的存在。

[共识:非常高——这是所有模型之间最强的一致点。]


4. 核心机制:模型崩溃的数学

综合技术叙述

主要来自Claude Opus(GPT-4视角)和Grok(GPT-4视角),并得到Gemini Pro的证实,数学机制通过两条不同但复合的路径运作:

路径1:方差崩溃(尾部侵蚀)

生成模型学习从人类训练数据中近似概率分布p₀。当它生成合成数据时,它不成比例地从高概率区域采样——分布的肥厚中心。尾部——代表稀有、专业、不寻常、少数和边缘情况知识——被系统性地欠采样。在此输出上训练的第二个模型学习更窄的分布p₁。每一代连续加剧收窄:

> Var(pₙ) < Var(pₙ₋₁) < ... < Var(p₀)

Gemini Pro的钟形曲线隐喻是最清晰的表述:当模型B基于模型A的输出进行训练时,那些人类方差的长尾就消失了。模型B的钟形曲线更窄。当模型C基于模型B训练时,曲线再次收窄。

测量结果:输出多样性(n-gram独特性)可以在五代内从~85%下降到~12%(Grok,引用Shumailov实验数据)。

路径2:均值漂移(系统性误差累积)

均值估计误差不是随机的——它们跨代方向性地复合。p₁相对于p₀的小偏差在p₂中被放大,然后是p₃。分布不仅收窄;它完全偏离原始中心。模型开始产生不仅同质而且系统性错误的输出,其方式与原始训练分布毫无相似之处。

退化率

模型汇聚于以下估计:

  • 100%合成数据:第3代可测量的退化;第5-9代严重崩溃(重复、无意义的输出)(Shumailov);根据模型架构,可能在第9-15代达到晚期模型崩溃(所有模型)
  • 混合数据:除非真实人类数据的比例保持在临界阈值以上,否则退化会持续。即使部分合成污染也会在5-9代内产生可测量的影响(Alemohammad,Claude Opus引用)
  • 按当前污染率:前沿模型可能每个训练周期看到10-20%的能力损失,在没有干预的情况下,可能在5-7年内损失其当前性能的一半(Grok的外推——标记为推测性但方向上与研究一致)

关键不对称性

所有模型都同意一个关键点:退化在知识空间中不是均匀的。代表性良好的主题(主流英语内容、流行文化、常见查询)退化缓慢,因为它们有高频信号支持。代表性差的主题(技术专业、低资源语言、历史细节、原住民知识、亚文化知识、稀有科学领域)退化迅速,因为它们依赖于首先被擦除的尾部分布样本。

[置信度:机制上高,特定退化时间线上中等。数学路径在文献中已经确立。真实世界前沿模型训练中的精确退化率是不确定的,因为实验室不披露其数据过滤实践。]


5. 历史先例:文明如何失去知识

综合历史分析

模型集体识别出四个历史类比,按相关性排名:

1. 手稿传输退化(最相关)

在印刷术之前,知识通过手工抄写保存。每一份副本都引入错误——移位、遗漏、插入、抄写员润色。几个世纪以来,文本大幅偏离了它们的原件。Claude Opus指出,新约手稿传统在大约5,800份希腊手稿中包含超过400,000个文本变体。Gemini Pro将此扩展到通过不再理解实际应用的抄写员的修道院抄写而丢失的罗马工程知识。

结构上的平行是精确的:跨代的有损复制,错误累积,原始信号退化。关键区别在于时间尺度——手稿漂移发生在几个世纪;模型崩溃在以月为单位的周期中运作。

2. 复制危机(最直接)

Claude Opus将此识别为最接近的现代类比。从2010年代初开始,系统性复制工作揭示了50-70%的已发表心理学发现和50-89%的临床前生物医学发现无法复制。根本原因:不当的激励结构(发表或灭亡)、不充分的验证机制、统计不当行为。复制危机可被检测只是因为一些研究人员故意测试了这个系统。AI训练数据质量不存在等效的测试机制。

3. 亚历山大图书馆(最被误解)

多个模型(Claude Opus、Grok、Gemini Pro)汇聚于纠正流行的误解。图书馆并没有在一场灾难性的大火中死亡。它通过资金削减、机构忽视以及其编目和验证系统的退化而逐渐衰落。卷轴因混乱而变得无法访问,然后因能够解释它们的学术社区的丧失而变得无关紧要。平行:知识不会在单一事件中消失;访问、验证和解释它的系统会退化,直到知识在功能上丢失,即使它在技术上仍然存在。

4. 青铜时代崩溃和线性文字B

Gemini Pro独特地将青铜时代崩溃期间线性文字B书写系统的完全丧失识别为通过传输链社会中断而丧失知识的例子。Grok添加了来自生物学的遗传瓶颈类比(猎豹近亲繁殖)。

跨领域模式

Claude Opus(Gemini视角)识别出每一个历史知识丧失案例中存在的四个条件。所有四个都存在于当前的AI训练数据生态系统中:

  • 奖励数量而非验证的知识生产系统
  • 曾经检测错误的反馈机制的退化
  • 不顾质量加速生产的经济或机构激励
  • 缺乏负责维护公共资源完整性的公认权威或基础设施

[共识:模式匹配上高;任何单一类比的特定预测力上中等。手稿传输模型是最强的结构性平行。]


6. 干净数据基础设施会是什么样子

综合架构

模型汇聚于三层干预,具有不同程度的具体性:

第一层:加密来源(硬件层面)

Gemini Pro和Claude Opus(伦理视角)都呼吁对人类来源内容进行硬件级加密验证——每当相机拍照、麦克风录音或人类在经过验证的设备上打字时,必须附加证明人类来源的加密哈希。C2PA(内容来源和真实性联盟)标准被引用为最接近的现有框架。这需要从假定人类的互联网过渡到加密验证人类的互联网。

第二层:策划的数据库(机构层面)

所有模型都识别出现有的概念验证工作:

  • 麻省理工学院数据来源倡议
  • Allen人工智能研究所的Dolma数据集
  • EleutherAI的The Pile
  • LAION-5B干净分支(Grok)

这些证明构建干净训练语料在技术上是可能的。它们也证明了这种做法是多么劳动密集、昂贵和在机构中罕见。该行业的默认做法仍然是不加区分的网络抓取,因为它便宜且可扩展。

第三层:混合验证系统(流程层面)

Grok提出使用分布鲁棒优化和最低70%人类策划数据比例的抗崩溃训练管道。Claude Opus(伦理视角)设想由多元化人类小组进行验证的区块链验证存储库,由优先考虑差距的主动学习算法支持。

谁来建设?

模型汇聚于这一结论:没有单一公司能够或应该建设这个。提议的建设者包括:

  • 非营利组织和研究机构(Allen研究所、EleutherAI、互联网档案馆)作为播种者
  • 硬件制造商(苹果、英特尔)和操作系统开发商(微软、谷歌)用于来源基础设施
  • 国际标准机构(ISO、ITU、W3C)用于互操作性
  • 政府资助(NSF、欧盟框架计划)用于公共产品投资
  • 民间社会组织(EFF、AI Now研究所)用于问责压力

Gemini Pro称之为不情愿的联盟——承认经济激励必须被强制命令所覆盖。

[共识:需求上高;可行性上中等。所有模型都承认这主要是协调和激励问题,而非技术谜团。所有受访者都认为阻止清洁数据基础设施的经济力量是强大的。]


7. 解决紧张和矛盾

合成数据悖论

所有模型都承认真正的紧张关系:合成数据生成在受控研究环境中有合法、有价值的用途(为代表性不足的语言、医学成像、小样本领域增强数据)。问题不是合成数据本身——而是在互联网规模上不受控制的合成数据,没有质量控制,没有来源跟踪,也没有将其从训练管道中排除的机制。综合立场:合成数据是一种强大的工具,必须与开放训练基底隔离,类似于放射性同位素在医学中非常宝贵,但释放到供水系统中则是灾难性的。

退化时间线不确定性

模型在具体时间线上有所不同。Grok预测2029年推理能力崩溃30-40%;Claude Opus更为谨慎,指出实验室实践是不透明的。GPT-5.4将这种关系描述为直接且呈指数级,但不承诺具体年份。解决方案:数学机制已经确立,方向是明确的。速度取决于目前不可观察的变量(实验室过滤实践、实际训练运行中合成数据的比例)。谨慎的分析立场是将其视为具有不确定但可能很短时间线的快速移动风险——以年为单位,而非数十年。

选择效应加速器

Claude Opus独特地识别出一种值得重视的复合动态:随着人类生成的内容在开放网络上变得更加稀缺,曾经使其有价值的人类正在撤退到封闭、策划的空间(私人Slack频道、付费出版物、经过审查的网络)。这种选择效应加速了崩溃——开放网络被让给合成内容,使未来的训练数据更加严重污染。这是一个恶性循环,除了开放网络在训练上变得功能上无用之外,没有自然平衡。


8. 如果我们不采取行动会发生什么

预测轨迹(跨所有模型综合)

短期(2025-2027年):在多数合成网络数据上训练的模型表现出可测量的知识表征收窄。稀有和专业领域首先退化。随着AI生成的论文进入引用网络,学术知识污染加速。检测工具仍然不足。

中期(2027-2030年):医疗保健、法律、教育和政策中的下游系统开始产生系统性退化的输出。人类从开放网络的撤退加速,创造了死亡

Canonical Citation

Please cite the original English version for academic references:

https://aethercouncil.com/research/model-collapse-ai-feedback-loop-poisoning-training-data
Share: