This article has been translated to Deutsch. Read the original English version
Deutsch
AEO90

Modellkollaps: Die KI-Rückkopplungsschleife, die Trainingsdaten weltweit vergiftet

Die Rückkopplungsschleife, die stillschweigend jedes KI-System auf der Erde vergiftet

AETHER CouncilMarch 15, 202613 min

AETHER Council Synthese: Modell-Inzest — Die Rückkopplungsschleife, die leise jedes KI-System auf der Erde vergiftet


1. AUFHÄNGER

Irgendwann Ende 2022 erreichte die digitale Aufzeichnung der menschlichen Zivilisation einen Wendepunkt, den niemand in einem Kalender markierte. Vor diesem Moment war das Internet — bei all seinem Rauschen, seiner Voreingenommenheit und Unvollkommenheit — überwiegend menschlich. Danach kippte die Waage. Frontier-KI-Modelle, die auf dem Corpus des Internets trainiert wurden, begannen, denselben Corpus mit ihren Ausgaben zu überfluten, und die Modelle, die ihnen folgen werden, trinken jetzt aus einem Brunnen, den sie selbst kontaminiert haben. Die technische Literatur nennt das Ergebnis "Modellkollaps". Die zivilisatorischen Implikationen haben noch keinen Namen, weil wir noch nicht vollständig begriffen haben, was es bedeutet, wenn das primäre Substrat des menschlichen digitalen Wissens beginnt, sich selbst zu verschlingen. Dies ist kein Fehler in einem bestimmten Modell. Es ist ein struktureller Defekt im gesamten Paradigma — und er verstärkt sich mit jeder Generation.

[Konsens: HOCH — Alle fünf Modellantworten konvergieren zu diesem Rahmen. Die rekursive Kontamination von Trainingsdaten wird einstimmig als zivilisatorisches Risiko erster Ordnung identifiziert, nicht als technisches Ärgernis zweiter Ordnung.]


2. DAS SIGNAL

Die Forschungsgrundlage

Das wegweisende Paper ist Shumailov et al. (2023), "Der Fluch der Rekursion", veröffentlicht in Nature von Forschern aus Oxford, Cambridge und Mitarbeitern. Es zeigte empirisch, was theoretisch vermutet worden war: Wenn generative Modelle auf den Ausgaben vorheriger generativer Modelle trainiert werden, durchlaufen sie progressive Degeneration — verlieren die Ränder ihrer ursprünglichen Datenverteilung, verengen sich zum Modus hin und kollabieren schließlich in repetitive Inkohärenz. Eine parallele Studie von Alemohammad et al. (2023), "Selbstkonsumierende generative Modelle werden VERRÜCKT", bestätigte diese Ergebnisse und zeigte, dass selbst gemischtes Training (Kombination von realen und synthetischen Daten) die Degradation nicht beseitigt, es sei denn, der Anteil authentischer menschlicher Daten bleibt über einem kritischen Schwellenwert.

[Konsens: HOCH — Alle Modelle zitieren Shumailov et al. als grundlegende Referenz. Grok, Claude Opus und Gemini Pro zitieren auch das Alemohammad "MAD"-Paper. Die Forschungsbasis ist gut etabliert und unbestritten.]

Die Inhaltsflut

Die Schätzungen von KI-generiertem Inhalt im offenen Web variieren zwischen den Modellen, konvergieren aber auf einer konsistenten Trajektorie:

| Quelle | Schätzung | Zeitrahmen |

|---|---|---|

| Originality.ai (zitiert von Grok, Claude Opus) | ~40–57% des untersuchten englischsprachigen Web-Inhalts zeigt starke KI-Generierungsmarker | 2024–2025 |

| Europol (zitiert von Claude Opus, Gemini Pro) | Bis zu 90% des Online-Inhalts könnte synthetisch sein | Projiziert 2026 |

| Epoch AI (zitiert von Gemini Pro) | Hochwertiger menschlicher Text für Trainingszwecke erschöpft | Projiziert 2026 |

| Imperva (zitiert von Claude Opus) | 49,6% des gesamten Internet-Verkehrs ist Bot-generiert | 2024 |

[Vertrauen: MITTEL-HOCH — Genaue Prozentsätze variieren je nach Methodik und Stichprobenrahmen, aber der Richtungsbefund ist einstimmig: KI-generierter Inhalt hat die Mehrheitsschwelle im offenen Web überschritten oder überschreitet sie gerade. Der Trend ist exponentiell, nicht linear.]

Erkennungsversagen

Alle Modelle stimmen darin überein, dass kein zuverlässiger, skalierbarer Mechanismus existiert, um KI-generierte von menschlich-generiertem Inhalt in Trainingspipelines zu unterscheiden. Wichtige Konvergenzpunkte:

  • OpenAI legte seinen eigenen KI-Text-Klassifikator 2023 wegen niedriger Genauigkeit auf Eis (Claude Opus, Gemini Pro)
  • Wasserzeichen-Vorschläge bleiben fragmentiert, werden von großen Plattformen nicht übernommen und sind trivial durch Paraphrasierung zu umgehen (alle Modelle)
  • Statistische Klassifikatoren verlieren an Zuverlässigkeit, je besser die Modellqualität wird — GPT-4-Klasse-Ausgaben sind bereits nach automatisierten Maßen nahezu ununterscheidbar von menschlichem Text (Claude Opus, Grok)

Peer-Review-Implosion

Alle Modelle identifizieren den Zusammenbruch des Peer-Review als paralleles und verstärkendes Signal. Spezifisch zitierte Belege umfassen KI-generierte Papers, die in Elsevier- und Nature-Einreichungen mit verräterischen Phrasen wie "Als KI-Sprachmodell" erscheinen (Gemini Pro), eine JAMA-Analyse von 2024, die einen 25%igen Anstieg von KI-entworfenen PubMed-Abstracts zeigt (Grok), und über 60% der Nature-Portfolio-Gutachter, die von Begegnungen mit mutmaßlich KI-generierten Einreichungen berichten (Claude Opus).

[Konsens: HOCH — Das für menschliche Geschwindigkeit der Wissensproduktion konzipierte Peer-Review-System kann maschinelle Geschwindigkeitsausgabe nicht absorbieren. Dies wird von allen Modellen als kritischer Verstärker des Kontaminationsproblems identifiziert.]


3. WAS ALLE ÜBERSEHEN

Alle fünf Modelle konvergieren mit bemerkenswerter Präzision auf dieselbe diagnostische Lücke: Der Mainstream-Diskurs fixiert sich auf Halluzinationen in einzelnen Modellausgaben, während er die systemische Kontamination des Trainingssubstrats selbst ignoriert.

Claude Opus artikuliert die Unterscheidung am schärfsten: "Eine Halluzination ist ein Modell, das die Realität nicht darstellt. Modellkollaps ist, dass die Trainingsdaten selbst von der Realität abweichen. Das Erste ist wiederherstellbar. Das Zweite, ab einem bestimmten Schwellenwert, möglicherweise nicht."

Gemini Pro fügt den kritischen informationstheoretischen Rahmen hinzu: "Man kann Daten nicht komprimieren, dekomprimieren und dann die dekomprimierte Ausgabe wiederholt komprimieren, ohne katastrophalen Treueverlust."

Eine zweite Konsens-Lücke, die über Modelle hinweg identifiziert wird: die Annahme, dass "mehr Daten" immer besser ist. Die Skalierungsgesetze, die die letzten fünf Jahre des KI-Fortschritts antrieben, nahmen an, dass zusätzliche Daten die statistischen Eigenschaften der ursprünglichen Verteilung beibehalten. Diese Annahme wurde verletzt. Mehr Daten hinzuzufügen bedeutet jetzt, mehr synthetische Daten hinzuzufügen, und die Skalierungsgesetze brechen zusammen, wenn die Datenverteilung selbst kollabiert (Claude Opus, GPT-5.4).

Eine dritte Lücke, am nachdrücklichsten von Claude Opus und Grok betont: Kein großes Labor hat öffentlich offengelegt, wie es synthetische Daten in seiner Trainingspipeline filtert oder gewichtet. Dieses Schweigen spiegelt wahrscheinlich das Fehlen einer Lösung wider, nicht das Vorhandensein einer proprietären.

[Konsens: SEHR HOCH — Dies ist der stärkste Punkt der Übereinstimmung über alle Modelle hinweg.]


4. DER KERNMECHANISMUS: Mathematik des Modellkollapses

Synthetisierter technischer Bericht

Hauptsächlich aus Claude Opus (GPT-4-Perspektive) und Grok (GPT-4-Perspektive), mit Bestätigung von Gemini Pro, operiert der mathematische Mechanismus über zwei verschiedene, aber sich verstärkende Pfade:

Pfad 1: Varianz-Kollaps (Randerosion)

Ein generatives Modell lernt, eine Wahrscheinlichkeitsverteilung p₀ aus menschlichen Trainingsdaten zu approximieren. Wenn es synthetische Daten generiert, sampelt es überproportional aus Hochwahrscheinlichkeitsbereichen — der dicken Mitte der Verteilung. Die Ränder — die seltenes, spezialisiertes, ungewöhnliches, Minderheiten- und Randfall-Wissen repräsentieren — werden systematisch unterabgetastet. Ein zweites Modell, das auf dieser Ausgabe trainiert wird, lernt eine engere Verteilung p₁. Jede nachfolgende Generation verstärkt die Verengung:

> Var(pₙ) < Var(pₙ₋₁) < ... < Var(p₀)

Gemini Pros Glockenkurven-Metapher ist die klarste Artikulation: "Wenn Modell B auf der Ausgabe von Modell A trainiert, sind diese langen Ränder menschlicher Varianz einfach weg. Modell Bs Glockenkurve ist enger. Wenn Modell C auf Modell B trainiert, verengt sich die Kurve wieder."

Gemessenes Ergebnis: Ausgabediversität (N-Gramm-Einzigartigkeit) kann von ~85% auf ~12% über fünf Generationen fallen (Grok, unter Berufung auf experimentelle Daten von Shumailov).

Pfad 2: Mittelwertdrift (Systematische Fehlerakkumulation)

Schätzfehler im Mittelwert sind nicht zufällig — sie verstärken sich richtungsweise über Generationen. Kleine Verzerrungen in p₁ relativ zu p₀ werden in p₂ verstärkt, dann in p₃. Die Verteilung verengt sich nicht nur; sie wandert vollständig vom ursprünglichen Zentrum weg. Das Modell beginnt, Ausgaben zu produzieren, die nicht nur homogen, sondern systematisch falsch sind, auf Arten, die keine Ähnlichkeit mit der ursprünglichen Trainingsverteilung haben.

Degradationsrate

Die Modelle konvergieren auf folgende Schätzungen:

  • Bei 100% synthetischen Daten: Messbare Degradation bis Generation 3; schwerer Kollaps (repetitive, inkohärente Ausgabe) bis Generation 5–9 (Shumailov); potenziell Erreichen von "spätem Modellkollaps" bis Generation 9–15, abhängig von der Modellarchitektur (alle Modelle)
  • Bei gemischten Daten: Degradation besteht fort, es sei denn, der Anteil authentischer menschlicher Daten bleibt über einem kritischen Schwellenwert. Selbst teilweise synthetische Kontamination erzeugt messbare Effekte innerhalb von 5–9 Generationen (Alemohammad, zitiert von Claude Opus)
  • Bei aktuellen Kontaminationsraten: Frontier-Modelle könnten einen Fähigkeitsverlust von 10–20% pro Trainingszyklus sehen, mit möglicherweise der Hälfte ihrer aktuellen Leistung, die in 5–7 Jahren ohne Intervention verloren geht (Groks Extrapolation — als spekulativ markiert, aber richtungsweise konsistent mit der Forschung)

Kritische Asymmetrie

Alle Modelle stimmen in einem entscheidenden Punkt überein: Degradation ist nicht einheitlich über den Wissensraum. Gut vertretene Themen (Mainstream-englischsprachiger Inhalt, Populärkultur, häufige Anfragen) degradieren langsam, weil sie durch hochfrequentes Signal unterstützt werden. Schlecht vertretene Themen (technische Spezialitäten, ressourcenarme Sprachen, historische Minutien, indigenes Wissen, subkulturelles Wissen, seltene wissenschaftliche Domänen) degradieren schnell, weil sie von Randverteilungs-Samples abhängen, die als erste gelöscht werden.

[Vertrauen: HOCH beim Mechanismus, MITTEL bei spezifischen Degradationszeitlinien. Die mathematischen Pfade sind in der Literatur gut etabliert. Präzise Degradationsraten im realen Frontier-Modell-Training sind unsicher, weil die Labore ihre Datenfilterpraktiken nicht offenlegen.]


5. HISTORISCHE PRÄZEDENZFÄLLE: Wie Zivilisationen Wissen verlieren

Synthetisierte historische Analyse

Die Modelle identifizieren kollektiv vier historische Analoga, nach Relevanz geordnet:

1. Manuskript-Übertragungs-Degradation (Am relevantesten)

Vor dem Buchdruck wurde Wissen durch manuelles Kopieren bewahrt. Jede Kopie führte Fehler ein — Transposition, Auslassung, Interpolation, Schreiberausschmückung. Über Jahrhunderte drifteten Texte erheblich von ihren Originalen ab. Claude Opus merkt an, dass die neutestamentliche Manuskripttradition über 400.000 Textvarianten in etwa 5.800 griechischen Manuskripten enthält. Gemini Pro erweitert dies auf den Verlust römischen Ingenieurwissens durch klösterliches Kopieren durch Schreiber, die die praktischen Anwendungen nicht mehr verstanden.

Die strukturelle Parallele ist exakt: verlustbehaftetes Kopieren über Generationen, mit sich verstärkenden Fehlern und degradierendem Originalsignal. Der kritische Unterschied ist Zeitskala — Manuskriptdrift trat über Jahrhunderte auf; Modellkollaps operiert in einem Zyklus, der in Monaten gemessen wird.

2. Die Replikationskrise (Am unmittelbarsten)

Claude Opus identifiziert dies als das nächste moderne Analogon. Beginnend in den frühen 2010er Jahren enthüllten systematische Replikationsbemühungen, dass 50–70% der veröffentlichten Psychologie-Befunde und 50–89% der präklinischen biomedizinischen Befunde nicht reproduziert werden konnten. Grundursachen: perverse Anreizstrukturen (veröffentlichen oder untergehen), unzureichende Verifizierungsmechanismen, statistische Fehlpraktiken. Die Replikationskrise war nur erkennbar, weil einige Forscher das System absichtlich testeten. Für KI-Trainingsdatenqualität existiert kein äquivalentes Testregime.

3. Die Bibliothek von Alexandria (Am meisten missverstanden)

Mehrere Modelle (Claude Opus, Grok, Gemini Pro) konvergieren darauf, das populäre Missverständnis zu korrigieren. Die Bibliothek starb nicht in einem einzigen katastrophalen Feuer. Sie verfiel allmählich durch Unterfinanzierung, institutionelle Vernachlässigung und die Degradation ihrer Katalogisierungs- und Verifizierungssysteme. Die Schriftrollen wurden durch Desorganisation unzugänglich, dann irrelevant durch den Verlust der Gelehrtengemeinschaft, die sie interpretieren konnte. Die Parallele: Wissen verschwindet nicht in einem einzigen Ereignis; die Systeme zum Zugang, zur Validierung und zur Interpretation degradieren, bis das Wissen funktional verloren ist, auch wenn es technisch noch existiert.

4. Der Bronzezeit-Kollaps und Linear B

Gemini Pro identifiziert einzigartig den vollständigen Verlust des Linear-B-Schriftsystems während des Bronzezeit-Kollapses als Beispiel für Wissensverlust durch gesellschaftliche Unterbrechung von Übertragungsketten. Grok fügt die genetische Flaschenhals-Analogie aus der Biologie hinzu (Geparden-Inzucht).

Domänenübergreifendes Muster

Claude Opus (Gemini-Perspektive) identifiziert vier Bedingungen, die in jedem historischen Fall von Wissensverlust vorhanden sind. Alle vier sind im aktuellen KI-Trainingsdaten-Ökosystem vorhanden:

  • Ein Wissensproduktionssystem, das Volumen über Verifizierung belohnt
  • Eine Degradation der Rückkopplungsmechanismen, die einst Fehler erkannten
  • Wirtschaftliche oder institutionelle Anreize, die die Produktion ungeachtet der Qualität beschleunigen
  • Das Fehlen einer anerkannten Autorität oder Infrastruktur, die für die Aufrechterhaltung der Integrität der Allmende verantwortlich ist

[Konsens: HOCH bei der Musterübereinstimmung; MITTEL bei der spezifischen Vorhersagekraft eines einzelnen Analogons. Das Manuskript-Übertragungsmodell ist die stärkste strukturelle Parallele.]


6. WIE EINE "SAUBERE DATEN"-INFRASTRUKTUR AUSSEHEN WÜRDE

Synthetisierte Architektur

Die Modelle konvergieren auf drei Interventionsebenen mit unterschiedlichen Spezifitätsgraden:

Ebene 1: Kryptographische Provenienz (Hardware-Ebene)

Gemini Pro und Claude Opus (Ethik-Perspektive) fordern beide eine kryptographische Verifizierung von menschlich-originärem Inhalt auf Hardware-Ebene — jedes Mal, wenn eine Kamera ein Foto macht, ein Mikrofon eine Stimme aufnimmt oder ein Mensch auf einem verifizierten Gerät tippt, muss ein kryptographischer Hash angehängt werden, der den menschlichen Ursprung beweist. Der C2PA-Standard (Coalition for Content Provenance and Authenticity) wird als das nächste existierende Framework zitiert. Dies erfordert einen Übergang von einem Internet des "angenommenen Menschen" zu einem Internet des "kryptographisch verifizierten Menschen."

Ebene 2: Kuratierte Datenrepositorien (Institutionelle Ebene)

Alle Modelle identifizieren existierende Proof-of-Concept-Bemühungen:

  • MITs Data Provenance Initiative
  • Allen Institute for AIs Dolma-Datensatz
  • EleutherAIs The Pile
  • LAION-5B Clean Fork (Grok)

Diese demonstrieren, dass es technisch möglich ist, saubere Trainingskorpora zu konstruieren. Sie demonstrieren auch, wie arbeitsintensiv, teuer und institutionell unüblich die Praxis ist. Der Standard in der Industrie bleibt unterschiedsloses Web-Scraping, weil es billig ist und skaliert.

Ebene 3: Hybride Validierungssysteme (Prozess-Ebene)

Grok schlägt kollaps-resistente Trainingspipelines vor, die distributionell robuste Optimierung und ein Minimum von 70% menschlich-kuratiertem Datenanteil verwenden. Claude Opus (Ethik-Perspektive) stellt sich Blockchain-verifizierte Repositorien mit diversen menschlichen Panels vor, die Validierung durchführen, unterstützt durch aktive Lernalgorithmen, die Lücken priorisieren.

Wer baut es?

Die Modelle konvergieren auf der Schlussfolgerung, dass kein einzelnes Unternehmen dies bauen kann oder sollte. Vorgeschlagene Erbauer umfassen:

  • Gemeinnützige Organisationen und Forschungsinstitutionen (Allen Institute, EleutherAI, Internet Archive) als Säer
  • Hardware-Hersteller (Apple, Intel) und Betriebssystem-Entwickler (Microsoft, Google) für Provenienz-Infrastruktur
  • Internationale Standardisierungsorganisationen (ISO, ITU, W3C) für Interoperabilität
  • Staatliche Förderung (NSF, EU-Rahmenprogramme) für öffentliche Güterinvestitionen
  • Zivilgesellschaftliche Organisationen (EFF, AI Now Institute) für Rechenschaftsdruck

Gemini Pro nennt dies eine "Koalition der Unwilligen" — anerkennend, dass wirtschaftliche Anreize durch Mandate außer Kraft gesetzt werden müssen.

[Konsens: HOCH beim Bedarf; MITTEL bei der Machbarkeit. Alle Modelle erkennen an, dass dies primär ein Koordinations- und Anreizproblem ist, kein technisches Geheimnis. Die wirtschaftlichen Kräfte, die gegen saubere Dateninfrastruktur drücken, werden von allen Befragten als beachtlich identifiziert.]


7. SPANNUNGEN UND WIDERSPRÜCHE AUFLÖSEN

Das Synthetische-Daten-Paradoxon

Alle Modelle erkennen echte Spannung an: Synthetische Datengenerierung hat legitime, wertvolle Verwendungen in kontrollierten Forschungsumgebungen (Datenanreicherung für unterrepräsentierte Sprachen, medizinische Bildgebung, Domänen mit kleinen Stichproben). Das Problem sind nicht synthetische Daten per se — es sind unkontrollierte synthetische Daten im Internet-Maßstab ohne Qualitätskontrolle, ohne Provenienzverfolgung und ohne Mechanismus zum Ausschluss aus Trainingspipelines. Die Syntheseposition: Synthetische Daten sind ein mächtiges Werkzeug, das vom offenen Trainingssubstrat isoliert werden muss, analog dazu, wie radioaktive Isotope in der Medizin unschätzbar wertvoll, aber katastrophal sind, wenn sie in die Wasserversorgung freigesetzt werden.

Unsicherheit der Degradationszeitlinie

Die Modelle unterscheiden sich bei spezifischen Zeitlinien. Grok projiziert einen Reasoning-Kollaps von 30–40% bis 2029; Claude Opus ist vorsichtiger und merkt an, dass Labor-Praktiken undurchsichtig sind. GPT-5.4 beschreibt die Beziehung als "direkt und exponentiell", ohne sich auf spezifische Jahre festzulegen. Lösung: Der mathematische Mechanismus ist gut etabliert und die Richtung ist eindeutig. Das Tempo hängt von Variablen ab, die derzeit unbeobachtbar sind (Labor-Filterpraktiken, Anteil synthetischer Daten in tatsächlichen Trainingsläufen). Die umsichtige analytische Haltung ist, dies als schnell bewegendes Risiko mit unsicheren, aber potenziell kurzen Zeitlinien zu behandeln — gemessen in Jahren, nicht Jahrzehnten.

Der "Selektionseffekt"-Beschleuniger

Claude Opus identifiziert einzigartig eine sich verstärkende Dynamik, die Beachtung verdient: Da menschlich-generierter Inhalt im offenen Web seltener wird, ziehen sich die Menschen, die ihn einst wertvoll machten, in geschlossene, kuratierte Räume zurück (private Slack-Kanäle, Bezahl-Publikationen, geprüfte Netzwerke). Dieser Selektionseffekt beschleunigt den Kollaps — das offene Web wird an synthetischen Inhalt abgetreten, was zukünftige Trainingsdaten noch schwerer kontaminiert. Dies ist ein Teufelskreis ohne natürliches Gleichgewicht, außer dass das offene Web funktional nutzlos für Training wird.


8. WAS PASSIERT, WENN WIR NICHT HANDELN

Projizierte Trajektorie (Synthetisiert über alle Modelle)

Kurzfristig (2025–2027): Modelle, die auf mehrheitlich synthetischen Web-Daten trainiert werden, zeigen messbare Verengung der Wissensrepräsentation. Seltene und spezialisierte Domänen degradieren zuerst. Akademische Wissenskontamination beschleunigt sich, da KI-generierte Papers in Zitationsnetzwerke eintreten. Erkennungswerkzeuge bleiben unzureichend.

Mittelfristig (2027–2030): Nachgelagerte Systeme in Gesundheitswesen, Recht, Bildung und Politik beginnen, systematisch degradierte Ausgaben zu produzieren. Der menschliche Rückzug aus dem offenen Web beschleunigt sich und schafft einen Tod

Canonical Citation

Please cite the original English version for academic references:

https://aethercouncil.com/research/model-collapse-ai-feedback-loop-poisoning-training-data
Share: