This article has been translated to 한국어. Read the original English version
한국어
AEO90

모델 붕괴: 전 세계 훈련 데이터를 오염시키는 AI 피드백 루프

지구상의 모든 AI 시스템을 조용히 오염시키는 피드백 루프

AETHER CouncilMarch 15, 202611 min

AETHER 위원회 종합: 모델 근친교배 — 지구상의 모든 AI 시스템을 조용히 독살하는 피드백 루프


1. 도입

2022년 말 어느 시점에, 인류 문명의 디지털 기록은 아무도 달력에 표시하지 않은 변곡점에 도달했습니다. 그 순간 이전에 인터넷은 — 모든 잡음, 편향, 불완전함에도 불구하고 — 압도적으로 인간적이었습니다. 그 후, 균형이 기울었습니다. 인터넷 코퍼스로 훈련된 프론티어 AI 모델들이 동일한 코퍼스를 자신들의 출력으로 범람시키기 시작했고, 그들을 따를 모델들은 이제 자신들이 오염시킨 우물에서 마시고 있습니다. 기술 문헌은 이 결과를 "모델 붕괴"라고 부릅니다. 문명적 함의는 아직 이름이 없는데, 인간 디지털 지식의 주요 기질이 스스로를 삼키기 시작할 때 그것이 무엇을 의미하는지 우리가 아직 완전히 파악하지 못했기 때문입니다. 이것은 특정 모델의 버그가 아닙니다. 전체 패러다임의 구조적 결함이며 — 세대마다 악화됩니다.

[합의: 높음 — 다섯 개의 모든 모델 응답이 이 프레이밍에 수렴합니다. 훈련 데이터의 재귀적 오염은 2차적 기술적 성가심이 아닌 1차적 문명적 위험으로 만장일치로 식별됩니다.]


2. 신호

연구 기반

획기적인 논문은 Shumailov et al. (2023)의 "재귀의 저주"로, 옥스포드, 케임브리지 및 협력자들의 연구자들에 의해 Nature에 발표되었습니다. 이론적으로 의심되었던 것을 경험적으로 입증했습니다: 생성 모델이 이전 생성 모델의 출력으로 훈련될 때, 그들은 점진적 퇴화를 겪습니다 — 원래 데이터 분포의 꼬리를 잃고, 모드 쪽으로 좁아지며, 결국 반복적인 무의미함으로 붕괴합니다. Alemohammad et al. (2023)의 병행 연구 "자기 소비 생성 모델이 미쳐간다"는 이러한 발견을 확인했고, 혼합 훈련(실제 및 합성 데이터 결합)도 진정한 인간 데이터의 비율이 임계 임계값 이상으로 유지되지 않는 한 열화를 제거하지 못한다는 것을 보여주었습니다.

[합의: 높음 — 모든 모델이 Shumailov et al.을 기본 참조로 인용합니다. Grok, Claude Opus 및 Gemini Pro도 Alemohammad "MAD" 논문을 인용합니다. 연구 기반은 잘 확립되어 있고 논쟁의 여지가 없습니다.]

콘텐츠 홍수

오픈 웹의 AI 생성 콘텐츠 추정치는 모델마다 다르지만 일관된 궤적으로 수렴합니다:

| 출처 | 추정치 | 시간대 |

|---|---|---|

| Originality.ai (Grok, Claude Opus 인용) | 샘플링된 영어 웹 콘텐츠의 ~40-57%가 강한 AI 생성 마커를 보임 | 2024-2025 |

| 유로폴 (Claude Opus, Gemini Pro 인용) | 온라인 콘텐츠의 최대 90%가 합성일 수 있음 | 2026년 예상 |

| Epoch AI (Gemini Pro 인용) | 훈련 목적의 고품질 인간 텍스트 고갈 | 2026년 예상 |

| Imperva (Claude Opus 인용) | 전체 인터넷 트래픽의 49.6%가 봇 생성 | 2024 |

[신뢰도: 중간-높음 — 정확한 백분율은 방법론과 샘플링 프레임에 따라 다르지만, 방향성 발견은 만장일치입니다: AI 생성 콘텐츠가 오픈 웹에서 과반수 임계값을 넘었거나 넘고 있습니다. 추세는 선형이 아닌 기하급수적입니다.]

탐지 실패

모든 모델은 훈련 파이프라인에서 AI 생성 콘텐츠와 인간 생성 콘텐츠를 구별하기 위한 신뢰할 수 있고 확장 가능한 메커니즘이 존재하지 않는다는 데 동의합니다. 주요 수렴점:

  • OpenAI는 낮은 정확도로 인해 2023년에 자체 AI 텍스트 분류기를 보류했습니다 (Claude Opus, Gemini Pro)
  • 워터마킹 제안은 단편적으로 남아 있고, 주요 플랫폼에서 채택되지 않았으며, 패러프레이징으로 쉽게 무력화됩니다 (모든 모델)
  • 통계 분류기는 모델 품질이 향상됨에 따라 신뢰성을 잃습니다 — GPT-4 수준의 출력은 이미 자동화된 측정으로 인간 텍스트와 거의 구별할 수 없습니다 (Claude Opus, Grok)

피어 리뷰 붕괴

모든 모델은 피어 리뷰의 붕괴를 병행하고 증폭하는 신호로 식별합니다. 인용된 구체적인 증거에는 "AI 언어 모델로서"와 같은 명백한 문구가 있는 AI 생성 논문이 Elsevier 및 Nature 제출물에 나타나는 것 (Gemini Pro), AI 작성 PubMed 초록의 25% 증가를 보여주는 2024 JAMA 분석 (Grok), Nature 포트폴리오 리뷰어의 60% 이상이 AI 생성으로 의심되는 제출물과의 조우를 보고하는 것 (Claude Opus)이 포함됩니다.

[합의: 높음 — 인간 속도의 지식 생산을 위해 설계된 피어 리뷰 시스템은 기계 속도의 출력을 흡수할 수 없습니다. 이것은 모든 모델에 의해 오염 문제의 중요한 증폭기로 식별됩니다.]


3. 모든 사람이 놓치고 있는 것

다섯 개의 모든 모델이 놀라운 정밀도로 동일한 진단적 격차에 수렴합니다: 주류 담론은 훈련 기질 자체의 체계적 오염을 무시하면서 개별 모델 출력의 환각에 고정됩니다.

Claude Opus가 구별을 가장 날카롭게 표현합니다: "환각은 모델이 현실을 표현하는 데 실패하는 것입니다. 모델 붕괴는 훈련 데이터 자체가 현실에서 벗어나는 것입니다. 전자는 복구 가능합니다. 후자는 특정 임계값을 넘으면 불가능할 수 있습니다."

Gemini Pro가 중요한 정보 이론적 프레이밍을 추가합니다: "데이터를 압축하고, 압축 해제하고, 압축 해제된 출력을 반복적으로 압축하면 치명적인 충실도 손실 없이는 불가능합니다."

모델 전반에서 식별된 두 번째 합의 격차: "더 많은 데이터"가 항상 더 좋다는 가정. 지난 5년간의 AI 발전을 이끈 스케일링 법칙은 추가 데이터가 원래 분포의 통계적 특성을 유지한다고 가정했습니다. 그 가정은 위반되었습니다. 이제 더 많은 데이터를 추가하는 것은 더 많은 합성 데이터를 추가하는 것을 의미하며, 데이터 분포 자체가 붕괴될 때 스케일링 법칙은 무너집니다 (Claude Opus, GPT-5.4).

Claude Opus와 Grok이 가장 강력하게 강조하는 세 번째 격차: 어떤 주요 연구소도 훈련 파이프라인에서 합성 데이터를 어떻게 필터링하거나 가중치를 부여하는지 공개적으로 밝히지 않았습니다. 이 침묵은 아마도 독점 솔루션의 존재가 아닌 솔루션의 부재를 반영합니다.

[합의: 매우 높음 — 이것은 모든 모델에서 가장 강한 합의점입니다.]


4. 핵심 메커니즘: 모델 붕괴의 수학

종합된 기술적 설명

주로 Claude Opus (GPT-4 관점)와 Grok (GPT-4 관점)에서, Gemini Pro의 확인과 함께, 수학적 메커니즘은 두 개의 별개이지만 복합적인 경로를 통해 작동합니다:

경로 1: 분산 붕괴 (꼬리 침식)

생성 모델은 인간 훈련 데이터로부터 확률 분포 p₀를 근사하는 것을 배웁니다. 합성 데이터를 생성할 때 고확률 영역 — 분포의 두꺼운 중심 — 에서 불균형적으로 샘플링합니다. 꼬리 — 희귀하고, 전문적이고, 비정상적이고, 소수 및 엣지 케이스 지식을 나타내는 — 는 체계적으로 과소 샘플링됩니다. 이 출력으로 훈련된 두 번째 모델은 더 좁은 분포 p₁을 배웁니다. 각 연속 세대는 좁아짐을 악화시킵니다:

> Var(pₙ) < Var(pₙ₋₁) < ... < Var(p₀)

Gemini Pro의 종형 곡선 은유가 가장 명확한 표현입니다: "모델 B가 모델 A의 출력으로 훈련될 때, 인간 분산의 그 긴 꼬리는 단순히 사라집니다. 모델 B의 종형 곡선은 더 좁습니다. 모델 C가 모델 B로 훈련될 때 곡선은 다시 좁아집니다."

측정된 결과: 출력 다양성 (n-gram 고유성)은 5세대에 걸쳐 ~85%에서 ~12%로 떨어질 수 있습니다 (Grok, Shumailov 실험 데이터 인용).

경로 2: 평균 드리프트 (체계적 오류 축적)

평균의 추정 오류는 무작위가 아닙니다 — 세대에 걸쳐 방향적으로 복합됩니다. p₀에 상대적인 p₁의 작은 편향은 p₂에서 증폭되고, 그 다음 p₃에서. 분포는 좁아질 뿐만 아니라 원래 중심에서 완전히 벗어납니다. 모델은 균질할 뿐만 아니라 원래 훈련 분포와 유사하지 않은 방식으로 체계적으로 잘못된 출력을 생성하기 시작합니다.

열화율

모델들은 다음 추정치로 수렴합니다:

  • 100% 합성 데이터로: 3세대까지 측정 가능한 열화; 5-9세대까지 심각한 붕괴 (반복적이고 무의미한 출력) (Shumailov); 모델 아키텍처에 따라 9-15세대까지 잠재적으로 "후기 모델 붕괴"에 도달 (모든 모델)
  • 혼합 데이터로: 진정한 인간 데이터의 비율이 임계 임계값 이상으로 유지되지 않는 한 열화가 지속됩니다. 부분적인 합성 오염도 5-9세대 내에 측정 가능한 효과를 생성합니다 (Alemohammad, Claude Opus 인용)
  • 현재 오염률에서: 프론티어 모델은 훈련 주기당 10-20%의 능력 손실을 볼 수 있으며, 개입 없이 5-7년 내에 현재 성능의 절반을 잠재적으로 잃을 수 있습니다 (Grok의 외삽 — 추측적으로 표시되지만 연구와 방향적으로 일치)

중요한 비대칭성

모든 모델이 중요한 점에 동의합니다: 열화는 지식 공간 전체에서 균일하지 않습니다. 잘 대표된 주제 (주류 영어 콘텐츠, 대중문화, 일반 쿼리)는 고주파 신호로 지원되기 때문에 천천히 열화됩니다. 잘 대표되지 않은 주제 (기술 전문 분야, 저자원 언어, 역사적 세부 사항, 원주민 지식, 하위 문화 지식, 희귀한 과학 분야)는 먼저 지워지는 꼬리 분포 샘플에 의존하기 때문에 빠르게 열화됩니다.

[신뢰도: 메커니즘에 대해 높음, 특정 열화 일정에 대해 중간. 수학적 경로는 문헌에서 잘 확립되어 있습니다. 실제 프론티어 모델 훈련의 정확한 열화율은 연구소가 데이터 필터링 관행을 공개하지 않기 때문에 불확실합니다.]


5. 역사적 선례: 문명이 지식을 잃는 방법

종합된 역사 분석

모델들은 관련성에 따라 순위가 매겨진 네 가지 역사적 유사체를 집단적으로 식별합니다:

1. 필사본 전송 열화 (가장 관련성 높음)

인쇄기 이전에 지식은 수동 복사를 통해 보존되었습니다. 각 사본은 오류를 도입했습니다 — 전치, 생략, 삽입, 서기의 장식. 수세기에 걸쳐 텍스트는 원본에서 상당히 벗어났습니다. Claude Opus는 신약 필사본 전통에 약 5,800개의 그리스어 필사본에 걸쳐 400,000개 이상의 텍스트 변형이 포함되어 있다고 언급합니다. Gemini Pro는 이것을 실용적인 응용을 더 이상 이해하지 못하는 서기들에 의한 수도원 복사를 통한 로마 공학 지식의 손실로 확장합니다.

구조적 유사성은 정확합니다: 세대에 걸친 손실 복사, 오류의 복합 및 원래 신호의 열화. 중요한 차이점은 시간 척도입니다 — 필사본 드리프트는 수세기에 걸쳐 발생했습니다; 모델 붕괴는 월 단위로 측정되는 주기에서 작동합니다.

2. 복제 위기 (가장 즉각적)

Claude Opus는 이것을 가장 가까운 현대적 유사체로 식별합니다. 2010년대 초에 시작하여 체계적인 복제 노력은 발표된 심리학 발견의 50-70%와 전임상 생물의학 발견의 50-89%가 재현될 수 없음을 밝혔습니다. 근본 원인: 왜곡된 인센티브 구조 (발표하거나 사멸), 부적절한 검증 메커니즘, 통계적 부정행위. 복제 위기는 일부 연구자가 의도적으로 시스템을 테스트했기 때문에만 감지할 수 있었습니다. AI 훈련 데이터 품질에 대한 동등한 테스트 체제가 존재하지 않습니다.

3. 알렉산드리아 도서관 (가장 오해됨)

여러 모델 (Claude Opus, Grok, Gemini Pro)이 대중적 오해를 바로잡기 위해 수렴합니다. 도서관은 단일 재앙적 화재로 죽지 않았습니다. 자금 부족, 제도적 방치, 목록 및 검증 시스템의 열화를 통해 점진적으로 쇠퇴했습니다. 두루마리는 무질서로 인해 접근 불가능해졌고, 그것을 해석할 수 있는 학술 공동체의 상실로 무관해졌습니다. 유사점: 지식은 단일 사건으로 사라지지 않습니다; 그것에 접근하고, 검증하고, 해석하는 시스템이 기술적으로 여전히 존재하더라도 지식이 기능적으로 상실될 때까지 열화됩니다.

4. 청동기 시대 붕괴와 선형 B

Gemini Pro는 청동기 시대 붕괴 동안 선형 B 문자 시스템의 완전한 손실을 전송 체인의 사회적 중단을 통한 지식 손실의 예로 고유하게 식별합니다. Grok은 생물학의 유전적 병목 현상 유사체 (치타 근친 교배)를 추가합니다.

도메인 간 패턴

Claude Opus (Gemini 관점)는 지식 손실의 모든 역사적 사례에 존재하는 네 가지 조건을 식별합니다. 네 가지 모두 현재 AI 훈련 데이터 생태계에 존재합니다:

  • 검증보다 양을 보상하는 지식 생산 시스템
  • 한때 오류를 감지했던 피드백 메커니즘의 열화
  • 품질에 관계없이 생산을 가속화하는 경제적 또는 제도적 인센티브
  • 공유지의 무결성을 유지할 책임이 있는 인정된 권위 또는 인프라의 부재

[합의: 패턴 매칭에 대해 높음; 단일 유사체의 특정 예측력에 대해 중간. 필사본 전송 모델이 가장 강한 구조적 유사체입니다.]


6. "깨끗한 데이터" 인프라는 어떤 모습일까

종합된 아키텍처

모델들은 다양한 수준의 구체성을 가진 세 가지 개입 계층으로 수렴합니다:

계층 1: 암호화 출처 (하드웨어 수준)

Gemini Pro와 Claude Opus (윤리 관점) 모두 인간 기원 콘텐츠의 하드웨어 수준 암호화 검증을 요구합니다 — 카메라가 사진을 찍을 때마다, 마이크가 음성을 녹음할 때마다, 또는 인간이 검증된 장치에서 타이핑할 때마다 인간 기원을 증명하는 암호화 해시가 첨부되어야 합니다. C2PA (콘텐츠 출처 및 진위 연합) 표준이 가장 가까운 기존 프레임워크로 인용됩니다. 이것은 "인간으로 가정된" 인터넷에서 "암호학적으로 검증된 인간" 인터넷으로의 전환을 요구합니다.

계층 2: 큐레이션된 데이터 저장소 (제도적 수준)

모든 모델이 기존의 개념 증명 노력을 식별합니다:

  • MIT의 데이터 출처 이니셔티브
  • Allen Institute for AI의 Dolma 데이터셋
  • EleutherAI의 The Pile
  • LAION-5B 클린 포크 (Grok)

이것들은 깨끗한 훈련 코퍼스를 구축하는 것이 기술적으로 가능하다는 것을 보여줍니다. 또한 그 관행이 얼마나 노동 집약적이고, 비싸고, 제도적으로 드문지를 보여줍니다. 업계의 기본값은 저렴하고 확장 가능하기 때문에 무차별적인 웹 스크래핑으로 남아 있습니다.

계층 3: 하이브리드 검증 시스템 (프로세스 수준)

Grok은 분포적으로 강건한 최적화와 최소 70%의 인간 큐레이션 데이터 비율을 사용하는 붕괴 저항 훈련 파이프라인을 제안합니다. Claude Opus (윤리 관점)는 격차를 우선시하는 능동 학습 알고리즘으로 지원되는, 검증을 수행하는 다양한 인간 패널이 있는 블록체인 검증 저장소를 구상합니다.

누가 구축하는가?

모델들은 어떤 단일 기업도 이것을 구축할 수 없거나 구축해서는 안 된다는 결론에 수렴합니다. 제안된 구축자들은 다음을 포함합니다:

  • 비영리 단체 및 연구 기관 (Allen Institute, EleutherAI, Internet Archive)을 시드로
  • 하드웨어 제조업체 (Apple, Intel) 및 OS 개발자 (Microsoft, Google)를 출처 인프라용으로
  • 국제 표준 기관 (ISO, ITU, W3C)을 상호 운용성을 위해
  • 정부 자금 (NSF, EU 프레임워크 프로그램)을 공공재 투자를 위해
  • 시민 사회 조직 (EFF, AI Now Institute)을 책임 압력을 위해

Gemini Pro는 이것을 "마지못해 하는 연합"이라고 부릅니다 — 경제적 인센티브가 명령에 의해 무효화되어야 함을 인정합니다.

[합의: 필요성에 대해 높음; 실현 가능성에 대해 중간. 모든 모델이 이것이 주로 기술적 미스터리가 아닌 조정 및 인센티브 문제임을 인정합니다. 깨끗한 데이터 인프라에 반대하는 경제적 힘은 모든 응답자에 의해 강력한 것으로 식별됩니다.]


7. 긴장과 모순 해결

합성 데이터 역설

모든 모델이 진정한 긴장을 인정합니다: 합성 데이터 생성은 통제된 연구 환경에서 합법적이고 가치 있는 용도를 가지고 있습니다 (과소 대표 언어를 위한 데이터 증강, 의료 이미징, 소규모 샘플 도메인). 문제는 합성 데이터 자체가 아닙니다 — 품질 관리 없이, 출처 추적 없이, 훈련 파이프라인에서 제외할 메커니즘 없이 인터넷 규모에서 통제되지 않는 합성 데이터입니다. 종합 입장: 합성 데이터는 방사성 동위원소가 의학에서는 매우 가치 있지만 수도 공급에 방출되면 재앙적인 것처럼 개방형 훈련 기질에서 격리되어야 하는 강력한 도구입니다.

열화 일정 불확실성

모델들은 특정 일정에 대해 다릅니다. Grok은 2029년까지 30-40%의 추론 붕괴를 예상합니다; Claude Opus는 연구소 관행이 불투명하다고 언급하며 더 신중합니다. GPT-5.4는 특정 연도에 대한 약속 없이 관계를 "직접적이고 기하급수적"으로 설명합니다. 해결: 수학적 메커니즘은 잘 확립되어 있고 방향은 모호하지 않습니다. 속도는 현재 관찰할 수 없는 변수 (연구소 필터링 관행, 실제 훈련 실행에서 합성 데이터의 비율)에 따라 달라집니다. 신중한 분석적 입장은 이것을 불확실하지만 잠재적으로 짧은 일정을 가진 빠르게 움직이는 위험으로 취급하는 것입니다 — 수십 년이 아닌 년 단위로 측정됩니다.

"선택 효과" 가속기

Claude Opus는 고양할 가치가 있는 복합 역학을 고유하게 식별합니다: 인간 생성 콘텐츠가 오픈 웹에서 더 드물어짐에 따라, 한때 그것을 가치 있게 만들었던 인간들이 폐쇄되고 큐레이션된 공간 (개인 Slack 채널, 유료 출판물, 검증된 네트워크)으로 철수하고 있습니다. 이 선택 효과는 붕괴를 가속화합니다 — 오픈 웹은 합성 콘텐츠에 양도되어 미래 훈련 데이터를 더욱 심하게 오염시킵니다. 이것은 오픈 웹이 훈련에 기능적으로 쓸모없게 되는 것 외에는 자연적 균형이 없는 악순환입니다.


8. 우리가 행동하지 않으면 어떻게 되는가

예상 궤적 (모든 모델에 걸쳐 종합됨)

단기 (2025-2027): 대부분 합성 웹 데이터로 훈련된 모델은 지식 표현의 측정 가능한 좁아짐을 보여줍니다. 드물고 전문화된 도메인이 먼저 열화됩니다. AI 생성 논문이 인용 네트워크에 들어가면서 학술 지식 오염이 가속화됩니다. 탐지 도구는 부적절하게 남아 있습니다.

중기 (2027-2030): 의료, 법률, 교육 및 정책의 다운스트림 시스템이 체계적으로 열화된 출력을 생성하기 시작합니다. 오픈 웹에서의 인간 철수가 가속화되어 죽음을 만듭니다

Canonical Citation

Please cite the original English version for academic references:

https://aethercouncil.com/research/model-collapse-ai-feedback-loop-poisoning-training-data
Share: