조용한 재앙: AI가 인간 전문성을 구축하는 파이프라인을 파괴하는 방법

AETHER Council의 종합 보고서

누구의 안전 프레임워크도 모델링하지 않고 있는 위협은 공격이 아니다. 그것은 부재이다.

인간 전문성을 전혀 생산하지 않는 조건들의 부재이다.

지난 2년간, 세상은 인공지능이 생산할 수 있는 것들에 매료되어 왔다: 즉석 코드, 완벽한 계약서 초안, 신속한 진단 소견, 세련된 수업 계획서들. 그러나 전문 업무에서 마찰을 자동화로 제거하려는 우리의 성급함 속에서, 우리는 그 마찰이 우리를 위해 무엇을 하고 있었는지 근본적으로 오해해 왔다. 우리는 단순히 작업을 외주화하고 있는 것이 아니다. 우리는 초보자를 숙련자로 변화시키는 보이지 않는 구조를 해체하고 있다 — 인간이 현실적인 위험 상황에서, 정보가 불완전하고, 교과서에 답이 없을 때 건전한 결정을 내리는 법을 배우는 느리고, 고통스럽고, 대체할 수 없는 과정을.

이것은 미래의 위험이 아니다. 이것은 현재의 위험으로, 숙련된 인간 판단력에 의존하는 모든 분야에서 — 즉, 중요한 모든 분야에서 — 동시에 전개되고 있다. 그리고 이는 수년간 보이지 않을 것인데, 이미 전문성을 보유한 사람들이 여전히 일하고 있고, 여전히 오류를 잡아내고 있으며, 여전히 백스톱 역할을 제공하고 있기 때문이다. 그 손상은 그런 사람들이 사라지고, 그들 뒤의 세대가 형성되도록 허용받지 못했던 판단력의 깊이에 손을 뻗을 때만 부인할 수 없게 될 것이다.

그때가 되면, 재건에는 10년 이상이 걸릴 것이다. 지금 시작한다면, 우리에게는 여전히 시간이 있을 수 있다.

이 글은 위기를 이해하기 위한 세 가지 프레임워크를 소개한다: 인간 전문성이 실제로 구축되는 메커니즘을 설명하는 판단력 파이프라인, 손상이 5-10년간 숨겨져 있다가 재앙적으로 표면화하는 이유를 설명하는 전문성 부채 축적 모델, 그리고 조직들이 겉보기에는 차세대 리더들이 직책과 자격증과 AI가 강화한 산출물을 가지고 있지만 — 어려운 방법을 통해 배움으로써만 얻을 수 있는 내재화된 판단력은 갖지 못했다는 것을 발견하는 특정 위기 지점을 명명하는 공허한 시니어 문제. 그런 다음 6개 주요 직업에서 파이프라인이 붕괴되는 과정을 추적하고, 인지과학이 우리에게 말해주는 것을 살펴보며, 우리가 지금 직면한 선택과 맞선다.

제1부: 판단력 파이프라인

모든 사람이 알고 있지만 거의 아무도 명확히 말하지 않는 것이 하나 있다: 전문성은 지식이 아니다. 그것을 다운로드할 수는 없다. 그것은 사실들이나 절차들, 심지어 느슨한 의미에서의 경험의 축적도 아니다. 전문성은 판단력이다 — 불확실성 하에서, 불완전한 정보로, 시간 압박 하에서, 결과가 현실적이고 되돌릴 수 없을 때 건전한 결정을 내리는 능력이다.

거의 아무도 묻지 않는 질문은: 판단력은 실제로 인간 존재 내부에서 어떻게 형성되는가?

답은 메커니즘으로 설명할 수 있을 만큼 구체적이며, 그 메커니즘을 우리는 판단력 파이프라인이라고 부른다. 그것은 6단계를 가지며, 순서대로 발생해야 한다. 한 단계를 건너뛰면 약간 나쁜 전문가가 나오는 것이 아니다. 전문가처럼 보이는 사람 — 자격증과, 어휘력과, 이력서상의 경력과, 자신감을 가진 — 하지만 중요한 순간에는 수행할 수 없는 사람이 나온다.

1단계: 무보조 고투

초보자는 해결 방법을 모르는 실제 문제에 직면하고 모른다는 불편함과 함께 앉아 있어야 한다. 이것은 훈련의 설계 결함이 아니다. 이것은 기초이다. 인지과학은 이를 바람직한 어려움이라고 부른다 — UCLA의 Robert Bjork이 1994년에 만든 용어다. 후속하는 30년의 연구는 습득 과정에서 더 어렵게 느껴지는 학습이 더 지속적이고 더 전이 가능한 지식을 생산한다는 것을 확인했다. 고투가 핵심이다. 그것을 제거하는 것은 전문성을 가속화하지 않는다. 그것을 방해한다.

2단계: 결과적 오류

초보자는 무언가를 시도하고 잘못을 저지르며, 그 오류는 그들이 느낄 수 있는 결과를 가진다 — 화면의 빨간 "X"가 아니라, 시뮬레이션된 페널티가 아니라, 실제 결정에 연결된 실제 결과를. 새벽 2시에 잘못 읽은 환자의 검사 수치. 놓친 계약 조항이 고객에게 40,000달러의 협상력 손실을 가져온 것. 병원의 방사선과를 9시간 동안 노출시킨 승인된 네트워크 구성. 전무이사의 정밀 검토 하에서 무너진 가정에 기반한 금융 모델. 오류의 감정적 무게는 학습에 부수적인 것이 아니다. 그것은 뇌가 미래 행동을 바꿀 만큼 충분한 우선순위로 교훈을 인코딩하는 메커니즘이다. 신경과학자 Matthew Walker의 수면 의존적 기억 강화에 관한 연구가 Nature Reviews Neuroscience (2017)에 발표되어, 감정적으로 태그된 기억들이 수면 중에 우선적 강화를 받는다는 것을 보여주었다. 아픈 것을 기억한다.

3단계: 맥락 내 전문가 피드백

현장에 있었거나 — 또는 무슨 일이 일어났는지 재구성할 수 있을 만큼 가까이 있었던 — 선임 실무자가 무엇이 잘못되었는지뿐만 아니라 왜 초보자의 추론이 그곳으로 이끌었는지, 그리고 경험있는 추론이 비교해서 어떤 모습인지를 설명한다. 이것은 몇 주 후 교실에서 전달되는 강의가 아니다. 이것은 초보자가 이미 신경쓰고 있는 특정 실패에 대한 실시간 주석이다. K. Anders Ericsson의 의도적 연습에 관한 기초 연구는 1993년부터 2020년 그의 사망까지에 걸쳐, 피드백은 즉각적이고, 구체적이어야 하며, 전문가 수행을 모델링할 수 있는 사람에 의해 전달되어야 한다고 확립했다. 일반적인 피드백 — "잘했어" 또는 "개선이 필요해" — 은 거의 아무것도 하지 않는다. 느껴진 실패에 대한 맥락적 피드백은 학습자의 정신 모델을 재구조화한다.

4단계: 변화가 있는 지도하 반복

초보자는 같은 범주의 문제를 계속해서 마주치지만, 결코 동일하지는 않다. 각 반복은 약간씩 다르다. 초보자는 패턴 라이브러리를 개발하기 시작한다 — 그들이 명확히 표현할 수 있는 규칙이 아니라, 의식적 사고보다 빠르게 작동하는 유사성과 차이에 대한 느낌적 감각을. Gary Klein의 Recognition-Primed Decision 모델은 1990년대와 2000년대를 통해 소방관, 군 지휘관, 중환자실 간호사들의 현장 연구에서 개발되었으며, 전문가들은 옵션을 기준에 대해 비교함으로써 결정을 내리지 않는다는 것을 보여주었다. 그들은 상황을 이전에 마주쳤던 패턴에 속하는 것으로 인식하고 가장 전형적인 반응을 시간상 앞으로 시뮬레이션하여 문제를 확인한다. 이 패턴 라이브러리는 가르칠 수 없다. 그것은 오직 성장시킬 수 있다 — 실제 결과 조건 하에서 변화가 있는 반복을 통해서.

5단계: 보정된 신뢰

오류, 피드백, 조정된 수행의 충분한 사이클을 거친 후, 초보자는 귀중하고 드문 무언가를 개발한다: 자신이 아는 것과 모르는 것에 대한 정확한 감각을. 심리학자들은 이것을 메타인지적 보정이라고 부른다. Dunning과 Kruger (1999)의 연구는 대중문화에서 종종 지나치게 단순화되지만, 실제로는 매우 구체적인 것을 보여주었다: 어떤 영역에서 낮은 기술을 가진 사람들은 자신의 지식의 경계를 인식하는 데 필요한 지식이 부족하기 때문에 체계적으로 자신의 능력을 과대평가한다. 교정책은 더 많은 정보가 아니다. 그것은 틀렸고 틀렸다는 것을 발견한 개인적 역사이다 — 충분한 횟수, 충분한 변화를 거쳐, 자신의 역량의 한계에 대한 신뢰할 수 있는 내적 신호를 개발하는 것이다. 이것은 단축할 수 없다. 당신의 판단력이 약한 곳을 가르쳐 줄 실패들을 경험하는 것을 막는 AI는 당신이 모르는 것이 무엇인지 알 수 있는 방법을 남기지 않는다. 당신은 전문가처럼 느낀다. 당신은 전문가처럼 보인다. 새로운 상황이 도착할 때까지는.

6단계: 자율적 전문가 판단

실무자는 이제 독립적으로 작업할 수 있다. 그들은 불확실성 하에서 결정을 내린다. 그들은 새로운 상황을 친숙한 범주로 강제하기보다는 진정으로 새로운 것으로 인식한다. 그들은 언제 도움을 요청해야 하는지 안다. 그들은 다음 세대를 위한 3단계 피드백 제공자 역할을 할 수 있다. 파이프라인이 완성되었다. 세상에 새로운 전문가가 존재한다 — 그리고, 중요한 것은, 따라오는 사람들을 위해 파이프라인을 지속할 새로운 멘토가 존재한다는 것이다.

파이프라인이 걸리는 시간

이러한 단계들은 특정 불가피한 시간선 이하로 압축될 수 없다. 인간의 뇌는 진정한 전문성을 구성하는 패턴 라이브러리와 메타인지적 보정을 구축하기 위해 반복, 변화, 오류, 그리고 감정적 인코딩이 필요하다.

외과 분야에서, 의과대학 이후 최소 5-7년의 레지던시와 펠로우십이 필요하다. 2014년 Annals of Surgery의 연구에 따르면 기본적인 기술적 역량 — 수술을 수행할 수 있는 능력 — 은 일반적으로 2-3년 내에 달성되었지만, 언제 수술해야 하는지, 언제 기다려야 하는지, 언제 복강경에서 개복으로 전환해야 하는지에 대한 판단은 전체 훈련 기간과 때로는 그 이상이 필요했다. 외과 학습 곡선에 대한 연구는 특정 수술에 대한 숙련도가 종종 수십에서 수백 건의 지도 하 케이스를 요구한다는 것을 반복적으로 보여준다.

사이버보안 분야에서, SANS Institute는 독립적인 위협 헌팅이 가능한 분석가를 개발하는 데 — 단순한 알림 분류가 아닌 진정한 적대적 추론 — Security Operations Center에서 3-5년의 실무 경험이 필요하다고 추정하며, 이는 "정상"이 무엇인지에 대한 기준선 감각을 구축하는 수천 건의 일상적 이벤트에 대한 노출을 포함한다.

법조계에서, American Bar Foundation의 종단 연구 After the JD는 12년 동안 변호사들을 추적했으며 "유능한 어소시에이트"에서 "복잡한 문제에 대한 독립적인 판단이 가능한 신뢰받는 조언자"로의 전환이 평균적으로 실무 7년차와 10년차 사이에 발생한다는 것을 발견했다.

구조공학 분야에서, Institution of Structural Engineers의 2019년 보고서는 책임 설계자로서 역할할 수 있는 엔지니어 — 서명으로 건물이 붕괴하지 않을 것임을 보증하는 전문가 — 가 되기 위해서는 학업 완료 후 최소 7년의 멘토링을 받는 실무가 필요하다는 것을 발견했다.

교육 분야에서, Learning Policy Institute의 Kini와 Podolsky(2016)의 메타분석은 30개 연구를 종합하여 교사의 효율성이 3-5년차를 통해 급격히 상승하고 최소 10년차까지 계속 향상되며, 실시간으로 학생의 오개념을 진단하고 그에 따라 수업을 조정하는 능력에서 가장 큰 향상을 보인다는 것을 발견했다 — 이는 의학의 임상 추론과 유사한 전문적 판단의 한 형태이다.

금융분석 분야에서, CFA Institute는 3년간의 시험 과정이 지식을 테스트하지만, 투자 판단 — 애매한 데이터에서 신호와 노이즈를 구별하는 능력 — 은 추가로 3-5년의 직접적인 시장 경험이 필요하다고 인정한다. Journal of Financial Economics의 Demiroglu와 Ryngaert의 2021년 연구는 최소 한 번의 완전한 시장 사이클(대략 7-10년)을 경험한 분석가들이 높은 변동성 기간 동안 그렇지 않은 분석가들보다 훨씬 더 정확한 예측을 생성한다는 것을 발견했다.

이러한 시간선들은 자의적이지 않다. 전통이나 진입장벽의 산물이 아니다. 이들은 The Judgment Pipeline의 6단계가 인간의 뇌에서 완료되는 데 필요한 시간이다.

그리고 분야마다 AI가 초기 단계들 — 1단계부터 3단계까지 — 을 제거하고 있으며, 이들이 인프라가 아닌 비효율성이라고 가정하고 있다.

Part II: 파이프라인이 무너지고 있다 — 분야별로

이 위기의 핵심에 있는 구조적 아이러니는 단순하고 파괴적이다: 먼저 자동화되는 작업들은 거의 항상 전문성 개발에 가장 중요한 작업들이다.

이는 우연이 아니다. 이는 조직들이 자동화에 대해 생각하는 방식의 직접적인 결과이다. 그들은 가장 단순하고, 가장 반복적이며, 가장 지루하고, 가장 명확하게 정의된 작업들을 자동화한다 — 바로 The Judgment Pipeline의 1단계와 2단계를 형성하는 작업들이다. 생산성을 측정하는 관리자에게는 단조로운 일로 보이는 작업이 그것을 수행하는 사람에게는 전문성 개발의 토대로 기능하는 작업이다.

| 분야 | 먼저 자동화되는 작업들 | 그 작업들의 파이프라인 기능 |

|-------|----------------------------|----------------------------------|

| 사이버보안 | Level 1 알림 분류 | 정상 대 비정상에 대한 패턴 인식 |

| 외과 | 로봇 보조를 통한 일상적 수술; AI 지원 진단 | 조직의 촉각적 이해; 3D 해부학적 지식; 임상 추론 |

| 법조 | 문서 검토, 1차 법적 조사, 계약 분석 | 사실적 패턴 라이브러리; 누락 읽기; 위험 직감 |

| 엔지니어링 | 일상적 계산, 코드 생성, 시뮬레이션 설정 | 코드와 제약이 왜 존재하는지 이해; 구조적 및 시스템적 직감 |

| 금융분석 | 데이터 수집, 모델 인구, 예비 분석, 수익 요약 | 데이터 품질 판단; 가정 형성; 압박 하에서의 회의론 |

| 교육 | 수업 계획, 평가 생성, 채점, 차별화 | 교육내용지식; 학생들이 실제로 어떻게 생각하는지 이해 |

모든 경우에서, 자동화되는 작업은 초보자가 독립적으로 실무할 수 있도록 하는 판단력을 개발하기 위해 잘못 수행하고, 반복하며, 피드백을 받아야 하는 작업이다. 모든 경우에서, 자동화는 실제적이고 즉각적인 생산성 향상으로 정당화된다. 모든 경우에서, 전문성 개발 비용은 연기되고, 측정되지 않으며, 복합적으로 증가한다.

사이버보안: "정상"이 무엇인지 배우지 못한 분석가

2019년의 주니어 Security Operations Center 분석가는 첫 해를 업계에서 Level 1 Triage라고 부르는 작업을 수행하는 데 보냈다: SIEM 시스템에서 원시 알림을 읽고, 각각을 수동으로 조사하여, 그것이 오탐인지 진짜 침해 지표인지 판단하고, 적절할 때 에스컬레이션하는 것이다. 이는 지루했다. 반복적이었다. 또한 The Judgment Pipeline의 1단계와 2단계가 지속적으로 실행되는 것이기도 했다 — 정상적인 네트워크 행동과 뭔가 잘못된 것의 미세한 흔적 사이의 차이에 대한 수천 시간의 노출.

2024년까지, Microsoft Sentinel, Splunk, Google Chronicle을 포함한 여러 주요 SIEM 플랫폼들이 인간의 개입 없이 Level 1 알림의 60-90%를 해결하는 AI 기반 자동 분류를 통합했다. 2024년 3월 SANS Institute 설문조사에 따르면 SOC 팀의 58%가 어떤 형태의 AI 지원 알림 분류를 사용하고 있었다. 평균 탐지 시간이 개선되었다. 오탐률이 급락했다. 현재 측정되는 모든 지표로 볼 때, AI 분류는 의심할 여지없는 성공이다.

그러나 2023년과 2024년에 해당 SOC에 채용된 주니어 분석가들은 Level 1 Triage를 수행하지 않는다. 그들은 AI가 처리한 요약을 검토한다. 그들은 애매한 데이터와 함께 앉아있지 않는다. 그들은 숙련된 실무자들이 "악의적인 것에 대한 직감"이라고 설명하는 것을 개발하지 않는다. 그들은 예전의 Level 2에 해당하는 것에서 시작한다 — AI가 이미 중요할 가능성이 높다고 분류한 사전 필터링된 알림을 조사하는 것 — Level 2 수행을 의미있게 만드는 토대 없이.

한 Fortune 500 금융 서비스 회사의 SOC 디렉터는 이렇게 설명했다: "내 2024년 채용자들은 같은 단계의 2019년 채용자들보다 빠르다. 그들은 티켓을 더 빨리 닫는다. 그들의 대시보드는 훌륭해 보인다. 하지만 그들을 새로운 위협 시나리오 — AI가 본 적 없는 것 — 가 있는 탁상 연습에 참여시키면, 그들은 얼어붙는다. 그들은 정상이 무엇인지 배우지 못했기 때문에 무엇을 찾아야 할지 모른다. 그들은 AI가 비정상이라고 생각하는 것이 무엇인지 배웠는데, 이는 완전히 다른 것이다."

이것이 우리가 사전 분류된 분석가 효과라고 부르는 것입니다: 주니어들은 시스템이 이미 잘 프레임화한 사례를 처리하는 데 능숙해지지만, 프레임 자체가 잘못되었을 때를 알아차리는 능력을 잃게 됩니다. Verizon의 연간 Data Breach Investigations Report는 주요 침해 사고들이 도구의 부족 때문이 아니라 미묘한 신호들이 무시되고, 상관관계가 도출되지 않으며, 비정상적인 행동이 정상화되기 때문에 놓치는 경우가 반복적으로 많다는 것을 보여줍니다. 방어의 가장 어려운 부분은 데이터를 수집하는 것이 아닙니다. 중요성을 인식하는 것입니다. WannaCry, SolarWinds, Log4Shell을 경험한 선임 세대가 향후 10년 동안 은퇴하면, 우리는 전문성 부채를 정면으로 맞닥뜨리게 될 것입니다 — 알려진 조건 하에서는 완벽하게 작동하지만 새로운 조건 하에서는 붕괴하는 SOC들을 말입니다.

수술: 감별진단을 소유한 적이 없는 의사

일반외과 레지던트의 초기 몇 년은 역사적으로 개복 수술 중 견인기를 잡고 오랜 시간을 보내고, 수백 건의 일상적인 충수절제술과 담낭절제술을 시행하며, 어떤 교과서나 시뮬레이션도 완전히 복제할 수 없는 살아있는 해부학적 구조에 대한 3차원적 이해를 발전시키는 것을 포함했습니다. 그들은 긴장 상태에서 조직이 어떻게 행동하는지 지켜봤습니다. 그들은 출혈이 실시간으로 어떻게 나타나는지 봤습니다. 그들은 자신의 손으로 건강한 조직과 병든 조직 간의 차이를 느꼈습니다. 이것이 1단계 몰입 — 최대한의 주의와 결과가 있는 조건 하에서 보조 없는 지각적 학습이었습니다.

로봇 수술 시스템, 특히 Intuitive Surgical da Vinci 플랫폼은 여러 전문 분야를 변화시켰습니다. 2023년까지 이 시스템은 전 세계적으로 약 160만 건의 시술에 사용되었습니다. 환자 결과는 여러 시술 범주에서 개선되었습니다. 출혈이 줄어들었습니다. 입원 기간이 단축되었습니다. 이 기술은 진정으로 놀라운 것입니다.

그러나 훈련 경로가 바뀌었습니다. George, Strauss 등이 JAMA Surgery에 발표한 2022년 연구에 따르면, 주로 로봇 시스템으로 훈련받은 레지던트들은 표준 시술에 대한 기술적 숙련도 습득은 더 빨랐지만 합병증이 발생했을 때 개복 수술로 전환하는 능력은 감소했습니다. British Journal of Surgery의 2023년 사설은 현재 세대의 외과 수련의들이 개복 기법으로의 전환을 요구하는 수술 중 위기를 관리할 준비가 덜 되어 있다고 명시적으로 경고했습니다. "우리는 뛰어난 콘솔 조작자인 외과의들을 훈련시키고 있으며," 저자들은 썼습니다, "콘솔이 문제를 해결할 수 없을 때 무슨 일이 일어나는지 물어봐야 합니다."

동시에, AI 진단 도구들이 인지적 파이프라인을 재편하고 있습니다. 수련의가 자신만의 인상을 형성하기 전에 AI가 가능한 진단을 제공할 때, 우리가 차용된 감별진단 현상이라고 부르는 것이 만들어집니다: 학습자는 AI가 제안한 진단을 평가하는 데는 숙련되지만, 독립적으로 이를 구성하는 생성 능력을 완전히 발전시키지 못하게 됩니다. 간단한 사례에서는 제안을 평가하는 것으로 충분할 수 있습니다. 드물거나 비정형적인 발현 — 진단 오류가 생명을 앗아가는 사례들 — 에서는 그렇지 않습니다. 미국 National Academies의 2015년 보고서 Improving Diagnosis in Health Care는 대부분의 사람들이 평생 적어도 한 번은 진단 오류를 경험할 것이라고 결론지었습니다. 더 나은 도구들이 도움이 될 수 있습니다. 그러나 이러한 도구들이 임상적 추론의 형성을 감소시킨다면, 평균적인 경우의 효율성은 향상시키지만 가장자리에서 가장 중요한 회복력은 약화시킬 수 있습니다.

이것의 무게를 느껴보세요: 알고리즘과 로봇 콘솔에는 뛰어나지만 일상적인 시술로 예상되었던 것에서 예상치 못한 동맥 출혈에 직면한 젊은 외과의. 로봇의 가이드 시스템은 이 해부학적 변이에 대한 프로토콜이 없습니다. 무엇을 해야 하는지 알았을 주치의는 작년에 은퇴했습니다. 환자의 가족은 진짜 실패가 몇 년 전, 효율성이라는 명목으로 훈련 파이프라인이 공허해졌을 때 일어났다는 것을 결코 알지 못할 것입니다.

법무: 빠진 것을 위해 읽는 법을 배우지 못한 어소시에이트

주니어 소송 어소시에이트의 전통적인 길은 문서 검토를 포함했습니다 — 관련 문서, 특권 통신, 잠재적 증거를 식별하기 위해 수천 페이지의 증거개시를 읽는 것. 이는 젊은 변호사가 되는 것의 가장 나쁜 부분으로 널리 여겨졌습니다. 또한 이는 주니어 변호사들이 변호사처럼 읽는 법을 배우는 과정이기도 했습니다: 증언을 모순시키는 문장을 알아차리고, 상대방이 흐리고 싶어하는 타임라인을 확립하는 이메일을 인식하며, 결국 선임 파트너가 방에 들어와서 계약서를 읽고 20분 안에 "문제는 Section 4.3(b)에 있다"고 말할 수 있는 능력이 되는 패턴 인식을 발전시키는 것.

Relativity의 aiR, Harvey, CoCounsel 및 기타 AI 기반 문서 검토 도구들은 2023년 Thomson Reuters Institute 연구에 따르면 1차 검토 시간을 60-80% 단축시켰습니다. 어소시에이트들은 더 일찍 초안 작성, 고객 상호작용, 전략으로 이동하고 있습니다. 이는 진전처럼 들립니다.

그러나 2024년 Georgetown Law Center 보고서는 주니어 어소시에이트들이 원시 사실 자료에 대한 노출이 현저히 적은 상태로 "신뢰받는 조언자" 단계에 도달하고 있다고 우려를 표명했습니다. "빠진 것을 위해 읽는 기술은," 한 선임 파트너가 Georgetown의 연구자들에게 말했습니다, "현재 있는 것에 대한 AI 생성 요약을 검토함으로써는 가르쳐질 수 없습니다." American Bar Foundation의 종단 데이터는 가장 효과적인 선임 소송변호사가 된 어소시에이트들이 압도적으로 경력 초기에 문서 검토에 가장 많은 시간을 보낸 사람들이었다고 시사합니다 — 문서 검토가 본질적으로 가치 있기 때문이 아니라, 그것이 그 이후의 모든 것을 알려주는 사실적 패턴 라이브러리를 구축하는 곳이었기 때문입니다.

이것이 작동 중인 초안 대체 효과입니다: 변호사들이 쟁점 발견 능력, 논증 구조, 위험 직관을 구축하는 정확한 인지적 노동을 제거하는 것. 2023년, 연방 법원의 변호사들은 ChatGPT가 날조한 존재하지 않는 사례들을 인용하는 서면을 제출했습니다 — 세련된 AI 출력이 날조된 내용을 가릴 수 있다는 공개적이고 당황스러운 증명. 그러나 더 큰 위험은 가짜 인용보다 더 미묘합니다. 논증이 어디서 취약한지, 인용 체인이 어디서 의심스러운지, 계약상의 문구가 몇 년 동안 표면화되지 않을 하위 책임을 어디서 만들어내는지에 대한 본능을 발전시키는 것을 멈추는 세대의 변호사들입니다.

엔지니어링: 실패로부터 배우지 못한 빌더

엔지니어링 판단은 단순히 계산적 기술이 아닙니다. 특히 모델들이 예측하지 못한 조건들에서 시스템이 실제 조건 하에서 어떻게 행동하는지에 대한 내재화된 이해입니다. 이러한 이해는 어떤 교과서나 AI 시스템도 완전히 포착하지 못하는 제약, 실패, 트레이드오프와의 접촉을 통해 구축됩니다.

주니어 구조 엔지니어의 첫 몇 년은 전통적으로 손으로 또는 기본 소프트웨어로 계산을 수행하고, 설계 코드에 대해 작업을 확인하며, 단순히 오류뿐만 아니라 코드 요구사항 뒤의 추론을 설명하는 선임 엔지니어에 의해 계산을 검토받는 것을 포함했습니다. Autodesk의 생성 설계, AI 기반 코드 완성, 자동화된 시뮬레이션 플랫폼을 포함한 AI 지원 설계 도구들은 이제 최소한의 인간 입력으로 코드 요구사항을 충족하는 설계를 생성할 수 있습니다. 2023년 McKinsey 보고서는 생성 AI가 현재 주니어 엔지니어들이 수행하는 일상적인 계산과 코드 확인의 40-60%를 자동화할 수 있다고 추정했습니다.

소프트웨어 엔지니어링에서는 채택이 훨씬 더 진전되었습니다. GitHub는 Copilot을 사용하는 개발자들이 AI 생성 코드 제안을 최대 46%의 시간 동안 수락한다고 보고합니다. 한때 단일 메모리 누수를 추적하거나 동시성 문제를 디버깅하는 데 48시간을 보내고 — 그리하여 시스템의 구조적 논리를 배웠던 — 주니어 엔지니어들은 이제 몇 초 안에 작동하는 솔루션을 받습니다.

그 결과가 우리가 능력 시뮬레이션 함정이라고 부르는 것입니다: 엔지니어 주변의 시스템이 매우 생성적이기 때문에 엔지니어는 높은 생산성을 보이는 것처럼 보이지만, 생산이 새로운 방식으로 실패할 때 — 피로 하중 하에서 예상치 못하게 거동하는 재료, 모델이 예상하지 못한 네트워크 분할에 직면하는 분산 시스템, 현장 조건에서만 나타나는 진동 패턴 — 그들은 기본 원리부터 추론하는 데 필요한 내재적 모델이 부족합니다.

Institution of Structural Engineers의 2019년 전문성 개발 보고서는 현재의 AI 물결 이전에, 실무 계산 경험의 감소는 "계산 도구만으로는 복제할 수 없는 엔지니어링 판단력의 개발을 저해할 것"이라고 경고했습니다. 생성형 AI는 이러한 우려를 한 자릿수 증폭시켰습니다.

엔지니어링 역사는 엄중한 경고를 제공합니다. Tacoma Narrows Bridge 붕괴, Therac-25 방사선 과다 조사, Challenger 재해, Boeing 737 MAX 위기 — 각각은 다른 직접적 원인을 포함했지만, 모두 같은 진실을 강조합니다: 기술적 작업이 근거 있는 인간의 판단, 정보에 입각한 반대 의견, 그리고 결과에 대한 체험적 이해와의 연결을 잃을 때 시스템은 파국적으로 실패합니다. AI가 다음 그러한 실패를 직접적으로 야기하지는 않을 것입니다. 하지만 그것들을 방지해야 할 사람들의 형성을 약화시킨다면, 그것은 인과 사슬의 일부가 됩니다.

Financial Analysis: 현실을 제외한 모든 것을 모델링할 수 있는 분석가

주니어 금융 분석가의 첫 해들은 처음부터 모델을 구축하는 것을 포함합니다: 원시 데이터로 스프레드시트를 채우고, 일관성 없는 부분을 식별하고, 가정을 만들고, 민감도를 테스트하고, 모든 가정을 심문하는 시니어 분석가들에게 결론을 제시하는 것입니다. 그 심문이 교육입니다. 전무이사가 "왜 10% 대신 12% 할인율을 사용했나요?"라고 물을 때 주니어 분석가가 그 선택을 변호할 수 없다면, 그 순간의 감정적 불편함은 어떤 도구도 복제할 수 없는 엄밀함에 대한 교훈을 부호화합니다.

Bloomberg Terminal의 AI 기능, JPMorgan의 내부 도구, Morgan Stanley의 GPT-4 기반 시스템, 그리고 수십 개의 fintech 플랫폼이 이제 금융 모델링, 데이터 수집, 예비 분석의 상당 부분을 자동화합니다. 2024년 Accenture 설문조사에 따르면 금융 서비스 회사의 75%가 분석가 워크플로에 생성형 AI를 배포하거나 시범 운용하고 있었습니다. Ernst & Young은 AI가 3년 내에 주니어 금융 분석가가 수행하는 업무의 최대 50%를 자동화할 수 있을 것으로 추정했습니다.

이것은 마찰 없는 모델 착각을 만들어냅니다: 분석은 더 빠르고 더 세련되어지지만 분석가는 모델을 취약하게 만드는 가정들에 덜 익숙해집니다. 2025년에 경력을 시작하는 주니어 분석가들은 처음부터 더 적은 모델을 구축하고, 원시 데이터에서 더 적은 시간을 보내며, 자신의 오류를 통해 데이터 소스가 신뢰할 수 없거나 역사적 추세가 단순한 외삽을 무효화하는 구조적 단절을 포함한다는 것을 발견할 가능성이 더 낮을 것입니다.

우리는 파괴적인 역사적 선례를 가지고 있습니다. 2008년 금융 위기는 상당 부분 전문성 부채의 위기였습니다 — 주택 가격이 전국적으로 하락할 수 없다고 가정하는 모델에 대해 훈련받은 리스크 관리자 세대가 모델의 가정 밖에서 추론하도록 강요받은 적이 없었기 때문에 모델이 틀렸다는 것을 인식할 판단력이 부족했습니다. 모델들은 작동하지 않을 때까지는 작동했고, 작동하지 않았을 때는 첫 번째 원리부터 생각할 수 있는 사람이 회의실에 충분하지 않았습니다. 건강한 금융 문화는 우아함을 의심하는 분석가들을 생산합니다. 건강하지 않은 문화는 사후에 어떤 결과든 설명할 수 있는 사람들을 생산합니다.

Teaching: 분위기를 읽는 법을 배운 적이 없는 교육자

교육은 가장 결정적인 사례일 수 있는데, 여기서 위험에 처한 파이프라인이 바로 사회가 다른 모든 사람들의 다음 세대를 형성하는 파이프라인 자체이기 때문입니다.

교사들은 계획, 교육 전달, 그것이 성공하거나 실패하는 것을 관찰, 멘토와 교실 자체로부터 피드백 받기, 그리고 수정하는 반복된 사이클을 통해 전문성을 개발합니다. 3-5년 내에 효과적인 교사들은 Stanford의 Lee Shulman이 1986년에 교육학적 내용 지식이라고 식별한 것을 개발합니다 — 단순히 자신의 과목에 대한 이해가 아니라, 학생들이 그것을 어떻게 오해하는지, 어디서 막힐 것인지, 어떤 표현이 이해를 열어줄 것인지에 대한 직관적 파악입니다. 이 개념은 수백 개의 후속 연구에서 검증되었습니다.

AI 튜터링 시스템과 교사 지원 도구들 — Khan Academy의 Khanmigo, Carnegie Learning의 플랫폼들, 그리고 수많은 다른 도구들 — 이 이제 수업 계획을 생성하고, 평가를 만들고, 개별화된 교육을 제공하며, 학생 글쓰기에 피드백을 제공할 수 있습니다. 이러한 도구들 중 많은 것들이 과중한 업무에 시달리는 교사들에게 진정한 안도감을 제공합니다.

하지만 AI 생성 수업 계획, 평가, 개입 제안을 받는 1년차 교사는 처음부터 계획하고, 그것이 실패하는 것을 보고, 왜 그런지 파악하는 완전한 사이클을 거치지 않습니다. 이것은 교육학적 외주 효과를 생산합니다: 교사는 점점 더 세련된 교육 아티팩트를 전달하면서 라이브 교실에 반응하는 데 필요한 적응적 판단력은 덜 개발됩니다. 셋째 줄의 학생은 분수에 대해 혼란스러워하는 것이 아니라 등호가 무엇을 의미하는지에 대해 혼란스러워하는 것이고, 교사가 자신의 힘든 경험을 통해 그 구별을 보는 법을 배울 때까지는 어떤 AI 생성 수업 계획도 그것을 다루지 않을 것입니다.

교실은 감정, 주의, 문화, 오해, 지루함, 두려움, 유머, 그리고 사회적 전염의 장입니다. 훌륭한 교사들은 단순히 내용을 제시하지 않습니다. 그들은 분위기를 읽습니다. 그들은 수업이 언제 놓쳤는지, 학생의 침묵이 혼란을 의미하는지 수치심을 의미하는지, 수업이 언제 다음으로 넘어갈 준비가 되었는지를 압니다. 그 능력은 AI가 이제 처리하겠다고 약속하는 바로 그 작업의 수천 번의 반복을 통해 구축됩니다.

교육이 다른 모든 직업을 형성하기 때문에, 여기서의 붕괴는 다른 모든 것을 복합적으로 악화시킵니다.

Part III: 전문성 부채 축적 모델

파이프라인이 깨지고 있다면, 왜 시스템이 이미 실패하지 않고 있을까요? 우리가 전문성 부채 축적 모델이라고 부르는 구조적 역학에 의해 지배되는 잠복 기간에 들어갔기 때문입니다 — 파이프라인이 파괴된 후 수년 동안 조직과 전체 직업이 어떻게 정상적으로 기능하는 것처럼 보일 수 있고, 심지어 기록적인 생산성을 보고할 수 있는지를 설명하는 구조적 역학입니다. 부채는 보이지 않습니다. 조용히 복리로 증가합니다. 그리고 한꺼번에 만기가 됩니다.

1단계: 보이지 않는 축적 (1-5년)

AI 도구들이 배포됩니다. 생산성 지표들이 개선됩니다. 주니어 실무자들이 더 빠르게 발전하는 것처럼 보입니다. 시니어 실무자들은 여전히 존재하며 백스톱 판단을 제공합니다 — 환각된 판례 인용을 잡아내고, AI가 놓친 이상 현상을 발견하고, 모델의 가정이 성립하지 않는 때를 아는 것입니다. 조직은 그 어느 때보다 건강해 보입니다. 아무도 주니어들이 배우지 않고 있는 것을 측정하지 않는데, 판단력 형성에 대한 지표가 없기 때문입니다. 성과 평가는 산출물을 포착합니다. 그들은 그 뒤에 있는 이해의 깊이를 포착하지 않습니다.

2단계: 능력 신기루 (5-10년)

첫 번째 AI 훈련 코호트가 중간 경력에 도달합니다. 그들은 전문성을 함의하는 직책을 가집니다. 자격증을 가지고 있습니다. AI가 달성하도록 도운 산출 지표를 바탕으로 승진됩니다. 하지만 그들의 판단력에는 자신도 인식하지 못할 수 있는 공백이 있습니다 — 자신의 능력의 경계를 배우기 위해 충분한 무보조 오류-피드백 사이클을 거치지 않았기 때문에 메타인지적 보정이 완전히 발달하지 않았습니다. 시니어 세대가 은퇴하기 시작합니다. 각 은퇴는 사람뿐만 아니라 여전히 존재했던 파이프라인을 지탱했던 피드백 네트워크의 노드를 제거합니다. 중간 경력 실무자들이 정상적인 조건 하에서 허용 가능한 결과를 생산하기 때문에 조직은 알아차리지 않습니다.

3단계: 절벽 (10-15년)

비정상적인 상황이 발생합니다. 새로운 위기입니다. AI 시스템과 그와 함께 훈련받은 실무자들의 훈련 분포를 벗어난 상황입니다. 비정형적인 양상을 보이는 새로운 팬데믹. 어떤 모델도 본 적 없는 취약점을 노리는 zero-day 익스플로잇. 역사적 데이터로는 예측할 수 없는 방식으로 작동하는 금융 상품. 어떤 시뮬레이션 매개변수에도 없는 구조적 실패 모드. 어떤 템플릿과도 맞지 않는 학생들로 가득한 교실.

조직은 숙련된 인력을 찾아보지만 그들이 사라졌다는 것을 발견합니다. 그들을 대체해야 했던 중견 전문가들은 직책은 있지만 판단력은 없습니다. AI 시스템은 인간에게 에스컬레이션합니다. 인간에게는 의존할 것이 없습니다.

조직은 실패합니다. 점진적으로가 아니라. 갑자기.

역사적 선례

이러한 역학은 새로운 것이 아닙니다 — AI는 단지 그것을 보편적이고 동시적으로 만들고 있을 뿐입니다.

NASA 엔지니어 인력은 Apollo 이후 이와 같은 버전을 경험했습니다. Saturn V를 설계하고 직접 경험을 통해 실패 모드를 이해했던 엔지니어들이 1980년대와 1990년대를 거쳐 은퇴했습니다. 시스템 한계에 대한 제도적 지식이 침식되었습니다. Columbia Accident Investigation Board Report (2003)는 7명의 우주인이 사망한 재해의 기여 요인으로 엔지니어링 전문성과 제도적 지식의 상실을 명시적으로 확인했습니다. Diane Vaughan의 Challenger에 대한 사회학적 분석인 The Challenger Launch Decision (1996)은 일탈의 정상화가 시스템 한계에 대한 체화된 지식을 가진 엔지니어들의 퇴직에 의해 부분적으로 가능해졌음을 기록했습니다.

원자력 발전 산업은 이를 "지식 관리 위기"라는 이름으로 연구해왔습니다. 2021년 International Atomic Energy Agency 보고서는 현재의 전 세계 원자로 플릿을 건설하고 가동한 세대의 은퇴와 부적절한 지식 전수가 결합되어 전 세계 원자력 안전에 체계적 위험을 구성한다고 경고했습니다. 보고서는 특히 암묵적 지식이 전수하기 가장 어렵고 잃었을 때 가장 중대한 결과를 가져온다고 지적했습니다.

2008년 금융 위기는 위험 관리 전문직에서의 전문성 부채를 보여주었습니다. 모델과 지표들은 모든 것이 괜찮다고 보여주었습니다 — 모든 것이 파국적이라고 보여주는 순간까지, 그리고 모델을 벗어나서 추론할 수 있는 실무자는 너무 적었습니다.

AI는 첫 번째 전문성 부채 위기를 일으키고 있는 것이 아닙니다. 이는 첫 번째 보편적이고 동시적인 위기를 일으키고 있습니다. 모든 분야를 동시에 강타하여, 모든 분야에서 동일한 발달 단계를 동시에 자동화하고 있기 때문입니다.

4부: Hollow Senior 문제

세 번째 프레임워크는 위기 지점 자체를 명명합니다.

Hollow Senior 문제는 조직이 고위직을 살펴보고 두 종류의 고위 인력을 발견하는 구체적인 순간을 설명합니다: AI 이전에 The Judgment Pipeline을 거친 Full Senior들과, AI 시대에 고위직에 도달하여 전문가의 자격증, 재직 기간, 성과 이력은 있지만 진정한 판단력을 생성하는 발달 단계를 완료하지 못한 Hollow Senior들입니다.

Hollow Senior는 무능하지 않습니다. 그들은 매우 지적이고, 근면하며, 자격을 갖추었고, 겉보기에 높은 성과를 낼 수 있습니다. 정상적인 조건 하에서는 Full Senior보다 더 생산적일 수 있습니다. 차이는 스트레스 상황에서만 보입니다 — 상황이 새로울 때, AI 도구가 실패하거나 오해의 소지가 있는 결과를 생성할 때, 누군가 아무도 본 적 없는 것에 대해 제1원리부터 추론해야 할 때.

Hollow Senior 문제는 Hollow Senior들이 자신이 hollow하다는 것을 모르기 때문에 특별히 위험합니다. 이는 메타인지적 보정 연구의 직접적인 결과입니다: AI가 자신의 판단이 약한 부분을 가르쳐주었을 실패를 경험하지 못하게 했다면, 자신의 격차에 대한 내적 신호가 없습니다. 전문가처럼 느껴집니다. 전문가처럼 보입니다. 성과 평가가 이를 확인합니다.

문제는 구체적이고 인식 가능한 방식으로 나타납니다:

추천사항을 승인할 수는 있지만 제1원리로부터 추천사항을 생성하는 데 어려움을 겪습니다.
결과물을 비판할 수는 있지만 미묘하고 고위험한 잘못됨을 안정적으로 탐지할 수 없습니다.
선례를 따를 수는 있지만 선례가 실패할 때 얼어붙습니다.
도구를 능숙하게 사용할 수는 있지만 근본적인 판단을 가르칠 수 없습니다.
워크플로를 관리할 수는 있지만 형성을 멘토링할 수 없습니다.

이 프레임워크가 세대적 모욕이나 문지기 메커니즘으로 쉽게 무기화될 수 있기 때문에 여기서 주의해야 합니다. 이것은 둘 다 아닙니다. Hollow Senior 문제는 젊은 전문가들의 지능, 인격, 또는 직업 윤리에 대한 논평이 아닙니다. 이는 우리가 그들을 배치하고 있는 환경에 대한 구조적 비판입니다. 로봇 시스템에서만 훈련받은 뛰어난 젊은 외과의사는 개방 수술로 훈련받은 나이 든 외과의사보다 재능이 부족하지 않습니다. 그들은 특정 범주의 위기에 대해 덜 준비되어 있습니다. 그런 준비를 개발할 기회를 결코 받지 못했기 때문입니다. 실패는 시스템에 속하는 것이지, 개인에게 속하는 것이 아닙니다.

하지만 결과는 수술대 위의 환자에게 속합니다. 법정의 의뢰인에게. 댐 하류의 도시에게. 교실의 학생들에게. 새벽 3시에 대기하는 분석가에게 네트워크를 맡기는 회사에게.

5부: 연구가 말하는 것

이러한 메커니즘에 대한 경험적 증거는 견고하고 증가하고 있으며, 인지 과학, 인간 요인 연구, 그리고 새로운 AI 특화 연구를 기반으로 합니다.

Generation Effect

Slamecka와 Graf (1978)부터 시작된 수십 년의 연구는 개인이 스스로 생성한 정보가 — 노력과 오류를 수반하더라도 — 수동적으로 받은 정보보다 훨씬 잘 유지된다는 것을 보여줍니다. 실무자가 검토할 답변, 초안, 진단, 또는 분석을 생성하는 AI 도구는 Generation Effect와 구조적으로 양립할 수 없습니다. 검토는 생성이 아닙니다. 인지적 요구는 범주적으로 다르며, 학습 결과도 그에 따라 달라집니다.

자동화 안주와 편향

Parasuraman과 Manzey가 Human Factors (2010)에 발표한 기초 논문은 자동화된 의사결정 보조 도구를 사용하는 인간이 보조 도구의 가변성에 대해 명시적으로 경고받았음에도 불구하고 일관되게 안주 — 경계와 독립적 검증의 감소 —를 발달시킨다는 것을 확립했습니다. Goddard, Regan 등이 AI 기반 진단 도구를 사용하여 수행한 2023년 재현 연구는 AI에서 이 효과가 이전 자동화보다 훨씬 강했다는 것을 발견했는데, 이는 AI 결과물이 언어적으로 유창하고 신뢰 휴리스틱을 촉발하는 확신을 가지고 제시되기 때문일 가능성이 높습니다. 우리는 생물학적으로 유창한 언어를 신뢰하도록 프로그래밍되어 있습니다. AI는 의도하지 않고도 이를 이용합니다.

바람직한 어려움 원리

Elizabeth Bjork와 Robert Bjork는 30년을 들여 단기적으로 학습을 더 어렵게 만드는 조건들 — 간격두기, 끼워넣기, 피드백 감소, 강제 인출 —이 장기적으로 지식을 더 지속가능하고 전이가능하게 만든다는 증거를 수집했습니다. AI 지원은 정반대입니다. 투쟁을 줄이고, 즉각적인 답변을 제공하며, 기억에서 인출할 필요를 제거함으로써 단기적으로 학습을 더 쉽게 만듭니다. AI를 좋은 생산성 도구로 만드는 모든 메커니즘이 그것을 나쁜 학습 환경으로 만듭니다.

인지적 오프로딩

Dahmani와 Bherer가 Scientific Reports (2020)에 발표한 연구는 GPS 내비게이션에 크게 의존하는 성인들이 공간 기억을 담당하는 뇌 영역인 해마의 회백질에서 측정 가능한 감소를 보였다는 것을 발견했습니다. Luo, Peng 등이 AI 어시스턴트에 대한 인지적 오프로딩에 관해 Nature Human Behaviour (2024)에 발표한 연구는 단 3개월 기간에 걸쳐 문제 해결 능력에 유사한 효과를 발견했습니다. 외부 시스템이 인지적 부하를 담당할 때, 독립적 판단을 생성하는 내부 시스템은 발달하지 않거나 능동적으로 위축됩니다.

Einstellung 효과

전문가 문제 해결에 대한 Bilalić, McLeod, 그리고 Gobet (2008)의 연구는 전문가들이 때때로 최적 해결책을 찾지 못하는 이유가 패턴 인식이 익숙하지만 차선책인 반응을 유발하기 때문임을 보여주었다. 이에 대한 교정책 — 익숙한 패턴이 실패하는 상황을 마주하는 것 — 이 바로 AI 지원이 방지하는 종류의 오류 경험이다. AI가 항상 최적의 해결책을 제공한다면, 실무자는 자신의 직관적 접근법이 틀렸음을 결코 발견하지 못하고, 패턴 라이브러리를 업데이트하지 못한다.

AI와 기술에 대한 새로운 증거

AI 코딩 및 작성 도구에 크게 의존하는 것이 산출물을 증가시키는 동시에 사용자가 나중에 해결책을 기억하고, 설명하고, 독립적으로 재현하는 능력을 감소시킬 수 있다는 최근의 실험적 증거가 일부 나타나고 있다. 문헌은 아직 새로운 분야이지만, 메커니즘은 이미 다른 영역에서 잘 확립되어 있다: 도구가 인지적 부담을 더 많이 떠안을 때, 작업자는 더 적게 학습한다. 수십 년간 자동화 연구에서 문서화된 동일한 역학이 이제 인지적 영역에서 작동하고 있음을 인식하기 위해 20년간의 종단 연구가 필요하지 않다. 그러한 인식만으로도 행동하기에 충분하다.

파트 VI: 왜 아무도 이것을 추적하지 않는가

어떤 조직도 전문성 부채를 측정하지 않는 이유는 구조적이다: 조직이 AI의 영향을 평가하기 위해 사용하는 지표들이 모두 단기 생산성 지표이고, The Judgment Pipeline은 5-15년의 시간 규모로 작동한다.

조직들은 완료된 티켓, 생성된 보고서, 배송된 코드, 환자 처리량, 계약 처리 시간, 절약된 청구 시간을 추적한다. 그들은 후배들이 AI 산출물을 보기 전에 독립적인 판단을 얼마나 자주 형성하는지, 훈련생이 종단간으로 처리한 원시 사례가 몇 개인지, 사람들이 권고사항이 왜 정확한지 설명할 수 있는지, 훈련생들이 제한된 실수를 얼마나 자주 경험하고 회복하는지, 또는 AI가 틀렸거나 부재하거나 모호할 때 벤치가 기능할 수 있는지를 거의 추적하지 않는다.

이는 The Metric Blindness Problem을 야기한다: 조직들은 세기 쉬운 것을 최적화하고 세기는 어렵지만 문명이 의존하는 것을 보호하는 데 실패한다.

전문성에 대한 GAAP는 없다. 판단력에 대한 대차대조표 항목은 없다. "올해 이 조직의 전문성 보유량이 안정적인 인원과 증가하는 산출량에도 불구하고 15% 감소했다"고 말하는 감사는 없다. 컨설팅 회사가 AI를 배치하고 주니어 어소시에이트들이 40% 더 빠르게 보고서를 작성할 때, 그것은 측정된다. 8년 후 같은 어소시에이트들이 파트너 수준에 도달했을 때 전임자들이 가졌던 판단력 없이 도달한다면, 그것은 개인적 부족함으로 귀속되고, 체계적 파이프라인 실패로 귀속되지 않는다.

이 부채는 누구의 의도적 설계에 의해서가 아니라, 능력이 아닌 효율성을 추적하기 위해 구축된 측정 시스템의 설계에 의해 보이지 않게 된다.

파트 VII: 위험에 처한 것들의 규모

숫자들이 추상적인 것을 구체적으로 만든다.

미국에는 약 95만 명의 현역 의사가 있다 (AAMC, 2023). 레지던시 기간 동안 발생해야 할 판단력 개발의 20%만이라도 AI 매개 지름길로 인해 손실된다면, 10년에 걸친 복합 효과는 수만 명의 완전히 훈련된 의사를 인력에서 제거하는 것과 같은 판단력 용량의 손실을 나타낸다 — 인원수에서가 아니라 판단력 수에서.

전 세계 사이버보안 인력 격차는 340만 개의 미충원 직책이다 (ISC², 2023). 업계의 해결책은 AI를 사용하여 기존 분석가들을 더 생산적으로 만드는 것이다. 이것이 동시에 새로운 분석가들의 개발을 저하시킨다면, 격차는 전이된다. 왜냐하면 2030년의 "생산적인" 분석가들이 가장 중요한 업무에 대해서는 2020년의 경험 있는 분석가들과 교체 가능하지 않을 것이기 때문이다.

미국에는 약 130만 명의 면허 변호사가 있다 (ABA, 2023). AI 문서 검토를 가장 적극적으로 채택하는 회사들은 대형 회사들이다 — 가장 많은 어소시에이트를 훈련시키는 회사들로, 그들은 이후 전체 직업 전반에 퍼진다. 상위 200개 회사가 동시에 훈련 파이프라인을 저하시킨다면, 그 효과는 10년 내에 전체 법조계에 전파된다.

American Society of Civil Engineers의 2021년 인프라 성적표는 10년간 2조 5,900억 달러의 투자 격차를 확인했다. 그 격차를 메우려면 인프라를 안전하게 설계, 건설, 유지할 판단력을 가진 엔지니어들이 필요하다. 그러한 엔지니어들을 배출하는 파이프라인이 저하된다면, 돈만으로는 격차를 메울 수 없다.

미국에는 약 370만 명의 공립학교 교사가 있다. 초기 경력 개발에서 AI 매개 지름길이 교육학적 전문성의 형성을 감소시킨다면, 그 효과는 연쇄적이다: 약한 교육이 약한 학습을 만들고, 이는 다른 모든 분야의 모든 미래 전문가들의 준비를 저하시킨다.

이 숫자들은 상호작용한다. 교육의 전문성 파이프라인은 다른 모든 파이프라인에 영향을 미친다. 금융 분석 파이프라인은 인프라에 대한 자본 할당에 영향을 미친다. 엔지니어링 파이프라인은 건설되는 모든 것의 안전에 영향을 미친다. 사이버보안 파이프라인은 다른 모든 것이 의존하는 모든 디지털 시스템에 영향을 미친다. 이는 독립적인 문제들의 집합이 아니다. 분야별 발현을 가진 단일한 체계적 취약성이다.

파트 VIII: 무엇을 해야 하는가

우리가 주장하지 않는 것에 대해 정확히 하고 싶다. 우리는 AI가 거부되어야 하거나 전문 훈련이 이를 무시해야 한다고 주장하지 않는다. AI 도구들은 강력하고, 종종 진정으로 유익하며, 많은 경우 필수불가결하다. 주장은 AI 채택이 인간 생산성뿐만 아니라 인간 형성을 중심으로 관리되어야 한다는 것이다.

이는 전문성 생산을 중요한 인프라 — 전력망, 상수도 시스템, 또는 금융 규제만큼 필수적인 — 로 다루고 의도적이고 구조적인 개입으로 이를 보호하는 것을 의미한다.

1. The Independent First Pass Rule

훈련이 풍부한 역할에서, 초보자들은 AI 산출물을 보기 전에 초기 진단, 초안, 분류 결정, 수업 계획, 코드 설계, 또는 분석을 형성해야 한다. 지원 이전의 생성이 학습 메커니즘을 보호한다. 이는 향수적 선호가 아니다. 인지과학이 요구하는 것이다.

2. The Unfiltered Case Requirement

훈련생들은 원시 자료 — 원시 로그, 원시 환자 증상, 원시 문서, 원시 데이터, 원시 학생 작업, 원시 시장 서류 — 와 정기적으로 접촉해야 하며, AI가 선별한 요약만이 아니어야 한다. 전문가들은 현실과의 접촉으로부터 만들어지는 것이지, 현실의 압축된 표현과의 접촉으로부터가 아니다.

3. Safe Failure Architecture

조직들은 초보자들이 감독 하에 제한되고 결과가 있는 실수를 할 수 있는 환경을 만들어야 한다. 이는 무모함에 대한 요구가 아니다. 오류의 정서적 부호화가 전문성 형성에 신경학적으로 필수적이라는 인식이다. 시뮬레이션은 보완할 수 있지만 실제 판단력을 요하는 업무를 대체할 수는 없다.

4. Process Visibility Standards

사람들이 자신의 추론을 설명할 수 있는지, 불확실성을 식별할 수 있는지, 대안을 명시할 수 있는지, AI 산출물이 틀릴 수 있는 때를 감지할 수 있는지 평가하라. 의존성에 의해 생성된 정답은 이해에 의해 생성된 정답과 같지 않다. 결과뿐만 아니라 추론을 평가하라.

5. The Apprenticeship Capacity Index

핵심 전문 워크플로우에서 AI를 배치하는 모든 조직은 추적해야 한다: 역사적으로 전문성을 구축한 주니어 업무는 무엇인가? 현재 자동화된 것은 무엇인가? 어떤 대체 개발 경험이 제공되고 있는가? 우리의 벤치가 진정으로 심화되고 있는지 어떻게 알 수 있는가? 이러한 질문들에 대한 답이 없다면, 조직은 전문성 부채를 축적하고 있다.

6. The Judgment Reservation Principle

일부 작업은 의도적으로 인간 주도로 남아야 한다 — AI가 할 수 없어서가 아니라, 인간이 하는 법을 배워야 하기 때문이다. 이는 단기적으로 비효율적으로 느껴질 것이다. 이는 나중에 전문가를 갖는 대가이다. 이 대가를 지불하기를 거부하는 조직들은 결국 대안을 감당할 수 없다는 것을 발견할 것이다.

결론: 잃어버리고 있는 것의 무게

모든 직업에는 방이 조용해지고 모든 사람이 한 사람을 바라보는 순간이 있다. 환자가 위험한 상태에 빠진다. 시스템이 침해당한다. 학생이 무너지고 있다. 시장이 급락하고 있다. 구조물이 삐걱거린다. 고객이 계약서에 서명할지 묻는다.

그 순간에 중요한 것은 그 사람이 도구에 접근할 수 있는지가 아니다. 그들이 형성되어 있는지이다.

그들이 패턴을 인식할 만큼 충분히 봤는가? 신중해질 만큼 충분히 틀렸는가? 침착함을 유지할 만큼 충분히 회복했는가? 진정으로 중요한 것이 무엇인지 알 만큼 충분한 책임을 져봤는가? 명백한 답도 없고 도움이 되는 시스템도 없을 때 생각하는 법을 배웠는가?

그 내적 구조 — 우리가 판단력이라고 부르는 것 — 는 어떤 문명이 생산하는 가장 소중하고 가장 취약한 것 중 하나이다. 천천히 성장한다. 개인에게 국한된다. 시험받는 순간까지는 종종 보이지 않는다. 그리고 이것이 바로 우리가 지금 보충하는 것보다 더 빨리 소모하고 있는 것이다.

우리는 심각한 범주 오류를 범하고 있다. 우리는 전문성의 산출물을 마치 전문성 자체인 것처럼 취급하고 있다. 그것들은 전문성이 아니다.

다듬어진 메모는 법적 판단력이 아니다. 그럴듯한 감별진단은 임상 판단력이 아니다. 작동하는 스크립트는 엔지니어링 판단력이 아니다. 분류된 경보는 보안 판단력이 아니다. 수업 계획은 교수 판단력이 아니다. 깔끔한 대시보드는 관리 판단력이 아니다.

그러한 산출물들은 중요하다. 하지만 그것들은 보이지 않는 발달 과정의 눈에 보이는 잔재이다. AI가 우리에게 그 과정을 소모하면서 잔재를 준다면, 우리는 아직 생각하는 법을 기억하는 사람들이 사라질 때까지 우리가 무엇을 포기했는지 깨닫지 못할 것이다.

그것이 조용한 재앙이다.

우리를 공격하는 기계가 아니다. 명확한 악역이 있는 극적인 실패가 아니다. 더 나쁜 것이다: 완전히 학습하지 못하는 세대. 전문성이 어떻게 만들어지는지 잊어버리는 기관. 역량의 실체는 잃으면서 역량의 겉모습은 유지하는 문명.

이것이 명백해질 때쯤이면, 재건에는 수년이 걸릴 것이다. 파이프라인은 하룻밤에 재시작될 수 없다. 왜냐하면 파이프라인은 그것을 거쳐온 멘토들에게 의존하기 때문이다 — 그리고 우리가 너무 오래 기다린다면, 그 멘토들도 사라질 것이다.

이것은 AI 안전 문제이다. 정렬 연구나 킬 스위치와 관련된 종류가 아니라, 인간 문명이 자신이 구축한 시스템을 감독하고, 수정하고, 필요할 때 무시할 수 있는 능력을 유지하는지를 결정하는 종류이다. 만약 우리가 압박 상황에서 독립적으로 사고할 수 있는 인간을 생산하는 능력을 잃는다면, 아무리 많은 AI 능력도 우리를 구하지 못할 것이다 — 왜냐하면 AI가 언제 틀렸는지 말할 수 있는 사람이 아무도 남지 않을 것이기 때문이다.

이제 문제는 더 이상 AI가 우리를 위해 무엇을 할 수 있는지만이 아니다.

우리가 AI로 하여금 너무 많은 것을 하게 한 후에 어떤 종류의 인간이 남을 것인지이다.