MIT가 노동자 17,000명에게 직접 물었다: 당신 직업에서 AI가 실제로 뭘 할 수 있나
MIT FutureTech의 새 연구는 자동화 전망을 뒤집었다. 전문가가 AI 영향을 예측하는 대신, 17,000명 이상의 노동자가 자기 직무의 실제 LLM 결과물을 채점했다. 결과는 누가 가장 노출됐는지에 대한 통념을 엎는다.
MIT 연구진이 노동자들에게 직접 물었다. "당신 직무에서 AI가 뭘 할 수 있고 뭘 못 합니까?" 답이 나왔는데, 자동화에 대한 통념을 꽤 뒤집는 내용이에요. 17,000건 이상의 실제 평가에서 — 그 일을 하는 본인들이 직접 LLM 결과물을 채점한 — 최신 모델들이 텍스트 기반 업무의 50%에서 75%를 "최소한 쓸 만한 품질"로 처리했어요. 이건 해일이 아니라 만조에 가까운 그림이고, 진짜 놀라운 건 누가 가장 노출되는가입니다.
당신이 법무 보조원이나 연구과학자고 "내 일은 너무 섬세해서 AI가 못 한다"고 확신해왔다면, 새 데이터는 (당분간은) 당신 편이에요. 반대로 설치·수리, 운송 물류, 건설 행정 분야라면 같은 데이터가 훨씬 덜 위안이 됩니다. MIT FutureTech 팀(Matthias Mertens, Neil Thompson 주도)이 2026년 3월에 발표한 예비 결과 "Crashing Waves vs. Rising Tides" (arXiv:2604.01363) 이야기예요.
이 연구가 중요한 이유는 — 지금까지 거의 모든 자동화 전망(Frey & Osborne 2013, OECD 2018, 골드만삭스 2023, Anthropic Economic Index 등)이 하향식이었거든요. 전문가나 모델이 task 분류표를 들여다보고 추측하는 방식. Mertens와 Thompson은 망원경을 거꾸로 돌렸어요.
아무도 제대로 안 해본 상향식 측정
경제학자나 AI한테 묻는 대신, MIT 팀은 현장 경력이 있는 노동자를 모집해서 그들 직업의 실제 업무에 대한 LLM 결과물을 보여줬습니다. 노동자들이 1-9점 척도로 채점했어요. 핵심 지표는 이진값: 모델이 "최소한 쓸 만한" 품질을 냈는가 — 즉 7점 이상, 사람이 수정 없이 쓸 수 있는 수준인가?
규모가 보통이 아닙니다:
- 지금까지 17,000건 이상의 task 평가 완료 (조사 진행 중)
- 미국 노동부 O\*NET DB에서 추출한 3,000개 이상의 광역 task 군
- 10,000개 이상의 O\*NET task에서 생성한 20,000개 이상의 고유 task 인스턴스
- 2025년 프런티어 모델 포함 40개 이상의 LLM 테스트
- GPT-4가 사전 필터링해서 시간 절감 잠재력이 최소 10%인 task만 유지
[사실] 조사된 모든 모델을 통틀어 성공률은 50%-75% 구간에 떨어졌습니다. [사실] 2025년 3분기 기준으로 프런티어 모델들은 인간이 "약 하루"가 걸리는 task에서도 50% 성공률에 도달했어요.
마지막 숫자가 모든 화이트칼라 노동자가 멈칫해야 할 지점입니다. 1년 전만 해도 비슷한 연구들은 15분짜리 task에서 AI를 측정하고 있었어요. 시야가 옮겨졌습니다.
노동자 본인들이 "가장 노출됐다"고 꼽은 직업군
상향식 방법론이 노동경제학자들 대다수가 예상 못 한 결과를 뽑아낸 지점입니다. LLM 성공률이 가장 높은 직업군은 로펌이나 연구소가 아니었어요. 이쪽입니다:
- 설치, 정비, 수리 — 성공률 72.5%
- 건설 및 추출 — 71.0%
- 운송 및 자재 운반 — 70.6%
- 음식 준비 및 서빙 — 65.5%
처음 보면 황당해요. AI가 냉장고를 못 고치고 트럭도 못 몰잖아요. 그런데 그 분야 노동자들이 한 말은 더 미묘했습니다. 그 직무의 텍스트 기반 부분 — 작업 지시서, 디스패치 라우팅, 안전 일지, 부품 발주, 공급업체 메일, 교육 자료, 고객 커뮤니케이션, 규제 체크리스트 — 가 매우 자동화하기 좋은 영역으로 드러난 거예요. 손으로 하는 물리 작업은 여전히 안전합니다. 그걸 둘러싼 서류 작업은 안 그렇고요.
이건 디스패처, 차량 관리자, 현장 감독들이 지난 2년 조용히 관찰해온 것과 일치합니다. "블루칼라" 직업군에는 이제 상당한 행정 레이어가 있고 — 대형 언어모델이 가장 잘하는 게 정확히 그 행정 레이어거든요.
당신 역할이 물리 운영의 행정 조율 위주라면, MIT 데이터는 다음 2년을 부정의 시간이 아니라 준비의 시간으로 다뤄야 한다고 말합니다.
노동자들이 "AI가 여전히 못 한다"고 한 직업군
뒤집어진 면도 저자들을 똑같이 놀라게 했어요. 성공률이 가장 낮은 군이 — 대중 담론이 가장 많이 "1순위 대체"라고 라벨링한 바로 그 직업군들이었거든요:
- 법률 — 46.8% (전체 연구에서 최저)
- 생명, 물리, 사회과학 — 51.8%
- 건축 및 엔지니어링 — 52.8%
[주장] 이건 도메인 전문가들이 실제 LLM 결과물을 채점하면서 반복해서 "쓰려면 상당한 수정이 필요하다"고 답한 지식 노동 분야들입니다. 인상적인 데모와 "최소한 쓸 만한 전문가급 결과물" 사이의 격차가 — 책임, 재현성, 구조 안전성 같은 — 리스크가 가장 큰 분야에서 가장 큽니다.
[추정] 한 가지 해석은 법률, 과학, 엔지니어링 업무는 매끄러운 문단이 아니라 검증된 추론의 사슬을 요구한다는 거예요. 또 다른 해석은 이 분야 전문가들이 음식 서비스 분야 전문가들보다 더 엄격한 품질 기준을 적용한다는 것. 둘 다 맞을 수 있죠. 실용적 함의는 같습니다. 법무보조원 종말론은 데이터보다 앞서 나갔어요. 바이오 연구원 종말론도 마찬가지. 실제 결과물을 검토하는 변호사와 과학자들은 별 감흥이 없습니다.
"만조"가 "해일"이 아니라는 게 이 논문에서 가장 중요한 한 문장인 이유
제목의 비유가 외워둘 만한 부분이에요. 해일이라면 AI가 어느 직업 하나를 통째로 한 번에 할 수 있게 되는 거예요 — 예를 들면 모든 법무보조원이 18개월 안에 대체되는 시나리오. 만조는 task 풍경 전반에 걸친 광범위하고 점진적인 상승 — 5년에 걸쳐 거의 모든 텍스트 노동자에게 15% 생산성 향상, 대체는 사람이 아니라 특정 task에 집중되는 패턴.
MIT 데이터는 해일이 아니라 만조 패턴을 보여줍니다. 성공률 대 task 난이도 곡선이 "놀라울 정도로 평평"하다고 저자들이 적었어요 — 진보가 단속적이 아니라 광범위하다. 본문은 명시적으로 적습니다. "진보는 일반적으로 만조에 가깝다. 광범위한 게인이 많은 task에 동시에 일어난다."
[사실] 이건 완전히 다른 관측 지점에서 — Claude 사용자들의 실제 대화 로그에서 — Anthropic Economic Index가 보고해온 패턴과 동일합니다. 두 가지 방법론, 두 가지 데이터 소스, 하나의 수렴 결론. AI는 직업 카테고리를 증발시키지 않고 있어요. 모든 직업 카테고리를 한꺼번에 재편하고 있습니다.
이건 정치적으로는 훨씬 다루기 어렵지만, 개인적으로는 다루기 쉬워요. 당신 업무의 60%가 30% 빨라진다면, 직업이 사라지진 않고 — 바뀝니다. 일을 더 받거나, AI가 못 하는 부분에 쓸 시간이 생기는 거죠.
저자들이 조심해서 "이 데이터는 이런 뜻이 아니다"라고 적은 부분
논문 6장의 정직함은 인용할 가치가 있어요. 저자들이 모든 독자가 새겨둬야 한다고 적은 한계점 네 가지:
- 결과는 텍스트 기반 또는 부분적 텍스트 기반 task에 한정됩니다. 대부분의 물리 작업은 구조적으로 제외됐어요.
- 결과는 "직업 자동화 비율로 직접 환산되지 않습니다" — "마지막 마일" 배포 비용, 통합 마찰, 규제 제약, 그리고 어떤 task가 조사 대상이 됐는지의 선택 편향 때문에.
- 전망은 "AI 진보가 지난 2년 페이스로 계속된다"는 가정 위에 있어요 — 상한 시나리오지 예측이 아닙니다.
- 조사는 진행 중입니다. 더 많은 직업이 샘플링되면 숫자는 변동할 수 있어요.
[주장] 다시 말해, 이건 — 그 일을 실제로 하는 사람들이 채점한 — AI가 이미 무엇을 할 수 있는가에 대한 현재 시점 최선의 증거입니다. 고용주가 무엇을 배포할지 또는 노동자가 무엇을 잃을지에 대한 증거는 아직 아니에요. 이 두 질문은 항상 다른 문제였고, 그 사이 간극이 정책이 사는 공간입니다.
이번 주에 진짜로 할 수 있는 일 (당신이 영향권에 있다면)
설치/수리, 운송 물류, 건설 행정, 음식 서비스 운영: 당신 역할의 텍스트·조율 레이어가 영향권 안에 있어요. 주간 task의 어떤 20%가 순수 텍스트인지 카탈로그하세요 — 이메일, 스케줄링, 보고서, 고객 커뮤니케이션, 부품 발주. 그것들을 처리하는 AI 도구 하나를 익히세요. 그렇게 절감한 시간을 — MIT 데이터가 여전히 AI가 못 따라간다고 말하는 — 물리적, 대인적 숙련을 더 깊게 하는 데 쓰세요.
법률, 과학, 엔지니어링 전문가: 데이터는 당신 LinkedIn 피드가 시사하는 것보다 더 긴 활주로가 있다고 말해요. 그 활주로를 — 기술을 무시하는 게 아니라 — 공세적 AI 리터러시를 쌓는 데 쓰세요. 회사나 연구실에서 AI가 정확히 뭘 줄 수 있고 뭘 못 주는지 가장 잘 아는 사람이 되세요. 당신 직무에 대한 MIT 점수가 논문 안에 있습니다. 읽으세요.
나머지 모두 — 사무직과 행정직의 거대한 중간, 의료 지원, 교육, 영업, 고객 서비스: 당신의 task는 통계적으로 65% 글로벌 평균 근처입니다. 만조 영역. 생산성 향상은 기대하세요, 역할 재설계도 기대하세요. 다음 24개월 안의 대량 대체는 기대하지 마세요.
출처
- Mertens, M., Thompson, N., et al. (2026). _Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks_. arXiv:2604.01363 (HTML)
- MIT FutureTech 연구 프로그램: https://futuretech.mit.edu
- 미국 노동부 O\*NET 데이터베이스 (연구 기반 task 분류표)
업데이트 이력
- 2026-05-14: MIT FutureTech 예비 결과(2026년 3월 초안) 기반 최초 게재.
_이 글은 AI 보조 분석(Claude Opus 4.7)으로 작성됐습니다. 기반 데이터는 MIT FutureTech의 동료 검토 가능한 사전 인쇄 연구이며, 해석과 강조는 편집상 선택입니다. MIT 조사가 직업 커버리지를 확대하는 대로 이 글도 업데이트합니다._
본 분석은 Anthropic Economic Index, 미국 노동통계국(BLS), O*NET 직업 데이터를 기반으로 합니다. 방법론 자세히 보기
업데이트 이력
- 2026년 5월 13일에 최초 게시되었습니다.
- 2026년 5월 13일에 최종 검토되었습니다.