research

MIT가 노동자 17,000명에게 직접 물었다: 당신 직업에서 AI가 실제로 뭘 할 수 있나

MIT FutureTech의 새 연구는 자동화 전망을 뒤집었다. 전문가가 AI 영향을 예측하는 대신, 17,000명 이상의 노동자가 자기 직무의 실제 LLM 결과물을 채점했다. 결과는 누가 가장 노출됐는지에 대한 통념을 엎는다.

글:편집자 겸 저자
게시일: 최종 수정:
AI 활용 작성저자 검토·편집 완료

MIT 연구진이 노동자들에게 직접 물었다. "당신 직무에서 AI가 뭘 할 수 있고 뭘 못 합니까?" 답이 나왔는데, 자동화에 대한 통념을 꽤 뒤집는 내용이에요. 17,000건 이상의 실제 평가에서 — 그 일을 하는 본인들이 직접 LLM 결과물을 채점한 — 최신 모델들이 텍스트 기반 업무의 50%에서 75%를 "최소한 쓸 만한 품질"로 처리했어요. 이건 해일이 아니라 만조에 가까운 그림이고, 진짜 놀라운 건 누가 가장 노출되는가입니다.

당신이 법무 보조원이나 연구과학자고 "내 일은 너무 섬세해서 AI가 못 한다"고 확신해왔다면, 새 데이터는 (당분간은) 당신 편이에요. 반대로 설치·수리, 운송 물류, 건설 행정 분야라면 같은 데이터가 훨씬 덜 위안이 됩니다. MIT FutureTech 팀(Matthias Mertens, Neil Thompson 주도)이 2026년 3월에 발표한 예비 결과 "Crashing Waves vs. Rising Tides" (arXiv:2604.01363) 이야기예요.

이 연구가 중요한 이유는 — 지금까지 거의 모든 자동화 전망(Frey & Osborne 2013, OECD 2018, 골드만삭스 2023, Anthropic Economic Index 등)이 하향식이었거든요. 전문가나 모델이 task 분류표를 들여다보고 추측하는 방식. Mertens와 Thompson은 망원경을 거꾸로 돌렸어요.

아무도 제대로 안 해본 상향식 측정

경제학자나 AI한테 묻는 대신, MIT 팀은 현장 경력이 있는 노동자를 모집해서 그들 직업의 실제 업무에 대한 LLM 결과물을 보여줬습니다. 노동자들이 1-9점 척도로 채점했어요. 핵심 지표는 이진값: 모델이 "최소한 쓸 만한" 품질을 냈는가 — 즉 7점 이상, 사람이 수정 없이 쓸 수 있는 수준인가?

규모가 보통이 아닙니다:

  • 지금까지 17,000건 이상의 task 평가 완료 (조사 진행 중)
  • 미국 노동부 O\*NET DB에서 추출한 3,000개 이상의 광역 task 군
  • 10,000개 이상의 O\*NET task에서 생성한 20,000개 이상의 고유 task 인스턴스
  • 2025년 프런티어 모델 포함 40개 이상의 LLM 테스트
  • GPT-4가 사전 필터링해서 시간 절감 잠재력이 최소 10%인 task만 유지

[사실] 조사된 모든 모델을 통틀어 성공률은 50%-75% 구간에 떨어졌습니다. [사실] 2025년 3분기 기준으로 프런티어 모델들은 인간이 "약 하루"가 걸리는 task에서도 50% 성공률에 도달했어요.

마지막 숫자가 모든 화이트칼라 노동자가 멈칫해야 할 지점입니다. 1년 전만 해도 비슷한 연구들은 15분짜리 task에서 AI를 측정하고 있었어요. 시야가 옮겨졌습니다.

노동자 본인들이 "가장 노출됐다"고 꼽은 직업군

상향식 방법론이 노동경제학자들 대다수가 예상 못 한 결과를 뽑아낸 지점입니다. LLM 성공률이 가장 높은 직업군은 로펌이나 연구소가 아니었어요. 이쪽입니다:

  • 설치, 정비, 수리 — 성공률 72.5%
  • 건설 및 추출71.0%
  • 운송 및 자재 운반70.6%
  • 음식 준비 및 서빙65.5%

처음 보면 황당해요. AI가 냉장고를 못 고치고 트럭도 못 몰잖아요. 그런데 그 분야 노동자들이 한 말은 더 미묘했습니다. 그 직무의 텍스트 기반 부분 — 작업 지시서, 디스패치 라우팅, 안전 일지, 부품 발주, 공급업체 메일, 교육 자료, 고객 커뮤니케이션, 규제 체크리스트 — 가 매우 자동화하기 좋은 영역으로 드러난 거예요. 손으로 하는 물리 작업은 여전히 안전합니다. 그걸 둘러싼 서류 작업은 안 그렇고요.

이건 디스패처, 차량 관리자, 현장 감독들이 지난 2년 조용히 관찰해온 것과 일치합니다. "블루칼라" 직업군에는 이제 상당한 행정 레이어가 있고 — 대형 언어모델이 가장 잘하는 게 정확히 그 행정 레이어거든요.

당신 역할이 물리 운영의 행정 조율 위주라면, MIT 데이터는 다음 2년을 부정의 시간이 아니라 준비의 시간으로 다뤄야 한다고 말합니다.

노동자들이 "AI가 여전히 못 한다"고 한 직업군

뒤집어진 면도 저자들을 똑같이 놀라게 했어요. 성공률이 가장 낮은 군이 — 대중 담론이 가장 많이 "1순위 대체"라고 라벨링한 바로 그 직업군들이었거든요:

  • 법률46.8% (전체 연구에서 최저)
  • 생명, 물리, 사회과학51.8%
  • 건축 및 엔지니어링52.8%

[주장] 이건 도메인 전문가들이 실제 LLM 결과물을 채점하면서 반복해서 "쓰려면 상당한 수정이 필요하다"고 답한 지식 노동 분야들입니다. 인상적인 데모와 "최소한 쓸 만한 전문가급 결과물" 사이의 격차가 — 책임, 재현성, 구조 안전성 같은 — 리스크가 가장 큰 분야에서 가장 큽니다.

[추정] 한 가지 해석은 법률, 과학, 엔지니어링 업무는 매끄러운 문단이 아니라 검증된 추론의 사슬을 요구한다는 거예요. 또 다른 해석은 이 분야 전문가들이 음식 서비스 분야 전문가들보다 더 엄격한 품질 기준을 적용한다는 것. 둘 다 맞을 수 있죠. 실용적 함의는 같습니다. 법무보조원 종말론은 데이터보다 앞서 나갔어요. 바이오 연구원 종말론도 마찬가지. 실제 결과물을 검토하는 변호사와 과학자들은 별 감흥이 없습니다.

"만조"가 "해일"이 아니라는 게 이 논문에서 가장 중요한 한 문장인 이유

제목의 비유가 외워둘 만한 부분이에요. 해일이라면 AI가 어느 직업 하나를 통째로 한 번에 할 수 있게 되는 거예요 — 예를 들면 모든 법무보조원이 18개월 안에 대체되는 시나리오. 만조는 task 풍경 전반에 걸친 광범위하고 점진적인 상승 — 5년에 걸쳐 거의 모든 텍스트 노동자에게 15% 생산성 향상, 대체는 사람이 아니라 특정 task에 집중되는 패턴.

MIT 데이터는 해일이 아니라 만조 패턴을 보여줍니다. 성공률 대 task 난이도 곡선이 "놀라울 정도로 평평"하다고 저자들이 적었어요 — 진보가 단속적이 아니라 광범위하다. 본문은 명시적으로 적습니다. "진보는 일반적으로 만조에 가깝다. 광범위한 게인이 많은 task에 동시에 일어난다."

[사실] 이건 완전히 다른 관측 지점에서 — Claude 사용자들의 실제 대화 로그에서 — Anthropic Economic Index가 보고해온 패턴과 동일합니다. 두 가지 방법론, 두 가지 데이터 소스, 하나의 수렴 결론. AI는 직업 카테고리를 증발시키지 않고 있어요. 모든 직업 카테고리를 한꺼번에 재편하고 있습니다.

이건 정치적으로는 훨씬 다루기 어렵지만, 개인적으로는 다루기 쉬워요. 당신 업무의 60%가 30% 빨라진다면, 직업이 사라지진 않고 — 바뀝니다. 일을 더 받거나, AI가 못 하는 부분에 쓸 시간이 생기는 거죠.

저자들이 조심해서 "이 데이터는 이런 뜻이 아니다"라고 적은 부분

논문 6장의 정직함은 인용할 가치가 있어요. 저자들이 모든 독자가 새겨둬야 한다고 적은 한계점 네 가지:

  1. 결과는 텍스트 기반 또는 부분적 텍스트 기반 task에 한정됩니다. 대부분의 물리 작업은 구조적으로 제외됐어요.
  2. 결과는 "직업 자동화 비율로 직접 환산되지 않습니다" — "마지막 마일" 배포 비용, 통합 마찰, 규제 제약, 그리고 어떤 task가 조사 대상이 됐는지의 선택 편향 때문에.
  3. 전망은 "AI 진보가 지난 2년 페이스로 계속된다"는 가정 위에 있어요 — 상한 시나리오지 예측이 아닙니다.
  4. 조사는 진행 중입니다. 더 많은 직업이 샘플링되면 숫자는 변동할 수 있어요.

[주장] 다시 말해, 이건 — 그 일을 실제로 하는 사람들이 채점한 — AI가 이미 무엇을 할 수 있는가에 대한 현재 시점 최선의 증거입니다. 고용주가 무엇을 배포할지 또는 노동자가 무엇을 잃을지에 대한 증거는 아직 아니에요. 이 두 질문은 항상 다른 문제였고, 그 사이 간극이 정책이 사는 공간입니다.

이번 주에 진짜로 할 수 있는 일 (당신이 영향권에 있다면)

설치/수리, 운송 물류, 건설 행정, 음식 서비스 운영: 당신 역할의 텍스트·조율 레이어가 영향권 안에 있어요. 주간 task의 어떤 20%가 순수 텍스트인지 카탈로그하세요 — 이메일, 스케줄링, 보고서, 고객 커뮤니케이션, 부품 발주. 그것들을 처리하는 AI 도구 하나를 익히세요. 그렇게 절감한 시간을 — MIT 데이터가 여전히 AI가 못 따라간다고 말하는 — 물리적, 대인적 숙련을 더 깊게 하는 데 쓰세요.

법률, 과학, 엔지니어링 전문가: 데이터는 당신 LinkedIn 피드가 시사하는 것보다 더 긴 활주로가 있다고 말해요. 그 활주로를 — 기술을 무시하는 게 아니라 — 공세적 AI 리터러시를 쌓는 데 쓰세요. 회사나 연구실에서 AI가 정확히 뭘 줄 수 있고 뭘 못 주는지 가장 잘 아는 사람이 되세요. 당신 직무에 대한 MIT 점수가 논문 안에 있습니다. 읽으세요.

나머지 모두 — 사무직과 행정직의 거대한 중간, 의료 지원, 교육, 영업, 고객 서비스: 당신의 task는 통계적으로 65% 글로벌 평균 근처입니다. 만조 영역. 생산성 향상은 기대하세요, 역할 재설계도 기대하세요. 다음 24개월 안의 대량 대체는 기대하지 마세요.

출처

  • Mertens, M., Thompson, N., et al. (2026). _Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks_. arXiv:2604.01363 (HTML)
  • MIT FutureTech 연구 프로그램: https://futuretech.mit.edu
  • 미국 노동부 O\*NET 데이터베이스 (연구 기반 task 분류표)

업데이트 이력

  • 2026-05-14: MIT FutureTech 예비 결과(2026년 3월 초안) 기반 최초 게재.

_이 글은 AI 보조 분석(Claude Opus 4.7)으로 작성됐습니다. 기반 데이터는 MIT FutureTech의 동료 검토 가능한 사전 인쇄 연구이며, 해석과 강조는 편집상 선택입니다. MIT 조사가 직업 커버리지를 확대하는 대로 이 글도 업데이트합니다._

본 분석은 Anthropic Economic Index, 미국 노동통계국(BLS), O*NET 직업 데이터를 기반으로 합니다. 방법론 자세히 보기

업데이트 이력

  • 2026년 5월 13일에 최초 게시되었습니다.
  • 2026년 5월 13일에 최종 검토되었습니다.

이 주제의 다른 글

Science Research

태그

#MIT#automation#labor-market#LLM#task-evaluation#rising-tides#arxiv#research-news