저자: 양수 (Tencent Technology)
쉬칭양(Xu Qingyang) 편집자
인공지능은 데이터 부족에 직면해 있으며, 인간의 삶은 사업화되었다.
남아프리카공화국의 케이프타운부터 미국의 시카고와 로스앤젤레스, 그리고 인도의 란치에 이르기까지 전 세계 수만 명의 사람들이 설거지하는 모습, 걷는 발소리, 통화 녹음, 요리하는 모습 등 일상생활의 일부를 영상으로 제작해 IT 기업에 판매하고 있습니다.
이러한 평범하고 일상적인 집안일은 명확하게 가격을 매겨 개별적으로 판매할 수 있는 "산업 원자재"가 되고 있으며, 인공지능 훈련을 위한 "학습 자료"로 사용되고 있습니다. 예를 들어, 2시간 동안 설거지하는 영상은 80달러에, 통화 녹음은 분당 0.5달러에 거래될 수 있습니다.
실리콘 밸리의 실제 개인 데이터에 대한 갈망은 데이터 시장의 급성장을 촉발했습니다.
하지만 그 돈은 공짜가 아니었다.
계약을 체결하는 프리랜서 강사들은 종종 자신도 모르게 취소 불가능한 권한을 포기하게 됩니다. 그들의 목소리는 AI 고객 서비스에 영구적으로 사용될 수 있고, 그들의 얼굴은 지구 반대편의 얼굴 인식 데이터베이스에 나타날 수 있으며, 그들이 훈련시킨 시스템은 언젠가 그들의 일자리를 위협할 수도 있습니다.
이 이야기는 생존과 계산에 관한 것입니다. 한편으로는 생계를 유지해야 한다는 압박감이 있고, 다른 한편으로는 미래를 위협하는 예측 불가능한 위험이 도사리고 있습니다. 그리고 이 데이터 "골드러시" 속에서 진정한 승자는 누구일까요?
01. 인간은 삶을 "소매" 단위로 나누어 생각합니다.
27세 남아프리카 공화국 출신 제이콥스 러브는 매일 갈매기에게 먹이를 주러 나가는 길에 자신의 발걸음과 풍경을 사진으로 찍습니다. 그런 다음 그는 이 영상을 Kled AI라는 앱에 업로드합니다. 이 앱은 사용자가 AI 모델 학습에 필요한 데이터를 수집하면 그에 대한 보상을 지급합니다. 약 10초 분량의 짧은 "도시 길찾기" 영상 하나로 그는 14달러를 벌 수 있습니다.
22세 인도 학생 사히르 티가는 훨씬 더 간단한 방법으로 돈을 벌고 있습니다. 바로 휴대전화 마이크를 항상 켜두는 것입니다. 그는 Silencio라는 앱을 사용하여 다른 사람들이 자신의 휴대전화 마이크에 접근하여 식당이나 교차로의 교통 소음을 녹음할 수 있도록 합니다. 더 많은 돈을 벌기 위해 그는 호텔 로비에 가서 아직 녹음되지 않은 주변 소리까지 녹음합니다. 이렇게 하면 한 달에 100달러 이상을 벌 수 있고, 생활비를 충당하기에 충분합니다.
시카고 출신의 18세 용접공 견습생인 라메리아 힐은 친구 및 가족과의 통화 기록을 포함한 더 사적인 정보들을 네온 모바일이라는 플랫폼에 분당 0.50달러에 판매하기로 결정했습니다.
AI 기반 강사들이 업로드하는 콘텐츠는 놀라울 정도로 다양하며, 이들은 전 세계적인 데이터 열풍의 최전선에 있습니다.
이러한 프리랜서 일자리는 단순한 프리랜서 업무 그 이상입니다.
로스앤젤레스에서는 산타모니카에서 로스펠리스까지 수백 명의 사람들이 머리와 손에 카메라를 착용한 채 집안일을 하고 있습니다. 커피를 내리고, 변기를 닦고, 화분에 물을 주고, 설거지를 하는 등 모든 행동이 녹화되고 있습니다.
살바도르 알시가는 인스타워크에서 머리에 착용하는 휴대폰 거치대를 받아 집으로 돌아가 카메라 앞에서 설거지를 하고 가스레인지를 닦는 모습을 촬영하고 스페인어나 영어로 자신이 하는 일을 설명했습니다. 그는 두 시간 동안의 영상 촬영으로 80달러를 벌었습니다.
"어차피 집안일은 해야 하잖아요." 그가 말했다. "이제는 집안일을 하면서 돈도 벌 수 있겠네요."
02. 이 모든 것은 AI의 데이터 부족에서 비롯됩니다.
이처럼 겉보기에는 첨단 기술과는 거리가 멀어 보이는 일상생활의 단편들이 가치 있는 이유는 인공지능이 "굶주림"에 직면해 있기 때문입니다.
ChatGPT나 Gemini 같은 대규모 언어 학습 모델은 지속적인 성능 향상을 위해 엄청난 양의 학습 자료를 필요로 합니다. 하지만 현재 가장 널리 사용되는 학습 데이터 소스인 C4와 RefinedWeb은 AI 기업들이 자체 데이터를 사용하는 것을 제한하기 시작했습니다.
비영리 연구기관인 에포크 AI는 2026년까지 AI 기업들이 학습에 사용할 수 있는 새로운 텍스트 자원이 고갈될 것이라고 예측합니다. 일부 연구소에서는 AI가 스스로 데이터를 생성하여 "스스로 학습"하도록 하는 실험을 시작했지만, 이러한 접근 방식은 모델 품질 저하와 궁극적으로 모델 붕괴로 이어질 수 있습니다.
이러한 배경 속에서 Kled AI와 Silencio 같은 데이터 마켓플레이스 플랫폼이 갑자기 인기를 얻게 되었습니다.
킹스 칼리지 런던의 경제학 교수인 복 클라인 티셀링크는 AI 교육을 담당하는 프리랜서 인력이 상당한 성장 잠재력을 가진 새로운 직업 분야라고 지적합니다. AI 기업들은 또한 사용자가 사용 권한을 부여한 데이터에 대해 비용을 지불함으로써 저작권 분쟁을 효과적으로 피할 수 있습니다. 인터넷에서 콘텐츠를 무단으로 수집하는 것은 쉽게 소송으로 이어질 수 있습니다.
AI 연구원 벤자민 베셀로프스키는 또한 "현재로서는 인간의 데이터가 AI가 기존의 패턴에서 벗어나 새로운 것을 학습하는 데 가장 좋은 자료원이다"라고 말했다.
간단히 말해, 기계가 아무리 빨리 학습하더라도 실제 인간의 데이터 없이는 진정한 학습이 불가능합니다. 이는 특히 물리적 세계에서 더욱 분명하게 드러납니다.
유니버설 로봇의 AI 로봇 부문 부사장인 앤더스 베이커는 AI 연구실에서 수집된 대부분의 훈련 데이터는 실제 환경에 적용하기에 적합하지 않으며, 로봇은 시각적 피드백만으로는 직접적인 상호 작용이 필요한 작업을 학습할 수 없다고 지적했습니다. 로봇이 문 열기, 설거지, 옷 개기 같은 기술을 진정으로 숙달하려면 실제 환경에서 사람이 반복적으로 시연하는 모습을 봐야 합니다.
CB Insights의 인사이트 책임자인 제이슨 솔츠먼은 다음과 같이 요약했습니다. "이 모델은 아직 스스로 옳고 그름을 판단할 수 없으며, 실제 상황이 어떤지도 파악할 수 없습니다. 인간이 이 모든 것을 가르쳐야 합니다."
이러한 이유로 일부 국가에서는 전문적인 '인공지능 훈련장'을 설립했습니다. 고정된 시설에서 많은 사람들이 문을 열거나 옷을 접는 등의 작업을 1인칭 시점으로 촬영하여 인공지능의 실제 작동 방식을 시연하는 데 활용하고 있습니다.
알치야는 공연의 일환으로 세탁기에 옷을 넣는 모습을 직접 녹화했습니다.
데이터에 따르면 수나인(Sunain)과 같은 인적 데이터 수집 업체들은 로스앤젤레스 서쪽 컬버시티부터 동쪽 파사데나까지 전역에 걸쳐 1,400명이 넘는 참여자를 보유하고 있습니다. 수나인의 공동 창립자인 샤바즈 막시(Shahbaz Magsi)는 로스앤젤레스의 주택 유형, 생활 방식, 인구 다양성이 "비할 데 없다"고 말합니다.
CB Insights는 전 세계 데이터 수집 및 라벨링 시장이 2030년까지 170억 달러에 이를 것으로 예측합니다. 반면 골드만삭스는 휴머노이드 로봇 시장이 2035년까지 380억 달러에 이를 것으로 예측합니다.
바로 이러한 유망한 전망 때문에 자본이 쏟아져 들어오기 시작했습니다.
샌프란시스코에 본사를 둔 앙코드(Encord)는 지난해 물리적 AI 사업 매출이 10배 증가했으며, 지난 2월 6천만 달러의 투자를 유치했습니다. 메타(Meta)의 투자를 받은 스케일 AI(Scale AI)는 이미 10만 시간 분량의 로봇 작동 영상을 수집했습니다. 경쟁사인 마이크로1(Micro1)은 60개국에 1,000명의 직원을 고용하여 가사 활동 영상을 전문적으로 녹화하고 있습니다.
03. 사생활은 없고, 되돌릴 수도 없습니다.
인공지능에 데이터를 제공하는 입찰에서 낙찰된 사람들에게 그 돈은 결코 헛된 것이 아니었습니다.
힐은 자신의 경험에 대해 복잡한 심경을 드러냈습니다. 그는 네온 모바일에서 11시간 통화권을 판매해 300달러를 벌었지만, 앱 접속이 자주 끊기고 출금도 지연되는 경우가 많았습니다. "네온은 항상 좀 미심쩍은 느낌이었지만, 그래도 손쉽게 용돈을 벌 수 있어서 이용해 왔습니다."라고 그는 말했습니다.
곧 문제가 시작되었다.
2025년 9월, 네온 모바일 출시 후 불과 몇 주 만에 테크크런치는 온라인상의 누구든 사용자의 전화번호, 통화 녹음, 문자 메시지에 직접 접근할 수 있는 보안 취약점을 보도했습니다. 힐은 네온 측에서 이 사실을 전혀 알리지 않았다고 말했습니다. 이제 그는 자신의 목소리가 어떻게 악용될지 걱정하고 있습니다.
그게 전부가 아니에요.
뉴욕 배우 애덤 코이는 2024년 인공지능 영상 편집 업체 캡션스(현 미라지)에 자신의 초상권을 1,000달러에 판매했습니다. 그는 계약서에 여러 보호 조항을 포함시켰는데, 정치적 목적으로 이미지를 사용할 수 없으며, 술, 담배, 음란물을 판매하는 데 사용할 수 없고, 사용 허가는 1년 후 만료된다는 내용이었습니다.
하지만 얼마 지나지 않아 그의 친구들이 온라인에서 빠르게 퍼지고 있는 영상들을 그에게 보내기 시작했습니다. 그 영상들에서 그의 얼굴과 목소리는 임산부를 위한 검증되지 않은 건강 제품을 홍보하고 있었습니다.
코이는 "이 일을 다른 사람들에게 설명할 때마다 너무 창피해요."라고 말했다. "그런 말들은 제 외모에 대한 거라서 이상하게 들리는데, 그건 제 진짜 모습과는 전혀 다르거든요."
코이를 더욱 화나게 한 것은 초상화를 팔기로 결심했을 때의 그의 초기 생각이었다. 대부분의 모델들이 어차피 인터넷에서 데이터와 이미지를 무단으로 다운로드할 테니, 자신도 돈을 벌어보면 괜찮을 거라고 생각했던 것이다. 지금 돌이켜보면 정말 어리석은 생각이었다. 그 이후로 그는 그런 플랫폼에 다시는 발을 들여놓지 않았다.
런던 시티 세인트 조지 로스쿨의 법학 교수인 엔리코 보나디오는 많은 플랫폼의 계약이 "재고료를 다시 지불하지 않고도 해당 자료를 영구적으로 거의 무엇이든 할 수 있도록 허용한다"고 지적합니다. 반면 콘텐츠 제공자들은 "실질적으로 동의를 철회하거나 재협상할 방법이 거의 없다"고 덧붙입니다.
더욱 무서운 점은 해당 플랫폼이 "익명화" 처리를 한다고 주장하더라도 음성이나 얼굴과 같은 생체 정보는 본질적으로 완전한 익명화를 달성하기 어렵다는 것입니다.
04. 완전 라이선스 계약의 함정
단순히 녹음 파일을 "대여"했다고 생각할 수도 있지만, 계약서의 세부 조항에는 더 큰 함정이 숨어 있을 수 있습니다.
사용자가 Neon Mobile이나 Kled AI에 데이터를 공유하면, 전 세계적으로 독점적이고, 취소 불가능하며, 양도 가능하고, 로열티가 없는 "완전 라이선스"가 부여됩니다. 즉, 플랫폼은 해당 이미지를 영구적으로 판매, 사용, 공개 전시, 저장할 수 있으며, 심지어 "파생 저작물"을 제작할 수도 있습니다.
Kled AI의 창립자 아비 파텔은 해당 계약이 인공지능 학습 및 연구 목적으로만 데이터를 사용하도록 규정하고 있다고 해명했습니다. 그는 또한 "의심스러운 의도를 가진" 업종이나 데이터를 오용할 가능성이 있는 조직을 배제하기 위해 구매자를 철저히 검증한다고 밝혔습니다. 파텔은 "사업 전체는 사용자의 신뢰에 달려 있다"고 강조했습니다.
하지만 그러한 보장은 얼마나 신뢰할 만할까요? 보나디오 교수는 해당 계약이 플랫폼과 고객이 "거의 무엇이든 할 수 있도록" 허용한다고 지적합니다.
더욱 심각한 문제는 일단 개인 정보가 판매되면 어디로 가는지 전혀 알 수 없다는 점입니다. 스탠포드 대학교 인간중심 인공지능 연구소의 데이터 프라이버시 연구원인 제니퍼 킹은 이러한 플랫폼들이 데이터가 어떻게, 어디에 사용될지 명확하게 설명하지 않는다고 지적합니다. 소비자들은 "자신의 데이터가 원치 않거나, 이해하지 못하거나, 예상하지 못한 방식으로 재사용될 위험에 직면하면서도 사실상 아무런 구제책도 없다"는 것입니다.
학자 로라 키텔의 경험은 오히려 일반적인 사례입니다. 그녀는 비영리 단체나 정부 기관에서 일할 자리를 찾고 있었는데, 친구의 추천으로 머코어(Mercor)를 알게 되었습니다. 계약서가 도착하자 그녀는 꼼꼼히 읽어보았는데, 계약 조건에는 그녀가 저작권료 없이 자신의 기존 및 향후 학술 논문은 물론, 특정되지 않은 고객에게 이익이 될 수 있는 모든 지적 재산권을 사용할 수 있도록 허용하는 내용이 포함되어 있었습니다.
"이건 좀 과한 것 같아요."라고 그녀가 말했다.
그녀는 계약 내용을 수정하고 싶었지만, "멜빈"이라는 이름의 AI 비서가 이메일로 "변경할 수 없습니다. 수락하지 않으시면 떠나셔도 됩니다."라고 답장했습니다.
메르코르는 나중에 그 계약은 참여자들이 프로젝트 기간 동안 사용하기로 선택한 자신의 창작물에만 적용된다고 설명했습니다. 참여자들이 만들었지만 사용되지 않은 창작물은 이 제한의 적용을 받지 않았습니다. 하지만 키텔에게는 그 불쾌한 감정이 여전히 남아 있었습니다.
05. 진정한 승자는 누구인가?
옥스퍼드 대학교 인터넷 지리학 교수이자 "피딩 머신(The Feeding Machine)"의 저자인 마크 그레이엄은 개발도상국 사람들에게 단기적으로는 이러한 자금이 유용할 수 있다는 점을 인정하면서도 "구조적으로 이러한 종류의 일은 불안정하고 전망이 불투명하며 사실상 막다른 길이다"라고 경고합니다.
그는 AI 시장이 "임금 최저 수준 경쟁"과 "인간 데이터에 대한 일시적인 수요"에 의해 움직인다고 말했다.
수요가 변하면 "노동자들은 아무런 보호도 받지 못하고, 다른 분야에서 활용할 수 있는 기술도 배우지 못하며, 안전도 보장받지 못한다." 궁극적인 승자는 "지속적인 가치를 모두 확보하는 북반구 플랫폼"이다.
다시 말해, 오늘날 플랫폼 노동자들이 버는 모든 돈은 인공지능이 더욱 강력하고 똑똑해지는 데 일조하고 있습니다. 그리고 인공지능이 충분히 강력해지면, 그것을 훈련시킨 사람들이 가장 먼저 대체될지도 모릅니다.
DoorDash Tasks 총괄 매니저인 Ethan Beatty는 "이러한 문제들은 우리가 10년 넘게 해결해 온 실제적인 문제들이며, 우리에게 도움이 되었던 기능들이 다른 기업들에게도 도움이 될 수 있다는 것을 깨달았습니다."라고 말했습니다.
도어대시와 같은 회사들이 하는 일은 배달 기사들의 업무 경험을 데이터 자산으로 만들어 인공지능 학습이 필요한 모든 회사에 판매하는 것입니다.
우버도 똑같은 일을 하고 있다.
지난 10월, 우버는 운전자 앱에 디지털 작업 카테고리를 추가하여 운전자가 레스토랑 메뉴를 업로드하고 다국어 음성 샘플을 녹음할 수 있도록 했습니다. 우버 AI 솔루션 사업부는 주석, 번역 및 모델 학습 서비스를 제공하며 30개국으로 사업을 확장했습니다.
두 회사 모두 스케일 AI가 개척한 길을 따르고 있습니다. 즉, 분산된 원격 근무자를 활용하여 새로운 데이터 세트를 구축하고 AI 결과물을 검증하는 것입니다. 유일한 차이점은 우버와 도어대시는 현실 세계 어디에든 직접 배치할 수 있는 수백만 명의 인력을 보유하고 있다는 점입니다.
알시야의 친구는 언젠가 그에게 "그래, 네가 문제야."라고 물었다. 친구의 말뜻은, 네가 인공지능에게 인간만이 할 수 있는 일들을 가르치고 있는데, 오히려 상황을 악화시키고 있는 것 아니냐는 것이었다.
알시가는 새로운 기술은 항상 두려움과 변화를 가져오지만, 자신의 최근 직업처럼 새로운 유형의 일자리도 창출한다고 답했다. "사람들은 여전히 사람을 필요로 합니다."라고 그는 말했다.
문제는 인공지능이 더 이상 "인간"을 필요로 하지 않게 될 때, 그러한 필요성이 여전히 존재할 것인가 하는 점입니다.

