칩에서 데이터까지: AI의 다음 전투

OORT |2025-01-22 12:44
칩 전쟁은 가장 강력한 하드웨어를 생산하는 데 초점을 맞추고 있는 반면, 데이터 전쟁은 AI 훈련에 적합한 데이터 세트를 확보하는 데 중점을 두고 있습니다. 윤리적이고 고품질의 데이터가 점점 부족해지면서 많은 기업이 AI를 개발하는 데 병목 현상이 발생했습니다.

세계는 여전히 AI 칩을 둘러싼 전쟁(관세, 지적재산권 제한, 공급망 제재, 지정학적 분쟁)에 집중하고 있는 반면, AI의 미래 발전에 직접적인 영향을 미치는 데이터 부족 문제는 당연히 무시됐다.

올해 초 엘론 머스크는 AI 기업들이 모델 훈련을 위한 데이터를 소진했고 심지어 인간 지식의 총합까지 '소진'했다고 날카롭게 지적했다.

이 기사에서는 축소되는 데이터 풀과 분산형 AI(DeAI)가 이 문제를 해결하는 데 어떻게 중요한 역할을 할 수 있는지 살펴봅니다.

데이터 전쟁이 다가오고 있다

먼저 분명히 짚고 넘어가야 할 점은 데이터가 무궁무진하지 않다는 것입니다.

데이터 전쟁의 초기 징후가 있습니다. 2023년에 시각 예술가 그룹이 Stability AI, MidJourney 및 DeviantArt를 상대로 획기적인 소송을 제기했습니다. 그들은 회사가 허가 없이 생성 AI 모델을 훈련하는 데 자신의 작업을 사용했다고 비난했습니다. 확산). 동시에 머스크는 OpenAI와 같은 회사가 승인 없이 Twitter(현재 플랫폼 X)에서 데이터를 "크롤링"하여 플랫폼 X가 API 가격 및 액세스 제한을 강화했다고 비난했습니다.

공교롭게도 Reddit은 API 가격을 크게 인상하여 AI 모델 교육을 위해 Reddit 사용자 생성 콘텐츠에 의존하는 OpenAI 및 Anthropic과 같은 회사를 혼란에 빠뜨렸습니다. Reddit은 이러한 결정을 데이터로 수익을 창출하는 방법으로 보았지만 해당 데이터를 사용하려는 플랫폼과 AI 회사 간의 긴장에 대한 논쟁도 촉발시켰습니다.

이러한 사건은 점점 더 명확해지는 현실을 강조합니다. 즉, 법적으로나 윤리적으로 이용 가능한 데이터가 부족하다는 것입니다.

데이터의 다양한 측면

칩 전쟁은 가장 강력한 하드웨어를 생산하는 데 초점을 맞추고 있으며, 데이터 전쟁은 AI 훈련에 적합한 데이터 세트를 확보하는 데 중점을 두고 있습니다. 윤리적이고 고품질의 데이터가 점점 부족해지면서 많은 기업이 AI를 개발하는 데 병목 현상이 발생했습니다.

대기업의 경우 가장 실현 가능한 방법은 비용이 많이 들지만 중앙화된 거대 기업으로부터 데이터를 얻는 것입니다. 그러나 중소기업은 제한적이고 종종 감당할 수 없는 옵션에 직면해 있습니다. 데이터 수집을 위한 적절한 방법이나 채널이 없으면 이들 기업은 미래 AI 개발 및 혁신 트랙에서 크게 뒤처지게 될 것입니다.

그렇다면 AI 개발을 발전시키는 데 필요한 데이터를 윤리적이고 효과적으로 수집하려면 정확히 어떻게 해야 할까요?

데이터 전쟁은 다양한 전선에서 치러질 것이며 각각 고유한 과제와 기회를 제시합니다.

데이터 수집

데이터 수집 파이프라인은 누가 제어하나요? 윤리적이고 합법적이 되는 방법은 무엇입니까?

데이터를 불법적으로 스크랩하거나 사용했다는 이유로 거대 기술 기업을 상대로 소송이 쌓이면서 새로운 계획이 떠오르고 있습니다. 예를 들어, 하버드 대학교는 공개 액세스 데이터 세트를 대중에게 제공하기 위해 사용자 동의 데이터 기여를 추진하는 데 앞장섰습니다. 이러한 프로젝트에는 가치가 있지만 상용 AI 애플리케이션의 요구 사항을 충족시키기에는 충분하지 않습니다.

합성 데이터도 잠재적인 솔루션으로 떠오르고 있습니다. Meta 및 Microsoft와 같은 회사는 AI 생성 데이터를 사용하여 Llama 및 Phi-4와 같은 모델을 미세 조정하기 시작했습니다. Google과 OpenAI도 작업에 합성 데이터를 사용합니다. 그러나 합성 데이터는 정확성과 신뢰성에 영향을 미칠 수 있는 모델 "환각" 문제와 같은 자체적인 문제에도 직면해 있습니다.

분산형 데이터 수집은 또 다른 유망한 옵션을 제공합니다. 블록체인 기술을 활용하고 암호화폐를 사용하여 개인이 데이터를 안전하게 공유하도록 장려함으로써 분산형 모델은 개인 정보 보호, 소유권 및 품질 문제를 해결할 수 있습니다. 또한 이러한 솔루션은 데이터에 대한 액세스를 민주화하여 중소기업이 AI 생태계에서 경쟁할 수 있도록 해줍니다.

데이터 품질

품질이 낮은 데이터는 모델 편향, 부정확한 예측, 궁극적으로 AI 시스템에 대한 불신으로 이어질 수 있습니다. AI 훈련에 사용되는 데이터가 정확하고 대표성이 있는지 어떻게 보장합니까?

일반적인 업계 관행은 다음과 같습니다.

  • 엄격한 데이터 검증: 회사는 고급 검증 기술을 사용하여 데이터 세트에서 오류, 불일치 및 노이즈를 필터링합니다. 여기에는 일반적으로 데이터 무결성을 확인하기 위한 사람의 감독, 자동화된 프로세스 또는 이 둘의 조합이 포함됩니다.

  • 편향 완화 전략: 데이터의 대표성을 보장하기 위해 회사는 편향 탐지 도구와 다양한 샘플링 기술을 구현합니다. 예를 들어, 의료 분야에서는 진단 모델에 영향을 미칠 수 있는 편견을 피하기 위해 데이터 세트에 다양한 인구 그룹이 포함되어야 합니다.

  • 표준 준수: 데이터 품질을 보장하고 글로벌 표준을 준수하려면 ISO/IEC 27001 및 기타 새로운 윤리적 AI 지침과 같은 데이터 보안 산업 프레임워크가 필요해지고 있습니다.

  • 크라우드소싱 품질 확인: Amazon Mechanical Turk와 같은 플랫폼은 데이터 라벨링 및 검증과 같은 작업에 사용됩니다. 비용은 저렴하지만 이러한 방법은 일관성과 정확성을 보장하기 위해 감독이 필요합니다.

  • 분산형 검증: 블록체인 및 분산형 시스템은 점점 더 데이터 소스를 인증하는 도구가 되어 데이터 신뢰성과 변조 방지를 보장하고 있습니다.

또한, 국가 규제 기관은 개인의 권리와 기술 혁신의 균형을 맞추는 포괄적인 데이터 개인 정보 보호 및 보안 규칙을 수립하는 동시에 사이버 위협, 해외 이용 및 적대적 단체의 오용 문제로부터 민감한 데이터를 보호하는 등 중요한 국가 안보 문제를 해결해야 하는 시급한 과제에 직면해 있습니다. .

앞길이 험난하다

데이터 전쟁의 영향은 광범위합니다. 예를 들어 의료 산업에서는 고품질 환자 데이터에 대한 접근이 진단 및 치료 계획에 혁신을 가져올 수 있지만 엄격한 개인 정보 보호 규정은 장애물이 됩니다. 마찬가지로 음악 산업에서도 윤리적 데이터 세트를 사용하여 훈련된 AI 모델은 지적 재산권을 존중한다면 작곡부터 저작권 집행까지 모든 것을 변화시킬 수 있습니다.

이러한 과제는 데이터 투명성, 품질 및 접근성을 우선시하는 분산형 솔루션의 중요성을 강조합니다. 분산형 시스템을 활용함으로써 개인은 자신의 데이터에 대한 통제권을 유지하고 기업은 개인 정보 보호나 보안 혁신을 침해하지 않고 윤리적이고 고품질의 데이터 세트에 액세스할 수 있는 보다 공정한 데이터 생태계를 만들 수 있습니다.

칩 전쟁에서 데이터 전쟁으로의 전환은 AI 생태계와 그 진화를 재구성하여 분산형 데이터 솔루션에 대한 선도적인 기회를 제공할 것입니다. 윤리적인 데이터 수집과 접근성을 우선시함으로써 분산형 AI는 격차를 해소하고 보다 공정하고 혁신적인 AI 미래로 이어질 수 있는 잠재력을 가지고 있습니다.

최고의 데이터를 위한 전쟁이 시작되었습니다. 우리는 이에 대처할 준비가 되어 있나요?

저자: OORT 창립자이자 컬럼비아 대학교 교수인 Dr. Li Chong

원본 기사는 Forbes에 게재되었습니다: https://www.forbes.com/sites/digital-assets/2025/01/20/from-chip-war-to-data-war-ais-next-battleground-explained/

기자 :OORT
이 기사는 PANews 칼럼니스트의 관점으로 PANews의 입장을 대표하지 않으며 법적 책임을 지지 않습니다. 기사와 관점도 투자의견을 구성하지 않습니다.
이미지 출처 : OORT 저작권 침해가 발생시 작성자에게 연락하여 삭제 요청하시기 바랍니다.
댓글
추천 읽어보기