チップからデータへ: AI の次なる戦い

OORT |2025-01-22 12:44
チップ戦争は最も強力なハードウェアを製造することに焦点を当てているのに対し、データ戦争は AI をトレーニングするための適切なデータセットを入手することに焦点を当てています。倫理的で高品質なデータがますます不足していることが、多くの企業にとって AI 開発のボトルネックとなっています。

世界は依然として、関税、知的財産制限、サプライチェーン制裁、地政学的紛争など、AIチップを巡る戦争に注目しているが、AIの将来の発展に直接影響を与えるデータ不足の問題は明らかに無視されている。

今年の初め、イーロン・マスク氏は、AI企業がモデルを訓練するためのデータを使い果たし、人間の知識の総和さえも「使い果たし」ていると鋭く指摘した。

この記事では、縮小するデータ プールと、分散型 AI (DeAI) がこの課題を解決する上でどのように重要な役割を果たすことができるかについて説明します。

データ戦争がやってくる

まず、明確にしておきたいのは、データは無尽蔵ではないということです。

データ戦争の初期の兆候があります。2023 年、ビジュアル アーティストのグループが、Stability AI、MidJourney、DeviantArt に対して、許可を得ずに自社の作品を使用して生成 AI モデルをトレーニングしたとして、画期的な訴訟を起こしました (Stable など)。拡散)。同時にマスク氏は、OpenAIなどの企業がTwitter(現プラットフォームX)からのデータを許可なく「クローリング」していると非難し、プラットフォームXにAPIの価格設定とアクセス制限を強化するよう促した。

偶然にも、Reddit は API の価格を大幅に値上げし、AI モデルのトレーニングに Reddit のユーザー生成コンテンツに依存している OpenAI や Anthropic などの企業に混乱をもたらしました。 Redditはこの決定をデータを収益化する方法とみているが、ユーザーデータを利用するプラットフォームとその利用を求めるAI企業との間の緊張についての議論も巻き起こしている。

これらの事件は、法的および倫理的に利用可能なデータが不足しつつあるという、ますます明らかな現実を浮き彫りにしています。

データの複数の側面

チップ戦争は最も強力なハードウェアの製造に焦点を当てているのに対し、データ戦争は AI をトレーニングするための適切なデータセットの取得に焦点を当てています。倫理的で高品質なデータの不足が増大しており、多くの企業が AI を開発する際のボトルネックとなっています。

大企業にとって、最も現実的な方法は、費用はかかりますが、中央集権的な巨大企業からデータを取得することです。しかし、中小企業は選択肢が限られており、多くの場合、手頃な価格ではないことに直面しています。データを収集するための適切な方法やチャネルがなければ、これらの企業は将来の AI 開発とイノベーションの軌道で大幅に後れを取ることになります。

では、AI 開発を進めるために必要なデータを倫理的かつ効果的に収集するには、具体的にどのようにすればよいのでしょうか?

データ戦争は複数の戦線で繰り広げられ、それぞれに特有の課題と機会がもたらされます。

データ収集

データ収集パイプラインを制御するのは誰ですか?倫理的かつ合法的にするにはどうすればよいでしょうか?

データの違法なスクレイピングや使用を理由にハイテク大手に対する訴訟が山積する中、新たな取り組みが浮上している。たとえば、ハーバード大学は、オープンアクセスのデータセットを一般公開するために、ユーザーの同意を得たデータの寄稿を推進する先駆者となっています。このようなプロジェクトには価値がありますが、商用 AI アプリケーションのニーズを満たすには程遠いです。

合成データも潜在的なソリューションとして浮上しています。 Meta や Microsoft などの企業は、AI が生成したデータを使用して Llama や Phi-4 などのモデルを微調整し始めています。 Google と OpenAI も仕事で合成データを使用しています。ただし、合成データは、モデルの「幻覚」問題など、その精度や信頼性に影響を与える可能性がある独自の課題にも直面しています。

分散型データ収集は、もう 1 つの有望なオプションを提供します。ブロックチェーン技術を活用し、暗号通貨を使用して個人がデータを安全に共有するよう奨励することで、分散型モデルはプライバシー、所有権、品質の問題に対処できます。これらのソリューションはデータへのアクセスを民主化し、中小企業が AI エコシステムで競争できるようにします。

データ品質

低品質のデータは、モデルのバイアス、不正確な予測、そして最終的には AI システムに対する不信感につながる可能性があります。 AI トレーニングに使用されるデータが正確で代表的なものであることをどのように確認すればよいでしょうか?

業界の一般的な慣行には次のようなものがあります。

  • 厳格なデータ検証: 同社は高度な検証技術を使用して、データセットからエラー、不一致、ノイズをフィルタリングします。これには通常、データの整合性を検証するための人による監視、自動化されたプロセス、またはその両方の組み合わせが含まれます。

  • バイアス軽減戦略: データが代表的なものであることを保証するために、企業はバイアス検出ツールと多様なサンプリング手法を導入します。たとえば、医療分野では、診断モデルに影響を与える可能性のあるバイアスを避けるために、データセットに多様な母集団を含める必要があります。

  • 標準に従う: データの品質と世界標準への準拠を確保するには、ISO/IEC 27001 やその他の新たな倫理 AI ガイドラインなどのデータ セキュリティ業界のフレームワークが必要になってきています。

  • クラウドソーシングによる品質チェック: Amazon Mechanical Turk などのプラットフォームは、データのラベル付けや検証などのタスクに使用されます。これらの方法は低コストですが、一貫性と正確性を確保するために監視が必要です。

  • 分散型検証: ブロックチェーンと分散型システムは、データ ソースを認証し、データの信頼性と耐改ざん性を確保するためのツールになりつつあります。

さらに、各国の規制当局は、個人の権利と技術革新のバランスをとる包括的なデータプライバシーとセキュリティのルールを確立すると同時に、サイバー脅威、外国の搾取、敵対的な団体による悪用から機密データを保護するなどの重要な国家安全保障の問題に対処するという緊急の課題に直面しています。 。

前途は険しい

データ戦争の影響は広範囲に及びます。たとえば、医療業界では、高品質の患者データにアクセスできれば、診断や治療計画に革命を起こすことができますが、厳格なプライバシー規制が障害となります。同様に、音楽業界でも、知的財産権を尊重する限り、倫理的なデータセットを使用してトレーニングされた AI モデルは、作曲から著作権の執行まであらゆるものを変革することができます。

これらの課題は、データの透明性、品質、アクセシビリティを優先する分散型ソリューションの重要性を浮き彫りにしています。分散型システムを活用することで、個人がデータの管理を維持し、企業がプライバシーやセキュリティを損なうことなく倫理的で高品質なデータセットにアクセスできる、より公平なデータ エコシステムを構築できます。

チップ戦争からデータ戦争への移行は、AI エコシステムとその進化を再構築し、分散型データ ソリューションの主要な機会を提供します。倫理的なデータ収集とアクセシビリティを優先することで、分散型 AI はギャップを埋め、より公平で革新的な AI の未来につながる可能性を秘めています。

最高のデータをめぐる戦いが始まりました。それに対処する準備はできていますか?

著者: リー・チョン博士、OORT 創設者、コロンビア大学教授

元の記事は Forbes に掲載されました: https://www.forbes.com/sites/digital-assets/2025/01/20/from-chip-war-to-data-war-ais-next-battleground-explained/

作者 :OORT
本記事はPANewsに登録したコラムニストの見解であり、PANewsの立場を代表しないため、法的責任を負いません。記事および意見は投資アドバイスにもなりません。
画像ソース : OORT 著作権侵害がある場合は、作者までご連絡ください。
コメント
おすすめ読書