當全球依舊聚焦於圍繞AI 晶片的戰爭——關稅、智慧財產權限制、供應鏈制裁以及地緣政治紛爭時,直接左右AI 未來發展的資料荒問題,顯然被忽略了。
今年年初,馬斯克便敏銳地指出,AI 公司已經耗盡了訓練模型的數據,甚至「用盡」了人類知識的總和。
本文將探討資料池的萎縮,及去中心化AI (DeAI)如何在解決這項挑戰中扮演關鍵角色。
數據之戰降臨
首先要先明確一點:數據並非取之不盡用之不竭。
資料之戰早有先兆:2023 年,一群視覺藝術家對Stability AI、MidJourney 和DeviantArt 提起了一場具有里程碑意義的訴訟,指控這些公司在未獲得許可的情況下使用他們的作品來訓練生成式AI 模型(如Stable Diffusion)。同時,馬斯克指責OpenAI 等公司未經授權「抓取」推特(現為X 平台)的數據,促使X 平台收緊API 定價和存取限制。
無獨有偶,Reddit 大幅提高API 定價,擾亂了依賴Reddit 用戶生成內容進行AI 模型訓練的OpenAI 和Anthropic 等公司。 Reddit 將這項決定視為其數據貨幣化的方式,但也引發了關於用戶數據平台和尋求使用這些數據的AI 公司之間緊張關係的辯論。
這些事件凸顯了一個日益明顯的現實:我們正在耗盡合法和倫理上可用的數據。
數據的多個戰線
晶片戰聚焦於生產最強大的硬件,而資料戰在於獲取合適的資料集以訓練AI。倫理、高品質數據的日益稀缺,已成為一眾企業發展AI的瓶頸。
對於大公司而言,最可行的方式是從中心化巨頭那裡獲取數據,雖然代價高昂。然而,小型企業卻面臨有限且通常難以承受的選擇。沒有適當的收集數據的方法或管道,這些公司將在未來AI發展和創新賽道大幅落後。
那麼我們到底如何以倫理且有效的方式收集推進AI 開發所需的資料?
資料戰爭將在多個前沿展開,每個方面都帶來獨特的挑戰與機會。
數據收集
誰掌控資料收集的管道?如何做到倫理與合法?
隨著針對科技巨頭的訴訟因非法抓取或使用數據而堆積如山,新興的舉措也開始出現。例如,哈佛大學率先推動獲得用戶同意的資料貢獻,為公眾提供開放存取資料集。儘管此類專案有其價值,但遠不足以滿足商業AI 應用的需求。
合成數據也逐漸成為潛在解決方案。 Meta 和微軟等公司已開始利用AI 產生資料來微調模型,如Llama 和Phi-4。 Google 和OpenAI 也在工作中採用了合成資料。然而,合成數據也面臨自身的挑戰,例如模型「幻覺」問題,這可能會影響其準確性和可靠性。
去中心化的資料收集提供了另一種有前景的選擇。透過利用區塊鏈技術並使用加密貨幣激勵個體安全共享數據,去中心化模式可以解決隱私、所有權和品質問題。這些解決方案還民主化了數據訪問,使小型企業能夠在AI 生態系統中競爭。
數據品質
低品質的數據會導致模型偏差、不準確的預測,並最終引發對AI 系統的不信任。我們如何確保用於AI 訓練的資料是準確且具代表性的?
行業常見做法包括:
嚴格的資料驗證:公司採用先進的驗證技術過濾資料集中的錯誤、不一致性和雜訊。這通常涉及人工監督、自動化過程或兩者結合來驗證資料完整性。
偏差緩解策略:為了確保資料具有代表性,企業實施偏差檢測工具和多樣化的採樣技術。例如,在醫療領域,資料集必須包括不同人口群體,以避免可能影響診斷模型的偏差。
遵循標準:ISO/IEC 27001 等資料安全產業架構和其他新興倫理AI 指南正成為確保資料品質和符合全球標準的必要條件。
眾包品質檢查:亞馬遜機械土耳其人(Amazon Mechanical Turk)等平台被用於標記和驗證資料等任務。儘管成本低,但這些方法需要監督以確保一致性和準確性。
去中心化驗證:區塊鏈和去中心化系統正逐步成為認證資料來源、確保資料真實性和防篡改的工具。
此外,各國監管機構還面臨建立全面資料隱私和安全規則的迫切挑戰,這些規則需要平衡個人權利與技術創新,同時應對諸如保護敏感資料免受網路威脅、外國利用以及敵對實體濫用等關鍵國家安全問題。
前路崎嶇
資料戰爭的影響深遠。例如,在醫療行業,高品質病患資料的取得可以徹底改變診斷和治療計劃,但嚴格的隱私法規構成了障礙。同樣,在音樂產業,使用倫理資料集訓練的AI 模型可以改變從作曲到版權執行的一切,前提是它們尊重智慧財產權。
這些挑戰突顯了去中心化解決方案的重要性,這些方案優先考慮資料透明度、品質和可存取性。透過利用去中心化系統,我們可以創造一個更公平的資料生態系統,使個人保留對其資料的控制權,企業能夠存取倫理且高品質的資料集,並在不損害隱私或安全的情況下推動創新。
從晶片戰到資料戰的轉變將重塑AI 生態系統及其演進過程,為去中心化資料解決方案提供領先的機會。透過優先考慮倫理資料收集和可近性,去中心化AI 有潛力彌合差距,引領更公平、更具創新性的AI 未來。
爭奪最佳數據的戰鬥已經開始。我們是否準備好應對?
作者:OORT創辦人、哥倫比亞大學教授李崇博士
原文刊登於《富比士》:https://www.forbes.com/sites/digital-assets/2025/01/20/from-chip-war-to-data-war-ais-next-battleground-explained/