作者:新智元
編輯:好睏桃子
【新智元導讀】史丹佛「2026年AI指數報告」重磅出爐!這份432頁長文含金量極高:中美AI巔峰對決,差距幾乎抹平,縮減至僅2.7%。全球頂尖AI年產95個,基本上都聚集在大廠。最殘酷的是,22-25歲開發者的就業已被切掉20%。
今天,史丹佛HAI重磅發布「2026年AI指數報告」!
這份長達423頁的年度報告,全面揭示了全球AI產業的最新權力版圖。
它給了一條核心結論:AI的本事漲得飛快;但人類衡量和管好它的能力,卻沒怎麼跟上步伐。
其中,最震撼的結論是──
中美AI模型性能差距已基本消失,雙方在巔峰對決中頻繁易主,目前Anthropic領先優勢僅剩2.7%。
美國在AI上砸的錢比誰都多,但招攬頂尖人才卻越來越吃力了。
報告也指出,AI的演化不僅沒有遭遇所謂的「瓶頸」,反而正以史無前例的速度狂飆。
過去一年,全球超90%的頂尖模型,在博士級科學問題、多模態推理、競賽數學的表現,追平甚至超越了人類。
特別是在程式碼能力上,SWE-bench的成績在一年內,從60%飆升至近100%。
然而,AI的「偏科」現象極為嚴重,呈現出一種畸形的現況:
LLM可以拿下IMO金牌,卻讀不對類比時鐘,正確率僅50.1%。
同時,AI搶飯碗這事兒已經從預測變成了現實,最先遭殃的就是當代年輕「打工人」。
以下直接上乾貨,「2026年AI指數報告」最值得關注的12個硬派趨勢。
其他亮點速覽:
全球AI算力3年漲30倍,英偉達獨佔60%,幾乎所有晶片都出自一家台積電
2025年全球企業AI投資5,817億美元,較去年同期翻倍,美國一國吃下近一半
進入美國的AI研究人員7年跌89%,光是過去一年就跌80%
22-25歲軟體開發者就業自2024年起下滑20%,入門職缺精準切掉
中國累計建成85台公共AI超算,是北美的兩倍以上,全球第一
中國職場AI使用率超80%,遠超全球58%的平均
最強模型越來越黑箱,95個代表性模型裡80個沒有公開訓練程式碼
中美貼臉差距只剩2.7%
史丹佛把2023年5月以來Arena榜單上的美國第一和中國第一,畫在了同一張座標系裡。
2023年5月,gpt-4-0314拿1320分領跑,中國這邊還是chatglm-6b,差距300多分。
2025年2月,DeepSeek-R1第一次和美國頭部模型短暫打平。
2026年3月,美國的Claude Opus 4.6拿到1503分,中國dola-seed-2.0-preview拿到1464分。
如今中美AI之間的差距,僅有39分。換算成百分比,2.7%。
更值得說的是過去一年的換位頻率。從2025年初開始,兩國頭部模型已經在Arena上你來我往換了好幾次位置。
數量上同樣接近五五開。
2025年美國發布了50個「顯著模型」,中國緊跟著也發布了30個頂尖大模型。
第一梯隊裡OpenAI、Google、阿里、Anthropic、xAI同台站位,全球TOP 5五五分帳。
再往下看到TOP 10,中國機構和企業佔了四席,阿里、DeepSeek、清華、位元組。
開源生態這一年的重心也明顯東移。
DeepSeek、Qwen、GLM、MiniMax、Kimi一路把開源權重的能力曲線往前推。
再算上論文發表量、被引數、專利產出量、工業機器人裝機量,中國統統全球第一。
價格層面是另一條戰線。
海外開發者在X上算過一筆賬,Seed 2.0 Pro的輸出價格大約只有Claude Opus 4.6的十分之一。
性能貼臉,價格只要十分之一。這件事的連鎖反應才剛開始。
90%前沿模型出自產業封神速度史無前例
去年發表的95個最具代表性的模型裡,超過九成都來自產業界,不是學術機構,也不是政府實驗室。
學術界已經追不上前線了。
發布速度也在變態加速。
光是2026年2月一個月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5八旗艦車型同月入場。
封神週期從「年」變成了「月」。
基準一年封頂AI沒有瓶頸
最猛的曲線是程式設計。
SWE-bench Verified這個真實修Bug的基準,一年時間從60%漲到接近100%。
不是漲了幾點,是基本封頂。
Terminal-Bench測試Agent處理真實終端任務的能力,從去年的20%漲到77.3%。
網路安全Agent解決問題的成功率,從15%漲到93%。
Gemini Deep Think在國際數學奧林匹克拿到金牌。
PhD級科學問答(GPQA Diamond)、競賽數學(AIME)、多模態推理(MMMU)這些原本被認為「人類不可超越」的硬骨頭,全部被前沿模型啃了下來。
最能說明問題的是Humanity's Last Exam。
這是一個專門被設計來「難倒AI、偏袒人類專家」的測試,題目由各領域的頂尖專家提供。
去年OpenAI的o1拿到8.8%,前緣模型在一年內又推了30個百分點,目前Claude Opus 4.6和Gemini 3.1 Pro已經雙雙過了50%。
鋸齒前緣能拿IMO金牌卻看不懂表
但同一份指數甩出了另一組數字。
最強模型在「讀取模擬時鐘」這個任務上的正確率,是50.1%。
機器人在實驗室模擬環境(RLBench)裡的操作成功率已經達到89.4%。但搬到真實家庭場景完成洗碗、摺衣服這類家務,成功率立刻掉到12%。
實驗室和廚房之間,差了77個百分點。
研究者將這種現象命名為「鋸齒前緣」(jagged frontier)。 AI能力的分佈是凹凸不平的,能拿數學奧賽金牌,卻無法穩定地告訴你現在幾點。
AI能在數學奧賽拿金牌,但只有一半的機率能看懂模擬時鐘。 AI在加速,但加速的不是同一個方向。
另外,在智能體任務中,OSWorld測試中,前緣AI實力(66.3%)正逼近人類基準。
然而,在專門評估科學研究邏輯的PaperArena測驗中,最強AI加持的Agent,得分僅39%,只有博士生一半的功力。
但這種凹凸已經不影響企業把AI往生產線上塞。
AI Index給出的另一個數字是,全球企業AI採用率達到88%。九成的公司已經把AI接進了某個工作流程。
代價同步在漲。 AI相關事故紀錄從2024年的233起漲到362起。
錢在加速5817億砸進AI
2025年全球企業AI投資達5,817億美元,年增130%。其中私募投資3,447億美元,年增127.5%。
兩條曲線都幾乎加倍。
國別上,美國一騎絕塵。 2025年美國私募AI投資2859億美元。且一年新增1953家AI新創公司,也是排名第二的10倍以上。
錢在加速湧向美國。但美國的另一項核心資源,正在反向流動。
人在流走進美國的AI研究者跌了89%
裡面有一組數字讓人愣了一下。
2017年到現在,進入美國的AI研究人員和開發者數量下降了89%。
更關鍵的是,這個下降正在加速。光是過去一年,下降幅度就達80%。
美國仍然是全球AI研究人員密度最高的國家,但流入的水龍頭正在擰緊。
錢和人這兩條曲線開始反向。這是過去十年沒出現過的局面。
算力三年漲30倍命門都在一家公司手裡
AI能力曲線正在加速,背後那條算力曲線跑得更猛。
從2021年到現在,全球AI算力總量漲了30倍。過去三年裡,每年都在翻三倍以上。
撐起這條曲線的是少數幾家公司。
英偉達一家的GPU,佔了全世界AI算力的60%以上。亞馬遜和谷歌靠著自研晶片排在二三位,但加起來也遠遠追不上英偉達。
而幾乎所有這些晶片,都來自一家代工廠,台積電。算力曲線越陡,命門就越窄。
同時,代價也在加大。
全球AI資料中心的總功率已達到29.6 GW,相當於紐約州在用電高峰時段的全部用電需求。 xAI Grok 4一次訓練的估算碳排放是72816噸二氧化碳當量,相當於17,000輛汽車開一整年的廢氣。
資料中心建在哪裡,電力從哪裡來,晶片從哪裡產,這三個問題變成今年所有AI公司CEO案頭最頭痛的事。
生成式AI三年滲透53%中國職場使用率破80%
生成式AI在三年內達到了53%的全球人口滲透率。
這個速度比個人電腦快,比網路快。
但滲透速度和國別相關性極強。新加坡61%,阿聯酋54%,都跑在美國前面。美國在調查覆蓋國家只排第24位,滲透率28.3%。
如果把維度從消費者換成職場,反差更大。
報告裡另一組數據顯示,2025年全球58%的員工在工作上已經開始經常性使用AI。但在中國、印度、奈及利亞、阿聯酋、沙烏地阿拉伯這5個國家,這個比例超過了80%。
中國的職場AI滲透率,已經比全球平均高出20個百分點以上。
更有意思的是消費者價值。
AI Index估算,到2026年初,生成式AI工具每年為美國消費者創造1,720億美元的價值。從2025年到2026年,每位用戶的中位數價值都翻了三倍。
絕大多數用戶用的還是免費版。
一般人願意為AI付的錢,遠低於AI給他們創造的價值。這中間的剪刀差是現在所有AI公司都在試圖彌合的東西。
入門職缺銳減22-25歲開發職缺20%
整份AI Index裡最讓中文讀者沉默的,可能是關於年輕就業的部分。
22到25歲的軟體開發者群體,從2024年至今,就業人數下降了約20%。
同期,年紀更大的同業群體反而在成長。
不止開發崗。客服等其他高AI暴露產業,也出現同樣的模式。
更讓人擔心的是企業問卷的結果。受訪主管普遍預期,未來的裁員幅度會比過去幾個月還要大。
這不是宏觀失業率的事,是入口崗位被精準切掉的事。
第一份工作沒了,整個職業階梯就斷了一格。這件事的長期影響,現在沒人能算清。
AI正在改寫科學發現的方式
如果說就業那一段是冷的,科學這段話就是熱的。
自然科學、物理科學、生命科學領域的AI相關論文,2025年年增了26%到28%。
具體到應用,今年第一次有AI完整跑通了端到端的天氣預報流程。從原始氣象觀測資料直接吐出溫度、風速、濕度的最終預報,中間沒有任何傳統數值模型介入。
AI從「幫你寫論文」「幫你算數字」,正在變成「自己做發現」。
醫院裡也是一樣。 2025年大量醫院開始部署能從就診對話自動產生臨床記錄的AI工具。多個醫院系統的醫生回饋,寫病歷的時間減少了多達83%,工作倦怠顯著下降。
但同一份指數給醫療AI潑了一盆冷水。一份針對500多個臨床AI研究的綜述發現,將近一半的研究都依賴考試題式的資料集,只有5%用了真實臨床資料。
AI能減少醫生敲鍵盤的時間,這件事是確定的。 AI在真實病人身上的臨床價值,目前仍有大量問號。
自學浪潮全球開炸正規教育已經落後
正規教育跟不上AI了。
美國有4/5的高中生和大學生現在用AI完成學校作業。但只有一半的中學有AI使用政策,只有6%的老師認為這些政策寫得清楚。
學生跑在前面,老師還在原地,規則還沒出現。
正規教育跟不上的同時,自學浪潮在全球開炸。裡面寫,學AI工程技能成長最快的三個國家分別是阿聯酋、智利和南非。
不是美國,不是歐洲。
技能曲線的最陡峭的那一段,長在所有人都沒在看的地方。
最強模型變成最不透明的專家和公眾撕裂
最強的模型,正在變成最不透明的模型。
Foundation Model Transparency Index今年的平均分數從去年的58分跌到了40分。 AI Index直接點名,Google、Anthropic、OpenAI都已經放棄公開最新模型的訓練資料規模和訓練時長。
去年發表的95個最具代表性的模型裡,80個沒有公開訓練程式碼。
大眾的情緒也變得更複雜。
全球範圍內,認為AI利大於弊的比例從52%上升到59%。但同期,對AI感到緊張的比例從50%上升到52%。
兩個方向同時成長。
最分裂的是美國。只有33%的美國人認為AI會讓自己的工作變得更好,全球平均是40%。美國人對本國政府監管AI的信任度,是受訪國家裡最低的,31%。
新加坡人對自己政府監管AI的信任度,是81%。
在最近Sam Altman家被攻擊的事件之後,矽谷圈內人「驚訝地發現」Instagram評論區裡的普通人對此並不同情,甚至有人覺得「應該更激烈一點」。
他們沒意識到事情已經糟到這個程度。
研報引用的Pew和Ipsos數據,專家和公眾在AI影響就業、醫療、經濟這些維度上的觀感差距,普遍超過30個百分點,最大的一項達到50個百分點。
一邊是實驗室裡的曲線在飛漲,一邊是一般人心裡的不安在累積。
中間沒有橋。
寫在最後
423頁的報告裡有幾百張圖表,但其實只畫了一張圖。
橫軸是時間,縱軸是能力。
模型能力的曲線在飛,算力曲線在飛,投資曲線在飛,採用率曲線在飛。其他全都在原地踏步或向下。
這就是2026年AI Index的全部內容。
AI在加速。其他東西都在脫節。
如果你是這個行業裡的人,現在該問的問題不是「未來會怎樣」,而是「自己站在哪一條曲線上」。

