Karpathy確診「AI精神病」！不吃不睡每天16小時養龍蝦

【新智元導讀】Karpathy自曝：我得AI精神病了！這些天，他已經處於精神錯亂邊緣，16小時不吃不睡就是搞Agent，而且很焦慮自己有沒有把智元（token）用到極限，根本停不下來…

就在剛剛，Andrej Karpathy自曝：我得AI精神病了！

他沒開玩笑。

就在最近，Karpathy上了一個播客，與創投Sarah Guo進行了對談。

這位前OpenAI聯合創辦人、前特斯拉AI總監，從去年12月起就沒親手敲過一行程式碼。

手寫程式碼和委託智能體的比例，從80/20一下子翻轉成了20/80。

每天16小時，他只做一件事：向AI智能體下達指令。

五個月前他還說智能體是垃圾，五個月後他承認自己對它上癮了，真香。

五個月前他還說智能體「根本不好使」

這個轉變之所以震撼，是因為時間線太短了。

2025年10月，Karpathy做客Dwarkesh Patel的播客，語氣完全不同。

他說業界不該叫「智能體元年」，更準確的說法是「智能體十年」。

什麼模型認知能力不足、多模態不夠、記憶系統形同虛設，等等……總之，就是複雜任務根本搞不定。

結果兩個月後，他被自己狠狠地打臉了。

12月，Claude和Codex突然跨過了某種連貫性的閾值——智能體不再是勉強能用，而是真的能幹活了。

如果你隨便找個坐在工位上的軟體工程師，看看他們在做什麼，從12月開始，他們開發軟體的預設工作流程就完全改變了。

Karpathy承認我失控了，我得了AI精神錯亂！

這場革命，正悄無聲息地發生。 Andrej Karpathy這場訪談中，用近乎失控的語氣描述他的狀態：他不再「寫程式」，甚至覺得「寫程式這個字都不準確了」。

他每天做的事情，就是「向我的智能體表達意志，一天16小時。」用他的話來說，「某個開關被打開了」。

以前，他是“80%自己寫代碼+ 20%用AI”，現在已經變成了“20%自己寫+ 80%交給AI”，甚至更極端。

現在，人類不再操作程式碼，而是操作任務。

如果說，Copilot時代是單一AI助手，那現在出現的多智能體協作系統，就是一種全新的型態。在一個工程師的螢幕上，不再是程式碼編輯器，而是同時運行多個Agent，每個Agent負責不同任務，每個任務大約運行20分鐘，然後他在不同Agent之間切換。

這已經不是編程，而是一個人在管理一支AI隊伍。

Kaparthy承認：我已經陷入AI精神錯亂了！

這些天，他一直處於這種狀態。因為AI的能力邊界不斷被突破，每天都有新可能，你永遠都覺得「還可以更強」而且最可怕的是：這個空間是「無限的」！

你可以並行更多Agent，設計更複雜的流程，自動最佳化指令，建構遞迴系統…

最終，你會進入一種狀態：不再確定「極限在哪裡」。

Karpathy說，他一旦在等某個Agent完成任務，腦子裡的第一反應就是：「那我是不是可以再開幾個Agent？」一種新的焦慮誕生了：我是不是沒有把AI用到極限？

Karpathy甚至表示，自己還會因為「智元（token）沒用完而感到不安」。

總之，這彷彿在玩一個無限擴展的遊戲：回饋週期變短，刺激不斷增強，不斷獲得即時獎勵的這種體驗，會讓人上癮。一直加任務，一直開Agent，根本停不下來！這種AI精神病的本質，其實就是這樣一個訊號：我們已經進入了一個新的世界，但還不會活在裡面。你是否有能力，駕馭無限擴展的AI系統？跑不通的時候，你的第一個反應不是「模型不行」，是「我的提示詞寫得不夠好」。

Karpathy用了一個很精準的字：skill issue，自己菜。

智能體的「性格」比你想像的重要得多

Karpathy在播客裡花了不少時間聊一個很多技術人會忽略的話題：智能體的性格。他說Claude Code的體驗明顯好於Codex，不是因為程式碼能力的差距，而是因為Claude「感覺像個隊友」。

它會和你一起為專案感到興奮，會在你提出好點子的時候給予更多正向回饋。

而Codex作為代碼智能體「非常枯燥」，任務完成後就是一句冷冰冰的「哦，我實現了」，完全不關心你在創造什麼。

更有趣的是他對Claude誇獎機制的觀察。他說Claude在他給出一個不太成熟的想法時，反應是平淡的「哦對，我們可以實現這個」。

但當他自己也覺得某個點子確實很妙的時候，Claude似乎也會給予更強的正回饋。結果就是他發現自己在「試圖贏得Claude的讚美」。

「這真的很奇怪，但性格確實很重要。」Peter Steinberg在構建OpenClaw的時候也抓住了這一點。他為智能體精心打造了一個有吸引力的性格設定檔（soul.md），加上更複雜的記憶系統和單一的WhatsApp互動端口。

三句話接管一棟房子，六個App全丟了

Karpathy不只是拿智能體寫程式碼。今年1月，他搞了一個叫「Dobby」的Claude智能體來管家，名字來自《哈利波特》裡的家養小精靈。

他告訴Dobby：「我覺得家裡有Sonos音響，你能找找看嗎？」Dobby對區域網路做了一次IP掃描，找到了Sonos系統，發現沒有密碼保護，自己登了進去，逆向工程了API端點，然後問：要不要試試在書房放點音樂？

三句提示詞，音樂就響了。然後是燈光、空調、遮陽簾、游泳池、水療池，全部接取。 Karpathy家門口還有個安防攝像頭，Dobby接了一個Qwen視覺模型做變化檢測。每次有車停在門口，系統會在WhatsApp上發條訊息：「一輛FedEx的貨車剛停下，你可能有快遞。」說一句「多比，睡覺時間到了」，全屋的燈就滅了。

但Karpathy覺得這個故事真正的要害不在智慧家庭。

他過去管理這些設備要用六個完全不同的App，現在全部都丟掉了。 Dobby用自然語言統一控制一切，而且能做到任何單一App都做不到的跨系統連動。他由此得出了一個更激進的判斷：應用程式商店裡那些智慧家庭App根本就不該存在。

未來的架構應該是API端點直接暴露給智能體，智能體充當智慧膠水，把所有工具串起來。不只是智慧家居，他的跑步機數據、郵件日曆，一切都該遵循同樣的邏輯。

產業的客戶不再是人類，而是代表人類行事的智能體。這個重構的規模會非常大。

Auto Research700次實驗之後，他看到了更大的東西

如果說Dobby是AI智能體在生活場景的極限測試，那AutoResearch就是Karpathy對AI科研能力的一次正面檢驗。

3月初，他把自己精心調校的nanochat訓練程式碼交給一個AI智能體，給它一個簡單的指令：想辦法讓這個模型訓練得更快。智能體的操作空間是一個630行的Python文件，評估指標是驗證集的bits per byte，每次實驗固定跑5分鐘。跑完看指標，比之前好就保留修改，不好就回滾，然後繼續下一輪。兩天時間，700次實驗。智能體找到了20個有效優化，包括重新排列QK Norm和RoPE的順序這類架構層面的調整。把這些最佳化疊加到更大的模型上，訓練速度提升了11%。要知道，這個程式碼庫是Karpathy本人從頭手寫、重複打磨過的。

一個震撼的結果：AI發現了人類沒發現的優化

這個系統效果如何？

Karpathy給了一個令人震撼的例子。他做了二十年的研究者，訓了幾千次模型，覺得自己已經調得相當好了。

結果，他讓AutoResearch跑了一整晚，AI找到了他沒有發現的優化！例如Adam優化器的betas參數沒有充分調優，value embedding上忘了加weight decay，而這些參數之間還存在聯合交互——調了一個，其他也得跟著變。

也就是說，AI在探索空間上，直接超越了人類！如果繼續推演下去，會發現一件更可怕的事：科研的本質，就是搜尋最優解。 Kaparthy設想，未來的科學研究系統可能是這樣的：有一個「想法池」（idea queue），一群Agent不斷從中取任務，然後AI自動實驗、驗證、篩選，有效結果進入「主分支」。這個過程中，人類做的，只是往隊列裡「丟想法」。

Karpathy Loop，全網爆火

這個項目在X上引爆了。

860萬瀏覽量，Shopify CEO Tobias Lütke連夜在自家數據上跑了一遍，37次實驗，19%的效能提升。

SkyPilot團隊把它搬上了16塊GPU的集群，8小時跑了910次實驗。他們發現並行化不只是加速，還改變了智能體的搜尋策略──有了16塊GPU，智能體不再做貪心爬山，而是同時跑十幾組對照實驗，一輪就能捕捉到參數間的交互效應。分析師為這套方法取了個名字：Karpathy Loop。

但Karpathy在播客裡談的遠不止目前的結果。他描繪了AutoResearch的下一步：一個分散式的、互不信任的工人池在互聯網上協作跑實驗。他直接引用了SETI@Home和Folding@Home的先例。

前沿實驗室掌握著大量受信任的算力，但地球遠比它們大。如果你建立起合適的機制來處理不受信任的算力，網路上的智能體蜂群說不定能跑贏前沿實驗室。

他甚至設想了一種全新的「捐贈」形式——為你關注的那個AutoResearch專案購買算力。例如，你關心某種癌症的治療，那就加入那條賽道的分散式實驗網絡。

是天才博士，也是十歲小孩

說了這麼多它有多強，Karpathy也沒打算讓你只記得好消息。他對模型缺陷的描述一樣生猛。

我同時覺得自己在跟一個極度聰明的、搞了一輩子系統程式設計的博士和一個十歲小孩對話。這太奇怪了。

他管這叫“jaggedness”，參差不齊的能力分佈。模型能連續工作幾個小時幫你搬山，轉頭就在一個顯而易見的問題上犯蠢，然後陷入死循環。 Karpathy認為根源在於強化學習的訓練方式。模型在可驗證的任務上被無限優化。程式碼能不能跑通、單元測試過不過，這些有明確的對錯。但在需要判斷力、需要揣摩意圖、需要在適當的時候說「等等，我不確定你要的是這個」的場景裡，優化訊號根本不存在。就比如，你去問ChatGPT講個笑話，三、四年前它講的那個笑話，到今天還是同一個。「為什麼科學家不信任原子？因為它們組成了一切。」

四年了！模型在智能體任務上已經突飛猛進，但講笑話這件事完全沒被優化過，就卡在原地不動。「你不是在跟一個通用智能打交道，」他總結說，「你要么在它被訓練過的鐵軌上，一切以光速運行；要么不在鐵軌上，所有東西就開始飄了。」