什麼是 Autoresearch?Karpathy 的自主 ML Agent 完整解析
Autoresearch 在 2 天內跑完 700 次 ML 實驗,將 GPT-2 訓練時間縮短 11%。運作原理、成本分析、GPU 需求——完整解析。
什麼是 Autoresearch?Karpathy 的自主 ML Agent 完整解析
你去睡覺,一個 AI agent 繼續工作——改寫你的訓練程式碼、每五分鐘跑一次實驗、只保留有效的改進。早上起來,它已經測試了 100 種你從來沒想過的配置。
這就是 autoresearch。Andrej Karpathy 在 2026 年 3 月釋出這支 630 行的 Python 腳本,幾週內就在 GitHub 上累積了 53,100 顆星 (karpathy/autoresearch on GitHub, 2026)。它不是框架,也不是平台。只是一個迴圈:修改程式碼、訓練、評估、重複。完全不需要人介入。
真正讓人意外的不是這個想法——而是它真的有效。兩天內,autoresearch 完成了 700 次實驗,找到 20 項 GPT-2 訓練的真正改進,將訓練時間從 2.02 小時縮短到 1.80 小時 (VentureBeat's autoresearch coverage, 2026)。由機器自主找到的 11% 加速。
TL;DR: Autoresearch 是 Karpathy 的開源工具,讓 AI agent(Claude 或 Codex)在夜間自主修改訓練程式碼並每 5 分鐘跑一次 GPU 實驗。它在 2 天內跑了 700 次實驗、找到 20 項改進,並將 GPT-2 訓練時間縮短 11% (VentureBeat, 2026)。你只需要一張 NVIDIA GPU 和一組 API key。
原創分析: 以下的每次實驗成本拆解是根據公開的 GPU 雲端定價計算——目前沒有其他報導做過這筆帳。
Autoresearch 到底在做什麼?
Autoresearch 將 AI 程式碼 agent 與真實的 LLM 訓練環境配對,然後讓 agent 在無人監督下自由實驗 (The New Stack's breakdown of the experiment loop, 2026)。它不只是提出建議——它直接寫程式碼、啟動訓練、自行判斷結果好壞。
整個迴圈的運作方式如下:
-
AI agent 讀取目前的訓練程式碼。 透過 API 使用 Claude 或 Codex,它研究程式碼庫後挑選一個改動——新的 learning rate schedule、更大的 batch size、架構上的微調。
-
直接修改程式碼。 改動直接寫入磁碟,不需要人工批准。
-
訓練精確執行 5 分鐘。 這個固定時間預算是關鍵設計。模型大小、optimizer、資料管線——都不影響。每次實驗都有相同的 5 分鐘窗口,所以結果可以直接比較。
-
Agent 檢查 loss。 更好?保留。更差?回滾。
-
重複。 下一個想法、下一次實驗,不停歇。
每小時 12 次實驗,8 小時的夜間工作階段約可涵蓋 100 種配置 (Data Science Dojo's autoresearch explainer, 2026)。這是人類研究員一週都跑不完的搜尋空間。那如果讓它連跑兩天呢?
為什麼 5 分鐘上限這麼重要?傳統的超參數掃描讓每次實驗跑到自然結束,這使得比較變得混亂。Autoresearch 完全繞過了這個問題。每次實驗都是平等的。換架構、把 batch size 增加三倍、重寫 data loader——結果還是放在同一個計分板上。
為什麼訓練需要 GPU?
這是很多人搞混的地方:AI agent 本身不需要 GPU。Claude 和 Codex 透過 API 在雲端執行。GPU 是給每次實驗迴圈中的小型語言模型訓練用的。
NVIDIA 的 H100 在 transformer 訓練上比 A100 快 3-6 倍,推論速度更快達 30 倍 (Northflank's H100 vs A100 benchmark, 2025)。GPU 5 分鐘能處理的工作量,CPU 要花好幾個小時。這個差距不是小事——它正是 autoresearch 存在的原因。
關鍵洞察: 固定 5 分鐘的時間預算產生了天然的 GPU 依賴——不是因為原始算力不夠,而是因為在不同時間尺度下實驗無法比較。
換個方式想。固定的 5 分鐘預算代表 GPU 的吞吐量不是選配,而是必要條件。換成 CPU,同一個實驗會拉長到好幾個小時。你一晚只能跑 1-2 次,而不是 100 次。整個回饋迴圈就崩潰了。
還有更深層的硬體問題。過去 20 年,計算 FLOPS 擴展了 60,000 倍,但記憶體頻寬只擴展了 100 倍——這使得頻寬成為 LLM 訓練的真正瓶頸 (APXML's compute requirements guide, 2025)。GPU 透過高頻寬記憶體(HBM)解決這個問題,CPU 則沒有。
Autoresearch 需要一張支援 CUDA 的 NVIDIA GPU。Karpathy 將程式碼控制在 630 行,就是因為只針對一個平台。如果要支援 CPU、Apple Silicon MPS 和 AMD ROCm,程式碼量會增加兩到三倍。社群已經有 Apple Silicon 的 fork,但不在主 repo 中。
Autoresearch 目前取得了什麼成果?
Karpathy 的初始實驗在兩天內跑了 700 次,找出 20 項 GPT-2 訓練的真正改進 (VentureBeat's autoresearch coverage, 2026)。這些改進可以疊加。GPT-2 的訓練時間從 2.02 小時降到 1.80 小時——完全由機器提出的 11% 加速。
但真正讓人驚嘆的成果,來自 Karpathy 的實驗室之外。
Shopify 執行長 Tobi Lutke 在一夜之間跑了 37 次實驗。他的 0.8B 參數模型打敗了手動調校的 1.6B 參數模型——參數量只有一半卻獲得 19% 的效能提升 (Fortune's analysis of autonomous AI agents, 2026)。接著他用同樣的模式對準 Shopify 的 Liquid 模板引擎:93 次自動化 commit 帶來 53% 更快的渲染速度和 61% 更少的記憶體配置。
再讀一次。一位 CEO 把 AI agent 指向正式環境的基礎設施,上床睡覺,醒來後得到一個可量化的更快系統。夜間執行不需要 ML 專業知識,只要一張 GPU、一組 API key,以及對這個迴圈的信心。
光是第一個晚上就在零人工介入的情況下產出約 50 次實驗 (The New Stack's breakdown of the experiment loop, 2026)。大多數實驗會被丟棄,沒關係。存活下來的改進會疊加——每一次勝利都成為下一輪的基準線。
跑 Autoresearch 到底要花多少錢?
目前的報導沒有人算過這筆帳。所以我們算了。
Autoresearch 有兩個成本區塊:訓練用的 GPU 和 agent 推理用的 LLM API。
每次夜間作業的 GPU 成本:
H100 80GB 在雲端平台的價格約為每小時 $2.74 (Northflank's H100 vs A100 benchmark, 2025)。A100 80GB 則是每小時 $1.76。以 8 小時計算:
- H100: $2.74 × 8 = $21.92
- A100: $1.76 × 8 = $14.08
以每次 100 次實驗計算,相當於每次實驗 $0.14 到 $0.22。跟人工相比呢?一位 ML 研究員手動執行相同測試——假設一天 3 次——需要 33 個工作日才能追上一個夜間作業。
每次作業的 LLM API 成本:
Agent 每次實驗會呼叫一次 API——讀取程式碼、提出修改、寫出 diff。以目前 Claude 和 Codex 的定價,每次互動的成本在 $0.02 到 $0.10 之間,取決於 context 長度和模型等級。100 次實驗大約是 $2-10 的 API 成本。
整晚的總費用:$16-32。 這個價格買到的是相當於一個月手動測試的工作量。
Autoresearch 跟傳統 AutoML 有什麼不同?
全球 AutoML 市場在 2025 年達到 49.2 億美元,預計 2034 年將以 38.52% 的年複合成長率成長至 923.1 億美元 (Fortune Business Insights AutoML report, 2025)。但 autoresearch 並非在這個市場中競爭,它做的是完全不同的事。
AutoGluon、FLAML 和 Optuna 等 AutoML 工具在預定義的參數空間中搜尋。你設定範圍,它們在框架內最佳化。系統性,但被限制住了。
Autoresearch 不搜尋參數,它改寫原始碼。Agent 可以替換 optimizer、重新設計架構、加入資料增強,或重組整個訓練迴圈。這不是超參數調校,而是自動化研究——這個區別至關重要。
| 特性 | 傳統 AutoML | Autoresearch |
|---|---|---|
| 搜尋空間 | 預定義的超參數 | 整個程式碼庫 |
| 修改內容 | 數值參數 | 原始碼修改 |
| Agent | 最佳化演算法 | LLM(Claude/Codex) |
| 創造力 | 無(網格/隨機/貝葉斯搜尋) | 能發明新方法 |
| 建置規模 | 框架特定配置 | 630 行 Python |
| 成本 | 僅計算成本 | 計算 + LLM API |
| 可重現性 | 確定性 | 非確定性(LLM 會變化) |
代價是什麼?AutoML 是可預測且可重現的。Autoresearch 有創造力但不確定。跑兩次可能會得到不同的改進。在探索階段這是優勢,但需要稽核軌跡時就成了問題。
沒有 NVIDIA GPU 也能跑 Autoresearch 嗎?
簡短的回答:官方 repo 不行。Karpathy 只支援 CUDA,目的是將程式碼維持在 630 行。多後端支援會讓程式碼量增加兩到三倍。
不過社群動作很快。幾週內就出現了各種 fork:
- Apple Silicon(MLX): 社群使用 Apple 的 MLX 框架移植到 M1/M2/M3 Mac。訓練速度比 NVIDIA GPU 慢,但對較小的模型來說堪用。
- AMD(ROCm): 透過 PyTorch 的 ROCm 後端提供實驗性支援。不如 CUDA 成熟,但可運作。
- 純 CPU: 技術上可行但不實際。GPU 上 5 分鐘的實驗在 CPU 上會變成好幾個小時,直接打破了讓 autoresearch 發揮作用的快速回饋迴圈。
重點是:GPU 的需求不是隨意的設計,而是結構性的。這個系統的全部價值——一晚 100 次實驗——取決於每次在 5 分鐘內完成。拿掉 GPU,你得到的不是較慢版本的 autoresearch,而是一個壞掉的版本。
Autoresearch 對 AI 研究代表什麼?
73% 的工程團隊現在每天使用 AI 程式碼工具,高於 2025 年的 41% (Pragmatic Engineer's AI tooling survey, 2026)。光是 Claude Code 就撰寫了約 4% 的公開 GitHub commit——每天 135,000 次——預計到年底這個比例將達到 20% (Gradually.ai's Claude Code statistics, 2026)。
關鍵洞察: Autoresearch 代表了一個轉變——從 AI 輔助寫程式(人類指揮、AI 執行)到 AI 主導研究(AI 指揮、GPU 執行)。人類變成了審核者,而不是駕駛者。
Autoresearch 位於兩大趨勢的交匯處:自主 AI agent 和便宜的 GPU 算力。它不是第一個自動化機器學習工作的工具,但它是第一個將訓練程式碼——而不僅僅是參數——作為搜尋空間的工具。這是一個值得關注的概念躍進。
影響遠不止機器學習領域。Lutke 證明了你可以把這個模式對準任何有可量化指標的程式碼庫。渲染速度、記憶體使用、API 延遲。只要能打分,agent 就能在你睡覺時幫你最佳化。
GitHub 上有 430 萬個 AI repo,LLM 相關專案年增 178% (GitHub Octoverse 2025 report, 2025),那 53,100 顆星說明了一個清楚的故事。開發者不只想要輔助的工具,他們想要能在一夜之間產出結果的工具。
常見問題
跑 autoresearch 需要什麼?
三樣東西:一張支援 CUDA 的 NVIDIA GPU、Python 環境,以及 Claude 或 Codex 的 API key。這支腳本是 630 行的 Python,相依套件極少 (karpathy/autoresearch on GitHub, 2026)。推薦使用 A100 或 H100——雲端租用一次 8 小時的夜間作業大約 $14-22。
Autoresearch 跟超參數調校有什麼不同?
傳統超參數調校在預定義的數值範圍內搜尋——learning rate 從 0.001 到 0.1、batch size 從 16 到 256。Autoresearch 修改的是實際的原始碼。AI agent 可以改寫 optimizer、更改模型架構,或重組整個訓練管線。它更接近自動化研究,而非參數最佳化。
Autoresearch 能應用在 LLM 訓練以外的問題嗎?
可以。Shopify 執行長 Tobi Lutke 將同樣的模式應用在 Shopify 的 Liquid 模板引擎上,透過 93 次自動化 commit 達成 53% 更快的渲染速度和 61% 更少的記憶體配置 (Fortune's analysis of autonomous AI agents, 2026)。任何有可量化效能指標的程式碼庫都能受益。
在正式環境的程式碼上跑 autoresearch 安全嗎?
Autoresearch 針對的是獨立的訓練腳本,不是正式系統。每次實驗在沙箱環境中修改程式碼、訓練 5 分鐘,結果沒有改善就回滾。Lutke 的 Shopify 實驗是在獨立分支上執行,合併前有人工審查。Agent 提案,人類批准正式部署。
Autoresearch 何時會支援 Apple Silicon 或 AMD GPU?
Apple Silicon 的社群 fork(透過 MLX)已經存在,但不在主 repo 中。Karpathy 表示會維持官方程式碼的精簡——僅限 CUDA。AMD ROCm 支援透過 PyTorch 現有的後端提供實驗性支持。對於 Mac 使用者,MLX fork 可用於較小的模型,但速度比 NVIDIA GPU 慢。
結論
Autoresearch 不是魔法。它是一個緊密的迴圈:AI agent 寫程式碼、GPU 訓練模型、評分函數決定哪些存活。真正的故事在於經濟效益。花 $16-32,你能在一夜之間完成相當於一個月手動測試的工作量。
那 53,100 顆星反映的是真實需求。開發者正在重新思考最佳化的方式。既然 agent 可以在你睡覺時測試 100 種配置,為什麼還要手動調校?既然 agent 可以改寫整個訓練迴圈,為什麼還要困在超參數網格裡?
如果你有 NVIDIA GPU 和一個可量化的指標,就給 autoresearch 一個夜間跑看看。最壞的情況:花 $20 學到了沒什麼。最好的情況:你醒來發現一個自己永遠找不到的 11% 效能提升。
延伸閱讀:
- How agentic AI is reshaping engineering workflows in 2026 — CIO 深度剖析 AI agent 如何改變開發者角色
- Cloud GPU pricing comparison for ML workloads — GMI Cloud 跨供應商 GPU 成本工程指南
- Get started with the Claude API — Anthropic 官方 Claude API 文件