返回部落格

什麼是 Autoresearch?Karpathy 的自主 ML Agent 完整解析

Autoresearch 在 2 天內跑完 700 次 ML 實驗,將 GPT-2 訓練時間縮短 11%。運作原理、成本分析、GPU 需求——完整解析。

什麼是 Autoresearch?Karpathy 的自主 ML Agent 完整解析

你去睡覺,一個 AI agent 繼續工作——改寫你的訓練程式碼、每五分鐘跑一次實驗、只保留有效的改進。早上起來,它已經測試了 100 種你從來沒想過的配置。

這就是 autoresearch。Andrej Karpathy 在 2026 年 3 月釋出這支 630 行的 Python 腳本,幾週內就在 GitHub 上累積了 53,100 顆星 (karpathy/autoresearch on GitHub, 2026)。它不是框架,也不是平台。只是一個迴圈:修改程式碼、訓練、評估、重複。完全不需要人介入。

真正讓人意外的不是這個想法——而是它真的有效。兩天內,autoresearch 完成了 700 次實驗,找到 20 項 GPT-2 訓練的真正改進,將訓練時間從 2.02 小時縮短到 1.80 小時 (VentureBeat's autoresearch coverage, 2026)。由機器自主找到的 11% 加速。

TL;DR: Autoresearch 是 Karpathy 的開源工具,讓 AI agent(Claude 或 Codex)在夜間自主修改訓練程式碼並每 5 分鐘跑一次 GPU 實驗。它在 2 天內跑了 700 次實驗、找到 20 項改進,並將 GPT-2 訓練時間縮短 11% (VentureBeat, 2026)。你只需要一張 NVIDIA GPU 和一組 API key。

原創分析: 以下的每次實驗成本拆解是根據公開的 GPU 雲端定價計算——目前沒有其他報導做過這筆帳。

Autoresearch 到底在做什麼?

Autoresearch 將 AI 程式碼 agent 與真實的 LLM 訓練環境配對,然後讓 agent 在無人監督下自由實驗 (The New Stack's breakdown of the experiment loop, 2026)。它不只是提出建議——它直接寫程式碼、啟動訓練、自行判斷結果好壞。

整個迴圈的運作方式如下:

  1. AI agent 讀取目前的訓練程式碼。 透過 API 使用 Claude 或 Codex,它研究程式碼庫後挑選一個改動——新的 learning rate schedule、更大的 batch size、架構上的微調。

  2. 直接修改程式碼。 改動直接寫入磁碟,不需要人工批准。

  3. 訓練精確執行 5 分鐘。 這個固定時間預算是關鍵設計。模型大小、optimizer、資料管線——都不影響。每次實驗都有相同的 5 分鐘窗口,所以結果可以直接比較。

  4. Agent 檢查 loss。 更好?保留。更差?回滾。

  5. 重複。 下一個想法、下一次實驗,不停歇。

每小時 12 次實驗,8 小時的夜間工作階段約可涵蓋 100 種配置 (Data Science Dojo's autoresearch explainer, 2026)。這是人類研究員一週都跑不完的搜尋空間。那如果讓它連跑兩天呢?

A glowing AI processor chip representing the GPU computing hardware that powers autonomous ML experiments

為什麼 5 分鐘上限這麼重要?傳統的超參數掃描讓每次實驗跑到自然結束,這使得比較變得混亂。Autoresearch 完全繞過了這個問題。每次實驗都是平等的。換架構、把 batch size 增加三倍、重寫 data loader——結果還是放在同一個計分板上。

為什麼訓練需要 GPU?

這是很多人搞混的地方:AI agent 本身不需要 GPU。Claude 和 Codex 透過 API 在雲端執行。GPU 是給每次實驗迴圈中的小型語言模型訓練用的。

NVIDIA 的 H100 在 transformer 訓練上比 A100 快 3-6 倍,推論速度更快達 30 倍 (Northflank's H100 vs A100 benchmark, 2025)。GPU 5 分鐘能處理的工作量,CPU 要花好幾個小時。這個差距不是小事——它正是 autoresearch 存在的原因。

關鍵洞察: 固定 5 分鐘的時間預算產生了天然的 GPU 依賴——不是因為原始算力不夠,而是因為在不同時間尺度下實驗無法比較。

換個方式想。固定的 5 分鐘預算代表 GPU 的吞吐量不是選配,而是必要條件。換成 CPU,同一個實驗會拉長到好幾個小時。你一晚只能跑 1-2 次,而不是 100 次。整個回饋迴圈就崩潰了。

還有更深層的硬體問題。過去 20 年,計算 FLOPS 擴展了 60,000 倍,但記憶體頻寬只擴展了 100 倍——這使得頻寬成為 LLM 訓練的真正瓶頸 (APXML's compute requirements guide, 2025)。GPU 透過高頻寬記憶體(HBM)解決這個問題,CPU 則沒有。

Autoresearch 需要一張支援 CUDA 的 NVIDIA GPU。Karpathy 將程式碼控制在 630 行,就是因為只針對一個平台。如果要支援 CPU、Apple Silicon MPS 和 AMD ROCm,程式碼量會增加兩到三倍。社群已經有 Apple Silicon 的 fork,但不在主 repo 中。

Close-up of an NVIDIA GPU graphics card with illuminated green PCB and cooling fans used for ML training

Autoresearch 目前取得了什麼成果?

Karpathy 的初始實驗在兩天內跑了 700 次,找出 20 項 GPT-2 訓練的真正改進 (VentureBeat's autoresearch coverage, 2026)。這些改進可以疊加。GPT-2 的訓練時間從 2.02 小時降到 1.80 小時——完全由機器提出的 11% 加速。

但真正讓人驚嘆的成果,來自 Karpathy 的實驗室之外。

Shopify 執行長 Tobi Lutke 在一夜之間跑了 37 次實驗。他的 0.8B 參數模型打敗了手動調校的 1.6B 參數模型——參數量只有一半卻獲得 19% 的效能提升 (Fortune's analysis of autonomous AI agents, 2026)。接著他用同樣的模式對準 Shopify 的 Liquid 模板引擎:93 次自動化 commit 帶來 53% 更快的渲染速度和 61% 更少的記憶體配置。

再讀一次。一位 CEO 把 AI agent 指向正式環境的基礎設施,上床睡覺,醒來後得到一個可量化的更快系統。夜間執行不需要 ML 專業知識,只要一張 GPU、一組 API key,以及對這個迴圈的信心。

Rows of illuminated server racks in a modern data center powering AI model training

光是第一個晚上就在零人工介入的情況下產出約 50 次實驗 (The New Stack's breakdown of the experiment loop, 2026)。大多數實驗會被丟棄,沒關係。存活下來的改進會疊加——每一次勝利都成為下一輪的基準線。

跑 Autoresearch 到底要花多少錢?

目前的報導沒有人算過這筆帳。所以我們算了。

Autoresearch 有兩個成本區塊:訓練用的 GPU 和 agent 推理用的 LLM API。

每次夜間作業的 GPU 成本:

H100 80GB 在雲端平台的價格約為每小時 $2.74 (Northflank's H100 vs A100 benchmark, 2025)。A100 80GB 則是每小時 $1.76。以 8 小時計算:

  • H100: $2.74 × 8 = $21.92
  • A100: $1.76 × 8 = $14.08

以每次 100 次實驗計算,相當於每次實驗 $0.14 到 $0.22。跟人工相比呢?一位 ML 研究員手動執行相同測試——假設一天 3 次——需要 33 個工作日才能追上一個夜間作業。

每次作業的 LLM API 成本:

Agent 每次實驗會呼叫一次 API——讀取程式碼、提出修改、寫出 diff。以目前 Claude 和 Codex 的定價,每次互動的成本在 $0.02 到 $0.10 之間,取決於 context 長度和模型等級。100 次實驗大約是 $2-10 的 API 成本。

整晚的總費用:$16-32。 這個價格買到的是相當於一個月手動測試的工作量。

Autoresearch 跟傳統 AutoML 有什麼不同?

全球 AutoML 市場在 2025 年達到 49.2 億美元,預計 2034 年將以 38.52% 的年複合成長率成長至 923.1 億美元 (Fortune Business Insights AutoML report, 2025)。但 autoresearch 並非在這個市場中競爭,它做的是完全不同的事。

Close-up of a circuit board with microprocessor representing the compute hardware behind automated ML systems

AutoGluon、FLAML 和 Optuna 等 AutoML 工具在預定義的參數空間中搜尋。你設定範圍,它們在框架內最佳化。系統性,但被限制住了。

Autoresearch 不搜尋參數,它改寫原始碼。Agent 可以替換 optimizer、重新設計架構、加入資料增強,或重組整個訓練迴圈。這不是超參數調校,而是自動化研究——這個區別至關重要。

特性傳統 AutoMLAutoresearch
搜尋空間預定義的超參數整個程式碼庫
修改內容數值參數原始碼修改
Agent最佳化演算法LLM(Claude/Codex)
創造力無(網格/隨機/貝葉斯搜尋)能發明新方法
建置規模框架特定配置630 行 Python
成本僅計算成本計算 + LLM API
可重現性確定性非確定性(LLM 會變化)

代價是什麼?AutoML 是可預測且可重現的。Autoresearch 有創造力但不確定。跑兩次可能會得到不同的改進。在探索階段這是優勢,但需要稽核軌跡時就成了問題。

沒有 NVIDIA GPU 也能跑 Autoresearch 嗎?

簡短的回答:官方 repo 不行。Karpathy 只支援 CUDA,目的是將程式碼維持在 630 行。多後端支援會讓程式碼量增加兩到三倍。

不過社群動作很快。幾週內就出現了各種 fork:

  • Apple Silicon(MLX): 社群使用 Apple 的 MLX 框架移植到 M1/M2/M3 Mac。訓練速度比 NVIDIA GPU 慢,但對較小的模型來說堪用。
  • AMD(ROCm): 透過 PyTorch 的 ROCm 後端提供實驗性支援。不如 CUDA 成熟,但可運作。
  • 純 CPU: 技術上可行但不實際。GPU 上 5 分鐘的實驗在 CPU 上會變成好幾個小時,直接打破了讓 autoresearch 發揮作用的快速回饋迴圈。
A digital brain composed of neural network connections representing autonomous machine learning architecture

重點是:GPU 的需求不是隨意的設計,而是結構性的。這個系統的全部價值——一晚 100 次實驗——取決於每次在 5 分鐘內完成。拿掉 GPU,你得到的不是較慢版本的 autoresearch,而是一個壞掉的版本。

Autoresearch 對 AI 研究代表什麼?

73% 的工程團隊現在每天使用 AI 程式碼工具,高於 2025 年的 41% (Pragmatic Engineer's AI tooling survey, 2026)。光是 Claude Code 就撰寫了約 4% 的公開 GitHub commit——每天 135,000 次——預計到年底這個比例將達到 20% (Gradually.ai's Claude Code statistics, 2026)。

Developer coding on a laptop with lines of code on screen representing the human-AI collaboration in autonomous research

關鍵洞察: Autoresearch 代表了一個轉變——從 AI 輔助寫程式(人類指揮、AI 執行)到 AI 主導研究(AI 指揮、GPU 執行)。人類變成了審核者,而不是駕駛者。

Autoresearch 位於兩大趨勢的交匯處:自主 AI agent 和便宜的 GPU 算力。它不是第一個自動化機器學習工作的工具,但它是第一個將訓練程式碼——而不僅僅是參數——作為搜尋空間的工具。這是一個值得關注的概念躍進。

影響遠不止機器學習領域。Lutke 證明了你可以把這個模式對準任何有可量化指標的程式碼庫。渲染速度、記憶體使用、API 延遲。只要能打分,agent 就能在你睡覺時幫你最佳化。

GitHub 上有 430 萬個 AI repo,LLM 相關專案年增 178% (GitHub Octoverse 2025 report, 2025),那 53,100 顆星說明了一個清楚的故事。開發者不只想要輔助的工具,他們想要能在一夜之間產出結果的工具。

常見問題

跑 autoresearch 需要什麼?

三樣東西:一張支援 CUDA 的 NVIDIA GPU、Python 環境,以及 Claude 或 Codex 的 API key。這支腳本是 630 行的 Python,相依套件極少 (karpathy/autoresearch on GitHub, 2026)。推薦使用 A100 或 H100——雲端租用一次 8 小時的夜間作業大約 $14-22。

Autoresearch 跟超參數調校有什麼不同?

傳統超參數調校在預定義的數值範圍內搜尋——learning rate 從 0.001 到 0.1、batch size 從 16 到 256。Autoresearch 修改的是實際的原始碼。AI agent 可以改寫 optimizer、更改模型架構,或重組整個訓練管線。它更接近自動化研究,而非參數最佳化。

Autoresearch 能應用在 LLM 訓練以外的問題嗎?

可以。Shopify 執行長 Tobi Lutke 將同樣的模式應用在 Shopify 的 Liquid 模板引擎上,透過 93 次自動化 commit 達成 53% 更快的渲染速度和 61% 更少的記憶體配置 (Fortune's analysis of autonomous AI agents, 2026)。任何有可量化效能指標的程式碼庫都能受益。

在正式環境的程式碼上跑 autoresearch 安全嗎?

Autoresearch 針對的是獨立的訓練腳本,不是正式系統。每次實驗在沙箱環境中修改程式碼、訓練 5 分鐘,結果沒有改善就回滾。Lutke 的 Shopify 實驗是在獨立分支上執行,合併前有人工審查。Agent 提案,人類批准正式部署。

Autoresearch 何時會支援 Apple Silicon 或 AMD GPU?

Apple Silicon 的社群 fork(透過 MLX)已經存在,但不在主 repo 中。Karpathy 表示會維持官方程式碼的精簡——僅限 CUDA。AMD ROCm 支援透過 PyTorch 現有的後端提供實驗性支持。對於 Mac 使用者,MLX fork 可用於較小的模型,但速度比 NVIDIA GPU 慢。

結論

Autoresearch 不是魔法。它是一個緊密的迴圈:AI agent 寫程式碼、GPU 訓練模型、評分函數決定哪些存活。真正的故事在於經濟效益。花 $16-32,你能在一夜之間完成相當於一個月手動測試的工作量。

那 53,100 顆星反映的是真實需求。開發者正在重新思考最佳化的方式。既然 agent 可以在你睡覺時測試 100 種配置,為什麼還要手動調校?既然 agent 可以改寫整個訓練迴圈,為什麼還要困在超參數網格裡?

如果你有 NVIDIA GPU 和一個可量化的指標,就給 autoresearch 一個夜間跑看看。最壞的情況:花 $20 學到了沒什麼。最好的情況:你醒來發現一個自己永遠找不到的 11% 效能提升。

延伸閱讀:

今天就開始建構。