2026年3月24日

什麼是 Autoresearch？Karpathy 的自主 ML Agent 完整解析

Autoresearch 在 2 天內跑完 700 次 ML 實驗，將 GPT-2 訓練時間縮短 11%。運作原理、成本分析、GPU 需求——完整解析。

什麼是 Autoresearch？Karpathy 的自主 ML Agent 完整解析

你去睡覺，一個 AI agent 繼續工作——改寫你的訓練程式碼、每五分鐘跑一次實驗、只保留有效的改進。早上起來，它已經測試了 100 種你從來沒想過的配置。

這就是 autoresearch。Andrej Karpathy 在 2026 年 3 月釋出這支 630 行的 Python 腳本，幾週內就在 GitHub 上累積了 53,100 顆星 (karpathy/autoresearch on GitHub, 2026)。它不是框架，也不是平台。只是一個迴圈：修改程式碼、訓練、評估、重複。完全不需要人介入。

真正讓人意外的不是這個想法——而是它真的有效。兩天內，autoresearch 完成了 700 次實驗，找到 20 項 GPT-2 訓練的真正改進，將訓練時間從 2.02 小時縮短到 1.80 小時 (VentureBeat's autoresearch coverage, 2026)。由機器自主找到的 11% 加速。

TL;DR: Autoresearch 是 Karpathy 的開源工具，讓 AI agent（Claude 或 Codex）在夜間自主修改訓練程式碼並每 5 分鐘跑一次 GPU 實驗。它在 2 天內跑了 700 次實驗、找到 20 項改進，並將 GPT-2 訓練時間縮短 11% (VentureBeat, 2026)。你只需要一張 NVIDIA GPU 和一組 API key。

原創分析： 以下的每次實驗成本拆解是根據公開的 GPU 雲端定價計算——目前沒有其他報導做過這筆帳。

Autoresearch 到底在做什麼？

Autoresearch 將 AI 程式碼 agent 與真實的 LLM 訓練環境配對，然後讓 agent 在無人監督下自由實驗 (The New Stack's breakdown of the experiment loop, 2026)。它不只是提出建議——它直接寫程式碼、啟動訓練、自行判斷結果好壞。

整個迴圈的運作方式如下：

AI agent 讀取目前的訓練程式碼。 透過 API 使用 Claude 或 Codex，它研究程式碼庫後挑選一個改動——新的 learning rate schedule、更大的 batch size、架構上的微調。
直接修改程式碼。 改動直接寫入磁碟，不需要人工批准。
訓練精確執行 5 分鐘。 這個固定時間預算是關鍵設計。模型大小、optimizer、資料管線——都不影響。每次實驗都有相同的 5 分鐘窗口，所以結果可以直接比較。
Agent 檢查 loss。 更好？保留。更差？回滾。
重複。 下一個想法、下一次實驗，不停歇。

每小時 12 次實驗，8 小時的夜間工作階段約可涵蓋 100 種配置 (Data Science Dojo's autoresearch explainer, 2026)。這是人類研究員一週都跑不完的搜尋空間。那如果讓它連跑兩天呢？

A glowing AI processor chip representing the GPU computing hardware that powers autonomous ML experiments

為什麼 5 分鐘上限這麼重要？傳統的超參數掃描讓每次實驗跑到自然結束，這使得比較變得混亂。Autoresearch 完全繞過了這個問題。每次實驗都是平等的。換架構、把 batch size 增加三倍、重寫 data loader——結果還是放在同一個計分板上。

為什麼訓練需要 GPU？

這是很多人搞混的地方：AI agent 本身不需要 GPU。Claude 和 Codex 透過 API 在雲端執行。GPU 是給每次實驗迴圈中的小型語言模型訓練用的。

NVIDIA 的 H100 在 transformer 訓練上比 A100 快 3-6 倍，推論速度更快達 30 倍 (Northflank's H100 vs A100 benchmark, 2025)。GPU 5 分鐘能處理的工作量，CPU 要花好幾個小時。這個差距不是小事——它正是 autoresearch 存在的原因。

關鍵洞察： 固定 5 分鐘的時間預算產生了天然的 GPU 依賴——不是因為原始算力不夠，而是因為在不同時間尺度下實驗無法比較。

換個方式想。固定的 5 分鐘預算代表 GPU 的吞吐量不是選配，而是必要條件。換成 CPU，同一個實驗會拉長到好幾個小時。你一晚只能跑 1-2 次，而不是 100 次。整個回饋迴圈就崩潰了。

還有更深層的硬體問題。過去 20 年，計算 FLOPS 擴展了 60,000 倍，但記憶體頻寬只擴展了 100 倍——這使得頻寬成為 LLM 訓練的真正瓶頸 (APXML's compute requirements guide, 2025)。GPU 透過高頻寬記憶體（HBM）解決這個問題，CPU 則沒有。

Autoresearch 需要一張支援 CUDA 的 NVIDIA GPU。Karpathy 將程式碼控制在 630 行，就是因為只針對一個平台。如果要支援 CPU、Apple Silicon MPS 和 AMD ROCm，程式碼量會增加兩到三倍。社群已經有 Apple Silicon 的 fork，但不在主 repo 中。

Close-up of an NVIDIA GPU graphics card with illuminated green PCB and cooling fans used for ML training

Autoresearch 目前取得了什麼成果？

Karpathy 的初始實驗在兩天內跑了 700 次，找出 20 項 GPT-2 訓練的真正改進 (VentureBeat's autoresearch coverage, 2026)。這些改進可以疊加。GPT-2 的訓練時間從 2.02 小時降到 1.80 小時——完全由機器提出的 11% 加速。

但真正讓人驚嘆的成果，來自 Karpathy 的實驗室之外。

Shopify 執行長 Tobi Lutke 在一夜之間跑了 37 次實驗。他的 0.8B 參數模型打敗了手動調校的 1.6B 參數模型——參數量只有一半卻獲得 19% 的效能提升 (Fortune's analysis of autonomous AI agents, 2026)。接著他用同樣的模式對準 Shopify 的 Liquid 模板引擎：93 次自動化 commit 帶來 53% 更快的渲染速度和 61% 更少的記憶體配置。

再讀一次。一位 CEO 把 AI agent 指向正式環境的基礎設施，上床睡覺，醒來後得到一個可量化的更快系統。夜間執行不需要 ML 專業知識，只要一張 GPU、一組 API key，以及對這個迴圈的信心。

Rows of illuminated server racks in a modern data center powering AI model training

光是第一個晚上就在零人工介入的情況下產出約 50 次實驗 (The New Stack's breakdown of the experiment loop, 2026)。大多數實驗會被丟棄，沒關係。存活下來的改進會疊加——每一次勝利都成為下一輪的基準線。

跑 Autoresearch 到底要花多少錢？

目前的報導沒有人算過這筆帳。所以我們算了。

Autoresearch 有兩個成本區塊：訓練用的 GPU 和 agent 推理用的 LLM API。

每次夜間作業的 GPU 成本：

H100 80GB 在雲端平台的價格約為每小時 $2.74 (Northflank's H100 vs A100 benchmark, 2025)。A100 80GB 則是每小時 $1.76。以 8 小時計算：

H100： $2.74 × 8 = $21.92
A100： $1.76 × 8 = $14.08

以每次 100 次實驗計算，相當於每次實驗 $0.14 到 $0.22。跟人工相比呢？一位 ML 研究員手動執行相同測試——假設一天 3 次——需要 33 個工作日才能追上一個夜間作業。

每次作業的 LLM API 成本：

Agent 每次實驗會呼叫一次 API——讀取程式碼、提出修改、寫出 diff。以目前 Claude 和 Codex 的定價，每次互動的成本在 $0.02 到 $0.10 之間，取決於 context 長度和模型等級。100 次實驗大約是 $2-10 的 API 成本。

整晚的總費用：$16-32。 這個價格買到的是相當於一個月手動測試的工作量。

Autoresearch 跟傳統 AutoML 有什麼不同？

全球 AutoML 市場在 2025 年達到 49.2 億美元，預計 2034 年將以 38.52% 的年複合成長率成長至 923.1 億美元 (Fortune Business Insights AutoML report, 2025)。但 autoresearch 並非在這個市場中競爭，它做的是完全不同的事。

Close-up of a circuit board with microprocessor representing the compute hardware behind automated ML systems

AutoGluon、FLAML 和 Optuna 等 AutoML 工具在預定義的參數空間中搜尋。你設定範圍，它們在框架內最佳化。系統性，但被限制住了。

Autoresearch 不搜尋參數，它改寫原始碼。Agent 可以替換 optimizer、重新設計架構、加入資料增強，或重組整個訓練迴圈。這不是超參數調校，而是自動化研究——這個區別至關重要。

特性	傳統 AutoML	Autoresearch
搜尋空間	預定義的超參數	整個程式碼庫
修改內容	數值參數	原始碼修改
Agent	最佳化演算法	LLM（Claude/Codex）
創造力	無（網格/隨機/貝葉斯搜尋）	能發明新方法
建置規模	框架特定配置	630 行 Python
成本	僅計算成本	計算 + LLM API
可重現性	確定性	非確定性（LLM 會變化）

代價是什麼？AutoML 是可預測且可重現的。Autoresearch 有創造力但不確定。跑兩次可能會得到不同的改進。在探索階段這是優勢，但需要稽核軌跡時就成了問題。

沒有 NVIDIA GPU 也能跑 Autoresearch 嗎？

簡短的回答：官方 repo 不行。Karpathy 只支援 CUDA，目的是將程式碼維持在 630 行。多後端支援會讓程式碼量增加兩到三倍。

不過社群動作很快。幾週內就出現了各種 fork：

Apple Silicon（MLX）： 社群使用 Apple 的 MLX 框架移植到 M1/M2/M3 Mac。訓練速度比 NVIDIA GPU 慢，但對較小的模型來說堪用。
AMD（ROCm）： 透過 PyTorch 的 ROCm 後端提供實驗性支援。不如 CUDA 成熟，但可運作。
純 CPU： 技術上可行但不實際。GPU 上 5 分鐘的實驗在 CPU 上會變成好幾個小時，直接打破了讓 autoresearch 發揮作用的快速回饋迴圈。

A digital brain composed of neural network connections representing autonomous machine learning architecture

重點是：GPU 的需求不是隨意的設計，而是結構性的。這個系統的全部價值——一晚 100 次實驗——取決於每次在 5 分鐘內完成。拿掉 GPU，你得到的不是較慢版本的 autoresearch，而是一個壞掉的版本。

Autoresearch 對 AI 研究代表什麼？

73% 的工程團隊現在每天使用 AI 程式碼工具，高於 2025 年的 41% (Pragmatic Engineer's AI tooling survey, 2026)。光是 Claude Code 就撰寫了約 4% 的公開 GitHub commit——每天 135,000 次——預計到年底這個比例將達到 20% (Gradually.ai's Claude Code statistics, 2026)。

Developer coding on a laptop with lines of code on screen representing the human-AI collaboration in autonomous research

關鍵洞察： Autoresearch 代表了一個轉變——從 AI 輔助寫程式（人類指揮、AI 執行）到 AI 主導研究（AI 指揮、GPU 執行）。人類變成了審核者，而不是駕駛者。

Autoresearch 位於兩大趨勢的交匯處：自主 AI agent 和便宜的 GPU 算力。它不是第一個自動化機器學習工作的工具，但它是第一個將訓練程式碼——而不僅僅是參數——作為搜尋空間的工具。這是一個值得關注的概念躍進。

影響遠不止機器學習領域。Lutke 證明了你可以把這個模式對準任何有可量化指標的程式碼庫。渲染速度、記憶體使用、API 延遲。只要能打分，agent 就能在你睡覺時幫你最佳化。

GitHub 上有 430 萬個 AI repo，LLM 相關專案年增 178% (GitHub Octoverse 2025 report, 2025)，那 53,100 顆星說明了一個清楚的故事。開發者不只想要輔助的工具，他們想要能在一夜之間產出結果的工具。

常見問題

跑 autoresearch 需要什麼？

三樣東西：一張支援 CUDA 的 NVIDIA GPU、Python 環境，以及 Claude 或 Codex 的 API key。這支腳本是 630 行的 Python，相依套件極少 (karpathy/autoresearch on GitHub, 2026)。推薦使用 A100 或 H100——雲端租用一次 8 小時的夜間作業大約 $14-22。

Autoresearch 跟超參數調校有什麼不同？

傳統超參數調校在預定義的數值範圍內搜尋——learning rate 從 0.001 到 0.1、batch size 從 16 到 256。Autoresearch 修改的是實際的原始碼。AI agent 可以改寫 optimizer、更改模型架構，或重組整個訓練管線。它更接近自動化研究，而非參數最佳化。

Autoresearch 能應用在 LLM 訓練以外的問題嗎？

可以。Shopify 執行長 Tobi Lutke 將同樣的模式應用在 Shopify 的 Liquid 模板引擎上，透過 93 次自動化 commit 達成 53% 更快的渲染速度和 61% 更少的記憶體配置 (Fortune's analysis of autonomous AI agents, 2026)。任何有可量化效能指標的程式碼庫都能受益。

在正式環境的程式碼上跑 autoresearch 安全嗎？

Autoresearch 針對的是獨立的訓練腳本，不是正式系統。每次實驗在沙箱環境中修改程式碼、訓練 5 分鐘，結果沒有改善就回滾。Lutke 的 Shopify 實驗是在獨立分支上執行，合併前有人工審查。Agent 提案，人類批准正式部署。

Autoresearch 何時會支援 Apple Silicon 或 AMD GPU？

Apple Silicon 的社群 fork（透過 MLX）已經存在，但不在主 repo 中。Karpathy 表示會維持官方程式碼的精簡——僅限 CUDA。AMD ROCm 支援透過 PyTorch 現有的後端提供實驗性支持。對於 Mac 使用者，MLX fork 可用於較小的模型，但速度比 NVIDIA GPU 慢。