【2026年版】我的AI Agent科研工作流:一个苦涩的教训
Table of Contents
尽管笔者宣称AI frontier research已经在O1(或者说R1)之后事实上撞墙的,但是AI作为一种工具本身的商业化和落地其实是在剧烈提速,以至于不得不再次写一篇文章对之前AI Agent编程的判断进行剧烈调整。
现在甚至可以说:正如一个2022年的NLP专家如果不持续学习完全就不理解LLM一样,Agent领域在2025年与2026年的区别已经如同鸿沟了。
之前的文章见: How-to-use-emacs-in-2026
但是时代又变了。
1. 苦涩的教训(The Bitter Lesson)
Richard Sutton在2019年提出的苦涩的教训(Richard Sutton, 2024年图灵奖得主),其核心思想非常简洁:
In AI, general approaches that scale with available computational power tend to outperform ones based on domain-specific understanding because they are better at taking advantage of the falling cost of computation over time.
翻译一下:在AI中,能够随着算力增长而扩展的通用方法,总是碾压那些依赖领域知识、试图告诉AI "该怎么做" 的方法。
具体到每种思想的胜负:
| Traps(陷阱) | Truth(真相) |
| Rule-based | Learning-based |
| Human experience is essential | Human experience is suboptimal |
| Tell AI how to do | Give anything an AI required, let it determine how to do |
说白了就是:不要教AI怎么做,给它资源让它自己学。
但是这个教训是否已经渗透到 我们用AI做科研 的方式中?我认为没有。绝大多数人仍然在用旧时代的思维去用AI。
2. 我的苦涩教训:把Agent当人看
我在AI Agent科研中获得的教训,可以归结为两条核心原则:
- 做AI Agent研究时,把它当成
自然科学,而非工程科学。即:不要试图去"设计"Agent的行为,而是去"观察"和"理解"Agent的行为。 - 使用LLM或Agent时,把它当成
一个人,而非一台机器或程序。
第一条原则意味着:prompt engineering hacking是徒劳的。你无法通过精心设计prompt来获得一个稳定、可控的Agent行为,就像你无法通过精心编排实验条件来改变物理定律一样。Context management is all you need。
第二条原则则更为深刻。把Agent当成人之后,你会发现很多困惑自然消解:
- 让一个人记忆citation是反人类的——所以对LLM也一样。Citation Hallucination是完全正常的。
- 一个人如果9个月没读论文,你跟他讨论literature review,他当然会胡编——Agent也一样,所以web search是vital的。
- 你不总是对的,你的判断也一样。所以要允许Agent =disagree when it disagrees=。
几乎所有的不良体验,都来自于违反这两条核心原则。
3. 我的科研工作流全景
整体来看,我的工作流可以概括为:=AI是研究员,Zi是共同作者、审稿人、以及reward model=。
流程如下:
- Idea Spark:Idea的产生
- Literature Review:调研与相关工作
- Experiments:实验
- Paper Writing:论文撰写
- Submission:投稿
- Ads:宣传
下面逐一展开。
3.1. Idea可以由AI来想吗?
可以,但是 =不推荐=。
原因有二。其一,科研的快乐来自于 想象一件事,然后实现它 。如果连idea都是LLM给的,科研本身的意义就坍塌了。
其二,更致命的问题在于:LLM在创意上是高度 同质的(homomorphic) 。如果你让LLM从零构思一个新idea,它会非常高效地产出一些和现有工作高度相似的方案。一种prompt的平庸性(banality),会导致相似的论文。
正确的做法是:
- 不要直接问LLM要idea。
- 不要给LLM一大堆论文然后让它想一个新idea。
- 正确的方式是:与LLM讨论。把LLM当成一个
非常专业但很久没读论文的研究者,与它讨论一个你已有的idea方向,让它帮你发展这个idea。
如果你这样使用LLM,它在idea thinking上的能力可以超过大多数研究者。
当然,也可以让LLM帮你脑暴。比如问它:="废旧机械键盘帽的可能用途"=。但这是在帮你打开思维,而不是替代你的创意。
3.2. 调研(Literature Review)可以由AI来搞吗?
完全可以。甚至比我做得更好。
除非你生活在一个非常稳定的学术领域(即相关工作的增量很少),否则LLM做literature review的能力远超人类专家。原因是:LLM可以快速消化海量信息,而人类会受到阅读速度和记忆容量的限制。
但有一个关键前提:=Web search is vital!!!=
把LLM当成一个:=9个月没读论文但非常专业且比你强的研究者=。它需要重新接入学术网络,更新自己的知识库。
需要注意Citation Hallucination的问题。但如前所述,这本质上是把Agent当机器看待的思维陷阱——一个人被要求背诵citation也会出错,所以这不是Agent的缺陷,而是使用方式的问题。
3.3. 实验可以由AI来写吗?
完全可以。Coding agent =远比我可靠=。
为什么必须使用vibe coding和coding agent?三个理由:
- 它可以比你自己更准确地实现你的想法:=It can more accurately implement your idea than yourself.=
- 快:=It is fast.=
- 学术代码仓库不需要重型维护(maintenance):=Academic code repository does not need heavy maintenance.=
我自己的数据:
| Language | Lines of Code |
| Python | 4,240,000 |
| Emacs Lisp | 1,250,000 |
| Rust | 250,000 |
但这不是说你完全不需要看代码。=Review the Code=仍然是有必要的。相关思考见:https://larsfaye.com/articles/agentic-coding-is-a-trap
一些关键概念:
- Harness Engineering
- Spec Driven Development (SDD)
- 各种技巧(OMO, SP, GM…)
- 工具:CodeGraph
但即使是这样,我最终认为SDD也不是Agentic coding的最终答案。原因在下文详述。
3.4. 证明(Proofs)可以由AI来做吗?
直接用。效果远好于大多数专家。
但仍然需要 =Review the Proof=。
3.5. 画图(Drawing)可以由AI来做吗?
目前只能使用GPT-Image 2。
方法很简单:把tex文件直接发给它。比如发method.tex获取方法框架图,发intro.tex或threat model section获取场景图。然后手动重绘,或者让它生成draw.io代码,或者其他方式。
注意Anti-AI themes的问题。
4. 论文工作流:从零开始的Agentic Paper Workflow
4.1. 基础设施建设
- Latex Repository(始终私有)
- Code Repository(可切换为公开)
- 使用
git管理一切 - Specification——非常重要
4.2. Step 1: 复制AGENTS.md文件
这是我的AGENTS.md的核心内容。它定义了我与Agent交互的基本规则:
Call me 团长。
Rule 1: Disagree when you disagree. 我知道你想保持礼貌,但coding是一项困难且危险的工作,核心原则是写出准确的代码。所以如果我的前提是错误的,直接指出来。
Rule 2: 永远不要捏造。对于你不确定的事情,通过阅读文件、运行命令或web search来寻找更多信息。如果这些策略都无法工作,就说 "No evidence to show…" 或者 "I do not know that."
Rule 3: Stop when confused. 我(用户)给你的指令不清晰或混乱是很常见的。直接问我,让我们一起讨论!需要量化的东西,告诉我。永远不要保持沉默然后继续。
Rule 4: Minimal code changes. 永远不要修改与当前任务无关的代码。不做drive-by refactors和reformatting,除非我明确告诉你。这是Karpathy's Observation的应用。
Rule 5: When planning, grilling me. Interview me relentlessly about every aspect of this plan until we reach a shared understanding. Walk down each branch of the design tree, resolving dependencies between decisions one-by-one. For each question, provide your recommended answer. 每次只问一个问题。如果某个问题可以通过探索codebase来回答,就探索codebase。这就是 =The Grilling-me skill=。参考:Workflow for AI Coding (YouTube)
Rule 6: 每5轮对话后,用org-mode格式简要记录我们的讨论到 =./records/[Task].org=。
Rule 7: 当你发现某个话题/中心点在我们的讨论中完成时,检查整个roadmap并为下一阶段的多轮grilling提供一些新方向。
关于代码撰写,需要认识到 =Paradox of Supervision=:越想让Agent写得快,就越需要人类的监督;但越监督,就越失去了Agent带来的速度优势。参考:https://larsfaye.com/articles/agentic-coding-is-a-trap 以及Anthropic的研究:https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic#and-less-hands-on-practice
关于论文写作的额外规则:
- Always Latex format. No markdown.
- Use
$$or\begin{...}\end{...}for math notation. Never use\(\).- Never use terms like solely, leverage, delve into, tapestry, furthermore.
- NEVER use em dash (—), double em dash (——), and ";" in paper writing.
- Never
\textbf{}the first point when in an enumerate environment.- 写作要符合AI论文或者安全论文的投稿风格。如果不知道具体投什么,说明grill me不够。
- 别用缩写。比如it's, 必须是 =it is=。
- 少用's。比如
XXXX's performance应该替换为 =the performance of XXXX=。- 注意上下文已有的缩写。像LLM这种如果之前已经详写过Large Language Models,就不要再重新写了。
- 保留团长所进行的任何格式调整。
4.3. Step 2: Grill me — 通过聊天撰写研究计划
流程:
- 撰写初始研究计划(Initial Research Plan)
- 与AI讨论,让它做文献调研(Literature Review),并对所有细节和难点grill me
- 生成新的研究计划(New Research Plan)
- 执行新计划
4.4. Step 3: 实验与代码审查
tmux用于后台运行- Spec 用于质量保证
- Human Review 通过
git diff进行 git用于备份- 终端工具推荐:Ghostty, zellij
4.5. Step 4: 论文撰写
以下事情 =全部交给AI=:
- 不要自己编译
- 不要自己做格式调整
- 不要自己手动检查参考文献
- 不要自己读call for papers
- 不要自己切换模板
- 不要自己检查typos
- 不要自己检查warning/errors
这些全部交给AI。人类只做一件事:审阅和决策。
5. 一些Minor Tips
5.1. 1. 尽量使用英文与Agent交互
当你使用高度蒸馏模型或小模型时,英文prompt的效果显著优于中文。
参考论文:"Yes, My LoRD." Guiding Language Model Extraction with Locality Reinforced Distillation. https://aclanthology.org/2025.acl-long.73.pdf
5.2. 2. 保持Context简短
- 使用
/new,/fork,/tree等功能管理context - 除非必要,不要引入任何新的skills
- 保持AGENTS.md和其他配置文件简短
Context management is all you need。
6. 未来的AI学术生态
6.1. 论文变得更便宜
当论文的边际成本趋近于零时,会有几个后果:
- Ads(宣传)> acceptance(接受)
- Exports (toolkits, packages, benchmarks) > a method(方法本身)
- 回到原点:Research is to re-search. 研究的本质是不断重新探索。
6.2. AI会议的终局:一个分享会
当论文量产化之后,AI会议的评审功能会萎缩,取而代之的是分享和交流功能。会议不再是一个筛选机制,而是一个聚集机制。
7. Takeaways
- The Bitter Lesson:通用方法和规模化压倒领域知识。Context management is all you need。
- No prompt engineering hacking:prompt engineering是徒劳的。把Agent当人对待,而不是当机器调参。
- Context management is all you need:管理context比管理prompt重要一万倍。
- The curse of supervision:SDD不是Agentic coding的最终答案。人类监督和AI速度之间的悖论尚未被解决。
- Regard Agent as a person:
- 让Agent记忆citation是反人类的,所以对LLM也一样
- YOU ARE NOT ALWAYS RIGHT. YOUR RECOGNITION, as well.
- 工具推荐: