Important
问题骨架: LLM agent 犯错后没有低成本迭代机制——改参数要数据要算力。Reflexion 的 pose:不动参数,用语言反思代替梯度。
定位
正常 reasoning 演化线的侧分支 / R1 前驱。插在 STaR 和 DeepSeek-R1 之间读:同一个问题(“模型能否自我反悔”)的两种答案——Reflexion 用语言,R1 用 RL。
一句话
把失败写成文字,再把文字塞回下一次 prompt 里:就是语言版的梯度下降。
① 问题骨架(存档必答)
LLM agent 执行任务会犯错,但没有低成本机制让它从错误中迭代改进——改参数要数据要算力。Reflexion 的 pose:不动参数,用语言反思代替梯度,在推理时完成”从错误学习”这件事。问题骨架 = agent 的 trial-and-error 学习;新 pose = 语言即梯度。
要点
-
Actor + Evaluator + Self-Reflection 三件套
-
不更新 参数,仅更新语言 memory;每轮把反思文本加进下一轮的上下文
-
早期 agent 自改进范式的代表性证据
读 R1 时要回答
-
Reflexion 的 “verbal feedback” 和 R1 里涌现的 “aha moment” 是同一件事的两种实现(显式文字 vs 隐含于权重)吗?
-
为什么 Reflexion 走不到 R1 的高度?是评分器太弱,还是参数不更新的天花板?
对 Agent 方向的意义
跟你关注的 LLM Agent Memory 线直接相关:上下文 memory = 语言化参数。这篇的思路后来被十几篇 agent paper 反复使用。