Important

问题骨架: LLM agent 犯错后没有低成本迭代机制——改参数要数据要算力。Reflexion 的 pose:不动参数,用语言反思代替梯度

定位

正常 reasoning 演化线的侧分支 / R1 前驱。插在 STaR 和 DeepSeek-R1 之间读:同一个问题(“模型能否自我反悔”)的两种答案——Reflexion 用语言,R1 用 RL。

一句话

把失败写成文字,再把文字塞回下一次 prompt 里:就是语言版的梯度下降。

① 问题骨架(存档必答)

LLM agent 执行任务会犯错,但没有低成本机制让它从错误中迭代改进——改参数要数据要算力。Reflexion 的 pose:不动参数,用语言反思代替梯度,在推理时完成”从错误学习”这件事。问题骨架 = agent 的 trial-and-error 学习;新 pose = 语言即梯度。

要点

  • Actor + Evaluator + Self-Reflection 三件套

  • 不更新 参数,仅更新语言 memory;每轮把反思文本加进下一轮的上下文

  • 早期 agent 自改进范式的代表性证据

读 R1 时要回答

  • Reflexion 的 “verbal feedback” 和 R1 里涌现的 “aha moment” 是同一件事的两种实现(显式文字 vs 隐含于权重)吗?

  • 为什么 Reflexion 走不到 R1 的高度?是评分器太弱,还是参数不更新的天花板?

对 Agent 方向的意义

跟你关注的 LLM Agent Memory 线直接相关:上下文 memory = 语言化参数。这篇的思路后来被十几篇 agent paper 反复使用。