Reflexion- Language Agents with Verbal Reinforcement Learning

Important

问题骨架： LLM agent 犯错后没有低成本迭代机制——改参数要数据要算力。Reflexion 的 pose：不动参数，用语言反思代替梯度。

定位

正常 reasoning 演化线的侧分支 / R1 前驱。插在 STaR 和 DeepSeek-R1 之间读：同一个问题（“模型能否自我反悔”）的两种答案——Reflexion 用语言，R1 用 RL。

一句话

把失败写成文字，再把文字塞回下一次 prompt 里：就是语言版的梯度下降。

① 问题骨架（存档必答）

LLM agent 执行任务会犯错，但没有低成本机制让它从错误中迭代改进——改参数要数据要算力。Reflexion 的 pose：不动参数，用语言反思代替梯度，在推理时完成”从错误学习”这件事。问题骨架 = agent 的 trial-and-error 学习；新 pose = 语言即梯度。

要点

Actor + Evaluator + Self-Reflection 三件套
不更新参数，仅更新语言 memory；每轮把反思文本加进下一轮的上下文
早期 agent 自改进范式的代表性证据

读 R1 时要回答

Reflexion 的 “verbal feedback” 和 R1 里涌现的 “aha moment” 是同一件事的两种实现（显式文字 vs 隐含于权重）吗？
为什么 Reflexion 走不到 R1 的高度？是评分器太弱，还是参数不更新的天花板？

对 Agent 方向的意义

跟你关注的 LLM Agent Memory 线直接相关：上下文 memory = 语言化参数。这篇的思路后来被十几篇 agent paper 反复使用。

Audio Notes

探索

Reflexion- Language Agents with Verbal Reinforcement Learning

定位

一句话

① 问题骨架（存档必答）

要点

读 R1 时要回答

对 Agent 方向的意义

关系图谱

目录