摘要

ReAct：在语言模型中协同推理和行动

本文提出了一种名为 ReAct 的方法，旨在协同语言模型中的推理和行动，通过交错生成推理轨迹和特定任务的行动，实现两者之间的更强协同作用。
你能获得：提升模型在知识密集型任务和决策制定任务中的表现，同时提高模型的可解释性和可信度。

核心内容：

1. ReAct 的核心思想：

扩展代理的行动空间，使其不仅包含环境交互的行动，还包括语言空间，即“思考”或“推理轨迹”。
“思考”不直接影响环境，而是通过推理当前上下文来生成有用的信息，并更新上下文，从而支持未来的推理或行动。

2. ReAct 的独特优势：

直观且易于设计：人类标注者只需记录他们的想法和采取的行动。
通用且灵活：适用于各种任务，包括问答、事实核查、文本游戏和网页导航。
高效且稳健：仅从少量示例中学习，就能很好地泛化到新任务，并且在不同领域都优于仅进行推理或行动生成的基线方法。
与人类对齐且可控：可以检查推理过程和事实正确性，并通过编辑“思考”来控制或纠正代理行为。

3. 知识密集型推理任务（HotpotQA 和 Fever）：

ReAct 通过与维基百科 API 交互来检索信息，从而支持推理，同时利用推理来确定下一步检索的内容。
观察表明，ReAct 的问题解决过程更基于事实且更可靠，而 CoT 在构建推理结构方面更准确，但容易产生幻觉。
将 ReAct 与 CoT-SC 结合，可以充分利用模型内部知识和外部知识，从而获得最佳性能。

4. 决策制定任务（ALFWorld 和 WebShop）：

ReAct 在 ALFWorld 和 WebShop 上均优于 Act，表明推理对于指导行动和有效探索至关重要。
在 ALFWorld 上，ReAct 的最佳试验平均成功率显著高于 Act 和 BUTLER。
在 WebShop 上，ReAct 通过推理来弥合噪声观测和行动之间的差距，从而更有效地识别与指令相关的产品和选项。
ReAct 与 Inner Monologue（IM）的不同之处在于，ReAct 的推理轨迹更灵活和稀疏，可以针对不同任务诱导不同的推理类型。

5. 局限性与未来方向：

ReAct 在提示设置下存在局限性，例如对推理和行动行为的支持有限。
通过额外的训练数据进行微调可以提高 ReAct 的性能，并且将其扩展到多任务训练并与强化学习等互补范式相结合，可以进一步释放大型语言模型的潜力。

问答

Q: 什么是 ReAct 方法？

A: ReAct 是一种协同语言模型中推理和行动的方法，通过交错生成推理轨迹和特定任务的行动，实现两者之间的更强协同作用。

Q: ReAct 方法有哪些优势？

A: ReAct 方法具有直观易于设计、通用灵活、高效稳健、与人类对齐且可控等优势。

Q: ReAct 方法在知识密集型推理任务中表现如何？

A: ReAct 方法通过与维基百科 API 交互来检索信息，从而支持推理，并有效结合模型内部知识和外部知识，从而在知识密集型推理任务中表现出色。

Q: ReAct 方法在决策制定任务中表现如何？

A: ReAct 方法通过推理来弥合噪声观测和行动之间的差距，从而更有效地识别与指令相关的产品和选项，并在决策制定任务中取得优异成绩。

思维导图

目标读者

对大型语言模型、人工智能、自然语言处理和交互式决策制定感兴趣的研究人员、工程师和学生。

作者背景

Shunyu Yao和Karthik Narasimhan来自普林斯顿大学计算机科学系。Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran和Yuan Cao来自谷歌研究院，大脑团队。

历史背景

大型语言模型（LLM）在语言理解和交互式决策制定等任务中表现出了令人印象深刻的性能，但它们在推理（例如，思维链提示）和行动（例如，行动计划生成）方面的能力主要被作为单独的主题进行研究。

SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

摘要