本文提出了一种名为“ Hypothetical Minds ”的模型,该模型结合了大语言模型和多智能体强化学习,通过在自然语言处理的框架下生成、评估和细化关于其他智能体策略的假设,来提高智能体在多智能体环境中的表现。该模型在 多种竞争性、合作性和混合动机 的多智能体环境中均显示出优越的性能,特别是在处理隐藏信息和策略推理方面。
Hypothetical Minds模型简介
1. 模型架构与组件
Hypothetical Minds模型是一个基于大型语言模型(LLM)的自主智能体,它通过整合感知、记忆和两级抽象层次的层次化规划的模块化组件,来应对MARL中的挑战。该模型的架构包括多个认知模块,如 感知模块、记忆系统以及理论心智(Theory of Mind, ToM)和子目标(Subgoal)模块,后两者分别负责输出高层次的目标和行动计划 。
2. 理论心智(Theory of Mind, ToM)模块的作用
ToM模块在Hypothetical Minds模型中扮演着核心角色,它通过生成关于其他智能体策略、目标和能力的假设来促进有效的协调或对策。这些假设是以自然语言形式表达的,并嵌入到高层次的规划过程中,以指导智能体的决策。 ToM模块不仅生成假设,还负责评估和迭代细化这些假设,通过强化那些能够正确预测其他智能体行为的假设来优化决策过程 。此外,ToM模块还能够根据生成的假设动态调整智能体的策略,以适应推断出的其他智能体的策略,从而在多智能体环境中实现更高的奖励和更好的适应性。
模型实现:从假设生成到高级规划
1. 生成假设
在多智能体环境中,理解其他智能体的行为是至关重要的。Hypothetical Minds模型通过 其理论心智(Theory of Mind, ToM)模块来生成关于其他智能体策略、目标和能力的假设 。这些假设是基于自然语言生成的,使得智能体能够在不直接观察到这些变量的情况下,通过语言的抽象层面进行推理。
2. 假设评估与细化
生成的假设需要通过实际的环境反馈来评估其有效性。ToM模块会对每个假设进行评分,这一过程涉及到 预测其他智能体的行为并将预测结果与实际行为进行对比 。有效的假设会在模型的记忆中得到强化,而不准确的假设则会被调整或舍弃。这一过程是迭代的,随着更多的交互数据被积累,假设的准确性逐渐提高。
3. 高级规划与执行
在假设验证通过后,ToM模块会利用这些验证过的假设来指导高级规划。这些高级规划不仅包括策略的制定,还涉及到具体行动的序列化,即如何将策略转化为一系列具体的、可执行的行动。这一过程中,智能体需要考虑如何在保持对当前目标的追求的同时,适应环境的变化和其他智能体的策略变动。
实验设计与基准测试
1. Melting Pot基准的多场景测试
Hypothetical Minds模型在Melting Pot多智能体强化学习基准中进行了广泛的测试。这一基准包括多种不同的社会动态和挑战,如合作烹饪、剪刀石头布游戏等。通过这些多样化的测试场景,模型的适应性、策略生成能力以及与其他智能体的交互效果得到了全面的评估。
2. 与基线模型的比较
Hypothetical Minds模型的性能与几个基线模型进行了比较,包括传统的强化学习模型和其他基于LLM的智能体模型。通过这些比较,研究人员能够评估ToM模块在假设生成、评估和细化方面的效果,以及这些功能如何帮助Hypothetical Minds模型在复杂多智能体环境中取得优异的表现。这些比较结果不仅证明了模型的有效性,也突出了理论心智模块在处理复杂社会交互中的重要性。
实验结果与分析
1. 竞争环境中的表现
在“Running With Scissors”(剪刀石头布)的竞争环境中,Hypothetical Minds(HM)模型展现出了显著的优势。该环境要求两名玩家在地图上移动并收集代表剪刀、石头、布的资源。通过与对手进行“交互”,一方将获得正向奖励,而另一方则获得相应的负向奖励。HM模型能够有效地推断对手的策略,并根据这些信息调整自己的策略,从而在多数情况下获得高于基线模型的奖励。特别是在面对多变策略的对手时,HM通过其理论心智模块生成假设,并不断调整策略以适应对手的变化,显示出较强的适应性和策略洞察力。
2. 协作与混合动机环境的适应性
在“Collaborative Cooking Asymmetric”环境中,两名玩家需要在厨房的两侧合作制作番茄汤。HM模型在所有测试场景中均表现优异,尤其是在与功能性合作伙伴互动时。这表明HM能够根据合作伙伴的能力和行为有效地调整自己的行动策略,优化协作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合动机环境中,HM在动态合作伙伴场景中表现尤为突出,能够通过更一致的合作行为和适时的宽恕策略,有效地打破恶性报复循环,实现更高的总体福利。
本文转载自,作者: