在人类的合作中,我们可能会遇到囚徒困境(Social Dilemmas)、悲剧的共有(Tragedy of the Commons)、公平分配问题(Public Goods Game)、猎人与收集者困境(Stag Hunt Game)、和合作网络(Networked Cooperation)等诸多社会性合作困境,比如两个人必须决定是否与对方合作(相互协力)或是背叛(选择个人利益)。合作可以带来最大的集体收益,但个体背叛可能会导致更高的个人收益。这种情况下,我们需要在短期的个人利益和长期的集体利益之间做出平衡。在群体合作的情境,我们必须决定是否向公共资源池中投入资源。投入资源的人可能会从公共资源池中获得收益,但也存在不投入却享受收益的可能性。同样,智能体作为智能代理在系统里进行合作时也会遇到同样的问题,比如智能体通过网络相互连接,合作的利益取决于网络中的其他智能体的行为。这种设置中的智能体需要在本地合作和全局合作之间做出选择。
研究者们已经意识到,在多智能体系统中实现合作不仅能提升系统的整体性能,还可以提高智能体在复杂环境中的适应能力。尽管如此,如何设计出能够促使这些独立智能体自愿合作的机制仍然是一个未解难题。
10 月 24日,来自以谷歌为首的联合研究团队发表他们的最新研究《Multi-agent cooperation through learning-aware policy gradients》,他们提出通过学习感知策略梯度的方法来实现多智能体合作。这一研究的主要问题是:在多智能体学习中,如何促使自利、独立的智能体实现合作?传统的独立智能体优化自身目标的方式在一般和博弈中往往表现不佳,难以实现合作。为此研究团队提出了一种新的策略梯度算法,通过考虑其他智能体的学习动态,来实现智能体之间的合作。
他们的主要贡献包括:
研究团队由来自多个知名机构的学者组成,包括Google Paradigms of Intelligence Team、Mila - Quebec AI Institute、Université de Montréal、McGill University以及CIFAR。Alexander Meulemans和Seijin Kobayashi在这项研究中做出了相等的贡献。团队成员背景深厚,研究领域涵盖人工智能、机器学习和多智能体系统等多个方面,体现了跨学科和跨国合作的特点。通过这种多元化的合作,研究团队成功地提出了能够实现多智能体合作的创新算法,对推动多智能体学习领域的发展具有重要意义。
多智能体学习中的合作挑战
在多智能体系统中,每个智能体都致力于优化自己的回报,这通常导致个体之间缺乏合作,产生次优结果。这种现象在博弈论中被称为社会困境,其中最著名的例子就是囚徒困境。在这种情况下,虽然合作能够带来最优的集体回报,但自利的个体由于担心对方的背叛而倾向于选择不合作,从而导致双方都处于次优状态。
自利个体的合作难题在很多现实场景中得到体现。例如,自主驾驶车辆在共享道路时需要互相合作以避免交通事故,然而每辆车都可能选择最优的个人策略而忽视整体安全。类似地在网络安全中,不同系统需要共享信息以防御共同的威胁,但由于担心信息泄露,各系统往往选择不合作,导致安全隐患加大。
现有的多智能体学习研究在应对这一挑战方面取得了一些进展。传统的方法主要集中在通过设计激励机制和约束条件来促进合作。然而这些方法往往依赖于预先设定的规则和模型,对于复杂动态的实际环境表现出局限性。近年来,学习感知策略逐渐成为解决多智能体合作问题的一个重要方向。
一些研究提出了学习感知算法,通过让智能体了解并预测其他智能体的学习动态,从而调整自己的策略来促进合作。这些方法在某些任务中展示了令人鼓舞的效果,证明了学习感知在多智能体合作中的潜力。然而这些方法大多依赖于高阶导数的计算,计算复杂度较高,且在面对不确定和噪声较大的环境时,表现不够稳定。
尽管取得了一些进展,现有方法在多个方面仍然存在不足。例如,许多方法依赖于智能体之间的信息共享,这在分布式系统或隐私敏感场景中难以实现。此外这些方法在处理大规模、多样化的智能体群体时,计算效率和稳定性尚待提高。因此,提出一种高效、稳定且适用于复杂环境的多智能体合作学习算法,依然是一个亟待解决的重要问题。
背景和问题设置
在多智能体学习中,智能体通常在部分可观察随机游戏(POSGs)的框架内进行交互。POSGs是一种由Kuhn于1953年提出的模型,定义为一个包含多个智能体的系统,其中每个智能体只能获得部分状态信息。POSGs的重要性在于它能够模拟现实世界中的复杂场景,如自动驾驶、机器人协作和分布式控制系统。每个智能体在POSGs中都面临不完全信息的挑战,这增加了决策和学习的难度。
在一般和博弈中,智能体不仅要最大化自己的回报,还要考虑其他智能体的策略。这个过程中面临两个主要难题:非静态环境和均衡选择。非静态环境意味着其他智能体也在同时学习和适应,这使得环境从单个智能体的视角来看是不断变化的。均衡选择问题则源于多个纳什均衡的存在,尤其在复杂的POSGs中,某些均衡可能非常次优,导致整体表现不佳。例如,在无限重复的囚徒困境中,完全背叛和合作策略都可以成为纳什均衡,但前者会导致较低的整体回报。
为了应对这些挑战,引入同伴学习意识成为一种有效的方法。学习意识的关键在于智能体能够理解和预测其他智能体的学习动态,并基于这种理解来调整自己的策略。这不仅能帮助智能体在非静态环境中做出更好的决策,还能促使智能体在多个均衡中选择更优的均衡,从而提高整体合作水平。
通过引入同伴学习意识,智能体不仅能在复杂环境中更好地适应,还能在一般和博弈中实现有效合作。这一方法的核心在于智能体通过建模和学习其他智能体的行为动态,从而在决策过程中充分考虑他人的反应和变化,最终实现自利智能体之间的合作。研究表明,这种方法在提高多智能体系统的整体表现方面具有显著优势。
同伴塑造与序列模型
在多智能体系统中,如何塑造其他智能体的学习行为以实现合作是一个重要的研究课题。研究团队提出了一种同伴塑造的元游戏,通过在多智能体部分可观察马尔可夫决策过程(POMDP)中增加一个元层次变量,来表示每个智能体使用的学习算法。这个元游戏的目标是让一个元智能体通过学习感知来塑造天真的共同玩家的行为,从而实现合作。这一元游戏被形式化为单智能体POMDP,元状态包括所有共同玩家的策略参数和智能体自身的参数,元环境动态则表示共同玩家的固定学习规则。
图1|A.经验数据术语。内部情节包括(内部)游戏的