一篇大模型Agent最新综述

嘿，大家好！这里是一个专注于AI智能体的频道~

最近这2篇综述有点撞车了，不是纯正的Agent综述，可以了解一下最新的应用测的Agent发展情况！

现实中的Agent系统会面临很多的挑战，常见的有以下几点：

一个Agent应用框架主要由三个主要的部分：感知、记忆和行动。

感知可以处理多种模态的输入，包括文本、视觉（如图像）和听觉（如声音）输入。

其中文本输入可以进一步细分为基于token的输入、基于tree/graph的输入和混合输入。这些不同的输入形式分别关注代码的不同特征，例如语义、结构等。

当然无论是文本、视觉还是听觉输入，感知模块最终都要将接收到的信息转换成适合LLM处理的嵌入格式，为后续的推理和决策制定奠定基础。

记忆模块负责存储能够帮助LLM进行有效推理决策的信息。它包括语义记忆、情景记忆和程序记忆三种类型。

记忆模块是Agent的大脑，它保存了所有重要的信息和经验，帮助Agent更好地理解问题和做出决策。

重头戏，Action。行动模块包括内部行动和外部行动，它们根据LLM的输入做出推理决策，并根据与外部环境互动获得的反馈来优化这些决策。

内部行动，涉及Agent的思考过程，包括推理、检索和学习。

其中推理部分，可以概括为3种形式

其中检索部分，为了辅助推理和决策过程，从内部或外部的知识库中检索相关信息。这包括查找文档、代码片段、API信息等，以支持当前的任务。根据召回内容不同，可以概括为以下几个类别：

召回分为密集Dense的语义搜索，稀疏Sparse的关键词搜索：

learning Action部分，是LLM-based Agent持续进步和适应新挑战的关键。通过有效的学习机制，系统能够不断进化。一般包括从经验中学习、优化内部模型和调整策略，以更好地完成未来的任务。

最后是External Action部分，它使得Agent能够主动地与外部世界进行交互，完成任务，并根据外部反馈进行自我优化。如：通过与人或其他Agent交互，以获取任务需求、澄清问题或报告结果；与各种数字工具和平台（如API服务）进行交互，以执行任务或验证结果。

本文转载自，作者：

文章版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#清言 #GPT #孟子 #Agent #4 #云雀 #Sora #LaMDA #模型 #AIGC应用 #多模态 #文心一言 #日日新 #AI #混元 #悟道 #Copilot #ChatGPT #人工智能 #API #大模型 #开源大模型 #Bard #通义千问 #紫东太初 #OpenAI #言犀 #盘古 #AIGC