vLLM 大模型部署解决方案之TorchServe

admigg

2024-11-14 23:32:38发布
关注私信

543 635 472

TorchServe 是PyTorch 中将模型部署到生产环境的一个解决方案。它用HTTP 或HTTPS API 封装模型，可以处理多种任务，包括为部署模型分配workers、负责客户端和服务器之间通信等。

10月份发布的TorchServe 0.12 增加了对GenAI的支持，简化了大语言模型的部署，增加了对主流模型引擎的内置支持，如 vLLM 和 TRT-LLM。

vLLM 引擎是目前执行LLM的最佳方式之一，TorchServe为vLLM部署到生产环境中提供了必要的一些功能，比如自定义metric、模型版本控制等。并且TorchServe能够通过灵活的自定义处理程序设计，集成RAG等功能或者Llama Guard（Meta发布的大模型，集成了多种安全检测技术，能够在模型处理输入之前，对潜在的风险进行预判和拦截，从而保护模型免受恶意输入的侵害。）等保护措施。所以集成了vLLM的TorchServe可以创建用于生产环境的LLM服务。

TorchServe还引入了一种异步模式，用以提高硬件利用率。它将传入的请求直接转发到后端，供vLLM使用，而不是之前的同步模式，需要等待预定义的时间或者有足够的请求时才传到后端。这样vLLM可以自主决定何时处理哪些请求，有助于优化资源分配，实现高效的负载管理。并且在流式模式下，一旦生成首个token，结果可以立即返回并持续输出，减少用户的等待时间。

目前TorchServe实现了单节点多GPU的分布式推理，未来计划实现多节点推理，并提供预构建的Docker image以简化部署过程。

参考链接：

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#文心一言 #悟道 #清言 #LaMDA #人工智能 #AIGC #言犀 #GPT #Bard #大模型 #4 #ChatGPT #Copilot #紫东太初 #Sora #OpenAI #AIGC应用 #日日新 #孟子 #多模态 #云雀 #盘古 #开源大模型 #混元 #Agent #AI #通义千问