Cache PagedAttention LLM 优化 计算和 等 vAttention KV 推理的 Attention
一、背景最近,SGLang引起了广泛关注,出现了许多&,ldquo,SGLang吊打vLLM和TRTLLM&,rdquo,的言论,不得不说,SGLang确实是一项非常出色的工作,与此同时,vLLM的性能问题和TR......
KVSharer Cache 基于不相似性实现跨层 KV 共享
一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer,与之前常见的层内共享不同,KVSharer主要关注跨层共享,并且是整个层的共享,对应的论文,[2410.18517]KVSharer,EfficientInferenc......
共1页 2条