种优化 等 的最新工作 和 KV PyramidInfer Cache 6 LLM MiniCache

种优化 等 的最新工作 和 KV PyramidInfer Cache 6 LLM MiniCache

一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟,然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战,尤其当前许多模型开始支持几百K甚至几......
admigg 11-15
305 369 740