在线合并优化器以提升奖励并减轻对齐开销 LLM

在线合并优化器以提升奖励并减轻对齐开销 LLM

一、结论写在前面在强化学习人类反馈,RLHF,中,有效对齐大型语言模型,LLMs,与以人为中心的价值,同时防止通过预训练和监督微调,SFT,获得的能力退化,是一个核心挑战,插值RLIF和SFT模型参数可以调整人类偏好与基本能力之间的权衡,从......
admigg 11-15
579 619 839