technology
投机采样会损失大语言模型的推理精度吗?
Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。 一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。 标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。 数学证明 投机采样公式可以定义如下: 其中: * 𝑟 是从均匀分布中采样的实数。 是要预测的下一个token。 * 𝑝(𝑥) 是草稿模型给出的下一个token分布。 * 𝑞(𝑥) 是基础模型给出的下一个token分布。 为简单起见,我们省略了概率条件。实际上,𝑝 和 𝑞 是基于前缀token序列 的条件分布。 以下是 DeepMind 论文中关于该公式无损性的证明: 如果你觉得阅读数学方程式太枯燥,接下来我们将通过一些直观的图表来说明证明过程。 这是草稿模型 𝑝 和基础模型 𝑞 的分布示意图: 需要说明的是,这只是一个理想化的图