2025.12.30 // AUTH: admin

自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

上海交通大学与加州大学圣地亚哥分校的研究团队近日提出了一种创新方法,解决了大型语言模型在推理时面临的序列生成效率问题。

传统自回归模型需要逐个生成token,导致推理速度较慢。研究团队提出的“自回归并行解码”方法,允许模型在保持因果注意力的同时进行并行计算。

该方法通过重新设计注意力机制,实现了在解码过程中的并行化处理。实验结果显示,在保持生成质量的前提下,推理速度得到了显著提升。

研究团队已将完整的模型架构和实现代码在GitHub平台开源,包括预训练模型权重和详细的实验配置。开源地址为:https://github.com/APAR/apar。

这项技术为自然语言处理领域提供了新的思路,特别是在需要快速响应的应用场景中具有重要价值。团队表示将继续优化算法,并探索在更多任务上的应用潜力。