A Survey on Post-training of Large Language Models

Meta Data

发表时间 2025.08.1
作者：Guiyao Tie, Zeli Zhao, Dingjie Song etc.
论文链接：https://arxiv.org/abs/2503.06072
项目链接：https://github.com/Mr-Tieguigui/LLM-Post-Training
阅读思维导图：https://pan.baidu.com/s/11USr8_A1XIa6pX_GMkRxpA?pwd=gyRz

摘要

大型语言模型(LLM)的出现从根本上改变了自然语言处理，使其在从对话系统到科学探索的各个领域都变得不可或缺。然而，它们预训练的架构通常会在专业环境中暴露出局限性，包括受限的推理能力、伦理上的不确定性(ethical uncertainties)以及次优的特定领域性能。这些挑战需要先进的后训练语言模型 (post-training language models, PoLMs) 来解决这些缺点，例如 OpenAI-o1/o3 和 DeepSeek-R1（统称为大型推理模型，Large Reasoning Models,LRMs）。本文介绍了首个关于 PoLMs 的全面综述，系统地追踪了它们在五个核心范式中的演变：微调(Fine-tuning)，它提高了特定于任务的准确性；对齐(Alignment)，它确保了伦理一致性和与人类偏好的对齐；推理(Reasoning)，尽管在奖励设计方面面临挑战，但它推动了多步推理；效率(Efficiency)，在日益复杂的环境中优化资源利用；以及集成和适应，它扩展了跨多种模态的能力，同时解决了连贯性问题。我们通过绘制从 ChatGPT 的基础对齐策略到 DeepSeek-R1 的创新推理进展的进步，阐述了 PoLMs 如何利用数据集来减轻偏差，深化推理能力并增强领域适应性。我们的贡献包括对 PoLM 演进的开创性综述，一个对技术和数据集进行分类的结构化分类法，以及一个强调 LRM 在提高推理能力和领域灵活性方面作用的战略议程。作为同类首个综述，这项工作整合了最近的 PoLM 进展，并为未来的研究建立了一个严格的知识框架，促进了 LLM 的发展，这些 LLM 在科学和社会应用中具有精确性、伦理鲁棒性和多功能性。项目 Github: https://github.com/Mr-Tieguigui/LLM-Post-Training。

Introduction

语言模型 (LMs) 代表了旨在对人类语言进行建模和生成的复杂计算框架。这些模型彻底改变了自然语言处理 (NLP) 领域，使机器能够以非常接近人类认知的方式理解、生成和与人类语言交互。与通过与上下文环境的交互和接触自然获得语言技能的人类不同，机器必须经过广泛的、数据驱动的训练才能发展类似的能力。这提出了一个重要的研究挑战，因为使机器能够理解和生成人类语言，同时进行自然的、上下文相关的对话，不仅需要大量的计算资源，还需要改进的模型开发方法。
大型语言模型 (LLMs) 的出现，如 GPT-3 、InstructGPT和GPT-4，标志着 LM 发展的一个变革阶段。这些模型以其广泛的参数化（extensive parameterization）和先进的学习能力而著称，旨在捕捉大型数据集中复杂的语言结构(linguistic structures)、上下文关系(contextual relationships)和数据集中的细微模式(nuanced patterns)。这使得 LLMs 不仅可以预测后续单词，还可以在广泛的任务中生成连贯的、上下文相关的文本，包括翻译、问答和摘要。 LLMs 的发展引发了重大学术兴趣，可分为两个主要阶段：预训练和后训练。
预训练:预训练的概念源于计算机视觉 (CV) 任务中的迁移学习。其主要目标是利用广泛的数据集开发通用模型，这有助于轻松微调以用于各种下游应用。预训练的一个显著优势是它能够利用任何未标记的文本语料库，从而提供了丰富的训练数据来源。然而，早期的静态预训练方法，例如神经网络语言模型 (Neural Network Language Models,NNLM) 和 Word2vec，难以适应不同的文本语义环境，促使了动态预训练技术的发展，如 BERT和XLNet。 BERT通过利用 Transformer 架构并在大规模未标记数据集上采用自注意力机制，有效地解决了静态方法的局限性。这项研究确立了“预训练和微调”的学习范式，启发了众多后续研究，这些研究引入了多样化的架构，包括 GPT-2和 BART。
后训练：后训练指的是在模型经过预训练之后采用的技术和方法，旨在完善和调整模型以满足特定任务或用户需求。在 GPT-3 发布之后，凭借其 1750 亿个参数，后训练领域在兴趣和创新方面经历了显著增长。出现了各种方法来增强模型性能，包括微调，它使用有标签的数据集或特定任务数据调整模型参数；对齐策略(alignment strategies)，它优化模型以更好地与用户偏好对齐；知识适应技术(knowledge adaptation techniques)，它使模型能够结合特定领域的知识；以及推理改进(reasoning improvements)，它增强模型进行逻辑推理和决策的能力。这些技术统称为后训练语言模型 (PoLMs)，导致了诸如 GPT-4、LLaMA-3、Gemini-2.0和 Claude-3.5等模型的发展，标志着 LLM 能力的实质性进步。然而，后训练模型通常难以在没有重新训练或重大参数调整的情况下适应新任务，这使得 PTM 开发成为一个活跃的研究领域。
如前所述，预训练语言模型 (PLMs) 主要旨在提供通用知识和能力，而 PoLMs 则侧重于使这些模型适应特定任务和需求。这种适应的一个显著例子是最新的 LLM，DeepSeek-R1，它说明了 PoLMs 在增强推理能力、与用户偏好对齐以及提高跨各种领域的适应性方面的演变。此外，开源 LLM（例如，LLaMA 、Gemma 和 Nemotron）和特定领域大型数据集（例如，PromptSource 和 Flan）的日益普及，正在推动学术研究人员和行业从业人员开发 PoLMs 的趋势。这一趋势突显了人们对 PoLMs 领域中量身定制的适应性越来越重视。
在现有文献中，PLMs 已经被广泛讨论和调查，而 PoLMs 很少被系统地综述。为了推进这些技术，彻底检查现有的研究成果，以确定关键挑战、差距和进一步完善的机会，至关重要。本调查旨在通过提供一个结构化的框架来填补这一空白，以应对后训练研究的不断发展。如图1所示，它探索了训练后的多个阶段，特别关注从chatgpt到deepseek使用的技术。这些技术涵盖了广泛的方法，包括微调、LLM对齐、推理增强和效率改进。图中蓝色部分特别突出了 DeepSeek 应用的后训练方法，强调了那些有助于其在适应用户偏好和特定领域需求方面取得成功的创新策略。

大型语言模型后训练技术的发展演变，描绘了从最初的方法到高级方法的演进，重点介绍了 DeepSeek 模型的贡献（以蓝色突出显示）

主要贡献

本文是对 PoLMs 的首次全面综述，提供了对该领域最新进展的透彻、结构化的探索。虽然之前的调查通常侧重于 LLM 发展的特定方面，例如偏好对齐、参数高效微调以及 LLMs 的基础技术，但它们主要集中在狭窄的子主题上。相比之下，本次调查采用了一种整体方法，对后训练期间常用的核心技术进行了全面综述，并对其进行了系统分类。此外，我们研究了这些方法不可或缺的数据集和现实世界应用程序，并确定未来研究的开放挑战和有希望的方向。本次调查的主要贡献如下：

综合的历史综述：我们首次深入综述了PoLM，追溯了它们从ChatGPT最初的基于人类反馈的强化学习（RLHF）到DeepSeek-R1创新冷启动RL方法的演变过程。这种综合涵盖了关键技术（即，微调、对齐、推理、效率以及集成和适应），分析了它们的发展及其相关的挑战，例如计算复杂性和伦理考量。通过将这一进展呈现为连贯的综述，并辅以必要的参考文献，我们为研究人员提供了一个对近年来后训练演变的全面概述，作为该领域的基础资源。
结构化分类法和框架：我们介绍了图中描述的结构性分类法。将后训练分类为五个不同的类别，并将数据集组织为七种类型，总结了其在专业，技术和交互式域进行构架应用程序。该框架阐明了这些方法之间的相互关系和实际影响，为它们的发展提供了系统的视角。通过提供明确定义的类别和分析见解，我们提高了新手和专家对后训练研究复杂性的可访问性和理解，从而建立了一个全面的指南。
未来方向：我们重点介绍了新兴趋势，特别是大型推理模型（LRM）的兴起，例如o1和DeepSeek-R1，它们利用大规模强化学习来突破推理的界限。我们强调，持续的进步对于进一步增强推理能力和领域适应性至关重要。我们的分析确定了关键挑战，包括可扩展性限制、伦理对齐风险和多模态集成障碍。我们提出了研究途径，例如自适应RL框架和关注公平性的优化。这些方向旨在推动后训练向前发展，确保LLM实现更高的精度和可信度，以满足未来的需求。

本研究中综述的后训练技术的结构概述，说明了方法、数据集和应用的领域

组织

本综述系统地组织起来，以全面探讨后训练语言模型（PoLM），涵盖其历史演变、方法、数据集、应用和未来轨迹。第2节提供了PoLM的历史概述。第 3 节考察了微调，包括第 3.1 节中的监督微调（Supervised Fine-Tuning，SFT）和第 3.3 节中的强化微调（Reinforcement Fine-Tuning，RFT）。第 4 节讨论了对齐，涵盖了第 4.1 节中的基于人类反馈的强化学习（RLHF）、第 4.2 节中的基于 AI 反馈的强化学习（Reinforcement Learning from Human Feedback ，RLAIF）和第 4.3 节中的直接偏好优化（Direct Preference Optimization，DPO）。第 5 节侧重于推理，包括第 5.1 节中的自我完善（Self-Refinement）方法和第 5.2 节中的用于推理的强化学习（Reinforcement Learning for Reasoning）。第 6 节综述了效率增强方法，包括第 6.1 节中的模型压缩、第 6.2 节中的参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）和第 6.3 节中的知识蒸馏。第 7 节研究了集成和适应，讨论了多模态方法、领域自适应和模型融合。第 8 节综述了在后训练中使用的数据集。第 9 节探讨了 LLM 应用。第 10 节评估了开放问题和未来方向。最后，第 11 节以总结和研究展望作为结尾。

概述

PoLMs的历史

LLM 的发展是自然语言处理 (NLP) 中的一个关键篇章，后训练方法是它们从广义预训练架构演变为专门的、任务自适应系统的关键催化剂。本节描述了后训练语言模型 (PoLMs) 的历史轨迹，追溯了它们从以BERT和GPT为代表的基础预训练里程碑到当代模型中体现的复杂后训练范式的演变，例如 o1 和 DeepSeek-R1。如下图所示，这种发展反映了从建立广泛的语言能力到增强特定任务的适应性、伦理对齐、推理复杂性和多模态集成的转变，标志着 LLM 能力的变革之旅。

大型语言模型（2018-2025）的后训练技术发展时间线，描绘了其历史进程中的关键里程碑现代 PoLMs 历史的开端与 2018 年的预训练革命相吻合，以 BERT 和 GPT 的发布为先导，它们重新定义了 NLP 基准。BERT 的双向自编码框架，利用了 Transformer 架构和自注意力机制，在捕捉上下文相关性方面表现出色，适用于问题回答等任务，而 GPT 的自回归设计则优先考虑生成一致性，为文本生成奠定了先例。这些模型确立了“预训练和微调”范式，随后在2019年通过T5进行了改进，它将各种任务统一在text-to-text框架下，促进了多任务学习，并为后续的进步奠定了坚实的基础。
从2020年开始，PoLM的格局开始发生重大变化，这是由于越来越需要有效地将预训练模型适应于各种任务，同时仅使用有限的数据。早期创新，如prefix-tuning和prompt-tuning，引入了轻量级的适应策略，通过修改模型输入而不是重新训练整个架构来实现多任务灵活性，从而节省了计算资源，同时扩大了适用范围。这一时期还见证了以人为中心的优化的关键转变，即在2021年出现了基于人类反馈的强化学习（RLHF），这项技术利用人类评估将模型输出与主观偏好对齐，增强了其在对话设置中的实用性。到2022年，RLHF通过采用Proximal Policy Optimization（PPO）而成熟，优化了对齐的稳定性，并减轻了对噪声反馈的过拟合。2022年末发布的ChatGPT巩固了这些进展，展示了RLHF在创建响应迅速、与用户对齐的LLM方面的变革潜力，并推动了PoLM研究的激增。与此同时，Chain-of-Thought (CoT) prompting 出现作为一种推理增强策略，鼓励模型阐明复杂任务中的中间步骤，从而提高透明度和准确性，尤其是在逻辑推理和问题解决领域。
在2022年至2024年之间，PoLM实现了多样化发展，以解决领域特异性（domain specificity）、伦理稳健性（ethical robustness）和多模态整合（multi-modal integration）问题，这反映出一种对LLM改进越来越细致的方法。领域适应技术，例如Retrieval-Augmented Generation (RAG) ，涌现出来以整合外部知识库，从而为专业领域提供上下文丰富的输出，而无需进行全面的重新训练——这是需要最新信息的专业应用的关键进步。伦理对齐工作得到加强，Direct Preference Optimization (DPO)在2023年通过直接针对人类偏好优化模型输出来简化RLHF，绕过中间奖励建模以提高效率和稳健性。与此同时，对多模态能力的追求也获得了关注，PaLM-E 和Flamingo 等模型率先实现了视觉-语言的整合，随后是BLIP-2和LLaVA，它们将这些努力扩展到更广泛的领域，如医学影像学。效率创新与这些发展同步进行，特别是通过Mixture of Experts (MoE)架构；Google的Switch-C Transformer 在2022年引入了稀疏激活，横跨2048个专家，拥有1.6万亿个参数，而Mixtral 完善了这种范式，平衡了可扩展性和性能。在此期间，推理增强，例如自我博弈和蒙特卡洛树搜索（MCTS）与CoT的整合，通过模拟迭代推理途径，进一步增强了LLM的决策能力，为以高级推理为重点的模型奠定了基础。
随着Mixture of Experts (MoE)模型的兴起，一项重大的架构进步展开，该模型与传统的密集架构不同，通过动态激活选择性参数子集，从而优化了计算效率，同时容纳了广泛的参数规模。Google的Switch-C Transformer 在 2022 中启用了该范式，其中包含1.6万亿个参数，分布在2048名专家中，这是一种具有突破性的方法，平衡了资源的需求与性能提高。随后的迭代，如 Mixtral 和 DeepSeek V2.5，后者利用了 2360 亿个总参数，其中 160 个专家使用了 210 亿个有效参数—进一步完善了这一框架，在 LMSYS 基准测试中取得了 state-of-the-art 的结果，并证明了稀疏的 MoE 架构在可扩展性和有效性方面都可以与密集模型相媲美。这些发展强调了以效率为中心的POLMS的转变，使LLM可以通过减少的计算开销来处理复杂的任务，这是扩大其实际适用性的关键一步。2025 ，DeepSeek-R1 在Polms Innovation中出现了地标，偏离了传统的监督微调（SFT）依赖对拥抱思想链（COT）推理和探索性RL策略的依赖。该模型以DeepSeek-R1-Zero为例，该模型整合了自我验证，反射和扩展的COT生成，验证了RL驱动的推理激励措施在开放的研究范式中，将蒸馏技术引入了从较大的较小的架构转移成熟的理性模式。与独立的RL训练相比，这种方法不仅可以产生优越的性能，而且还预示着以推理为中心的LLM的可扩展性范式，可以解决计算效率和任务适应能力的持续挑战。

PoLM的公式基础

策略优化的原理

近端策略优化（PPO）算法是一种关键的加强学习技术，在诸如人类反馈（RLHF）等环境中尤其有用，在维持稳定性和效率的地方是重要的。PPO通过约束策略更新的大小来实现这些目标，从而确保对模型行为的变化逐渐且受控，从而防止效果的灾难性变化。当对大规模语言模型进行微调的策略更新可能导致不良或不可预测的行为时，这一点尤其重要。
定义：在PPO的背景下，状态 $s_t \in \mathcal{S}$ 表示时间 $t$ 的环境，其中包括模型做出决定所需的所有相关信息。动作 $a_t \in \mathcal{A}(s_t)$ 表示模型在给定状态 $s_t$ 下做出的选择。此动作是模型做出的一系列决策的一部分。执行动作后，智能体收到奖励 $r_t \in \mathbb{R}$ ，该奖励作为来自环境的反馈，表明所采取的动作的成功与失败。优势函数 $A^\pi(s, a)$ 衡量在当前策略 $\pi$ 下，采取行动 $a$ 在状态 $s$ 中比该状态下行动的预期值有多大优势。它被正式定义为动作值函数 $Q^\pi(s, a)$ 和状态值函数 $V^\pi(s)$ 之间的差异，定义如下：

A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)

其中

Q^\pi(s, a)

表示通过在状态

s

中采取行动

a

并遵循策略

\pi

获得的预期累积奖励，而

V^\pi(s)

是从状态

s

开始并遵循策略

\pi

的预期累积奖励。这两个函数都考虑了未来的奖励，并按因子

\gamma

折扣。
策略更新：PPO算法通过根据优势函数进行增量更新来优化策略

\pi_\theta

。策略更新使用裁剪目标函数执行：

L^{CLIP}(\theta) = \hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,, \text{clip}\left(r_t(\theta), 1 - \varepsilon, 1 + \varepsilon\right)\hat{A}_t\right)\right]

其中，

r_t(\theta)

表示当前策略

\pi_\theta

下采取行动

a_t

的概率与旧策略

\pi_{\theta_{\text{old}}}

下的概率之比。该比率定义如下：

r_t(\theta)>[katex]r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}

术语

\hat{A}_t

是在时间步

t

估计的优势，裁剪函数

\text{clip}(r_t(\theta), 1 - \varepsilon, 1 + \varepsilon)

将策略更新限制在一个安全范围内，由超参数

\varepsilon

控制。这种裁剪机制确保更新不会与之前的策略差异太大，从而在训练期间保持稳定性。
值函数更新：值函数

V_\phi

估计在策略

\pi_\theta

下从给定状态

s_t

获得的预期累积奖励。为了确保值函数提供准确的估计，它通过最小化预测值和实际奖励之间的均方误差来进行优化：

\phi_{k+1} = \arg\min_\phi , \mathbb{E}{s_t \sim \pi{\theta_k}}\left[\left(V_\phi(s_t) - R(s_t)\right)^2\right]

其中

R(s_t)

是从状态

s_t

获得的实际累积奖励，而

V_\phi(s_t)

是在当前策略下估计的值。目标是调整参数

\phi

以最小化预测奖励和实际奖励之间的差异，从而提高值函数的准确性。

RLHF原理

基于人类反馈的强化学习 (RLHF) 是一种关键方法，它通过在学习过程中利用人类生成的反馈来使模型与人类偏好对齐。这种方法包含一个明确捕获人类输入的奖励函数，使模型能够更好地适应用户偏好和实际应用。
定义:在 RLHF 中，一个语言模型 $\rho$ 在词汇表 $\Sigma$ 中生成标记序列的概率分布。模型 $\rho$ 从输入空间 $X=\Sigma^{\le m}$ 产生一个标记序列 $x_0,x_1,\dots,x_{n-1}$ ，其中每个标记都条件性地依赖于之前的标记。模型的输出由以下条件概率分布定义：

\rho(x_0\cdots x_{n-1})=\prod_{0\le k＜n}\rho(x_k\mid x_0\cdots x_{k-1})

该模型

\rho

在由输入空间

X

、关于

X

的数据分布

\mathcal D

和输出空间

Y=\Sigma^{\le n}

定义的任务上进行训练。例如，在文本摘要中，一个 GPT-2 模型使用 RLHF 进行训练，其中任务涉及根据数据集（如 CNN/DailyMail 和 TL;DR）预测文本摘要。
目标函数:策略

\pi

是一个与原始模型

\rho

具有相同结构的语言模型。最初，策略

\pi

设置为等于

\rho

。目标是通过优化策略来最大化输入输出对 katex[/katex] 的期望奖励

R(x,y)

。奖励函数

R(x,y):X\times Y\to\mathbb R

为每个输入输出对分配一个标量值，并且通过解决以下最大化问题来获得最优策略

\pi^*

：

\pi^*=\arg\max_\pi \mathbb E[R]=\mathbb E_{x\sim\mathcal D,,y\sim\pi(\cdot\mid x)}\Bigl[R(x,y)\Bigr].

这个目标函数代表一个标准的 RL 问题，其中模型学会通过与环境交互来最大化期望奖励，并以人类反馈为指导。

DPO原理

目标函数：我们从与之前方法相同的 RL 目标出发，在通用奖励函数 $r$ 下考虑 KL-约束的奖励最大化问题。最优策略满足

>[katex] \pi_r(y\mid x)=\frac{1}{Z(x)}\pi_{\text{ref}}(y\mid x)\exp!\Bigl(\frac{1}{\beta}r(x,y)\Bigr),

其中

Z(x)

是分区函数，确保对所有可能输出归一化。即使仅用 MLE 估计的奖励

r_\phi\approx r^*

，也可近似

Z(x)

，从而简化优化，使策略能直接依据人类偏好调整。
偏好模型:采用 Bradley-Terry 模型刻画两输出

y_1,y_2

间的偏好：最优策略

\pi^*

满足

>[katex] p^(y_1\succ y_2\mid x)=\frac{1}{1+\exp!\Bigl(\beta\log\frac{\pi^(y_2\mid x)}{\pi_{\text{ref}}(y_2\mid x)}-\beta\log\frac{\pi^*(y_1\mid x)}{\pi_{\text{ref}}(y_1\mid x)}\Bigr)},

其中

p^*(y_1\succ y_2\mid x)

表示在输入

x

下人类更偏好

y_1

而非

y_2

的概率，从而将人类偏好显式融入策略优化。

GRPO原理

定义：组相对策略优化（Group Relative Policy Optimization, GRPO）算法是强化学习中近端策略优化（PPO）算法的变体，首次在DeepSeek之前的工作DeepSeekMath中引入。GRPO省略了评论员模型，而是使用组得分估计基线，与PPO相比，这显着减少了训练资源消耗。
目标函数:对于每个问题 $q$ ，GRPO 从旧策略 $\pi_{\theta_{\mathrm{old}}}$ 采样一组输出 ${o_1,\dots,o_G}$ ，随后通过最大化以下目标更新策略：

>[katex] \mathcal{J}^{\mathrm{GRPO}}(\theta)= \mathbb{E}{\substack{q\sim P(Q)\ {o_i}{i=1}^G\sim\pi_{\theta_{\mathrm{old}}}(\cdot|q)}} \frac{1}{G}\sum_{i=1}^G\frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \Bigl{ \min\Bigl[ \frac{\pi_\theta(o_{i,t}|q,o_{i,＜t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,t}|q,o_{i,＜t})}\hat{A}{i,t},; \mathrm{clip}!\left(\frac{\pi\theta(o_{i,t}|q,o_{i,＜t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,t}|q,o_{i,＜t})},1!-!\varepsilon,1!+!\varepsilon\right)\hat{A}{i,t} \Bigr] -\beta D{\mathrm{KL}}!\bigl[\pi_\theta|\pi_{\mathrm{ref}}\bigr] \Bigr},

其中，

\varepsilon,\beta

为超参数；

\hat{A}_{i,t}

为组内相对优势，由同一组输出之间的相对奖励计算得出。

用于微调的PoLM

微调构成了将预训练大语言模型 (LLM) 适配到特定任务的基石，通过有针对性的参数调整来提升其能力。此过程利用已标注的或特定于任务的数据集来优化性能，弥合了通用预训练和特定于领域的需求之间的差距。本章探讨了三种主要的微调范式：监督微调 (Fine-Tuning)，它使用标注数据集来提高特定于任务的准确性；自适应微调 (Adaptive Fine-Tuning)，它通过指令调优和基于提示的方法定制模型行为；以及强化微调 (Reinforcement Fine-Tuning)，它集成了强化学习，基于奖励信号迭代地优化输出，通过动态交互促进持续改进。

监督微调

监督微调 (SFT) 通过利用特定于任务的标注数据集，将预训练 LLM 适配到特定任务。与依赖指令提示的指令调优不同，SFT 使用标注数据直接调整模型参数，从而产生既精确又具有上下文关联的模型，同时保持广泛的泛化能力。 SFT 弥合了预训练期间编码的广泛语言知识和目标应用的细微需求之间的差距。预训练 LLM 通过接触大量的语料库，获得了广义的语言模式，减少了对大量特定领域数据的依赖。模型选择至关重要：像 T5 这样的小模型在资源受限且数据集有限的环境中表现出色，而像 GPT-4 这样的大模型则利用其卓越的能力在复杂、数据丰富的任务中表现出色。

SFTd的数据集准备

构建高质量的 SFT 数据集是一个多方面的过程，对微调的成功至关重要。
SFT 数据集构建：SFT数据集通常构造成 $\mathcal{D}>[katex]\mathcal{D}={(I_k,X_k)}_{k=1}^N$ ，
其中 $I_k$ 为指令， $X_k$ 是对应的期望输出。Self-Instruct 等方法通过合成新指令-输出对并采用 ROUGE-L 等指标去重，提升多样性。
SFT 数据集筛选:引入质量函数 $r(\cdot)$ 对每对 katex[/katex] 打分，只保留得分不低于阈值 $\tau$ 的子集：

>[katex] \mathcal{D}'=\bigl{(I_k,X_k)\in\mathcal{D}\mid r(I_k,X_k)\ge\tau\bigr}.

指令遵循难度（IFD）是一种常用指标：

r_\theta(Q,A)= \frac{\sum_{i=1}^N \log P(w_i^A\mid Q,w_{＜i}^A;\theta)} {\sum_{i=1}^N \log P(w_i^A\mid w_{＜i}^A;\theta)},

其中

Q

为指令，

A

为期望响应，

\theta

是模型参数。IFD 低于设定阈值的样本被剔除，得到精炼集

\mathcal{D}'

。

SFT 数据集评估：选取高质量子集 $\mathcal{D}_{\text{eval}}\subseteq\mathcal{D}'$ 作为性能基准。传统方法（少样本 GPT、完整微调）计算昂贵；指令挖掘通过线性质量规则结合响应长度、平均奖励模型分等指标，快速评估数据集整体质量，成为更高效的可行方案。

SFT的过程

如图 4 所示，微调流程始于一个已在大规模无标注语料上完成自监督预训练的 LLM，该阶段赋予模型通用语义表征能力；随后，借助任务相关的标注数据对参数进行微调，使模型行为与下游需求对齐。常用的目标函数为交叉熵损失。对于含 $N$ 条样本、 $C$ 个类别的分类任务，其形式为：

>[katex] \mathcal{L}{\text{fine-tune}}(\theta)=-\frac{1}{N}\sum{i=1}^{N}\sum_{j=1}^{C}y_{ij}\log P(y_j\mid x_i;\theta),

其中

y_{ij}\in{0,1}

是样本

i

在类别

j

上的真实标签，

P(y_j\mid x_i;\theta)

为模型预测的概率。最小化该损失可令模型输出逼近真实分布，从而提升目标任务性能。
典型范例为 BERT：其在 BooksCorpus 与 Wikipedia 等大型语料上完成预训练后，仅需在 IMDB 等情感分析数据集上微调数轮，即可快速专精于情感分类、问答等具体任务。

监督微调的过程

全参数微调

全参数微调指对预训练模型的全部参数进行更新，与LoRA、Prefix-tuning 等仅调整子集的参数高效方法相对。该方式在医疗、法律等高精度场景下通常更具优势，但伴随巨大计算开销：例如对 65 B 参数的模型微调需超过 100 GB GPU 显存。为缓解资源压力，研究者提出 LOMO 等内存优化技术，通过降低梯度与优化器状态占用，使大模型在受限硬件上也可训练。参数更新遵循

\theta_{t+1}>[katex]\theta_{t+1}=\theta_t-\eta,\nabla_\theta L(\theta_t)

其中

\theta_t

为第

t

次迭代参数，

\eta

为学习率，

\nabla_\theta L(\theta_t)

为损失梯度。配合混合精度训练、激活检查点等技术，可进一步压缩显存需求。
典型案例是从GPT-3到InstructGPT
OpenAI 使用专为指令跟随构建的数据集对 GPT-3 实施全参数微调，得到 InstructGPT，显著提升了指令遵循与人类偏好对齐性能。尽管需更新全部 175 B 参数，计算成本极高，但最终效果优于仅调整部分参数的方法。

自适应微调

自适应微调会修改预训练模型的行为，以更好地满足用户特定需求并处理更广泛的任务。这种方法引入了额外的提示来指导模型的输出生成，为定制模型的响应提供了一个灵活的框架。自适应微调中的显著方法包括指令调优（instruction tuning）和基于提示的调优（prompt-based tuning），其中两者都通过引入特定于任务的指导来显著增强 LLM 的适应性。

指令调优Instruction Tuning

指令调优是一种通过在专门构建的指令数据集上微调基础 LLM 的技术。这种方法大大提高了模型在各种任务和领域中的泛化能力，提高了其灵活性和准确性。如图图所示，该过程首先将现有的 NLP 数据集（例如，用于文本分类、翻译和摘要的数据集）转换为自然语言指令，其中包括任务描述、输入示例、预期输出和说明性演示。Self-Instruct等技术通过自动生成额外的指令-输出对来进一步增强这些数据集的多样性，从而扩大模型对更广泛任务的接触。微调程序调整模型的参数以与这些特定于任务的指令保持一致，从而产生一个在熟悉和以前未见过的任务中都表现稳健的 LLM。例如，InstructGPT和GPT-4在各种应用中都显示出在指令遵循能力方面的显着改进。
指令调优的有效性很大程度上取决于指令数据集的质量和广度。高质量的数据集应包含广泛的语言、领域和任务复杂性，以确保模型保持广泛适用性。此外，指令的清晰度和组织在使模型能够有效地解释和执行任务方面起着关键作用。集成演示示例（包括Chain-of-Thought提示）等技术可以显着提高在需要复杂推理的任务上的性能。此外，确保在微调阶段任务的均衡分布对于避免过拟合或由于任务覆盖不平衡而降低模型性能至关重要。比例任务抽样或加权损失函数等技术有助于解决这些问题，确保每个任务对微调过程做出公平的贡献。因此，通过精心构建和管理指令数据集，研究人员可以大大增强微调后LLM的泛化能力，使它们在广泛的任务和领域中表现出色。

指令微调的工作流程，说明了大型语言模型中指令数据集构建和指令调优的通用流程

前缀调整

Prefix-tuning是一种参数高效的微调方法，涉及在语言模型的每个Transformer层中添加一系列可训练的前缀token（连续向量），同时保持核心模型参数固定。如图 (a)所示，这些前缀向量是特定于任务的，并充当虚拟token嵌入。为了优化前缀向量，使用了一种重新参数化技巧，其中学习一个小的多层感知器（MLP）函数将较小的矩阵映射到前缀参数，而不是直接优化前缀向量。这种方法已被证明可以稳定训练过程。一旦前缀向量被优化，映射函数将被丢弃，并且仅保留派生的前缀向量以增强特定于任务的性能。

Prefix Tuning和Prompt Tuning的比较，描绘了它们不同的参数微调方法：a) Prefix Tuning和b) Prompt Tuning通过将学习的连续提示添加到输入序列并使用逐层提示，模型的行为被引导朝向特定于任务的输出，而无需进行全模型微调。由于仅调整前缀参数，这导致了一种更参数高效的方法。在此基础上，P-Tuning v2 将逐层提示向量合并到Transformer架构中，特别是针对自然语言理解任务。这种方法还利用多任务学习来优化跨任务的共享提示，从而提高不同参数规模下的模型性能。Prefix-tuning在促进大型语言模型针对特定任务的快速高效适应方面的潜力是显而易见的，这使其成为需要灵活性和效率的应用程序的引人注目的策略。

提示调整

Prompt-tuning是一种通过优化输入层的可训练向量而不是修改模型的内部参数来高效适配大型语言模型的方法。如上图(b)所示，这项技术建立在离散提示方法的基础上，引入了软提示Token，这些 Token 可以以不受限制的格式或作为前缀结构化。这些学习到的提示嵌入与输入文本嵌入相结合，然后由模型处理，从而指导模型的输出，同时保持预训练的权重冻结。提示调优的两个值得注意的实现是 P-tuning ，它使用一种灵活的方法来组合上下文、提示和目标 Token，使其适用于理解和生成任务。这种方法通过双向 LSTM 架构增强了软提示表示的学习。相比之下，标准提示调优采用更简单的设计，其中前缀提示被添加到输入之前，并且仅在训练期间根据特定于任务的监督来更新提示嵌入。
研究表明，提示调优可以匹配许多任务中全参数微调的性能，同时需要更少的可训练参数。然而，它的成功与底层语言模型的能力密切相关，因为提示调优仅修改输入层的一小部分参数。在这些进步的基础上，诸如 P-Tuning v2 等较新的方法已经证明，提示调优策略可以有效地扩展到各种模型大小，处理先前被认为需要完全微调的复杂任务。这些发现将提示调优确立为传统微调的高效替代方案，提供了可比的性能，同时降低了计算和内存成本。

强化微调 Reinforcement Fine-Tuning

强化微调 (ReFT) 代表一种先进技术，它将 RL 与 SFT 集成，以增强模型解决复杂、动态问题的能力。与传统的 SFT 不同，传统的 SFT 通常对每个问题使用单个 CoT 标注，ReFT 使模型能够探索多个有效的推理路径，从而提高其泛化能力和解决问题的技能。 ReFT 过程从标准的 SFT 阶段开始，其中模型最初在标记数据上进行训练，以通过监督标注学习基本的解决任务的能力。在此初始微调之后，模型使用 RL 算法（例如近端策略优化(PPO)）进行进一步的改进。在强化阶段，模型为每个问题生成多个 CoT 标注，探索不同的潜在推理路径。通过将模型的预测答案与真实答案进行比较来评估这些生成的路径，对正确输出分配奖励，对错误输出进行惩罚。这个迭代过程驱使模型调整其策略，最终改进其推理策略。

强化微调（ReFT）的过程，描绘了迭代的监督微调（SFT）预热，然后对相同的数据集进行强化学习训练ReFT 过程分两个阶段执行。上半部分代表 SFT 阶段，模型迭代训练数据，在几个 epoch 中学习每个问题的正确 CoT 标注。在下半部分，引入了 ReFT 阶段：从 SFT 训练的模型开始，模型根据其当前策略生成备选的 CoT 标注

e'

，并将其预测的答案

y'

与真实答案

y

进行比较。正确答案给予正向奖励，错误答案给予负向奖励，驱使模型提高其性能。然后，这些奖励信号用于通过强化学习更新模型的策略，增强其生成准确和多样化 CoT 标注的能力。
最近的研究表明，ReFT 明显优于传统的 SFT 方法。此外，推理时策略的整合，如多数投票和重新排序，可以进一步提高性能，允许模型在训练后完善其输出。值得注意的是，ReFT 在不需要额外或增强的训练数据的情况下实现了这些改进，仅从 SFT 阶段使用的现有数据集中学习。这突出了该模型卓越的泛化能力，因为它从可用数据中更高效、更有效地学习。

用于对齐的后训练模型

LLM 中的对齐涉及引导模型输出以符合人类的期望和偏好，特别是在安全关键或面向用户的应用程序中。本章讨论了实现对齐的三个主要范式：基于人类反馈的强化学习（Reinforcement Learning with Human Feedback），它使用人类标记的数据作为奖励信号；基于 AI 反馈的强化学习（Reinforcement Learning with AI Feedback），它利用 AI 生成的反馈来解决可扩展性问题；以及直接偏好优化（Direct Preference Optimization），它直接从成对的人类偏好数据中学习，而无需显式的奖励模型。每个范式在其追求稳健对齐的过程中都提供了独特的优势、挑战和权衡。对这些方法及相关方法的简要比较总结在下表中。

大型语言模型 (2022–2024) 对齐方法的比较概述。本表评估了八个指标的主要对齐技术：RM1（显式或隐式奖励模型Explicit or Implicit Reward Model），RM2（点奖励或偏好概率模型Point Reward or Preference Probability Model），RM3（响应级或词元级奖励Response- or Token-level Reward），RM4（正向或负向奖励模型Positive or Negative Reward Model），F（反馈类型：人类或 AI），RL1（参考模型或无参考模型Reference Model or Reference Model-Free RL），RL2（同策略或异策略 On-policy or Off-policy RL），以及 O（在线/迭代或离线/非迭代优化 Online/Iterative or Offline/Non-iterative Optimization）

使用人类反馈的强化学习

监督微调 (SFT) 已被用作引导 LLM 遵循人类指令的基础技术。然而，在纯监督情景中，标注数据的多样性和质量可能参差不齐，并且监督模型捕获更细微或自适应的人类偏好的能力往往有限。作为解决方案，有人提出了基于强化学习 (RL) 的微调来解决这些缺点。在 RL 方法中，来自人类反馈的强化学习 (RLHF) 脱颖而出，成为最早和最具影响力的基于 RL 的对齐后训练方法之一。
如图所示，RLHF 首先以偏好标签或奖励信号的形式聚合人类反馈，然后使用该信息来训练奖励模型。在此奖励模型的引导下，策略被迭代调整以更好地匹配人类偏好。与 SFT 相比，RLHF 包含持续的、偏好驱动的更新，从而带来更强的对齐结果。值得注意的是，现代 LLM，如 GPT-4 、Claude 和 Gemini 已经受益于这些机制，展示了在指令遵循、事实一致性和用户相关性方面的改进。下面，我们将讨论 RLHF 的主要组成部分，包括反馈机制、奖励建模和策略学习策略。

来自人类反馈的强化学习 (RLHF) 的工作流程，描绘了将大型语言模型与人类偏好对齐的整体训练过程

RLHF的反馈机制

人类反馈是RLHF的核心，它告知奖励模型用户偏好并指导策略更新。本小节采用分类法，对常见的人类反馈形式进行分类。表3展示了这些反馈类型，涵盖了诸如粒度、参与程度和明确性等维度。每种反馈模式都对模型优化的不同方面有所贡献，提供了不同程度的可解释性、可扩展性和噪声容忍度。

用于大型语言模型的后训练方法的反馈类型分类。本表概述了常见的反馈类别及其在六个指标上的定义属性：粒度（范围：episode、segment或step），参与度（参与方式：观察、主动或协同生成），元数（实例计数：单个、多个或三元），抽象（目标：特征或实例），意图（目的：评估性、描述性或字面意思），以及明确性（直接性：显式或隐式）

主要反馈(Primary Feedback):此类别包含最直接影响RLHF中奖励模型塑造的反馈类型。例如，Critique 侧重于对agent行为的显式人类评估，通常通过二元或多标签标注进行细化以减轻噪声。 Comparisons允许评估者比较多个输出或轨迹；虽然更大的选择集可以提供更丰富的信号，但也可能导致因果混淆。跨时间反馈（Inter-Temporal Feedback）通过在不同的时间步提供判断来细化轨迹评估，而代理奖励（Proxy Rewards）则结合了近似奖励函数，将模型导向用户定义的目标。社会行为（Social Behavior）利用隐式线索（例如，面部表情）来使agent目标与用户情绪保持一致。改进强调实时的人工干预，以进行增量策略细化。最后，自然语言反馈（Natural Language Feedback）利用文本信息来传达偏好和改进建议。
补充反馈（Supplementary Feedback）。除了主要反馈之外，还有两类进一步加强了奖励建模过程。紧急停止 (Emergency stops，e-stops) 允许人类通过停止 agent 的轨迹来干预其行为，而无需建议替代方案。这种反馈的特征是隐式参与和对防止不良行为的单一关注。相比之下，重要性标签（importance labels）表明特定观察结果对实现目标的重要性，提供不直接改变行为的显式反馈。这种反馈因上下文而异，并作为补充输入，强化奖励模型的整体学习过程。
特定于表示的反馈（Representation-Specific Feedback）：某些反馈类型主要增强表示学习，而不是直接塑造奖励函数。特征轨迹（Feature Traces）提示人类操作员演示给定特征的单调变化，从而实现特征集的动态扩展。相似性查询（ Similarity Queries）比较轨迹的三元组，通过轨迹空间中的成对距离引导表示学习。通过利用这些特定于表示的反馈形式，RLHF 可以实现对新任务和上下文更强大的泛化。

RLHF的奖励模型

真实的奖励函数 $r(x,y)$ 通常是未知的，因此有必要根据人类提供的偏好构建一个可学习的奖励模型 $r_\theta(x,y)$ 。该模型预测候选输出 $y$ 与人类对给定输入 $x$ 的期望的对齐程度。为了获取 $r_\theta(x,y)$ 的训练数据，人类评估者根据其相对适用性比较或标注输出对，并且该模型通常使用交叉熵损失在这些比较上进行训练。为了阻止策略 $\pi$ 偏离初始模型 $\rho$ 太远，将一个由超参数 $\beta$ 控制的惩罚项引入奖励函数：

r_\theta(x,y)>[katex]r_\theta(x,y)=r(x,y)-\beta\log\frac{\pi(y\mid x)}{\rho(y\mid x)}

其中

\pi(y\mid x)

是微调策略

\pi

产生输出

y

在给定输入

x

下的概率，并且

\rho(y\mid x)

是原始模型

\rho

下的对应概率。这个术语确保，尽管

\pi

适应人类反馈，它仍然受到在

\rho

中捕获的先验知识的约束。
评估奖励函数

r_\theta(x,y)

至关重要，因为它直接影响学习效果和策略性能。准确评估此函数有助于确定合适的奖励结构，以使模型输出与人类偏好对齐。然而，在安全敏感的领域中，标准的展开方法和离策略评估可能由于与在线交互、偏差和对真实奖励的需求相关的风险而不可行。为了解决这些挑战，通常采用两种突出方法：

距离函数(Distance Functions)：最近的研究集中于奖励评估距离函数，这些函数考虑了潜在的变换，例如潜在 shaping。例如，EPIC 测量各种变换下的奖励函数等价性，而 DARD 提炼了规范化，以确保评估保持在可行的转换中。类似于 EPIC 的距离通过允许规范化、标准化和度量函数的变异性来概括 EPIC 的方法，并且 STARC 保留了 EPIC 的理论特性，同时提供了额外的灵活性。
视觉和人工检查(Visual and Human Inspection):其他方法依赖于可解释性和精心策划的数据集来衡量学习到的奖励函数的有效性。 PRFI 使用预处理步骤来简化奖励函数，同时保留等价性，从而增强其透明度。同时，CONVEXDA 和 REWARDFUSION 提出了旨在测试奖励模型如何一致地响应提示中语义变化的的数据集。总之，这些技术有助于更可靠地评估奖励函数，从而加强大型语言模型与人类偏好的对齐。

RLHF的策略学习

RLHF的策略学习，如图所示涉及通过在线和离线设置中的人类反馈来优化政策。

在线和离线RLHF的比较，说明在线RLHF中的策略执行过程中的连续反馈收集与离线RLHF中的预采用的轨迹利用率相比

在线学习:(Online Learning):在在线RLHF中，系统会收集有关新生成的模型轨迹的实时人类偏好。 DPS 使用贝叶斯更新来管理决斗过程，而PPS和PEPS 集成动态编程和强盗想法来完善政策行为。在lpbrl 中，特征嵌入式捕获不断发展的奖励结构，而PBOP 都集成了过渡动力学和首选项信号的最小二乘估计值。最近，PARL 通过将反馈采集视为策略优化的组成部分，以数据收集效率为目标。
离线学习(Offline Learning):在离线RLHF中，以前收集的偏好标记轨迹用于学习或完善政策。例如，研究对策略学习的悲观最大似然估计，并通过成对比较数据，建立了绩效的界限。徒手和dcppo 等扩展，探索了离线数据覆盖范围和策略概括之间的相互作用。此外，地址在Boltzmann模型中进行过度拟合，以进行成对比较，而DCPPO 进一步研究了提高反馈效率的动态离散选择模型。
在线和离线学习融合(Blending Online and Offline Learning):混合方法将离线预处理与在线偏好汇总结合在一起，利用预收取的数据，同时仍在合并实时更新。 PFERL 采用了两阶段的方法来最大程度地减少人类查询，而Perl 探索了积极探索的乐观最小二乘策略。 Dueling RL 及其扩展 (例如，PRPRL 中的 REGIME) 通过仔细划分数据获取与反馈收集来减少人工标注需求，从而优化样本效率、标注成本和策略性能之间的权衡。

使用AI反馈的强化学习

使用 AI 反馈的强化学习 (Reinforcement Learning with AI Feedback,RLAIF) 通过使用 LLM 生成反馈信号来扩展 RLHF 范式。这种方法可以补充或取代人工反馈，在人工标注稀缺、成本高或不一致的任务中提供更具可扩展性、更低成本的偏好数据。

RLAIF vs RLHF

在大规模应用 RLHF 的主要挑战在于它依赖于人工生成的偏好标签，这需要大量资源来收集、整理和标注数据。标注数据的过程既耗时又昂贵，而且人工评估者可能会引入不一致性，从而使大规模、一致的标签在所有模型输出中变得复杂。这些限制极大地限制了 RLHF 的可扩展性和效率。为了解决这些挑战，学者提出了 RLAIF，它将人工反馈与 AI 生成的反馈相结合，通过强化学习训练模型。通过利用 LLM 作为反馈的来源，RLAIF 减少了对人工标注者的依赖，为传统的 RLHF 提供了一种可行的替代方案。这种方法支持持续的反馈生成，显著提高了可扩展性，同时保留了人类指导的模型优化的灵活性。

比较 RLHF 和 RLAIF 方法，描绘了它们在大型语言模型中偏好对齐的不同方法如图所示，RLHF 和 RLAIF 之间的关键区别在于反馈的来源：RLHF 依赖于人工生成的偏好，而 RLAIF 使用 AI 生成的反馈来指导策略更新。经研究，RLAIF 可以实现与 RLHF 相当甚至更优的性能，由人类评分者评估。值得注意的是，RLAIF 不仅超越了传统的监督微调基线，而且使用了与策略模型规模相同的 LLM 偏好标注器，突出了该方法的效率。

RLAIF训练流程

RLAIF 训练流程遵循几个关键阶段，其中利用 AI 生成的反馈来迭代地改进模型的行为。该流程有助于将大语言模型 (LLM) 的输出与人类期望对齐，这种方式可以扩展到各种任务，阶段如下：

AI 反馈收集(AI Feedback Collection)：在此阶段，AI 系统根据预定义的标准生成反馈，这些标准可能包括特定于任务的指标、响应的正确性或模型输出的适当性。与需要解释和手动标注的人类反馈不同，AI 反馈可以在各种模型输出中一致地生成。这种特性使得 AI 反馈可以持续提供，从而显著扩大反馈循环。
奖励模型训练(Reward Model Training):随后，使用 AI 生成的反馈来训练或优化奖励模型。该模型将输入-输出对映射到相应的奖励，从而使模型的输出与反馈所指示的期望结果对齐。虽然传统的 RLHF 依赖于直接的人类反馈来评估输出，但 RLAIF 使用 AI 生成的标签，尽管这可能会引入与一致性和偏见相关的问题，但在可扩展性和独立于人力资源方面具有优势。
策略更新(Policy Update):最后阶段包括根据上一步训练的奖励模型更新模型的策略。采用强化学习算法来调整模型的参数，优化策略以最大化各种任务的累积奖励。这个过程是迭代的，奖励模型引导模型的输出，使其与预期目标保持更高的一致性。

RLAIF 的主要优势在于它能够扩展反馈循环，而无需持续的人工干预。通过用 AI 生成的反馈取代人工反馈，RLAIF 促进了 LLM 在多个任务上的持续改进，缓解了人工标注工作带来的瓶颈。

直接偏好优化

如前所述，RLHF 通常由三个阶段组成：监督微调、奖励建模和强化学习（通常通过近端策略优化，PPO）实现。尽管 RLHF 具有有效性，但它可能很复杂且容易出现不稳定，特别是在拟合奖励模型然后用于微调大型语言模型的阶段。难点在于创建能够准确反映人类偏好的奖励模型，以及在微调语言模型以优化这个估计奖励的同时保持接近原始模型的挑战。为了解决这些问题，直接偏好优化 (DPO)被引入作为一种更稳定且计算效率更高的替代方案。 DPO 通过将奖励函数直接链接到最优策略来简化奖励优化过程。它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题，从而避免了奖励模型拟合的复杂性以及 Bradley-Terry 模型的依赖性。

DPO的基础

RLHF 涉及通过强化学习训练奖励模型 (RM) 和微调语言模型 (LM)。 DPO 通过使用人类偏好数据直接训练 LM 来简化此过程，在策略本身中隐式地捕获了奖励模型。
KL 正则化奖励最大化目标。 DPO 从已建立的 KL 正则化奖励最大化框架开始，如下面的目标所示：

\pi^*>[katex]\pi^* = \arg\max_\pi \mathbb{E}{x\sim\mathcal{D},y\sim\pi(\cdot\mid x)}!\Bigl[r(x,y)-\beta,\text{KL}!\bigl(\pi(\cdot\mid x)|\pi{\text{ref}}(\cdot\mid x)\bigr)\Bigr]

其中

r(x,y)

代表奖励函数，

\beta>0

是一个控制与参考策略

\pi_{\text{ref}}

接近程度的系数，

\text{KL}(\cdot|\cdot)

表示 Kullback-Leibler 散度。在这里，

x\sim\mathcal{D}

代表从数据分布中提取的输入，而

y\sim\pi(\cdot\mid x)

表示从策略中采样的输出。
导出最优策略。在适当的假设下，式 (14) 的解以 Boltzmann 分布的形式导出：

\pi^*(y\mid>[katex]\pi^*(y\mid x)=\frac{1}{Z(x)},\pi_{\text{ref}}(y\mid x),\exp!\Bigl(\frac{1}{\beta},r(x,y)\Bigr)

其中配分函数:

Z(x)>[katex]Z(x)=\sum_y\pi_{\text{ref}}(y\mid x),\exp!\Bigl(\frac{1}{\beta},r(x,y)\Bigr)

充当一个归一化项，确保

\pi^*

仍然是一个有效的概率分布（即，其概率总和为 1）。
重新参数化奖励。对式 (15) 的两边取自然对数，我们可以将奖励

r(x,y)

与最优策略

\pi^*

联系起来。这就产生了：

r^(x,y)=\beta,\Bigl[\log\pi^(y\mid x)-\log\pi_{\text{ref}}(y\mid x)\Bigr]+\beta\log Z(x)

其中

\beta\log Z(x)

是一个常数，不影响奖励的成对比较。如果已知最优策略

\pi^

，则可以确定真实的奖励

r^(x,y)

，直至该常数。
Bradley–Terry 偏好。在 Bradley-Terry 模型下，人类对两个输出

y_1

和

y_2

之间的偏好受其奖励值差异的控制。偏好

y_1

胜过

y_2

的概率由下式给出:

p^(y_1\succ y_2\mid x)=\frac{\exp!\bigl(r^(x,y_1)\bigr)}{\exp!\bigl(r^(x,y_1)\bigr)+\exp!\bigl(r^(x,y_2)\bigr)}

将式 (17) 代入式 (18)，我们得到最终的偏好模型：

p^(y_1\succ y_2\mid x)=\frac{1}{1+\exp!\Bigl(\beta,\Bigl[\log\frac{\pi^(y_2\mid x)}{\pi_{\text{ref}}(y_2\mid x)}-\log\frac{\pi^*(y_1\mid x)}{\pi_{\text{ref}}(y_1\mid x)}\Bigr]\Bigr)}

该表达式将成对人类偏好概率与最优策略

\pi^*

和参考策略

\pi_{\text{ref}}

的比率联系起来。
DPO 的目标:DPO 通过直接从偏好数据中学习策略来规避显式奖励建模。给定一个偏好三元组数据集

{(x,y_w,y_l)}

，

y_w

是首选输出，

y_l

是针对提示

x

的不太首选的输出，DPO 最大化观察到的偏好的可能性。形式上，DPO 采用以下目标：

\mathcal{L}{\text{DPO}}(\pi\theta;\pi_{\text{ref}})>[katex]\mathcal{L}{\text{DPO}}(\pi\theta;\pi_{\text{ref}})=-\mathbb{E}{(x,y_w,y_l)\sim\mathcal{D}}!\Bigl[\log\sigma!\Bigl(\beta,\Bigl[\log\frac{\pi\theta(y_w\mid x)}{\pi_{\text{ref}}(y_w\mid x)}\Bigr]-\beta,\Bigl[\log\frac{\pi_\theta(y_l\mid x)}{\pi_{\text{ref}}(y_l\mid x)}\Bigr]\Bigr)\Bigr]

其中

\sigma(\cdot)

是 logistic sigmoid 函数，

\beta\log\frac{\pi_\theta(y\mid x)}{\pi_{\text{ref}}(y\mid x)}

表示

\pi_\theta

和参考策略

\pi_{\text{ref}}

之间的重新参数化的奖励差异。通过最大化

\mathcal{L}{\text{DPO}}

，策略

\pi\theta

与人类偏好对齐，而无需单独的奖励模型。由于 DPO 目标继承了 RLHF 的 KL 正则化公式，它保留了基本的理论保证，例如在明确定义的偏好假设下的一致性，同时将训练过程统一为单个阶段。因此，DPO 促进了将语言模型与人类评估对齐的更直接的途径，降低了系统复杂性并提高了训练稳定性。

DPO的训练细节

DPO 框架建立在两个核心模型之上：参考策略 $\pi_{\text{ref}}$ 和目标策略 $\pi_{\text{tar}}$ 。参考策略通常是预训练的并经过监督的微调语言模型，在整个训练过程中保持不变。相比之下，目标策略从 $\pi_{\text{ref}}$ 初始化，并使用基于偏好的反馈进行迭代更新，从而提高与人类判断的对齐程度。图 11 描绘了整个流程。

直接偏好优化 (Direct Preference Optimization,DPO) 的工作流程，说明了基于人类偏好优化大型语言模型输出的训练流程

数据收集和准备:DPO 依赖于通过从 $\pi_{\text{ref}}$ 中为每个提示 $x$ 采样多个候选响应而获得的精选偏好数据集。然后，人类标注者根据连贯性、相关性和清晰度等标准比较或对这些响应进行排名。产生的偏好标签作为优化 $\pi_{\text{tar}}$ 的核心训练信号。
训练过程:目标策略通过一系列基于梯度的更新来优化，旨在最小化损失 $\mathcal{L}{\text{DPO}}$ 。具体来说， 1) 生成： $\pi{\text{ref}}$ 为每个提示 $x$ 产生候选输出。 2) 标注：人类标注者比较生成的输出，确定它们的相对偏好。 3) 优化：使用这些成对的偏好，迭代更新 $\pi_{\text{tar}}$ 以更好地模拟人类偏好的输出。在整个过程中， $\pi_{\text{ref}}$ 保持不变，提供了一个稳定的基线，用于衡量改进。
实际考虑因素:选择一个稳健的参考策略通常对于有效初始化DPO至关重要。 SFT通常为 $\pi_{\text{ref}}$ 产生一个表现良好的基线，确保后续的偏好驱动更新可以专注于改进，而不是基本的技能习得。此外，偏好数据必须足够多样化，以捕捉用户期望的差异，从而促进模型适应性并防止对狭义定义的任务的过拟合。

DPO的变体

已经出现了DPO的多个变体，以解决特定的对齐挑战并优化文本生成的不同方面。表 2 包含了这些方法的概述，这些方法涵盖了从token级别的生成优化到控制冗余和处理列表式或负面偏好。

用于优化生成的DPO：token级别和迭代DPO策略有助于与人类偏好进行更细粒度或连续的对齐。重新构建为赌博机问题后，Token 级 DPO 采用由 $(S,A,f,r,/rou_0)$ 定义的马尔可夫决策过程 (MDP)。这种方法减轻了诸如对于不推荐的 Token 过度 KL 散度等挑战。 TDPO 应用顺序正向 KL 散度而不是反向 KL 散度，改善了文本生成中的对齐和多样性保持。迭代 DPO 采用多轮方法，通过重复的偏好评估（通常由模型本身执行）来持续优化输出。成对吐槽优化 (PCO) 将二元反馈扩展到成对设置，使用软间隔来平衡探索和利用。逐步 DPO 划分偏好数据集并应用迭代更新，使用每轮更新的策略作为下一轮的基线。
可控且灵活的 DPO:一些 DPO 变体旨在管理冗长并减少对固定参考策略的需求。 R-DPO 通过目标函数中的正则化项来惩罚输出长度，从而解决过于冗长或冗余的回复。 SimPO 通过规范化回复长度和简化损失函数来处理期望和不期望的输出，从而消除了对参考策略的需求。 RLOO 利用 REINFORCE 算法，无需训练价值模型，从而大大减少了计算开销。它将整个回复视为单个动作，并从稀疏奖励中学习，与传统的基于 PPO 的方法相比，简化了实现。
列表级 DPO:列表级 DPO 方法不是将偏好数据限制为成对比较，而是对输出集进行优化。列表偏好优化 (LiPO) 将 Learning-to-Rank 技术直接应用于候选回复的排名列表，提高了相对于重复成对比较的效率。 RRHF 将偏好对齐纳入 SFT，从而消除了对单独参考模型的需求。 PRO 将列表偏好分解为更简单的二元任务，简化了 SFT 期间的对齐。
Negative DPO:某些任务需要从不期望或有害的输出中学习：Negating Negatives (NN) 抛弃正面响应，并最大程度地偏离不太受欢迎的输出。 Negative Preference Optimization (NPO) 在负面偏好上采用梯度上升，有效减少有害输出并缓解灾难性崩溃。

用于推理的PoLM

推理是使 LLM 能够处理涉及多步逻辑、复杂推理和复杂决策制定的任务的核心支柱。本章研究了增强模型推理能力的两种核心技术：Self-Refine for Reasoning，它引导模型自主检测和纠正其自身推理步骤中的错误；以及 Reinforcement Learning for Reasoning，它采用基于奖励的优化来提高模型思维链的一致性和深度。这些方法共同使模型能够更稳健地处理长时决策制定、逻辑证明、数学推理和其他具有挑战性的任务。

Self-Refine for Reasoning

推理仍然是优化 LLM 以执行需要复杂逻辑推理和上下文相关决策制定的任务的核心挑战。在这种情况下，self-refine 成为一种强大的机制，可以在文本生成期间或之后迭代地查明并纠正错误，从而大大提高推理深度和整体可靠性。如图，self-refine 方法可分为四类：Intrinsic Self-refine，它依赖于模型的内部推理循环；External Self-refine，它结合了外部反馈资源；Fine-tuned Intrinsic Self-refine，它根据自生成的更正迭代更新模型的推理过程；以及 Fine-tuned External Self-refine，它利用外部信号和微调，以更具适应性的长期方式完善推理。表 4 进一步说明了每个类别如何加强 LLM 在各种任务中的推理能力。

Self-Refine 方法的分类，描述了用于增强大型语言模型推理的架构变体

大型语言模型中的自我修正方法概述。本表总结了突出的自我修正技术，详细说明了它们的主要 LLM、任务以及跨越三个指标的发布时间线：ET（外部工具），FT（微调），以及SR（自我修正）

内源性自我修正(Intrinsic Self-Refine)。内源性自我修正方法侧重于赋予模型自身在内部检测和修复错误的能力，而无需借助外部工具。例如，RCI Prompting 仅在识别出矛盾或错误时才会触发修正，避免对微小的不确定性做出过度反应。 CAI Revisions 修正不良输出（例如，攻击性文本），同时教导模型自我调节其回复。类似地，Self-Refine 利用从低质量提示到高保真指令的过渡，完善中间逻辑以提高一致性。CoVe 通过将多答案问题分解为子任务来解决，每个子任务单独验证以确保整个推理链的准确性和一致性。 Weak-to-Strong Generalization (W2SG) 方法利用高级算法，使强大的学生模型能够从能力较弱的教师模型产生的嘈杂演示中有效学习。该框架已在不同领域中看到了一些关键的进展和应用。最近的研究通过各种创新增强了 W2SG。例如，集成学习技术已成功应用于提高 W2SG 方法的鲁棒性和有效性。还有研究采用弱到强的外推来增强 LLMs 的对齐。
外源性自我修正(External Self-Refine): 这些方法涉及外部反馈来源或计算工具来指导和纠正模型的推理。 CRITIC 系统地检查逐步输出，从而增强复杂推理任务的可靠性。Reflexion 和 Self-Debug 分别将生成的答案与参考解决方案或少样本示例进行比较，迭代地改进逻辑。FLARE 和 Logic-LM 等技术结合了来自外部文档或符号求解器的参考，从而最大限度地减少逻辑错误。 RARR 和 SelfEvolve 表明，验证中间状态（例如，编译器消息或相关知识来源）是尽早修剪错误路径并将模型完善为正确解决方案的有效方法。研究提出了从人类反馈中进行迭代偏好学习，其中包括用于在线设置的直接偏好优化 (DPO) 算法的迭代版本，以及用于离线场景的多步拒绝抽样策略。PIT 隐式地从人类偏好数据中学习改进目标。
微调的内在自我完善(Fine-Tuned Intrinsic Self-Refine):通过专门针对内部修订对基础模型进行微调，这些方法系统地加强了 LLM 的自我修正循环。Self-Critique 旨在通过自我审查来改进摘要，而 SelFee 使用迭代反馈循环来确保更高水平的逻辑一致性。 Volcano 通过在 LLM 的架构内微调一个专门的校正器模块来减少多模态幻觉，而 RL4F 利用基于 RL 的批评循环，在需要深入推理的基准测试中将性能平均提高了 10%。 REFINER 同样专注于中间推理路径，而无需更改模型的原始生成过程，这表明可以通过训练模型仔细重新检查其部分输出来实现持续改进。此外，易于到难泛化的概念已经成为 W2SG 的一个有前景的变体，其中模型最初在易于验证的示例上进行训练，然后再处理更复杂的任务。这种方法的一个值得注意的实现涉及在人类可验证的示例上训练一个强大的奖励模型，然后指导在具有挑战性任务上对更强大的模型的监督。此外，W2SG 的有效性超出了 LLM 的范围，并在计算机视觉任务中也得到了成功的应用。
微调的外部自我完善(Fine-Tuned External Self-Refine):在需要长期改进的场景中，模型的参数通过外部反馈机制进行更新。例如，Self-Edit 基于执行结果重新生成代码输出，从而实现正确性的迭代改进。Baldur 通过添加或修改上下文来加强定理证明，而 CodeRL 则采用基于测试的评论员来验证程序合成任务中的功能准确性。总而言之，这些技术表明，将外部资源与有针对性的微调相结合，可以促进模型整体推理性能的可靠、逐步提升。

用于推理的强化学习

在上一小节中，我们探索了self-refine方法，这是一种通过局部调整和优化改善LLM推理的广泛使用方法。这种技术通常应用于单步任务或输出精炼，例如文本生成和问答，从而提供快速的推理收益。然而，它难以处理需要多步逻辑的复杂、长期的推理任务。 OpenAI 的 o1 系列的发布突出了强化学习 (RL) 作为一种强大的替代方案，通过基于奖励的反馈来精炼长时间的内部 CoT，从而训练大语言模型以进行高级推理。这显着提高了复杂任务（如数学证明和战略规划）的性能。o1 的成功激发了对大规模 RL 的研究，其中 QwQ-32B-Preview 在数学和编程方面表现出色，而 DeepSeek-R1 则与 o1 的能力相匹配。本小节考察了 RL 在增强推理方面的作用，重点介绍了 DeepSeek-R1 和 DeepSeek-R1-Zero，这两个领先的开源模型。

将推理表述为MDP（Markov Decision Process）

大语言模型中的推理可以优雅地建模为一个顺序决策过程，其中模型迭代地构造一系列中间步骤 $a_1,a_2,\dots,a_T$ 以响应输入查询 $x$ ，从而优化到达正确最终答案的可能性。这种概念化将推理转化为一个结构化框架，适用于强化学习 (RL)，特别是通过马尔可夫决策过程 (MDP) 的视角，表示为 $\mathcal{M}=(\mathcal{S},\mathcal{A},P,R,\gamma)$ 。 MDP 封装了状态、动作、转移、奖励和时间折扣的动态相互作用，为训练大语言模型以应对复杂的推理任务提供了坚实的数学基础。通过将推理构建为一系列深思熟虑的选择，这种方法使模型能够系统地探索和完善其逻辑路径，这与游戏或机器人技术等领域的决策制定相似，但适应了语言和概念推理的独特挑战。最终目标是推导出最优策略 $\pi^*(a_t|s_t)$ ，最大化期望累积奖励，表示为 $J(\theta)=\mathbb{E}{\pi\theta}!\left[\sum_{t=1}^{T}\gamma^t,R(s_t,a_t)\right]$ ，利用强化学习（RL）技术，如近端策略优化（PPO）或优势演员-评论员（A2C），基于环境反馈迭代增强推理能力。

状态空间（State Space）：状态空间 $\mathcal{S}$ 构成了该MDP（马尔可夫决策过程）的骨干，其中每个状态 $s_t\in\mathcal{S}$ 代表时间步 $t$ 的当前推理轨迹，是推理过程至关重要的语言和结构元素的丰富组合。具体来说， $s_t$ 包括初始查询 $x$ ，先前的推理步骤序列 ${a_1,\dots,a_{t-1}}$ ，以及一个内部记忆表示，该表示编码逻辑依赖关系和中间结论，例如部分解决方案或推断的关系。随着推理的展开，此状态动态演化，通过整合通过生成的步骤和从上下文理解中提炼的潜在知识表达的显式路径，反映了思维的进程。例如，在数学证明中， $s_t$ 可能包括问题陈述、先前导出的方程式以及适用的定理的记忆，使模型能够在各个步骤中保持一致性。这种多方面的状态表示确保了LLM能够自适应地跟踪其推理上下文，这是解决需要持续逻辑连贯性的任务（例如多步问题解决或文本生成中的叙事连贯性）的前提条件。
动作空间（Action Space）：动作空间 $\mathcal{A}$ 定义了每一步可能的决策范围，其中一个动作 $a_t\in\mathcal{A}$ 对应于选择下一个推理动作，为推进推理过程提供了通用的工具包。这些动作可能包括用自然语言生成token或短语以阐明推理片段，应用预定义的逻辑或数学变换（例如，代数简化），从知识库中选择相关的定理或规则以扩展推理链，或在达到结论性答案时停止该过程。动作空间的性质因任务而异：它可以是离散的，如在形式证明中从有限的逻辑规则集合中选择，或者可以是连续的，如在开放式推理场景中生成自由文本，反映了LLM的生成灵活性。这种二元性使模型能够同时处理结构化领域（如符号逻辑）和非结构化领域（如常识推理），根据任务的要求调整其策略，同时保持其朝向解决方案的连贯轨迹。
转移函数（Transition Function）：转移动力学，由函数 $P(s_{t+1}|s_t,a_t)$ 封装，控制状态随每个动作的演变，描绘了MDP框架内推理轨迹的进程。与随机性源于外部变量（例如，环境噪声）的传统RL环境相比，LLM中的推理转移主要具有确定性，由模型的自回归输出或结构化推理规则驱动，例如在证明中应用演绎步骤。然而，不确定性源于固有的模型限制——例如，不完善的知识、模棱两可的中间状态或文本生成中的概率抽样——引入了RL必须解决的变异性。对于自回归大语言模型（LLM），转换遵循可预测的序列生成过程，但错误累积或不同解释的可能性需要一个稳健的设计来确保可靠性。这种确定性但又充满不确定性的动态突显了对自适应策略的需求，这些策略可以在各种环境中稳定推理，从精确的数学推导到细致的叙事构建。
奖励函数（Reward Function）：奖励函数 $R(s_t,a_t)$ 充当马尔可夫决策过程（MDP）的评估核心，为每个推理步骤的质量提供关键反馈，以指导模型的学习过程。与具有明确奖励（例如，游戏中的分数）的传统强化学习（RL）任务不同，推理奖励必须经过仔细设计，以平衡稀疏性和密度，反映任务的复杂性和目标。稀疏奖励，例如仅在达到正确的最终答案时才分配一个值，提供了简单性，但可能会延迟多步场景中的学习，而密集奖励则评估逐步正确性、逻辑有效性或与人类偏好的对齐，提供细致的指导。这种灵活性使奖励函数能够适应不同的推理需求——无论是奖励证明中有效推理规则的应用，还是叙事片段的连贯性——确保模型接收到有意义的信号，以在其即时和扩展的推理范围内完善其策略。
折扣因子（Discount Factor）： $\gamma$ ：一个标量 $\gamma\in[0,1]$ ，用于确定即时奖励和未来奖励之间的权衡。较高的 $\gamma$ 鼓励多步推理优化，促进深度推理链而不是短期启发式方法。鉴于这种 MDP 公式，目标是学习一个最优推理策略 $\pi^*(a_t|s_t)$ ，以最大化预期的累积奖励：

J(\theta)>[katex]J(\theta)=\mathbb{E}{\pi\theta}!\left[\sum_{t=1}^{T}\gamma^t,R(s_t,a_t)\right].

该框架支持应用强化学习技术，例如近端策略优化（PPO）或优势演员-评论家（A2C），通过基于来自推理环境的反馈迭代调整策略

\pi_\theta

来完善大语言模型的推理能力。

推理奖励设计

与具有明确奖励（如游戏分数）的传统强化学习任务不同，大语言模型中的推理需要结构化的奖励设计，反映正确性、效率和信息量。常见方法包括:

二元正确性奖励(binary correctness rewards):为正确的最终答案分配 $r_T=1$ ，否则分配 $r_T=0$ ，这很简单，但由于稀疏反馈引入了高方差；
逐步准确性奖励(step-wise accuracy rewards):基于推理规则有效性或中间步骤一致性等指标提供增量反馈，以指导多步推理；
自洽性奖励(self-consistency rewards):衡量多个推理路径的稳定性，并为一致性分配更高的奖励以增强鲁棒性；
基于偏好的奖励(preference-based rewards):源自 RLHF 或 RLAIF，其中一个模型 $r_\phi(s_t,a_t)$ 在人类或人工智能反馈上训练，评估推理质量，为复杂任务提供细致的指导。

在基础模型上的大规模强化学习

大规模强化学习已经成为一种变革性的后训练范式，用于增强 LLM 的推理能力，将重点从传统的 SFT 转移到动态的、自我进化的优化策略。这种方法利用广泛的计算框架和基于迭代奖励的反馈，直接优化基础模型，绕过了对预标注数据集的需求，并实现了复杂推理技能的自主发展。通过集成大规模 RL，LLM 可以解决复杂的、多步推理任务（例如，数学问题求解、逻辑推理和战略规划），其中传统的 SFT 常常由于其依赖于静态的、人工策划的数据而表现不佳。 DeepSeek-R1模型体现了这种范式，采用先进的RL技术来实现最先进的推理性能，同时优化资源效率，如图所示。本小节阐述了支持 DeepSeek-R1 成功的关键方法，包括新颖的优化算法、自适应探索和轨迹管理，这些共同重新定义了 RL 驱动的推理在 LLM 中的潜力。

DeepSeek-R1 中用于推理的强化学习工作流程，说明了优化大型语言模型中推理能力的过程

组相对策略优化(Group Relative Policy Optimization):DeepSeek-R1-Zero 模型利用了一种复杂的近端策略优化 (PPO) 的变体，称为组相对策略优化 (GRPO)，以减轻传统 RL 训练 LLM 固有的巨大计算和资源需求。与依赖广泛的评论员网络的标准 PPO 不同，GRPO 采用基于组的基线估计来简化优化过程，显著减少训练开销，同时保持策略更新的稳健性。这种效率使得大规模 RL 可以在资源受限的系统上部署，促进了跨扩展轨迹的推理策略的迭代优化。通过优化可管理的计算范围内的策略，GRPO将DeepSeek-R1-Zero定位为可扩展的解决方案，以增强推理能力，如上图所示。GRPO已经成为当代RL驱动推理研究的基石。
DeepSeek-R1-Zero: DeepSeek-R1-Zero 展现了大规模 RL 提升 LLM 推理的变革性潜力，无需像 SFT 那样作为初始步骤，而是采用了纯粹的 RL 驱动的自我进化范式。这种方法使模型能够通过奖励反馈迭代地改进其内部 CoT，从而自主地发展复杂的推理技能，绕过了 SFT 中通常需要的预标注数据集。结果是在复杂的、多步推理任务（例如，数学问题求解和逻辑推导）中性能的显着提高，证明了 RL 从基础模型中解锁高级推理能力的能力。DeepSeek-R1-Zero 作为一个最强大的开源推理模型之一，其成功突显了冷启动 RL 策略的可行性，为传统的训练流程提供了一种资源高效的替代方案，同时实现了与最先进基准测试持平的水平。
逐步奖励建模(Stepwise Reward Modeling):为了指导轨迹 $\tau=(s_1,a_1,\dots,s_T,a_T)$ 的推理，deepSeek-r1采用逐步奖励模型 $f_\theta$ ，在每个时间步中提供粒度反馈，定义为 $r_t=f_\theta(s_t,a_t\mid\mathcal{D}{\text{reasoning}})$ ，其中 $\mathcal{D}{\text{reasoning}}$ 构成了带有人类信息的COT序列的逐步正确性标签。这种密集的奖励结构与稀疏的序列奖励形成鲜明对比，通过对个人推理步骤的质量提供可行的可行见解，使模型能够精确地调整其策略。通过利用专家策划的数据，奖励模型确保反馈与人类推理标准保持一致，从而在扩展的推理链中培养一致性和准确性，这是解决需要长期逻辑合成的任务的关键特征。
自适应探索(Adaptive Exploration):DeepSeek-R1 通过集成到其目标中的自适应探索机制来增强策略优化: $\mathcal{L}{\text{PPO}^+}>[katex]\mathcal{L}{\text{PPO}^+}=\mathbb{E}\tau!\Bigl[\min!\Bigl(\frac{\pi_\phi(a|s)}{\pi_{\text{old}}(a|s)},A_t,;\text{clip}!\Bigl(\frac{\pi_\phi(a|s)}{\pi_{\text{old}}(a|s)},1-\varepsilon,1+\varepsilon\Bigr)A_t\Bigr)\Bigr]+\lambda_t,\mathcal{H}!\bigl(\pi_\phi(\cdot|s)\bigr),$ 其中熵项 $\mathcal{H}$ 由自适应系数 $\lambda_t=\alpha\cdot\exp!\bigl(-\beta\cdot\text{Var}(R(\tau_{1:t}))\bigr)$ 调节，根据整个轨迹的奖励方差动态调整。这种方法平衡了探索和利用，鼓励模型在训练早期探索不同的推理路径，同时随着方差的减小而收敛到最佳策略，从而提高了推理细化的鲁棒性和效率。
轨迹剪枝(Trajectory Pruning):为了优化推理期间的计算效率，DeepSeek-R1 实现了一个双重注意评论员，它通过结合局部步骤评估和全局轨迹上下文来评估每个状态的价值。当发生剪枝时，终止低价值的推理路径，将资源集中在有希望的轨迹上。这种机制减少了无用的探索，加速了收敛，并确保模型优先考虑高质量的推理序列，这有助于其在复杂的推理任务中取得卓越的性能。

使用冷启动的推理 RL

DeepSeek-R1-Zero 通过采用冷启动方法进一步推进了 RL 的应用，避免了 SFT，完全依赖于来自未经训练的基础模型的大规模 RL。这种自我进化的策略通过迭代反馈来完善推理，从而在没有预通量的数据依赖性的情况下生成健壮的COT序列。通过直接在推理任务上进行训练，DeepSeek-R1-Zero 展示了 RL 的多功能性，实现了与使用 SFT 初始化（例如其 DeepSeek-R1 对应模型）的模型相当或更优的性能。这种方法不仅减少了对大量标注数据集的依赖，还展示了 RL 自主开发复杂推理能力的可能性，为未来的 LLM 开发提供了一个可扩展的范例。总而言之，RL 为增强推理提供了一个有前景的框架，有效的奖励设计、策略优化（例如，GRPO）和探索策略仍然至关重要。进一步的研究可以探索混合方法，整合模仿学习或自监督目标，以进一步完善这些能力，巩固 RL 在推进 LLM 推理中的作用。

提高效率的PoLM

在前面章节讨论的后训练优化技术的基础上，后训练效率专门针对 LLM 在初始预训练之后的运行性能。主要目标是优化关键的部署指标（例如，处理速度、内存使用和资源消耗），从而使 LLM 能够更实际地应用于现实世界的应用程序。实现后训练效率的方法主要分为三类：

模型压缩（Model Compression）：通过剪枝和量化等技术来减少整体计算量；
参数高效的微调（Parameter-Efficient Fine-Tuning）：仅更新模型参数的一小部分或使用专门的模块，从而最大限度地降低重新训练成本并加速对新任务的适应；
知识蒸馏 (Knowledge Distillation）：将知识从一个更大的、预训练的模型转移到一个更小的模型，使更小的模型能够在减少资源需求的情况下实现相当的性能。

模型压缩

模型压缩包括一组旨在减少 LLM 的大小和计算需求的的技术，其中包括后训练量化（post-training quantization）、参数剪枝（parameter pruning）和低秩近似（low-rank approximation）。

后训练量化

LLM 的一个关键压缩方法是量化，它将高精度数据类型 $X_H$ (30 位浮点数) 转换为较低精度格式 $X_L$ (8 位整数)。这种转换的公式如下：

X_L>[katex]X_L=\text{Round}!\left(\frac{\text{absmax}(X_L)}{\text{absmax}(X_H)},X_H\right)=\text{Round}!\left(\mathcal{K}\cdot X_H\right),

其中

\mathcal{K}

代表量化常数，absmax 指的是元素的绝对最大值。函数 Round 将浮点数转换为整数。 LLM 量化包括后训练量化 (post-training quantization,PTQ) 和量化感知训练 (quantization-aware training,QAT)。 PTQ 可以在预训练后调整模型权重和激活值，使用一个小型的校准数据集来优化计算效率和性能，如下图所示。此外，下表展示了几种用于LLM的突出量化方法的性能指标：

LLM的后训练量化技术的图解

仅权重量化 (Weight-Only Quantization,WOQ):WOQ 侧重于压缩模型权重以提高效率。 GPTQ 使用最优脑量化 (Optimal Brain Quantization，OBQ) 应用逐层量化，将权重降低到3或4位，以降低内存使用量和处理时间。为了进一步提高效率，QuIP 引入了针对2位量化的不连贯处理，提供了更紧凑的表示形式。类似地，AWQ 和 OWQ 通过对特别敏感的权重保持高精度来解决准确性保持问题，从而最大限度地减少推理期间潜在的精度损失。最后，SpQR 将稀疏量化与解码相结合，实现了高效的逐个token推理，同时保留了模型的响应能力。
权重-激活联合量化 (Weight-Activation Co-Quantization，WAQ)：WAQ 整合了权重和激活值以提高效率。 LLM.int8() 使用精确的存储来处理激活异常值，并量化到8位，同时保持性能。 SmoothQuant 实现了逐通道缩放，将量化难点从激活转移到权重，以实现无损结果。此外，OS+ 通过通道级别的移位和缩放来缓解异常值的影响，从而提高效率。 OmniQuant 将量化障碍从激活转移到权重，并对极端值微调剪裁阈值。为了进一步提高效率，RPTQ 对相似通道进行分组，以确保量化参数的均匀性。
KV-Cache 量化 (KV-Cache Quantization，KVQ)：KV-Cache 量化解决了大语言模型中的内存优化挑战，尤其是在输入 token 数量增加时。 KVQuant 引入了定制方法，用于在长上下文长度下进行高效推理，在最小损失的情况下保持性能。 KIVI 通过对 key 和 value 缓存应用不同的量化策略来优化内存节省，实现了 2 比特量化，无需微调。 WKVQuant 通过二维量化策略和跨块正则化进一步完善了这一点，提供与权重-激活量化相当的内存效率，且性能几乎相同。

大型语言模型量化方法概述 (2021–2025)。本表总结了有代表性的量化技术，详细介绍了它们的主要LLM、位宽(bit widths)、困惑度差异(perplexity differences)、加速(speedups)以及在三个指标上的发布时间表：位宽（权重、激活和KV缓存的位数）、困惑度差异（在Wikitext-2和C4数据集上的性能变化）和加速（相对于基线模型的计算速度提升）

参数剪枝

参数剪枝是一种通过最小化模型大小和复杂性而不牺牲准确性的关键技术，用于提高大语言模型的效率。如图所示，剪枝可以分为非结构化剪枝和结构化剪枝。

大语言模型剪枝参数技术的图示

非结构化剪枝（Unstructured Pruning）:非结构化剪枝通过消除不重要的权重来增强大语言模型的稀疏性。被称为 SparseGPT 的方法通过少样本剪枝实现了高达 60% 的稀疏度，同时保持了最小的损失。方法 Wanda 基于权重大小和激活执行剪枝，无需重新训练。与此同时，SAMSP 利用 Hessian 矩阵的敏感性进行动态调整稀疏度，旨在最小化误差。DSnoT 通过采用迭代剪枝循环来提高性能。最后，Flash-LLM 从全局内存中检索稀疏权重，并在芯片上缓冲区中密集地重建它们，以促进高效计算。
结构化剪枝（Structured Pruning）:这种方法侧重于剪枝 LLM 中的整个参数组，以提高硬件效率并简化结构。例如，LLM-runer 评估 LLaMA 的重要性，并使用 LoRA 来恢复剪枝后的准确性。FLAP 使用结构化指标优化压缩，无需微调。此外，SliceGPT 采用 PCA 进行剪枝，同时保持效率。 Sheared LLaMA 通过基于正则化的剪枝来优化模型形状。LoRAPrune 通过基于 LoRA 重要性的迭代结构剪枝来提高效率。此外，Deja Vu 通过预测关键注意力头和 MLP 参数，使用上下文稀疏性来降低延迟，同时保持准确性。
低秩近似（Low-Rank Approximation）:低秩近似通过用较小的矩阵 $U$ 和 $V$ 来近似权重矩阵 $W$ ，从而实现 $W\approx UV^\top$ ，以此来压缩 LLM。这种方法不仅减少了参数数量，而且提高了运营效率。例如，TensorGPT 采用 Tensor-Train 分解 (TTD) 来开发更有效的嵌入格式。LoSparse 将低秩近似与剪枝相结合，专门用于压缩连贯的神经元组件。FWSVD 实施加权 SVD 方法，而 ASVD 提供了无训练的 SVD 替代方案，两者都针对训练后的效率。最后，SVD-LLM 通过建立奇异值与压缩损失之间的直接关系来进一步提高压缩。

参数高效微调

参数高效微调(PEFT)的过程包括冻结完整的 LLM 主干，同时仅修改有限数量的新增参数。如图所示，PEFT 方法分为四类：加性 PEFT（additive PEFT）、选择性 PEFT（selective PEFT）、重参数化 PEFT（reparameterized PEFT）和混合 PEFT（hybrid PEFT）。

参数高效微调 (PEFT) 的插图，说明了大型语言模型中资源高效适应的方法

加性PEFT

加性 PEFT 将新的可训练模块并入 LLM，而无需更改原始参数，允许特定于任务的调整，同时保留基本模型的知识，这对于微调是有效的。

适配器（Adapters）：适配器在 transformer 块内集成紧凑层，定义为： $\text{Adapter}(x)=W_{\text{up}},\sigma(W_{\text{down}},x)+x,$ 其中适配器层包括一个下投影矩阵 $W_{\text{down}}\in\mathbb{R}^{r\times d}$ ，一个非线性激活 $\sigma$ 和一个上投影矩阵 $W_{\text{up}}\in\mathbb{R}^{d\times r}$ 。这里， $d$ 是隐藏层维度， $r$ 是瓶颈维度，在保持性能的同时降低了复杂性。在此结构的基础上，Serial Adapter 在每个 transformer 块中引入了两个模块。 AdapterFusion 通过在 Adapter & Norm 适配器来提高效率。并行适配器 (Parallel Adapter，PA) 并行于子层运行适配器，而 CoDA 通过与子层并行运行适配器进行优化。与 AdapterFusion 不同，MerA 使用最优传输技术统一了适配器，用于权重和激活。
软提示（Soft Prompt）：软提示通过将可调整的向量添加到输入序列来增强模型性能，而不是优化离散的token。这种方法被形式化为： $X^{(l)}=\bigl[s_1^{(l)},\dots,s_{N_S}^{(l)},x_1^{(l)},\dots,x_{N_X}^{(l)}\bigr],$ 其中 $s_i^{(l)}$ 表示软提示token， $x_i^{(l)}$ 表示原始输入token。 $N_S$ 和 $N_X$ 分别是软提示和原始输入token的数量。前缀调优（Prefix Tuning）在transformer层之间引入可学习的向量，并通过重新参数化来稳定，并通过 P-Tuning v2 和 APT 进行优化。同时，提示调优（Prompt Tuning）侧重于初始嵌入层，用于以低计算成本优化大型模型。 Xprompt 和 IDPG 简化了提示生成和插入。 SPoT 和 PTP 等方法解决了稳定性和收敛速度问题，而 DePT 和 SMoP 通过优化的提示结构降低了计算需求。

其他加法方法：除了早期技术，(IA)³ 和 SSF 等方法侧重于通过对模型参数进行最小但强大的调整来实现后训练效率。自注意力操作和 FFN 操作在数学上定义为：

\text{SA}(x)>[katex]\text{SA}(x)=\text{Softmax}!\Bigl(\frac{Q\cdot(l_k\odot K)^T}{\sqrt{d_{\text{head}}}}\Bigr)\cdot(l_v\odot V),

\text{FFN}{\text{transformer}}(x)>[katex]\text{FFN}{\text{transformer}}(x)=W{\text{up}}\cdot!\bigl(l_{ff}\odot\sigma(W_{\text{down}},x)\bigr),

其中

\odot

表示 Hadamard 积，缩放向量

l_k

和

l_v

可以平滑地并入

A_Q

和

A_W

的权重矩阵。此外，IPA 将LLM（如GPT-4）与用户特定需求对齐。此外，它不需要对底层模型进行更改，因此在微调过程中保持了效率。

选择性PEFT

选择性PEFT通过仅微调参数的一个子集来提高效率，如上图所示。这涉及将二元掩码 $M={m_1,m_2,\dots,m_n}$ 应用于参数 $\theta={\theta_1,\theta_2,\dots,\theta_n}$ ，其中每个 $m_i$ 指示是否选择 $\theta_i$ 进行微调。更新后的参数集表示为：

\theta_i>[katex]\theta_i'=\theta_i-\eta\cdot m_i\cdot\frac{\partial\mathcal{L}}{\partial\theta_i},

其中

\eta

是学习率，

\frac{\partial\mathcal{L}}{\partial\theta_i}

是损失函数的梯度。仅更新选定的参数（其中

m_i=1

），在保持有效性的同时降低计算成本。早期方法包括Diff pruning ，它使用可微

L_0

-范数来正则化可学习的二元掩码，以及FishMask ，它基于fisher信息选择参数以获得更大的相关性。 LT-SFT 应用彩票假设来识别有影响力的参数。 SAM 采用二阶近似进行选择，而Child-tuning 在子网络中动态选择参数。此外，FAR 和BitFit 通过专注于优化特定的参数组来进一步说明选择性PEFT。

重参数化PEFT

重参数化PEFT主要采用低秩参数化来提高效率，如上图(c)所示。LoRA (Low Rank Adaptation，低秩适配) 引入两个可训练的矩阵 $W_{\text{up}}\in\mathbb{R}^{d\times r}$ 和 $W_{\text{down}}\in\mathbb{R}^{r\times k}$ ，修改输出为：

h_{\text{out}}=W_0,h_{\text{in}}+\alpha,(W_{\text{up}},W_{\text{down}},h_{\text{in}}),

其中

\alpha

是一个缩放因子。这种方法允许有效地适应新任务，同时保留核心知识。在 LoRA 的基础上，Intrinsic SAID 最小化了微调参数空间，进一步降低了计算需求。动态变体，包括 DyLoRA 和 AdaLoRA，根据特定于任务的需求动态调整秩，其中 AdaLoRA 额外结合了基于 SVD 的剪枝以提高效率。SoRA 通过移除正交性约束来简化流程，而 Laplace-LoRA 则应用贝叶斯校准进行微调。 Compacter 和 VeRA 进一步降低了参数复杂度。此外，DoRA 优化了方向分量的更新，而 HiRA 使用 Hadamard 积进行高秩更新，从而提高了效率和性能。为了应对多任务和不断发展的领域，Terra 集成了一个时变矩阵，ToRA 则利用 Tucker 分解来进一步改进 LoRA 结构。除了结构设计，PiSSA 和 LoRA-GA 使用 SVD 和梯度对齐优化了 LoRA 的初始化。同时，LoRA+、LoRA-Pro 和 CopRA 进一步完善了梯度更新策略。此外，ComLoRA 采用竞争学习来选择性能最佳的 LoRA 组件。

混合PEFT

混合 PEFT 方法通过集成或优化各种微调策略来提高后训练效率。一种突出的技术 UniPELT 在 transformer 块内合并了 LoRA、前缀调优和适配器。这种方法通过门控机制动态激活组件，该机制由前馈网络 (FFN) 管理，前馈网络生成标量 $G\in[0,1]$ ，最终优化参数利用率。另一种创新方法 MAM Adapter 通过在前置注意层中策略性地定位前缀调优，并在前馈层中使用缩放的并行适配器来改进此技术。此外，基于 NAS 的方法，如 NOAH 和 AUTOPEFT，通过识别针对特定任务量身定制的最佳 PEFT 配置来提高后训练效率。此外，HeadMap 使用贪婪方法识别一系列注意力头（即知识电路），这些头在某些任务中起关键作用，并通过将这些注意力头的输出映射回 LLM 的残差流来有效地提高模型性能。最后，LLM-Adapters 提供了一个框架，用于在 LLM 中集成各种 PEFT 技术，确保最有效的模块放置以在不同的模型规模中保持效率。

知识蒸馏

知识蒸馏 (Knowledge Distillation，KD) 构成了 LLM 训练后优化的一个重要技术，它能够将知识从大型的预训练教师模型转移到紧凑的学生模型，以提高效率，而不会牺牲性能。 KD 最初是在模型压缩的背景下引入的，由于其将复杂知识提炼成资源高效架构的能力而获得了广泛关注，从而能够在边缘设备和嵌入式系统等受限环境中部署。通过利用教师模型的细微输出分布——比传统的硬标签更丰富——KD 使学生不仅能够复制类别预测，还能复制教师表示中根深蒂固的类间关系和微妙模式。此过程通常涉及优化一个复合损失函数，该函数平衡监督学习目标与特定于蒸馏的目标，从而显着降低计算和内存需求，同时保留泛化能力。
KD 的基本机制依赖于最小化一个混合损失，该损失将传统的分类损失与蒸馏项相结合。形式上，给定一个教师模型的软输出概率 $\mathbf{p}\mathbf{t}$ 和一个学生模型的预测 $\mathbf{p}\mathbf{s}$ ，以及真实标签 $\mathbf{y}$ 和学生输出 $\mathbf{y}_\mathbf{s}$ ，KD 损失表示为：

\mathcal{L}{KD}>[katex]\mathcal{L}{KD}=\alpha,\mathcal{L}{CE}(\mathbf{y},\mathbf{y}\mathbf{s})+(1-\alpha),\mathcal{L}{KL}(\mathbf{p}\mathbf{t},\mathbf{p}\mathbf{s}),

其中

\mathcal{L}{CE}

表示捕获与 ground truth 对齐的交叉熵损失，

\mathcal{L}{KL}

表示衡量教师和学生分布之间差异的 Kullback-Leibler 散度，

\alpha\in[0,1]

是一个超参数，用于调节这些目标之间的权衡。软目标

\mathbf{p}\mathbf{t}

，通常由温度参数

T

（即，

\mathbf{p}\mathbf{t}=\text{softmax}(\mathbf{z}\mathbf{t}/T)

，其中

\mathbf{z}\mathbf{t}

是教师 logits）调节，编码更丰富的概率信息，使学生能够模仿教师的决策细微差别，而不仅仅是标签准确性。
KD 广泛应用于资源受限环境和迁移学习的模型压缩中，其中预训练的教师指导特定于任务的学生。其有效性取决于教师能力、学生架构和蒸馏损失设计等因素。最近的进展将 KD 扩展到输出蒸馏之外，从而在后训练优化中实现更高效、更具适应性的 LLM。 KD 方法可大致分为黑盒 KD 和白盒 KD，这取决于对教师模型内部参数和中间表示的访问级别。如下表所示，知识蒸馏方法可大致分为两种类型：黑盒 KD 和白盒 KD。我们系统地总结了大型语言模型 (LLM) 中各种知识蒸馏技术，以及它们相应的技能、教师模型和学生模型。

大型语言模型的知识蒸馏方法总结（2020–2025）。本表概述了关键的蒸馏技术，详细介绍了它们的能力、教师和学生模型、目标和发布时间表，分为黑盒 KD（访问仅限于教师输出，通常来自闭源 LLM）和白盒 KD（访问教师参数或分布，通常来自开源 LLM）。指标包括 IF（指令遵循）、CoT（思维链）、ICL（上下文学习）、SFT（监督微调）、D&S（差异和相似性）、RL（强化学习）、TP（思维模式）、NLU（自然语言理解）和 NLG（自然语言生成）

黑盒 KD：黑盒 KD 指的是学生模型仅从教师的输出逻辑中学习，而无法访问其内部表示或架构细节的场景。这种方法最初由 Hinton 提出，与经典的 KD 范式一致，并且由于其灵活性而被广泛采用。黑盒 KD 的一个关键优势在于它将教师模型视为一个不透明的函数，即使教师是具有受限访问权限的专有或预训练模型，也能实现知识转移。在实践中，大型教师 LLM（例如，ChatGPT 和 GPT-4）通常用于生成高质量的输出。同时，较小的语言模型 (SLM)，包括 GPT-2、T5、Flan-T5 和 CodeT5，充当学生模型。这些 SLM 经过优化以提高效率，同时保持强大的泛化能力，使其适合在资源受限的环境中部署。
白盒 KD：白盒 KD 通过利用来自教师内部表示的额外见解来扩展传统的蒸馏范式。当教师模型的架构是已知且可访问时，这种方法是有益的，允许更丰富的监督形式。与将教师视为不透明函数的黑盒 KD 不同，白盒 KD 允许学生模型不仅从教师的输出 logits 学习，而且还从其中间激活、隐藏层，甚至潜在的注意力权重学习。
DeepSeek-R1: 直接蒸馏推理模式： DeepSeek-R1 通过从大规模模型中蒸馏复杂的推理模式到紧凑型架构中，例证了知识蒸馏 (KD) 的变革潜力，显著增强了小型 LLM 的推理能力，而无需对这些模型进行直接 RL 的计算负担。这种方法被称为直接蒸馏，利用由大型教师模型生成的约 80 万个样本的精选数据集，包括来自 DeepSeek-V3 的 20 万个非推理实例和由 DeepSeek-R1-Stage1 检查点产生的 60 万个推理实例。这些样本构成了应用于开源基础模型（如 Qwen 和 LLaMA mini 变体）的 SFT 的基础，使学生模型能够继承通常为其大型对应模型保留的复杂推理能力。

DeepSeek-R1 中的直接蒸馏过程在一个结构化管道中展开，如下图所示。最初，在广泛数据集上进行预训练的教师模型会生成一个包含推理和非推理输出的多元语料库，捕获一系列逻辑模式和事实知识。非推理数据（约 20 万个样本）提供了通用知识的基线，而推理数据（约 60 万个样本）封装了多步推理链，并通过教师的高级能力进行提炼。然后，该数据集被用于 SFT 阶段，其中学生模型被训练使其输出分布与教师的输出分布对齐，使用推理数据直接微调较小的模型以蒸馏出一个紧凑的推理模型。与直接应用于小型模型的传统 RL（可能由于容量有限而产生次优推理）不同，DeepSeek-R1 的直接蒸馏通过转移预优化的推理行为来规避此类限制，从而以更少的资源需求实现卓越的性能。

eepSeek-R1 中知识蒸馏的工作流程，说明了将推理模式从大型模型转移到紧凑型模型的过程DeepSeek-R1 的 KD 方法的一个显著特征是它强调在不同模型尺度上保持推理完整性。通过整合来自 DeepSeek-R1-Stage1（通过大规模 RL 提炼的检查点）的推理轨迹，学生模型不仅复制了事实准确性，而且模拟了复杂的推理过程，例如解决数学问题或逻辑演绎所需的过程。这种有针对性的转移与传统的 KD 形成对比，后者通常优先考虑分类任务，并突出了 DeepSeek-R1 在面向推理的蒸馏方面的创新。此外，该方法最大限度地减少了对学生进行大量 RL 迭代的需求，利用教师的预计算推理输出来简化训练，从而提高效率和可扩展性。这种方法将 DeepSeek-R1 定位为将高级推理蒸馏到紧凑型 LLM 中的范例，为未来的后训练优化工作提供了蓝图。

用于集成和适配的 PoLM

集成和适配技术对于增强 LLM 在各种实际应用中的多功能性和有效性至关重要。这些方法使 LLM 能够无缝处理异构数据类型，适应特定领域，并利用多种架构优势，从而解决复杂、多方面的挑战。本章阐述了三种主要策略：多模态集成（Multi-modal Integration），它使模型能够处理各种数据模态，如文本、图像和音频；领域适应（Domain Adaptation），它为特定行业或用例改进模型；以及模型合并（Model Merging），它将来自不同模型的功能结合起来，以优化整体性能。总的来说，这些方法增强了 LLM 的适应性、效率和鲁棒性，扩大了它们在各种任务和上下文中的适用性。

多模态集成

在前几章阐述的后训练优化策略的基础上，本节研究了旨在增强 LLM 和大型多模态模型（LMM）以有效处理多模态数据的高级方法。虽然监督微调增强了 LLM 在特定任务环境中的熟练程度，但其在利用全方位多模态能力方面的局限性需要更复杂的后训练方法。这些技术使 LMM 能够解决复杂的跨模态任务（例如，根据视觉输入生成网页代码，解释像模因这样的细微文化产物，以及在不依赖光学字符识别的情况下进行数学推理），通过将各种数据类型集成到统一的框架中。通常，LMM 包括一个模态编码器、一个预训练的 LLM 主干和一个模态连接器，如图所示。这种架构为优化每个组件的后训练方法奠定了基础，促进了强大的多模态集成和性能增强。

典型大型多模态模型的架构

模态连接

模态连接方法对于将多模态数据合成为一个连贯的表征框架至关重要，分为三种主要策略：基于投影（projection-based）、基于查询（query-based）和基于融合（fusion-based）的方法，如图所示：

多模态融合中模态连接方法的分类，阐述了基于投影、基于查询和基于融合的方法

基于投影的模态连接：基于投影的方法将不同的模态输入转换为统一的文本嵌入空间，将其特征与 LLM 的语言维度对齐，以实现无缝集成。LLaMA-Adapter 通过整合图像编码器将 LLM 扩展到多模态系统，从而实现图像条件下的指令跟踪，以此为例。它的后继者 LLaMA-Adapter V2 通过将视觉标签嵌入到早期的 LLM 层中，改进了这个过程，从而促进了对视觉知识的更好吸收。 FROMAGe 采用在冻结的 LLM 和视觉编码器框架内对输入和输出层进行微调，以实现跨模态交互，而 LLaVA-1.5 则利用双线性多层感知器 (MLP) 来增强多模态处理的鲁棒性。最近的进展，例如 Shikra ，整合了空间坐标以增强自然语言对话，而 VILA 则优化了视觉语言预训练，以获得卓越的零样本能力。 DetGPT 通过将基于推理的目标检测与自然语言交互相结合，进一步推进了这一范式，利用投影技术来促进有效的多模态通信。 SOLO 采用单一的 Transformer 架构进行统一的端到端视觉语言建模，通过接受原始图像块（以像素为单位）和文本作为输入，而无需使用单独的预训练视觉编码器。与此同时，MiniGPT-4 使用单个投影层将冻结的视觉编码器与 Vicuna 对齐，通过两阶段训练过程实现了类似 GPT-4 的能力。 Idefics 通过自回归设计和多阶段预训练在高效推理方面表现出色。 LaVIT 使用离散视觉分词器统一视觉和语言，以实现无缝生成。 DeepSeek-VL2 通过动态瓦片和多头潜在注意力增强了对高分辨率图像的理解。最后，Qwen2.5-VL 通过重新设计的 Vision Transformer 推进了多模态任务，在感知和视频理解方面表现出色。
基于查询的模态连接：基于查询的方法通过采用可学习的查询 token 从不同的模态中提取结构化信息，从而弥合了文本数据和非文本数据之间的差距，从而增强了多模态集成。 BLIP-2 通过查询 Transformer 开创了这种方法，有效地整合文本和视觉输入。 Video-LLaMA 通过结合视觉编码器将此技术扩展到视频理解，而 InstructBLIP 改进了查询机制，以确保精确地遵循指令。X-LLM 通过专门的接口对齐多模态输入，后续的创新，如 mPLUG-Owl 和 Qwen-VL 优化了 Q-Former 架构，以提高计算效率。 LION 通过推进视觉知识整合，进一步证明了基于查询的方法的有效性，突出了它们在增强跨各种任务的 LMM 性能方面的实用性。Qwen-VL 是一系列基于 Qwen-7B 的大型视觉语言模型，它结合了视觉接收器、位置感知适配器和三阶段训练流程，以实现多语言、细粒度的视觉语言理解。Lyrics 是一个细粒度的视觉语言预训练和指令微调框架，通过视觉优化器（图像标记、目标检测和语义分割）和多尺度查询 Transformer (MQ-Former) 整合语义感知的视觉对象，从而增强大型视觉语言模型 (LVLM)。
基于融合的模态连接：基于融合的技术通过将多模态特征直接嵌入到 LLM 架构中来深化跨模态交互，从而在推理级别促进更丰富的整合。 Flamingo 采用交叉注意力层在 Token 预测期间融合视觉特征，从而实现动态多模态处理。 OpenFlamingo 在此基础上构建，允许冻结的 LLM 关注视觉编码器输出，从而增强灵活性。 Otter 引入了指令调优来改进多模态指令遵循，而 CogVLM 在 Transformer 层内集成了视觉专家模块，以实现无缝的特征合成。 Obelics 利用交错的图像-文本训练数据，突出了基于融合的方法在实现内聚多模态性能方面的稳健性。 InternVL 是一个大型视觉语言基础模型，它将视觉编码器扩展到 60 亿个参数，并使用语言中间件（QLLaMA）逐步将其与 LLM 对齐。 Llama 3 是 Meta 开发的全新多语言、工具使用基础模型系列，扩展到 405B 参数，具有 128K 个 Token 上下文窗口，通过改进的数据质量、更大规模的训练和结构化的后训练策略进行优化。

模态编码器

模态编码器将原始的多模态输入压缩成紧凑、语义丰富的表示，从而实现跨各种任务和模态的有效处理。这些组件对于将异构数据转换为与 LLM 主干兼容的格式至关重要，支持从视觉推理到音频理解的应用。下表提供了对视觉、音频和其他模态中使用的主要编码器的全面总结，详细介绍了它们的特性以及对多模态集成的贡献。

视觉编码器:视觉编码器是多模态学习的基础，有助于在 LMM 中解释和生成视觉数据。 CLIP 通过对比学习建立联合图像-文本表示，增强跨模态对齐。 EVA 改进了视觉注意力机制以提高效率，而 ImageBind 在多个模态之间创建了统一的嵌入空间，提升了零样本识别能力。 SigLIP 引入了一个配对的 sigmoid 损失来优化图像-文本预训练，而 DINOv2 采用无监督学习从不同来源提取鲁棒的视觉特征。 LLaVA 采用 self-instruct 策略将图像转换为文本描述，利用先进的 LLM 生成新数据集。 Video-ChatGPT 通过大规模指令数据集支持对话式视频理解，而 BT-Adapter 通过高效的时间建模优化视频理解。 VideoChat 侧重于时空推理，利用专门的数据集，以及 CoDi-2 和 Mipha 等模型在多模态处理中实现了效率提升。 VL-Mamba 和 Cobra 引入了状态空间模型以优化推理，而 SPHINX-Tiny 强调数据多样性和训练效率。
音频编码器：音频编码器增强了LMMs处理和解释听觉输入的能力，拓宽了它们的多模态范围。 SpeechGPT 将大规模语音数据集与卷积和transformer架构相结合，以实现强大的指令遵循能力。 AudioPaLM 使用通用语音模型（USM）编码器结合文本和语音处理，擅长零样本语言翻译等任务。 WavCaps 采用CNN14 和HTSAT 来缓解音频-语言数据稀缺性，利用先进的LLMs来提升数据集质量并增强学习效果，强调了音频模态在多模态系统中的关键作用。
其他编码器:除了视觉和音频之外，用于其他模态（例如3D理解和多模态融合）的编码器对于全面的LMMs至关重要。 NEXT-GPT 促进跨文本、图像、视频和音频的跨模态内容生成，通过最小的参数调整来推进类人AI能力。 ImageBind-LLM 对齐视觉和语言嵌入，以改善跨模态的指令遵循。 LL3DA 处理点云数据以进行3D推理和规划，引入了新颖的空间理解方法。 X-LLM 采用Q-Former 用于图像和视频输入，采用C-Former 用于语音，将音频特征压缩成token级嵌入，以增强多模态学习效率。

领域自适应

领域自适应（DA）构成了优化LLMs的关键的训练后策略，使其在专业领域中表现出色，确保其在目标应用中的有效性。基于迁移学习的原则，DA通过自适应函数 $F_{\text{adapt}}$ 转换初始模型（表示为 $M_{\text{source}}$ ），以生成特定领域的模型 $M_{\text{target}}$ ，如下所示：

此过程定制 $M_{\text{target}}$ ，以满足指定领域的独特需求和复杂性，从而优化其性能和相关性。通过增强LLMs在编程和数学推理等领域的熟练程度，DA不仅提高了特定领域的能力，还提高了计算效率，减轻了通用模型的局限性，通用模型通常难以处理特定领域的术语和推理范式。此外，DA大大减少了对大规模标记数据集和计算资源的依赖，这些资源通常是从头开始训练特定领域模型所必需的，使其成为训练后方法的核心。

知识编辑

知识编辑代表了一种精密的后训练方法，旨在修改LLM以满足特定领域的需要，而不会损害其基础能力。这种技术有助于有针对性的参数调整，在整合新的或更新的领域知识的同时，保留模型的现有性能。通过实现对不断发展的知识领域的快速适应，知识编辑成为后训练流程中不可或缺的组成部分。下表中概述了主要方法（例如，包括外部知识利用、整合和内在编辑）。

对LLM中知识编辑的代表性方法进行比较分析。编辑区域指定了模型中要修改的组件；编辑器 #参数指示在编辑过程中需要更新的参数。

L

表示受到修改的层数，

d_h

表示 Transformer 架构中隐藏层的维度，

d_m

指的是上投影和下投影阶段之间存在的中间维度，并且

N

象征着在每个单独层中进行更新的神经元总数。知识编辑的形式化定义(Formal Definition of Knowledge Editing):考虑一个由

\theta

参数化的原始LLM，该LLM在数据集

\mathcal{D}{\text{old}}

上进行了预训练。设

\mathcal{D}{\text{new}}

表示一个包含新信息或更新信息的数据集

\Delta K

。知识编辑的目标是通过应用调整

\Delta\theta

，推导出一个修正的参数集

\theta'

，有效地吸收

\Delta K

，同时最大限度地减少对

\mathcal{D}_{\text{old}}

的退化。形式上，这被框定为一个约束优化问题，其中更新后的参数定义为：

\theta>[katex]\theta'=\theta+\Delta\theta,\quad\text{where}\ \mathcal{L}(\theta';\mathcal{D}_{\text{new}})\to\min,

其中

\mathcal{L}

表示一个损失函数（例如，交叉熵），用于评估模型在

\mathcal{D}_{\text{new}}

上的质量。为了保护原始数据集的性能，施加了一个约束：

\mathcal{L}(\theta>[katex]\mathcal{L}(\theta';\mathcal{D}{\text{old}})\leq\mathcal{L}(\theta;\mathcal{D}{\text{old}})+\epsilon,

其中，

\epsilon

是一个小的正数常数，用于限制在

\mathcal{D}_{\text{old}}

上的性能损失。这种表述确保了

\theta'

包含了

\Delta K

，同时保留了模型原有的知识库。实际上，

\Delta\theta

可以被限制在特定的架构组件（例如，注意力层 (

\mathrm{Attn}

) 或前馈网络 (

\mathrm{FFN}

)），通过避免全面的重新训练，从而减少计算开销并保持核心功能。

知识识别(Knowledge Identification):知识编辑的初始阶段侧重于检测新信息并将其吸收到模型中。PokeMQA 采用可编程范围检测器和知识提示来剖析查询，从而有效地检索相关事实。相反，SERAC 将反事实模型与分类器相结合，以确定新知识源的适用性，提供了一种微创方法，在不需大规模结构修改的情况下，保持了基础模型的完整性。分析了 LLM 知识更新产生混乱涟漪效应的原因。现实世界的编辑通常源于新兴事件，这些事件包含了新事实和过去事实之间的逻辑联系，基于这一观察，EvEdit 提出了一种基于事件的知识编辑方法，以确定知识锚点和知识更新边界。
知识关联(Knowledge Association):在识别之后，此阶段将新获取的信息与模型现有的知识框架关联起来。 Transformer-Patcher 调整了 transformer 架构以整合更新的事实，而 CaliNET 重新校准参数以与事实内容对齐。诸如 Eva-KELLM、MELO 和 REMEDI 等方法可以细化特定行为以实现精确的更新，而 GRACE 则在知识插入后提高预测准确性，确保与之前的表示无缝集成。
内在知识编辑(Intrinsic Knowledge Editing):最后阶段将相关事实嵌入到模型的内部结构中，确保全面吸收。虽然传统的 fine-tuning 可能会消耗大量资源，但先进的技术可以减轻这种负担。约束微调和元学习最小化知识损失和过拟合风险。可编辑训练和 KnowledgeEditor 实现参数快速调整，同时将性能影响降到最低，而 SLAG、MEND 和 MALMEN 解决了编辑冲突并支持大规模更新，在整合新领域见解的同时保持基本能力。 LLM 手术通过应用逆梯度去除过时数据、梯度下降整合新事实以及 KL 散度项来保留现有知识，统一了遗忘和编辑，实现了显著的计算效率。 KNE 引入了一种知识神经元集成方法，该方法仅确定并更新与新插入事实密切相关的神经元，从而在保留不相关知识的同时实现更准确的编辑。 OVERTONE 通过引入一种 token 级平滑技术来解决知识编辑中异构 token 过拟合问题，该技术自适应地优化训练目标，从而保留预训练知识并提高模型对新插入事实的推理能力。这些有针对性的技术确保模型在整合新获取信息的同时保留其基本能力。

检索增强生成

检索增强生成 (Retrieval-Augmented Generation,RAG) 将传统信息检索与当代LLM集成，以增强生成输出的相关性和事实准确性。通过从外部来源动态检索相关信息并将其嵌入到生成过程中，RAG 解决了 LLM 特定领域知识的缺陷，并降低了出现幻觉内容的倾向。这种方法在需要精确、最新信息的领域特别有效，例如问答系统、科学研究和医疗保健，在这些领域，它能够熟练地处理复杂查询和知识密集型任务。此外，RAG 减轻了对话系统中误导性响应的普遍性，提高了知识驱动的自然语言生成的保真度。
本小节侧重于基于训练的 RAG 方法，认识到无训练的 RAG 方法可能会由于缺乏特定任务的优化而损害知识利用效率。三种主要的训练策略——独立训练(Independent Training)、顺序训练(Sequential Training)和联合训练(Sequential Training)——增强了模型适应性和集成能力，如图所示:

检索增强生成 (RAG) 训练方法的分类，对独立训练、顺序训练和联合训练策略进行分类

独立训练:这种策略将检索器和生成器训练成不同的模块，从而在使用针对任务需求量身定制的稀疏或密集检索器时具有灵活性。例如，DPR 使用双 BERT 网络分别对查询和段落进行编码，应用对比学习来优化检索，而无需生成器的交互。同样，提出了 Reward-RAG，它利用奖励模型仅根据基于 GPT 的反馈来微调检索器，而生成器保持不变。
顺序训练:顺序训练通过一次优化一个模块来提高效率，从而促进检索器和生成器之间的协同作用。它包括 Retriever-First 方法，如 RETRO，它在训练编码器-解码器之前预先训练基于 BERT 的检索器，以无缝集成检索到的内容，从而提高性能。或者，LLM-First 方法，如 RA-DIT，首先微调语言模型以有效地利用检索到的知识，然后改进检索器以获得更好的对齐和一致性。
联合训练:联合训练在端到端框架中同步检索器和生成器优化。RAG 最小化负对数似然以共同训练这两个组件，而 REALM 通过最大内积搜索 (MIPS) 提高了检索精度。这些方法适应特定于任务的需求，最大限度地提高外部知识的益处，并最大限度地减少生成错误。

模型合并

模型合并已成为一种重要的训练后策略，用于提高 LLM 在训练和推理阶段的性能和效率。这种方法将专用模型整合到一个统一的架构中，避免了大量重新训练的需求，并解决了大型模型规模和计算需求带来的挑战。与在合并数据集上进行训练不同，模型合并将单任务模型集成到能够胜任多任务的内聚实体中，为多任务学习提供了一种资源高效的范例。通过简化训练流程并促进开发具有强大跨应用程序泛化的通用模型，该技术优化了 LLM 在不同环境中的部署。给定一组候选模型 $M={M_1,M_2,\dots,M_n}$ ，目标是设计一个合并函数 $F_{\text{merge}}$ ，该函数产生一个统一的模型 $M'$ ，可能由一个基础模型 $M_1$ 锚定，如图所示：

层次级别上的模型合并

模型合并技术被系统地分为三个层次级别——权重级、输出级和模型级合并——如图所示：

模型合并技术的分类，描述了包括权重级、输出级和模型级方法在内的层次级别，适用于大型语言模型权重级模型合并:权重级合并直接操作参数空间，使其对具有架构相似性或在相关任务上训练的模型特别有效。形式上，给定参数集

\theta_1,\theta_2,\dots,\theta_n\in\mathbb{R}^d

，一个线性合并方案将这些聚合到一个统一的集合

\theta'

，如下所示：

\theta>[katex]\theta'=\alpha_1\theta_1+\alpha_2\theta_2+\dots+\alpha_n\theta_n,\quad\text{subject to}\ \alpha_k\ge0,\ \sum_{k=1}^{n}\alpha_k=1.

Model Soup 通过线性组合来自在不同任务上微调的模型的权重来例证这一点，从而产生一个单一且高效的模型。任务算术 (Task Arithmetic, TA) 通过对参数进行算术运算来扩展这种灵活性，从而增强性能适应性。为了减轻对齐问题，TIES-merging 确保参数一致性，而 DARE 通过概率性地调整参数增量来最小化干扰，从而优化合并过程以实现一致性和效率。

输出级模型合并:当模型在架构或初始化方面出现分歧时，输出级合并变得具有优势，这使得权重级方法变得不切实际。这种方法聚合输出分布，而不是内部参数，公式如下：

y>[katex]y'=\alpha,y_1+(1-\alpha),y_2,\quad\alpha\in[0,1],

其中

y_1

和

y_2

分别表示来自模型

M_1

和

M_2

的概率分布。类似于集成策略，该方法将模型预测合成为一个统一的输出。LLMBlender 通过生成独立输出并通过排名和生成过程融合它们来实现这一点，而 FuseLLM 将组合输出概率提炼到单个网络中以实现分布保真度。FuseChat 通过将知识从多个 LLM 转移到整合的目标中，桥接权重和输出级别的合并，增强跨模型协同作用。

模型级模型合并:模型级合并通过路由机制整合子模型或层，通常在混合专家 (MoE) 框架内进行，表示为：

M>[katex]M'=\text{Merge}(M_1,M_2),

其中

\text{Merge}

表示硬或软路由函数。 Switch Transformer 采用离散门控选择性地激活专家层，减少计算负载，尽管由于刚性路由可能存在性能权衡。 SoftMoE 和 SMEAR 利用连续门控来促进专家之间的更平滑过渡，增强组件集成和模型内聚力。

预合并方法

预合并方法通过优化独立模型的权重空间、架构一致性和参数对齐，为模型合并奠定兼容性基础，从而最大限度地减少后续融合阶段的冲突和干扰。这些技术提高了合并过程的效率，确保生成的统一模型保留其组成部分的优势，同时减轻潜在的退化。

线性化微调：这种方法在预训练模型的切线空间内优化模型，避免原始的非线性参数空间以实现权重解耦，从而减少合并期间的干扰。部分线性化适配器（例如，TAFT）或注意力层等技术将权重更新与不相交的输入区域对齐，保留合并模型中的独立功能。通过将更新限制在线性化框架中，这种方法促进了跨不同模型的无缝集成。
架构转换：此策略将具有不同架构的异构模型转换为适合直接参数合并的同构形式。方法包括知识蒸馏，如 FuseChat 所示，以及身份层插入，如 CLAFusion 所示。 GAN Cocktail 初始化目标模型以吸收来自不同架构的输出，从而实现统一的合并过程，有效地弥合结构差异。
权重对齐：这种方法通过排列将模型对齐到共享的权重池中，利用线性模式连接 (LMC) 属性来增强兼容性。技术包括最优传输 (OTFusion)，启发式匹配 (Git re-basin) 和基于学习的对齐 (Deep-Align)。 REPAIR 减轻了缺乏标准化层的模型中的对齐失败，确保在融合之前进行稳健的参数收敛。

融合期间的方法

融合期间的方法侧重于动态优化参数融合策略，以解决任务冲突，减轻干扰，并提高所得合并模型的性能和泛化能力。这些方法解决了实时整合不同模型的挑战，增强了统一架构的适应性和稳健性。

基本合并(Basic Merging):这种方法利用直接的参数平均或任务向量算术，将任务向量 $\tau_t$ 定义为微调参数 $\Theta^{(t)}$ 与第 $t$ 个任务的初始预训练参数 $\Theta^{(0)}$ 之间的偏差：

\tau_t>[katex]\tau_t=\Theta^{(t)}-\Theta^{(0)},

并且通过公式

\Theta^{(\text{merge})}=\Theta^{(0)}+\lambda\sum_{t=1}^{T}\tau_t

促进多任务学习。虽然计算效率高且概念优雅，但这种方法经常会遇到由于未经缓解的参数交互而产生的任务干扰，从而限制了其在需要复杂任务协调的场景中的实用性。
加权合并(Weighted Merging):这种策略根据各个模型的重要性动态分配合并系数，定制贡献以优化融合结果。 MetaGPT 通过对每个任务向量的平方 L2 范数进行归一化来计算最佳权重：

\lambda_t^*>[katex]\lambda_t^*=\frac{|\tau_t|2}{\sum{k=1}^{T}|\tau_k|_2},

从而将更大的影响分配给具有更实质性参数变化的任务，如较高的

|\tau_t|_2

所示。SLERP 采用球面插值来确保平滑的参数转换，保持模型连续性，而逐层 AdaMerging 通过优化每层粒度的系数来完善此过程，增强了合并架构中特定于任务的精度。
子空间合并(Subspace Merging):这种方法将模型参数投影到稀疏子空间中，以最大限度地减少干扰，同时保持计算效率，解决参数贡献的重叠问题。TIES-Merging 保留幅度最大的前 20% 的参数，解决符号冲突以保持一致性，DARE 缩放稀疏权重以减少冗余，而 Concrete 利用双层优化来构建自适应掩码，确保模型组件的精细集成，减少跨任务的干扰。
基于路由的合并(Routing-based Merging):该技术根据特定于输入属性动态融合模型，实现上下文响应式集成过程。SMEAR 计算依赖于样本的专家权重以优先考虑相关特征，Weight-Ensembling MoE 采用输入驱动的线性层路由进行选择性激活，而 Twin-Merging 融合任务共享和任务私有知识，从而建立一个灵活的合并框架，该框架适应不同的输入需求并增强多任务鲁棒性。
后校准(Post-calibration):该技术通过将统一模型的隐藏表示与独立组成部分的隐藏表示对齐来纠正合并后的表示偏差，从而减轻性能下降。表示手术通过改进表示一致性来例证这一点，从而增强了合并模型的鲁棒性和准确性。

数据集

经过精心设计后训练技术，以改进 LLM 对专业领域或任务的适应性，利用数据集作为此优化过程的基石。对先前研究进行整理，强调数据的质量、多样性和相关性深刻地影响模型的效果，通常决定了后训练工作的成功。为了阐明数据集在此背景下的关键作用，我们对后训练阶段中使用的数据集进行了全面的回顾和深入分析，根据其收集方法将其分为三种主要类型：人工标注数据、蒸馏数据和合成数据。这些类别反映了不同的数据管理策略，模型采用单一方法或混合方法，整合多种类型以平衡可扩展性、成本和性能。下表提供了这些数据集类型的详细概述，包括它们的来源、大小、语言、任务和后训练阶段（例如，SFT 和 RLHF），我们将在后续部分中探讨这些内容，以突出它们在推进 LLM 功能方面的贡献和挑战。

大型语言模型（2021-2025）的后训练中使用的数据集摘要。本表概述了关键数据集，详细说明了它们的大小、来源、发布时间线以及在三个指标上的属性：Lang（语言：EN 代表英语，CN 代表中文，ML 代表多语言），Task（类型：MT 代表多任务，TS 代表单任务），以及 Phase（用法：SFT 代表监督微调，RLHF 代表从人类反馈中进行强化学习）。数据集涵盖范围从 OpenAI Summarization 到 Magpie Reasoning V2，按人类标注、蒸馏和合成类型进行分类

人类标注数据集

人类标注数据集以其卓越的准确性和上下文保真度而著称，这些属性源于标注者对任务的细致理解以及他们进行精确、上下文敏感调整的能力。这些数据集是改进指令微调的基石，通过提供高质量、专家策划的训练信号，显著提升了 LLM 在各种任务中的表现。在这一类别中，杰出代表如 Flan、P3（Public Pool of Prompts）、Sup-NatInst（Super-Natural Instructions）和 Dolly-15K 脱颖而出，成为 LLM 后训练中广泛采用的资源，它们各自通过人类专业知识为模型能力的优化贡献了独特优势。

Flan: Flan 数据集是一项基础性资源，最初包含 62 个广受认可的 NLP 评测基准——如 HellaSwag、MRPC 和 ANLI——凭借其 180 万个样本，为英语环境下的稳健多任务学习提供支持。近期，Flan-v2 作为更先进的迭代版本出现，通过融合 Flan、P3、SUP-NATINST 及其他数据组件，大幅扩展了其在多种语言和任务领域进行监督微调（SFT）的实用性。
Sup-Natinst: Super-Natural Instructions (Sup-Natinst)提供了涵盖 55 种语言的 76 种任务类型的广泛而多样的数组，从而确立了其作为多语言 LLM 后训练的多功能资源。每个任务都经过精心配对，并附带一条指令，其中包括一个清晰的任务定义——概述从输入文本到所需输出的映射——以及一组例子，这些例子说明了正确和不正确的反应，为指导模型进行精确的任务执行和增强跨语言适应性提供了强大的框架。
Dolly-15k:由 Databricks 员工开发的 Dolly-15K 代表了精心策划的 15,000 个高质量、人类生成的提示-响应对，专为 LLM 的指令微调而设计。涵盖了广泛的主题和场景——包括头脑风暴、内容生成、信息提取、开放式问答和摘要——这个数据集反映了任务类型的丰富多样性，使模型能够灵活地适应各种指令环境，并增强上下文相关性。

人工标注数据集在 SFT 中的效力源于它们对任务和场景的广泛覆盖，上述语料库就体现了这一特征。作为补充，OpenAssistant 提供了大量的多语言对话语料库，这些语料库源于全球众包工作，可免费用于推进研究，而 OpenOrca 使用数百万个 GPT-3.5 和 GPT-4 的完成结果扩展了 FlanV2 ，构成了用于微调和任务对齐的动态、不断扩大的资源。然而，尽管它们对模型泛化做出了重大贡献，但确保一致的标注质量和多样性的挑战依然存在，因此需要严格的质量控制以最大限度地发挥其影响。

用于 RLHF 的人工标注数据: 对于 RLHF，P3 及其多语言扩展 xP3 和 SHP 等人工标注数据集提供了必要的、经过人工注释的评估，可以完善 LLM 与用户偏好的对齐，为奖励建模提供细致的反馈机制。

P3:P3 数据集是一个精心策划的指令调优资源，聚合了来自 Hugging Face Hub 的 2300 万个多任务提示，每个提示都附有人工设计的指令，以涵盖各种 NLP 任务，从而为 RLHF 提供了丰富的资源，以增强 LLM 在各种应用中的适应性和精确性。
xP3: xP3 (Crosslingual Public Pool of Prompts) [463] 将 P3 扩展成一个多语言框架，涵盖 46 种语言和 16 个 NLP 任务的提示和监督数据，旨在支持像 BLOOMZ 和 mT0 这样的模型的多任务提示微调。它的内容集成了英语 P3 数据集、四个新的英语任务（例如，翻译、程序合成）和 30 个多语言 NLP 数据集，为跨语言 RLHF 优化提供了全面的资源。
SHP: SHP 包含 349,000 个人类偏好标注，用于回答 18 个主题领域的提问和指令，评估响应的有用性以训练 RLHF 奖励模型并评估自然语言生成 (NLG) 质量，其特点是完全依赖于人工编写的数据，使其与 HH-RLHF 等混合数据集区分开来。

这些数据集通过提供多样的人工标注评估来增强 RLHF，从而完善模型与用户偏好的对齐。 OpenAI Summarization 和 Webgpt 提供了基于比较的结构化反馈和李克特量表评级，这有助于将模型输出与人类期望更紧密地对齐。 HH-RLHF 通过包含对有用性和无害性的评估来进一步加强该框架，为旨在确保安全和合乎道德的响应的模型奠定了坚实的基础。同时，StackExchange 贡献了特定领域的、用户生成的内容，丰富了训练数据，尤其是有利于需要在技术领域具有专业知识的模型。但是，这些数据集遇到挑战，例如可伸缩性，人类注释中的潜在偏见以及超出其特定领域的适用性。因此，虽然它们很有价值，但这些资源可能需要补充更广泛的数据集，以在各种现实世界任务中实现全面的模型对齐。

蒸馏数据集

蒸馏数据源于将体量庞大的原始数据集精炼为紧凑、优化子集的复杂过程，这些子集仍能保留 LLM 训练所需的关键信息，在维持性能的同时提升训练效率并降低算力需求。由此得到的数据集往往可与未蒸馏的原始集媲美甚至更胜一筹，能够加速模型收敛、减少资源消耗，尤其在 RLHF 阶段效果显著。典型示例 ShareGPT 与 HC3（Human–ChatGPT Comparison Corpus）通过提供真实交互与对比标注，为 RLHF 微调 LLM 提供了高质量资源，被广泛使用。

ShareGPT：ShareGPT 是一个动态数据收集平台，通过其 API 聚合了约 9 万条用户与 ChatGPT 或 GPT-4 的真实对话。该数据集包含真实人类指令与对应 AI 回复，将自然对话模式浓缩为高质量语料，使 RLHF 能在高相关、高质量的基础上提升 LLM 的对话流畅度与上下文响应能力。
HC3：HC3 数据集旨在并排呈现 ChatGPT 生成回复与人类撰写答案，涵盖开放域、金融、医学、法律、心理等学科的 16.1 万对问答。这一精炼语料便于比较两种回复的特征与质量，帮助研究者在 RLHF 过程中增强 LLM 输出的真实性与领域精度，同时凸显人类与 AI 内容的差异。

合成数据集

合成数据在 LLM 训练后的 SFT 阶段被视为变革性资产，由 AI 模型自动生成，可替代人工标注语料，兼具成本低廉、规模易扩、隐私友好等优势。通过自动化地生成“指令–回复”对与多轮对话，合成数据能快速构建海量训练集，提升模型适应性；其中 Self-Instruct-52K、Vicuna 与 Baize 等已成为增强 LLM 指令遵循与对话生成能力的经典资源。
基于 Self-Instruct 方法的数据集
此类数据集仅以少量手工种子示例起步，利用 LLM 自生成大规模指令遵循数据，从而强化模型对各种指令的响应能力。代表包括 Self-Instruct-52K、Alpaca 及 Magpie 系列，它们通过可扩展的自动化流程共同推动指令微调。

Self-Instruct-52K：建立指令遵循模型的基准，借助多样化提示模板从 175 条手工种子扩展出 5.2 万示例，提升 LLM 精准、一致地执行具体任务指令的能力。
Alpaca：Alpaca 与 Alpaca-GPT4 分别用 GPT-3 与 GPT-4 将 175 条种子对扩展为 5.2 万高质量“指令–回复”对，增强指令遵循；InstInWild 则针对多语言场景生成英/中双语数据，强化跨语言适应性。
Magpie 数据集：利用已对齐的 LLM 按模板生成“指令–回复”对，形成多个专用子集：Magpie-Reasoning V2（重链式思考）、Magpie-Llama-3 / Qwen-2 系列（针对热门模型定制）、Magpie-Gemma-2（适配 Gemma 架构）及 Magpie-Air-DPO（融入偏好信号），共同提升对话与推理任务的 SFT 与指令微调效果。
此外，Unnatural Instructions（24 万示例）、Evol-Instruct（经迭代复杂度增强得 7–14.3 万条）与 Belle（来自 ChatGPT 的 50–110 万条中文对话）等大幅扩充了指令数据，但在质量筛选、复杂度校准与偏见缓解方面仍面临挑战，需要持续改进以保证复杂场景下的可靠性。

基于 Self-Chat 方法的数据集：Self-Chat 让模型在内部或与“同伴”模拟多轮对话，弥补现有语料在对话深度上的不足，提升生成能力。Baize、UltraChat 与 OpenHermes 等通过自动化交互策略体现这一思路。

Baize：借助 ChatGPT 的 Self-Chat 技术，融合 Quora、Stack Overflow 与 Alpaca 种子，生成 65.3 万条多轮对话，丰富指令质量，改进 LLM 在 SFT 中的对话连贯性与任务遵从度。
UltraChat：通过多 API 并行调用 ChatGPT，生成逾 1200 万条覆盖广泛主题的高质量多轮记录，克服传统多轮数据集质量差、标注不准等问题，为对话增强提供坚实 SFT 资源。
OpenHermes：由 Teknium 发布，含 OpenHermes-1（24.3 万条）与扩展版 OpenHermes-2.5（100 万条），主题与任务类型丰富，进一步提升对话与指令遵循能力。
这些数据集通过模型“自我交谈”构建多轮场景，显著改善对话质量，填补训练语料的关键空白。

基于真实用户交互的数据集：利用真实用户与模型的对话，捕获多样且贴近现实的输入，提升模型解决真实场景的能力。Vicuna、WildChat 与 GenQA 为典型代表。

Vicuna：从 ShareGPT 公开 API 获取约 7 万段用户分享对话，经 HTML→Markdown 转换、低质样本过滤与长对话截断，保证 SFT 数据质量，用于真实交互建模。
WildChat：包含 100 万条多语言、跨提示类型的真实用户-ChatGPT 交互，涵盖歧义请求、语码转换等独特现象，既可用于 SFT，也可作为用户行为分析工具。
GenQA：提供逾 1000 万条经清洗过滤的指令样本，完全由 LLM 生成，无需人工或复杂流程，可快速补位现有语料，解决覆盖缺口。
相较人工标注，合成数据在成本、规模与隐私上优势明显，但深度与真实性可能不足，存在放大模型偏差或过度简化的风险。过度依赖 AI 生成内容会将固有错误固化，因此必须将合成数据与人工数据相结合，以全面提升 LLM 的鲁棒性与场景适用性。

应用

尽管预训练赋予了强大的基础能力，但大型语言模型 (LLM) 在部署到专业领域时经常会遇到持续的限制，包括受限的上下文长度、产生幻觉的倾向、次优的推理能力以及根深蒂固的偏见。这些缺点在精确性、可靠性和伦理一致性至关重要的现实世界应用中具有关键意义。这些挑战促使了根本性的探究：

(1) 如何系统地增强大语言模型（LLM）的性能以满足特定领域的需要？
(2) 什么策略能有效地缓解应用场景中固有的实际障碍？训练后处理（Post-training）成为一个关键的解决方案，通过完善 LLM 对特定领域术语和推理模式的识别来增强其适应性，同时保留其广泛的能力。

本章阐述了经过后训练的 LLM 在专业、技术和交互领域的变革性应用，阐明了定制的后训练方法如何解决这些挑战并提高模型在不同环境下的实用性。

专业领域

法律助手:法律领域是利用后训练为 LLM 注入专业知识的典型场景，使其能够驾驭错综复杂的法律知识并应对法学中的多重挑战。相关研究已涵盖法律问答、判决预测、文档摘要以及检索增强与司法推理等任务。经过后训练的法律助手（如 LawGPT、Lawyer-LLaMA）不仅在各类法律事务中提供可靠指引，还在专业资格考试中取得佳绩，展现出卓越的解读与分析能力。LexiLaw 与 SAUL 等多语言模型进一步将实用性拓展至中英等语种，扩大可及性。核心在于以精心整理的法律语料（如 ChatLaw）进行后训练，将大量法律文本整合进对话数据集，使模型得以完善推理与术语识别能力。
医疗保健与医学:后训练借助领域专属数据，显著提升 LLM 在临床与学术场景中的表现。临床方面涵盖药物发现、药物协同预测、催化剂设计、诊断支持、病历生成与患者互动；学术方面则包括医学报告合成与问答。ChatMed 基于 50 万条医疗咨询记录训练，诊断与咨询准确性增强；PULSE 使用 400 万条涵盖中文医疗与一般领域指令进行微调，多任务处理能力突出。通过嵌入细粒度医学知识的后训练调整，这些模型全面超越通用版本，彰显定制数据集对实际应用的不可或缺性，也为 LLM 融入医疗工作流奠定基础。
金融与经济学:在金融与经济学领域，LLM 已在情感分析、信息抽取与问答等任务中展现巨大潜力，后训练则通过领域专属改进放大其效能。FinGPT 与 DISC-FinLLM 等专用模型经金融语料后训练后，在需要细致理解市场动态与术语的任务中表现优异。XuanYuan 借助大规模金融数据集与先进后训练技术，提高经济建模与预测准确性，全面超越未调基准。这些进展说明后训练在使 LLM 适应金融应用复杂需求中的关键作用，确保模型在解读定量与定性洞察时提供可靠、符合行业标准的输出。
MobileAgent:大型多模态模型（LMM）的演进催生了基于 LMM 的 GUI 代理这一新兴研究领域，旨在开发可跨 Web 界面、个人计算平台与移动设备等多种 GUI 环境执行任务的 AI 助手。在移动场景下，研究通过工具集成与额外探索阶段增强单个代理的感知与推理能力；近期更采用多代理系统进行决策与反思，显著提升任务效率。MobileAgent-E 引入代理间层级结构，促进长期规划并提高低级动作精度。这些发展凸显了多模态后训练策略在培育适用于复杂移动环境的自适应、高效代理中的变革性作用。

技术和逻辑推理

数学推理：大语言模型在代数运算、微积分与统计分析等数学推理任务上展现出巨大潜力，而后训练对于弥合“会算”与“人级熟练”之间的鸿沟尤为关键。GPT-4 在标准化数学测评中取得高分，得益于其多样化的预训练语料；进一步的 SFT 与组相对策略优化（GRPO）等后训练手段可继续提升推理精度。DeepSeekMath利用专门数学数据集与 GRPO，配合结构化思维链（CoT）处理复杂问题。OpenAI 的 o1 则通过强化学习迭代优化推理策略，在多步推导与证明中实现卓越性能，使模型输出与严谨数学逻辑对齐，成为教育与科研领域的得力工具。
代码生成：后训练彻底革新了代码生成，使大语言模型在自动编码、调试与文档编写方面表现优异，显著改变软件开发流程。Codex 在庞大且多样的代码库上训练，为 GitHub Copilot 提供实时、高准确度的编码辅助；Code Llama 等专用模型则借助编程领域专属数据集的后训练，跨语言、跨框架地帮助开发者。o1 进一步把数学推理能力延伸至代码生成，产出高质量、上下文感知的代码片段，媲美人类水平。当前研究持续聚焦个性化增强、上下文深度理解与伦理保障嵌入，以防范代码滥用等风险，确保 LLM 在提升生产力的同时恪守负责任开发原则。

理解和交互

推荐系统：大语言模型已成为推荐系统的变革性引擎，能够分析用户交互、商品描述与评论，提供前所未有的细粒度个性化建议。后训练进一步增强了模型整合情感分析的能力，使其对内容与情感内涵的理解更为细致，这一点在 GPT-4、LLaRA 与 AgentRec 等专业系统中均已得到验证。亚马逊、淘宝等电商巨头利用这些能力处理评论情感、搜索查询与购买历史，从而完善用户偏好模型并高保真地预测兴趣。除商品排序外，经后训练的 LLM 还可进行对话式推荐、规划与内容生成，通过动态、上下文相关的交互提升用户体验，充分证明了后训练在连接数据分析与实际效用之间的桥梁作用。
语音对话：经后训练的 LLM 重新定义了语音处理，将识别、合成与翻译提升至前所未有的自然度与准确度。这些模型可完成文本到语音、文本到音频生成与语音识别等任务，为 Alexa、Siri 与天猫精灵等无处不在的工具提供支持。Whisper 以高保真转录为例，GPT-4o 则引入实时语音交互，无缝融合多模态输入。未来方向包括多语言翻译与个性化语音合成，后训练将进一步打磨 LLM，以打破语言障碍并依据个人用户画像定制回复，从而提升全球范围内人机交互的可及性与参与度。
视频理解：将 LLM 扩展至视频理解领域标志着一个重要前沿，后训练使 Video-LLaMA 等模型能够执行字幕生成、摘要与内容分析，从而简化多媒体创作与理解。Sora 通过文本提示生成复杂视频，进一步革新该领域，降低技术门槛并促进创新叙事，使内容制作大众化。这些进展依托后训练让 LLM 适应视觉-时序数据，提升其在教育到娱乐等应用中的解释深度与实用性。然而，它们在计算可扩展性、隐私保护与伦理治理方面亦带来挑战，尤其是生成错误内容的风险。随着后训练方法的演进，解决这些问题将成为当务之急，以确保视频相关应用可持续、负责任的部署，在创新与社会考量之间取得平衡。

未解决的问题和未来的发展方向

在本节中，我们批判性地评估了用于大型语言模型（LLM）的后训练方法中未解决的挑战和未来发展方向，并将我们的分析置于OpenAI的o1和DeepSeek-R1发布所预示的变革性进步之中。这些模型利用大规模强化学习（RL），重新定义了推理基准，但它们的出现也突显了解决后训练技术中持续存在的局限性的紧迫性。以下各小节阐述了七个关键的未解决问题，每个问题都强调了其对该领域进展的关键重要性以及解决这些问题的迫切需要，并提出了可行的策略，以推动未来的研究，并确保LLM在不同应用中的负责任发展。

超越大规模RL的推理增强：o1和DeepSeek-R1的引入标志着LLM推理能力的范式转变，利用了广泛的RL框架（如RLHF和组相对策略优化GRPO），在数学证明和逻辑推导等多步问题解决中实现了前所未有的准确性。然而，对二元奖励信号和大量人工反馈的依赖暴露了一个关键局限：它们无法在科学假设生成或动态环境中的战略决策等复杂、开放式任务中有效泛化。这种差距迫在眉睫，因为LLM在现实世界环境中模拟类人推理的需求不断增长，其重要性在于释放它们作为超越当前基准的自主智能体的潜力。当前的RL方法难以处理奖励稀疏性，并且缺乏对任务复杂性的适应性，这需要创新的框架。可行的解决方案包括开发多目标RL系统，整合自我监督的一致性检查（例如验证推理步骤之间的逻辑连贯性）和特定领域的先验知识（如数学公理或科学原理），以在没有详尽人工标注的情况下指导推理。这种进步可以减少对代价高昂的反馈循环的依赖，提高可扩展性，并使LLM能够应对未知的推理领域，DeepSeek-R1的冷启动RL创新使这种前景成为可能。
下一代LLM的后训练可扩展性：随着LLM的规模和复杂性不断升级，这在下一代模型的参数密集型架构中得到了体现，后训练的可扩展性成为一个令人畏惧且紧迫的挑战。基于RL的方法（如DeepSeek-R1的冷启动方法）的资源密集型特性需要大量的计算基础设施，这限制了对资金充足的实体的访问，并引发了重大的可持续性问题，尤其是在多模态应用（如视频分析）和实时系统（如对话代理）中。这个问题至关重要，因为它有可能扩大资源丰富和资源受限的研究社区之间的差距，从而阻碍LLM发展的公平进展。虽然参数高效微调（PEFT）减轻了一些开销，但其性能通常会在大规模数据集上下降，这突显了对可扩展替代方案的需求。可行的未来方向包括设计轻量级RL算法（可能调整GRPO以减少内存占用）、联邦后训练框架（将计算负载分布在去中心化网络上），以及先进的蒸馏技术（在最大限度地减少资源需求的同时保留推理和适应性）。如果这些解决方案得以实现，可能会使后训练民主化，这与该领域对可持续和包容性创新的迫切需求相一致。
基于RL驱动的模型的伦理对齐和偏差缓解：如o1的谨慎对齐策略所示，通过RL进行后训练会放大伦理风险，因为它可能会强化嵌入在训练数据集（如HH-RLHF或合成语料库）中的偏差，鉴于LLM在医疗保健诊断和司法决策等敏感领域中的部署，这是一个至关重要的紧迫挑战。伦理对齐的动态可变性（其中在一个文化背景下的公平可能在另一个文化背景下构成偏差）对实现普遍值得信赖的LLM构成了重大障碍，这使得这个问题对于确保公平和安全的AI系统至关重要。当前方法存在过度审查的风险（从而损害实用性，如扼杀创意输出）或纠正不足（从而延续有害的偏见，如种族或性别差异）。解决这个问题需要开发公平感知RL目标，纳入多方利益相关者偏好模型（如聚合多样化的人类判断）和对抗性去偏见技术，以在中训练期间消除数据集偏差。这些方法的可行性得到了可解释性工具和多目标优化的最新进展的支持，从而能够在伦理稳健性和实用功能之间实现平衡的权衡，o1的实际部署挑战突显了这一必要性。
用于整体推理的无缝多模态集成：由o1的推理增强和GPT-4o的合成能力预示的多模态LLM发展轨迹，强调了对后训练方法的迫切需求，这些方法可以无缝集成文本、图像、音频和其他数据类型，从而实现整体推理——这是对实时视频分析、增强现实和跨模态科学研究等应用至关重要的能力。由于数据异质性和全面的多模态训练语料库的稀缺性，当前方法在实现稳健的跨模态对齐方面步履维艰，这限制了LLM在不同输入之间进行连贯推理的能力。这一挑战的重要性在于其释放变革性应用的潜力，然而，如果没有可扩展的框架，其解决方案仍然难以捉摸。DeepSeek-R1的冷启动RL提供了一个有希望的起点，这表明统一的模态编码器（能够将异构数据编码到共享的潜在空间中）和动态RL策略（可以自适应地权衡模态贡献）从而弥合这一差距。未来研究应优先考虑创建多模态基准和合成数据集，在Magpie等工作的基础上推动进展，鉴于多模态预训练和RL优化的最新进展，这是一项可行的工作。
上下文自适应可信度框架：后训练LLM中的可信度越来越被认为是动态的、上下文相关的属性，而不是静态的质量，o1在教育等敏感领域谨慎输出，而在创意任务中更自由的响应就证明了这一点。这种可变性（其中安全要求[如避免在教育环境中传播虚假信息]可能与效用需求[如在写作中培养创造力相冲突])提出了一个紧迫的挑战，因为它对用户信任和LLM在不同现实世界场景中的适用性至关重要。当前的后训练方法通常过分优先考虑安全性（从而产生降低实际价值的效用权衡）或者未能适应特定于上下文的需求（从而损害可靠性）。解决这个问题需要上下文相关的RL模型，这些模型可以动态调整安全性和效用之间的权衡，利用实时用户反馈和可解释的安全指标（如生成输出的透明度分数）来确保适应性。这种方法的可行性得到了自适应学习系统和实时监控的进步的支持，为平衡可信度与功能性提供了一条途径，随着o1等LLM扩展到高风险应用，这是一个迫切的需求。
后训练创新的可访问性和民主化：先进的后训练方法（以DeepSeek-R1的RL驱动方法为代表）的计算强度限制了它们的应用于资源丰富的实体，这给可访问性带来了迫近的障碍，扼杀了较小研究社区和行业部门的创新（即对于促进人工智能领域公平进步至关重要的问题）。这种排他性不仅限制了贡献的多样性，而且阻碍了该领域协作应对全球挑战的能力。将这些创新普及化需要开发高效、开源的工具和框架，这些工具和框架可以在不损害质量的前提下降低准入门槛，通过可扩展的PEFT适应RL、用于共享后训练模型的协作平台（如Hugging Face hubs）以及类似于Magpie的精简合成数据生成流程来实现这一目标。未来的努力应侧重于优化这些解决方案，以实现广泛应用，确保以o1和DeepSeek-R1为代表的后训练的变革潜力延伸到精英机构之外，以丰富更广泛的人工智能生态系统。
创造性智能与系统2思维：将创造性智能融入系统2推理是LLM发展中的一个新兴前沿。虽然像OpenAI的o1和DeepSeek的R1这样的推理LLM在深思熟虑的、循序渐进的逻辑分析（模仿系统2思维）方面表现出色，但它们在创造性智能方面的能力（包括生成新想法、综合不同的概念以及灵活地适应非结构化问题）仍有待探索。这一差距至关重要，因为创造性智能是人类在艺术创作、科学发现和战略创新等领域的类人问题解决的基础，而仅仅依靠僵化的逻辑框架是不够的。这一挑战的紧迫性在于它有可能将LLM从分析工具提升为自主的创造性主体，这是迈向通用人工智能（AGI）的变革性飞跃。在下文中，我们概述了这一开放性问题，并提出了未来的方向，借鉴了该调查的见解。

结论

本文提供了对后训练语言模型（PoLM）的首次详尽调查，系统地追溯了它们从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的轨迹，并肯定了它们对推理精度、领域适应性和伦理完整性的变革性影响。我们评估了广泛的技术（即，微调、对齐、推理、效率以及集成和适应），综合了它们在专业、技术和交互领域（从法律分析到多模态理解）的贡献。我们的分析强调，PoLM显着提升了LLM的能力，从最初的对齐创新发展到复杂的推理框架；尽管如此，它揭示了持续的挑战，包括偏见持续存在、计算可扩展性和上下文可变伦理对齐。这些发现被封装在一个新的分类法中，强调了采用整合方法的必要性，将推理进展与效率和伦理要求相结合。我们得出结论，持续的跨学科合作、严格的方法评估以及自适应、可扩展框架的开发对于将LLM的潜力实现为在各种应用中可靠、负责任的工具至关重要。作为同类研究的先驱性综述，这项工作整合了近年来 PoLMs 的进展，并奠定了坚实的学术基础，激励未来的研究培养 LLM，使其能够巧妙地整合精确性、伦理稳健性和多功能性，以满足科学和社会背景下不断变化的需求。