-
Notifications
You must be signed in to change notification settings - Fork 305
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
[Docs] DPO and Reward Model documents (#751)
* rebase main * refine link * refine link * resolve comments * resolve comments
- Loading branch information
Showing
10 changed files
with
521 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,83 @@ | ||
## 修改 DPO 训练配置 | ||
|
||
本章节仅介绍与 DPO(Direct Preference Optimization)训练相关的配置参数,更多 XTuner 配置文件的细节,请参考[修改训练配置](https://xtuner.readthedocs.io/zh-cn/latest/training/modify_settings.html) | ||
|
||
### 损失函数 | ||
|
||
在 DPO 训练中,你可以根据需求选择不同的损失函数类型。XTuner 提供了多种损失函数选项,如 `sigmoid`、`hinge`、`ipo` 等。可以通过设置 `dpo_loss_type` 参数来选择使用的损失函数类型。 | ||
|
||
此外,你还可以通过调整 `loss_beta` 参数来控制损失函数中的温度系数。同时,`label_smoothing` 参数可以用于平滑标签。 | ||
|
||
```python | ||
####################################################################### | ||
# PART 1 Settings # | ||
####################################################################### | ||
# Model | ||
dpo_loss_type = 'sigmoid' # One of ['sigmoid', 'hinge', 'ipo', 'kto_pair', 'sppo_hard', 'nca_pair', 'robust'] | ||
loss_beta = 0.1 | ||
label_smoothing = 0.0 | ||
``` | ||
|
||
### 修改模型 | ||
|
||
用户可以修改 `pretrained_model_name_or_path` 对预训练模型进行修改。 | ||
|
||
```python | ||
####################################################################### | ||
# PART 1 Settings # | ||
####################################################################### | ||
# Model | ||
pretrained_model_name_or_path = 'internlm/internlm2-chat-1_8b-sft' | ||
``` | ||
|
||
### 训练数据 | ||
|
||
在 Reward Model 训练中,你可以通过 `max_length` 来指定单个样本序列的最大 token 数,XTuner 会自动对数据进行截断或是填充。 | ||
|
||
```python | ||
# Data | ||
max_length = 2048 | ||
``` | ||
|
||
在配置文件中,我们通过 `train_dataset` 字段来指定训练数据集,你可以通过 `dataset` 字段指定数据集的加载方式,通过 `dataset_map_fn` 字段指定数据集的映射函数。 | ||
|
||
```python | ||
####################################################################### | ||
# PART 3 Dataset & Dataloader # | ||
####################################################################### | ||
sampler = SequenceParallelSampler \ | ||
if sequence_parallel_size > 1 else DefaultSampler | ||
|
||
train_dataset = dict( | ||
type=build_preference_dataset, | ||
dataset=dict(type=load_dataset, path='mlabonne/orpo-dpo-mix-40k'), | ||
tokenizer=tokenizer, | ||
max_length=max_length, | ||
dataset_map_fn=orpo_dpo_mix_40k_map_fn, | ||
is_dpo=True, | ||
is_reward=False, | ||
reward_token_id=-1, | ||
num_proc=32, | ||
use_varlen_attn=use_varlen_attn, | ||
max_packed_length=max_packed_length, | ||
shuffle_before_pack=True, | ||
) | ||
|
||
train_dataloader = dict( | ||
batch_size=batch_size, | ||
num_workers=dataloader_num_workers, | ||
dataset=train_dataset, | ||
sampler=dict(type=sampler, shuffle=True), | ||
collate_fn=dict( | ||
type=preference_collate_fn, use_varlen_attn=use_varlen_attn)) | ||
``` | ||
|
||
上述配置中,我们使用了 `load_dataset` 来加载 huggingface 上的 `mlabonne/orpo-dpo-mix-40k` 数据集,使用 `orpo_dpo_mix_40k_map_fn` 作为数据集映射函数。 | ||
|
||
关于如何处理数据集以及如何编写数据集映射函数,请参考[偏好数据集章节](../reward_model/preference_data.md)。 | ||
|
||
### 加速训练 | ||
|
||
在使用偏好数据训练时,我们推荐您开启[变长注意力机制](https://xtuner.readthedocs.io/zh-cn/latest/acceleration/varlen_flash_attn.html), 以避免单个偏好内的 chosen 和 rejected 的样本长度差异造成的显存浪费。你可以通过 `use_varlen_attn=True` 来开启变长注意力机制。 | ||
|
||
XTuner 中还支持了大量的训练加速方法,关于它们的使用方法,请参考[加速策略章节](https://xtuner.readthedocs.io/zh-cn/latest/acceleration/hyper_parameters.html)。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,25 @@ | ||
## DPO 介绍 | ||
|
||
### 简介 | ||
|
||
DPO(Direct Preference Optimization,直接偏好优化)是一种在大语言模型训练中用于直接优化模型偏好的方法。与传统的强化学习方法不同,DPO 直接使用人类偏好数据进行模型优化,从而提高生成内容的质量,使其更符合人类偏好。DPO 利用人类偏好数据,直接对模型进行优化,省略了训练 Reward Model 的训练过程,与 PPO 相比进一步省去了 Critic Model,不但避免了复杂的强化学习算法,减少了训练开销,同时还提高了训练效率。 | ||
|
||
DPO 拥有大量的衍生算法,它们对 DPO 的损失函数进行了一定程度上的改进,我们在 XTuner 中除了 DPO 还实现了[Identity Preference Optimisation (IPO)](https://huggingface.co/papers/2310.12036),[Kahneman-Tversky Optimisation (KTO)](https://github.com/ContextualAI/HALOs)等论文中的损失函数,如需使用这些算法,请参考[修改 DPO 配置](./modify_settings.md)章节。我们也提供了一些[示例配置](https://github.com/InternLM/xtuner/tree/main/xtuner/configs/dpo)用于参考。 | ||
|
||
除了 DPO 之外,还出现了如 [ORPO](https://arxiv.org/abs/2403.07691) 等无需参考模型的对齐算法。ORPO 采用了对数比值(odds ratio)的概念来优化模型,通过在模型训练过程中惩罚那些被拒绝的样本,从而更有效地适应被选择的样本。ORPO 消除了对参考模型的依赖,使得训练过程更加简化且高效。XTuner 中 ORPO 的训练方式与 DPO 非常类似,我们提供了一些 ORPO 的[示例配置](https://github.com/InternLM/xtuner/tree/main/xtuner/configs/orpo),用户可以参考 DPO 的教程对配置进行修改。 | ||
|
||
### XTuner 中 DPO 训练的优势 | ||
|
||
XTuner 中的 DPO 训练具备以下显著优势: | ||
|
||
1. **支持最新的算法**:XTuner除了支持标准的 DPO 之外,还支持了大量的衍生算法,同时也支持ORPO等不依赖参考模型的高效算法。 | ||
|
||
2. **减少显存浪费**:由于偏好数据中的 chosen 和 rejected 数据通常存在长度上的差异,因此在训练数据的拼接时会存在填充(padding token),造成显存浪费。在 XTuner 中,基于 Flash Attention2 中的[变长注意力](https://xtuner.readthedocs.io/zh-cn/latest/acceleration/varlen_flash_attn.html)功能,我们在训练过程中通过将偏好数据打包到同一个序列中,显著减少了由于 padding token 带来的显存浪费。这不仅提高了显存的利用效率,还使得在相同硬件条件下可以训练更大的模型或处理更多的数据。 | ||
|
||
![img](../reward_model/images/var_len_atten.png) | ||
|
||
3. **高效训练**:借助 XTuner 的 QLoRA 训练功能,参考模型能够被转化为移除LoRA适配器的语言模型,从而省去了参考模型权重的显存占用,大幅降低了 DPO 的训练开销。 | ||
|
||
### 开始训练 | ||
|
||
请参阅[快速上手](./quick_start.md)来了解最基本的概念,若希望了解更多训练参数配置相关的内容,请参考[修改DPO配置](./modify_settings.md)章节。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,71 @@ | ||
## DPO 快速上手 | ||
|
||
在本章节中,我们将介绍如何使用 XTuner 训练 1.8B 的 DPO(Direct Preference Optimization)模型,以帮助您快速上手。 | ||
|
||
### 准备预训练模型权重 | ||
|
||
我们使用经过 SFT 的语言模型[InternLM2-chat-1.8b-sft](https://huggingface.co/internlm/internlm2-chat-1_8b-sft)作为 DPO 模型的初始化模型来进行偏好对齐。 | ||
|
||
在训练配置文件中设置`pretrained_model_name_or_path = 'internlm/internlm2-chat-1_8b-sft'`,则会在启动训练时自动下载模型文件。若您需要手动下载模型权重,那么请参考[准备预训练模型权重](https://xtuner.readthedocs.io/zh-cn/latest/preparation/pretrained_model.html)章节,其中详细说明了如何从 Huggingface 或者是 Modelscope 下载模型权重的方法。这里我们附上模型的 HuggingFace 链接与 ModelScope 链接: | ||
|
||
- HuggingFace 链接位于:https://huggingface.co/internlm/internlm2-chat-1_8b-sft | ||
- ModelScope 链接位于:https://modelscope.cn/models/Shanghai_AI_Laboratory/internlm2-chat-1_8b-sft/summary | ||
|
||
### 准备训练数据 | ||
|
||
在本教程中使用 Huggingface 上的[mlabonne/orpo-dpo-mix-40k](https://huggingface.co/datasets/mlabonne/orpo-dpo-mix-40k)数据集作为演示, | ||
|
||
```python | ||
train_dataset = dict( | ||
type=build_preference_dataset, | ||
dataset=dict( | ||
type=load_dataset, | ||
path='mlabonne/orpo-dpo-mix-40k'), | ||
dataset_map_fn=orpo_dpo_mix_40k_map_fn, | ||
is_dpo=True, | ||
is_reward=False, | ||
) | ||
``` | ||
|
||
在配置文件中使用以上配置,即可自动下载并处理该数据集。如果您希望使用其他 Huggingface 上的开源数据集或是使用自定义的数据集,请参阅[偏好数据集](../reward_model/preference_data.md)章节。 | ||
|
||
### 准备配置文件 | ||
|
||
XTuner 提供了多个开箱即用的配置文件,可以通过 `xtuner list-cfg` 查看。我们执行如下指令,以复制一个配置文件到当前目录。 | ||
|
||
```bash | ||
xtuner copy-cfg internlm2_chat_1_8b_dpo_full . | ||
``` | ||
|
||
打开复制后的配置文件,如果您选择自动下载模型和数据集,则无需修改配置。若您希望填入您预先下载的模型路径和数据集路径,请修改配置中的`pretrained_model_name_or_path`以及`train_dataset`中`dataset`的`path`参数。 | ||
|
||
更多的训练参数配置,请参阅[修改DPO训练配置](./modify_settings.md)章节。 | ||
|
||
### 启动训练 | ||
|
||
在完成上述操作后,便可以使用下面的指令启动训练任务了。 | ||
|
||
```bash | ||
# 单机单卡 | ||
xtuner train ./internlm2_chat_1_8b_dpo_full_copy.py | ||
# 单机多卡 | ||
NPROC_PER_NODE=${GPU_NUM} xtuner train ./internlm2_chat_1_8b_dpo_full_copy.py | ||
# slurm 集群 | ||
srun ${SRUN_ARGS} xtuner train ./internlm2_chat_1_8b_dpo_full_copy.py --launcher slurm | ||
``` | ||
|
||
### 模型转换 | ||
|
||
XTuner 已经集成好了将模型转换为 HuggingFace 格式的工具,我们只需要执行 | ||
|
||
```bash | ||
# 创建存放 hf 格式参数的目录 | ||
mkdir work_dirs/internlm2_chat_1_8b_dpo_full_copy/iter_15230_hf | ||
|
||
# 转换格式 | ||
xtuner convert pth_to_hf internlm2_chat_1_8b_dpo_full_copy.py \ | ||
work_dirs/internlm2_chat_1_8b_dpo_full_copy.py/iter_15230.pth \ | ||
work_dirs/internlm2_chat_1_8b_dpo_full_copy.py/iter_15230_hf | ||
``` | ||
|
||
便能够将 XTuner 的 ckpt 转换为 Huggingface 格式的模型。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,100 @@ | ||
## 修改 Reward Model 训练配置 | ||
|
||
本章节仅介绍与 Reward Model 训练相关的配置参数,更多 XTuner 配置文件的细节,请参考[修改训练配置](https://xtuner.readthedocs.io/zh-cn/latest/training/modify_settings.html) | ||
|
||
### 损失函数 | ||
|
||
XTuner 使用了 [Bradley–Terry 模型](https://en.wikipedia.org/wiki/Bradley%E2%80%93Terry_model) 作为 Reward Model 的偏好建模方式,你可以指定 `loss_type="ranking"` 来使用 ranking loss。XTuner 中也实现了 InternLM2 中提出的 focal 损失函数,它通过调整难易样本的权重来避免过拟合,可以设置 `loss_type="focal"` 来使用该损失函数。对于该损失函数的详细说明,请参考 [InternLM2 技术报告](https://arxiv.org/abs/2403.17297)。 | ||
|
||
另外,为了使 reward model 输出的 score 数值保持稳定,我们还在 loss 中额外增加了一个约束项,你可以指定 `penalty_type='log_barrier'` 或是 `penalty_type='L2'` 以启用对数约束或是L2约束。 | ||
|
||
```python | ||
####################################################################### | ||
# PART 1 Settings # | ||
####################################################################### | ||
# Model | ||
loss_type = 'focal' # 'ranking' or 'focal' | ||
penalty_type = 'log_barrier' # 'log_barrier' or 'L2' | ||
``` | ||
|
||
### 修改模型 | ||
|
||
用户可以修改 `pretrained_model_name_or_path` 对预训练模型进行修改。 | ||
|
||
需要注意的是,由于 XTuner 通过对数据的末尾添加 `<|reward|>` 特殊 token 的方式计算 reward 得分,因此当切换模型的词表发生变化时,该特殊 token 的 id 也需要进行相应的修改,我们通常会使用词表末尾未使用的 token 作为 reward token。 | ||
|
||
例如,在 InternLM2 中我们使用 `[UNUSED_TOKEN_130]` 作为 reward token: | ||
|
||
```python | ||
####################################################################### | ||
# PART 1 Settings # | ||
####################################################################### | ||
# Model | ||
pretrained_model_name_or_path = 'internlm/internlm2-chat-1_8b-sft' | ||
reward_token_id = 92527 # use [UNUSED_TOKEN_130] as reward token | ||
``` | ||
|
||
如果用户将模型切换为llama3,我们则可以使用 `<|reserved_special_token_0|>` 作为 reward token: | ||
|
||
```python | ||
####################################################################### | ||
# PART 1 Settings # | ||
####################################################################### | ||
# Model | ||
pretrained_model_name_or_path = 'meta-llama/Meta-Llama-3-8B-Instruct' | ||
reward_token_id = 128002 # use <|reserved_special_token_0|> as reward token | ||
``` | ||
|
||
### 训练数据 | ||
|
||
在 Reward Model 训练中,你可以通过 `max_length` 来指定单个样本序列的最大 token 数,XTuner 会自动对数据进行截断或是填充。 | ||
|
||
```python | ||
# Data | ||
max_length = 2048 | ||
``` | ||
|
||
在配置文件中,我们通过 `train_dataset` 字段来指定训练数据集,你可以通过 `dataset` 字段指定数据集的加载方式,通过 `dataset_map_fn` 字段指定数据集的映射函数。 | ||
|
||
```python | ||
####################################################################### | ||
# PART 3 Dataset & Dataloader # | ||
####################################################################### | ||
sampler = SequenceParallelSampler \ | ||
if sequence_parallel_size > 1 else DefaultSampler | ||
|
||
train_dataset = dict( | ||
type=build_preference_dataset, | ||
dataset=dict( | ||
type=load_dataset, | ||
path='argilla/ultrafeedback-binarized-preferences-cleaned'), | ||
tokenizer=tokenizer, | ||
max_length=max_length, | ||
dataset_map_fn=orpo_dpo_mix_40k_map_fn, | ||
is_dpo=False, | ||
is_reward=True, | ||
reward_token_id=reward_token_id, | ||
num_proc=32, | ||
use_varlen_attn=use_varlen_attn, | ||
max_packed_length=max_packed_length, | ||
shuffle_before_pack=True, | ||
) | ||
|
||
train_dataloader = dict( | ||
batch_size=batch_size, | ||
num_workers=dataloader_num_workers, | ||
dataset=train_dataset, | ||
sampler=dict(type=sampler, shuffle=True), | ||
collate_fn=dict( | ||
type=preference_collate_fn, use_varlen_attn=use_varlen_attn)) | ||
``` | ||
|
||
上述配置中,我们使用了 `load_dataset` 来加载 huggingface 上的 `argilla/ultrafeedback-binarized-preferences-cleaned` 数据集,使用 `orpo_dpo_mix_40k_map_fn` 作为数据集映射函数(这是因为 `orpo_dpo_mix_40k` 与 `ultrafeedback-binarized-preferences-cleaned` 的格式相同,因此这里共用了同一个映射函数)。 | ||
|
||
关于如何处理数据集以及如何编写数据集映射函数,请参考[偏好数据集章节](./preference_data.md)。 | ||
|
||
### 加速训练 | ||
|
||
在使用偏好数据训练时,我们推荐您开启[变长注意力机制](https://xtuner.readthedocs.io/zh-cn/latest/acceleration/varlen_flash_attn.html), 以避免单个偏好内的 chosen 和 rejected 的样本长度差异造成的显存浪费。你可以通过 `use_varlen_attn=True` 来开启变长注意力机制。 | ||
|
||
XTuner 中还支持了大量的训练加速方法,关于它们的使用方法,请参考[加速策略章节](https://xtuner.readthedocs.io/zh-cn/latest/acceleration/hyper_parameters.html)。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,29 @@ | ||
## Reward Model 介绍 | ||
|
||
### 简介 | ||
|
||
Reward Model(奖励模型)是强化学习过程中一个关键的组成部分。它的主要任务是根据给定的输入和反馈来预测奖励值,从而指导学习算法的方向。在RLHF(Reinforcement Learning from Human Feedback)中,Reward Model 通过整合人类反馈,帮助强化学习算法更有效地优化策略。 | ||
|
||
在大语言模型训练中,Reward Model 通常指的是偏好模型(Preference Model)。通过在训练时提供相同提示词的好与坏(chosen&rejected)的回复来拟合人类的偏好,并在推理时预测出一个奖励值,以指导 RLHF 过程中 Actor 模型的优化过程。 | ||
|
||
Reward Model的应用场景包括但不限于: | ||
|
||
- **RLHF训练**:在使用 Proximal Policy Optimization(PPO)算法进行 RLHF 训练时,Reward Model提供奖励信号,指导模型优化策略,提高生成内容的质量并使其更贴近人类偏好。 | ||
- **BoN采样**:在 Best-of-N(BoN)采样过程中,用户可以使用 Reward Model 对同一个提示词的多条回复进行打分,并选择奖励得分最高的生成结果,从而提升模型的输出效果。 | ||
- **数据构造**:Reward Model 可以用于评估和过滤训练数据,或者也可以使用 Reward Model 替代人工标注来构造 DPO 训练数据。 | ||
|
||
### XTuner 中 Reward Model 训练的优势 | ||
|
||
XTuner 中的 Reward Model 训练具备以下显著优势: | ||
|
||
1. **使用最新的训练技巧**:XTuner 中集成了 InternLM2 中的 Reward Model 训练损失函数,可以稳定奖励得分的数值范围,也可以减少在简单样本上的过拟合(具体可参考 [InternLM2 技术报告](https://arxiv.org/abs/2403.17297))。 | ||
|
||
2. **减少显存浪费**:由于偏好数据中的 chosen 和 rejected 数据通常存在长度上的差异,因此在训练数据的拼接时会存在填充(padding token),造成显存浪费。在 XTuner 中,基于 Flash Attention2 中的变长注意力功能,我们在训练过程中通过将偏好数据打包到同一个序列中,显著减少了由于 padding token 带来的显存浪费。这不仅提高了显存的利用效率,还使得在相同硬件条件下可以训练更大的模型或处理更多的数据。 | ||
|
||
![img](./images/var_len_atten.png) | ||
|
||
3. **高效训练**:借助 XTuner 的 QLoRA 训练功能,我们能够仅对 Reward Model 的 Value Head 进行全参数训练,而对语言模型本身使用 QLoRA 微调,大幅降低了模型训练的显存开销。 | ||
|
||
### 开始训练 | ||
|
||
请参[阅快速上手](./quick_start.md)来了解最基本的概念,若希望了解更多训练参数配置相关的内容,请参考[修改Reward Model配置](./modify_settings.md)章节。 |
Oops, something went wrong.