本文最后更新于2024年3月6日，已超过 1 年没更新！内容可能已失效，请评论区反馈，谢谢啦~

单GPU训练

预训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage pt \                               # Pre——Training预训练模式
    --model_name_or_path path_to_llama_model \ # 模型地址
    --do_train \                               # 表示进行训练
    --dataset wiki_demo \                      # 使用的数据集
    --finetuning_type lora \                   # 微调的方法
    --lora_target W_pack \                     # LoRA作用模块：Baichuan为W_pack
    --output_dir path_to_pt_checkpoint \       # 断点保存：保存模型断点的位置
    --overwrite_cache \                        # 表示是否覆盖缓存文件
    --per_device_train_batch_size 4 \          # 批处理大小：每块 GPU 上处理的样本数量
    --gradient_accumulation_steps 4 \          # 梯度累积：梯度累积的步数（节省显存的方法）
    --lr_scheduler_type cosine \               # 学习率调节器：采用的学习率调节器名称
    --logging_steps 10 \                       # 日志间隔：每两次日志输出间的更新步数
    --save_steps 1000 \                        # 保存间隔：每两次断点保存间的更新步数
    --learning_rate 5e-5 \                     # 学习率：AdamW优化器的初始学习率
    --num_train_epochs 3.0 \                   # 训练轮数：需要执行的训练总轮数
    --plot_loss \                              # 绘制损失函数图
    --fp16                                     # 计算类型：是否启用fp16或bf16混合精度训练。

指令监督微调

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset alpaca_gpt4_zh \        # 提示模板：构建提示词时使用的模板
    --template default \              
    --finetuning_type lora \
    --lora_target W_pack \
    --output_dir path_to_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

奖励模型训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage rm \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset comparison_gpt4_zh \              # 奖励模型训练数据集
    --template default \
    --finetuning_type lora \
    --lora_target W_pack \
    --resume_lora_training False \              # 接着上次的LoRA权重训练或创建一个新的LoRA权重
    --checkpoint_dir path_to_sft_checkpoint \   # 指令微调模型的断点
    --output_dir path_to_rm_checkpoint \        # 奖励模型的输出位置
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-6 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

PPO训练

PPO训练需要先进行上一步RM的训练，然后导入微调后模型和RM进行训练输出

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage ppo \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target W_pack \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \   # 加载指令微调的断点模型
    --reward_model path_to_rm_checkpoint \      # 奖励模型的断点路径
    --output_dir path_to_ppo_checkpoint \       # ppo训练的断点输出位置
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss

DPO训练

不需要先训练RM，直接导入微调模型进行DPO训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage dpo \
    --model_name_or_path path_to_llama_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target W_pack \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_dpo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

多卡训练

使用DeepSpeed

进行多卡训练时需要配置DeepSpeed参数，保存为ds_config.json，示例如下：

{
  "train_batch_size": "auto",
  "train_micro_batch_size_per_gpu": "auto",
  "gradient_accumulation_steps": "auto",
  "gradient_clipping": "auto",
  "zero_allow_untested_optimizer": true,
  "fp16": {
    "enabled": "auto",
    "loss_scale": 0,
    "initial_scale_power": 16,
    "loss_scale_window": 1000,
    "hysteresis": 2,
    "min_loss_scale": 1
  },
  "zero_optimization": {
    "stage": 2,
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "overlap_comm": false,
    "contiguous_gradients": true
  }
}

训练

多卡训练需要的参数与单卡训练基本一致，但是需要增加对GPU数量和主端口号的说明，如，对于SFT阶段，可以使用的示例如下：

USE_MODELSCOPE_HUB=1 HF_ENDPOINT=https://hf-mirror.com deepspeed --num_gpus 2 --master_port=30422 src/train_bash.py \
    --deepspeed ./ds_config.json \
    --stage sft \
    --model_name_or_path ./Qwen1.5-1.8B\
    --do_train \
    --dataset self_cognition\
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir output/test1/ \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 50 \
    --learning_rate 5e-5 \
    --num_train_epochs 100 \
    --plot_loss \
    --overwrite_output_dir True \
    --fp16

模型评估

CUDA_VISIBLE_DEVICES=0 python src/evaluate.py \
    --model_name_or_path path_to_llama_model \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --template vanilla \
    --task ceval \
    --split validation \
    --lang zh \
    --n_shot 5 \
    --batch_size 4

模型预测

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_llama_model \
    --do_predict \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_predict_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \                     # 最大样本数：每个数据集最多使用的样本数
    --predict_with_generate

建议在量化模型的预测中使用

--per_device_eval_batch_size=1 
--max_target_length 128

模型测试

浏览器测试

python src/web_demo.py \
    --model_name_or_path ./Qwen1.5-1.8B \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir ./output/test1/checkpoint-200