单GPU训练
预训练
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage pt \ # Pre——Training预训练模式
--model_name_or_path path_to_llama_model \ # 模型地址
--do_train \ # 表示进行训练
--dataset wiki_demo \ # 使用的数据集
--finetuning_type lora \ # 微调的方法
--lora_target W_pack \ # LoRA作用模块:Baichuan为W_pack
--output_dir path_to_pt_checkpoint \ # 断点保存:保存模型断点的位置
--overwrite_cache \ # 表示是否覆盖缓存文件
--per_device_train_batch_size 4 \ # 批处理大小:每块 GPU 上处理的样本数量
--gradient_accumulation_steps 4 \ # 梯度累积:梯度累积的步数(节省显存的方法)
--lr_scheduler_type cosine \ # 学习率调节器:采用的学习率调节器名称
--logging_steps 10 \ # 日志间隔:每两次日志输出间的更新步数
--save_steps 1000 \ # 保存间隔:每两次断点保存间的更新步数
--learning_rate 5e-5 \ # 学习率:AdamW优化器的初始学习率
--num_train_epochs 3.0 \ # 训练轮数:需要执行的训练总轮数
--plot_loss \ # 绘制损失函数图
--fp16 # 计算类型:是否启用fp16或bf16混合精度训练。
指令监督微调
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path path_to_llama_model \
--do_train \
--dataset alpaca_gpt4_zh \ # 提示模板:构建提示词时使用的模板
--template default \
--finetuning_type lora \
--lora_target W_pack \
--output_dir path_to_sft_checkpoint \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--fp16
奖励模型训练
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage rm \
--model_name_or_path path_to_llama_model \
--do_train \
--dataset comparison_gpt4_zh \ # 奖励模型训练数据集
--template default \
--finetuning_type lora \
--lora_target W_pack \
--resume_lora_training False \ # 接着上次的LoRA权重训练或创建一个新的LoRA权重
--checkpoint_dir path_to_sft_checkpoint \ # 指令微调模型的断点
--output_dir path_to_rm_checkpoint \ # 奖励模型的输出位置
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-6 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
PPO训练
PPO训练需要先进行上一步RM的训练,然后导入微调后模型和RM进行训练输出
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage ppo \
--model_name_or_path path_to_llama_model \
--do_train \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--lora_target W_pack \
--resume_lora_training False \
--checkpoint_dir path_to_sft_checkpoint \ # 加载指令微调的断点模型
--reward_model path_to_rm_checkpoint \ # 奖励模型的断点路径
--output_dir path_to_ppo_checkpoint \ # ppo训练的断点输出位置
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss
DPO训练
不需要先训练RM,直接导入微调模型进行DPO训练
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage dpo \
--model_name_or_path path_to_llama_model \
--do_train \
--dataset comparison_gpt4_zh \
--template default \
--finetuning_type lora \
--lora_target W_pack \
--resume_lora_training False \
--checkpoint_dir path_to_sft_checkpoint \
--output_dir path_to_dpo_checkpoint \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
多卡训练
使用DeepSpeed
进行多卡训练时需要配置DeepSpeed参数,保存为ds_config.json,示例如下:
{
"train_batch_size": "auto",
"train_micro_batch_size_per_gpu": "auto",
"gradient_accumulation_steps": "auto",
"gradient_clipping": "auto",
"zero_allow_untested_optimizer": true,
"fp16": {
"enabled": "auto",
"loss_scale": 0,
"initial_scale_power": 16,
"loss_scale_window": 1000,
"hysteresis": 2,
"min_loss_scale": 1
},
"zero_optimization": {
"stage": 2,
"allgather_partitions": true,
"allgather_bucket_size": 5e8,
"reduce_scatter": true,
"reduce_bucket_size": 5e8,
"overlap_comm": false,
"contiguous_gradients": true
}
}
训练
多卡训练需要的参数与单卡训练基本一致,但是需要增加对GPU数量和主端口号的说明,如,对于SFT阶段,可以使用的示例如下:
USE_MODELSCOPE_HUB=1 HF_ENDPOINT=https://hf-mirror.com deepspeed --num_gpus 2 --master_port=30422 src/train_bash.py \
--deepspeed ./ds_config.json \
--stage sft \
--model_name_or_path ./Qwen1.5-1.8B\
--do_train \
--dataset self_cognition\
--template default \
--finetuning_type lora \
--lora_target q_proj,v_proj \
--output_dir output/test1/ \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 50 \
--learning_rate 5e-5 \
--num_train_epochs 100 \
--plot_loss \
--overwrite_output_dir True \
--fp16
模型评估
CUDA_VISIBLE_DEVICES=0 python src/evaluate.py \
--model_name_or_path path_to_llama_model \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint \
--template vanilla \
--task ceval \
--split validation \
--lang zh \
--n_shot 5 \
--batch_size 4
模型预测
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path path_to_llama_model \
--do_predict \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint \
--output_dir path_to_predict_result \
--per_device_eval_batch_size 8 \
--max_samples 100 \ # 最大样本数:每个数据集最多使用的样本数
--predict_with_generate
建议在量化模型的预测中使用
--per_device_eval_batch_size=1
--max_target_length 128
模型测试
浏览器测试
python src/web_demo.py \
--model_name_or_path ./Qwen1.5-1.8B \
--template default \
--finetuning_type lora \
--checkpoint_dir ./output/test1/checkpoint-200
报错问题
- TimeoutConnect Error:由于国内huggingface被墙,暂时无法从huggingface远程下载相关模型资源,可以下载在本地文件。但在配置训练参数时应使用绝对路径或./保证从本地加载资源。
Comments NOTHING