使用 TRL 進行微調
使用 TRL 通過強化學習微調大語言模型(LLM)——包括用於指令微調的 SFT、用於偏好對齊的 DPO、用於獎勵優化的 PPO/GRPO 以及獎勵模型訓練。當需要進行 RLHF(基於人類反饋的強化學習)、使模型與偏好對齊或基於人類反饋進行訓練時使用。兼容 HuggingFace Transformers。
技能元數據
| 來源 | 捆綁(默認安裝) |
| 路徑 | skills/mlops/training/trl-fine-tuning |
| 版本 | 1.0.0 |
| 作者 | Orchestra Research |
| 許可證 | MIT |
| 依賴項 | trl, transformers, datasets, peft, accelerate, torch |
| 標籤 | Post-Training, TRL, Reinforcement Learning, Fine-Tuning, SFT, DPO, PPO, GRPO, RLHF, Preference Alignment, HuggingFace |
參考:完整 SKILL.md
以下是 Hermes 在觸發此技能時加載的完整技能定義。這是技能激活時代理所看到的指令。
TRL - Transformer 強化學習
快速開始
TRL 提供了將語言模型與人類偏好對齊的後訓練方法。
安裝:
pip install trl transformers datasets peft accelerate
監督微調(指令微調):
from trl import SFTTrainer
trainer = SFTTrainer(
model="Qwen/Qwen2.5-0.5B",
train_dataset=dataset, # Prompt-completion pairs
)
trainer.train()
DPO(與偏好對齊):
from trl import DPOTrainer, DPOConfig
config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=preference_dataset, # chosen/rejected pairs
processing_class=tokenizer
)
trainer.train()
常見工作流
工作流 1:完整 RLHF 流水線(SFT → 獎勵模型 → PPO)
從基礎模型到與人類對齊模型的完整流水線。
複製此檢查清單:
RLHF Training:
- [ ] Step 1: Supervised fine-tuning (SFT)
- [ ] Step 2: Train reward model
- [ ] Step 3: PPO reinforcement learning
- [ ] Step 4: Evaluate aligned model
步驟 1:監督微調
在指令跟隨數據上訓練基礎模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset
# Load model
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
# Load instruction dataset
dataset = load_dataset("trl-lib/Capybara", split="train")
# Configure training
training_args = SFTConfig(
output_dir="Qwen2.5-0.5B-SFT",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=2e-5,
logging_steps=10,
save_strategy="epoch"
)
# Train
trainer = SFTTrainer(
model=model,
args=training_args,
train_dataset=dataset,
tokenizer=tokenizer
)
trainer.train()
trainer.save_model()
步驟 2:訓練獎勵模型
訓練模型以預測人類偏好:
from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig
# Load SFT model as base
model = AutoModelForSequenceClassification.from_pretrained(
"Qwen2.5-0.5B-SFT",
num_labels=1 # Single reward score
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")
# Load preference data (chosen/rejected pairs)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Configure training
training_args = RewardConfig(
output_dir="Qwen2.5-0.5B-Reward",
per_device_train_batch_size=2,
num_train_epochs=1,
learning_rate=1e-5
)
# Train reward model
trainer = RewardTrainer(
model=model,
args=training_args,
processing_class=tokenizer,
train_dataset=dataset
)
trainer.train()
trainer.save_model()
步驟 3:PPO 強化學習
使用獎勵模型優化策略:
python -m trl.scripts.ppo \
--model_name_or_path Qwen2.5-0.5B-SFT \
--reward_model_path Qwen2.5-0.5B-Reward \
--dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
--output_dir Qwen2.5-0.5B-PPO \
--learning_rate 3e-6 \
--per_device_train_batch_size 64 \
--total_episodes 10000
步驟 4:評估
from transformers import pipeline
# Load aligned model
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")
# Test
prompt = "Explain quantum computing to a 10-year-old"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)
工作流 2:使用 DPO 進行簡單的偏好對齊
無需獎勵模型即可使模型與偏好對齊。
複製此檢查清單:
DPO Training:
- [ ] Step 1: Prepare preference dataset
- [ ] Step 2: Configure DPO
- [ ] Step 3: Train with DPOTrainer
- [ ] Step 4: Evaluate alignment
步驟 1:準備偏好數據集
數據集格式:
{
"prompt": "What is the capital of France?",
"chosen": "The capital of France is Paris.",
"rejected": "I don't know."
}
加載數據集:
from datasets import load_dataset
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Or load your own
# dataset = load_dataset("json", data_files="preferences.json")
步驟 2:配置 DPO
from trl import DPOConfig
config = DPOConfig(
output_dir="Qwen2.5-0.5B-DPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=5e-7,
beta=0.1, # KL penalty strength
max_prompt_length=512,
max_length=1024,
logging_steps=10
)
步驟 3:使用 DPOTrainer 訓練
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=dataset,
processing_class=tokenizer
)
trainer.train()
trainer.save_model()
CLI 替代方案:
trl dpo \
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--dataset_name argilla/Capybara-Preferences \
--output_dir Qwen2.5-0.5B-DPO \
--per_device_train_batch_size 4 \
--learning_rate 5e-7 \
--beta 0.1
工作流 3:使用 GRPO 進行內存高效的在線強化學習
以最小內存佔用進行強化學習訓練。
如需深入的 GRPO 指導——獎勵函數設計、關鍵訓練見解(損失行為、模式崩潰、調參)以及高級多階段模式——請參閱 references/grpo-training.md。生產就緒的訓練腳本位於 templates/basic_grpo_training.py。
複製此檢查清單:
GRPO Training:
- [ ] Step 1: Define reward function
- [ ] Step 2: Configure GRPO
- [ ] Step 3: Train with GRPOTrainer
步驟 1:定義獎勵函數
def reward_function(completions, **kwargs):
"""
Compute rewards for completions.
Args:
completions: List of generated texts
Returns:
List of reward scores (floats)
"""
rewards = []
for completion in completions:
# Example: reward based on length and unique words
score = len(completion.split()) # Favor longer responses
score += len(set(completion.lower().split())) # Reward unique words
rewards.append(score)
return rewards
或使用獎勵模型:
from transformers import pipeline
reward_model = pipeline("text-classification", model="reward-model-path")
def reward_from_model(completions, prompts, **kwargs):
# Combine prompt + completion
full_texts = [p + c for p, c in zip(prompts, completions)]
# Get reward scores
results = reward_model(full_texts)
return [r["score"] for r in results]
步驟 2:配置 GRPO
from trl import GRPOConfig
config = GRPOConfig(
output_dir="Qwen2-GRPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=1e-5,
num_generations=4, # Generate 4 completions per prompt
max_new_tokens=128
)
步驟 3:使用 GRPOTrainer 訓練
from datasets import load_dataset
from trl import GRPOTrainer
# Load prompt-only dataset
dataset = load_dataset("trl-lib/tldr", split="train")
trainer = GRPOTrainer(
model="Qwen/Qwen2-0.5B-Instruct",
reward_funcs=reward_function, # Your reward function
args=config,
train_dataset=dataset
)
trainer.train()
CLI:
trl grpo \
--model_name_or_path Qwen/Qwen2-0.5B-Instruct \
--dataset_name trl-lib/tldr \
--output_dir Qwen2-GRPO \
--num_generations 4
何時使用及替代方案對比
在以下情況使用 TRL:
- 需要將模型與人類偏好對齊
- 擁有偏好數據(選擇/拒絕對)
- 希望使用強化學習(PPO, GRPO)
- 需要訓練獎勵模型
- 正在進行 RLHF(完整流水線)
方法選擇:
- SFT:擁有提示-完成對,希望實現基本的指令跟隨
- DPO:擁有偏好數據,希望進行簡單對齊(無需獎勵模型)
- PPO:擁有獎勵模型,需要對強化學習進行最大程度的控制
- GRPO:內存受限,希望進行在線強化學習
- 獎勵模型:構建 RLHF 流水線,需要對生成內容進行評分
改用替代方案:
- HuggingFace Trainer:無強化學習的基本微調
- Axolotl:基於 YAML 的訓練配置
- LitGPT:教育用途,極簡微調
- Unsloth:快速 LoRA 訓練
常見問題
問題:DPO 訓練期間出現 OOM(內存溢出)
減小批次大小和序列長度:
config = DPOConfig(
per_device_train_batch_size=1, # Reduce from 4
max_length=512, # Reduce from 1024
gradient_accumulation_steps=8 # Maintain effective batch
)
或使用梯度檢查點:
model.gradient_checkpointing_enable()
問題:對齊質量差
調整 beta 參數:
# Higher beta = more conservative (stays closer to reference)
config = DPOConfig(beta=0.5) # Default 0.1
# Lower beta = more aggressive alignment
config = DPOConfig(beta=0.01)
問題:獎勵模型未收斂
檢查損失類型和學習率:
config = RewardConfig(
learning_rate=1e-5, # Try different LR
num_train_epochs=3 # Train longer
)
確保偏好數據集具有明確的優勝者:
# Verify dataset
print(dataset[0])
# Should have clear chosen > rejected
問題:PPO 訓練不穩定
調整 KL 係數:
config = PPOConfig(
kl_coef=0.1, # Increase from 0.05
cliprange=0.1 # Reduce from 0.2
)
高級主題
SFT 訓練指南:有關數據集格式、聊天模板、打包策略和多 GPU 訓練,請參閱 references/sft-training.md。
DPO 變體:請參閱 references/dpo-variants.md 瞭解 IPO、cDPO、RPO 以及其他帶有推薦超參數的 DPO 損失函數。
獎勵建模:請參閱 references/reward-modeling.md 瞭解結果獎勵與過程獎勵、Bradley-Terry 損失以及獎勵模型評估。
在線強化學習方法:請參閱 references/online-rl.md 瞭解 PPO、GRPO、RLOO 和 OnlineDPO 的詳細配置。
GRPO 深入解析:請參閱 references/grpo-training.md 瞭解專家級 GRPO 模式——獎勵函數設計理念、訓練洞察(為何損失增加、模式崩潰檢測)、超參數調優、多階段訓練以及故障排除。生產就緒模板位於 templates/basic_grpo_training.py。
硬件要求
- GPU:NVIDIA(需要 CUDA)
- 顯存 (VRAM):取決於模型和方法
- SFT 7B:16GB(使用 LoRA)
- DPO 7B:24GB(存儲參考模型)
- PPO 7B:40GB(策略模型 + 獎勵模型)
- GRPO 7B:24GB(內存效率更高)
- 多 GPU:通過
accelerate支持 - 混合精度:推薦 BF16(A100/H100)
內存優化:
- 對所有方法使用 LoRA/QLoRA
- 啟用梯度檢查點(gradient checkpointing)
- 使用較小的批量大小並配合梯度累積
資源
- 文檔:https://huggingface.co/docs/trl/
- GitHub:https://github.com/huggingface/trl
- 論文:
- "Training language models to follow instructions with human feedback" (InstructGPT, 2022)
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (DPO, 2023)
- "Group Relative Policy Optimization" (GRPO, 2024)
- 示例:https://github.com/huggingface/trl/tree/main/examples/scripts