使用 TRL 進行微調

使用 TRL 通過強化學習微調大語言模型（LLM）——包括用於指令微調的 SFT、用於偏好對齊的 DPO、用於獎勵優化的 PPO/GRPO 以及獎勵模型訓練。當需要進行 RLHF（基於人類反饋的強化學習）、使模型與偏好對齊或基於人類反饋進行訓練時使用。兼容 HuggingFace Transformers。

技能元數據


來源	捆綁（默認安裝）
路徑	`skills/mlops/training/trl-fine-tuning`
版本	`1.0.0`
作者	Orchestra Research
許可證	MIT
依賴項	`trl`, `transformers`, `datasets`, `peft`, `accelerate`, `torch`
標籤	`Post-Training`, `TRL`, `Reinforcement Learning`, `Fine-Tuning`, `SFT`, `DPO`, `PPO`, `GRPO`, `RLHF`, `Preference Alignment`, `HuggingFace`

參考：完整 SKILL.md

信息

以下是 Hermes 在觸發此技能時加載的完整技能定義。這是技能激活時代理所看到的指令。

TRL - Transformer 強化學習

快速開始

TRL 提供了將語言模型與人類偏好對齊的後訓練方法。

安裝：

pip install trl transformers datasets peft accelerate

監督微調（指令微調）：

from trl import SFTTrainer

trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,  # Prompt-completion pairs
)
trainer.train()

DPO（與偏好對齊）：

from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=preference_dataset,  # chosen/rejected pairs
    processing_class=tokenizer
)
trainer.train()

常見工作流

工作流 1：完整 RLHF 流水線（SFT → 獎勵模型 → PPO）

從基礎模型到與人類對齊模型的完整流水線。

複製此檢查清單：

RLHF Training:
- [ ] Step 1: Supervised fine-tuning (SFT)
- [ ] Step 2: Train reward model
- [ ] Step 3: PPO reinforcement learning
- [ ] Step 4: Evaluate aligned model

步驟 1：監督微調

在指令跟隨數據上訓練基礎模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer, SFTConfig
from datasets import load_dataset

# Load model
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")

# Load instruction dataset
dataset = load_dataset("trl-lib/Capybara", split="train")

# Configure training
training_args = SFTConfig(
    output_dir="Qwen2.5-0.5B-SFT",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-5,
    logging_steps=10,
    save_strategy="epoch"
)

# Train
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()
trainer.save_model()

步驟 2：訓練獎勵模型

訓練模型以預測人類偏好：

from transformers import AutoModelForSequenceClassification
from trl import RewardTrainer, RewardConfig

# Load SFT model as base
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen2.5-0.5B-SFT",
    num_labels=1  # Single reward score
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")

# Load preference data (chosen/rejected pairs)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# Configure training
training_args = RewardConfig(
    output_dir="Qwen2.5-0.5B-Reward",
    per_device_train_batch_size=2,
    num_train_epochs=1,
    learning_rate=1e-5
)

# Train reward model
trainer = RewardTrainer(
    model=model,
    args=training_args,
    processing_class=tokenizer,
    train_dataset=dataset
)
trainer.train()
trainer.save_model()

步驟 3：PPO 強化學習

使用獎勵模型優化策略：

python -m trl.scripts.ppo \
    --model_name_or_path Qwen2.5-0.5B-SFT \
    --reward_model_path Qwen2.5-0.5B-Reward \
    --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
    --output_dir Qwen2.5-0.5B-PPO \
    --learning_rate 3e-6 \
    --per_device_train_batch_size 64 \
    --total_episodes 10000

步驟 4：評估

from transformers import pipeline

# Load aligned model
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")

# Test
prompt = "Explain quantum computing to a 10-year-old"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)

工作流 2：使用 DPO 進行簡單的偏好對齊

無需獎勵模型即可使模型與偏好對齊。

複製此檢查清單：

DPO Training:
- [ ] Step 1: Prepare preference dataset
- [ ] Step 2: Configure DPO
- [ ] Step 3: Train with DPOTrainer
- [ ] Step 4: Evaluate alignment

步驟 1：準備偏好數據集

數據集格式：

{
  "prompt": "What is the capital of France?",
  "chosen": "The capital of France is Paris.",
  "rejected": "I don't know."
}

加載數據集：

from datasets import load_dataset

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Or load your own
# dataset = load_dataset("json", data_files="preferences.json")

步驟 2：配置 DPO

from trl import DPOConfig

config = DPOConfig(
    output_dir="Qwen2.5-0.5B-DPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=5e-7,
    beta=0.1,  # KL penalty strength
    max_prompt_length=512,
    max_length=1024,
    logging_steps=10
)

步驟 3：使用 DPOTrainer 訓練

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")

trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=dataset,
    processing_class=tokenizer
)

trainer.train()
trainer.save_model()

CLI 替代方案：

trl dpo \
    --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
    --dataset_name argilla/Capybara-Preferences \
    --output_dir Qwen2.5-0.5B-DPO \
    --per_device_train_batch_size 4 \
    --learning_rate 5e-7 \
    --beta 0.1

工作流 3：使用 GRPO 進行內存高效的在線強化學習

以最小內存佔用進行強化學習訓練。

如需深入的 GRPO 指導——獎勵函數設計、關鍵訓練見解（損失行為、模式崩潰、調參）以及高級多階段模式——請參閱 references/grpo-training.md。生產就緒的訓練腳本位於 templates/basic_grpo_training.py。

複製此檢查清單：

GRPO Training:
- [ ] Step 1: Define reward function
- [ ] Step 2: Configure GRPO
- [ ] Step 3: Train with GRPOTrainer

步驟 1：定義獎勵函數

def reward_function(completions, **kwargs):
    """
    Compute rewards for completions.

    Args:
        completions: List of generated texts

    Returns:
        List of reward scores (floats)
    """
    rewards = []
    for completion in completions:
        # Example: reward based on length and unique words
        score = len(completion.split())  # Favor longer responses
        score += len(set(completion.lower().split()))  # Reward unique words
        rewards.append(score)
    return rewards

或使用獎勵模型：

from transformers import pipeline

reward_model = pipeline("text-classification", model="reward-model-path")

def reward_from_model(completions, prompts, **kwargs):
    # Combine prompt + completion
    full_texts = [p + c for p, c in zip(prompts, completions)]
    # Get reward scores
    results = reward_model(full_texts)
    return [r["score"] for r in results]

步驟 2：配置 GRPO

from trl import GRPOConfig

config = GRPOConfig(
    output_dir="Qwen2-GRPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=1e-5,
    num_generations=4,  # Generate 4 completions per prompt
    max_new_tokens=128
)

步驟 3：使用 GRPOTrainer 訓練

from datasets import load_dataset
from trl import GRPOTrainer

# Load prompt-only dataset
dataset = load_dataset("trl-lib/tldr", split="train")

trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_function,  # Your reward function
    args=config,
    train_dataset=dataset
)

trainer.train()

CLI：

trl grpo \
    --model_name_or_path Qwen/Qwen2-0.5B-Instruct \
    --dataset_name trl-lib/tldr \
    --output_dir Qwen2-GRPO \
    --num_generations 4

何時使用及替代方案對比

在以下情況使用 TRL：

需要將模型與人類偏好對齊
擁有偏好數據（選擇/拒絕對）
希望使用強化學習（PPO, GRPO）
需要訓練獎勵模型
正在進行 RLHF（完整流水線）

方法選擇：

SFT：擁有提示-完成對，希望實現基本的指令跟隨
DPO：擁有偏好數據，希望進行簡單對齊（無需獎勵模型）
PPO：擁有獎勵模型，需要對強化學習進行最大程度的控制
GRPO：內存受限，希望進行在線強化學習
獎勵模型：構建 RLHF 流水線，需要對生成內容進行評分

改用替代方案：

HuggingFace Trainer：無強化學習的基本微調
Axolotl：基於 YAML 的訓練配置
LitGPT：教育用途，極簡微調
Unsloth：快速 LoRA 訓練

常見問題

問題：DPO 訓練期間出現 OOM（內存溢出）

減小批次大小和序列長度：

config = DPOConfig(
    per_device_train_batch_size=1,  # Reduce from 4
    max_length=512,  # Reduce from 1024
    gradient_accumulation_steps=8  # Maintain effective batch
)

或使用梯度檢查點：

model.gradient_checkpointing_enable()

問題：對齊質量差

調整 beta 參數：

# Higher beta = more conservative (stays closer to reference)
config = DPOConfig(beta=0.5)  # Default 0.1

# Lower beta = more aggressive alignment
config = DPOConfig(beta=0.01)

問題：獎勵模型未收斂

檢查損失類型和學習率：

config = RewardConfig(
    learning_rate=1e-5,  # Try different LR
    num_train_epochs=3  # Train longer
)

確保偏好數據集具有明確的優勝者：

# Verify dataset
print(dataset[0])
# Should have clear chosen > rejected

問題：PPO 訓練不穩定

調整 KL 係數：

config = PPOConfig(
    kl_coef=0.1,  # Increase from 0.05
    cliprange=0.1  # Reduce from 0.2
)

高級主題

SFT 訓練指南：有關數據集格式、聊天模板、打包策略和多 GPU 訓練，請參閱 references/sft-training.md。

DPO 變體：請參閱 references/dpo-variants.md 瞭解 IPO、cDPO、RPO 以及其他帶有推薦超參數的 DPO 損失函數。

獎勵建模：請參閱 references/reward-modeling.md 瞭解結果獎勵與過程獎勵、Bradley-Terry 損失以及獎勵模型評估。

在線強化學習方法：請參閱 references/online-rl.md 瞭解 PPO、GRPO、RLOO 和 OnlineDPO 的詳細配置。

GRPO 深入解析：請參閱 references/grpo-training.md 瞭解專家級 GRPO 模式——獎勵函數設計理念、訓練洞察（為何損失增加、模式崩潰檢測）、超參數調優、多階段訓練以及故障排除。生產就緒模板位於 templates/basic_grpo_training.py。

硬件要求

GPU：NVIDIA（需要 CUDA）
顯存 (VRAM)：取決於模型和方法
- SFT 7B：16GB（使用 LoRA）
- DPO 7B：24GB（存儲參考模型）
- PPO 7B：40GB（策略模型 + 獎勵模型）
- GRPO 7B：24GB（內存效率更高）
多 GPU：通過 accelerate 支持
混合精度：推薦 BF16（A100/H100）

內存優化：

對所有方法使用 LoRA/QLoRA
啟用梯度檢查點（gradient checkpointing）
使用較小的批量大小並配合梯度累積

資源

文檔：https://huggingface.co/docs/trl/
GitHub：https://github.com/huggingface/trl
論文：
- "Training language models to follow instructions with human feedback" (InstructGPT, 2022)
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (DPO, 2023)
- "Group Relative Policy Optimization" (GRPO, 2024)
示例：https://github.com/huggingface/trl/tree/main/examples/scripts

技能元數據​

參考：完整 SKILL.md​

TRL - Transformer 強化學習

快速開始​

常見工作流​

工作流 1：完整 RLHF 流水線（SFT → 獎勵模型 → PPO）​

工作流 2：使用 DPO 進行簡單的偏好對齊​

工作流 3：使用 GRPO 進行內存高效的在線強化學習​

何時使用及替代方案對比​

常見問題​

高級主題​

硬件要求​

資源​

技能元數據

參考：完整 SKILL.md

快速開始

常見工作流

工作流 1：完整 RLHF 流水線（SFT → 獎勵模型 → PPO）

工作流 2：使用 DPO 進行簡單的偏好對齊

工作流 3：使用 GRPO 進行內存高效的在線強化學習

何時使用及替代方案對比

常見問題

高級主題

硬件要求

資源