Skip to main content
Ctrl+K
XTuner 0.2.0 文档 - Home

开始使用

  • 安装
  • 语言模型微调
  • 多模态大模型微调
  • [Beta] RL: GRPO训练GSM8K

预训练与微调

  • 使用 Trainer 进行大模型微调
  • 使用 Trainer 进行多模态大模型微调
  • 训练配置
  • 数据集
  • 对话模板说明

强化学习

  • [Beta] 使用 Python 配置自定义 GRPO 训练

进阶教程

  • 微调与预训练
    • 模型
    • 数据流
    • 损失函数
    • FP8 训练
    • 性能分析
  • 强化学习
    • 模型
    • 自定义数据集
    • AgentLoop
    • RL Trainer 高级使用
    • Judger
    • 损失函数

Benchmark

  • Megatron MoE训练benchmark及调优指南

旧版文档

  • 欢迎来到 XTuner 的中文文档
    • 安装
    • 快速上手
    • 预训练模型权重
    • 准备对话模版
    • 开源指令微调数据集(LLM)
    • 自定义指令微调数据集(LLM)
    • 自定义预训练数据集 (LLM)
    • 多模态数据集 (VLM)
    • 超大规模数据集
    • 修改训练配置
    • 可视化训练过程
    • DPO 介绍
    • DPO 快速上手
    • 修改 DPO 训练配置
    • Reward Model 介绍
    • Reward Model 快速上手
    • 修改 Reward Model 训练配置
    • 偏好数据集
    • DeepSpeed
    • Flash Attention
    • Varlen Attention
    • 数据拼接
    • 数据分组
    • 序列并行
    • 调整加速策略
    • 速度基准
    • 主要差异
    • Tokenized 数据集 + InternLM2
    • Processed 数据集 + InternLM2
    • Processed 数据集 + 其他模型
    • Processed 普通对话数据集

API

  • Pretrain & SFT Trainer
    • xtuner.v1.train.trainer.Trainer
    • xtuner.v1.train.toy_tokenizer.UTF8ByteTokenizer
  • Config
    • xtuner.v1.config.FSDPConfig
    • xtuner.v1.config.OptimConfig
    • xtuner.v1.config.AdamWConfig
    • xtuner.v1.config.LRConfig
    • xtuner.v1.config.GenerateConfig
  • RL Trainer
    • xtuner.v1.train.rl_trainer.RLColocateTrainer
    • xtuner.v1.train.rl_trainer.RLColocateTrainerConfig
    • xtuner.v1.train.rl_trainer.RLDisaggregatedTrainer
    • xtuner.v1.train.rl_trainer.RLDisaggregatedTrainerConfig
  • RL Config
    • xtuner.v1.rl.utils.AcceleratorResourcesConfig
    • xtuner.v1.rl.utils.CPUResourcesConfig
    • xtuner.v1.rl.rollout.worker.RolloutConfig
    • xtuner.v1.rl.agent_loop.SingleTurnAgentLoopConfig
    • xtuner.v1.rl.agent_loop_manager.AgentLoopManagerConfig
    • xtuner.v1.rl.agent_loop_manager.TaskSpecConfig
    • xtuner.v1.rl.agent_loop_manager.SamplerConfig
    • xtuner.v1.rl.agent_loop_manager.SyncProduceStrategyConfig
    • xtuner.v1.rl.agent_loop_manager.AsyncProduceStrategyConfig
    • xtuner.v1.rl.judger.JudgerConfig
    • xtuner.v1.rl.judger.GSM8KJudgerConfig
    • xtuner.v1.rl.judger.ComposedJudgerConfig
    • xtuner.v1.rl.replay_buffer.SyncReplayBufferConfig
    • xtuner.v1.rl.replay_buffer.AsyncReplayBufferConfig
    • xtuner.v1.rl.evaluator.EvaluatorConfig
    • xtuner.v1.rl.trainer.WorkerConfig
    • xtuner.v1.rl.loss.BaseRLLossConfig
    • xtuner.v1.rl.loss.GRPOLossConfig
    • xtuner.v1.rl.loss.OrealLossConfig
    • xtuner.v1.rl.rollout_is.RolloutImportanceSampling
  • Loss Context
    • xtuner.v1.loss.ce_loss.CELossConfig
    • xtuner.v1.loss.ce_loss.CELossKwargs
    • xtuner.v1.loss.ce_loss.CELossContext
    • xtuner.v1.rl.loss.BaseRLLossConfig
    • xtuner.v1.rl.loss.BaseRLLossKwargs
    • xtuner.v1.rl.loss.BaseRLLossContext
    • xtuner.v1.rl.loss.GRPOLossConfig
    • xtuner.v1.rl.loss.GRPOLossKwargs
    • xtuner.v1.rl.loss.GRPOLossContext
    • xtuner.v1.rl.loss.OrealLossConfig
    • xtuner.v1.rl.loss.OrealLossKwargs
    • xtuner.v1.rl.loss.OrealLossContext
  • .rst

微调与预训练

  • 使用 Trainer 进行大模型微调
  • 使用 Trainer 进行多模态大模型微调
  • 训练配置
  • 数据集
  • 对话模板说明

上一页

[Beta] RL: GRPO训练GSM8K

下一页

使用 Trainer 进行大模型微调

作者: XTuner Contributors

© Copyright 2024, XTuner Contributors.