Skip to main content

Ctrl+K

开始使用

安装
语言模型微调
多模态大模型微调
[Beta] RL: GRPO训练GSM8K

预训练与微调

使用 Trainer 进行大模型微调
使用 Trainer 进行多模态大模型微调
训练配置
数据集
对话模板说明

强化学习

[Beta] 使用 Python 配置自定义 GRPO 训练

进阶教程

微调与预训练
强化学习

Benchmark

Megatron MoE训练benchmark及调优指南

旧版文档

欢迎来到 XTuner 的中文文档

API

Pretrain & SFT Trainer
- xtuner.v1.train.trainer.Trainer
- xtuner.v1.train.toy_tokenizer.UTF8ByteTokenizer
Config
RL Trainer
RL Config
Loss Context

.rst

欢迎来到 XTuner 的中文文档

目录

文档

欢迎来到 XTuner 的中文文档#

LLM 一站式工具箱

Star Watch Fork

文档#

开始使用

安装
- 最佳实践
- 验证
快速上手

准备

预训练模型权重
准备对话模版

训练

开源指令微调数据集（LLM）
自定义指令微调数据集（LLM）
自定义预训练数据集 (LLM)
多模态数据集 (VLM)
- 数据准备
- 训练
- 对话
- 评测
- FAQ
超大规模数据集
- 在线数据处理
- 离线数据处理
修改训练配置
- 配置文件速览
- 常见训练配置修改
可视化训练过程
- TensorBoard
- WandB

DPO

DPO 介绍
DPO 快速上手
修改 DPO 训练配置

Reward Model

Reward Model 介绍
Reward Model 快速上手
修改 Reward Model 训练配置
偏好数据集

加速训练

DeepSpeed
- 如何选择 ZeRO 策略
- 使用 ZeRO 策略训练
Flash Attention
Varlen Attention
- 支持列表
- 使用变长注意力机制训练
数据拼接
- 简介
- 使用数据拼接
数据分组
- 使用 LengthGroupedSampler
序列并行
调整加速策略
速度基准

InternEvo 迁移

主要差异
Tokenized 数据集 + InternLM2
Processed 数据集 + InternLM2
Processed 数据集 + 其他模型
Processed 普通对话数据集

上一页

Megatron MoE训练benchmark及调优指南

下一页

安装

目录

文档

作者： XTuner Contributors

© Copyright 2024, XTuner Contributors.