Skip to main content

Ctrl+K

开始使用

安装
语言模型微调
多模态大模型微调
[Beta] RL: GRPO训练GSM8K

预训练与微调

使用 Trainer 进行大模型微调
使用 Trainer 进行多模态大模型微调
训练配置
数据集
对话模板说明

强化学习

[Beta] 使用 Python 配置自定义 GRPO 训练

进阶教程

微调与预训练
强化学习

Benchmark

Megatron MoE训练benchmark及调优指南

旧版文档

欢迎来到 XTuner 的中文文档

API

Pretrain & SFT Trainer
- xtuner.v1.train.trainer.Trainer
- xtuner.v1.train.toy_tokenizer.UTF8ByteTokenizer
Config
RL Trainer
RL Config
Loss Context

.rst

强化学习

强化学习#

强化学习

模型
自定义数据集
AgentLoop
RL Trainer 高级使用
Judger
损失函数
- GRPOLoss
- Custom Loss

上一页

性能分析

下一页

模型

作者： XTuner Contributors

© Copyright 2024, XTuner Contributors.