欢迎来到 XTuner 的中文文档# LLM 一站式工具箱 Star Watch Fork 文档# 开始使用 安装 最佳实践 验证 快速上手 准备模型权重 准备微调数据集 准备配置文件 修改配置文件 启动微调 模型转换 + LoRA 合并 与模型对话 准备 预训练模型权重 [推荐] 方法 1:snapshot_download 方法 2: Git LFS 方法 3:AutoModelForCausalLM 准备对话模版 何处需要对话模版? XTuner 内置对话模版速览 如何选择对话模版? 如何自定义对话模版? 附:XTuner 内置 configs 所选择的对话模版 训练 开源指令微调数据集(LLM) 适配开源数据集 训练 模型转换 模型合并(可选) 对话 自定义指令微调数据集(LLM) 数据准备 训练 对话 模型合并(可选) 评测 自定义预训练数据集 (LLM) 数据准备 训练 对话 模型合并(可选) 评测 多模态数据集 (VLM) 数据准备 训练 对话 评测 FAQ 超大规模数据集 在线数据处理 离线数据处理 修改训练配置 配置文件速览 常见训练配置修改 可视化训练过程 TensorBoard WandB DPO DPO 介绍 简介 XTuner 中 DPO 训练的优势 开始训练 DPO 快速上手 准备预训练模型权重 准备训练数据 准备配置文件 启动训练 模型转换 修改 DPO 训练配置 损失函数 修改模型 训练数据 加速训练 Reward Model Reward Model 介绍 简介 XTuner 中 Reward Model 训练的优势 开始训练 开源模型 Reward Model 快速上手 准备预训练模型权重 准备训练数据 准备配置文件 启动训练 模型转换 修改 Reward Model 训练配置 损失函数 修改模型 训练数据 加速训练 偏好数据集 简介 使用自定义数据进行训练 使用开源数据集进行训练 加速训练 DeepSpeed 如何选择 ZeRO 策略 使用 ZeRO 策略训练 Flash Attention Varlen Attention 支持列表 使用变长注意力机制训练 数据拼接 简介 使用数据拼接 数据分组 使用 LengthGroupedSampler 序列并行 优化目标 支持情况 训练 实现方案 序列并行 API 调整加速策略 max_length pack_to_max_length use_varlen_attn max_position_embeddings sequence_parallel_size accumulative_counts 速度基准 硬件 软件环境 速度 InternEvo 迁移 主要差异 Tokenized 数据集 + InternLM2 Processed 数据集 + InternLM2 Processed 数据集 + 其他模型 Processed 普通对话数据集