模型#
XTuner v1 的 TrainEngine 通过不同的 TransformerConfig 子类支持多种 Transformer 架构。下文总结了当前支持的模型(不包含 RL 相关配置)。
基类配置#
下表列出基类配置,它们定义了各个模型系列,并提供了从 HuggingFace 加载预训练权重的 from_hf 接口。
基类配置 |
模型系列 |
架构类型 |
对应的 HuggingFace 模型 |
|---|---|---|---|
|
Qwen2 Dense |
Dense |
|
|
Qwen3 Dense |
Dense |
|
|
DeepSeek-V3 |
MoE |
|
|
GPT-OSS |
MoE |
|
|
Qwen3 MoE |
MoE |
|
具体模型配置#
下表列出具体模型配置,它们继承自上述基类,每个配置对应特定的模型规模或变体。
配置类名 |
基类 / 所属系列 |
架构类型 |
规模 / 说明 |
|---|---|---|---|
|
|
Dense |
约 7B 参数 |
|
|
Dense |
约 8B 参数 |
|
|
Dense |
约 4B 参数 |
|
|
Dense |
约 0.6B 参数 |
|
|
Dense(VL 文本主干) |
约 4B 参数,用于多模态 |
|
|
Dense(VL 文本主干) |
约 8B 参数,用于多模态 |
|
— |
MoE |
约 671B 总参 / 约 37B 激活 |
|
|
MoE |
约 21B 总参 / 约 3.6B 激活 |
|
|
MoE |
约 117B 总参 / 约 5.8B 激活 |
|
|
MoE |
约 30B 总参 / 约 3B 激活 |
|
|
MoE |
约 235B 总参 / 约 22B 激活 |
|
|
MoE |
FoPE(基于频率的位置编码)变体 |
|
|
MoE(VL 文本主干) |
约 30B 总参,用于多模态 |
|
|
MoE(VL 文本主干) |
约 235B 总参,用于多模态 |
|
|
MoE(VL 文本主干) |
约 35B 总参 / 约 3B 激活,用于多模态 |
Compose 多模态模型#
除了纯文本模型外,XTuner 还支持多模态 Compose 模型,它们将视觉编码器(vision encoder)、投影层(projector)和语言模型组合在一起。这些配置直接继承自 BaseComposeConfig 而非 TransformerConfig,但其内部封装了上文列出的文本模型配置。
Compose 基类配置#
基类配置 |
模型系列 |
模态 |
说明 |
|---|---|---|---|
|
Qwen3-VL |
图像/视频 + 文本 |
基于 Qwen3 文本主干的 VL 模型 |
|
InternVL |
图像 + 文本 |
基于 InternViT + Qwen3 的 VL 模型 |
|
InternS1 |
图像 + 文本 |
基于 InternViT + Qwen3 的科学多模态模型 |
具体 Compose 模型配置#
配置类名 |
Compose 基类 / 系列 |
文本模型配置 |
规模 / 说明 |
|---|---|---|---|
|
|
|
约 30B 总参,MoE VL |
|
|
|
约 235B 总参,MoE VL |
|
|
|
约 4B 参数,Dense VL |
|
|
|
约 8B 参数,Dense VL |
|
|
|
约 35B 总参 / 约 3B 激活,MoE VL |
|
|
|
约 8B 参数,Dense VL |
|
|
|
约 30B 总参,MoE VL |
|
|
|
约 1B 参数,Dense VL |
|
|
|
约 235B 总参,MoE 多模态 |
|
|
|
约 8B 参数,Dense 多模态 |
继承关系#
下图展示了 TrainEngine 支持的所有配置类的完整继承层级,包括 TransformerConfig 和 BaseComposeConfig 两大分支。
XTunerBaseModelConfig
├── TransformerConfig
│ ├── Dense 模型
│ │ ├── Qwen2DenseConfig
│ │ │ └── Qwen2Dense7BConfig
│ │ └── Qwen3DenseConfig
│ │ ├── Qwen3Dense8BConfig
│ │ │ └── Qwen3VLTextDense8BConfig
│ │ ├── Qwen3Dense4BConfig
│ │ │ └── Qwen3VLTextDense4BConfig
│ │ └── Qwen3Dense0P6BConfig
│ └── MoE 模型(经由 MoEConfig)
│ ├── DeepSeekV3Config
│ ├── GptOssConfig
│ │ ├── GptOss21BA3P6Config
│ │ └── GptOss117BA5P8Config
│ ├── Qwen3MoEConfig
│ │ ├── Qwen3MoE30BA3Config
│ │ │ └── Qwen3VLTextMoE30BA3Config
│ │ ├── Qwen3MoE235BA22Config
│ │ │ └── Qwen3VLTextMoE235BA22Config
│ │ └── Qwen3MoEFoPEConfig
│ └── Qwen3_5_VLTextMoEConfig
│ └── Qwen3_5_VLTextMoE35BA3BConfig
└── BaseComposeConfig
├── Qwen3VLBaseConfig
│ ├── Qwen3VLMoE30BA3Config
│ ├── Qwen3VLMoE235BA22Config
│ ├── Qwen3VLDense4BConfig
│ ├── Qwen3VLDense8BConfig
│ └── Qwen3_5_BaseConfig
│ └── Qwen3_5_VLMoE35BA3Config
├── InternVLBaseConfig
│ ├── InternVL3P5Dense8BConfig
│ ├── InternVL3P5MoE30BA3Config
│ └── InternVL3P5Dense1BConfig
└── InternS1BaseConfig
├── InternS1Config
└── InternS1MiniConfig