强化学习# 强化学习 模型 自定义数据集 AgentLoop 类型与构建 输入输出约定 SingleTurnAgentLoop 自定义 AgentLoop 在训练配置中使用 自定义 Checklist RL Trainer 高级使用 整体关系 AgentLoopManager ProduceStrategy RLColocateTrainer RLDisaggregatedTrainer 如何选择 Judger Judger 类型 输入输出约定 data_source 与 merge_fn 自定义 Judger 在训练配置中使用 预置 Judger 损失函数 GRPOLoss Custom Loss