RL Config# Resource Config# rl.utils.AcceleratorResourcesConfig AcceleratorResourcesConfig 的别名 rl.utils.CPUResourcesConfig CPUResourcesConfig 的别名 Rollout Config# rl.rollout.worker.RolloutConfig RolloutConfig 的别名 Agent Loop Config# rl.agent_loop.SingleTurnAgentLoopConfig SingleTurnAgentLoopConfig 的别名 rl.agent_loop_manager.AgentLoopManagerConfig AgentLoopManagerConfig 的别名 rl.agent_loop_manager.TaskSpecConfig TaskSpecConfig 的别名 rl.agent_loop_manager.SamplerConfig SamplerConfig 的别名 rl.agent_loop_manager.SyncProduceStrategyConfig SyncProduceStrategyConfig 的别名 rl.agent_loop_manager.AsyncProduceStrategyConfig AsyncProduceStrategyConfig 的别名 Judger Config# rl.judger.JudgerConfig JudgerConfig 的别名 rl.judger.GSM8KJudgerConfig GSM8KJudgerConfig 的别名 rl.judger.ComposedJudgerConfig ComposedJudgerConfig 的别名 Replay and Evaluation Config# rl.replay_buffer.SyncReplayBufferConfig SyncReplayBufferConfig 的别名 rl.replay_buffer.AsyncReplayBufferConfig AsyncReplayBufferConfig 的别名 rl.evaluator.EvaluatorConfig EvaluatorConfig 的别名 Training and Loss Config# rl.trainer.WorkerConfig WorkerConfig 的别名 rl.loss.BaseRLLossConfig BaseRLLossConfig 的别名 rl.loss.GRPOLossConfig GRPOLossConfig 的别名 rl.loss.OrealLossConfig OrealLossConfig 的别名 rl.rollout_is.RolloutImportanceSampling RolloutImportanceSampling 的别名