Autoplay
Autocomplete
Previous Lesson
Complete and Continue
大模型 Agent 强化学习实战:从后训练、奖励设计到工业级对齐系统
大模型 Agent 强化学习实战:从后训练、奖励设计到工业级对齐系统
为什么 Agent RL 是大模型最关键的分水岭? (3:43)
课程地图(上):RL 基础与奖励工程 (5:25)
课程地图(下):工业战场与判断框架 (4:56)
这门课为什么这样设计?4 个核心取舍 (3:38)
这门课到底适不适合你? (4:04)
这门课交付了什么?彩蛋章节怎么安排? (2:46)
移动端学习指南(Teachable App)
通过淘宝店铺购买
课程资源中心
精品课程专享Discord频道/微信群入口
前沿 Agent RL 论文梳理(持续更新)
LLM 后训练与对齐论文学习地图
260+ 篇论文归纳(持续更新)
Agent RL 思维导图(持续更新)
第一章 大模型RL与Agent对齐全景:从RLHF到Agentic RL的演化地图与选型判断
章节概览
大模型对齐算法8年演进,四大家族一次讲透 (12:19)
Agent、搜索、视觉、情感——奖励信号从哪来? (12:56)
RL有不可逾越的天花板?放大器vs注入器 (16:00)
第二章 从MDP到LLM后训练:构建Agent RL的公共语言
章节概览
RL底层逻辑:从交互循环到期望回报 (10:20)
LLM做完SFT为什么还不够?5类SFT难以解决的问题 (8:51)
MDP五元组一次讲透:强化学习问题怎么形式化 (12:05)
第三章 价值函数、贝尔曼方程与PPO:从RL算法根基到LLM优化路径
章节概览
策略、回报与价值函数的核心概念 (10:30)
贝尔曼方程:递归分解与期望方程的推导 (10:39)
RL求解方法:从动态规划到策略梯度 (9:31)
第四章 大模型偏好对齐算法全景:RLHF、RLAIF、DPO与对齐五大陷阱
章节概览
对齐为什么不是把 LLM 做大就能解决——HHH、SFT 局限与 RLHF 的起点 (15:52)
RLHF的RL阶段——PPO、KL惩罚与 RLHF的稳定性命脉 (10:12)
RLAIF与可扩展监督——Constitutional AI、LLM-as-Judge与Self-Rewarding (13:15)
对齐算法家族地图——DPO、RLVR、GRPO全景与五大对齐陷阱 (17:13)
第五章 奖励函数设计与Verifiers实战:RLVR、PRM、GRM与奖励黑客
章节概览
本章预告 (2:38)
可验证奖励:RLVR 的设计范式 (7:46)
生成式奖励模型:从打分到反馈生成 (5:32)
奖励粒度设计:从稀疏信号到密集监督 (6:19)
无监督奖励:模型自进化的内在信号 (9:20)
过程奖励 vs 结果奖励:长链路推理中的信用分配 (14:19)
奖励黑客与过优化:成因、识别与防御 (8:50)
Verifiers框架解析:从奖励函数到工业级奖励基础设施 (17:49)
Verifiers实战入门:任务、模型调用与奖励闭环 (14:19)
Verifier完整实战:从数据集到Reward评估闭环 (14:21)
第六章 Agentic RL信用分配原理与实战:从稀疏到多维反馈
章节概览
信用分配为何难?从痛点到方案 (4:15)
Reagent-U 架构与三阶段数据流 (9:18)
创新归纳与实验剖析 (7:52)
Reagent项目概览与架构设计 (10:48)
项目概览、架构设计与Docker环境配置 (8:41)
Agent SFT和RL实战(上):流程、数据集与SFT训练 (18:39)
Agent SFT和RL实战(下):Reward部署与Agent RL训练 (14:59)
第七章 工业级RL算法与VeRL实战:PPO、GRPO、DPO与分布式训练框架
章节概览
为什么用RL?Policy/RM/Critic/Reference四模型详解 (10:39)
从PPO到GRPO:组采样+相对优势+完整目标函数详解 (12:27)
告别奖励模型:DPO直接偏好优化完整拆解 (17:58)
从零看懂VeRL:工业级RL后训练框架的全局视图与六层架构 (11:30)
DataProto与Single Controller:让分布式训练看起来像单进程的两块基石 (8:54)
训练路径全程拆解:从一条命令到一次完整PPO训练 (8:46)
VeRL算法扩展机制揭秘:如何组合出PPO、GRPO、DAPO等十多种算法 (8:43)
Reward Loop与Agent Loop:从PPO训练器迈向多轮工具调用的后训练运行时 (8:18)
VeRL的当下与未来:架构演进、实验区与扩展点地图 (11:15)
VeRL实战:基于Qwen3跑通GRPO强化学习训练 (12:45)
VeRL实战:基于Qwen3跑通DPO中文偏好对齐 (10:13)
第八章 数据分析Agent端到端实战:DeepAnalyze + 8B小模型 + 代码沙箱
章节概览
项目全景:架构、能力与数据流 (10:05)
部署数据科学Agent:环境搭建+量化配置+vLLM启动全流程 (8:20)
DeepAnalyze部署实战:API调用+Agent推理循环原理详解 (15:53)
Agent 推理机制:ReAct 循环与标记系统 (5:17)
基于 Docker 一键部署 Web UI 服务 (11:36)
基于Docker完成Qwen3的SFT与GRPO强化学习实战 (19:30)
SFT + 强化学习 + 代码沙箱:DeepAnalyze Agent 训练全流程深度解析 (17:16)
第九章 : Agentic RL训练系统与OpenClaw-RL实战:Toolcall RL与异步训练闭环
章节概览
多轮Agent到底该怎么训?Agentic RL的环境、数据与奖励闭环 (19:50)
OpenClaw-R与gentic R稳定训练实战逻辑,PPO、异步系统一次讲清 (18:42)
OpenClaw-RL全系统拆解,Next-State Signal + 异步四环架构 + 三大核心算法 (20:37)
OpenClaw-RL核心源码精讲,从Sample到PPO Loss到Combine的完整实 (17:11)
Toolcall RL异步训练闭环全解,把rollout、actor、PRM拼成一条异步流水线 (8:38)
从SFT到ToolCall模型:Qwen3-0.6B + ReTool-SFT实战跑通 (23:19)
RL强化学习训练全流程演示: Qwen3-0.6B + ReTool-RL (14:16)
用 PRM 跑通过程奖励训练,提升 Qwen3-0.6B 推理过程 (11:09)
第十章 : Agent Skill与自进化Agent实战:Skill路由、内化与Memento-Skills
章节概览
Agent Skill 到底是什么?五种形态与五条边界 (7:27)
Agent Skill 的问题-解法坐标:7 大痛点 × 8 类解法 (8:10)
SkillRL 枢纽与双轨共演化的四条路径
EvoSkill、Trace2Skill、SkillClaw:三种为自演化Agent加护栏的思路
Skill 多了以后怎么办:Routing、SkillGraph 与大规模技能检索
Skill是代码,LLM是处理器:Agent世界正在长出自己的LLVM
Skill 内化:把 Skill 训进模型参数,还是继续挂在外面?
怎么选一条不踩坑的Skill路线?数据、延迟、场景、生态的四维决策框架
不动权重,Agent 也能越用越强:Memento-Skills 源码精讲
Memento-Skills实战前准备:安装、配置与启动校验 (9:39)
从PDF生成任务入门Memento-Skills核心机制 (8:55)
打造自己的Skill:描述调优、脚本化与稳定执行 (22:36)
端到端自进化闭环:从能力缺口到Skill改进 (17:17)
每日AI资讯助手:实时抓取、评估与生成日报 (16:50)
第十一章:153篇大模型RL与Agentic RL论文精讲:从算法到系统的判断框架
章节概览
PPO改进与工程化:从"玄学调参"到"工程科学".
DPO的攻防战:18篇理论修补 + 15篇工程落地
41篇论文读懂GRPO:归一化偏差、熵坍缩、梯度消失,全球顶尖团队如何逐一攻克
奖励建模与鲁棒性:当 AI 学会作弊,我们怎么训练出靠谱的裁判?
大模型RL训练系统与框架:异步 vs 同步,谁才是大模型 RL 训练的最优解?
信用分配、奖励稀疏、训练崩塌,多轮Agent RL三大难题全拆解
VeRL的当下与未来:架构演进、实验区与扩展点地图
Lesson content locked
If you're already enrolled,
you'll need to login
.
Enroll in Course to Unlock