🌟**欢迎订阅 TGLTommy 会员专享课程，与精品课程不同，会员专享课程采用按月订阅制，并会持续更新，你可以根据自己的学习需求进行订阅。**

相比精品课程，会员专享课程更加轻量。精品系统大课通常围绕一个完整技术方向展开，从理论基础、算法原理、核心代码到深度项目实战，系统搭建一条完整学习路径，课程体量通常更大，实战项目也更深入，更适合长期系统学习和企业级落地能力构建。

而会员专享课程更关注前沿项目和专题实践，很多真正值得关注的 AI 技术，最早往往出现在一个个开源项目、实验框架、论文实现和工程案例中。

我会从 AI 前沿技术中筛选当前具有学习价值的项目与专题，将它们整理成独立的实践合集，带你从项目背景、核心原理、技术架构到代码实践逐步拆解，帮助你快速理解这些项目为什么值得关注、核心思想是什么、具体又是如何实现的。

如果你已经具备一定大模型基础，这些内容会帮助你持续接触新的技术案例、新的项目思路和新的实践方法，让你在长期学习中保持技术敏感度，不断拓展自己的 AI 技术视野。

*本课程不设每月固定更新频次，具体更新将根据课程专题、项目实践和内容规划安排推进。下方课程目录中可查看目前已更新的全部会员课程，你可以根据自己的学习需求进行订阅。

🔔 如需通过淘宝或微信支付，请点此查看《通过淘宝或微信小店购买》。

AI大模型课程，唐国梁Tommy课程，DeepSeek，AI技术教程，强化学习，Agent RL，agent continual learning

今天的 AI Agent 用一百次和用第一次几乎没区别，每次醒来都失忆。我们从第一性原理追问：怎样让过去的经验，以合适的形式进入系统，并对未来能力产生可验证的改善。

🔹 什么才算学会：分清状态延续 ≠ 记忆 ≠ 学习,并点破四种伪学习(续写 / 缓存 / 回放 / 泄漏)

🔹 该记住什么：存得多 ≠ 学得会,记忆要做好四个动作——写入 / 巩固 / 检索 / 遗忘

🔹 从“做过”到“会做”:技能抽象就是去掉偶然、保留结构，核心是那道成功验证器

🔹 什么时候改权重：一条经验进上下文、记忆、技能还是参数,由五维路由决定，不是写得深，而是写得准

🔹 拼成会成长的系统：七层治理闭环 + 防住四类风险,最终收敛成一个公式——持续学习 = 经验获取 + 可信评估 + 信息抽象 + 更新路由 + 未来迁移 + 遗忘回滚

AI大模型课程，唐国梁Tommy课程，DeepSeek，AI技术教程，强化学习，Agent RL，agent loop

本系列带你彻底吃透 Agent Loop——当下所有主流 AI Agent 最底层的统一内核：一行 while(true) 循环，问模型、执行工具、回填结果，直到模型不再要工具。

🔹 Agent Loop 的最小内核与最重要的心智转变：模型不是协作者，而是被循环反复调用的一个函数 llm(messages, tools)

🔹 上下文为什么是第一约束，以及三大治理机制（Prompt Caching / Compaction / 子代理隔离）如何把二次成本拉回线性

🔹 终止为什么比干活难一百倍：机械信号 vs 语义信号，为何"模型说做完了"最不可信，加三道硬护栏

🔹 从写 Prompt 到写 Loop 的范式迁移：Loop Engineering、验证循环与 LangChain 四层栈（L1–L4）

🔹 循环的第二重身份：推理时是产品，训练时就是一条 RL Rollout（RLVR / 有梯度 vs 无梯度）

本节课带你做一个智能电商客服 Demo：

Skill = 知识模块（退款政策 / 产品 FAQ / 故障排查），按需加载，不再堆 Prompt

MCP = 执行工具（查订单/检查支付/执行退款/创建工单/对接CRM），让 Agent 真的能办事

实战覆盖 3 个高频场景：

🔹 退款闭环：政策判断 → 查单 → 资格判断 → 退款 → 工单记录

🔹 产品咨询：多 Skill 动态选择，快速给推荐与对比

🔹 故障排查+查单跨域协作：并行工具调用，合并结果给可执行方案

🔹 开发用 stdio，生产用 HTTP 的部署形态怎么选。

本期带你从0到1跑通 AgentEvolver 的 AppWorld 实战：一个让 Agent 能“自己教自己”的自进化训练框架（Self-Questioning / Self-Navigating / Self-Attributing）。

你将学到：

🔹 AgentEvolver 三大核心机制到底在解决什么问题（自动生成任务 / 失败经验学习 / 步骤级奖励归因）

🔹 AppWorld 是什么、为什么适合作为入门环境（Python REPL + 457 个可调用 API + 多步骤任务）

🔹 最小化训练示例：只用环境内置数据集做基础 GRPO 训练（先把流程跑通）

🔹 环境服务如何启动、如何用 curl 验证服务正常

🔹 配置文件 basic.yaml 的关键点：禁用经验管理 ReMe、禁用 ADCA-GRPO，自顶向下理解训练入口

本系列课程将带你深入理解 Agent Lightning —— 微软研究院提出的零代码强化学习（RL）优化 AI Agent 的工业级方案。

本节课程重点讲解 Spider SQL Agent：

🔹 多轮交互式 SQL 生成与验证

🔹 基于奖励信号的强化学习优化

🔹 LangGraph 状态管理 + Agent Lightning 强化学习框架

🔹 Spider 数据集驱动的 SQL 查询优化

通过本节学习，你将完整掌握从环境搭建、数据准备、Agent 实现、提示词策略、训练框架到RL优化的全流程，为构建智能 SQL Agent 提供实战参考。

本节课程带你全面解析智能计算 Agent 项目 Calc-X，一个通过 AutoGen 与 AgentLightning 框架无缝集成的数学计算 AI Agent 实战案例。

核心亮点包括：

🔹 AutoGen 多智能体对话系统的应用与扩展

🔹 AgentLightning 框架 + vLLM 高性能推理服务器的集成

🔹 MCP (Model Context Protocol) 工具调用与计算器服务器实践

🔹 强化学习 (RL) 在智能 Agent 训练中的奖励优化流程

通过本课程，你将学习如何构建、训练与优化一个可执行数学计算任务的 AI Agent，并深入理解多智能体协作 + 工具调用 + RL 奖励反馈的完整闭环。

本项⽬基于 Agent Lightning 框架实现了⼀个⽀持检索增强⽣成（RAG）的智能 Agent 系统。

该系统通过 WebQA 知识库检索相关信息来回答⽤户问题，并采⽤强化学习进⾏优化训练。主要解决了传统 RAG 系统答案质量不稳定、检索相关性不⾜的痛点。

核⼼特性:

🔹 基于 WebQA 的知识检索

🔹 多轮对话式问答

🔹 强化学习优化

🔹 分布式训练⽀持

🔹 实时性能评估

这是⼀个完整的 Prompt 优化训练案例，使⽤ APO（Asynchronous Prompt Optimization，异步提示优化）算法来训练⼀个智能会议室预订Agent。该案例展示了如何使⽤ Agent-Lightning 框架，通过⾃动化⽅式优化 AI Agent 的 Prompt 模板，⽽⾮微调模型参数。

核⼼特性：

🔹 智能决策：使⽤ LLM 进⾏会议室选择决策

🔹 函数调⽤：⽀持⼯具调⽤模式查询会议室可⽤性

🔹 ⾃动评分：使⽤ LLM Judge 对选择结果进⾏⾃动化评估

🔹 可训练：集成 Agent-Lightning 框架，⽀持通过 APO 算法优化提示模板

🔹 完整追踪：使⽤ AgentOps 进⾏执⾏轨迹追踪和调试

Single Agent 实战（4个案例）

🔹 Search Agent (搜索智能体)：基于 AWorld 框架实现了⼀个智能搜索助⼿，能够⾃动选择最合适的搜索引擎（维基百科、DuckDuckGo、Google、百度）来获取信息，并⽣成综合分析报告。

🔹 Analyst Agent (分析智能体)：一个基于 AWorld 框架构建的专业数据分析师智能体案例，展示了如何创建⼀个具备商业洞察能⼒的 AI 智能体来解决真实的业务问题。

🔹 本地⼯具 Agent (获取时间｜计数器)：这个案例展示了如何在 AWorld 框架中创建和使⽤⾃定义⼯具。

🔹 多⼯具协作 Agent 这是⼀个基于 AWorld 框架构建的多功能研究助⼿ Agent，专⻔⽤于市场调研和⽂档分析。案例展示了如何创建⼀个具备多种⼯具能⼒的智能体，能够处理复杂的⽂档分析任务。

VisionRAG Pro 是⼀个基于 UltraRAG 2.0 框架构建的智能视觉理解系统，专⻔⽤于图像理解、视觉问答、图表分析和⽂档解析等复杂的多模态任务。

该系统采⽤迭代式深度分析和智能路由决策机制，通过多轮推理实现对视觉内容的精准理解和智能问答：

🔹 检索增强视觉理解

上下⽂感知检索 - 基于分析问题动态检索相关知识

多模态知识融合 - 结合检索信息增强视觉理解能⼒

渐进式知识积累 - 每轮分析都会积累更深层的理解

🔹 ⾼效流程控制

声明式 Pipeline - YAML 配置实现复杂推理逻辑

并⾏处理优化 - ⽀持多模态数据的⾼效处理

模块化可扩展 - 新功能可⽆缝集成到现有流程

本节课带你从零开始搭建一个自定义 VRAG 系统，覆盖了从文档语料库准备、ColQwen2 嵌入向量生成、索引数据库构建，到 FastAPI 服务部署与 Streamlit 可视化界面搭建的全流程实战。

🔹 文档预处理与图片提取：将 PDF 高分辨率转图，构建图像语料库

🔹 ColQwen2 嵌入测试与索引构建：ImageNode 对象生成与保存

🔹 搜索引擎测试与 API 部署：FastAPI 启动参数与知识库绑定

🔹 VLM 推理服务部署：基于 Qwen2.5-VL-7B-VRAG 实现多模态推理

🔹 Web 可视化界面：Streamlit 前端展示与交互

通过本课，你将学会如何将多模态 Embedding 技术与检索增强生成 RAG 结合，构建可扩展、可定制的智能多模态检索问答系统。

本节课程带你完整走一遍 VRAG-RL 强化学习实战流程，从环境配置、搜索引擎与奖励模型服务启动，到执行训练脚本与参数配置，全流程剖析每一个关键步骤。

课程中使用 Qwen2.5-VL-3B-Instruct 多模态模型，结合 GRPO 策略优化，带你掌握强化学习在 RAG 场景中的实战应用。

🔹 Step1: Conda环境与依赖配置

🔹 Step2: 启动搜索引擎服务

🔹 Step3: 启动奖励模型服务

🔹 Step4: 执行训练脚本（含参数详细解读）

适合对象：AI算法工程师、科研人员、以及希望深入理解强化学习 + RAG 技术落地的学习者。

课程目录

TGLTommy 订阅会员专享课程（持续更新）

Available in days

days after you enroll

Agent Continual Learning｜智能体持续学习

Available in days

days after you enroll

Agent Loop 第一性原理

Available in days

days after you enroll

Agent Skills 原理与实战

Available in days

days after you enroll

阿里 AgentEvolver

Available in days

days after you enroll

AWorld 多智能体框架

Available in days

days after you enroll

清华UltraRAG 原理与实战

Available in days

days after you enroll

微软Agent Lightning 理论与实战

Available in days

days after you enroll

阿里多模态VRAG-RL 原理与实战

Available in days

days after you enroll

立即订阅 TGL Tommy 会员专享课程，开始 AI 前沿技术学习之旅！

🔔 如需通过淘宝或微信支付，请点此查看《通过淘宝或微信小店购买》。

$4.99/month

TGLTommy 订阅会员专享课程

这是一套面向长期学习者的会员专享内容。课程采用按月订阅制，围绕核心主题持续更新，帮助你不断跟进最新技术、最新案例与最新实践。

订阅期间，您可以持续获取：

已上线的全部会员课程内容
后续新增专题与更新内容
会员专属课程资料（如课程包含）
会员专属学习交流群（仅用作会员交流，与精品课程专享AI技术学习圈不同）

*本课程不设每月固定更新频次，具体更新将根据课程专题、项目实践和内容规划安排推进。你可以根据自己的学习需求和学习进度进行订阅～

*课程与资料仅限个人学习使用，禁止以任何形式复制、传播、或二次分发。

*网站使用说明，见《官网学习指南》。

*购买即表示同意《使用条款》与《隐私政策》。

如果你在购买课程过程中有任何疑问，可通过以下方式联系官方课程助理。

🔗 **点此通过 Telegram 获取支持**

💬 点此通过微信获取支持

This is a subscription product billed on a monthly basis until you cancel. Cancel anytime from the account management page.

解锁完整的大模型学习路径

如果你希望在某一个技术方向上进行更系统、更完整、更深入的学习，建议继续了解我的精品系统课程。精品课程通常围绕一个具体技术方向展开，会从算法原理、核心论文、代码实现到项目应用进行完整梳理，帮助你建立更扎实的知识体系和更深入的项目实践能力。

从奖励设计、信用分配到训练系统，全面掌握 Agent RL 的判断与落地方法。

一套系统化、生产级的 DeepSeek 大模型深度指南。

多模态大模型前沿算法及其应用，最新的研究成果与技术发展趋势。

官方微信公众号

欢迎关注我的微信公众号：唐国梁TGLTommy

我会不定期的在公众号内分享最新的 AI 前沿技术内容。如果你对课程有任何疑问，也可以在公众号内给我发送私信，我会在时间允许时尽快回复你。

官方 Discord 学习社区

对于不方便使用微信公众号或微信交流群的同学，TGLTommy AI Learning Hub 将作为课程更新与学习社群的补充入口。你可以在这里获取最新课程动态，并查看会员课程与精品课程专属频道的加入方式。

————————————————————————————————————————

如果你在购买课程过程中有任何疑问，可通过以下方式联系官方课程助理。

（请简单说明想了解的课程，我们会在工作时间内尽快回复。）

🔗 点此通过 Telegram 获取支持

💬 点此通过微信获取支持

关注 TGLTommy 官方账号

微信公众号：唐国梁 TGLTommy｜B站：唐国梁 Tommy / 唐国梁 Tommy的精品课

YouTube：唐国梁 Tommy｜小红书：唐国梁 Tommy｜抖音：唐国梁Tommy

TGLTommy Members

订阅会员专享课程

（持续更新）

🌟欢迎订阅 TGLTommy 会员专享课程，与精品课程不同，会员专享课程采用按月订阅制，并会持续更新，你可以根据自己的学习需求进行订阅。

而会员专享课程更关注前沿项目和专题实践，很多真正值得关注的 AI 技术，最早往往出现在一个个开源项目、实验框架、论文实现和工程案例中。

如果你已经具备一定大模型基础，这些内容会帮助你持续接触新的技术案例、新的项目思路和新的实践方法，让你在长期学习中保持技术敏感度，不断拓展自己的 AI 技术视野。

🔔 如需通过淘宝或微信支付，请点此查看《通过淘宝或微信小店购买》。

课程目录

立即订阅 TGL Tommy 会员专享课程，开始 AI 前沿技术学习之旅！

🔔 如需通过淘宝或微信支付，请点此查看《通过淘宝或微信小店购买》。

TGLTommy 订阅会员专享课程

如果你在购买课程过程中有任何疑问，可通过以下方式联系官方课程助理。

🔗 点此通过 Telegram 获取支持

💬 点此通过 微信 获取支持

解锁完整的大模型学习路径

官方微信公众号

欢迎关注我的 微信公众号：唐国梁TGLTommy

我会不定期的在公众号内分享最新的 AI 前沿技术内容。如果你对课程有任何疑问，也可以在公众号内给我发送私信，我会在时间允许时尽快回复你。

官方 Discord 学习社区

对于不方便使用微信公众号或微信交流群的同学，TGLTommy AI Learning Hub 将作为课程更新与学习社群的补充入口。你可以在这里获取最新课程动态，并查看会员课程与精品课程专属频道的加入方式。

————————————————————————————————————————

如果你在购买课程过程中有任何疑问，可通过以下方式联系官方课程助理。

（请简单说明想了解的课程，我们会在工作时间内尽快回复。）

关注 TGLTommy 官方账号

🌟**欢迎订阅 TGLTommy 会员专享课程，与精品课程不同，会员专享课程采用按月订阅制，并会持续更新，你可以根据自己的学习需求进行订阅。**

🔗 **点此通过 Telegram 获取支持**

💬 点此通过微信获取支持

欢迎关注我的微信公众号：唐国梁TGLTommy