课程简介
这是一门面向真实工程落地的大模型系统课程,围绕 DeepSeek 的技术路线,构建从“可控部署与应用搭建”到“核心机制与对齐算法”,再到“系统工程优化与多模态落地”的完整能力闭环。
你将掌握基于 vLLM 的本地部署与服务化、基于 unsloth 、LLaMA-Factory 的模型微调,以及 Agentic RAG 企业级产品落地(RAGFlow 检索增强生成系统);同时系统拆解激活函数与归一化、分词器BPE / BBPE、注意力机制 MHA / GQA / MLA 位置编码 RoPE / YaRN、专家混合 MoE、多词元预测 MTP 等关键模块 ,并深入覆盖从 RLHF 到 PPO / GRPO 的对齐技术与算法实战 。在此基础上,课程进一步延伸到训练 / 推理系统工程优化,通信、算子、并行调度、存储等,以及 DeepSeek-OCR 的原理、微调与部署项目实战。
核心机制拆解 · MoE / MTP / Attention 全覆盖 · 强化学习算法(PPO→GRPO)· Agentic AI 应用 · OCR 产品落地
为什么学习 DeepSeek ?
大模型研发与应用的全景方法论
DeepSeek 的价值不止是“强”,更在于它给出了可迁移的工程化范式:在架构层通过 MLA + MoE + MTP 兼顾吞吐与成本;在系统层以低精度计算与并行工程化手段缓解算力、通信与显存瓶颈;在训练层通过 SFT / 强化学习(GRPO)/ 蒸馏 形成可控的能力增长路径。
在本课程中,你不仅会理解这些设计背后的权衡逻辑,还会完成从 vLLM / SGLang / llama.cpp 部署服务化 到 性能诊断与优化 的实操,并打通可复现的训练链路,最终具备将推理模型落到“可上线、可优化、可交付系统”的能力。
DeepSeek 能在短时间内引爆全球 AI 社区,不仅在于其卓越的技术指标, 更在于它深刻地触动了⾏业的痛点,并获得了权威的认可。 从成本效益到技术透明度,从开源⽣态到学术认可,DeepSeek 正在重新定义 AI ⼤模型的发展范式。
AI Agent 浪潮:
DeepSeek 的推理赋能
依托 DeepSeek 强⼤推理与⼯具链整合能⼒,AI Agent 实现从「⾃动化助⼿」到「⾃主执⾏者」的跃迁。Agent 不再停留在回答问题的层面,而是能够围绕目标进行多步规划与执行:理解意图、拆解任务、选择并调用工具、在反馈中迭代修正,并将复杂流程沉淀为可复用的工作流。随着推理、工具调用与工程化治理能力逐步成熟,AI Agent 正从概念验证走向规模化落地,新一轮以“可执行、可编排、可控交付”为特征的智能应用浪潮正在到来。
DeepSeek 系统实战:
面向 Agent 落地的能力闭环
本系列课程以 DeepSeek 技术路线为主线,面向 AI Agent 的规模化落地,构建“机制理解—工程实现—系统交付”的完整能力闭环。目标不是让你停留在会用 API,而是具备从模型到系统、从实验到上线的可复用方法论与工程路径。
可控部署与服务化:从本地推理到对外服务,形成可复用上线范式。
机制级拆解与复现:核心模块逐层讲透,并用实验对比建立直觉。
对齐训练与能力形成:理解推理能力如何被训练出来,并能复现关键链路。
系统优化与交付闭环:在算力/通信/显存约束下完成诊断、优化与验证。
部署与推理服务:从本地到企业级的工程范式
课程从工程落地切入,系统覆盖推理框架选型、部署链路、服务化与企业级运行要点,帮助你把模型能力稳定地“变成服务”。
框架全景与选型:vLLM / SGLang / llama.cpp 的边界、适配场景与取舍逻辑。
推理服务部署实战:从单机到多实例,从 API 到稳定对外提供能力。
企业级部署范式:Docker + Nginx 负载均衡、部署组织与常见坑位排查。
工程环境与细节:CUDA/编译/模型转换/服务治理的关键环节与经验路径。
Agentic RAG 实战:从检索增强到工作流编排
AI Agent 的价值不止在“更会回答”,而在“能执行、可编排、可复用”。本课程以 RAGFlow 为核心抓手,带你搭建可落地的 Agentic RAG 系统。
RAGFlow 工程化搭建:五层架构与核心模块拆解,建立端到端视图。
Agent 工作流引擎:任务拆解、工具调用、链路编排与可复用流程沉淀。
文档理解链路增强:解析/分块/检索一体化组织思路与工程要点。
从 Demo 到交付:数据流、检索链路、评估与迭代,形成可运营体系。
核心机制拆解:从基础模块到高效推理关键技术
这部分是课程的“硬核底座”:把 DeepSeek 关键机制讲透、写出来、跑对比实验,建立可解释理解与工程直觉。
激活与归一化:ReLU→SwiGLU、BN/LN/ RMSNorm、Pre/Post-Norm 的原理与实践。
Tokenizer 体系:BPE/BBPE、SentencePiece Byte-level BPE 的训练与解码实战。
注意力机制演进:MHA→GQA→MLA,KV Cache 显存与吞吐的权衡与实验对比。
长上下文能力:RoPE 与 YaRN、NTK-aware 等机制与实现要点。
效率架构:MoE 设计、路由与负载;MTP 多词元预测与推理加速路径。
MoE 项目实战:从原理到 nanoMoE 复现
MoE 不只是“参数更大”,而是一整套专家路由、负载均衡与训练稳定性设计。本课程用 nanoMoE 项目带你复现关键链路,把设计取舍讲清楚。
专家混合的核心概念:路由器选择、负载均衡、专家计算的工程实现。
DeepSeekMoE 关键设计:无辅助损失等思路背后的动机与影响。
nanoMoE 复现路径:从环境到训练框架,搭建可运行的 MoE 模型。
可视化与诊断:路由权重、负载均衡与训练行为的分析方法。
MTP 推理加速:从算法到框架实现
MTP 是 DeepSeek 推理侧的重要加速路径之一。本课程不仅讲算法原理,还会进入框架侧实现细节,理解“为什么能快、瓶颈在哪里”。
MTP 核心思想与推导:一次预测多个 token 的机制与收益来源。
与其他方案对比:理解 MTP 的适用边界与工程权衡。
框架实现拆解:结合 vLLM 等部署链路理解实现要点。
实验与验证:从 demo 到性能评估,建立可度量结论。
对齐训练实战:PPO / GRPO 深度解析与可复现 pipeline
推理能力的形成离不开对齐训练。本课程将从 RLHF 到 PPO/GRPO 系统展开,并通过可复现的训练 pipeline 把关键环节讲透。
从 SFT 到 RLHF:问题定义、训练目标与关键组件的工程化理解。
PPO 深度解析:目标函数、clip、优势估计与训练稳定性要点。
GRPO 深度解析:核心机制、与 PPO 的差异、适用边界与实践策略。
训练链路复现:环境搭建、数据构造、rollout/样本机制与效果验证方法。
系统工程优化:通信、算子、并行调度与存储底座
真正能交付的大模型系统,离不开系统工程。本课程围绕性能与成本,建立从瓶颈定位到优化验证的闭环方法。
瓶颈全景:算力/通信/显存/I/O 的典型约束与指标体系。
优化方法论:如何定位瓶颈、排序优先级、验证收益与回归。
核心工程主题:通信优化、算子优化、并行调度、分层存储与系统化调优。
面向交付:在工程约束下稳定输出吞吐、延迟与成本的可控结果。
多模态生产落地:DeepSeek-OCR 全链路实战
以 DeepSeek-OCR 为案例,课程将多模态能力落到生产级工程:从原理理解到 LoRA 微调,再到 API 与服务部署,形成可交付项目闭环。
关键技术路径:视觉文本压缩/理解链路与 DeepEncoder 设计要点。
LoRA 微调实战:数据、训练策略、效果验证与迭代方向。
API 与服务部署:批处理、前后端服务化、Docker Compose 等工程实现。
业务落地视角:PDF/图片识别的流程组织、质量评估与扩展策略。
课程目录
- vLLM 框架特性与技术优势详解 (8:07)
- DeepSeek 推理服务:vLLM 部署全攻略 (15:23)
- 企业级 vLLM 服务部署:Docker + Nginx 实现 DeepSeek 负载均衡 (14:01)
- SGLang 框架核心架构与技术创新 (6:52)
- SGLang 部署 DeepSeek 全攻略:离线推理与 OpenAI 兼容 API 服务 (7:58)
- 企业级 SGLang 部署方案:Docker 多实例与 Nginx 负载均衡配置 (7:01)
- llama.cpp 框架核心架构与技术优势详解 (5:11)
- llama.cpp 生产环境搭建:CUDA 编译与模型转换实操 (9:51)
- 企业级 llama.cpp 集群部署:Docker 多实例与 Nginx 负载均衡实战 (12:28)
- 使用 Unsloth 微调 DeepSeek 模型:从数据预处理到模型推理全流程 (23:27)
- 基于 Unsloth 与 GRPO:从零构建数学推理模型的多维度奖励函数体系 (24:25)
- LLaMA-Factory 微调模型指南:LoRA 与全参数训练详解 (24:08)
- GRPO 实战:使用 EasyR1 训练 DeepSeek-R1 蒸馏版模型 (11:56)
- 企业级 Agentic RAG 引擎项目 RAGFlow 介绍 (7:09)
- RAGFlow 产品本地部署与实战演示 (50:17)
- RAGFlow 的五层架构设计和核心模块功能 (8:35)
- DeepDoc 文档解析 / 智能分块与检索三位一体 (7:20)
- RAGFlow Agent 工作流引擎详解 (8:24)
- 为什么需要注意力机制 (11:59)
- 多头自注意力 MHA 机制原理与实现 (11:18)
- GQA 分组查询注意力全解读 (19:08)
- MLA 算法详解:低秩压缩与 KV 缓存优化 (19:28)
- MLA 算法详解:标准 RoPE 与 MLA 低秩 KV 压缩的冲突 (17:10)
- MLA 算法详解:解耦 RoPE 在优化 KV 缓存与推理效率中的关键作用 (13:12)
- MLA 算法详解:投影吸收释放低秩 KV 缓存的计算潜能 (15:18)
- MLA KV 缓存对比及核心优势总结 (8:20)
- 深度解析 MHA / MQA / MLA 完整对比实验 (13:32)
- 数据集处理全流程:从原始数据到分词器训练 (7:33)
- 模型训练实战:损失函数与优化策略详解 (6:42)
- 模型推理逻辑实现:文本生成效果实战评估 (3:47)
- 从零构建 GPT 架构实战:Transformer 核心组件深度实现 (7:36)
- MLA 核心算法实战:KV 缓存压缩技术详解 (10:49)
- 大模型对齐技术入门:SFT 与 RLHF 原理初探 (18:33)
- PPO 算法简介 (2:44)
- 从策略梯度到 TRPO 再到 PPO 的问题与演进 (14:10)
- PPO 算法详解:裁剪 clip 的魔法与自适应惩罚 (8:19)
- PPO 中优势函数的定义与作用 (11:30)
- PPO 中优势函数估计的三种方法 (12:26)
- PPO 联合损失函数详解:策略损失 / 价值损失 / 熵奖励 (9:19)
- PPO 实战:基于字节VeRL框架 从环境搭建到模型训练完整教程 (14:49)
- PPO 的痛点与 GRPO 的破局 (8:36)
- GRPO 算法详解:无价值函数的高效策略优化方案 (12:32)
- GRPO 算法核心:KL 散度无偏估计器详解 (8:22)
- 结果监督 ORM 原理与优势 (6:51)
- 过程监督 PRM 原理与优势 (10:24)
- 迭代式监督原理与优势 (6:10)
- GRPO 三种监督模式详解与 PPO 对比分析 (5:57)
- 基于 VeRL 实战 GRPO 演示 (16:36)
- GRPO三阶段训练流程与关键技术解析 (10:14)
- 从0到1实现 GRPO 算法实战:训练Qwen3解决数学问题 (12:02)
- GRPO 训练环境搭建:从库导入到超参数配置详解 (12:13)
- 训练数据集配置:从零开始构建 GRPO 数据 pipeline (10:44)
- 深度解析 GRPO 奖励机制:格式奖励 / 计算奖励的完整实现 (10:43)
- 深入理解 Rollout 生成:GRPO 中的样本创建与奖励分配机制 (21:22)
- GRPO 策略梯度损失函数的实现与解析 (15:17)
- GRPO 模型训练核心技术:策略梯度损失计算与 vLLM 引擎优化策略 (16:02)
- DeepSeek-OCR 概述:用视觉模态突破长文本压缩瓶颈 (8:22)
- DeepEncoder 用局部感知 + 全局理解构建高效视觉编码器 (14:26)
- DeepSeek-OCR 动态多分辨率策略 (10:30)
- OCR 2.0 数据引擎详细 (3:53)
- OCR 性能验证、应用局限与科研延展方向 (6:41)
- OCR 部署实战:PDF批量处理、图片识别与 API 服务部署 (16:23)
- OCR 微调实战:Unsloth + LoRA 高效训练完整教程 (28:18)
- 生产级 OCR 开发实战:前后端服务部署与 OCR 识别演示 (20:09)
- 生产级OCR开发实战:使用 Docker Compose 部署前后端服务 (8:35)
课程内容概览
(请点击播放以下视频查看课程简介)
这门课程适合你吗?
如果你符合以下任意一项:
· 具备一定工程/算法基础,希望系统掌握 DeepSeek 技术栈并落地 AI 应用 / Agent 的开发者与算法工程师。
· 正在从“能调用模型”进阶到“能做系统、能上线、能优化”的 LLM 应用 / 平台 / 后端工程人员。
· 希望深入理解推理模型关键机制(如 MLA / MoE / MTP、RoPE / YaRN)与对齐训练(PPO / GRPO)的研究/工程复合型学习者。
· 需要构建或优化推理服务、RAG / Agent 工作流、以及多模态 OCR 等生产级项目的技术负责人/架构师。
不建议:
- 完全零基础,尚不具备 Python / 深度学习 / 部署基础的学习者。
-
只想 “跟着一步步操作跑通 demo” 但暂时不关心原理、权衡与工程细节的学习者。
课程配套资料
本课程提供覆盖“理论建模—工程实现—效果验证”的完整配套资料体系,确保学习过程具备可追溯、可复现、可迁移的工程闭环。配套课件文档以算法架构为主线,系统呈现关键机制解析、核心公式推导、模块级流程图与实现要点,并辅以工程化落地的设计约束与常见问题处理建议。
同时提供与课程内容严格对齐的项目级代码与可运行示例工程,包含模块化实现、参数配置与运行脚本,支持你快速复现课程结论、对照调试并进一步二次开发。整套资料按知识模块分层组织,既可作为学习阶段的高密度技术笔记,也可作为后续研发中的参考实现与工程模板,显著降低从理解到落地的迁移成本。
更多精品课程
学习更多大模型相关精品课程,构建更完整的大模型能力体系。
加入免费公开课
学习免费公开课快速了解课程深度与授课风格,再选择最合适的精品课程进行系统化训练与项目级落地。
常见问题
一、支持的付款方式有哪些?
本网站支持以下付款方式:
- PayPal 付款
- 双币种或全币种的信用卡付款
- 通过淘宝店铺或微信小店付款(淘宝与微信仅作为支付通道,课程仍在本网站学习)。
请参考《付款指南》,选择适合你的付款方式。
在淘宝店铺或微信小店支付后,请发送订单号和用于注册学习账号的邮箱到我的公众号、或通过微信或 Discord 联系课程助理,我们将尽快处理你的订单并邀请你加入对应课程。(你可以提前注册账号,只需确保提供给我的邮箱与注册邮箱一致即可。点此查看《注册登陆指引》)
二、课程是否提供一对一指导?
本课程的定价仅包含:
- 全部课程视频的终身观看权限
-
配套资料的完整下载与后续更新
课程不包含一对一指导服务。但在时间允许的情况下,我会尽力为大家进行课程相关的问题的解答,帮助大家顺利学习。
精品课程内容经过反复打磨与完善,并配有详尽的资料,确保你高效掌握相关知识。目前已通过数百名同学的真实学习反馈,获得高度好评。
如果你在学习过程中有任何疑问,欢迎你:
- 参与精品课程后,根据课程前面的提示,加入 Discord 或微信群,在群内提问;
- 在对应课程视频下方评论区留言提问;
- 登录网站后,点击右上角头像 → 选择 “Contact” 给我发送邮件。
三、与在B站学习有什么区别?
精品课程在本网站与B站课堂同步上线,课程内容本身完全一致,区别主要体现在以下几个方面:
1.功能与课程资料呈现方式不同:
官网课程资料与视频内容同步展示,可在对应章节中预览并下载使用。B站以视频播放为主,请购买后通过私信发送订单号(查看路径:B站右上角“信箱”→消息列表中课堂对话窗中的订单号),以便获取对应课程资料并邀请你加入我们的 AI 学习圈。
2.发票开具说明:
本网站直接购买:将会自动收到一封收据邮件,请在你的注册邮箱中查看。
通过淘宝/微信小店支付:如需发票请直接联系在线客服即可开具。
B站购买:订单由B站平台统一管理,如需开具发票,请在B站后台订单中申请,或联系B站客服了解详细流程。
⚠️温馨提示(适用于 iOS 用户)
如果你使用 iPhone 或 iPad 访问 B站并购买课程,建议使用电脑端或手机浏览器访问我的B站课堂完成课程购买,避免额外支付 iOS 端加收的30%渠道费用。
四、什么时候购买最优惠?
答案是——如果你已经决定开始学习,现在就是最合适的时机。
精品课程一次购买,终身有效。除了偶尔的粉丝回馈活动,精品课程不会参与任何限时折扣或平台促销,价格始终保持公开透明。如果未来课程内容有更新和迭代,价格也会随之逐步上调。
我希望大家把有限的时间和精力花在真正有价值的学习上,而不是计算“活动价”上;我希望大家购买课程,不是因为打折,而是因为它真的能让你成长、进步、变得更强。
如果你做过对比,能够透过花哨的宣传看清楚知识的本质,你应该会知道我的精品课程的性价比。你甚至可以通过学习我分享的免费公开课,就可以学到很多在其他地方需要付费才能学到的知识。
五、我是转行过来的,听说大模型很火,学完这个课程能不能直接上手?
实事求是的说,我并不建议你直接学习我的课程。我的精品课程专为AI技术领域的专业人才设计,课程内容紧随前沿技术,具有一定深度,并不是仅凭一步步跟随操作就能学会的简单教学。非科班出身或转行学习者可能会感到吃力。如果你决心深入学习 AI 技术,我真诚的建议你花一些时间,好好梳理一下,将一些相关的基础知识先理解和掌握。只有打好基础,一步步积累,才能真正与前沿技术接轨。
六、我可以每天问很多很多的问题吗?
我非常欢迎大家积极的学习和提问,但一定要问有价值的问题。对于那些通过AI或搜索引擎即可找到答案的问题,以及可以在B站或 YouTube 等平台免费学习的基础知识,我建议你主动学习和理解,这比直接提问更为高效。主动解决问题是 AI 技术学习者的基本能力,要尽快摸索出一套适合自己的高效学习方法,这样你才能在技术这条路上越走越远。
七、听说课程永久有效、后续还会进行更新,什么时候会更新?
作为一个终身学习的技术人,所有精品课程都会随着技术的发展以及我个人的技术积累为大家适时进行更新。由于时间精力有限,我会根据技术发展的成熟度以及个人工作安排来进行更新。大家可以关注网站课程页面,以及公众号、B站动态、YouTube 动态、邮箱推送等官方账号通知。