課程介紹
本課程聚焦于 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實踐操作,旨在讓學員掌握模型蒸餾的全流程,包括環境部署、數據集準備、蒸餾過程及調用測試,提升學員在大模型應用與優化領域的實踐能力。課程還包含DeepSeek V3 模型核心原理、整體架構、分布式基礎概念、MLA嵌在注意力從自回歸掩碼看KV緩存機制,針對KV緩存的改進,DeepSeek MOE架構與創新介紹。
培訓對象
從事相關工作及對課程內容感興趣的人員。
課程收益
能夠獨立搭建 DeepSeek R1 模型蒸餾 Qwen2 1.5B 的實驗環境,包括創建虛擬環境、安裝相關依賴和工具;
熟悉多種可用于模型蒸餾的數據集,掌握數據集的清洗和準備方法,能根據需求篩選和處理數據;
理解并熟練執行模型蒸餾過程,運用 Llama - Factory 進行全量指令微調,優化模型性能;
學會對蒸餾前后的模型進行調用測試,準確評估模型在實際問題解決中的表現,分析模型的優勢與不足。
知識概要
-- DeepSeek-R1蒸餾Qwen1.5B實戰;
-- DeepSeek-V3模型核心原理與架構介紹;
-- DeepSeek v3 MLA 機制與混合專家模型介紹。
課程大綱
DeepSeek-R1蒸餾Qwen1.5B實戰
模型蒸餾環境部署
操作系統與配置說明
創建虛擬環境
創建 Jupyter Kernel
安裝 wand
創建主目錄與下載原始模型
安裝 Llama - Factory
模型蒸餾數據集準備
主流推理數據集介紹
數據清洗過程
數據集下載與準備
模型蒸餾過程
上傳微調腳本
執行微調
調用測試
測試問題設置
普通模型調用測試
蒸餾模型調用測試
DeepSeek-V3模型核心原理與架構介紹
DeepSeekv3 架構圖解與基本參數配置
整體架構
不同規模模型參數
關鍵參數配置
分布式并行化嵌入與映射
ParallelEmbedding 層
線性層相關實現
行并行與列并行
RMS Norm 層
Layer Normalization 介紹
LN 與 BN、RMSNorm 的差別
RMSNorm 實現
旋轉位置編碼 ROPE
原理與優勢
具體流程
相關代碼實現
DeepSeek v3 的 KV 緩存機制
工作原理
類定義與初始化
forward 方法
DeepSeek v3 MLA 機制與混合專家模型介紹
DeepSeek v3 的 MOE 混合專家模型
與常見前饋網絡對比
SwiGLU 激活函數
MoE 原理與優勢
MoE 訓練流程
專家選擇機制
瓶頸問題與輔助損失
MoE 推理過程
相關類定義
DeepSeek v3 的 KV 緩存機制
自回歸算法與 KV 緩存
注意力機制計算分析
KV 緩存工作流程
MLA 潛在注意力機制
相關類定義與初始化
認證過程
無認證考試
開班信息
暫無開班信息