DeepSeek 蒸馏模型微调项目
基本信息
担任角色
-
公司/背景
个人/学习项目
开始时间
2026.1
结束时间
2026.2
项目描述
研读 DeepSeekV3 开源代码
理解多头潜在注意力机制
混合专家模型(MoE)架构及训练推理技术点
基于 DeepSeek-R1-Distill-Llama-8B 蒸馏模型
针对私有中文数据集开展定制化微调。
技术栈
DeepSeekV3
DeepSeek-R1-Distill-Llama-8B
多头潜在注意力
MoE
LoRA
BLEU-4
中文数据集
亮点
采用 LoRA 高效微调算法完成模型调优
提升模型在私有中文数据集上的 BLEU-4 指标