DeepSeek 蒸馏模型微调项目

候选人张学敏 DeepSeek 蒸馏模型微调项目

张学敏

担任角色 -

公司/背景个人/学习项目

开始时间 2026.1

结束时间 2026.2

研读 DeepSeekV3 开源代码理解多头潜在注意力机制混合专家模型（MoE）架构及训练推理技术点基于 DeepSeek-R1-Distill-Llama-8B 蒸馏模型针对私有中文数据集开展定制化微调。

DeepSeekV3 DeepSeek-R1-Distill-Llama-8B 多头潜在注意力 MoE LoRA BLEU-4 中文数据集

采用 LoRA 高效微调算法完成模型调优

提升模型在私有中文数据集上的 BLEU-4 指标

DeepSeek 蒸馏模型微调项目