候选人 张学敏 DeepSeek 蒸馏模型微调项目

DeepSeek 蒸馏模型微调项目

基本信息

担任角色 -
公司/背景 个人/学习项目
开始时间 2026.1
结束时间 2026.2

项目描述

研读 DeepSeekV3 开源代码 理解多头潜在注意力机制 混合专家模型(MoE)架构及训练推理技术点 基于 DeepSeek-R1-Distill-Llama-8B 蒸馏模型 针对私有中文数据集开展定制化微调。

技术栈

DeepSeekV3 DeepSeek-R1-Distill-Llama-8B 多头潜在注意力 MoE LoRA BLEU-4 中文数据集

亮点

采用 LoRA 高效微调算法完成模型调优
提升模型在私有中文数据集上的 BLEU-4 指标

来源文本

DeepSeek 蒸馏模型微调项目