DeepSeek-R1-Distill 蒸馏版模型是如何做出来的

硬件大模型

DeepSeek-R1 系列模型（包括其蒸馏版本 DeepSeek-R1-Distill）是由中国人工智能初创公司 深度求索（DeepSeek AI） 团队研发的。

以下是关于该团队及模型的关键背景：

公司背景： 深度求索（DeepSeek）成立于 2023 年，总部位于中国杭州，由量化对冲基金幻方量化（High-Flyer）创始合伙人梁文锋创立。该公司专注于通用人工智能（AGI）底层模型和技术的研发。
蒸馏版的来源： * 深度求索团队在开发出“满血版”推理模型 DeepSeek-R1 后，为了让社区能够更便捷地在本地或边缘设备上使用其推理能力，他们通过知识蒸馏技术，将 R1 的思维能力“教”给了其他基础模型（如 Qwen2.5 和 Llama 系列）。
- 团队在开源社区（如 Hugging Face 和 GitHub）上公开发布了这些蒸馏版本。这意味着，虽然基础架构（如 Qwen 或 Llama）源自阿里巴巴或 Meta，但通过 R1 的推理数据进行训练、赋予其高质量思维能力的核心工作是由深度求索团队完成的。
开源贡献： 深度求索团队通过这种方式，不仅展示了其在强化学习和推理模型方面的技术实力，也极大地降低了高性能推理模型的门槛，为研究人员和开发者提供了从 1.5B 到 70B 等多个量级的选择。

简单来说，DeepSeek-R1-Distill 系列是深度求索 AI 团队利用自身在强化学习和推理模型上的技术优势，为开源社区贡献的“轻量化推理引擎”。

瑞芯微官方针对 RK3588 提供的 RKLLM SDK（RKLLM-Toolkit）并不是通过“白名单”方式硬性限定模型，而是通过其底层架构兼容性来支持主流的大语言模型（LLM）。

只要模型架构属于 SDK 支持的范围，并通过 RKLLM-Toolkit 进行转换和量化（W8A8 或 W4A16），即可在 RK3588 上部署。

RKLLM 目前兼容以下主流的模型架构（包括其变种）：

虽然官方支持上述架构，但要在 RK3588 上运行，必须通过转换工具进行适配：

模型转换： 必须使用 RKLLM-Toolkit 将 Hugging Face 格式的模型转换为瑞芯微专用的 .rkllm 格式。
量化精度：
- W8A8（8-bit 权重 + 8-bit 激活）： 官方推荐，性能与精度的平衡点，是 RK3588 推理的主力模式。
- W4A16（4-bit 权重 + 16-bit 激活）： 适用于更小内存占用的场景。
硬件要求： RKLLM 运行必须调用 NPU 驱动，官方要求 NPU 内核驱动版本在 v0.9.8 或以上，并建议配合固频脚本（fix_freq_rk3588.sh）以保证推理稳定性。

官方并未维护一个静态的“已支持清单”，因为 Hugging Face 每天都有新模型。你可以通过以下方式验证模型支持情况：

Hugging Face 社区资源： 查看 jamescallander 的 RKLLM 模型集合，这里有大量社区转换好的、已验证可在 RK3588 上运行的 .rkllm 模型文件。
GitHub 仓库： 关注官方或开源社区的 rknn-llm 仓库，这是 RKLLM 核心 SDK 的主战场，任何新增架构的支持都会第一时间在此仓库更新。
Firefly/Banana Pi Wiki： 瑞芯微的主要合作板卡厂商（如 Firefly）通常会提供最详细的 LLM 部署手册，里面会有实测模型列表和相应的 Hugging Face 链接。

作为网关产品，建议优先测试 1.5B 到 3B 参数量的模型（如 Qwen2.5-1.5B 或 DeepSeek-R1-Distill-Qwen-1.5B）。

原因： 这些模型经过 W8A8 量化后，能在 RK3588 的 6TOPS NPU 上实现非常流畅的交互体验（10+ tokens/s），且内存占用相对较低，非常适合 To C 网关的本地化部署需求。

如果你需要部署特定的多模态功能（如通过摄像头看图分析），请重点关注 MiniCPM-V 系列的适配，它是目前该平台下多模态能力最成熟的开源选择之一。

如果觉得文章对你有用，请随意赞赏

RK3588