DeepSeek-R1 系列模型(包括其蒸馏版本 DeepSeek-R1-Distill)是由中国人工智能初创公司 深度求索(DeepSeek AI) 团队研发的。

以下是关于该团队及模型的关键背景:

  • 公司背景: 深度求索(DeepSeek)成立于 2023 年,总部位于中国杭州,由量化对冲基金幻方量化(High-Flyer)创始合伙人梁文锋创立。该公司专注于通用人工智能(AGI)底层模型和技术的研发。

  • 蒸馏版的来源: * 深度求索团队在开发出“满血版”推理模型 DeepSeek-R1 后,为了让社区能够更便捷地在本地或边缘设备上使用其推理能力,他们通过知识蒸馏技术,将 R1 的思维能力“教”给了其他基础模型(如 Qwen2.5Llama 系列)。

    • 团队在开源社区(如 Hugging Face 和 GitHub)上公开发布了这些蒸馏版本。这意味着,虽然基础架构(如 Qwen 或 Llama)源自阿里巴巴或 Meta,但通过 R1 的推理数据进行训练、赋予其高质量思维能力的核心工作是由深度求索团队完成的

  • 开源贡献: 深度求索团队通过这种方式,不仅展示了其在强化学习和推理模型方面的技术实力,也极大地降低了高性能推理模型的门槛,为研究人员和开发者提供了从 1.5B 到 70B 等多个量级的选择。

简单来说,DeepSeek-R1-Distill 系列是深度求索 AI 团队利用自身在强化学习和推理模型上的技术优势,为开源社区贡献的“轻量化推理引擎”

瑞芯微官方针对 RK3588 提供的 RKLLM SDK(RKLLM-Toolkit)并不是通过“白名单”方式硬性限定模型,而是通过其底层架构兼容性来支持主流的大语言模型(LLM)。

只要模型架构属于 SDK 支持的范围,并通过 RKLLM-Toolkit 进行转换和量化(W8A8 或 W4A16),即可在 RK3588 上部署。

1. 官方支持的主流模型架构

RKLLM 目前兼容以下主流的模型架构(包括其变种):

  • LLaMA 系列: LLaMA, LLaMA2, LLaMA3, LLaMA3.1 等。

  • Qwen 系列: Qwen, Qwen2, Qwen2.5, Qwen3(通义千问)。

  • DeepSeek 系列: 包括 DeepSeek-R1-Distill(蒸馏版模型)。

  • Gemma 系列: Google 的轻量化模型。

  • Phi 系列: Microsoft 的小参数模型(如 Phi-2, Phi-3)。

  • MiniCPM / MiniCPM-V: 极具代表性的端侧轻量化模型,且 MiniCPM-V 还支持多模态(视觉输入)。

  • 其他模型: InternLM2(书生·浦语)、ChatGLM3-6B、TeleChat 等。

2. 部署关键约束(量化与适配)

虽然官方支持上述架构,但要在 RK3588 上运行,必须通过转换工具进行适配:

  • 模型转换: 必须使用 RKLLM-Toolkit 将 Hugging Face 格式的模型转换为瑞芯微专用的 .rkllm 格式。

  • 量化精度:

    • W8A8(8-bit 权重 + 8-bit 激活): 官方推荐,性能与精度的平衡点,是 RK3588 推理的主力模式。

    • W4A16(4-bit 权重 + 16-bit 激活): 适用于更小内存占用的场景。

  • 硬件要求: RKLLM 运行必须调用 NPU 驱动,官方要求 NPU 内核驱动版本在 v0.9.8 或以上,并建议配合固频脚本(fix_freq_rk3588.sh)以保证推理稳定性。

3. 如何获取官方最新模型库?

官方并未维护一个静态的“已支持清单”,因为 Hugging Face 每天都有新模型。你可以通过以下方式验证模型支持情况:

  1. Hugging Face 社区资源: 查看 jamescallander 的 RKLLM 模型集合,这里有大量社区转换好的、已验证可在 RK3588 上运行的 .rkllm 模型文件。

  2. GitHub 仓库: 关注官方或开源社区的 rknn-llm 仓库,这是 RKLLM 核心 SDK 的主战场,任何新增架构的支持都会第一时间在此仓库更新。

  3. Firefly/Banana Pi Wiki: 瑞芯微的主要合作板卡厂商(如 Firefly)通常会提供最详细的 LLM 部署手册,里面会有实测模型列表和相应的 Hugging Face 链接。

总结建议

作为网关产品,建议优先测试 1.5B 到 3B 参数量的模型(如 Qwen2.5-1.5B 或 DeepSeek-R1-Distill-Qwen-1.5B)

  • 原因: 这些模型经过 W8A8 量化后,能在 RK3588 的 6TOPS NPU 上实现非常流畅的交互体验(10+ tokens/s),且内存占用相对较低,非常适合 To C 网关的本地化部署需求。

如果你需要部署特定的多模态功能(如通过摄像头看图分析),请重点关注 MiniCPM-V 系列的适配,它是目前该平台下多模态能力最成熟的开源选择之一。