瑞芯微官方针对 RK3588 提供的 RKLLM SDK(RKLLM-Toolkit)并不是通过“白名单”方式硬性限定模型,而是通过其底层架构兼容性来支持主流的大语言模型(LLM)。

只要模型架构属于 SDK 支持的范围,并通过 RKLLM-Toolkit 进行转换和量化(W8A8 或 W4A16),即可在 RK3588 上部署。

1. 官方支持的主流模型架构

RKLLM 目前兼容以下主流的模型架构(包括其变种):

  • LLaMA 系列: LLaMA, LLaMA2, LLaMA3, LLaMA3.1 等。

  • Qwen 系列: Qwen, Qwen2, Qwen2.5, Qwen3(通义千问)。

  • DeepSeek 系列: 包括 DeepSeek-R1-Distill(蒸馏版模型)。

  • Gemma 系列: Google 的轻量化模型。

  • Phi 系列: Microsoft 的小参数模型(如 Phi-2, Phi-3)。

  • MiniCPM / MiniCPM-V: 极具代表性的端侧轻量化模型,且 MiniCPM-V 还支持多模态(视觉输入)。

  • 其他模型: InternLM2(书生·浦语)、ChatGLM3-6B、TeleChat 等。

2. 部署关键约束(量化与适配)

虽然官方支持上述架构,但要在 RK3588 上运行,必须通过转换工具进行适配:

  • 模型转换: 必须使用 RKLLM-Toolkit 将 Hugging Face 格式的模型转换为瑞芯微专用的 .rkllm 格式。

  • 量化精度:

    • W8A8(8-bit 权重 + 8-bit 激活): 官方推荐,性能与精度的平衡点,是 RK3588 推理的主力模式。

    • W4A16(4-bit 权重 + 16-bit 激活): 适用于更小内存占用的场景。

  • 硬件要求: RKLLM 运行必须调用 NPU 驱动,官方要求 NPU 内核驱动版本在 v0.9.8 或以上,并建议配合固频脚本(fix_freq_rk3588.sh)以保证推理稳定性。

3. 如何获取官方最新模型库?

官方并未维护一个静态的“已支持清单”,因为 Hugging Face 每天都有新模型。你可以通过以下方式验证模型支持情况:

  1. Hugging Face 社区资源: 查看 jamescallander 的 RKLLM 模型集合,这里有大量社区转换好的、已验证可在 RK3588 上运行的 .rkllm 模型文件。

  2. GitHub 仓库: 关注官方或开源社区的 rknn-llm 仓库,这是 RKLLM 核心 SDK 的主战场,任何新增架构的支持都会第一时间在此仓库更新。

  3. Firefly/Banana Pi Wiki: 瑞芯微的主要合作板卡厂商(如 Firefly)通常会提供最详细的 LLM 部署手册,里面会有实测模型列表和相应的 Hugging Face 链接。

总结建议

作为网关产品,建议优先测试 1.5B 到 3B 参数量的模型(如 Qwen2.5-1.5B 或 DeepSeek-R1-Distill-Qwen-1.5B)

  • 原因: 这些模型经过 W8A8 量化后,能在 RK3588 的 6TOPS NPU 上实现非常流畅的交互体验(10+ tokens/s),且内存占用相对较低,非常适合 To C 网关的本地化部署需求。

如果你需要部署特定的多模态功能(如通过摄像头看图分析),请重点关注 MiniCPM-V 系列的适配,它是目前该平台下多模态能力最成熟的开源选择之一。