RK3588 支持的模型

硬件

瑞芯微官方针对 RK3588 提供的 RKLLM SDK（RKLLM-Toolkit）并不是通过“白名单”方式硬性限定模型，而是通过其底层架构兼容性来支持主流的大语言模型（LLM）。

只要模型架构属于 SDK 支持的范围，并通过 RKLLM-Toolkit 进行转换和量化（W8A8 或 W4A16），即可在 RK3588 上部署。

RKLLM 目前兼容以下主流的模型架构（包括其变种）：

虽然官方支持上述架构，但要在 RK3588 上运行，必须通过转换工具进行适配：

模型转换： 必须使用 RKLLM-Toolkit 将 Hugging Face 格式的模型转换为瑞芯微专用的 .rkllm 格式。
量化精度：
- W8A8（8-bit 权重 + 8-bit 激活）： 官方推荐，性能与精度的平衡点，是 RK3588 推理的主力模式。
- W4A16（4-bit 权重 + 16-bit 激活）： 适用于更小内存占用的场景。
硬件要求： RKLLM 运行必须调用 NPU 驱动，官方要求 NPU 内核驱动版本在 v0.9.8 或以上，并建议配合固频脚本（fix_freq_rk3588.sh）以保证推理稳定性。

官方并未维护一个静态的“已支持清单”，因为 Hugging Face 每天都有新模型。你可以通过以下方式验证模型支持情况：

Hugging Face 社区资源： 查看 jamescallander 的 RKLLM 模型集合，这里有大量社区转换好的、已验证可在 RK3588 上运行的 .rkllm 模型文件。
GitHub 仓库： 关注官方或开源社区的 rknn-llm 仓库，这是 RKLLM 核心 SDK 的主战场，任何新增架构的支持都会第一时间在此仓库更新。
Firefly/Banana Pi Wiki： 瑞芯微的主要合作板卡厂商（如 Firefly）通常会提供最详细的 LLM 部署手册，里面会有实测模型列表和相应的 Hugging Face 链接。

作为网关产品，建议优先测试 1.5B 到 3B 参数量的模型（如 Qwen2.5-1.5B 或 DeepSeek-R1-Distill-Qwen-1.5B）。

原因： 这些模型经过 W8A8 量化后，能在 RK3588 的 6TOPS NPU 上实现非常流畅的交互体验（10+ tokens/s），且内存占用相对较低，非常适合 To C 网关的本地化部署需求。

如果你需要部署特定的多模态功能（如通过摄像头看图分析），请重点关注 MiniCPM-V 系列的适配，它是目前该平台下多模态能力最成熟的开源选择之一。

如果觉得文章对你有用，请随意赞赏

RK3588