Coral NPU是一款专为边缘端低能耗人工智能而设计的机器学习加速器IP。它基于开放的RISC-V指令集架构,可作为经过验证的开源IP集成于商业化的芯片产品中。
Coral NPU的开源战略旨在创建标准架构以加速边缘AI生态系统发展,其基础源于谷歌研究院此前推出的Coral.ai项目。该项目最初于2023年作为“Open Se Cura”研究项目的组成部分发布,现已成为推动这一愿景的专项计划。
Coral NPU直接解决了边缘AI设备生态严重碎片化的问题。当前,由于通用计算单元(CPU)与机器学习计算单元采用不同的编程模型,开发者面临陡峭的学习曲线和极高的编程复杂性。这些机器学习单元通常依赖于由专用、专有的编译器生成的命令缓冲区。这种碎片化的方式难以发挥不同算力的协同优势,也迫使开发者要维护多条专有且不透明的工具链,成本与复杂度陡增。
Coral NPU基于RISC-V指令集架构标准构建,通过引入原生张量处理能力,拓展了C语言编程环境。它支持多种机器学习框架,包括:JAX、PyTorch和TensorFlow Lite(TFLite),并采用基于开放标准的工具,如来自低级虚拟机(LLVM)项目的多级中间表示(MLIR),作为编译器基础设施。
将原生机器学习加速原语与通用计算指令集架构融合,既避免了传统独立CPU/NPU设计带来的系统复杂性、成本及数据迁移问题,同时也实现了卓越的机器学习性能。
Coral NPU 的设计遵循以下几条核心原则:
ML 优先架构:传统处理器先搭标量,再加向量(SIMD),最后补矩阵;Coral NPU 反其道而行——先建矩阵(ML)能力,再融入向量与标量功能。三种运算在同一 ISA 内紧密耦合,使整个架构底层就面向 AI 负载优化。(详见架构概览)
专用 ML 引擎:核心是一颗量化外积乘加(MAC)引擎,专为神经网络的基本计算打造。该模块以极高效率将 8-bit 运算累加成 32-bit 结果。
集成向量(SIMD)核:向量协处理器实现 RISC-V 向量指令集 RVV v1.0,配 32×256 bit 向量寄存器堆,并采用“strip-mining”机制——单条指令触发多次操作,显著提升并行效率。
简洁、可 C 编程的标量核:轻量级 RISC-V RV32IM 前端作为简单的控制器,负责把任务分发给矩阵与向量后端。它采用“运行到完成”的模式,无需复杂操作系统或频繁中断,功耗极低。
高效内存管理:仅设一层小容量高速缓存(8 KB 指令 + 16 KB 数据),让数据紧贴计算单元,降低功耗与延迟。
统一开发体验:平台可用 C 语言编程,并原生对接 TensorFlow Lite Micro(TFLM)、IREE 等现代 ML 编译器。基于 MLIR 的统一工具链可同时支持 TensorFlow、JAX、PyTorch 的模型部署。
Coral NPU 的设计实现了功耗与性能之间的高效平衡,使其成为环境应用的理想选择,并可扩展至多核架构。
参考值:
性能:512 GOP/S(每秒十亿次操作),每周期 256 次乘加运算
功耗目标:约 6 mW @ 800 MHz,22 nm 工艺
更详细的 PPA 数据由商用硅片合作伙伴提供。
Coral NPU 专为超低功耗、始终在线的边缘 AI 设计,尤其专注于泛在感知系统,其首要目标是在可穿戴设备上实现全天候 AI 体验,同时最大限度降低电量消耗。
潜在应用场景
情境感知:识别用户状态(走路、跑步)、距离或环境(室内/室外、移动中),自动开启“勿扰”等场景适配功能
音频处理:语音激活、关键词捕获、实时翻译、转写,以及基于音频的辅助功能
图像处理:人/物检测、人脸识别、手势识别和低功耗视觉搜索
用户交互:通过手势、音频提示或其他传感器输入进行控制
适用设备
凭借高效率与低功耗,Coral NPU 可广泛部署于:
智能耳机与耳塞
智能眼镜、AR 头显
智能手表、健身手环
智能家居及环境 IoT 设备
手机(用作超低功耗协处理器)
车载与汽车电子系统
Coral NPU 是一套基于开放 RISC-V 标准的神经处理单元(NPU)完整参考设计,由三个核心组件组成:
标量核:负责传统 CPU 功能
矢量执行单元:提供额外计算能力
矩阵执行单元:执行 ML 模型运算
三者共同构成 Coral NPU 的完整功能与性能。任何芯片厂商若设计独立 NPU 或将 Coral NPU 集成进 SoC,均需同时整合这三个单元,方可获得完整方案。
各组件的主要特性与职责如下:
标量核
充当按序执行、非推测执行的前端处理器
驱动向量与矩阵执行单元的命令队列
完全兼容开放的 RISC-V 32 位基础 ISA(RV32I)
提供 31 个通用标量寄存器,每个寄存器宽度为32位
提供 C 语言编程接口,用于管理循环、控制流、灵活的数据类型编码及指令压缩,以支持 SIMD/向量后端的运行。
向量执行单元
负责数组运算、ML 激活函数、归约等向量及机器学习计算
基于单指令多数据(SIMD)结构
通过 FIFO 命令队列与标量前端解耦,缓存向量指令
配有 64 个向量寄存器,每个寄存器宽度为256位(例如可存放 8 个 32 位整数)
原生支持 8 位、16 位、32 位数据宽度
矩阵执行单元
加速 ML 中关键的矩阵乘加(Matmul)运算,如矩阵乘法与卷积
配备外积引擎,每周期可执行 256 次乘加(MAC)运算
状态:目前作为 RISC-V 矩阵扩展任务组的一部分,正在开发与评估中
更多细节请访问 Architecture Basics 页面。
如需了解更多有关 Coral NPU 的信息,请点击访问 https://developers.google.com/coral。