Google-VeriSilicon Coral NPU

首页 IP 组合 Google-VeriSilicon Coral NPU

Coral NPU：基于RISC-V的开源边缘AI加速器

Coral NPU是一款专为边缘端低能耗人工智能而设计的机器学习加速器IP。它基于开放的RISC-V指令集架构，可作为经过验证的开源IP集成于商业化的芯片产品中。

Coral NPU的开源战略旨在创建标准架构以加速边缘AI生态系统发展，其基础源于谷歌研究院此前推出的Coral.ai项目。该项目最初于2023年作为“Open Se Cura”研究项目的组成部分发布，现已成为推动这一愿景的专项计划。

Inspiration of Coral NPU.png

Coral NPU解决的问题

Coral NPU直接解决了边缘AI设备生态严重碎片化的问题。当前，由于通用计算单元（CPU）与机器学习计算单元采用不同的编程模型，开发者面临陡峭的学习曲线和极高的编程复杂性。这些机器学习单元通常依赖于由专用、专有的编译器生成的命令缓冲区。这种碎片化的方式难以发挥不同算力的协同优势，也迫使开发者要维护多条专有且不透明的工具链，成本与复杂度陡增。

Coral NPU基于RISC-V指令集架构标准构建，通过引入原生张量处理能力，拓展了C语言编程环境。它支持多种机器学习框架，包括：JAX、PyTorch和TensorFlow Lite（TFLite），并采用基于开放标准的工具，如来自低级虚拟机（LLVM）项目的多级中间表示（MLIR），作为编译器基础设施。

将原生机器学习加速原语与通用计算指令集架构融合，既避免了传统独立CPU/NPU设计带来的系统复杂性、成本及数据迁移问题，同时也实现了卓越的机器学习性能。

核心差异化与工作原理

Coral NPU 的设计遵循以下几条核心原则：

ML 优先架构：传统处理器先搭标量，再加向量（SIMD），最后补矩阵；Coral NPU 反其道而行——先建矩阵（ML）能力，再融入向量与标量功能。三种运算在同一 ISA 内紧密耦合，使整个架构底层就面向 AI 负载优化。（详见架构概览）
专用 ML 引擎：核心是一颗量化外积乘加（MAC）引擎，专为神经网络的基本计算打造。该模块以极高效率将 8-bit 运算累加成 32-bit 结果。
集成向量（SIMD）核：向量协处理器实现 RISC-V 向量指令集 RVV v1.0，配 32×256 bit 向量寄存器堆，并采用“strip-mining”机制——单条指令触发多次操作，显著提升并行效率。
简洁、可 C 编程的标量核：轻量级 RISC-V RV32IM 前端作为简单的控制器，负责把任务分发给矩阵与向量后端。它采用“运行到完成”的模式，无需复杂操作系统或频繁中断，功耗极低。
高效内存管理：仅设一层小容量高速缓存（8 KB 指令 + 16 KB 数据），让数据紧贴计算单元，降低功耗与延迟。
统一开发体验：平台可用 C 语言编程，并原生对接 TensorFlow Lite Micro（TFLM）、IREE 等现代 ML 编译器。基于 MLIR 的统一工具链可同时支持 TensorFlow、JAX、PyTorch 的模型部署。

性能与能效亮点

Coral NPU 的设计实现了功耗与性能之间的高效平衡，使其成为环境应用的理想选择，并可扩展至多核架构。

参考值：

性能：512 GOP/S（每秒十亿次操作），每周期 256 次乘加运算
功耗目标：约 6 mW @ 800 MHz，22 nm 工艺

更详细的 PPA 数据由商用硅片合作伙伴提供。

目标应用

Coral NPU 专为超低功耗、始终在线的边缘 AI 设计，尤其专注于泛在感知系统，其首要目标是在可穿戴设备上实现全天候 AI 体验，同时最大限度降低电量消耗。

潜在应用场景

情境感知：识别用户状态（走路、跑步）、距离或环境（室内/室外、移动中），自动开启“勿扰”等场景适配功能
音频处理：语音激活、关键词捕获、实时翻译、转写，以及基于音频的辅助功能
图像处理：人/物检测、人脸识别、手势识别和低功耗视觉搜索
用户交互：通过手势、音频提示或其他传感器输入进行控制

适用设备
凭借高效率与低功耗，Coral NPU 可广泛部署于：

智能耳机与耳塞
智能眼镜、AR 头显
智能手表、健身手环
智能家居及环境 IoT 设备
手机（用作超低功耗协处理器）
车载与汽车电子系统

架构组成

Coral NPU 是一套基于开放 RISC-V 标准的神经处理单元（NPU）完整参考设计，由三个核心组件组成：

标量核：负责传统 CPU 功能
矢量执行单元：提供额外计算能力
矩阵执行单元：执行 ML 模型运算

the architecture overview.png

三者共同构成 Coral NPU 的完整功能与性能。任何芯片厂商若设计独立 NPU 或将 Coral NPU 集成进 SoC，均需同时整合这三个单元，方可获得完整方案。

各组件的主要特性与职责如下：

标量核

充当按序执行、非推测执行的前端处理器
驱动向量与矩阵执行单元的命令队列
完全兼容开放的 RISC-V 32 位基础 ISA（RV32I）
提供 31 个通用标量寄存器，每个寄存器宽度为32位
提供 C 语言编程接口，用于管理循环、控制流、灵活的数据类型编码及指令压缩，以支持 SIMD/向量后端的运行。

向量执行单元

负责数组运算、ML 激活函数、归约等向量及机器学习计算
基于单指令多数据（SIMD）结构
通过 FIFO 命令队列与标量前端解耦，缓存向量指令
配有 64 个向量寄存器，每个寄存器宽度为256位（例如可存放 8 个 32 位整数）
原生支持 8 位、16 位、32 位数据宽度

矩阵执行单元

加速 ML 中关键的矩阵乘加（Matmul）运算，如矩阵乘法与卷积
配备外积引擎，每周期可执行 256 次乘加（MAC）运算
状态：目前作为 RISC-V 矩阵扩展任务组的一部分，正在开发与评估中

更多细节请访问 Architecture Basics 页面。

如需了解更多有关 Coral NPU 的信息，请点击访问 https://developers.google.com/coral。

公司: 关于芯原; 合作伙伴; 加入我们; 全球办事处

许可申请: ZSP SDK许可申请; VIP Acuity IDE许可申请; V.Libs申请; SFTP/GitLab访问申请

资源: 视频库; 商标清单; 隐私政策

订阅邮件

通过订阅电子邮件接收最新的芯原新闻

提交

公司

投资者关系