核心技术版图再升级,进迭时空新一代高性能一致性互联总线 N200 研发完成!

继布局通用计算 CPU核(X60/X100/X200)、智能计算 AI 核(A60/A100/A200)后,进迭时空迎来核心技术版图的重大升级——进迭时空的新一代自研互联总线 N200 正式完成研发。

随着 N200 的研发收官,进迭时空已完成通用计算、智能计算、计算互联三大核心技术板块的布局。互联总线 N200将与通算 CPU 核X200、智算 AI 核A200一起应用于进迭时空的下一代计算芯片中,并预计于 2027 年正式量产。

8384644c-6eea-11f1-ab55-92fbcf53809c.png

在数字化智能时代,如果把一颗多核 SoC 算力芯片比作一个"智能体",XPU 核是其"大脑"群,包括通用 CPU 核、AI 核、GPU 等,那么总线就是贯穿其间的"骨架"——它将多个大脑互联起来做算力协同扩展,将所有大脑与存储器互联起来做高速数据通信。总线虽不直接产生算力,却决定了所有算力能否有效发挥;虽不直接生产或存储数据,却决定了数据能否高速准确地传输。

随着多核、多 Chiplet、多 Chip 算力扩展成为高端 AI 算力芯片的主流路径,互联总线正在成为决定整系统性能上限的关键技术底座之一。N200 在多层次互联扩展、硬件 Cache 一致性覆盖范围、跨封装互联带宽等方面均实现大幅跃升,为下一代 AI 算力平台提供坚实的互联底座。

N200 支持:面向多核、多 Chiplet、多 Chip、多 Board 全栈互联能力

四层互联架构

无论是通用 CPU 算力时代,还是智能 AI 算力时代,算力芯片都沿着"由单到多"的路径演进——多核、多 Chiplet、多 Chip、多 Board。N200 围绕这一演进趋势,设计了四个层次的互联能力:

单 Chiplet 内互联

采用高速环形拓扑,典型支持 16~32 节点互联,提供高达 640 GB/s(@2.5GHz @tt0p75v @6nm)的本地 DDR 访存互联带宽,充分释放单芯粒内的多核算力

多 Chiplet 间互联

同一芯片内,多个 Chiplet 通过 UCIe 互联,典型支持 2~4 个 Chiplet,单端口最高支持 128 GB/s 互联带宽。支持多端口扩展与流量均衡调度,并采用自定义压缩包格式与算法提升带宽利用率,为 Chiplet 化封装路线提供高效的 Chiplet 间数据通路

多 Chip 间互联

同一板卡内,多个 Chip 通过 CXL/PCIe 高速 Serdes 互联,典型支持 2~4 个 Chip 全互联,单端口最高支持 64 GB/s 互联带宽。支持多端口扩展与流量均衡调度,并通过自定义跨 Chip 协议握手机制优化延迟、提升带宽利用率,为多芯片 Scale-Up 算力扩展提供灵活的互联基础

多 Board 间互联

多个板卡间通过以太网互联,典型规模支持 4~8 个 Board 全互联,并配合系统级软硬件解决方案,实现新型 Scale-Up 互联

全层级硬件 Cache 一致性

降低多核软件编程复杂度是高端算力芯片的核心诉求之一,硬件 Cache 一致性是不可或缺的基础特性。N200 以 AMBA CHI 为一致性协议基础,面向云计算与 AI 推理场景,自研实现了以下一致性能力:

跨层级一致性域

支持单 Chiplet 内、多 Chiplet 间、多 Chip 间的全硬件 Cache 一致性,多 Board 间由系统软件维护,兼顾资源效率与系统灵活性

分布式 SnoopFilter

单 Chiplet 内支持 2 或 4 个分布式 SnoopFilter,在延迟与带宽之间实现灵活平衡,适配不同规模的芯片设计需求

大规模节点接入

整系统最大支持128个一致性Clusters 接入;以 4 核/Cluster 为粒度接入时,整系统最大可支持512核规模互联;同时支持最多 64 个 I/O 一致性节点接入,具体规模可根据实际芯片规格灵活配置

跨层级优化

针对跨 Chiplet、跨 Chip 场景,从一致性状态维护和协议握手机制层面持续压缩延迟;采用 Hash、双流水线、多 Bank-Queue 等多种结构,提升有效带宽

完善的工程化特性

N200 围绕芯片工程实践提供了完整的配套能力:

支持 AXI2CHI、CHI2AXI 等各种协议转换桥,便于 PCIe、GPU 等各类 I/O 外设接入;

支持多种类型的聚合节点,可有效节省 Ring 环节点,利于后端优化实现,提升整体性能;

支持专有的消息与配置互联通路,与主通路解耦,用于中断传递、Trace 数据传输和寄存器访问;

支持符合 RISC-V RERI 规范的端到端 RAS 实现;

提供灵活的时钟结构,包括同步分频、异步桥接等,可满足各类场景需求;

支持 Debug & Trace 能力;

提供丰富的 PMU 性能统计接口

支持 Partial Good 设计,以提升芯片量产良率;

提供完整配置 GUI,可灵活支持定制化生成需求,支持 RTL 分区分层自动生成与校验,降低物理实现难度,支持配置文档与集成测试集生成。

N200 GUI 配置界面

主要性能指标

延迟

本地 DDR Load-to-Use 延迟约 90ns

单向跨 Chiplet 通路延迟约 10~12ns

单向跨 Chip 通路延迟约 62ns

带宽

单 IO Master 支持128GB/s 接口带宽(读写各64GB/s)

单 Chiplet 内支持 640 GB/s 本地 DDR 访存互联能力

单个跨 Chiplet 端口支持最高 128 GB/s 互联能力

单个跨 Chip 端口支持最高 64 GB/s 互联能力

研发进展:系统验证进行中,FPGA 平台已完成关键验证

N200 已完成整体架构设计、RTL 开发与验证、PPA Push、驱动开发与软硬件协同验证; 同时,基于 FPGA 原型平台,与 X200 构建面向下一代算力芯片的原型系统,现已完成多个关键验证。

以下 Demo 展示了8 个 CPU Clusters(单 Cluster 集成 2 个 X200 核)通过 N200互联的完整 SoC 系统在 FPGA 平台上成功运行 openRuyi 国产操作系统,并依托 PCIe NVMe 接口完成存储子系统的应用级功能测试,充分验证了多核互联与高速外设协同工作的稳定性与可靠性。

进迭时空 · 自研芯片技术矩阵

N200 是进迭时空新一代的自研互联总线,与通算 CPU 核、智算 AI 核共同构成下一代算力平台的核心技术底座。从高性能 CPU 核、AI 核到互联总线的全栈自研,是进迭时空在高端 RISC-V 算力芯片领域持续布局核心根技术的具体体现。

热门