进迭时空RISC-V高性能核研发取得重大进展

2022年12月28日浏览：1626 作者：进迭时空

进迭时空RISC-V高性能核研发取得重大进展

作为一家高性能计算芯片与计算系统企业，进迭时空的第一代RISC-V融合计算处理器核X100研发取得重大进展。X100在通用计算能力和面向应用的融合计算能力上，均取得了重大突破。X100的通用计算性能超过ARM A75，在AI应用、视觉应用、机器人应用等方面则大幅领先ARM A76。作为一款RISC-V架构的高性能融合处理器核，X100将被用于进迭时空后续的芯片中，并赋能高性能CPU、边缘计算、泛智能机器人、自动驾驶等对计算性能有较高要求的场景。

在通用计算性能上，X100的单核跑分达到7.5 SPECint2k6/GHz，Coremark达到7.7/MHz，Dhrystone达到6.5DMIPS/MHz，最多可以支持16个核同步计算。在融合计算方面，X100也做了大量的定制优化，16核最多可提供超8TOPS@INT8的算力，并对常见的机器视觉算法、SLAM算法等做了深度优化。在架构和微架构设计上，与当前很多RISC-V核通过扩展自定义指令提升性能的方式不同，X100使用原生指令并通过指令操作融合等硬件技术解决RISC-V基础指令性能不足的问题。

X100特性

X100在规格上的稀缺性

X100完全依照RISC-V指令集标准进行开发设计，并在向量计算、虚拟化、中断等支持上具有独特的领先优势。RV Vector 1.0版本为当前官方最新版本，目前市面上的RISC-V芯片均未支持，而像A75、A76等ARM V8架构的核仅支持SIMD架构的Neon扩展，在算力的可扩展性和软件编程灵活性上均不如X100所搭载的Vector扩展。虚拟化一直以来是服务器等场景所必备的，随着自动驾驶等智能化场景的普及，虚拟化技术的价值更加普适，当前国内外的RISC-V内核在这项技术的支持上一直是滞后的，进迭通过X100在RISC-V领域实现了更多的虚拟化支持。

向量计算支持 – X100搭载向量计算引擎，完全兼容最新的RISC-V Vector V1.0标准，支持丰富的数据类型（INT8/16/32/64, FP16/32/64 &BF16）。X100提供32个256-bit向量寄存器，最大支持4*128的向量处理位宽。向量计算引擎采用双核共享方式，可有效提高数据处理的能效比。此外，X100基于向量寄存器进一步扩展融合计算指令，可提供灵活高效的矩阵计算等能力。与中国仅能获得Vector计算能力严重受限的ARM核不同（瓦森纳协议管制），X100通过向量架构的定制优化极大提高了处理器的计算能力。

虚拟化支持 – 针对服务器，车载芯片等场景，X100支持了RISC-V 的虚拟化标准，可运行RISC-V的虚拟化软件。

除了上述标准外，X100还支持了RISC-V的位操作指令标准B，DEBUG调试标准、先进中断标准AIA等功能。

X100在微架构上的创新

微架构兼具高性能和高能效的优势，进迭时空X100在微架构上进行一系列创新，在大幅提高性能上起到了关键作用。

指令融合 – RISC-V的基础整形/浮点指令（I/F/D标准）因其简洁相较ARM存在一定的效率不足，很多RISC-V处理器核通过扩展指令的方式部分解决该问题，但是这种方法也存在基础指令碎片化的缺陷。X100通过硬件创新对指令序列进行监测与智能融合，在不损失后端流水线简洁规整的前提下，有效解决了RISC-V基础指令效率问题并极大提高指令执行效率。

这些指令序列包括连续高低位立即数合并，连续地址自增减合并，连续地址访问合并，连续移位合并，连续常用ALU操作合并，加载ALU操作合并，加载ALU存储操作合并，以及更多针对特定场景的深度融合优化。这种深度融合技术既保护RISC-V基础指令集与RISC-V生态一致，又让跑在X100上的程序性能得到极大提升。

数据预取- 在计算密集场景中，处理器的数据访存能力往往是计算是否高效的关键，尤其是AI/图像处理这种数据量远超出处理器cache容量的场景。为此，X100支持了多数据流多步长的数据预取，并根据访存频繁度，访问类型等调整预取频度和强度，确保高效地利用总线带宽资源。

分支预测 – X100采用多级混合预测架构。这包括零延时的Next-Line预测器，它可以每周期都对条件分支，绝对跳转和函数返回指令的跳转方向、跳转地址进行预测。以及更精确的，容量更大的后级预测器，采用TAGE，BTB，RAS等算法结构，在预测架构每一流水级均对分支指令进行更精准的预测和对Next-Line预测器的校正。

能效优化 – X100深度优化流水线并发性，平衡前后端带宽和流水线资源以获得极致的三发射性能。根据算力和资源开销充分定制向量流水线，创造性地将向量多发按序和标量乱序融合在统一的架构中，共享调度和执行单元。

X100实现融合计算新突破

为了获得数据处理效率、计算能耗、现场切换低延时等优势，X100复用Vector向量寄存器作为融合计算的寄存器现场，包括AI计算、视觉处理、非线性求解计算等。相对于公版ARM架构需要外置NPU来实现AI算力，X100的AI算力由指令驱动，可编程性更好，更能适应快速变化的算法，同时硬件成本也相对降低。

AI算力 – X100采用独特的2D卷积指令结合创新内存架构加速AI应用。相比于普通高性能处理器，融合AI算力的处理器AI指令集可以提供超过SIMD指令20倍的算力，为算法模型的推理带来10倍以上的性能提升。

与当前的NPU异构算力相比，处理器融合算力的AI布署软件栈充分利用开源社区资源，无缝接入onnxruntime、tflite、pytorch-mobile等框架，确保每一个计算结果与开源软件完全一致。算法部署无需学习与适配硬件特定的AI软件栈，可快速应用与上手，使用户在产品开发过程中更专注于AI算法本身。AI应用的开发过程与习惯与传统CPU应用保持一致，摆脱了异构硬件带来的额外软硬件调试复杂度，可大大缩短AI应用的开发周期。

视觉处理能力 – 处理器要经常参与视觉应用中的图像前/后处理，X100通过指令与微架构定制，将resize，affine，ColorCvt等视觉计算性能提升35%以上，部分可达到50%以上。

非线性求解器计算能力 – SLAM算法是机器人/AR/VR等应用的核心算法，非线性优化是目前SLAM工业界最主流的状态估计算法，也是SLAM的计算核心。X100通过指令与微架构定制将光束平差法BA（Bundle Adjustment）等非线性求解性能提升30%以上。

X100未来应用

RISC-V作为开源指令架构，其相当于对芯片公司进行了指令架构授权，进迭时空充分利用RISC-V 的这种开源开放特性，在指令集和微架构上进行定制优化。鉴于上述在通用计算能力和融合计算能力上的突破，X100非常适合用于边缘服务器、高端智能机器人、自动驾驶等场景。虽然市面上不乏RISC-V的计算核心，但能落地和商用的国产高性能RISC-V核仍十分稀缺，X100 无论在规格、性能、融合算力上均达到了国内的新高度。

目前搭载X100处理核，由进迭时空自主研发的高性能SoC也在同步开发中，并与多个合作伙伴展开深度的技术合作。进迭时空将为行业提供算力更强大，性能更优越的RISC-V计算芯片。

公司新闻 进迭时空RISC-V高性能核研发取得重大进展