2022年12月28日 浏览:467 作者: 进迭时空

进迭时空RISC-V高性能核研发取得重大进展

作为一家高性能计算芯片与计算系统企业,进迭时空的第一代RISC-V融合计算处理器核X100研发取得重大进展。X100在通用计算能力和面向应用的融合计算能力上,均取得了重大突破。X100的通用计算性能超过ARM A75,在AI应用、视觉应用、机器人应用等方面则大幅领先ARM A76。作为一款RISC-V架构的高性能融合处理器核,X100将被用于进迭时空后续的芯片中,并赋能高性能CPU、边缘计算、泛智能机器人、自动驾驶等对计算性能有较高要求的场景。

在通用计算性能上,X100的单核跑分达到7.5 SPECint2k6/GHz,Coremark达到7.7/MHz,Dhrystone达到6.5DMIPS/MHz,最多可以支持16个核同步计算。在融合计算方面,X100也做了大量的定制优化,16核最多可提供超8TOPS@INT8的算力,并对常见的机器视觉算法、SLAM算法等做了深度优化。在架构和微架构设计上,与当前很多RISC-V核通过扩展自定义指令提升性能的方式不同,X100使用原生指令并通过指令操作融合等硬件技术解决RISC-V基础指令性能不足的问题。

X100特性

X100在规格上的稀缺性

X100完全照RISC-V指令集标准进行开发设计,并在向量计算、虚拟化、中断等支持上具有独特的领先优势。RV Vector 1.0版本为当前官方最新版本,目前市面上的RISC-V芯片均未支持,而像A75、A76等ARM V8架构的核仅支持SIMD架构的Neon扩展,在算力的可扩展性和软件编程灵活性上均不如X100所搭载的Vector扩展。虚拟化一直以来是服务器等场景所必备的,随着自动驾驶等智能化场景的普及,虚拟化技术的价值更加普适,当前国内外的RISC-V内核在这项技术的支持上一直是滞后的,进迭通过X100在RISC-V领域实现了更多的虚拟化支持。

向量计算支持 – X100搭载向量计算引擎,完全兼容最新的RISC-V Vector V1.0标准,支持丰富的数据类型(INT8/16/32/64, FP16/32/64 &BF16)。X100提供32个256-bit向量寄存器,最大支持4*128的向量处理位宽。向量计算引擎采用双核共享方式,可有效提高数据处理的能效比。此外,X100基于向量寄存器进一步扩展融合计算指令,可提供灵活高效的矩阵计算等能力。与中国仅能获得Vector计算能力严重受限的ARM核不同(瓦森纳协议管制),X100通过向量架构的定制优化极大提高了处理器的计算能力。

虚拟化支持 – 针对服务器,车载芯片等场景,X100支持了RISC-V 的虚拟化标准,可运行RISC-V的虚拟化软件。

除了上述标准外,X100还支持了RISC-V的位操作指令标准B,DEBUG调试标准、先进中断标准AIA等功能。

X100在微架构上的创新

微架构兼具高性能和高能效的优势,进迭时空X100在微架构上进行一系列创新,在大幅提高性能上起到了关键作用。

指令融合 – RISC-V的基础整形/浮点指令(I/F/D标准)因其简洁相较ARM存在一定的效率不足,很多RISC-V处理器核通过扩展指令的方式部分解决该问题,但是这种方法也存在基础指令碎片化的缺陷。X100通过硬件创新对指令序列进行监测与智能融合,在不损失后端流水线简洁规整的前提下,有效解决了RISC-V基础指令效率问题并极大提高指令执行效率。

这些指令序列包括连续高低位立即数合并,连续地址自增减合并,连续地址访问合并,连续移位合并,连续常用ALU操作合并,加载ALU操作合并,加载ALU存储操作合并,以及更多针对特定场景的深度融合优化。这种深度融合技术既保护RISC-V基础指令集与RISC-V生态一致,又让跑在X100上的程序性能得到极大提升。

数据预取- 在计算密集场景中,处理器的数据访存能力往往是计算是否高效的关键,尤其是AI/图像处理这种数据量远超出处理器cache容量的场景。为此,X100支持了多数据流多步长的数据预取,并根据访存频繁度,访问类型等调整预取频度和强度,确保高效地利用总线带宽资源。

分支预测 – X100采用多级混合预测架构。这包括零延时的Next-Line预测器,它可以每周期都对条件分支,绝对跳转和函数返回指令的跳转方向、跳转地址进行预测。以及更精确的,容量更大的后级预测器,采用TAGE,BTB,RAS等算法结构,在预测架构每一流水级均对分支指令进行更精准的预测和对Next-Line预测器的校正。

能效优化 – X100深度优化流水线并发性,平衡前后端带宽和流水线资源以获得极致的三发射性能。根据算力和资源开销充分定制向量流水线,创造性地将向量多发按序和标量乱序融合在统一的架构中,共享调度和执行单元。

X100实现融合计算新突破

为了获得数据处理效率、计算能耗、现场切换低延时等优势,X100复用Vector向量寄存器作为融合计算的寄存器现场,包括AI计算、视觉处理、非线性求解计算等。相对于公版ARM架构需要外置NPU来实现AI算力,X100的AI算力由指令驱动,可编程性更好,更能适应快速变化的算法,同时硬件成本也相对降低。

AI算力 – X100采用独特的2D卷积指令结合创新内存架构加速AI应用。相比于普通高性能处理器,融合AI算力的处理器AI指令集可以提供超过SIMD指令20倍的算力,为算法模型的推理带来10倍以上的性能提升。

与当前的NPU异构算力相比,处理器融合算力的AI布署软件栈充分利用开源社区资源,无缝接入onnxruntime、tflite、pytorch-mobile等框架,确保每一个计算结果与开源软件完全一致。算法部署无需学习与适配硬件特定的AI软件栈,可快速应用与上手,使用户在产品开发过程中更专注于AI算法本身。AI应用的开发过程与习惯与传统CPU应用保持一致,摆脱了异构硬件带来的额外软硬件调试复杂度,可大大缩短AI应用的开发周期。

视觉处理能力 – 处理器要经常参与视觉应用中的图像前/后处理,X100通过指令与微架构定制,将resize,affine,ColorCvt等视觉计算性能提升35%以上,部分可达到50%以上。

非线性求解器计算能力 – SLAM算法是机器人/AR/VR等应用的核心算法,非线性优化是目前SLAM工业界最主流的状态估计算法,也是SLAM的计算核心。X100通过指令与微架构定制将光束平差法BA(Bundle Adjustment)等非线性求解性能提升30%以上。

X100未来应用

RISC-V作为开源指令架构,其相当于对芯片公司进行了指令架构授权,进迭时空充分利用RISC-V 的这种开源开放特性,在指令集和微架构上进行定制优化。鉴于上述在通用计算能力和融合计算能力上的突破,X100非常适合用于边缘服务器、高端智能机器人、自动驾驶等场景。虽然市面上不乏RISC-V的计算核心,但能落地和商用的国产高性能RISC-V核仍十分稀缺,X100 无论在规格、性能、融合算力上均达到了国内的新高度。

目前搭载X100处理核,由进迭时空自主研发的高性能SoC也在同步开发中,并与多个合作伙伴展开深度的技术合作。进迭时空将为行业提供算力更强大,性能更优越的RISC-V计算芯片。

商务合作请扫码