低调的国产RISC-V芯片玩家
从ASIC到RISC-V。
众所周知,纳斯达克上市的建安科技在ASIC芯片设计方面有着深厚的积累,公司在前后端设计和流片方面也有着丰富的量产经验。早在2016年,建安就成为国内十大实现10nm芯片量产的公司之一。也就是从这一年开始,贾楠开始探索边缘的AI芯片。
在建安科技董事长兼CEO张南庚先生看来,由于ASIC芯片对计算效率的要求已经逼近极致,建安有必要在ASIC芯片设计中寻求计算能力和功耗的最佳平衡。由于这种R&D工艺要求高技术,它无疑锻炼了该公司的R&D团队。同时,公司还发现ASIC的计算效率比传统架构提高了一个数量级,为建安后续进入RISC-V市场奠定了基础。属于计算密集型应用场景的edge AI芯片成为了贾楠的目标。
经过一番综合考虑,贾楠将目光投向了基于RISC-V的edge AI芯片。
建南科技董事长兼首席执行官耿
首先,从成本的角度来看,RISC-V由于开源和免费的特性,对芯片创业公司非常友好。选择这种架构,意味着建安可以在AI芯片研发过程中节省大量的IP授权成本,将资源投入到核心技术研发中,帮助公司加快芯片的迭代速度,灵活应对市场环境的变化。
其次,从技术趋势来看,RISC-V架构开源化、简单化、模块化的理念符合未来的技术发展趋势。计算架构大师David Patterson(RISC-V的创始人之一)在ACM communication上发表的论文中指出了计算机架构的两个机会。其中一个就是ISA,一个开源指令集,打造一个“面向处理器的Linux”。目前,RISC-V无疑是开源指令集架构中最成功的一个。
再次,从开发角度来说,RISC-V不需要像ARM一样考虑向后兼容,没有历史包袱。基础指令只有几十条,学习门槛比较低。另一方面,RISC-V支持开发者按需扩展指令,为芯片开发提供了更高的自由度。
第四,从性能上看,RISC-V架构内核的性能可以和ARM内核的性能相媲美。
第五,从IP开发的角度,建安从一开始就坚持自主研发IP核的技术路线,RISC-V架构提供了这种可能性。建安还可以将RISC-V CPU与自研加速器以SoC的形式结合,为客户提供边缘芯片解决方案。在这个过程中,公司可以更专注于IP核的迭代,不用考虑可能存在的授权风险。
从目前的市场发展来看,建安打造端侧RISC-V AI芯片也是一个明智的决定。
熟悉行业的读者应该知道,AI芯片根据应用场景的不同,大致可以分为模型训练和推理计算。其中,模特培训市场已经被巨头垄断。GPU巨头英伟达不仅在硬件上建立了技术领先优势,而且结合图形计算平台构建了强大的软件生态屏障,这意味着这个市场的新人机会并不多。另一方面,推理芯片组市场还处于发展初期,尤其是边缘市场。不同的场景对芯片的要求不同,给AI芯片公司留下了更大的空间。因此,贾楠从一开始就专注于边缘推理芯片的研发。
同时,在边缘市场,可穿戴设备、摄像头、传感器等联网设备越来越多。不同的IOT设备对功耗和计算能力的要求不同,这就决定了单一架构很难适应所有场景。建筑的竞争归根结底是生态之间的竞争。虽然ARM仍然是移动市场的主流,但是RISC-V的开源性和模块化让建安这样的芯片公司可以基于RISC-V定制自己的设计,这给了他们更大的自由度。
另外,从目前的市场环境来看,Arm正在成为巨头公司收购的目标,这对IP授权的独立性构成了极大的威胁。而如果很多机构使用RISC-V来设计处理器,就可以在更大范围内推动芯片创新。所以从长远来看,未来RISC-V的价值会更加突出,给建安带来更多的市场机会。
运行在这条全新的赛道上,自研IP成为了建安最重要的底气之一。
从K210到K510
做出进军RISC-V的决定后,贾楠一直坚持依托RISC-V架构,自主研发IP核的技术路线。
张南庚表示,公司拥有三方面板的优势:一方面是将核心技术掌握在自己手中,规避可能出现的授权风险;另一方面,自研核从长远来看可以降低研发成本,加快芯片的迭代速度;第三,自研可以形成建安自己的芯片设计方法体系,保证核心技术和R&D理念的传承。
基于这一研发思路,建安至今推出了自主研发的两代IP核,分别是KPU(知识处理单元)和KPU2.0,这是一款专门为机器视觉任务设计的神经网络加速器。由于异构计算是目前深度学习的主流硬件解决方案,贾楠将CPU和KPU加速器结合后,可以更好地提高芯片在视觉算法模型上的性能。
芯片方面,建安在2018年推出了公司第一代产品——看智K210。这款产品在过去几年里也在包括智慧园区、智慧家庭、智慧能源消费、智慧农业等多个场景中发挥了重要作用。该公司还与一些行业头部公司开发了智能产品。今年,贾楠作为全国大学生OS设计大赛的唯一技术支持,还为大赛提供了智能K210和开发板作为评测工具。而观致K210甚至率先在美国、日本等国际市场打开了局面。
但张南庚指出,即使K210在很多领域表现抢眼,但由于芯片开发时间较早,在计算能力规划中没有考虑到后来出现的算法模型,导致产品在应用场景上的拓展有限。为此,贾楠最近推出了新一代中端芯片K510。
据介绍,在全新的K510芯片中,继续使用双核RISC-V CPU架构,但贾楠对RISC-V CPU子系统进行了优化。例如,CPU集成了64位数字信号处理器DSP,配合自研的KPU2.0内核加速AI应用。
此外,在DSP中设计了专用的本地存储器,进一步提高了DSP的实际运行性能。R&D团队还在双核CPU和DSP之间设计了专用的邮箱模块进行通信,这样软件就可以灵活地控制整个系统。
同时,K510在总线架构、IP核、视频子系统等多个方面也引入了全新的设计。与第一代芯片相比,其计算能力提升3倍,经典视觉算法mobilenetv1的帧率大幅提升,自研高速PHY接口的理论带宽也达到10GB/s,8位数据压缩率高达50%,极大优化了智能AI系列在机器视觉场景中的应用性能。
为了进一步解决功耗大、面积大的问题,建安在K510芯片上采用了NoC总线架构,使得每个ip工作在特定的时钟域,解决了庞大的时钟树问题。
在K510的视觉硬件配置上,佳楠也进行了大幅优化,使其支持MIPICCSI 2和DVP接口,最多可同时支持三路摄像头输入。芯片中还集成了三个图像处理单元ISP,其中一个支持3D功能,硬件完成深度数据的提取和处理,无需软件的参与。与软件处理深度信息的方式相比,不仅节省了巨大的CPU开销,而且性能也大大提高。
贾楠还在摄像头输入接口的设计上提高了K510的灵活性,使其不仅可以通过硬件管道将摄像头输入发送到ISP硬件,还可以将输入的图像写入DDR,ISP可以离线读取DDR中的图像来完成后续的处理。满足用户可以在中间添加定制处理,或者对定制数据进行ISP处理的需求。
值得一提的是,通过整合公司在算法、软硬件、编译器等方面的最新设计,建安推出了全新的KPU2.0,专注于突破AI芯片设计中广泛存在的“存储墙”和“性能墙”问题。为了提高计算效率,KPU2.0采用动态3D PE数组,第三维度支持多种方式传输数据,实现多维度的计算映射,提高PE数组的利用率。同时,每个2D阵列可以动态开启或关闭,根据不同级别调整对带宽和计算资源的需求。
据了解,通过动态3D PE阵列,K510支持多种方式传输数据,灵活支持多个维度的计算和映射,提高PE阵列的利用率。采用GLB(Global Local Buffer)设计,通过可配置的SRAM阵列实现,可以灵活配置,满足不同层不同数据类型的带宽和存储需求,提高内部RAM的利用率。结合动态3D PE阵列和GLB设计,贾楠还创造了计算数据流技术,在计算卷积时不需要重新排列数据。通过多级存储设计,提高卷积计算的数据复用率。
此外,KPU2.0还配备了可重构的SIMD加速单元,可以灵活配置和支持各种激活功能,通过创新的meshnet网络池化和调整操作符的大小。
作为高端边缘推理芯片市场,K510在核心架构和外部设备接口方面对芯片的视觉处理能力进行了大幅优化。这使得这种芯片能够在高清航拍、高清视频会议、智能家居、各类机器人、车载安装的智能终端中发挥作用,占据一席之地。根据该公司的计划,未来几年将有多种智能芯片来帮助一些不同的应用和市场。
与全球开发者一起推广RISC-V。
虽然在包括建安在内的众多厂商的推动下,RISC-V取得了长足的进步。但是,从过去的历史来看,任何建筑的普及都需要时间。比如PC时代的x86架构主导了指令集架构市场几十年,后PC时代迎来了Arm架构的崛起,Arm用了几十年才达到巅峰。换句话说,计算负载的变化需要很长的生命周期。也就是说,虽然我们已经进入了万物互联的时代,为RISC-V创造了机会,但是这个新的指令集只是第一步。
此外,当前教学的发展趋势是越来越高的开放性。比如Arm的崛起,很大程度上是因为引入了更多的市场参与者。同样,我们也会看到RISC-V作为开源架构标杆对新一代芯片设计师的吸引力,或许未来的英伟达和英特尔也将从这个生态中诞生。为此,贾楠还会继续投入。
张南庚还强调,RISC-V生态系统还在成长,尤其是边缘场景,因为业界盛行的很多设计标准和协议标准还没有统一,所以在这个百家争鸣的阶段探索自己独特的技术路线更有意义,这也是RISC-V的坚定支持者贾楠所践行的。
“但我们也应该意识到,把芯片变成智能产品需要一个过程。不像软件,硬件是一个漫长的旅程,需要很多时间。需要先完成原型,然后客户再测试,可能会有一些重复开发。所有这些事情都将比在Linux上调试花费更长的时间,并且需要更多地关注生态,”张南庚补充道。
基于以上考虑,建安将坚持基于RISC-V架构的自主IP核研发的技术路线,为市场带来性能更好的芯片。同时,公司还将在软件方面做出努力,为客户带来更多的R&D体验。
据介绍,通过公司采用统一的AI编译器,Kanzhi系列KPU可以支持TensorFlow、PyTorch和ONNX模型导入。支持算子融合、稀疏压缩和量化,深度优化模型的延迟和带宽。K510还支持丰富的网络模型操作符,包括常见的CNN和RNN操作符以及各种矢量计算和数据处理操作。
“建安的增长得益于开源,公司将全面拥抱软硬件开源战略。建安已经决定将公司积累的硬件模块、软件算法、芯片手册分享给开发者使用,与全球开发者共同推动RISC-V生态的繁荣。”张南珍说。在他看来,推动RISC-V产业的发展,不仅对公司本身有利。这对中国的芯片产业是有利的。
以前芯片设计有时候需要上亿的R&D费用,几百个人,但这对于中小企业来说并不容易承担,也不一定掌握发展的主动权。而开源的RISC-V芯片设计可以大大降低芯片设计的门槛,让一个3到5人的小团队在3到4个月内开发出一款具有市场竞争力的芯片,只需要花费数万元,这将促进芯片产业的繁荣,更好地支撑人工智能等新一代信息技术和数字经济的发展。
张南庚认为,芯片行业最关键的是人才。芯片设计门槛降低后,会吸引更多的人才投入到这个行业,有利于为本土芯片产业的长远发展奠定人才基础;另一方面,由于x86和Arm架构相对封闭,不容易创新。
“有了RISC-V,一些本土的架构创新可以很容易地以开源的形式推广,这将有助于打造中国在开源芯片领域的话语权。”张南珍强调。
晶圆集成电路设备汽车芯片存储MLCC英伟达模拟芯片