仅仅在五、六年前,人工智能还只存在于人们的想象。

短短几年间AI快速扩张,AI算力和运算数据量每年都在以指数级增加,对算力的需求空前,但摩尔定律却已接近极限。

在能耗墙和存储墙的阻挡下,半导体愈来愈蹒跚的算力提升已经追不上狂奔的AI。

存算一体架构有机会让AI面临的问题迎刃而解。时代的浪潮下,一批探索存算一体的企业相继成立。

在这个领域中,国内外研究几乎站在同一起跑线上。

其中亿铸科技是将新型存储器ReRAM用于存算一体赛道的“先行者”。成立仅仅两年,亿铸科技就已能够设计出能效比超过主流计算卡十倍的基于ReRAM的存算一体AI大算力芯片

在即将到来的存算一体爆发期,国产厂商们将要迎来的,是一场与国外巨头们堂堂正正的对决。

【名为GPU的马,拉不动AI的车】

自1956年约翰.麦卡锡在达特茅斯会议上提出人工智能的概念,AI已经发展了70年。

70年间,AI曾经爆发过三次浪潮。

在前两次浪潮中,AI由于种种原因,最终未能普及。

直到第三次浪潮中,深度学习技术的兴起,解决了AI普适性与可维护性的问题,这一赛道才真正迎来曙光,造就了现代意义上的基于深度学习的“人工智能”。

随着深度学习的广泛应用,对算力的需求日益增加,这让能够提供大规模算力的GPU在AI领域变得越来越重要。

然而GPU毕竟不是专为人工智能而生,随着人工智能发展走入深水区,GPU的问题逐渐浮现,尤其是AI发展中的“存储墙”、“能耗墙”问题,GPU无法突破。

无论是CPU还是GPU,采用的都是存算分离的冯诺依曼架构。

在冯诺依曼架构下,80%-90%的功耗发生在数据传输上,99%的时间消耗在存储器读写过程中,导致了“存储墙”和“功耗墙”问题。

冯诺依曼架构的芯片在工作时,计算单元要先从内存中读取数据,计算完成后再存回内存,才能最终输出。

但在过去几十年中,存储器与处理器的发展严重失衡,自上世纪八十年代以来,存储器读取速率的提升远远跟不上处理器性能的增长。

这导致了计算畸形的漏斗结构:无论处理器所在的漏斗“入口”一端处理了多少数据,也只能通过存储器狭窄的“出口”输出,严重影响了数据处理的效率。

曾在AI芯片公司Wave Computing工作过的熊大鹏博士对此深有感悟。

2014年左右,熊大鹏正在从事GPGPU领域的研究,在工作中他深感能耗墙与功耗墙的限制下,人工智能难以持续发展。

熊大鹏认为,打破内存与计算隔阂的存算一体架构是人工智能未来的一个可能解。

不同于冯诺依曼架构,存储单元与计算单元一体的结构让数据不必在两者之间反复“搬运”,从而让“能耗墙”与“功耗墙”问题迎刃而解。

谈起对存算一体技术的初印象,熊大鹏说到:“2017年我第一次接触到存算一体技术,当时就震惊于怎么会有这么好的东西能够恰好解决AI芯片面临的问题。”

在初识存算一体后,熊大鹏兴趣盎然,立刻开始了着手从产业界到学界学习和调研,对存算一体建立了系统的认识。

当时,把存算一体运用到AI中还只是一种理论,熊大鹏还没有找到将他在存算一体领域的雄心落实的机会。

熊大鹏得以实现抱负的契机是与ReRAM的偶遇,这也是他在2020年创立存算一体AI芯片公司亿铸科技的关键。

【存算一体的“天时”、“地利”与“人和”】

2018年,熊大鹏在工作中接触到了ReRAM的领军企业Crossbar。当时正在苦苦寻找存算一体技术在AI芯片领域落地方案的他,刚一接触ReRAM,就近乎直觉地认为ReRAM有解决存算一体落地问题的能力。

存算一体的存储介质选择一般有三种方案:Flash等传统存储介质;相对成熟的易失性存储器SRAM;以及ReRAM等新型存储器。

熊大鹏说,不同的存储介质有不同的特点,也有各自最适配的应用领域,而在他看好的AI大算力芯片场景下,ReRAM则是最合适的选择。

在他看来,NAND Flash读写延时较大,性能相对落后,并且工艺节点在40nm左右,难以随先进工艺继续迭代,无法满足AI大算力芯片的计算需求。

SRAM存储器在大算力场景下则存在单位密度受限、漏电流和工程落地难度和成本较高等问题。

而ReRAM虽然在应用于模拟存算一体时也存在着精度和数模转换等难题,但在熊大鹏看来,亿铸科技选择的基于ReRAM的全数字化存算一体技术,能较好解决精度和数模转换等难题,无疑更适合应用在AI大算力芯片的场景中。

ReRAM是一种新型非易失存储器,其基本存储单元被称为忆阻器,是一种可编程电阻,其特点是在断电之后电阻值依然能够长期保持。

忆阻器可编程的性质让其非常适合在ReRAM存储单元上加上计算功能,而断电后保持数据不丢失的特性也让它能够成为可靠的存储器,这都让ReRAM与存算一体架构的要求不谋而合。

在与一家全球ReRAM新型存储技术领军企业中的老朋友们,还有斯坦福大学、德克萨斯大学奥斯汀分校、上海交通大学、复旦大学、中国科学技术大学等高校的知名科学家们经过几个月的讨论后,熊大鹏对使用ReRAM存算一体技术解决AI大算力芯片问题有了初步想法,随即开始组建团队。

用ReRAM和全数字化存算一体技术做AI芯片是一条全新的道路,前人留下的脚印甚少,过河没有石头可摸。

一开始熊大鹏也考虑过从技术更成熟的SRAM开始,再过渡到ReRAM。

最终是团队的支持给了熊大鹏信心。团队组建的过程中,熊大鹏找到了过去在Wave Computing共事过的Debu博士。

Debu博士是IEEE Fellow、曾就职于斯坦福大学,当时在Cadence担任首席科学家兼AI部门CTO,也在研究基于SRAM的存算一体IP Core,并且已经成家。如果接受熊大鹏的邀约,在家庭和事业两方面都面临着困难。

但Debu在了解到熊大鹏决定入局基于ReRAM的全数字化存算一体芯片后,顿觉这是一项面向未来的大事业,解决了他在Cadence研究过的基于SRAM 存算一体未能解决的技术瓶颈,克服种种困难最终还是决定加入到亿铸科技创业的行列中。

Debu不远千里来投,让熊大鹏感受到了有识之士对这个赛道的信心,而许多之前曾与熊大鹏有过深入交流的包括工艺器件、电路设计、架构方案和软件生态等各方专家学者的加入,则给了熊大鹏技术攻关的底气。

“不论是ReRAM还是MRAM都是比较前沿的领域,单凭企业自身很难成功,离不开新型存储器领域领先的合作伙伴企业和一流研究团队的支持。”熊大鹏说。

有了这些的支持,熊大鹏终于下定决心,决定直接从ReRAM开始。

“我们的创业团队是‘三老’团队,”熊大鹏略带调侃地说,“老同事,老同学,老朋友。”

原本就对AI芯片十分熟悉的熊大鹏和对基于SRAM存算一体拥有开发经验的Debu让亿铸科技开局已占地利,而众多老友的加入让亿铸科技又添人和。而在熊大鹏看来,存算一体的天时也正在当下。

【决战近在咫尺,中国芯这次正面“亮剑”】

对于国产存算一体芯片的企业们来说,前路依然漫漫,但代表着决战的鼓声已经悄然迫近。

创业者的身份外,熊大鹏还是一名在芯片领域纵横多年的投资人。

作为投资人,熊大鹏见证了许多新兴技术的成长。过往的经验告诉他,属于存算一体的时代距离现在并不遥远。

在熊大鹏看来,存算一体产业从已经实现了从端侧小算力到云端大算力的全场景覆盖,整个产业链的配套正在成熟。

同时,潜在客户对存算一体的认知也越来越清晰,从“没听说”到“有了解”再到如今已经对产品“有期待”。

在国家对能耗越来越严格的管控趋势下,数据中心对高能效比的大算力产品的需求也在高涨。而存算一体芯片超高能效的特性正好可以满足市场需求。

种种因素相叠加,熊大鹏做出判断:“2024年到2025年,存算一体的产品会全面开花。”

距离存算一体的全面爆发,还有三年时间。对于国产存算一体厂商来讲,这正是属于他们的“天时”。

亿铸科技仅正式运营两月后,就获得了由联想之星、中科创星和汇芯投资联合领投的过亿元天使轮融资。在推动ReRAM落地的关键技术上,亿铸科技也已经取得了突破。

如果用模拟或混合方式构建芯片,忆阻器在受到工艺和环境的影响时,会出现精度漂移和数模/模数转换能耗问题。这也是ReRAM落地存算一体的关键阻碍。

为了突破这一难关,亿铸科技选择攻关全数字化存算一体技术。

基于全数字化方式构造芯片,无需模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题。

基于全数字化方式,亿铸科技将开发业界首颗基于ReRAM的全数字化存算一体AI大算力芯片,采用chiplet技术,单模组将突破1000TOPS算力,超出GPU 250TOPS算力的四倍多。

熊大鹏表示,亿铸科技的产品落地正在快速推进,第一代芯片将于2023年落地,并在同年投片第二代芯片。

虽然一切顺利,但无论对亿铸科技还是对存算一体芯片来说,这都远远不是终点。

熊大鹏认为,在技术上实现存算一体和在商业上取得成功是两种概念。在他看来,存算一体芯片要想大规模被应用,首先要建立起自己的生态。

熊大鹏告诉我们,在大算力应用场景下,存算一体的竞争力在于构建生态系统。

仅仅“参与”到现有的生态中,这远远不够,只有跳出传统架构的局限,一开始就以存算一体作为思路构建整体系统才能真正发挥存算一体的竞争力。

亿铸科技的目标除了将存算一体架构在AI大算力领域商用落地之外,还期望和其他存算一体赛道上的伙伴们共建生态。

而在美国对我国半导体领域持续打压的背景下,存算一体芯片还承载着着冲破藩篱的使命。

前段时间,美国出台了对我国的先进制程和高性能计算设计工具EDA等的出口限制政策,这无疑将对我国AI研究的未来带来更大挑战。

熊大鹏认为,在先进工艺短期内无法实现全国产化的大前提下,国内半导体必须具备在性能表现相同的条件下发展与先进制程解耦的技术。

存算一体就是一种突破先进制程对性能限制的有效路径:亿铸科技基于成熟的28nm CMOS工艺和国内既有产业配套设计的存算一体AI大算力芯片,已经可以实现7nm CMOS先进制程AI芯片10倍以上能效比和性能。

并且,在存算一体赛道上,国产芯片厂商们并非单方面的追赶。

在熊大鹏看来,与传统赛道相比,在存算一体芯片领域,国外“巨头们”并没有在这条新开辟的道路上领先太多。

“总的来说,国内外在存算一体领域差距不大,而且在某些方面,我们做的更快更好。国内做存算一体的基本都是初创公司,初创公司可以大干快上地投入,无惧国外巨头们的竞争,而这些巨头们却未必有拥抱革命性技术来革自己命的决心,效率也不一定比我们高。”熊大鹏总结道。

对于这场即将降临的决战的最终结果,熊大鹏显得信心十足:“到了存算一体全面开花的那天,我们一定能够战胜他们。”

只需28nm工艺 国产芯片能效提升10倍

责任编辑:上方文Q