炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
“前华为麒麟SoC总架构师、寒武纪前CTO梁军,回应朋友圈事件。”
整个芯片行业都知道,2022年寒武纪前CTO梁军的离职事件,也看到他在2025年1月通过朋友圈公开了与寒武纪之间的纠纷。
但鲜有人真正了解梁军到底是一个怎样的人,及其与前东家之间分歧背后的复杂背景。
以昉擎科技CEO的新身份,梁军对雷峰网独家分享了他创业的想法,也首次公开讲述了那些他与寒武纪的往事。
他告诉我们,昉擎的整个技术方案跟此前完全不同,其提出了“上下文相关”和“上下文无关”分离的分布式计算结构,将任务分配给更为适用的硬件架构进行处理,这在全球范围内尚无相似的路径。
“这样的系统是有机会不受现在CUDA这套生态约束的。”梁军说道。
而关于与寒武纪之间的纠纷,梁军与寒武纪CEO陈天石的矛盾爆发于2021年12月14日,陈天石在自己办公室里对梁军说:
“你的权力比董事长还大!”
“我现在不怕你了。”
三天后,梁军在公司的IT权限被关闭,此前向他汇报的团队,都被直接划归陈天石麾下。这发生在寒武纪的大算力AI芯片思元590刚刚投片之际。
三个月后,寒武纪发布公告,称“公司核心技术人员梁军因与公司存在分歧,通知公司解除劳动合同”。自此,梁军正式离职,不再担任公司任何职务。
让梁军真正难以释怀的,是他离职后在公司内部广泛流传的一句话:“寒武纪上市前给员工的股票发得少,是因为都给了梁军。”
他很气愤,“员工持股平台‘艾加溪’里我一分没拿,陈天石自己拿了约400万股。”
双方的矛盾最终在2025年1月公开。1月20日,梁军在朋友圈发文表示:他被提起诉讼,公司要求他以合计约5.2万元的价格,转让其持有的合计约1152万股寒武纪公开发行的A股股票,该案件将于1月23日在北京市海淀法院开庭。而梁军方面也向海淀法院提起劳动争议诉讼,要求法院裁定其与寒武纪之间的劳动关系,并要求赔偿股权激励损失超42亿元人民币。
这场庭审定于1月23日进行,而前一日(1月22日)正是寒武纪的公司年会。
法院提前三天通知了梁军开庭(因为最少是提前三天),当时他的律师在外地,留给梁军及其法律团队的准备时间极为有限,在这种仓促与被动中,梁军选择在朋友圈公开此事。
2024年全年,他已经多次向法院提出请求,要求将案件以公开审理的方式进行。但这一诉求最终未被采纳。
这不仅是个人层面的权益之争,也揭示了创业公司中,早期核心人员在公司治理和股权结构中所面临的典型问题。(早期创业公司股权纠纷的更多内幕,欢迎添加微信 YONGGANLL6662 互通有无。)
在这场纷争背后,更不容忽视的是梁军在中国AI芯片发展历程中的深度参与与技术贡献。
回顾梁军的技术履历,从华为海思麒麟SoC总架构师,到寒武纪CTO,他见证了国产AI芯片技术的关键十年。在寒武纪的五年里,他主导推出了首颗7nm AI训练芯片——思元290,并主导了思元370、590等高性能芯片的研发,以及思元100、270、290、370的量产。
这次在北京与梁军的面对面对谈,让外界有机会透过梁军的视角,了解国产AI芯片发展的往事。
带着过去的经验和对未来的判断,梁军将开启新事业,要做一家卓尔不群的科技公司,作为国内最懂AI芯片的人,他又有怎样的思考和判断?
以下是我们和梁军的对话,为便于理解,访谈内容经编辑:
01
回望寒武纪早期:与华为合作,成为估值暴涨的芯片独角兽
雷峰网:你在2017年加入了寒武纪,当时寒武纪仅成立一年,而你已经是麒麟SoC的首席架构师,是在之前有了解过他们吗?
梁军:2014年,我在华为负责手机SoC期间,每年都会抽出专门的时间看论文,那年看到了陈云霁发表的论文(《DianNao:一种小尺度的高吞吐率机器学习加速器》,其提出了国际首个深度学习处理器框架,该论文第一作者为陈天石),就大概了解了他们的研究方向。
当时苏箐想做贴近AI的技术,但方向不太明确,我就建议他去找陈云霁聊聊,但聊完没有后续,因为寒武纪还没成立。
真正合作是2016年,我负责研发麒麟970,ES(Engineer Sample,工程样品)版本刚好有空余的芯片面积可以放置AI处理器,就想到了陈云霁做的IP,于是约了陈云霁聊,陈云霁带着刘道福(寒武纪联合创始人)来华为北研所讲了两个小时,我听完基本就明白了他们的逻辑。
后来,我在海思内部汇报了寒武纪的IP,高管同意了这个方案,于是我们就把寒武纪的IP放进麒麟970的工程样片,当时不算商业行为,更多的是“你情我愿”。
雷峰网:所以华为跟寒武纪的合作,其实并不是你加入寒武纪之后才推动的。
梁军:内外部视角会有一个时间差,麒麟970是2017年秋季发布的,但芯片的研发和生产是一个长周期的过程,所以研发和生产的时间会比产品发布的时间早出许多。
麒麟970 ES版本在2016年就从晶圆代工厂回来了,麒麟970 CS(Customer Sample,客户样品)版本所使用的寒武纪IP在2016年就已经交付给海思。麒麟980所使用的IP版本,在2016年12月我们就已经和陈云霁谈完IP规格,寒武纪同时启动开发工作。
后来,我从海思离职时,海思基于市场考虑,又临时补了一个裁剪版本,那个合同我未参与。在2016年,双方的IP授权协议就已经签署了。
但是我从海思离职是由于其他原因,和2016年我决定采用寒武纪的IP没有关系,和寒武纪公司关系也不大,这一点海思高层也完全知晓。
雷峰网:华为跟寒武纪在2019年就解除了合作,合作的时间并不长,这对华为的产品体系有什么影响?
梁军:其实在2016年签订合同的时候,双方心里就都有数,寒武纪拿到华为的订单并非一个长久的事情,这只是在当时的情境下,华为选择的一个过渡方案。
寒武纪IP的价值,并非设计有断层式的领先,而是帮助华为在当时快速建立对AI系统的认知闭环。2017年,搭载了寒武纪IP之后,华为的SoC补全了AI功能,所以当时华为整个组织对AI的认知要比国内其他所有公司都提前1-2年。
昇腾体系后来发展很快,当年通过引入寒武纪IP抢出1年时间窗口期很关键,华为有整个底层系统以及应用场景,能在实际的产品体验中不断获得反馈,其认知体系会很不一样,所以选择寒武纪的IP来卡那个时间节点,没有错。
雷峰网:你在2017年正式加入了寒武纪,当时跟公司是怎么谈的?
梁军:我跟陈天石谈Offer的时候,其实两个人的关注点不太一样。我关注的重点是把股权写进薪酬项,他关注的应该是我加入后对寒武纪融资进程的影响。
2017年8月18日,寒武纪宣布完成1亿美元A轮融资,由国投创业领投,阿里巴巴创投、联想创投等联合投资。但实际上,根据招股书显示,这轮融资是在2018年才开始交割的(也就是梁军入职之后),阿里的那笔投资是2018年5月份MLU100发布后,7月份资金才真正到账。
雷峰网:所以你觉得你是被“预埋”进融资里的?
梁军:我们双方谈合同的时候,股份是按照寒武纪A轮融资后的股比给我算的,但当时的融资款项其实都还没有到位,看时间线我入职后交割了一部分投资款,我主导MLU100量产以后,阿里的投资款才交割。
在陈天石本人亲笔签署的入职意向书中,明确约定我入职后将于2017年一次性获授一笔股权,中科寒武纪在2017年10月18日召开的股东会也对这笔股权授予有决议,这也是我持有的艾溪合伙的份额的来源,所有的事实,发生时间是匹配的。
另一方面,寒武纪当时拿着跟华为合作的合同在市场上进行融资,合同代表着寒武纪已经有真实的收入、产品有实际的使用场景,2017年底到2018年初,寒武纪开始收到版税费,这也让寒武纪的估值水涨船高,融资历程顺利了许多,因为风险投资机构们之前就没见过一个能赚钱的初创芯片公司,所以就有很多投资机构抢着投寒武纪。
雷峰网:寒武纪发展其实很快,从成立到上市只用了4年,你加入后主要负责哪些工作?
梁军:我加入寒武纪之前很多事情都是陈云霁在负责,我加入后接手了研发工作,并从头建设了产品等体系。当时寒武纪主要的团队班子是中科院计算所出来的,团队的成员学习能力不错,但比较缺乏商业化的经验,也没有交付过面向商业市场的芯片和系统产品。
2017年入职后,我研究了公司之前的设计,早期做的产品其实是一个单核的版本,没有完整的并行编程模型,研究了一个月之后我就改动了很多设计,重做了SoC和编程模型,往后的芯片开发、量产以及硬件体系都是我在负责,软件团队也向我汇报,MLU200系列芯片完成开发以后,我花在软件团队管理上的时间越来越多。
雷峰网:你当时有没有从海思带人过去?
梁军:我不愿意从海思招人,这个做法不合适,2018年加入寒武纪的一般是已经离开海思的前员工,从时间节点上看,2018年其实是海思的高光期,愿意离职加入创业公司的人也比较少。
雷峰网:软件易用性差是早期寒武纪产品面临较多的反馈,中间是走过了什么弯路?
梁军:一代的软硬件系统没有严格定义的并行编程模型,所以做并行计算有很多问题。2017年11月,我把整个编程模型在二代产品里做完了,MLU100投片后,软件团队的成员也承认MLU100原有的那套软件确实不太行。我们用软件实现200系列的编程模型,由于缺乏一些硬件支持,做不到完全一致,所以在外界看来就不那么兼容。
2020年之前,底层软件的设计在通用性和性能最优之间更偏向于追求特定场景下的性能最优,牺牲了通用性。而面对市场和销售的现实局面,获取单个客户的销售收入是难以支撑整个研发的投入的,同时训练产品对底层软件通用性的要求远远高于推理产品。
因此,2020年初趁着疫情出差不方便,业务线压力暂缓,迎来一段宝贵的空窗期,于是我们就下定决心做了调整。之后在2021年我明确了推理和训练两个业务合并软件版本的要求,团队努力达成了目标,国内的主要友商在那个时间点做不到这一点。
雷峰网:当时你负责的思元290直接选择7nm的制程,跳过了12nm这一成熟制程,这样的选择是不是冒了一些风险?
梁军:其实风险不高。按照台积电的节奏,最新的工艺首先用在手机芯片,然后慢慢提升芯片的良率,后面就可以给更大规模的芯片,包括AI芯片使用。所以2018年台积电推出了7nm的制程工艺,2020年英伟达的A100就是用7nm工艺生产的,同一个工艺,手机芯片会快两年。
所以选择7nm的工艺是提前有技术预判的,能够知道台积电的生产不会面临太大的困难,因为历史上都是这样的节奏。
雷峰网:思元590在国内还是广泛受到认可的,你怎么看待这代产品?
梁军:590是2021年投片的,那是我做得比较不错的一个项目,内部对此都是有预期的,比较超乎我预期的是国内其他厂商到2025年还没追上当时这个水准。
雷峰网:有人告诉我们,你离开寒武纪之后,很多之前你一句话能决定的事情,现在要对接半个月,你怎么看待这样的现象?
梁军:海思有一段时间的组织方式是各种疑难问题都交给系统工程师去解决, 做出技术方案交给开发团队执行,讲的通俗一点对系统工程师的要求是十项全能选手,在我负责手机SoC技术的那几年,我的组不只是架构团队,也包括所有的手机SoC领域的系统工程师。
我有很长一段时间的工作状态是每天早晨8点半开始工作,前一天晚上发给我汇报状态,请求给出技术意见的邮件大概在50-100封,我花2个小时读完所有邮件,理解所有技术细节,给出技术决策,做的慢了这一天就干不了别的事情,习惯了。
雷峰网:有人评价你比较强势,好处是效率比较高,坏处是会忽略很多人的意见想法,对此你怎么看?
梁军:看个人感受吧,我是架构师背景,架构师的职责是设计简洁的规则,根据简洁的规则演绎出复杂系统。如果遇到试图打破基本规则的意见,会更倾向于维护基本的规则,虽然很多时候意见的提出方并不能意识到这一点。但其实也有很多之前的同事,对我做事的方式很理解。
02
当制度滞后于承诺:早期创业公司面临的股权纠纷及信任危机
雷峰网:当时你在寒武纪负责研发和产品体系,这就意味着陈天石管理的是销售团队?
梁军:对,销售团队由陈天石管理,但负责研发和产品就不可避免地需要与销售团队打交道,因为产品最终销售不出去,是谁的责任,这很难界定清楚。寒武纪情况最好的时间就是2021年的下半年,因为我去管理一些销售的工作,不去管的话很容易被“攻击”产品没有做好。从另外一个方面讲,产品是有机会窗口的,面对市场竞争,错过机会窗口的代价很大。
雷峰网:所以参与了销售团队的工作,是导致你们矛盾爆发的导火索吗?
梁军:原先寒武纪的售前支持和售后支持的团队就是由我负责,所以我要配合销售团队的工作,不可避免地与销售团队打交道。
当时也有特殊情况,原来负责推理产品的员工因为个人身体原因做了工作调整,因为一时找不到合适的人选,由我兼任直接管理整个推理产品团队,因为产品规划、售前和技术支持各资源团队原本就向我汇报,当我直接管理推理产品时,原有的缓冲没有了,放大了矛盾。
可以公开讲的是之前就有人推波助澜。2019年下半年,有员工在知乎上匿名发帖称:“CEO是董事长,CTO是CEO”,后来颇花了一些精力要求知乎把匿名的帖子删除了,但是我不能确定陈天石的真实想法。
随后2020年的时候,寒武纪北京办公室在致真大厦D座,我的办公室从11楼搬到13楼,13楼是新办公室,那个办公室门口有个摄像头,一开始我真没注意,直到有一天我发现有销售团队的人进我的办公室后被训了,那个摄像头其实就是专门用来观察谁进了我的办公室,摄像头的安装是办公室装修的时候就安排好了的。摄像头安装在公共区域,公司里所有人都能看见。
雷峰网:“摄像头事件”之后,又发生了什么,让你最终走向离职?
梁军:2021年12月14日,我跟陈天石进行了最后一次对话,他跟我说的第一句话是:“你的权力比董事长还大!”然后又说了一句:“我现在不怕你了。”
三天后,2021年12月17日,我的公司IT权限就被关闭了。他发了“总经理决定”,将原本向我汇报的所有团队改成向他汇报。
12月17日是周五,我周末就紧急找了律师,12月21日在律师帮助下,我发了一封邮件给陈天石,邮件主要确认两件事情:一,我是否仍然是寒武纪的副总经理;二,公司是否关闭了我的IT权限。
雷峰网:收到邮件之后,公司有什么反应?
梁军:发出这封邮件后的两天,12月23日,公司安排委托人前往天津,对天津玄算九号(寒武纪的股权平台)做了变更备案,备案了一个2021年12月23日的合伙人会议决议,决议的第五条是“原合伙协议废止,通过新的合伙协议”,同时备案了新的合伙协议,新的合伙协议里新增了一条条款——第35条。
到了2023年2月,寒武纪持股委员会发邮件给我,要求我转让玄算九号里所持有的股份,由“天津玄思”进行回购,我没有同意,于是天津玄思就根据之前新增的第35条条款,在2023年5月份起诉我。
2023年11月,在海淀法院组织的庭前谈话中,原告的代理律师在庭前谈话中表示“梁军不是寒武纪的员工”。
雷峰网:但有很多证据证明你是寒武纪的员工。
梁军:对,这么做的原因在于陈天石本人签署的我的入职意向书里关于股权的约定,被写进了薪酬项下,对方试图否定我与寒武纪之间曾存在劳动关系,进而否定入职意向书的法律效力,再进而否定入职意向书里关于股权的约定。招股书上也有明确的表述我是寒武纪的员工,甚至我还是招股书的签字人。之后我向法院提供了社保记录、劳动关系的情况说明等相关材料。
2024年10月,我正式在海淀法院提起起诉,主要有两条内容:
第一条,请法院确认我与中科寒武纪自2017年10月18日至2022年2月10日期间存在劳动关系。
第二条,请求中科寒武纪赔偿超过42亿元人民币的股权激励损失。
雷峰网:关于股权的纠纷,公司还有其他的案例吗,结果如何?
梁军:之前公司请了个非常优秀的运营专家,寒武纪从100人的规模做到了1000人的过程中,她在组织建设和流程规范制定上发挥了很大作用,公司跟其约定的待遇是一半现金、一半股权。上市公司的股票解禁需要三年,也就是说她的股权在2023年7月份就解禁,但5月份的时候她就被公司裁了,并且公司要求以原价回购股权。
后面她以非法裁员申请劳动仲裁,劳动仲裁判她赢了。中科寒武纪公司上诉至海淀法院一审,现在在等待海淀法院审理。
雷峰网:你觉得出现这样的股权纠纷,后面对公司的影响大吗?
梁军:对公司的影响还是比较大的,因为信任基础瓦解了。创业公司最重要的就是股权激励,加入早期创业公司的人看重的都是股权,但员工的股权最后变得有点像“理财工具”。
招股书显示,2019年9月(寒武纪上市前),陈天石向纳什均衡转让了1.8亿元价值的股份(向艾溪合伙以36000元对价转让了2.43%的股份)。
而后,其又用这笔资金购入了寒武纪中层以下员工的持股平台“艾加溪”的股份,当时艾加溪持有的中科寒武纪的股份是17元一股,他用6000多万元购入了通过艾加溪间接持有的中科寒武纪约400万股的股份,大概占艾加溪平台40%的股权,现在市值20多亿元。(注:天津玄算一号及天津玄算二号为员工持股平台艾加溪的主要股东,其在艾加溪平台出资比例超90%,而陈天石又是天津玄算一号及天津玄算二号的主要股东。)
这笔股权如果用于招人,大概能招10-20个阿里P9级别的人,那寒武纪就上了一个台阶,招人的效益比股份增值的效益要大得多。
但是最让我不满的是,我离开寒武纪之后,内部流传出一个声音说:上市前给员工发的股票比较少,是因为员工的股权激励大部分都给了我,我对这件事情特别气愤,因为我间接持有的所有中科寒武纪的股份均依据陈天石本人亲自签署的入职意向书获得,艾加溪平台我一股都没持有。
雷峰网:后来你发的朋友圈在整个行业内的影响很大,是这个事情导致的吗?
梁军:发朋友圈是2025年1月21日,法院提前三天通知我开庭(因为最少提前三天),当时我的律师还在外地,几乎没有给我们留出反应的时间。
1月23日开庭,1月22日是寒武纪的年会。
雷峰网:在朋友圈里面你也提到,你对寒武纪发起诉讼,这是在被起诉股权之后发生的?
梁军:首先,寒武纪持股委员会2023年年初发邮件称要回购我持有的公司股份,要求我按出资额将我在艾溪合伙的股份转让给新注册的合伙企业寒武众志,将我在天津玄算九号的股份转让给天津玄思。
所以是用寒武众志和天津玄思的名义在2023年5月对我发起诉讼,寒武纪这个主体并没有出面。
后续我要求法院公开审理,但原告向法院递交了申请,申请中写明因涉及上市公司中科寒武纪机密,申请闭门审理。对此,我就要求追加中科寒武纪进来作为第三人,但是未获得法院支持。
在诉讼过程中,原告的代理律师不止一次表示“梁军不是寒武纪的员工”,因此我于2024年10月在海淀法院发起了诉讼。
雷峰网:距离你发朋友圈已经过去半年,现在官司的进度怎么样?
梁军:还在等待一审判决,更多的细节就不展开讲了。
雷峰网:你希望最终双方能达成什么结果?
梁军:既然大家不是一路人,就各走各的路,把账算清楚就好了。从已经发生的事实看,钱上的纠葛如果要彻底的了解,依赖于双方的认知水平,仅从一方出发难以解决。
发生冲突后,其单方面去修改合伙协议,而我做为中科寒武纪的前副总经理、CTO,要给法院准备正式文件,说明我确实和中科寒武纪曾经存在劳动关系,以及存在劳动关系的时间,这就像是被拖进烂泥地摔跤,过程很不堪。从另一个角度看,在烂泥地上摔跤也是人生经历,我对人性的认知相比以前深刻很多。
03
基于分布式计算架构,昉擎科技有机会突破CUDA的生态约束
雷峰网:你深度参与了国产AI芯片行业的发展,觉得行业发生的最大变化是什么?
梁军:行业的变化是很明显的,2022年是一个节点,在这之前CV模型(Computer Vision Model,计算机视觉模型)很碎,而且模型变化特别多,没有一个占主导地位的模型,对于追赶者要求同时适配如此多的模型,对软件的要求比较高,2023年之后基本上都统一到Transformer Decoder Only的模式,基础模型归一化,整个底层的设计就发生了变化,对整个系统的规模还有通信的要求都上升了,系统设计里通信占越来越大的比重。
雷峰网:传统CV到Transformer之后,很多人都在讨论NPU和GPGPU的路线要怎么去选择,你怎么看待这个问题?
梁军:这个问题的本质在于英伟达是先发者,拥有最多的社区开发人员,所以其上层软件系统非常全面,社区每天还在持续开发新的特性,做各种优化。你只要搭上CUDA这条船,就能够自动获得很多特性。如果你在英伟达之外开发一套系统,会面临比较大的压力,一方面没有英伟达有钱,另一方面是生态上有很多风险,无法兼容CUDA会降低客户的使用体验,在销售端就会变得困难,所以选择NPU还是GPGPU,首先是一个商业的考量,其次才是技术的考量。
雷峰网:现在AI芯片都在推崇更大的算力,怎么看待这样的现象?
梁军:当你要大规模训练模型的时候,你肯定希望用最短的时间完成模型的训练,所以你追求整个系统的性能,训练是偏向于绝对的性能。
但是这并不是市场的全部,因为市场是有多样性的。具体到推理的话,推理的问题在于支持基础功能以后,产品要有性价比,我这里讲的性价比包括客户导入新的硬件平台所支付的成本,很多市场挤不进去的原因在于产品性价比不如英伟达。
客户的需求可以简单分成两种:一种是业务需要最快的速度上线,这种阶段由于英伟达有生态优势,与其竞争会有较大压力。另一个是客户的系统和需求已经稳定了,需要的是优化成本,在基础模型都已经统一成Transformer Decoder Only的背景下,这对中国公司而言是一些机会,你就是投钱投人把整个系统做好,在控制客户切换平台的成本,控制自己投入的支持成本的约束下来承接订单。从2025年开始,中国的模型开始在开源社区占据主导地位,对此也有很大助力。
雷峰网:现在AI芯片都在贴着算法演进,算法变化又非常快,芯片企业在技术架构上怎么保持前瞻性?
梁军:本质上看,这套系统是一套并行的系统,所以核心是你在最开始搭建通用的编程以及基础性的架构(不一定是GPGPU),然后根据算法需求去做一些定制加速,并非从一开始就做非常定制化的系统。英伟达就是这样,它首先建立了一个通用的GPGPU的架构,包括指令集、核的设计、互联以及编程模型,以及在此之上的工具链,软件栈。
根据算法需求同步设计最合适的硬件去做加速,同时又谨慎的维护编程的通用性不受影响。英伟达的PTX指令集的演进,一直遵循这个原则,所以算法的变化并不构成架构设计的一个障碍,虽然英伟达Tensor Core的设计,已经演进到相当复杂。
对于一家创业公司而言,如果做完硬件再去跟进软件,然后发现硬件的通用性不够,要对底层架构进行修改,那之前的所有在软件上的投入就变成了负担,而非正资产,核心是从一开始就特别小心的去做权衡取舍,在维护编程的通用性和专用硬件做性能加速之间的平衡上要谨慎。
雷峰网:那昉擎如何去做这个权衡取舍?
梁军:采用SIMT(单指令多线程)路线,做类似CUDA的编程模型是一个选择,但是仍要面对CUDA是英伟达的私有系统的现实约束。2021年下半年RISC-V RVV(RISC-V向量扩展) V1.0版本发布之后,就多了一个选择。从客户的角度,采购新的硬件计算平台,同时也是做软件投资,采用开源的指令集设计而非私有指令集,对客户而言软件投资的风险会大幅降低。
从纯技术角度看,RISC-V RVV缺乏面向AI计算的一些基础特性,但整体架构层面的完成度还可以,指令集的定义出发点是面向通用计算,在此基础上做适当扩展就可以了。
从我们的角度看,两种路线属于尺有所长,寸有所短,没有强烈偏好。任何一种路线做好了都可以满足市场需求,但是在维护编程的通用性和专用硬件做加速之间做适当的平衡,在此方面的需求是一致的,需要软硬件团队对此有正确的认知。NVIDIA PTX指令集的演进是很好的参考,英伟达在这方面是业界最佳水准。
雷峰网:现在基于RISC-V去做AI芯片的公司也很多,各家有什么差别?
梁军:现在不同的公司做出来的产品可能差几个量级,因为RISC-V本身缺乏一些面向AI计算所需要的特性,而AI的整个系统和计算核的设计思路和传统的CPU核设计思路差别很大,有的公司按照传统CPU思路做出来的产品就不太适用于AI计算。
专门做AI计算每一个环节其实都需要重新做,你只是用RISC-V的指令集,其他的东西包括指令的扩展和实现都要从头开始做。
雷峰网:选择分布式架构这个路线,能绕过CUDA生态吗?
梁军:昉擎采用上下文相关和上下文无关分离的分布式架构做了设计,从2012年CNN( Convolutional Neural Network 卷积神经网络)开始到目前为止,上下文相关和上下文无关的概念其实一直存在于算法的演进当中,只是在之前CV时代没有那么明显,Transformer时代让这个架构更明显,我们预期Transformer之后仍会维持这样的算法结构。
我们的认知是上下文相关和上下文无关分离,不仅仅是算法结构,同时也是一种可扩展的计算架构,行业内近期有关于Attention和FFN分离的热烈讨论,我们认为上下文相关(context aware)和上下文无关(context free)分离是更合适,更抽象的表述是,具体到Transformer网络体现为Attention和FFN分离,昉擎以后也会使用上下文相关与上下文无关相分离这样的表述。
采用分布式的计算架构,系统的设计从一维扩展变成了二维扩展,也重构了设备的交互模式。昉擎基于这个原生异构系统的角度去切入市场,是有机会不受CUDA生态约束的。
雷峰网:你提到了重构设备的交互模式,所以昉擎是会切入窄场景但高频刚需的AI硬件,像可穿戴设备那些场景?
梁军:AI硬件最大的问题是沿用传统的SoC思路去做,这会面临内存容量受限、内存带宽受限以及性能受限的约束。行业讨论说把模型做小,然后放到单个设备里面,这就会牺牲很多模型的能力,这是现有方案面临的问题。分布式架构中,上下文相关处理输入输出,上下文无关处理模型权重,这样在两个维度上各自扩展,可以从两个维度去定义系统,有机会做出颠覆性的产品。
手机的SoC系统改成分离式架构之后,手机、智能眼镜、智能耳机、智能手表等设备都可以作为独立的输入输出处理器接入权重处理器,或者讲传统意义上的SoC处理上下文相关部分,系统里新增一个权重处理器处理上下文无关部分。所以只要你认为模型的能力会越来越强,各种IO处理器,像耳机,眼镜这部分设备只需要接入权重处理器就可以独立完成更多的功能,在现有的系统定义里这些设备是手机SoC的附属设备,在新的系统里这些设备和手机SoC是对等的。我们认为这样的设计,有机会开拓出新的系统形态,创造出新的市场。
雷峰网:昉擎是第一个做分布式架构的公司,如果其他企业跟进,市场留给你们的窗口期有多长?
梁军:其他厂商跟进来做这个事情不可避免,但是分布式架构需要设计面向延迟优化设计的系统,而传统GPU的设计思路是面向吞吐做优化,所以整个设计的思路和实现方式完全不一样,昉擎有比较充足的时间窗口期。
其他公司如果跟进,那它们之前的积累就变成了负担,而非资产。此外,这个领域的技术此前较少受到关注,我们也在积极申请知识产权保护。
从技术演进的角度看,分布式架构只是第一步,在引入分布式架构以后,可以更清楚的认知到计算范式的转移,从以处理器为中心的计算系统设计转移到以Memory为中心的计算系统设计,在AI模型大行其道的当下,计算范式的转移是事实,但是还未被广泛的认知,这也是近年来存内计算和近存计算等概念行业内声音很大的真正原因,只是当下的讨论很大程度上是从硬件视角出发的认知,从计算范式转移的角度会有全新的解释。
无论KV Cache, 还是权重,在很大程度上都可以定义为Memory,有一些计算的属性,但是更多的表现为Memory,只不过不是传统意义上的输入地址,读写数据的Memory,而是有新增的计算以及通信的属性。
我们的看法,沿着这个路线走下去,有机会定义出新型的Memory器件。做这种前沿的技术开发以及产品定义,也是昉擎做为创业公司存在的价值所在。
所以有其他厂商跟进,对昉擎而言不算坏事情,说明我们的技术路线得到行业内其他公司的认同。我们也有自信,因为我们起步早,也希望我们的技术路线得到其他厂商的认同。
雷峰网:那在产品体系上,昉擎是怎样去做规划的?
梁军:昉擎的第一代产品是给市场验证分布式系统,所以主要目的是做出一款具备超出市场预期的性能及可用性的产品,让市场了解到这是一条可行的路。
随后就要开始做下一代产品,昉擎面临的核心问题是在技术平台准备完毕后,找到一个最方便切入且效果最好的领域。
雷峰网:那现在找到这个产品领域了吗?
梁军:有具体方向,但目前不方便公开。
雷峰网:从华为到寒武纪,你有丰富的团队管理经验,现在怎么去搭建昉擎的团队?
梁军:昉擎的团队建设非常精干,我们的目标是做技术领先的公司,团队人少是优势,因为更多的时间可以用于思考技术本身,而非管理,从实际执行的过程看,当前我维持这一判断。
雷峰网:那之前的这两段经历,对你创业有什么帮助?
梁军:我是2000年加入华为,一直到2012年都在做网络芯片的架构设计,之后负责手机SoC的技术方案。我把架构师这个角色分为几个档次:
第一档,是有能力合理设计简洁的规则,并能够根据简洁的规则演绎出复杂的系统;
第二档,是在开发以及系统演进的过程中,有能力维护基础的规则不被违背,并根据系统演进需要定义规则的演进;
第三档,是可以认知到好的架构设计,对比在开发团队能力以及进度要求等约束下可以执行好的架构设计,二者之间的区别,是能够有意识地做出合理的取舍。
我在做网络芯片时是在第二个档次上做事,十年前我负责手机SoC技术时,是在第三个档次上做事,我对架构师这个角色的认知是顶级水准,在华为的过往经历对此帮助极大。
从产品方面,我负责手机SoC的技术以后,一直在竞争最激烈的市场上,和全球最顶级的公司做竞争,这段经历使得我对产品的认知提升到了一个新的层面。
在海思的最后几年,我有很多精力投入在技术管理工作。行业内很多人讲芯片产品体系是“预研一代、开发一代、量产一代”,这个说法最早其实是我在2015年年初在海思内部提出来的。当时麒麟950刚完成投片,我在内部提出以此为标志,组织进入了一个新的阶段,开始有固定的一年一代的产品节奏,为了适应这个变化,我明确指出用“预研一代、开发一代、量产一代”做为方法论来管理各个技术领域,每个领域每年依据产品节奏都要分别审视三个维度的工作。
由于这个说法简单又好理解,后来就被各个领域的团队做为工作的指导原则。也是因为负责手机SoC这种复杂系统的技术工作,才有机会对技术管理怎么做有深刻认知。
到了寒武纪之后,我是寒武纪的77号员工,经历了公司从100人扩张到1000人的阶段,建立了各个技术平台,研发和产品体系,“亲自卖货”的经历使得我对整个商业闭环的认知,对公司运营的认知,相比之前有很大的提升。过去数年的经历,我对人性的认知相比之前深刻很多。有意思的是这么折腾一圈,我对技术和产品的认知,相比之前又上了一个大台阶,所以现在做创业公司,自我感觉处在历史上最好的状态。
配资公司行情提示:文章来自网络,不代表本站观点。