发布于:2019-05-06 17:45:52 点击次数:250

在智能芯片领域,寒武纪被称为这一行业的先行者,“先行者”的行踪被泄露,自然会吸引众多从业者的关注与讨论——“新一代的云端AI芯片规格到底如何?”

该提问在短时间内就受到了知乎网友的广泛关注,阅读次数迅速过万

独家爆料:“思元”年初悄然注册,数据遭泄,性能或超越NVIDIA最新一代芯片据泄露照片显示,寒武纪的新一代云端AI芯片MLU270已于今年年初研制成功,主要包括如下五点特性:基于台积电16nm工艺打造

架构代号从上一代的MLUv01升级到了MLUv02

内建视频解码单元(似乎是专门为视频处理市场配置)

但按照寒武纪一直把MLU系列芯片定位为通用智能芯片来看,MLU270应该能够继续支持语音和自然语言处理等重要AI任务

峰值方面,这颗芯片提供int4256Tops,int8128Tops的惊人性能,功耗为75w,与全球AI芯片龙头NVIDIA的最新一代TeslaT4基本持平

在围绕新品的讨论中,这款新品是否与国际业内巨头NVIDIA持平也是知乎网友热议的一点

虽然NVIDIA在国际范围内颇有“一家独大”的态势,但卓越的学术成就以及融资优势仍让很多网友看好寒武纪:对于前途大好的AI芯片市场,玩家越多,越有意思——“有新的竞争者加入进来对业内每一家都是好事”

另外,业内反馈TeslaT4在75w功耗条件下实测性能距离理论峰值有较大差距,不知寒武纪能否突破这一瓶颈,未来尚需相关用户公布实测结果

笔者顺藤摸瓜,查了一下国家商标局的网站( http://sbj.saic.gov.cn/sbcx/),发现寒武纪已经在年初注册了“思元”商标

新的“思元”品牌,貌似可以解决这个小问题,也有利于打开市场知名度

查阅寒武纪以往公开信息,发现寒武纪不存在任何一款代号是MLU270的芯片产品

寒武纪的上一代产品MLU100已经公布,是专注于推理的AI芯片,而且发布时间尚不满一年,不太可能是同一产品线自相残杀式的迭代,更有可能是专注于训练的新产品

而新智元从业内传闻看更倾向于第二种可能性

实际上,低精度训练的需求在业界由来已久

算法工程师使用GPU做训练,通常使用其浮点运算单元,主要是因为在有监督学习的BP算法中,只有精确的浮点运算才能记录训练时很小的增量

而浮点运算单元占用的芯片面积和功耗相比于整数运算器都要大很多倍,导致单位芯片面积的处理能力要差很多

目前业界在人工智能的推断类应用上,发现整数运算可以不影响模型的精度,因此用于推断的芯片已经大量集成了整数运算器或低精度浮点运算器

但业界一直在尝试是否有机会用代价更低的整数运算器实现更为复杂的训练功能,这样可以在不增加芯片面积和功耗的前提下,大幅提升芯片做训练的运算能力

但这个问题在业界也还没有普适的解决方案

如果寒武纪真的在低精度训练领域实现了突破,那将会是AI芯片领域的重大消息

新智元在发稿前尝试联系寒武纪确认该技术信息,但目前尚未有回复

在终端领域:2016年推出寒武纪1A处理器IP;2017年推出双核的寒武纪1H;2018年推出寒武纪1M

迄今已经服务于数千万台终端设备

寒武纪CEO陈天石曾表示,寒武纪的云端智能芯片产品,迭代速度会和终端产品一样快

从这一次的消息泄露来看也确实如此,从去年初的MLU100到今年的MLU270

能够以一年一代的速度进行研发的,国内也仅有华为海思一家在消费类手机芯片能做到

在发稿前,新智元专门回顾了寒武纪去年发布会的新闻,发现陈天石博士在去年曾提到一款名为“MLU200”的云端芯片

这次泄露的MLU270芯片已经研制成功,但是否就是去年发布会时陈天石提到的MLU200,抑或是寒武纪还另有名为MLU200的产品?无论如何,大型AI芯片能在一年时间迭代一代确实令人意外,但如果寒武纪能够同时研发多款高复杂度的芯片,这可能意味着寒武纪已经具备非常完备的芯片研发能力,在迈向AI芯片新巨头的道路上又前进了一步

我们今天如何造芯?回望寒武纪三年AI修行之路   那么,寒武纪在智能芯片这条路上到底是如何发展的呢?新智元对此做了一下梳理:2016年发布的寒武纪1A处理器(Cambricon-1A),是世界首款商用深度学习专用处理器

2017年8月,寒武纪科技一亿美元的A轮融资消息传出,在A轮融资后估值达到10亿美元,成为全球AI芯片领域第一个独角兽初创公司

发布会上,寒武纪三款全新的智能处理器IP产品亮相:面向低功耗场景视觉应用的寒武纪1H8、拥有更广泛通用性和更高性能的寒武纪1H16,以及面向智能驾驶领域的寒武纪1M

其中,MLU100采用寒武纪最新的MLUv01架构和TSMC16nm的先进工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频)下,平衡模式下的等效理论峰值速度达每秒128万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算,但典型板级功耗仅为80瓦,峰值功耗不超过110瓦

按照寒武纪惯例,今年上半年应该会有一次发布会

在这次发布会上是否能够顺利地看到此次遭泄露的“思元270”,又是否真如曝光数据所示,峰值高达256Tops,亦或像网友猜测的那样,在低精度训练领域中实现了关键性突破?值得期待


相关阅读

AMD 7nm Navi显卡猛料:频率功耗未达预期 明年上专业卡

因无缘下赛季欧冠 曼联全队工资遭削减25%

球王的烦恼?马拉多纳执教球队无缘墨超

“被转会”、“被续约” 浙江广厦两将微博辟谣

贾跃亭即将回国配合调查?资深人士:不可能!

如果这事是真的,我想夸夸吴亦凡

三星电子营业利润锐减60% 市值却增加2700亿

143.6万人次参与中国国际动漫节