当下这个阶段,如果你的芯片没有一个某某性能最强的标志,那么奉劝你不要来国产芯片发布的圈子凑热闹。现在,这里是“地表最强”芯片的舞台。
8月23日,华为在深圳总部推出ai处理器ascend 910(昇腾910)。华为轮值董事长徐直军表示,昇腾910总体技术表现超出预期,作为算力最强ai处理器,当之无愧。
图片来源于华为官网
无独有偶。9月25日,杭州云栖大会上,达摩院院长张建锋现场展示了最强的ai推理芯片含光800。张建锋表示,在业界标准的resnet-50测试中,含光800推理性能达到78563 ips,比目前业界最好的ai芯片性能高4倍;能效比500 ips/w,是第二名的3.3倍。
看到这里,大家发现阿里、华为对于“最”字的应用是不是过于随意了?这看起来更像是文字游戏,之后所有在某一领域拔尖的芯片都可以用这样的方式冠以“地表最强”的称号。
但我们无力反驳。昇腾910确实是目前算力最强的ai芯片,而含光800也确实是目前ai推理能够力最强的芯片。
无论如何,昇腾910和含光800在中国芯片历程上都有着自己突出的贡献,在我们的芯片发展史也都会写下浓墨重彩的一笔。
昇腾910-最快的训练芯片
昇腾910搭载的是华为自研的达芬奇架构,达芬奇从ip到指令集都是华为自己的专家创造的,并且支持全场景人工智能应用。昇腾910的算力是国际顶尖ai芯片的2倍,相当50个当前最新最强的cpu。因此,昇腾910的训练速度比当前最新最强的芯片提升了50%-100%。
昇腾910 ai处理器内置32个达芬奇ai core,基于台积电7nm增强版euv工艺。除了基于达芬奇架构的ai核外,昇腾910还集成了多个cpu、dvpp和任务调度器(task scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。在算力方面,昇腾910芯片达到了设计规格(半精度(fp16)256tera-flops;整数精度(int8)512tera-ops)。此外,昇腾910芯片达到规格算力所需功耗(310w)低于设计值(350w)。
在华为全联接2019大会上,华为发布了全球最快ai训练集群华为atlas 900。其就是基于数千颗昇腾910 ai处理器互联构成,总算力达到256p~1024p flops@fp16,相当于50万台pc的计算能力。
图片来源于华为官网
含光800-最强的推理芯片
含光800是一款云端ai推理芯片,峰值性能为7.8万ips(每秒能处理7.8万张照片),峰值能效达到500ips/w。据介绍,1颗含光800的算力相当于10颗gpu,目前基于含光800的ai云服务已在阿里云上线。
图片来源于平头哥官方宣传图
含光800不同于基于冯·诺依曼架构的传统通用处理器,而是根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。
含光800在算法方面也得到了加强。阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果。
不管是训练还是推理都需要强大的算力支撑,而两块芯片都表现了优异的性能。
经实测,昇腾910 打造的atlas 900可以在60秒完成基于resnet-50模型训练,比第2名快15%。这可以让研究人员更快的进行图像、语音的ai模型训练,让人类更高效的探索宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。在一张汇聚有20万颗星星的南半球星空图上,天文学家想找出某种特征的星体,需要169天的工作量,atlas 900只需要10秒。
在城市大脑中实时处理杭州主城区交通视频,需要40颗传统gpu,延时为300ms,使用含光800仅需4颗,延时降至150ms。
昇腾910和含光800有一个共同点,都不单独对外销售。昇腾910通过ai加速模块、ai加速卡、ai服务器等形式对第三方销售;含光800将通过阿里云对外输出ai算力。
昇腾910和含光800可谓是术业有专攻,各自有各自的特点。不管是训练还是推理,在ai应用落地中都至关重要,两款芯片能够在各自的领域做到世界第一,足见各自背后团队的真功夫。同时,这些有着中文古典名字的芯片不断涌现也代表着国产芯的欣欣向荣。如果有其他的企业能够做到这一点,相信大家也愿意继续被这样的“文字游戏”所套路。