华为昇腾910联手阿里含光800拉开“地表最强芯”的大幕

当下这个阶段，如果你的芯片没有一个某某性能最强的标志，那么奉劝你不要来国产芯片发布的圈子凑热闹。现在，这里是“地表最强”芯片的舞台。
8月23日，华为在深圳总部推出ai处理器ascend 910（昇腾910）。华为轮值董事长徐直军表示，昇腾910总体技术表现超出预期，作为算力最强ai处理器，当之无愧。
图片来源于华为官网
无独有偶。9月25日，杭州云栖大会上，达摩院院长张建锋现场展示了最强的ai推理芯片含光800。张建锋表示，在业界标准的resnet-50测试中，含光800推理性能达到78563 ips，比目前业界最好的ai芯片性能高4倍；能效比500 ips/w，是第二名的3.3倍。
看到这里，大家发现阿里、华为对于“最”字的应用是不是过于随意了？这看起来更像是文字游戏，之后所有在某一领域拔尖的芯片都可以用这样的方式冠以“地表最强”的称号。
但我们无力反驳。昇腾910确实是目前算力最强的ai芯片，而含光800也确实是目前ai推理能够力最强的芯片。
无论如何，昇腾910和含光800在中国芯片历程上都有着自己突出的贡献，在我们的芯片发展史也都会写下浓墨重彩的一笔。
昇腾910-最快的训练芯片
昇腾910搭载的是华为自研的达芬奇架构，达芬奇从ip到指令集都是华为自己的专家创造的，并且支持全场景人工智能应用。昇腾910的算力是国际顶尖ai芯片的2倍，相当50个当前最新最强的cpu。因此，昇腾910的训练速度比当前最新最强的芯片提升了50%-100%。
昇腾910 ai处理器内置32个达芬奇ai core，基于台积电7nm增强版euv工艺。除了基于达芬奇架构的ai核外，昇腾910还集成了多个cpu、dvpp和任务调度器（task scheduler），因而具有自我管理能力，可以充分发挥其高算力的优势。在算力方面，昇腾910芯片达到了设计规格（半精度（fp16）256tera-flops；整数精度（int8）512tera-ops）。此外，昇腾910芯片达到规格算力所需功耗（310w）低于设计值（350w）。
在华为全联接2019大会上，华为发布了全球最快ai训练集群华为atlas 900。其就是基于数千颗昇腾910 ai处理器互联构成，总算力达到256p～1024p flops@fp16，相当于50万台pc的计算能力。
图片来源于华为官网
含光800-最强的推理芯片
含光800是一款云端ai推理芯片，峰值性能为7.8万ips（每秒能处理7.8万张照片），峰值能效达到500ips/w。据介绍，1颗含光800的算力相当于10颗gpu，目前基于含光800的ai云服务已在阿里云上线。
图片来源于平头哥官方宣传图
含光800不同于基于冯·诺依曼架构的传统通用处理器，而是根据神经网络推理运算特征，设计特定的硬件神经元、高速连接的存储结构以及专用指令集，对内存和计算单元实现高效组织管理，实现单条指令完成多个操作，提高计算效率和内存访问效率。
含光800在算法方面也得到了加强。阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系，涵盖语音智能、语言技术、机器视觉、决策智能等方向，并且取得多个世界领先水平的成果。
不管是训练还是推理都需要强大的算力支撑，而两块芯片都表现了优异的性能。
经实测，昇腾910 打造的atlas 900可以在60秒完成基于resnet-50模型训练，比第2名快15%。这可以让研究人员更快的进行图像、语音的ai模型训练，让人类更高效的探索宇宙奥秘、预测天气、勘探石油，加速自动驾驶的商用进程。在一张汇聚有20万颗星星的南半球星空图上，天文学家想找出某种特征的星体，需要169天的工作量，atlas 900只需要10秒。
在城市大脑中实时处理杭州主城区交通视频，需要40颗传统gpu，延时为300ms，使用含光800仅需4颗，延时降至150ms。
昇腾910和含光800有一个共同点，都不单独对外销售。昇腾910通过ai加速模块、ai加速卡、ai服务器等形式对第三方销售；含光800将通过阿里云对外输出ai算力。
昇腾910和含光800可谓是术业有专攻，各自有各自的特点。不管是训练还是推理，在ai应用落地中都至关重要，两款芯片能够在各自的领域做到世界第一，足见各自背后团队的真功夫。同时，这些有着中文古典名字的芯片不断涌现也代表着国产芯的欣欣向荣。如果有其他的企业能够做到这一点，相信大家也愿意继续被这样的“文字游戏”所套路。

华为昇腾910联手阿里含光800拉开“地表最强芯”的大幕

VIP推荐