新闻资讯

不同机器计算性能不同

来源：津信变频器发布于：2019-4-21 9:10:32 点击量：

2019/04/22 08/23/51　　【丹佛斯变频器 www.dfsbp.com】英伟达宣称使用ＴＥＮＳＯＲ　ＣＯＲＥ进行矩阵运算可以轻易的在训练时达到２－５倍的提速，同时降低一半的内存访问和存储。丹佛斯我们分享了一些关键技术的细节，包括结合ＬＡＲＳ算法的半精度训练、梯度融合、以及混合分层和环形规约的通信优化。

　　更多精彩的报告内容，读者可以在会议结束一个月之后的官方网站上找到。同时支持多机多卡部署。

　　腾讯报告ＰＤＦ链接：

　　腾讯报告视频解读版：请关注「腾讯技术课」小程序卡片看论文视频解读

　　机智平台入口：

　　。

　　在推广ＲＴＸ显卡方面，世界上两个最大的主流商业游戏引擎ＵＮＲＥＡＬ虚幻以及ＵＮＩＴＹ都支持了新的光线追踪功能。

　　ＧＴＣ主会

　　ＴＥＮＳＯＲ　ＣＯＲＥ

　　自从ＶＯＬＴＡ架构引入ＴＥＮＳＯＲ　ＣＯＲＥ以来，英伟达一直在大力推广ＴＥＮＳＯＲ　ＣＯＲＥ的使用，因为在Ｖ１００　ＧＰＵ上，每个ＳＴＲＥＡＭＩＮＧ　ＭＵＬＴＩ－ＰＲＯＣＥＳＳＯＲ上都配备８个ＴＥＮＳＯＲ　ＣＯＲＥ，以每个ＣＬＯＣＫ　ＣＹＣＬＥ运行６４个浮点ＦＭＡ操作来看，一个ＣＬＯＣＫ　ＣＹＣＬＥ总共可以运行５１２个ＦＭＡ操作。通过调用ＮＶＣＵＤＡ：：ＷＭＭＡ：：ＥＸＰＥＲＩＭＥＮＴＡＬ，研究者们可以试验各种低精度训练方法。

　　在５０分钟的时间里，我们介绍了去年夏天发布在ＡＲＸＩＶ上，打破最快ＩＭＡＧＥＮＥＴ训练记录，并在去年底被收录在ＮＥＵＲＩＰＳ　２０１８的ＷＯＲＫＳＨＯＰ　ＯＮ　ＳＹＳＴＥＭＳ　ＦＯＲ　ＭＬ　ＡＮＤ　ＯＰＥＮ　ＳＯＵＲＣＥ　ＳＯＦＴＷＡＲＥ的论文：

　　ＨＩＧＨＬＹ　ＳＣＡＬＡＢＬＥ　ＤＥＥＰ　ＬＥＡＲＮＩＮＧ　ＴＲＡＩＮＩＮＧ　ＳＹＳＴＥＭ　ＷＩＴＨ　ＭＩＸＥＤ－ＰＲＥＣＩＳＩＯＮ：　ＴＲＡＩＮＩＮＧ　ＩＭＡＧＥＮＥＴ　ＩＮ　ＦＯＵＲ　ＭＩＮＵＴＥＳ。另外十分激动人心的是主题演讲上公开的经典游戏雷神之锤ＩＩ使用ＲＴＸ添加现代光线追踪效果的ＤＥＭＯ。这些通用的优化策略已经被整合进腾讯机智，以服务公司内部更广大的用户群体。把旗下所有的ＧＰＵ加速库都以ＣＵＤＡ－Ｘ的品牌名称重新整合：

　　［　黄仁勋介绍ＣＵＤＡ－Ｘ技术栈　］

　　整个技术栈底层是四个专用领域的显卡系统：

　　在ＣＵＤＡ这个开发框架之上，也整合了伟肯变频器针对不同领域的库，包括：

　　另外，ＣＵＤＡ库家族里增加并做出重大改进的一些加速库包括：

　　同时黄仁勋提出了公司的新口号：

　　ＰＲＡＤＡ　（ＰＲＯＧＲＡＭＭＡＢＬＥ　ＡＣＣＥＬＥＲＡＴＩＯＮ　ＤＯＭＡＩＮＳ　ＡＲＣＨＩＴＥＣＴＵＲＥ），即：针对不同领域，基于同一架构的可编程的加速方案。在介绍ＴＥＮＳＯＲ　ＣＯＲＥ性能和调试方法的一场报告里，英伟达工程师提到了几种使用ＴＥＮＳＯＲ　ＣＯＲＥ的方法，从底层到高层依次为：

　　－－ＤＥＶＩＣＥＳ　０　－－ＱＵＥＲＹ－ＭＥＴＲＩＣＳ　｜　ＧＲＥＰ　－Ｉ　ＴＥＮＳＯＲＣＵＤＡ新特性

　　ＣＵＤＡ作为ＧＰＵ上主要的编程语言，其技术细节和介绍历来都是ＧＴＣ非常重要的一部分。世界级的云服务及数据分析公司ＤＡＴＡＢＲＩＣＫＳ和数据分析可视化公司ＯＭＮＩ－ＳＣＩ都开始使用ＮＶＩＤＩＡ的ＲＡＰＩＤＳ加速技术。数个ＡＡＡ级游戏大作也在游戏中开始支持实时的光线追踪。

　　概述

　　ＧＰＵ　ＴＥＣＨＮＯＬＯＧＹ　ＣＯＮＦＥＲＥＮＣＥ：ＧＰＵ技术大会是并行计算和人工智能公司英伟达在美国加州硅谷中心圣荷西举办的年度技术大会。这项新的特性用来迅速的把一个任务图里的ＫＥＲＮＥＬ工作流映射到ＣＵＤＡ，主要能够使推理模型的运行速度加快。分享的后半段，我的同事海栋介绍了机智平台作为以分布式和性能加速为特性的分布式训练平台在公司内部的多项典型应用，包括王者荣耀强化学习游戏ＡＩ模型的训练加速，我们在１２８Ｋ超大ＢＡＴＣＨＳＩＺＥ基础上，１２８卡训练速度相对基线８卡提升１３．８倍，接近”线性”扩展，１Ｖ１场景样本吞吐量超过ＯＰＥＮＡＩ　１Ｖ１场景；　同时，在大规模语音识别训练方面，机智平台实现了１０７倍的训练加速，将原有３个月训练时间缩短到仅有２０小时，大幅提升业务部门算法迭代速度。同时在扩展率和性价比上我们仍然以ＲＥＳＮＥＴ－５０模型的１０２４卡训练９９．２％扩展率和在相对较低性能的Ｐ４０上达到６．６分钟训练时间成为近期不断涌现的各类分布式ＩＭＡＧＥＮＥＴ训练算法中的冠军。源代码变频器维修也会在一个月内公开！

　　在数据科学方面，英伟达发布ＲＡＰＩＤＳ：　一个开源的数据科学库软件集合。

　　腾讯机智的报告

　　国内公司阿里、百度、京东、旷世、平安保险等均派出团队参会并分享在ＡＩ、ＨＰＣ领域的最新研究和应用成果。另外，ＣＵＤＡ一改以往只能通过ＳＴＲＥＡＭ来启动的方式，增加了通过有向无环图来描述任务，并启动的方式，对于超过１５个节点的任务图来说，能够体现任务启动时的优势。今年，ＣＵＤＡ的首席架构师ＳＴＥＰＨＥＮ　ＪＯＮＥＳ进行了一小时的报告，详细描述了图灵架构下的新的ＴＥＮＳＯＲ　ＣＯＲＥ以及ＣＵＤＡ　１０里的一些新的特性。

　　主题演讲

　　本次ＧＴＣ十周年的主题演讲包括英伟达ＧＰＵ在图形学，数据科学和嵌入式领域的最新进展。因此今年ＮＶＩＤＩＡ发布了ＣＵＤＡ－Ｘ。我们不仅利用算法、模型、通信上的创新，第一次将分布式ＩＭＡＧＥＮＥＴ训练的ＢＡＴＣＨ　ＳＩＺＥ突破了６４Ｋ，并且还第一次将训练时间降低到分钟级别。ＣＵＤＡ下载量和ＮＶＩＤＩＡ显卡去年销量持续增长，如今对于英伟达来说，加速芯片不仅仅是芯片本身，还需要整个生态系统。之后的数次纪录提升，均整合了我们在模型改造和通信策略方面的优化。

　　过去一年，机智平台的多项研究成果在公司内多个产品落地，产生了实际价值，在训练加速方面积累了丰富的理论和工程经验。

　　最后，我们展望了基于目前的优势，平台上还在开展的诸如ＡＵＴＯＭＬ、模型分析、半异步同步训练等新功能，这些内容引起了听众的极大兴趣。

　　基于模板类，能够灵活构建不同类型的矩阵乘法、ＥＬＥＭＥＮＴ－ＷＩＳＥ操作和简单的ＫＥＲＮＥＬ　ＦＵＳＩＯＮ的ＣＵＴＬＡＳＳ　１．３的性能在一些常用的情况下也都达到或超过矩阵乘法专用库ＣＵＢＬＡＳ性能的８０％。ＴＵＲＩＮＧ架构上的ＴＥＮＳＯＲ　ＣＯＲＥ更是增加了对ＩＮＴ８和ＩＮＴ４的支持，能进一步提高推理的性能。在ＧＴＣ上进行研究成果的汇报代表了计算加速领域工作的广泛同行认可以及领先水平。为了这一目标，英伟达发布了新的为数据处理设计的服务器，装有４个Ｔ４芯片，２６０ＴＦＬＯＰＳ的ＦＰ１６算力，以及６４ＧＢ的ＧＤＤＲ６显存。ＣＵＤＡ库家族还推出了包括张量计算库ＣＵＴＥＮＳＯＲ、轻量级矩阵计算库ＣＵＢＬＡＳＬＴ、ＪＰＥＧ解码库ＮＶＪＰＥＧ、以及图计算库ＣＵＧＲＡＰＨ在内的多个新的库。也是ＮＶＩＤＩＡ以后要着重提升的能力，需要既能ＳＣＡＬＥ－ＵＰ，也能ＳＣＡＬＥ－ＯＵＴ。从反馈的信息来看，我们的分布式训练通用优化加速技术在很多公司的业务上都有强烈的需求，我们公开的论文和技术也一定程度上帮助了这些同行搭建他们自己的训练系统。

　　这篇论文的技术创新点我的同事周飞虎已经在这篇文章中详细阐述。

　　我的同事戎海栋和我在３月２０日下午一点给与丹佛斯会听众做了标题为：《ＴＲＡＩＮＩＮＧ　ＩＭＡＧＥＮＥＴ　ＩＮ　ＦＯＵＲ　ＭＩＮＵＴＥＳ　ＷＩＴＨ　ＴＥＮＣＥＮＴ　ＪＩＺＨＩ》的主题报告。数据科学的应用属于这两个极端的中间。让ＶＯＬＴＡ架构获得最大的使用率，良好的使用ＴＥＮＳＯＲ　ＣＯＲＥ是非常关键的步骤。高性能计算是主要的应用领域；而分布式计算领域属于ＳＣＡＬＥ－ＯＵＴ，专注容错和可扩展性，不同机器计算性能不同。分享后，我们与阿里、旷世科技、索尼以及百度等旁听的同行们进行了长时间交流。在理论研究成果应用于工程实践的过程中，我们克服了不断出现的新问题，比如算力容灾、调参调优成本高、如何满足亲和性等问题，在分享中，我们给出了机智平台在这些问题上的解决方案。同时，改进的线程调度机制也让一些并发算法如ＴＲＩＥ查找的性能在ＶＯＬＴＡ／ＴＵＲＩＮＧ架构上大幅提高。自２００９年开办以来已经举办十届，成为并行计算方面全世界最盛大的技术会议之一。

　　我们不止关注理论研究，也重视理论研究在实际产品中的应用。

　　最后，英伟达为了支持ＩＯＴ和边缘计算的应用，发布了支持ＡＩ应用的ＳＯＣ　ＪＥＴＳＯＮ　ＮＡＮＯ。新的图灵架构的ＴＥＮＳＯＲ　ＣＯＲＥ能提供６５ＴＦＬＯＰＳ的ＦＰ１６算力、１３０ＴＥＲＡＯＰＳ的ＩＮＴ８算力，以及２６０ＴＥＲＡＯＰＳ的ＩＮＴ４算力。传统的ＮＶＩＤＩＡ显卡支持超算，属于ＳＣＡＬＥ－ＵＰ，让单机性能达到极限。ＲＡＰＩＤＳ专注通用的数据处理，包括ＤＡＴＡＦＲＡＭＥ　ＡＰＩ和一些常用的机器学习算法整合，以及端到端的管线加速。另外，也有开发者提出能否公开ＲＴＸ的调用接口让开发者对其进行创新的使用。另外，ＣＵＤＡ的编译器ＮＶＣＣ也进行了很多性能改动。｜　导语　腾讯机智团队在今年的ＧＴＣ大会上做了介绍机智平台的报告，本文总结了ＧＴＣ的一些主要内容以及笔者和同事的见闻

20190422082351

上一篇：不做股权投资＂的＂三不＂原则下

下一篇：不少ＰＥ机构开始通过组建并购基金的方式与一些产业龙头或上市公司进行组合投资

新闻中心

联系我们

新闻资讯

不同机器计算性能不同

相关阅读