你好,游客 登录
背景:
阅读新闻

这家公司提供了BAT 90%的AI计算力,刘军预测GPU仍会在AI领域大幅领先

[日期:2017-12-12] 来源:新智元  作者: [字体: ]

【新智元导读】在同一个超算下,也采用CPU+GPU的架构去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。但是,身处行业老大位置的浪潮,也有自己的烦恼。

前段时间在美国丹佛举行的全球超算大会(SC17)上,第50届全球超算TOP500榜单揭晓,中国超算“神威·太湖之光”和“天河二号”分列前两名,中国已经连续10届实现对该榜单的领跑。此外,中国上榜的超级计算机数量超过了美国,总数达到202台(美国是143),这也是迄今中国上榜 TOP500 数量最多的一次,相比之下,美国上榜的超级计算机数量已经降至25年来最低水平。中国在总体性能(aggregate performance)上也超过了美国。目前,中国占 TOP500 榜单浮点计算力的35.4%,美国以29.6%位居第二。

浪潮人工智能与高性能产品部总经理刘军在本届SC现场,他回忆说,今年超算的两次大会相对来说比较平静,因为美国的新机器还没出来。此前一直传言的美国能源部与IBM合作的超算Summit并没有如预期中那样出现。所以,中国的超算再一次蝉联了第一。另外,在软件上,中国也蝉联了戈登贝尔奖。

“这些事情加起来会让大家觉得跟原来差不多,格局没有太大的变化,所以就觉得平静一些。”

现在超算界,大家比较关注美国的这台机器,传说中,它的交付峰值性能将达到200PFlops,远超“神威·太湖之光”的125PFlops。

因为这一机器可能代表了超算架构的一种新趋势,刘军对新智元介绍说,“它很重要的一个特点,就是CPU+GPU的架构,GPU使用的是现在当红的V100。这种架构,即在同一个超算下面去支持传统的HPC应用和AI 应用,未来两到三年内会非常的流行。”

这种架构其实代表了AI和HPC的一种融合,“HPC还是HPC,AI也还是AI,就是用同一个架构就能比较好地支持AI计算和传统的科学工程计算”。

超算在不断发展,让人不禁想问,随着深度学习面临越来越多的计算瓶颈,那么,用超算来跑深度学习,是不是一个好的解决方案?刘军认为,在现阶段看来不是,“超算是人家为国之重器准备的东西,你非要拿去跑AI,那是另外一个领域的东西,这其实没有太大的必要。”

跟英伟达过了几年的苦日子,很苦的

2010年,当时天津的“天河一号"经过性能升级,成为当时世界上最快的超级计算机,是中国的第一次。那个机器用的就是英伟达的GPU加速卡,用了7168块基于英伟达公司的Tesla M2050。

当时,英伟达还不是股价超过200美元的当红AI炸子鸡,黄仁勋也还没有成为“教主”,英伟达正在HPC上苦苦寻找出路。用刘军的话来说,HPC的应用,相对来说领域比较窄,(当时)没有特别杀手级的应用出来,所以大家在GPU的HPC上都过得挺苦的。

2007年,英伟达发布CUDA GPU,浪潮于2008年发布了基于GPU的桌面超算“倚天”。刘军说,“2010年后的好长一段时间,其实我们跟英伟达一起过了好多年的苦日子,很苦的,整个的生态系统、软件要做移植、做优化。后来,突然天上掉下一个Deep Learning,AI一下蔚然成风,好日子一下就来了。” 

刘军把深度学习称为“怪兽级的应用”,GPU在前面苦苦探索时找不到杀手级的应用,忽然出现了这样一个应用,与GPU强大的计算性能二者结合起来,形成了一个相互催化的过程。这其中最重要的其实还是应用场景,如果没有GPU没有找到深度学习,而是锁定在原来的HPC场景下,那么,它也不会得到市场和投资的认可。

英特尔在AI上一直强调一个策略“端到端”,刘军评论说,这是英特尔很擅长的东西,有很多端到端和软件的东西可能我们从外面看不见,但是没有这些东西整个系统的运行就会受到影响。

但是从总的来说,至少在未来一到两年内,GPU还是会在AI领域尤其是训练端保持大幅领先的,刘军说。

就在新智元专访刘军后几天,在美国长滩,英伟达CEO黄仁勋发布了新的旗舰型GPU——Titan V比其前身 Pascal Titan X 有更高的性能,同时保持相同的功率要求。Titan V支持110万亿次浮点运算的原始计算能力,是其上一代的9倍。

浪潮人工智能部门:成立至今百分之几百的成长速度

作为老牌的计算服务器提供商,浪潮在2017年4月成立了人工智能部门。“浪潮在过去两年中已经亲身体会到了AI带给我们整体业务高速驱动的成长,我们看到里面巨大的市场机会和对AI计算从技术创新到方案创新的需求,所以公司成立了专门的业务部门来规划,来推动整个AI业务的快速增长”,刘军说,“实践下来效果非常好,具体的营收数字现在还不方便透露,但是可以说是一个让人非常惊讶的成长速度,就是百分之几百的速度。”

浪潮的整个AI布局还是围绕着计算在做,目前的整体思路是构建一个至下而上的价值链,如上图所示。

“从浪潮来看,因为我们是做计算的厂商,所以我们会更加关注计算在AI里面发挥的作用,所以我们业务重点不会跳到最前面去做AI的前端应用,那不是我们想干的事情”,刘军说,“我们想干的事情,我们怎么从计算端帮助他们做这些事。”

在计算的硬件层面毫无疑问浪潮是国内最强的,浪潮的服务器在BAT中所占的份额超过90%,在整个中国AI计算服务器市场至少是60%以上。“这还是说得比较保守的”。其中,GPU服务器占到了绝大多数,因为现在市场最主要的蛋糕都被GPU拿走了。

除了大家熟知的计算和服务器以外,浪潮近年来也在逐渐涉及一些上层的东西,包括用于管理和调度计算资源的AIStation 和Teye等等。2017年,浪潮还推出了根据Caffe优化的深度学习框架Caffe-MPI。Caffe和TensorFlow是深度学习占有率最高的两个框架,虽然TensorFlow在谷歌的大力推动下正迅速发展,如日中天。但是,从绝对性能上来说,TensorFlow的性能实际仅仅相当于Caffe的一半,Caffe最擅长的是图像领域——当下中国最热门的AI方向。

但是,Caffe有个很致命的问题,它只能在一台机器里面跑,不能团队作业,所以一个大的框架的训练,需要很长一段时间才能完成。Caffe-MPI要解决的就是这个问题,它改变了Caffe只能单节点工作的模式,扩展到多节点可以一起训练。

最上层,浪潮在尝试提供综合下层所有要素的端到端解决方案,给客户提供一个到手就能用的AI解决方案,主要客户是银行、汽车和医疗等客户。一个典型的例子是,9月15日,2017 百度云智峰会ABC SUMMIT上百度与浪潮共同发布了ABC一体机,产品面向模型训练Training和线上预测Inference两大类AI计算场景,可根据客户AI业务规模及对计算力需求,精准匹配计算系统。ABC一体机系统采用模块化设计,涵盖浪潮SR-AI整机柜、AGX-2、GX4等多样化计算平台,单台计算节点可以提供2-64个不等的异构加速卡。在深度学习框架方面,可支持TensorFlow、Caffe、CNTK、PaddlePaddle等主流算法框架。

巨头的烦恼:要把蛋糕做大,整体的生意机会才会更大

被问及现在中国AI计算市场上的主要竞争对手,刘军说,还真的没什么对手。以上面介绍的浪潮AI价值链,传统的服务器厂商很多都提供的是底层的产品和技术,“他们不具备整体去做的能力”。所以浪潮给自己的定位是“AI计算的整体提供商,不只是单个计算卡或者服务器的提供商。

采访中,刘军也反复提到,浪潮的现在的很多想法和策略是参与到AI产业中,“把蛋糕做得更大,我们整体的生意机会才会更大”。

他也讲到了浪潮的烦恼:浪潮在中国AI计算市场是最大的玩家,每年的增长率是百分之几百,这种情况对我们来说是非常大的挑战,我们其实很难承受这块业务下滑的压力。包括英伟达现在也是这样,他在高速增长,每年百分之一百,二百的增长,你说突然哪一天不增长,掉下来了,这个就会很可怕,所以在这种情况下,我们要思考的问题是我怎么让这个蛋糕越来越大,增速越来越大,这样的话我才能不断的保持我的地位,和高速的增长,这是我们最本质的想法是这样的。

做深度学习框架Caffe-MPI、为传统行业直接提供整体化的AI解决方案、开AICC的大会、每年办很多的培训班、去举办竞赛……这些看起来不像是计算服务商会做的事,正是浪潮在人工智能整体战略上的亮点:让更多的人参与进来。

把一些很多的项目成果开源出去,让大家去用,让更多的人用好这个东西,更多的人把AI跟他业务结合起来的时候,我们整体的生意才能健康的发展。从英伟达到浪潮,我们谁都不愿意看到类似2000年互联网泡沫那幕重演,因为那对整个AI产业将会是一个巨大的灾难。所以就必须要玩命把生态做起来,这是我们的一个出发点。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款