客户案例

首页 > 客户案例

2021年度AI服务器的巅峰对决

日期:2023-01-15 19:28:50 来源:客户案例

  时至12月,又到了盘点、总结的时分了。遥记当年DIY最火的年代,年末都要做的是硬件产品横评与盘点等重要选题,从顾客到厂商都能经过比照来了解产品的功能与商场体现,从而为挑选、研制下一代产品堆集经历。

  咱们再来看看企业级商场,近20年来它的改变速度飞快,从x86服务器鼓起开端,多核算力、云核算、大数据、人工智能、容器等等技能完结了一次又一次的打破,也为数字化的未来写下了一页页浓墨重彩的传奇。

  企业级商场开展至今,可以看到无论是技能仍是产品,全体趋势都无一例外地朝向运用。CPU、GPU、DPU、存储都不再是单一的衡量规范,企业级用户重视的运用,或许说是可以在什么样的本钱下,供给为我所需的功能,这才是最重要的一点。

  正是由于如此,MLPerf?测验才应运而生地成为了新一代标杆,它所衡量的是服务器在人工智能相关范畴运用的功能体现,极具实战价值,因而也备受业界重视。

  MLPerf?是影响力最广的世界AI功能基准评测,由图灵奖得主大卫?帕特森(David Patterson)联合顶尖学术安排建议建立。2020年,非盈利性机器学习敞开安排MLCommons依据MLPerf?基准测验建立,其成员包含谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术安排,致力于推进机器学习和人工智能规范及衡量方针。

  现在,MLCommons每年安排2次MLPerf? AI练习功能测验和2次MLPerf? AI推理功能测验,为用户衡量设备功能供给威望有用的数据辅导。

  固定使命是经过相同的模型、优化器及参数值测验深度学习在不同服务器上的功能体现,相似于咱们日常看到的硬件类比照评测。而敞开使命则对深度学习模型及精度不做过多束缚,要点调查服务器厂商对深度学习模型及算法的优化才干,推进ML模型和优化的立异。

  固定使命(Closed)着重AI核算体系的公正比较,比赛衡量的是同一深度学习模型在不同硬件上的功能,要点调查参测厂商硬件体系和软件优化的才干。

  已然MLPerf?每年安排4次AI相关测验,那么年末这次当然就属重头戏了,业界对此的重视度也十分之高。12月1日,MLPerf?发布了最新一期练习(Training)榜单V1.1,此次共有谷歌、微软云、英伟达、浪潮信息、百度、戴尔等14家公司及科研安排,参加MLPerf?基准测验,悉数都是世界大厂,可谓华山论剑。共提交180项固定使命(Closed)效果,6项敞开使命(Open)效果。

  在单机测验的8项使命中,浪潮信息获7项冠军,英伟达获1项冠军;在集群测验的8项使命中,英伟达获7项冠军,微软云获1项冠军。

  正如前文所述,本次MLPerf?基准评测涵盖了8类极具代表性的机器学习使命,别离是图画分类(ResNet)、医学印象切割(U-Net3D)、方针物体检测(SSD)、方针物体检测(Mask R-CNN)、语音辨认(RNN-T)、自然言语了解(BERT)、智能引荐(DLRM)以及强化学习(MiniGo)。

  这就好像咱们挑选智能手机,商场中的机型几百、上千款,它们的规划、定位本身就有着很大不同。白领重视质量和可靠性、游戏玩家重视功能、年轻人喜爱摄影、学生更重视性价比,依据自己的运用场景进行挑选,这样才干做到定位精准。MLPerf?的运用场景式评测,也是意在于此。

  ResNet是十分经典的深度学习模型,它也被称为最典型的核算机视觉运用。将海量图片辨认后符号,然后进行分类,这种运用场景十分快捷与高效,ResNet调查的便是服务器在这项模型练习中的体现。

  从上图可以看到,浪潮信息的两款经典服务器拿下了前两名方位,NF5488A5功能最高,NF5688M6排名第二。Supermicro的8卡A100-SXM4-80GB(500W)机型功能较NF5488A5低1.6%,排名第三。

  看到这儿或许有人会发生疑问,为什么只要浪潮和超微用500W的GPU?关于其他厂商而言是不是有些不公正?

  其实,这恰恰证明了它们强壮的研制实力。由于浪潮是榜首个在服务器中完结8块500W功耗GPU布置的厂商,并供给液冷与风冷两种机型,同期其他品牌的产品大都仅做到了布置4块500W GPU。本次测验,超微是第二家以8块500W GPU服务器参赛的厂商。

  GPU从300W到400W再开展至500W,多张卡一起布置的时分,对服务器内有限的空间提出了更高散热需求,因而供电与散热方面规划难度十分高。也正是由于如此,在评测中,才可以调查出各家企业、安排参赛产品的规划、研制才干。

  患者到医院拍了医学印象,包含X光、超声、CT和MRI等,AI可以在很短时间内对切割后的印象进行剖析,给出合理的开始确诊、剖析及猜测,为确诊供给便当。

  医学印象切割是医学印象智能剖析中的重要范畴,也是核算机辅佐确诊、监督、干涉和医治所必需的一环,其要害使命是对医学印象中器官或病变进行切割,为疾病的精准辨认、详细剖析、合理确诊、猜测与防备等方面供给十分重要的含义和价值。

  三维医学图画切割使命3D U-Net模型的整机功能比照。浪潮信息此次仅提交了NF5688M6的效果,可以看到其功能抢先第二名GIGABYTE约4.7%。抢先第三名Supermicro约7.7%。相对而言该项测验核算使命比较深重,因而各款产品也拉开了较显着的距离。

  在一场规划巨大的线上会议中,演讲者所说的内容悉数实时显现在屏幕上,既明晰又精准。现在,这样的场景现已无需人力,只是经过AI就能完结了。它的背面,便是语音辨认的劳绩。

  RNN-T模型奇妙的将言语模型声学模型整合在一起,一起进行联合优化,是一种理论上相对完美的模型结构。它经过联合网络将言语模型和声学模型的状况经过某种思路结合在一起,可以是拼接操作,也可以是直接相加等,因而也愈加精准。

  语音辨认RNNT使命练习的整机功能比照。可以看到NF5488A5功能榜首,抢先第二名NVIDIA约2.6%,抢先第三名Microsoft约12.5%。这项测验可以说统筹了深度学习的多种模型整合,杂乱程度较高,浪潮NF5488A5凭仗硬实力也发明了新的纪录。

  上述这三种场景测验只是是冰山一角,在MLPerf?基准测验涵盖了8项最靠近运用场景的机器学习相关使命,这也是其被誉为极具实战价值的要害所在。

  作为业界最威望的AI基准测验,MLPerf?每年安排AI推理及AI练习功能测验各2次。12月1日效果的发布,这也意味着MLPerf? 2021年度4次测验正式收官。本年度共29家世界厂商、研究安排参加其间,在数据中心推理、边际推理、集群练习和单机练习各类AI场景下,不断打破AI体系功能。其间,浪潮信息共斩获44项冠军,名列MLPerf? 2021年度冠军榜首,英伟达、戴尔、高通排列第二、第三、第四。

  仔细调查不难发现,参赛的厂商与安排所挑选的硬件根本相似,想获得更高的功能,只能靠体系规划与优化才干,这儿并无捷径而言。浪潮信息在AI服务器规划与优化方面深耕多年,因而才具有如此微弱的硬实力。

  在硬件规划方面,针对AI使命中常见的密布IO传输瓶颈,浪潮AI服务器以抢先规划大幅下降通讯推迟,极大提升了AI练习功率。一起,针对高负载多GPU协同使命调度,对NUMA节点与GPU之间的数据传输进行全面优化和深度调校,保证练习使命中的数据IO无堵塞。此外,在散热层面,A100-SXM-80GB(500W) GPU这款产品功耗十分高,为此浪潮开发了先进冷板液冷体系,保证GPU在全功率负载下仍然安稳作业,也是让AI服务器在各种测验中体现出色的重要原因之一。

  关于浪潮AI服务器产品而言,两款主力机型NF5488A5和NF5688M6在本年度MLPerf?测验中别离斩获18和15项冠军,它们的成功并非一蹴即至,而是许多研制规划人员共同努力之下,再辅以多年来的技能堆集,所结出的效果当然极具实力。

  MLPerf?的评测,可以说在整个2021年度为IT职业点着了一盏明灯,指引我们将重视要点放在AI实战上,而并非硬件方针。此次V1.1榜单也可看作是AI服务器的盘点与总结,极具参阅和实战价值。从MLPerf?测验本身来看,许多优异的硬件产品在不同阶段测验中体现出了微弱的实力,并在各种优化之后一次又一次地完结“刷榜”,这也是职业用户最想看到的一点。在测验中不断强壮的AI服务器可以协助用户更高效地完结练习,而且可以测验曾经无法企及的使命,为AI在不同范畴的快速开展注入新生机。

  浪潮AI服务器在我国商场份额已接连五年稳居榜首,现在全球商场份额也是榜首。浪潮信息在MLPerf?中可以获得优异的效果,再次证明了本身研制实力,并在实战运用场景方面有了愈加深化的洞悉和了解。此外,浪潮信息在MLPerf?测验中的探究和立异,也进一步协助浪潮可以在实践运用中更好地回馈职业客户,助力其事务开展,并以此推进AI快速前行。