kb体育◈ღ,KB体育下载地址app◈ღ,kB体育平台手机登录◈ღ,KB·体育(sports)官方网站◈ღ,KB体育sports◈ღ。程式开发◈ღ。kb体育官网app下载◈ღ,kb体育◈ღ,纵观整个2017年◈ღ,互联网圈里提到最多的一个词一定是“人工智能”◈ღ,而且这个“人工智能”已经不仅是2016年那个很会下棋的AlphaGo◈ღ,它成了无所不能的助手管家◈ღ,能和你对话(智能音响)◈ღ,能帮公安抓人(人脸识别)◈ღ,也开始抢老司机的活儿(无人驾驶)◈ღ。如今的人工智能早已不再是70多年前的那个“它”了◈ღ。
早在1950年◈ღ,图灵在论文中探讨了机器智能的问题◈ღ,并提出了著名的图灵测试◈ღ,1956年达特茅斯的讨论会上◈ღ,人工智能这一概念由此诞生◈ღ。几十年中◈ღ,人工智能曾大起大落丁香花社◈ღ,原因为何?
“数据”先背一个锅◈ღ,最早的人工智能也可以称之为专家系统◈ღ,也就是把专家们的所有理论◈ღ、方法全都录入到计算机◈ღ,在具体执行任务的时候◈ღ,计算机会检索数据库中相似的内容◈ღ,如果没有◈ღ,那么它就无能为力了◈ღ。
然后是算法◈ღ,类似于数据库检索的算法可能只能称之为一个笨办法◈ღ,但20世纪90年代◈ღ,神经网络的概念就成为热点丁香花社◈ღ,人工智能却没有取得长足的进展◈ღ。这是因为受限于另一个重要因素-计算◈ღ。由于硬件计算平台的限制◈ღ,十余年间的进展极其缓慢◈ღ,直到以GPU为核心的协处理加速设备的应用◈ღ,人工智能应用效率才得以大大提升◈ღ。
近年来◈ღ,众多企业都已经看到了AI未来的前景◈ღ,想纷纷踏入这篇沃土◈ღ,孕育新的商机◈ღ。想要跨进这个新领域丁香花社◈ღ,首先要做的◈ღ,是要拥有一套好的AI架构◈ღ。那么如何打造最优的AI计算平台?怎样的AI计算硬件架构更高效?AI 更注重哪些性能指标?
要把AI练好要分三步◈ღ,即“数据预处理——模型训练——识别推理”◈ღ。三个过程分别对应不同的计算特点◈ღ:数据预处理◈ღ,对IO要求较高;模型训练的并行计算量很大◈ღ,且通信也相对密集;推理识别则需要较高的吞吐处理能力和对单个样本低延时的响应◈ღ。
当我们知道了AI计算的特性之后kb体育官方网站首页◈ღ,我们通过实测数据来看看人工智能计算对于服务器的硬件性能诉求有什么样的特点◈ღ:
上图是一个搭载4块GPU卡服务器上运行Alexnet神经网络的测试分析图◈ღ,从图上我们可以很清楚的看到计算的任务主要由GPU承担◈ღ,4块GPU卡的负载基本上都接近10%◈ღ,而CPU的负载率只有不到40%◈ღ。由此可见◈ღ, AI计算的计算量主要都在GPU加速卡上◈ღ。
通过上图我们可以看到◈ღ,磁盘IO是一次读◈ღ,多次写◈ღ,在Alexnet模型下◈ღ,磁盘读带宽85MB/s◈ღ,写带宽0.5MB/s◈ღ。所以◈ღ, 在模型训练阶段◈ღ,磁盘的IO并不是AI计算的瓶颈点◈ღ。
最后◈ღ,我们再看看AI计算对于PCIE带宽的占用情况◈ღ。图上显示kb体育官方网站首页◈ღ,带宽与训练数据规模成正比◈ღ。测试中◈ღ,PCIE持续读带宽达到5.7GB/s◈ღ,峰值带宽超过8GB/s◈ღ,因此PCIE的带宽将是AI计算的关键瓶颈点◈ღ。
数据预处理的主要任务是处理缺失值◈ღ,光滑噪声数据◈ღ,识别或删除利群点◈ღ,解决数据的不一致性◈ღ。这些任务可以利用基于CPU服务器来实现◈ღ,比如浪潮SA5212M5这种最新型2U服务器◈ღ,搭载最新一代英特尔至强可扩展处理器◈ღ,支持Intel Skylake平台3/4/5/6/8全系处理器◈ღ,支持全新的微处理架构◈ღ,AVX512指令集可提供上一代2倍的FLOPs/corekb体育官方网站首页◈ღ,多达28个内核及56线程◈ღ,计算性能可达到上一代的1.3倍◈ღ,能够快速实现数据的预处理任务◈ღ。
在存储方面◈ღ,可以采用HDFS(Hadoop分布式文件系统)存储架构来设计◈ღ。HDFS是使用Java实现分布式的◈ღ、可横向扩展的文件系统◈ღ,因为深度学习天生用于处理大数据任务◈ღ,很多场景下◈ღ,深度学习框架需要对接HDFS◈ღ。通过浪潮SA5224M4服务器组成高效◈ღ、可扩展的存储集群◈ღ,在满足AI计算分布式存储应用的基础上◈ღ,最大可能降低整个系统的TCO◈ღ。
SA5224M4一款4U36盘位的存储型服务器◈ღ,在4U的空间内支持36块大容量硬盘◈ღ。并且相比传统的双路E5存储服务器◈ღ,功耗降低35W以上◈ღ。同时◈ღ,通过背板Expander芯片的带宽加速技术◈ღ,显著提升大容量SATA盘的性能表现◈ღ,更适合构建AI所需要的HDFS存储系统◈ღ。
从内部结构上来看◈ღ,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元kb体育官方网站首页◈ღ,负责逻辑运算的部分并不多◈ღ,控制单元等模块的存在都是为了保证指令能够一条接一条的有序执行◈ღ,这种通用性结构对于传统的编程计算模式非常适合◈ღ,但对于并不需要太多的程序指令◈ღ,却需要海量数据运算的深度学习计算需求kb体育官方网站首页◈ღ,这种结构就显得有心无力了◈ღ。
与 CPU 少量的逻辑运算单元相比◈ღ,GPU设备整个就是一个庞大的计算矩阵◈ღ,动辄具有数以千计的计算核心◈ღ、可实现 10-100 倍应用吞吐量◈ღ,而且它还支持对深度学习至关重要的并行计算能力◈ღ,可以比传统处理器更加快速◈ღ,大大加快了训练过程◈ღ。
根据不同规模的AI模型训练场景◈ღ,可能会用到2卡◈ღ、4卡◈ღ、8卡甚至到64卡以上的AI计算集群◈ღ。在AI计算服务器方面◈ღ,浪潮也拥有业界最全的产品阵列◈ღ。既拥有NF5280M5◈ღ、AGX-2◈ღ、NF6248等传统的GPU/KNL服务器以及FPGA卡等◈ღ,也包含了创新的GX4◈ღ、SR-AI整机柜服务器等独立加速计算模块◈ღ。
其中◈ღ,SR-AI整机柜服务器面向超大规模线下模型训练◈ღ,能够实现单节点16卡◈ღ、单物理集群64卡的超高密扩展能力;GX4是能够覆盖全AI应用场景的创新架构产品◈ღ,可以通过标准机架服务器连接协处理器计算扩展模块的形式完成计算性能扩展丁香花社◈ღ,满足AI云丁香花社◈ღ、深度学习模型训练和线上推理等各种AI应用场景对计算架构性能◈ღ、功耗的不同需求;AGX-2是2U8 NVLinkGPU全球密度最高◈ღ、性能最强的AI平台◈ღ,面向需要更高空间密度比AI算法和应用服务商◈ღ。
根据业务应用的需要◈ღ,选择不同规模的GPU服务器集群◈ღ,从而平衡计算能力和成本◈ღ,达到最优的TCO和最佳的计算效率◈ღ。
GPU在深度学习算法模型训练上非常高效◈ღ,但在推理时一次性只能对于一个输入项进行处理◈ღ,并行计算的优势不能发挥出来◈ღ。而FPGA正是强在推断◈ღ。大幅提升推断效率的同时◈ღ,还要最小限度损失精确性◈ღ,这正是FPGA的强项◈ღ。
以浪潮F10A为例◈ღ,这是目前业界支持OpenCL的最高密度最高性能的FPGA加速设备◈ღ,单芯片峰值运算能力达到了1.5TFlops◈ღ,功耗却只需35W◈ღ,每瓦特性能到42GFlops◈ღ。
测试数据显示◈ღ,在语音识别应用下丁香花社◈ღ,浪潮F10A较CPU性能加速2.87倍◈ღ,而功耗相当于CPU的15.7%◈ღ,性能功耗比提升18倍◈ღ。在图片识别分类应用上◈ღ,相比GPU能够提升10倍以上◈ღ。
通过CPU◈ღ、GPU丁香花社◈ღ、FPGA等不同计算设备的组合◈ღ,充分发挥各自在不同方向的优势◈ღ,才能够形成一套高效的AI计算平台◈ღ。然后选择一个合适的框架◈ღ,运用最优的算法丁香花社◈ღ,就能够实现人工智能应用的快速落地和精准服务◈ღ。
*请认真填写需求信息,我们会在24小时内与您取得联系。