文章最后更新时间:2023-12-22,由天天资讯负责审核发布,若内容或图片失效,请联系客服!
AI时代,人性化且易于使用的CPU如何实现比GPU更具成本效益的加速方案? 英特尔®至强®可扩展处理器给出了答案:内置AI加速引擎,更好地承载人工智能应用工作负载。
期待已久的第五代英特尔®至强®️可扩展处理器来了!
如果用一句话来概括它的特点的话,那就是——人工智能的味道越来越浓。
以大模型的训练和推理为例:
●与第四代相比,训练性能提升高达29%,推理性能提升高达42%;
●与第三代相比,AI训练和推理性能提升高达14倍。
什么概念?
现在,如果将一个不超过 200 亿个参数的模型“馈送到”第五代 Xeon®️ 可扩展处理器,延迟将低至不超过 100 毫秒!
换句话说,现在在CPU上运行大型模型确实更有趣。
而这只是英特尔推出的一小部分,其中还包括Core™️ Ultra,它打破了自己的“祖传体系”,被誉为四十年来最重大的架构变革。
此举也为消费PC注入AI力量,加速本地AI推理。
此外,英特尔长期扎根于各行业的人工智能实用应用,包括数据库、科学计算、生成式人工智能、机器学习、云服务等,也借助第五代至强®️可扩展处理器得到了扩展。 随着其内置加速器如Intel®️ AMX、Intel®️ SGX/TDX等内置加速器的到来,实现了更大的成本降低和效率提升。
总而言之,在英特尔的整个发布过程中,AI可以说是贯穿始终。
最新Intel处理器,AI更强大
让我们仔细看看有关第五代 Xeon®️ 可扩展处理器的更多细节。
比如在性能优化方面,Intel对各项参数进行了如下改进:
●CPU核心数增加至64个,单核性能更高,每个核心均具有AI加速功能
●采用新的I/O技术(CXL、PCIe5),提高UPI速度
●内存带宽从/s提升至/s
我们将其与Intel前两代产品进行纵向比较。 性能提升结果如下:
●与上一代产品相比,相同热设计功耗下平均性能提升21%; 与第三代产品相比,平均性能提升87%。
●与上一代产品相比,内存带宽提升高达16%,三级缓存容量提升近3倍。
不难看出,第五代至强®️可扩展处理器相比“前辈”,确实在规格和性能上都有了很大的提升。
但英特尔不仅仅只是披露,而是已经将第五代 Xeon®️ 可扩展处理器投入使用并展示了实际效果。
例如,在大模型推理方面,京东云在现场展示了搭载第五代Xeon®️可扩展处理器的新一代自研服务器的能力——
全部出现,性能提升超过 20%!
具体来说,京东云相比上一代自研服务器有以下性能提升:
●整机性能提升123%;
●AI计算机视觉推理性能提升至138%;
●Llama 2 推理性能提升至151%。
这再次证明第五代Xeon®️上的大型机型越来越受欢迎。
除了大型模型外,涉及AI的各个细分领域,如机器算力、内存带宽、视频处理等,也都有相同的实测结果。
这一结果来自于采用第五代Intel® Xeon® 可扩展处理器的引擎——
全新升级的第三代弹性计算实例,整机计算能力提升39%; 应用程序性能提升高达 43%。
而且,在性能提升的基础上,据火山引擎介绍,通过其独特的潮汐资源池能力,构建了百万核弹性资源池,可以提供按月付费的体验。 ,云迁移成本更低 明白了!
这是由于使用第五代 Xeon®️ 可扩展处理器内置的加速器时,每瓦性能平均提高了 10 倍; 功耗低至 105W 的同时,还有针对工作负载优化的节能 SKU。
可以说,是真正的降本增效。
在云计算和安全方面,国内大公司阿里云也展示了自己的实际测试经验。
搭载第五代英特尔® ECS 实例在安全性和 AI 性能方面均得到显着提升,且实例价格保持不变,惠及所有客户。
其中包括推理性能提升25%、QAT加解密性能提升20%、数据库性能提升25%、音视频性能提升15%。
值得一提的是,内置的Intel®️SGX/TDX还可以为企业提供更强、更易用的应用隔离能力和虚拟机(VM)级隔离和保密性,为现有应用提供更简单的路径。 到可信执行环境的迁移路径。
第五代英特尔® 至强® 可扩展处理器的软件和引脚与上一代兼容,显着减少了测试和验证工作。
总的来说,第五代至强®可扩展处理器可谓“诚意满满”,性能非常出色。 其背后透露出的是,英特尔一直非常重视在AI领域的落地。
其背后是一段AI实施的历史
事实上,作为服务器/工作芯片,英特尔®至强®可扩展处理器自 2017 年第一代产品以来,一直在尝试利用英特尔®️ AVX-512 技术的矢量计算能力来加速 AI; 2018年,第二代Xeon®️可扩展处理器引入深度学习加速技术(DL Boost),让Xeon成为“CPU跑AI”的代名词; 之后,第三代至第五代Xeon®️可扩展处理器在处理器的演进中,从BF16的加入到Intel®️AMX的进入,可以说Intel在充分利用CPU资源方面一直深耕细作,使每一代处理器和CPU都能支持各行业推动AI实践。
首先是传统行业。
例如,第二代至强®️聚焦智能制造,帮助企业解决海量实时数据处理挑战,提升产线系统效率,完成“肉眼可见”的产能扩张。
随后,至强®可扩展处理器开始在大型模型领域大显身手。
在蛋白质折叠预测的热潮中,第三代和第四代 Xeon® 可扩展处理器继续协同工作,不断优化端到端吞吐能力。 实现比GPU更具性价比的加速方案,直接降低了AI的入门门槛。
其中包括Intel® AMX,这是从第四代开始内置于CPU中的创新AI加速引擎,用于深度学习应用。 作为矩阵相关的加速器,可以显着加速基于CPU平台的深度学习推理和训练,提高AI的整体性能,并且对INT8、BF16等低精度数据类型有良好的支持。
同时,大机型时代的OCR技术应用也被第四代至强®可扩展处理器赋予了新的“灵魂”,准确率飙升,响应延迟更低。
同样,不久前,借助第四代Xeon®️可扩展处理器对NLP的优化,专门针对医疗行业的大型语言模型以较低的成本成功部署在医疗机构中。
在AI技术越来越深入各行各业的大趋势下,至强®可扩展处理器让我们看到它所代表的CPU解决方案可以发挥作用,让很多AI应用能够更高效地部署。 它在广泛可用、更容易获取、应用门槛较低的CPU平台上取得了真正的成功。
第五代至强®可扩展处理器的发布使这一过程更进一步。
当然 -
这一成绩的背后,确实是“在CPU上跑AI”的需求及其极其深刻的价值和优势。
我们先来说说需求。 无论是推动智能化转型的传统企业,还是AI for、生成式AI等新兴技术的蓬勃发展,都需要强大的算力来驱动。
但我们面临的情况是:专用加速芯片供不应求、购买困难、成本高昂,距离普及还很远。
于是有人自然而然地将目光转向了CPU:
如果直接使用这个现实中最“触手可及”的硬件,岂不是事半功倍?
这就引出了CPU的价值和优势。
以当前热门话题生成式人工智能为例。 如果想要在生产环境中普及这个能力,就必须尽可能的控制成本。
与训练相比,AI推理对计算资源没有那么夸张的需求,完全有能力把它交给CPU——不仅延迟更低,而且更节能。
像一些行业和业务一样,推理任务并没有那么繁重,选择CPU无疑更划算。
此外,使用CPU直接部署还可以让企业充分利用现有IT基础设施,避免异构平台的部署困难。
由此我们可以了解到,将AI加速引入传统架构,是这个时代CPU的新命运。
英特尔所做的就是尽力帮助大家发现并释放价值。
控制整个 AI 管道,而不仅仅是 CPU
最后,我们回到今天的主角:第五代英特尔® 至强® 可扩展处理器。
说实话,如果与专用GPU或AI加速芯片相比,它可能不够华而不实,但它注重的是人性化和易于使用(开箱即可使用,配套软件和生态系统越来越好)。
更值得我们关注的是,即使有专用加速器,CPU也可以成为AI的一部分,无论是从数据预处理、模型开发和优化,到部署和使用。
尤其是在数据预处理阶段,堪称主角。
无论是 GB 还是 TB,甚至更大的数据集,基于 Xeon® 可扩展处理器构建的服务器都可以通过支持更大的内存并减少 I/O 操作来提供高效的处理和分析。 ,节省人工智能开发中最琐碎、最耗时的任务的时间。