欢迎光临
人工智能那点事

SST,练就CPU算力调控“七十二变” | 至强秘笈

图片主打通用用途的中央处理器(CPU),在设计上一直都比那些专攻某类应用加速的专用处理器或芯片更为复杂,因为它既要确保“通用性能的提升”,同时也需要为一些越来越重要的特定应用场景和应用负载提供优化和加速的能力。

作为目前企业级计算CPU代表选手的英特尔® 至强® 可扩展处理器产品家族,对这一思路贯彻得很是透彻。除了对微架构、核心数量与性能、内存通道数量和速度,以及I/O性能等方面持续改良以巩固优势外,它在过去数年来,还因应日趋复杂的应用需求,为用户提供了越来越多面向特定场景和负载的创新技术特性,像我们之前重点介绍的AVX-512技术和深度学习加速技术,无不是这种兼顾“通用+专用”设计思路的产物。

今天我们要解读的这条至强秘笈,就与至强® 可扩展处理器集成的英特尔® SST (Intel® Speed Select Technology) 相关。这项技术能为企业多样化、差异化应用需求提供更优支持,其独特之处在于能让CPU变得像神通广大、擅长用“七十二变”灵活应对各路妖魔鬼怪的美猴王孙悟空一样,可以根据不同应用场景或应用负载的特点及其对算力的特定要求,对处理器单个及多个核心的运行状态、频率和功耗进行精细化控制,从而能在保障更优能效的前提下满足不同负载的差异化需求。

那么,英特尔® SST到底是怎样做到这一点的呢?简单来说,它依靠的是四种不同但又可以互补的配置模式。

图片
图一 英特尔® SST技术特性现有的四种模式
首先说说通过预设方案,让至强® 可扩展处理器具备多种核心和主频配置的SST-PP(Performance Profile)模式。在最新发布的、面向单路和双路服务器的Ice Lake架构第三代至强® 可扩展处理器上,用户只需通过软件配置,而无需重启系统就能在热设计功耗(TDP)范围内动态调整处理器的核心数量与频率范围,为不同应用选择更适宜的方案。举例来说,在性能要求高、时延敏感的在线游戏场景中,至强® 可扩展处理器就可以被调整为高主频、低核心数模式,就好比孙悟空遇到强敌,摇身变成大力金刚,全力抡下金箍棒一击伏魔的样子,一言以蔽之,就是以少量核心发挥英特尔® 处理器高主频优势。而在云业务等寻求高并发计算吞吐量的场景中,至强® 可扩展处理器则可被调整为低主频、高核心数模式,就如孙悟空拔下毫毛,化身万千小悟空迎战群怪的情景,能充分体现英特尔® 处理器多核心+多线程的优势。

还有在一些应用场景中,处理器每个核心的负载并不均衡,常常会出现运行关键任务的核心已满载甚至超载,而其它核心却相对轻闲或空闲的情况。此时就是英特尔®  SST中的SST-BF(Base Frequency)模式和SST-TF(Turbo Frequency)模式展现本领的时刻。

这两类模式下,处理器能够更加精细化、差异化地对不同核心的基频(SST-BF模式)或睿频(SST-TF模式)进行调整。将低优先级负载核心的频率尽量降低,再利用它们释放出的功耗储备,让那些正在承载高优先级负载的部分核心运行在更高频,即更高算力输出状态下。这就好比孙悟空被困在狮驼岭妖怪的宝瓶里,陷入绝境时,不得不用上观音所赐的三根救命毫毛,变成无坚不摧的钻子,集全力钻透樊笼。

图片
图二 使用SST-BF模式的英特尔® SST
此外,英特尔® SST还拥有SST-CP模式(Core Power),可对多个核心进行分组,并通过赋予各组不同的频率状态,来应对不同优先级的负载的需求。在处理器负载非常高时,SST-CP模式会对执行低优先级任务的核心组进行降频,以确保执行高优先级任务的核心组不受影响。所谓说一千、道一万,真章终是手上见,至强® 可扩展处理器具备的这种“七十二变”的本领,到底得到了哪些实战验证呢?

让我们以电信领域为例。由于不同的电信网元对算力需求有不同的算力需求,中国电信曾与英特尔一起,在控制云、转发云等网元上进行了英特尔® SST的部署,并取得了出色的实用效果,包括:

在控制云网元OVS-DPDK吞吐量测试中,如图三所示,英特尔® 至强® 金牌 6230N 处理器在使用英特尔® SST-BF进行主频调整后,将关键工作核心置于 2.7GHz,其他核心回退至2.1GHz,相较未集成英特尔® SST的上一代英特尔® 至强® 金牌 5118 处理器,性能提升了61%[1]
图片
图三 中国电信引入英特尔® SST后的OVS-DPDK 吞吐量性能测评结果[2]
在转发云网元SR-IOV 性能测试中,如图四所示,在使用英特尔® SST-BF技术将处理器主频提升至 2.3GHz 后,英特尔® 至强® 金牌 6230N 处理器的 SR-IOV 吞吐性能相比英特尔® 至强® 金牌处理器6230 获得了 7.82% 的提升,而在使用英特尔® SST-BF进行主频调整后,关键工作核心被置于2.7GHz,其他核心回退至2.1GHz,其性能提升进一步达到11.09%[3]
图片
图四 中国电信引入英特尔® SST技术后的SR-IOV 性能测评结果[4]
在针对 L3fwd(层3包转发)/SR-IOV 的性能测评中,如图五所示,加入英特尔® SST-BF的英特尔® 至强® 金牌6230N处理器在进行主频调整后,将执行关键业务负载的核心配置在2.7GHz,相较未集成英特尔® SST的同代英特尔® 至强® 金牌 6230 处理器,单核吞吐性能得到了19% 的提升[5]
图片
图五 中国电信引入英特尔® SST前后的SR-IOV(L3fwd)性能测评对比[6]
[1],[2],[3],[4],[5],[6] 测试数据详细信息请参阅:https://www.intel.cn/content/www/cn/zh/communications/build-faster-and-better-next-gen-network-with-2nd-gen-xeon-scalable-processors.html
* 本文内容及配图均为“英特尔商用频道”的原创内容。该公众号的运营主体拥有上述内容的著作权或相应许可。除在微信朋友圈分享之外,如未经该运营主体书面同意,请勿转载、转帖或以其他任何方式复制、发表或发布上述内容。如需转载上述内容或其中任何部分,请留言联系。英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。

©英特尔公司版权所有。

* 文中涉及的其它名称及商标属于各自所有者资产。

文章来自网络,:人工智能那点事 » SST,练就CPU算力调控“七十二变” | 至强秘笈