本栏推荐

相关阅读

快讯信息

您现在的位置是:主页 > 科技圈快讯 > 好文 >

探秘 Intel 12 代酷睿大小核架构:小核性能飙升 80%

发布时间:2021年08月20日 00:50:30 好文 人已围观

简介Intel Alder Lake 12 代酷睿采用大小核混合架构,大核基于 Golden Cove 架构,小核基于 Gracemont 架构,均最多 8 个。...

之前有消息称,Intel Alder Lake 12 代酷睿将采用全新的大小核混合架构设计,其中大核/性能核(P-Core)基于 Golden Cove 架构,最多 8 个,小核/能效核(E-Core)基于 Gracemont 架构,也是最多 8 个。 在一年一度的架构日活动上,Intel 终于揭开了这两种架构核心的神秘面纱。 当然,CPU 架构设计非常复杂,一般人难以理解,我们也无需深入研究,这里只介绍一些关键技术点。 Golden Cove 是之前 10 代酷睿的 Sunny Cove、11 代酷睿移动版的 Willow Cove、11 代酷睿桌面版的 Cypress Cove 的进一步升级版,变化非常大,很多基础模块都进行了重构或升级,其设计理念也将影响未来多代产品的发展。 最明显的变化之一是前端部分,它发生了翻天覆地的改变,堪称近十年来的最大变革,堪比当年的 Skylake。官方表示,这是为了提高速度,突破低时延和单线程应用程序性能的限制。 最直接的表现是解码器宽度从 4 个增加到 6 个,这在 x86 架构中还是第一次。同时,每时钟周期执行的微操作(uop)从 6 个增加到 8 个,解码长度也从 16 字节翻倍至 32 字节。指令预取缓存、队列等也都得到了大幅增强,缓存可达 4K,队列每线程可处理 72 条目,单线程则达到 144 个。 编码预取也大大增强,分支目标从 5K 增加到 12K,4K iTLB、2K/4M iTLB 分别翻倍至 256、32。同时,分支预测精度也得到了提高,编码预取机制更加智能。 乱序引擎部分同样更宽、更深、更智能,分配从 5 路增加到 6 路,执行端口从 10 个增加到 12 个,调度器尺寸增大,重排序缓冲区(ROB)从 352 条目增加到 512 条目,比 AMD Zen3 多一些,仅次于苹果 M1(约 630 条目)。重命名和分配阶段也可以执行更多指令。 整数执行引擎部分增加了第五个整数执行端口,所有五个端口都可以执行 ALU、LEA,理论上是最宽的 x86 内核之一,在原生 ALU 吞吐能力方面表现出色。 矢量执行引擎部分增加了新的快速加法器(FADD),比传统的 FMA 单元效率更高、延迟更低。FMA 单元还增加了对 FP16 浮点数据类型的支持,属于 AVX-512 指令集的一部分。 载入和存储部分通过载入 AGU 增加了一个专用的执行端口,这样载入端口从 2 个增加到 3 个,同时载入缓冲和存储缓冲也更深,载入延迟更低。针对当今不断增加的内存级并行需求,数据处理能力也大大提高。 二级缓存方面,桌面和移动端每核心仍为 1.25MB,服务器端的 Sapphire Rapids 则增加到 2MB,并支持多路径预取和全写入预测带宽优化,可减少内存读取。 Intel 宣称,Golden Cove 架构相比于 Cypress Cove,IPC(每时钟周期指令数)平均提升了约 19%,可以理解为同频性能的提升幅度。 它还支持 AMX 高级矩阵扩展指令,内置下一代 AI 加速技术,用于学习推理和训练,包括专用硬件和新指令集架构,可显著提高矩阵乘法运算能力。 Gracemont 小核心属于 Atom 凌动家族,是第七代产品,之前的版本有 Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括 Plus 版本)和 Tremont。 按照 Intel 的说法,Gracemont 核心非常小巧,一个 Golden Cove 大核心的空间可以容纳四个 Gracemont 小核心以及它们共享的 4MB 二级缓存。 别看它小,性能却一点都不弱。Intel 声称,单核单线程情况下,Gracemont 的同频延迟性能相比 Skylake 提升了超过 40%,而在同等性能下,功耗降低了 40%。 四核四线程的 Gracemont 与双核四线程的 Skylake 相比,峰值吞吐性能可提升 80%,同等性能下功耗可降低 80%。 Intel 表示,这种小核心设计可以在有限的芯片空间内实现多核任务负载,并具有宽泛的频率范围,降低了整体消耗,为更高频率运行提供了更多的功耗和散热空间,满足了更多动态任务负载的需求。 它还可以利用各种技术进步,在不增加额外功耗的情况下,对工作负载进行优先级排序,直接提升性能。 在架构方面,小核心相对简单,但变化也很大,例如指令缓存增大至 64KB,可在不消耗内存子系统功率的情况下保存可用指令。还有 Intel 首个按需指令长度解码器,可生成预解码信息,加速现代工作负载。 同时,借助更深的分支历史和更大的指令尺寸,分支预测精度大大提高,分支目标缓存区拥有 5000 个条目。 后端也变得更宽,具备 5 组宽度分配、8 组宽度引退、256 个乱序窗口入口、17 个执行端口,以及 4 个整数 ALU、2 个载入 AGU、2 个存储 AGU、2 个跳转端口、2 个整数存储数据、2 个浮点/矢量存储、2 个浮点/矢量堆栈和第 3 个矢量 ALU。 内存部分使用了双载入、双存储单元的配置,二级缓存增大至 4MB,以及深度缓冲、高级预取器等。它还支持 Intel Resource Director 资源重定向技术,可让软件在不同核心、不同软件线程之间实现精准控制。 哦对了,Gracemont 是第一个支持 AVX2 指令集的能效核心,还支持整数 AI 操作新扩展、Intel 控制流强制技术和 Intel 虚拟化重定向保护技术。

Tags: Intel  CPU处理器