您现在的位置是:主页 > 科技圈快讯 > 好文 >
探秘 Intel 12 代酷睿大小核架构:小核性能飙升 80%
发布时间:2021年08月20日 00:50:30 好文 人已围观
简介Intel Alder Lake 12 代酷睿采用大小核混合架构,大核基于 Golden Cove 架构,小核基于 Gracemont 架构,均最多 8 个。...
之前有消息称,Intel Alder Lake 12 代酷睿将采用全新的大小核混合架构设计,其中大核/性能核(P-Core)基于 Golden Cove 架构,最多 8 个,小核/能效核(E-Core)基于 Gracemont 架构,也是最多 8 个。
在一年一度的架构日活动上,Intel 终于揭开了这两种架构核心的神秘面纱。
当然,CPU 架构设计非常复杂,一般人难以理解,我们也无需深入研究,这里只介绍一些关键技术点。
Golden Cove 是之前 10 代酷睿的 Sunny Cove、11 代酷睿移动版的 Willow Cove、11 代酷睿桌面版的 Cypress Cove 的进一步升级版,变化非常大,很多基础模块都进行了重构或升级,其设计理念也将影响未来多代产品的发展。
最明显的变化之一是前端部分,它发生了翻天覆地的改变,堪称近十年来的最大变革,堪比当年的 Skylake。官方表示,这是为了提高速度,突破低时延和单线程应用程序性能的限制。
最直接的表现是解码器宽度从 4 个增加到 6 个,这在 x86 架构中还是第一次。同时,每时钟周期执行的微操作(uop)从 6 个增加到 8 个,解码长度也从 16 字节翻倍至 32 字节。指令预取缓存、队列等也都得到了大幅增强,缓存可达 4K,队列每线程可处理 72 条目,单线程则达到 144 个。
编码预取也大大增强,分支目标从 5K 增加到 12K,4K iTLB、2K/4M iTLB 分别翻倍至 256、32。同时,分支预测精度也得到了提高,编码预取机制更加智能。
乱序引擎部分同样更宽、更深、更智能,分配从 5 路增加到 6 路,执行端口从 10 个增加到 12 个,调度器尺寸增大,重排序缓冲区(ROB)从 352 条目增加到 512 条目,比 AMD Zen3 多一些,仅次于苹果 M1(约 630 条目)。重命名和分配阶段也可以执行更多指令。
整数执行引擎部分增加了第五个整数执行端口,所有五个端口都可以执行 ALU、LEA,理论上是最宽的 x86 内核之一,在原生 ALU 吞吐能力方面表现出色。
矢量执行引擎部分增加了新的快速加法器(FADD),比传统的 FMA 单元效率更高、延迟更低。FMA 单元还增加了对 FP16 浮点数据类型的支持,属于 AVX-512 指令集的一部分。
载入和存储部分通过载入 AGU 增加了一个专用的执行端口,这样载入端口从 2 个增加到 3 个,同时载入缓冲和存储缓冲也更深,载入延迟更低。针对当今不断增加的内存级并行需求,数据处理能力也大大提高。
二级缓存方面,桌面和移动端每核心仍为 1.25MB,服务器端的 Sapphire Rapids 则增加到 2MB,并支持多路径预取和全写入预测带宽优化,可减少内存读取。
Intel 宣称,Golden Cove 架构相比于 Cypress Cove,IPC(每时钟周期指令数)平均提升了约 19%,可以理解为同频性能的提升幅度。
它还支持 AMX 高级矩阵扩展指令,内置下一代 AI 加速技术,用于学习推理和训练,包括专用硬件和新指令集架构,可显著提高矩阵乘法运算能力。
Gracemont 小核心属于 Atom 凌动家族,是第七代产品,之前的版本有 Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括 Plus 版本)和 Tremont。
按照 Intel 的说法,Gracemont 核心非常小巧,一个 Golden Cove 大核心的空间可以容纳四个 Gracemont 小核心以及它们共享的 4MB 二级缓存。
别看它小,性能却一点都不弱。Intel 声称,单核单线程情况下,Gracemont 的同频延迟性能相比 Skylake 提升了超过 40%,而在同等性能下,功耗降低了 40%。
四核四线程的 Gracemont 与双核四线程的 Skylake 相比,峰值吞吐性能可提升 80%,同等性能下功耗可降低 80%。
Intel 表示,这种小核心设计可以在有限的芯片空间内实现多核任务负载,并具有宽泛的频率范围,降低了整体消耗,为更高频率运行提供了更多的功耗和散热空间,满足了更多动态任务负载的需求。
它还可以利用各种技术进步,在不增加额外功耗的情况下,对工作负载进行优先级排序,直接提升性能。
在架构方面,小核心相对简单,但变化也很大,例如指令缓存增大至 64KB,可在不消耗内存子系统功率的情况下保存可用指令。还有 Intel 首个按需指令长度解码器,可生成预解码信息,加速现代工作负载。
同时,借助更深的分支历史和更大的指令尺寸,分支预测精度大大提高,分支目标缓存区拥有 5000 个条目。
后端也变得更宽,具备 5 组宽度分配、8 组宽度引退、256 个乱序窗口入口、17 个执行端口,以及 4 个整数 ALU、2 个载入 AGU、2 个存储 AGU、2 个跳转端口、2 个整数存储数据、2 个浮点/矢量存储、2 个浮点/矢量堆栈和第 3 个矢量 ALU。
内存部分使用了双载入、双存储单元的配置,二级缓存增大至 4MB,以及深度缓冲、高级预取器等。它还支持 Intel Resource Director 资源重定向技术,可让软件在不同核心、不同软件线程之间实现精准控制。
哦对了,Gracemont 是第一个支持 AVX2 指令集的能效核心,还支持整数 AI 操作新扩展、Intel 控制流强制技术和 Intel 虚拟化重定向保护技术。
相关文章
随机图文
ARM 推出 Cortex-A78:5nm 工艺,CPU 性能升
ARM 公司推出新一代 CPU 架构 Cortex-A78,适用于 5nm 工艺,性能提升 20%,功耗降低...华为 Mate 40 Pro 4G 版官宣降价,5599 元起售
华为 Mate 40 Pro 因芯片等原因缺货已久,去年 6 月推出 4G 版,该版本与 5G 版硬件...苹果 iPhone 15 或采用自研基带,信号表现
从 iPhone 7 起苹果部分机型采用 Intel 基带,iPhone XS 到 iPhone 11 基本全系 Intel 独占...IP 显示功能让“海外”网红现形,“梅西
近日,各大社交平台上线强制开启且无法关闭的 IP 属地功能,不少网红博主的...