Intel 12代酷睿編碼預(yù)取增強快速加法器效率更

2021-08-20 08:01:34 來源：快科技

上回書說到，Intel Alder Lake 12代酷睿將采用全新的大小核混合架構(gòu)設(shè)計，其中大核/性能核(P-Core)基于Golden Cove架構(gòu)，最多8個，小核/能效核(E-Core)基于Gracemont架構(gòu)，最多也是8個。

兩種架構(gòu)的核心有何差異?一年一度的架構(gòu)日活動上，Intel終于揭開了它們的神秘面紗。

當(dāng)然，CPU架構(gòu)設(shè)計是極為高深的，一般人把握不了，也無需研究太多，我們這里大致過一下最關(guān)鍵的一些技術(shù)點。

Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移動版Willow Cove、11代酷睿桌面版Cypress Cove的進一步升級版，但變化非常大，大量基礎(chǔ)模塊都重構(gòu)或升級，其設(shè)計理念也將影響未來多代產(chǎn)品的演化。

負(fù)責(zé)指令拾取和解碼的前端部分，就發(fā)生了翻天覆地的變化，號稱近十年來的最大變革，堪比當(dāng)年的Skylake，官方稱它旨在提高速度、突破低時延和單線程應(yīng)用程序性能的限制。

最直接、最明顯的就是解碼器寬度由4個升級為6個，這可是x86架構(gòu)的第一次，同時每時鐘周期執(zhí)行uop從6個增至8個，解碼長度從16字節(jié)翻番至32字節(jié)。?op緩存、隊列也都大大強化，緩存可達(dá)4K，隊列每線程可處理72條目，單線程達(dá)144個。

編碼預(yù)取大大增強，分支目標(biāo)從5K增至12K，4K iTLB、2K/4M iTLB分別翻番至256、32，同時改進了分支預(yù)測精度，編碼預(yù)取機制更加智能。

亂序引擎部分，同樣更寬、更深、更智能，分配由5路增至6路，執(zhí)行端口由10個增至12個，調(diào)度器尺寸增大，重排序緩沖區(qū)(ROB)從352條目增至512條目，兩倍多于AMD Zen3，僅次于蘋果M1(大約630條目)，重命名和分配階段也可以執(zhí)行更多指令。

整數(shù)執(zhí)行引擎部分，增加了第五個整數(shù)執(zhí)行端口，所有五個端口都可以執(zhí)行ALU、LEA，理論上就原生ALU吞吐能力而言是最寬的x86內(nèi)核。

矢量執(zhí)行引擎部分，增加了新的快速加法器(FADD)，比傳統(tǒng)FMA單元效率更高、延遲更低，F(xiàn)MA單元則增加支持FP16浮點數(shù)據(jù)類型，屬于AVX-512指令集的一部分。

載入和存儲部分，通過載入AGU增加了一個專用的執(zhí)行端口，這樣載入端口從2個增至3個，同時載入緩沖和存儲緩沖更深，載入延遲更低，而針對當(dāng)今負(fù)載不斷增加的內(nèi)存級并行需求，數(shù)據(jù)處理能力也大大增加。

二級緩存，桌面和移動端每核心還是1.25MB，服務(wù)器端的Sapphire Rapids則增加到2MB，并支持多路徑預(yù)取、全寫入預(yù)測帶寬優(yōu)化，可減少內(nèi)存讀取。

Intel宣稱，Golden Cove架構(gòu)相比于現(xiàn)在11代酷睿桌面上的Cypress Cove，實現(xiàn)了平均大約19%的IPC(每時鐘周期指令數(shù))提升，可以理解為同頻性能的提升幅度。

它還支持AMX高級矩陣擴展指令，內(nèi)置下一代AI加速技術(shù)，用于學(xué)習(xí)推理和訓(xùn)練，包括專用硬件和新指令集架構(gòu)，可明顯提高矩陣乘法運算。

Gracemont小核心屬于Atom凌動家族，是2008年以來的第七代，之前分別是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont。

按照Intel的說法，Gracemont核心非常迷你，一個Golden Cove大核心的空間里，可以放入四個Gracemont小核心，以及它們共享的4MB二級緩存。

別看是小核心，性能其實一點都不弱。Intel聲稱，單核單線程對比，Gracemont的同頻性能相比六代酷睿Skylake提升超過40%，而同等性能下功耗則可降低40%。

四核四線程的Gracemont對比雙核四線程的Skylake，峰值性能可提升80%，而同等性能下功耗可降低80%。

Intel表示，這種小核心設(shè)計可以在有限的芯片空間內(nèi)，實現(xiàn)多核任務(wù)負(fù)載，并具備寬泛的頻率范圍，降低整體消耗，為更高頻率運行提供果功耗和散熱空間，滿足更多動態(tài)任務(wù)負(fù)載。

它還可以利用各種技術(shù)進步，在不額外增加功耗的情況下，對工作負(fù)載進行優(yōu)先級排序，并直接提升性能。

架構(gòu)方面，小核心就相對簡單不少了，但變化也非常大，比如指令緩存增大至64KB，可在不耗費內(nèi)存子系統(tǒng)功率的情況下保存可用指令，還有Intel的第一個按需指令長度解碼器，可生成預(yù)解碼信息，加速現(xiàn)代工作負(fù)載。

同時借助更深的分支歷史、更大的指令尺寸，分支預(yù)測精度大大增加，擁有5000個條目的分支目標(biāo)緩存區(qū)。

后端也更寬了，具備5組寬度分配、8組寬度引退、256個亂序窗口入口、17個執(zhí)行端口，以及4個整數(shù)ALU、2個載入AGU、2個存儲AGU、2個跳轉(zhuǎn)端口、2個整數(shù)存儲數(shù)據(jù)、2個浮點/矢量存儲、2個浮點/矢量堆棧、以及第3個矢量ALU。

內(nèi)存部分，使用了雙載入、雙存儲單元的配置，二級緩存增大至4MB，以及深度緩沖、高級預(yù)取器，支持Intel Resource Director資源重定向技術(shù)，可以讓軟件在不同核心、不同軟件線程之間實現(xiàn)精準(zhǔn)的控制。

哦對了，Gracemont是第一個支持AVX2指令集的能效核心，還支持整數(shù)AI操作新擴展、Intel控制流強制技術(shù)、Intel虛擬化重定向保護技術(shù)。

久久99这里只有精品_黄色黄页网站_美女免费视频观看高清不卡_国产区在线免费观看_婷婷蜜桃国产精品一区