原標(biāo)題:英特爾GPU,到底行不行? 來(lái)源:格隆匯
作者:Isaiah Mayersen?
來(lái)源: 半導(dǎo)體行業(yè)觀察
英特爾正在為游戲玩家、專業(yè)人士和服務(wù)器開發(fā)獨(dú)立GPU,它們都計(jì)劃在今年或2021年發(fā)布。英特爾的顯卡要么會(huì)成為萎靡市場(chǎng)期待已久的救星,要么就是表現(xiàn)不佳,遭遇慘敗。就我個(gè)人而言,無(wú)論出現(xiàn)哪種結(jié)果,我都很高興:我們要么會(huì)得到不錯(cuò)的GPU,要么會(huì)得到不錯(cuò)的笑料。
2017年11月8日:Raja Koduri辭去了AMD GPU部門的工作,加入英特爾,成為英特爾負(fù)責(zé)核心和視覺計(jì)算的高級(jí)副總裁。他的第一個(gè)行動(dòng)是從AMD的隊(duì)伍中雇傭了6個(gè)老伙伴。
2018年6月12日:時(shí)任首席執(zhí)行官的Brain Krzanich向英特爾的投資者透露,他們多年來(lái)一直在設(shè)計(jì)Arctic Sound獨(dú)立GPU架構(gòu),他們計(jì)劃在2020年發(fā)布它。
2019年1月8日:客戶端計(jì)算高級(jí)副總裁Gregory Bryant在CES上確認(rèn),英特爾的第一輪GPU將到達(dá)10nm節(jié)點(diǎn)。
2019年5月1日:高級(jí)首席工程師兼渲染和可視化團(tuán)隊(duì)負(fù)責(zé)人Jim Jeffers宣布Xe在FMX19上的光線追蹤能力。
2019年11月17日:Raja Koduri透露Xe將有三種風(fēng)格,高性能、低功耗和高性能計(jì)算。他說(shuō),后一類的第一個(gè)GPU將是Ponte Vecchio,將于2021年在7 nm節(jié)點(diǎn)上推出。
2019年1月9日:Discrete Graphics One Software Development Vehicle(DG1 SDV)的第一張圖片發(fā)布,顯示了一張RGB-infused小型卡片,幫助開發(fā)人員針對(duì)Xe架構(gòu)優(yōu)化他們的軟件。
即將到來(lái)的是……
2020年3月17日:高級(jí)開發(fā)者關(guān)系工程師Antoine Cohade將在GDC上“詳細(xì)介紹硬件架構(gòu)”和Xe的“性能影響”。
官方的敘述講述了英特爾努力構(gòu)建神秘的GPU的故事,這些GPU注入了許多令人向往的功能:更先進(jìn)的節(jié)點(diǎn)、光線追蹤、新的封裝技術(shù)。但你我都知道,GPU的關(guān)鍵不在于噱頭,而在于馬力和資金。這就是本文的主題。
架構(gòu)
好的架構(gòu)始于一磚一瓦,GPU也不例外,除了英特爾。AMD和英偉達(dá)的內(nèi)核每時(shí)鐘執(zhí)行1次操作,而英特爾的執(zhí)行單元(EU)執(zhí)行8次操作。盡管存在技術(shù)上的不準(zhǔn)確,但是為了便于比較,我們把一個(gè)EU描述為相當(dāng)于8個(gè)內(nèi)核。
除了英特爾需要一次用8塊磚建造之外,他們的建造技術(shù)非常簡(jiǎn)單。他們可以把幾塊磚扔在一起做成一堵墻。有了幾面墻,就有了一個(gè)房間,把幾個(gè)房間放在一起,就可以建一座公寓了。
跳過中間步驟,Xe最大的獨(dú)立單元(公寓)被稱為一個(gè)slice,每個(gè)slice包含512或768個(gè)內(nèi)核,分別用于高性能和低功耗slice。你只需要一間公寓,所以低功耗顯卡只用一個(gè)slice。但是,如果你不想在那里定居,那么英特爾將制造由許多slice組成的摩天大樓式的發(fā)燒級(jí)GPU。
一個(gè)單slice LP GPU和一個(gè)4-slice HP GPU,每個(gè)藍(lán)色的方塊代表一個(gè)執(zhí)行單元。圖片基于英特爾的架構(gòu)和Supercomputing 2019演示文稿,以及EEC歸檔和已編輯的驅(qū)動(dòng)程序。 可能不完全準(zhǔn)確。
這就是關(guān)于Xe架構(gòu)所需要了解的全部?jī)?nèi)容,但是如果你想要了解一些技術(shù)術(shù)語(yǔ)和數(shù)字指標(biāo),那么就不要跳過下面的內(nèi)容。
在Gen11中,英特爾的集成GPU有一個(gè)slice ,它由8個(gè)sub-slice組成,而每個(gè)sub-slice又有8個(gè)執(zhí)行單元。他們對(duì)Gen12(Xe的第一代產(chǎn)品)進(jìn)行了一些微調(diào),包括計(jì)算單元(CU)以及渲染后端的更改。
9月份,意外上傳到GitHub的代碼泄露了DG1、Ponte Vecchio和一個(gè)DG2變體的配置。這次泄密是可靠的,因?yàn)槭聦?shí)證明它對(duì)Ponte Vecchio將有2個(gè)slice的反直覺預(yù)測(cè)是正確的。它預(yù)測(cè)DG1的每個(gè)slice將有6個(gè)sub-slice,因此96個(gè)EU也或多或少地被給出相同數(shù)字的EEC 文件所證實(shí)。
泄露的信息顯示,在英特爾所有的Gen12型號(hào)中,每個(gè)sub-slice有16個(gè)EU,特別是在Ponte Vecchio中,每個(gè)slice有4個(gè)sub-slice。Koduri后來(lái)透露Ponte Vecchio有兩個(gè)slice和16個(gè)CU。
這些信息足以說(shuō)明Ponte Vecchio可能的工作方式是:8個(gè)EU組合成一個(gè)CU(64個(gè)內(nèi)核),它們配對(duì)成一個(gè)sub-slice(128個(gè)內(nèi)核/16個(gè)EU),其中4個(gè)組成一個(gè)slice(512個(gè)內(nèi)核/64個(gè)EU)。有兩個(gè)slice意味著Ponte Vecchio有128個(gè)EU,1024個(gè)內(nèi)核。請(qǐng)注意,兩個(gè)slice的結(jié)構(gòu)可能僅適用于原型。
Ponte Vecchio的基本slice配置預(yù)計(jì)也將用于高性能和低功耗型號(hào)。
DG2:高性能
代號(hào)為Discrete Graphics Two(DG2)的高性能微架構(gòu)涵蓋了中端和發(fā)燒友級(jí)的GPU市場(chǎng)。這些顯卡將具有光線跟蹤和RGB閃光功能,但最令人興奮的是,英特爾有可能挑戰(zhàn)英偉達(dá)對(duì)600美元以上高端產(chǎn)品的壟斷。
“Xe HP……將很容易成為印度設(shè)計(jì)的最大的芯片,并且是世界上最大的芯片。”
——Raja Koduri
去年7月,英特爾意外發(fā)布了一個(gè)驅(qū)動(dòng)程序,其中包含3個(gè)DG2代號(hào):iDG2HP128,iDG2HP256和iDG2HP512。我們可以合理地假設(shè),末尾的3個(gè)數(shù)字表示顯卡的EU數(shù)量,那么它們將分別擁有1024、2048和4096個(gè)內(nèi)核,即2、4、8個(gè)slice。
然而,不久之后,我們就看到了開發(fā)1536核的3-slice GPU的確鑿證據(jù)。考慮到英特爾開發(fā)第4款規(guī)格與現(xiàn)有型號(hào)如此相似的顯卡很不合邏輯,我們可以安全地假設(shè)這是禁用了1個(gè)slice的iDG2HP256。這印證了人們的普遍懷疑,即英特爾正在采用3種基本型號(hào),并禁用一個(gè)或多個(gè)slice,以將第4、第5、第6,甚至第7種型號(hào)添加到它們的產(chǎn)品線中。
*DG1有6個(gè)sub-slice,DG2有4個(gè)sub-slice,因此每個(gè)slice的內(nèi)核數(shù)量不同。
DG2未來(lái)不僅僅是游戲GPU。它們無(wú)法處理像Ponte Vecchio這樣的科學(xué)工作負(fù)載,但如果它們發(fā)布后物有所值,它們肯定可以作為視頻編輯或三維建模硬件的專業(yè)驅(qū)動(dòng)重新銷售,比如英偉達(dá)的Quadro顯卡。
DG1:低功耗
低功耗段被定義為5W~50W。集成GPU為5W~20W,獨(dú)立GPU為20W~50W。
英特爾已經(jīng)向我們介紹了LP家族的第一位成員。DG1 SDV系列在CES 2020上進(jìn)行了重點(diǎn)展示,運(yùn)行帶RGB等功能的《命運(yùn)2》和《星際戰(zhàn)甲》。但它只是偽裝成一張游戲顯卡。DG1 SDV是一個(gè)專為開發(fā)人員設(shè)計(jì)的版本,旨在幫助將軟件和驅(qū)動(dòng)程序過渡到Xe平臺(tái)。
然而,這并不意味著你最終無(wú)法買到類似的東西,英特爾已經(jīng)展示了它可以在筆記本電腦上運(yùn)行。
據(jù)報(bào)道,集成形式的LP GPU有64~768個(gè)內(nèi)核,而獨(dú)立的LP GPU僅有全部768個(gè)內(nèi)核。這相當(dāng)于AMD最好的集成硬件和英偉達(dá)最低端的獨(dú)立GPU的內(nèi)核數(shù)量。但Xe LP可能會(huì)在時(shí)鐘速度方面勝過它們。
一份泄露的Rocket Lake手機(jī)處理器在Geekbench上的測(cè)試結(jié)果顯示,該處理器集成了768個(gè)核心的LP GPU,運(yùn)行速度為1.5 GHz,測(cè)試結(jié)果為2.3 TFLOPs。這與GTX 1650的性能相當(dāng)。即使在最壞的情況下,1.5 GHz使用完整的20W TDP,而英特爾在發(fā)布之前甚至不能將速度提高1 MHz,這令人印象深刻。
想象一下這個(gè)處理器有多高效。GTX 1650的TFLOPS略低,具有75W的TDP:LP GPU幾乎是GTX 1650的4倍。推到50W的LP GPU將會(huì)提高時(shí)鐘速度,并可能達(dá)到與GTX 1660相同的性能等級(jí)。
但好東西還不止這些。對(duì)Linux內(nèi)核的更新表明,英特爾正在計(jì)劃一種同時(shí)運(yùn)行集成顯卡和獨(dú)立顯卡的方式,并且有可能聯(lián)合運(yùn)行。如果能夠成功實(shí)現(xiàn),則可以將iGPU的全部功能與獨(dú)立GPU的功能相結(jié)合,從而創(chuàng)建一款節(jié)省空間和成本效益的1536核的組合GPU。這是從同樣的芯片中榨取更多性能的絕佳方法。
Ponte Vecchio:數(shù)據(jù)計(jì)算
當(dāng)我在介紹中說(shuō)只有GPU的原始馬力才重要時(shí),我有些標(biāo)題黨了。這不是數(shù)據(jù)中心GPU的情況,特別是Ponte Vecchio。Ponte Vecchio講的都是能最大限度提高效率的技巧和技術(shù)。
有趣的事實(shí):Koduri 以佛羅倫薩的一座橋的名字命名Ponte Vecchio,是因?yàn)樗矚g那里的冰淇淋。
Ponte Vecchio是專門為Aurora超級(jí)計(jì)算機(jī)設(shè)計(jì)的,這應(yīng)該會(huì)讓你了解它將針對(duì)哪種類型的工作負(fù)載進(jìn)行優(yōu)化。
如果這沒有給你提示,那我就說(shuō)出來(lái):雙精度。這基本上是每個(gè)數(shù)據(jù)中心GPU的第一件事,Koduri在發(fā)布會(huì)上花了很多時(shí)間討論它。
然而不幸的是,他唯一給出的數(shù)字是Ponte Vecchio的每EU理論上的FP64性能,這個(gè)數(shù)字大約是Gen11的40倍。
讓我們簡(jiǎn)單算一算,每1024內(nèi)核顯卡在FP64上大約有20 TFLOP。不過,不要把這當(dāng)成福音,因?yàn)樵谟?jì)算中沒有足夠的重要數(shù)字來(lái)產(chǎn)生有意義的結(jié)果。
僅次于高精度工作負(fù)載的自然是超低精度工作負(fù)載。Ponte Vecchio支持INT8、BF16以及人工智能神經(jīng)網(wǎng)絡(luò)處理中常用的FP8和FP16。每個(gè)EU都配備了矩陣引擎(如英偉達(dá)張量?jī)?nèi)核),它比標(biāo)準(zhǔn)EU的矩陣處理速度快32倍。
然而,這些都不是特別新奇的。Ponte Vecchio的真正優(yōu)勢(shì)在于它的內(nèi)存子系統(tǒng),它可以讓GPU以新的方式處理問題。
為此,Ponte Vecchio利用了英特爾的關(guān)鍵新互連技術(shù)Foveros和EMIB(嵌入式多芯片互連橋)。Foveros使用硅通孔在有源插入器裸片上堆疊多個(gè)芯片,提供了類似于片內(nèi)的速度,又提供了片外的連接性。相比之下,EMIB是兩個(gè)芯片之間的“啞巴”連接,它使用無(wú)源裸片,但以較低的成本提供高帶寬。
EMIB和Foveros
基于英特爾架構(gòu)圖的圖表、2018年架構(gòu)日和Supercomputing 2019演示文稿,以及來(lái)自WikiChip的信息。它沒有準(zhǔn)確地描述真實(shí)的實(shí)現(xiàn)。
EMIB用于將GPU的計(jì)算硬件直接連接到HBM,從而獲得Ponte Vecchio驚人的內(nèi)存帶寬。Foveros用于將sub-slice上的兩個(gè)CU連接到英特爾新的超級(jí)緩存RAMBO Cache的一個(gè)chiplet上。多虧了Foveros,RAMBO對(duì)其容量或占用空間沒有任何限制,并且在從HBM或其他sub-slice發(fā)送/接收數(shù)據(jù)時(shí)可以繞過CU。
擁有巨大的緩存顯然是非常昂貴的(我指的是巨大,英特爾的圖表顯示蘭博chiplet與CU的大小相同),但它開啟了一些絕妙的選擇。例如,在神經(jīng)網(wǎng)絡(luò)處理中,RAMBO可以存儲(chǔ)比其他GPU緩存大一個(gè)數(shù)量級(jí)的矩陣。其他GPU會(huì)隨著矩陣變大和精度水平的提高而降低性能,但Ponte Vecchio能夠保持峰值性能。
Ponte Vecchio
藍(lán)色方塊是執(zhí)行單元,綠色代表RAMBO和HBM。此圖基于英特爾架構(gòu)圖和Supercomputing 2019演示文稿。可能不完全準(zhǔn)確。
RAMBO緩存還支持Xe Memory Fabric,Xe Memory Fabric是由連接和技術(shù)組成的網(wǎng)絡(luò),可匯集服務(wù)器節(jié)點(diǎn)中每個(gè)GPU和CPU的資源。每個(gè)GPU的RAMBO緩存都被合并到一個(gè)存儲(chǔ)體中,對(duì)任何東西都是可用的,最慢的連接是通過PCIe 5.0以63 Gb/s速度相連的CPU連接。
在最近的年度收益投資者會(huì)議上,英特爾證實(shí),Ponte Vecchio將在2021年第4季度開始出貨。目前尚不清楚這是全面出貨,還是先期單獨(dú)用于Aurora超級(jí)計(jì)算機(jī)的出貨。
軟件
硬件雖好,但是沒有足夠的軟件支持,硬件就完全沒用了。而且門檻相當(dāng)高:即使1%的游戲沒有得到適當(dāng)?shù)闹С郑矔?huì)流失數(shù)百萬(wàn)的游戲玩家。好消息是英特爾似乎正在盡最大努力。
英特爾正在為現(xiàn)代高性能應(yīng)用重新設(shè)計(jì)其最低級(jí)別的軟件——指令集架構(gòu)(ISA)。“ Gen12計(jì)劃包括自最初的i965以來(lái)對(duì)英特爾EU ISA進(jìn)行的最深入的改造之一。幾乎每個(gè)指令字段、硬件操作碼和寄存器類型的編碼都需要更新。”
在驅(qū)動(dòng)程序?qū)用妫⑻貭栠€有很長(zhǎng)的路要走,但他們正在取得進(jìn)展。他們的集成GPU驅(qū)動(dòng)程序沒有競(jìng)爭(zhēng)對(duì)手更新頻繁,我們比較一下最近10次更新之間的平均時(shí)間:英特爾為26天,英偉達(dá)為14天,AMD為12天。但是它們的穩(wěn)定性和支持在2019年確實(shí)有了很大的提高,并且有275個(gè)新驅(qū)動(dòng)程序針對(duì)英特爾架構(gòu)進(jìn)行了優(yōu)化。
另一方面,英特爾面向消費(fèi)者的軟件則是一流的。例如,他們最近發(fā)布的Graphics Command Center比英偉達(dá)的GeForce Experience提供了更多的控制,而且更容易使用。就像GeForce Experience一樣,它可以針對(duì)特定的硬件配置優(yōu)化游戲,但它也解釋了每種設(shè)置的作用以及它將對(duì)性能產(chǎn)生多大影響。驅(qū)動(dòng)程序控制簡(jiǎn)單明了。
Command Center在提供高級(jí)顯示控制方面也是獨(dú)一無(wú)二的。它提供輕松的多顯示器設(shè)置、刷新率和旋轉(zhuǎn)同步,以及用于調(diào)整顏色樣式的全面選項(xiàng)。盡管我運(yùn)行的是英偉達(dá)硬件,但我還是使用它來(lái)控制系統(tǒng)。
此外,英特爾還支持可變刷新率,因此Xe產(chǎn)品將支持FreeSync和G-Sync顯示器。
發(fā)布
雖然英特爾對(duì)他們將在3月份的GDC上宣布的內(nèi)容有點(diǎn)含糊其辭,但我們很有可能會(huì)看到一份全面的披露。如果是這樣的話,我們可以期待新產(chǎn)品在接下來(lái)的幾個(gè)月里發(fā)布。最有可能的是在6月。
去年10月,Koduri在推特上發(fā)了一張他的新車牌圖片,給出了一個(gè)不太明顯的暗示。它的名字是“Think Xe”,日期是2020年6月。他拒絕對(duì)這個(gè)日期的意義進(jìn)行評(píng)論,這表明它可能有意義。
如果這不是一輛車,而是英特爾的暗示呢?——Richart
以這種方式泄露日期的一個(gè)好處是,它告訴業(yè)界應(yīng)該期待什么,同時(shí)又不會(huì)引起太多的興奮,以至于如果GPU在7月份問世,粉絲們會(huì)很生氣。所以可以認(rèn)為這是一個(gè)模糊的目標(biāo);英特爾的目標(biāo)可能是在6月份發(fā)布(正好趕上Computex),但這可能需要更長(zhǎng)的時(shí)間,具體取決于事情的進(jìn)展。
英特爾暗示了一些很酷的東西,我們?nèi)匀粚?duì)圖形領(lǐng)域的第三大玩家抱有希望。但在時(shí)機(jī)成熟之前,我們只能持謹(jǐn)慎樂觀的態(tài)度。