成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

  • 正文
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

芯片巨頭組團(tuán),向英偉達(dá)NVLink開(kāi)戰(zhàn)

2024/06/03
4881
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

據(jù)最新消息披露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特爾(Intel)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣告,他們已經(jīng)為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink(Ultra Accelerator Link)。通過(guò)為人工智能加速器之間的通信建立一個(gè)開(kāi)放標(biāo)準(zhǔn),以打破市場(chǎng)領(lǐng)導(dǎo)者 Nvidia的壟斷。

眾所周知,英偉達(dá)是人工智能芯片市場(chǎng)最大的參與者,他們?cè)贕PU上擁有了絕對(duì)領(lǐng)先的份額。但其實(shí)除此以外,英偉達(dá)還擁有一系列技術(shù),可用于在多個(gè) GPU 和系統(tǒng)上擴(kuò)展工作負(fù)載。其中包括其片上和封裝互連、用于服務(wù)器或 pod 中 GPU 到 GPU 通信的 NVLink、用于擴(kuò)展 pod 之外的 Infiniband 以及用于連接到更廣泛基礎(chǔ)設(shè)施的以太網(wǎng)

現(xiàn)在,該行業(yè)的其他公司正試圖用開(kāi)放標(biāo)準(zhǔn)進(jìn)行反擊,以爭(zhēng)奪這些細(xì)分市場(chǎng)。去年,我們看到了 Ultra Ethernet,它使用增強(qiáng)型以太網(wǎng)旨在取代 Nvidia 的 InfiniBand 高性能互連,后者已迅速成為連接 GPU 加速節(jié)點(diǎn)的事實(shí)標(biāo)準(zhǔn),并且獲得了豐厚的利潤(rùn)。

今年,我們將獲得 Ultra Accelerator Link 或 UALink ,一項(xiàng)旨在取代 Nvidia 的 NVLink 協(xié)議和 NVLink Switch(有時(shí)稱為 NVSwitch)內(nèi)存結(jié)構(gòu)新標(biāo)準(zhǔn)。在具體介紹UALink 之前,我們先對(duì)Nvlink進(jìn)行介紹。

英偉達(dá)的隱形護(hù)城河

過(guò)去,我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠(chéng)然,經(jīng)過(guò)多年的投入,他們已經(jīng)建立起了難以逾越的優(yōu)勢(shì)。但除此以外,如上所述,英偉達(dá)還有很多隱形護(hù)城河,NVLink就是其中的一個(gè),一個(gè)為GPU到GPU互聯(lián)提供高速連接的技術(shù)。

摩爾定律逐漸失效,但對(duì)算力要求越來(lái)越高的當(dāng)下,這種互聯(lián)顯得尤為必要。

按照英偉達(dá)在官方網(wǎng)站中表示,NVLink 是全球首創(chuàng)的高速GPU 互連技術(shù),為多GPU 系統(tǒng)提供另一種選擇,與傳統(tǒng)的PCI-E 解決方案相比,速度方面擁有顯著提升。使用NVLink 連接兩張NVIDIA GPU,即可彈性調(diào)整記憶體與效能,滿足專(zhuān)業(yè)視覺(jué)運(yùn)算最高工作負(fù)載的需求。

相關(guān)資料顯示,NVLink 最初是一種將 Nvidia GPU 卡上的內(nèi)存組合在一起的方法,最終 Nvidia Research 實(shí)現(xiàn)了一個(gè)交換機(jī)來(lái)驅(qū)動(dòng)這些端口,允許 Nvidia 以杠鈴?fù)負(fù)洌╞arbell topology )連接兩個(gè)以上的 GPU,或以十字交叉方形拓?fù)洌╟risscrossed square topology)連接四個(gè) GPU,這種拓?fù)鋷资陙?lái)通常用于創(chuàng)建基于 CPU 的雙插槽和四插槽服務(wù)器。

幾年前,AI 系統(tǒng)需要八個(gè)或十六個(gè) GPU 共享內(nèi)存,以簡(jiǎn)化編程,并使這些 GPU 能夠以內(nèi)存速度(而不是網(wǎng)絡(luò)速度)訪問(wèn)數(shù)據(jù)集。因此,實(shí)驗(yàn)室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平臺(tái)上迅速商業(yè)化。

目前,NVLink可在 GPU 之間以每秒 1.8 TB 的速度傳輸數(shù)據(jù)。此外,還有一個(gè) NVLink 機(jī)架級(jí)交換機(jī),能夠在無(wú)阻塞計(jì)算結(jié)構(gòu)中支持多達(dá) 576 個(gè)完全連接的 GPU。通過(guò) NVLink 連接的 GPU 稱為“pod”,表示它們有自己的數(shù)據(jù)和計(jì)算域。

其實(shí)除了Nvlink以外,還有兩種連接GPU的方法,分別是PCI總線和Server-to-Server互聯(lián)。據(jù)了解,標(biāo)準(zhǔn)服務(wù)器通??梢栽?PCI 總線上支持 4-8 個(gè) GPU。通過(guò)使用GigaIO FabreX 內(nèi)存結(jié)構(gòu)等技術(shù),可以將這個(gè)數(shù)字增加到 32 個(gè)。

除此以外,以太網(wǎng)或 InfiniBand可以連接包含 GPU 的服務(wù)器。這種連接級(jí)別通常稱為橫向擴(kuò)展,其中較快的多 GPU 域通過(guò)較慢的網(wǎng)絡(luò)連接以形成大型計(jì)算網(wǎng)絡(luò)。

其實(shí)自從比特開(kāi)始在機(jī)器之間移動(dòng)以來(lái),以太網(wǎng)一直是計(jì)算機(jī)網(wǎng)絡(luò)的主力。最近,通過(guò)引入超級(jí)以太網(wǎng)聯(lián)盟,該規(guī)范已被推動(dòng)以提供高性能。事實(shí)上,英特爾已經(jīng)在以太網(wǎng)上插上了互連旗幟,因?yàn)橛⑻貭?Gaudi -2 AI 處理器在芯片上擁有 24 個(gè) 100 千兆以太網(wǎng)連接。

不過(guò),Nvidia 沒(méi)有加入超級(jí)以太網(wǎng)聯(lián)盟,因?yàn)樗麄冊(cè)?2019 年 3 月收購(gòu) Mellanox 后,基本上獨(dú)占了高性能 InfiniBand 互連市場(chǎng)。超級(jí)以太網(wǎng)聯(lián)盟旨在成為其他所有人的“InfiniBand”。值得一提的是,英特爾曾經(jīng)高舉 InfiniBand 大旗。

因此在這種情況下,對(duì)于其他人來(lái)說(shuō),除了用于連接 MI300A APU 的 AMD Infinity Fabric 之外,沒(méi)有其他選擇。與 InfiniBand/以太網(wǎng)的情況類(lèi)似,需要某種“超級(jí)”競(jìng)爭(zhēng)對(duì)手聯(lián)盟來(lái)填補(bǔ)非 Nvidia 的“pod 空缺”。而這正是UALink推出的重要原因。

什么是UALink?

超級(jí)加速器鏈(Ultra Accelerator Link,UALink)同樣是一種可提高新一代AI/ML集群性能的高速加速器互連技術(shù)。八家發(fā)起廠商(和超級(jí)以太網(wǎng)聯(lián)盟一樣,我們也沒(méi)有在UAlink聯(lián)盟中看到英偉達(dá)的身影)也成立了一個(gè)開(kāi)放行業(yè)標(biāo)準(zhǔn)機(jī)構(gòu)來(lái)制定相關(guān)技術(shù)規(guī)范,以促進(jìn)新使用模式所需的突破性性能,同時(shí)支持?jǐn)?shù)據(jù)中心加速器用開(kāi)放生態(tài)系統(tǒng)的發(fā)展。

在他們看來(lái),發(fā)起這個(gè)標(biāo)準(zhǔn)很有必要。因?yàn)殡S著AI計(jì)算需求的增長(zhǎng),擁有穩(wěn)健、低延遲且可高效縱向擴(kuò)展的網(wǎng)絡(luò),從而輕松將計(jì)算資源添加到單個(gè)實(shí)例中至關(guān)重要。而針對(duì)縱向擴(kuò)展功能制定開(kāi)放的行業(yè)標(biāo)準(zhǔn)規(guī)范,有助于為AI工作負(fù)載創(chuàng)建開(kāi)放的高性能環(huán)境,從而提供盡可能高的性能。

正是由于這個(gè)原因,UALink和行業(yè)規(guī)范對(duì)于新一代AI數(shù)據(jù)中心用AI和機(jī)器學(xué)習(xí)、HPC和云應(yīng)用程序的接口標(biāo)準(zhǔn)化及其實(shí)現(xiàn)至關(guān)重要。該工作組將制定相應(yīng)的規(guī)范來(lái)界定AI計(jì)算容器組中加速器與交換機(jī)之間進(jìn)行縱向擴(kuò)展通信所需的高速低延遲互連。

從相關(guān)資料可以看到,Ultra Accelerator Link 聯(lián)盟的核心于去年 12 月就已經(jīng)建立,當(dāng)時(shí) CPU 和 GPU 制造商 AMD 和 PCI-Express 交換機(jī)制造商博通表示,博通未來(lái)的 PCI-Express 交換機(jī)將支持 xGMI 和 Infinity Fabric 協(xié)議,用于將其 Instinct GPU 內(nèi)存相互連接,以及使用 CPU NUMA 鏈接的加載/存儲(chǔ)內(nèi)存語(yǔ)義將其內(nèi)存連接到 CPU 主機(jī)的內(nèi)存。相關(guān)消息顯示,這將是未來(lái)的“Atlas 4”交換機(jī),它將遵循 PCI-Express 7.0 規(guī)范,并于 2025 年上市。博通數(shù)據(jù)中心解決方案集團(tuán)副總裁兼總經(jīng)理 Jas Tremblay 證實(shí),這項(xiàng)工作仍在進(jìn)行中,但不要妄下結(jié)論。換而言之,我們不要以為 PCI-Express 是唯一的 UALink 傳輸,也不要以為 xGMI 是唯一的協(xié)議。

AMD 為 UALink 項(xiàng)目貢獻(xiàn)了范圍更廣的 Infinity Fabric 共享內(nèi)存協(xié)議以及功能更有限且特定于 GPU 的 xGMI,而所有其他參與者都同意使用 Infinity Fabric 作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級(jí)副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理 Sachin Katti 表示,由 AMD、博通、思科系統(tǒng)、谷歌、惠普企業(yè)、英特爾、Meta Platforms 和微軟組成的 Ultra Accelerator Link“推動(dòng)者小組”正在考慮使用以太網(wǎng)第 1 層傳輸層,并在其上采用 Infinity Fabric,以便將 GPU 內(nèi)存粘合到類(lèi)似于 CPU 上的 NUMA 的巨大共享空間中。

我們分享了如何使用以太網(wǎng)將 Pod 鏈接到更大的集群:

如thenextplatform所說(shuō),沒(méi)人期望將來(lái)自多個(gè)供應(yīng)商的 GPU 連接到一個(gè)機(jī)箱內(nèi),甚至可能是一個(gè)機(jī)架或多個(gè)機(jī)架中的一個(gè)Pod內(nèi)。但 UALink 聯(lián)盟成員確實(shí)相信,系統(tǒng)制造商將創(chuàng)建使用 UALink 的機(jī)器,并允許在客戶構(gòu)建其艙時(shí)將來(lái)自許多參與者的加速器放入這些機(jī)器中。您可以有一個(gè)帶有 AMD GPU 的Pod,一個(gè)帶有 Intel GPU 的Pod,另一個(gè)帶有來(lái)自任意數(shù)量的其他參與者的自定義加速器Pod。它允許在互連級(jí)別實(shí)現(xiàn)服務(wù)器設(shè)計(jì)的通用性,就像 Meta Platforms 和 Microsoft 發(fā)布的開(kāi)放加速器模塊 (OAM) 規(guī)范允許系統(tǒng)板上加速器插槽的通用性一樣。

總而言之,UALink 的一大優(yōu)勢(shì)是讓業(yè)內(nèi)其他所有人都有機(jī)會(huì)與 NVIDIA 保持同步。NVIDIA 現(xiàn)在有能力制造NVSwitch盒并將這些 NVSwitch 托盤(pán)放入NVIDIA DGX GB200 NVL72等產(chǎn)品中。

英特爾今年的 AI 加速器銷(xiāo)售額達(dá)數(shù)億美元,這可能意味著它只賣(mài)出幾萬(wàn)臺(tái)加速器。AMD 今年將銷(xiāo)售數(shù)十億美元的 MI300X,但這仍然遠(yuǎn)不及 NVIDIA 的 AI 規(guī)模。擁有 UALink 允許像 Broadcom 這樣的公司制造 UALink 交換機(jī)來(lái)幫助其他公司擴(kuò)大規(guī)模,然后在多家公司的加速器上使用這些交換機(jī)。

我們已經(jīng)報(bào)道了 Broadcom Atlas 交換機(jī)計(jì)劃與AMD Infinity Fabric AFL Scale Up 競(jìng)爭(zhēng) NVIDIA NVLink 即將出現(xiàn)在 PCIe Gen7 中的 Broadcom 交換機(jī)上。我們?cè)诤?jiǎn)報(bào)中被告知,這些可能會(huì)實(shí)現(xiàn) UALink 的 V1.0。當(dāng)然,UALink V1.0 規(guī)范尚未出臺(tái)。

他們表示,1.0版的規(guī)范將允許在AI容器組中連接不超過(guò)1,024個(gè)加速器,支持在容器組中掛載到加速器(例如GPU)的內(nèi)存之間進(jìn)行直接加載和存儲(chǔ)。UALink發(fā)起人工作組已經(jīng)成立了UALink聯(lián)盟,預(yù)計(jì)將在2024年第三季度正式成立。1.0版規(guī)范預(yù)計(jì)將于2024年第三季度推出,并向參加超級(jí)加速器鏈(UALink)聯(lián)盟的公司開(kāi)放。

CXL怎么辦?

其實(shí)在過(guò)去幾年,行業(yè)參與者已經(jīng)承諾過(guò)在 PCI-Express 結(jié)構(gòu)上運(yùn)行的 Compute Express Link (CXL) 協(xié)議將提供同樣的功能。例如CXLmem 子集就已經(jīng)提供了 CPU 和 GPU 之間的內(nèi)存共享嗎。

但在分析人士看來(lái),PCI-Express 和 CXL 是更廣泛的傳輸和協(xié)議。

Katti 指出,AI 加速器模塊的內(nèi)存域比 CPU 集群的內(nèi)存域大得多,我們知道 CPU 集群的擴(kuò)展范圍從 2 個(gè)到 4 個(gè),有時(shí)到 8 個(gè),很少到 16 個(gè)計(jì)算引擎。許多人認(rèn)為,AI 加速器的 GPU 模塊可擴(kuò)展到數(shù)百個(gè)計(jì)算引擎,并且需要擴(kuò)展到數(shù)千個(gè)。更重要的是,與 CPU NUMA 集群不同,GPU 集群(尤其是運(yùn)行 AI 工作負(fù)載的集群)對(duì)內(nèi)存延遲的容忍度更高。

為此The Next Platform表示,我們不要指望看到 UALinks 將 CPU 捆綁在一起,但沒(méi)有理由相信未來(lái)的 CXL 鏈接最終不會(huì)成為 CPU 共享內(nèi)存的標(biāo)準(zhǔn)方式——甚至可能跨越不同的架構(gòu)。

這實(shí)際上是為了打破 NVLink 在互連結(jié)構(gòu)內(nèi)存語(yǔ)義方面的壟斷。無(wú)論 Nvidia 如何使用 NVLink 和 NVSwitch,它的幾家競(jìng)爭(zhēng)對(duì)手都需要為潛在客戶提供可靠的替代方案——無(wú)論他們是銷(xiāo)售 GPU 還是其他類(lèi)型的加速器或整個(gè)系統(tǒng)——這些潛在客戶肯定希望為 AI 服務(wù)器節(jié)點(diǎn)和機(jī)架式設(shè)備提供比 Nvidia 互連更開(kāi)放、更便宜的替代方案。

“當(dāng)我們審視整個(gè)數(shù)據(jù)中心對(duì) AI 系統(tǒng)的需求時(shí),有一點(diǎn)非常明顯,那就是 AI 模型繼續(xù)大規(guī)模增長(zhǎng),”AMD 數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理 Forrest Norrod 說(shuō)道?!懊總€(gè)人都可以看到,這意味著對(duì)于最先進(jìn)的模型,許多加速器需要協(xié)同工作以進(jìn)行推理或訓(xùn)練。能夠擴(kuò)展這些加速器對(duì)于推動(dòng)未來(lái)大規(guī)模系統(tǒng)的效率、性能和經(jīng)濟(jì)性至關(guān)重要。擴(kuò)展有幾個(gè)不同的方面,但 Ultra Accelerator Link 的所有支持者都非常強(qiáng)烈地感受到,行業(yè)需要一個(gè)可以快速推進(jìn)的開(kāi)放標(biāo)準(zhǔn),一個(gè)允許多家公司為整個(gè)生態(tài)系統(tǒng)增加價(jià)值的開(kāi)放標(biāo)準(zhǔn)。并且允許創(chuàng)新不受任何一家公司的束縛而快速進(jìn)行。”

毫無(wú)疑問(wèn),AMD Forrest Norrod說(shuō)的這家公司就是Nvidia,他們通過(guò)投資了InfiniBand,并創(chuàng)建了具有絕對(duì)超大網(wǎng)絡(luò)帶寬的 NVSwitch 來(lái)為 GPU 進(jìn)行 NUMA 集群。當(dāng)然,他們最初這樣做的是因?yàn)?PCI-Express 交換機(jī)在總帶寬方面仍然有限。

有趣的是,UALink 1.0 規(guī)范將在今年第三季度完成,屆時(shí) Ultra Accelerator Consortium 也將加入進(jìn)來(lái),擁有知識(shí)產(chǎn)權(quán)并推動(dòng) UALink 標(biāo)準(zhǔn)的發(fā)展。今年第四季度,UALink 1.1 更新將發(fā)布,這將進(jìn)一步提高規(guī)模和性能。目前尚不清楚 1.0 和 1.1 UALink 規(guī)范將支持哪些傳輸,或者哪些將支持 PCI-Express 或以太網(wǎng)傳輸。

使用 NVLink 4 端口的 NVSwitch 3 結(jié)構(gòu)理論上可以在共享內(nèi)存 pod 中跨越多達(dá) 256 個(gè) GPU,但 Nvidia 的商業(yè)產(chǎn)品僅支持 8 個(gè) GPU。借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 理論上可以支持跨越多達(dá) 576 個(gè) GPU 的 pod,但實(shí)際上,商業(yè)支持僅在 DGX B200 NVL72 系統(tǒng)中最多 72 個(gè) GPU 的機(jī)器上提供。

如今,許多公司都在嘗試采用標(biāo)準(zhǔn) PCIe 交換機(jī)并構(gòu)建基于 PCIe 的結(jié)構(gòu)以擴(kuò)展到更多加速器。業(yè)內(nèi)大公司似乎將此視為權(quán)宜之計(jì)。相反,NVIDIA 的 NVLink 更像是業(yè)內(nèi)擴(kuò)展的黃金標(biāo)準(zhǔn)。

現(xiàn)在,UAlink團(tuán)隊(duì)正準(zhǔn)備發(fā)布專(zhuān)有 NVLink 的公開(kāi)競(jìng)爭(zhēng)對(duì)手。

所有這些都需要時(shí)間。記者在簡(jiǎn)報(bào)會(huì)上問(wèn)這是否是一個(gè) 2026 年左右的實(shí)施目標(biāo)。2024 年還太早,即使它被融入到產(chǎn)品中,目前也不太可能成為 2025 年初的產(chǎn)品。如果你看看CXL或UCIe,這些標(biāo)準(zhǔn)需要很長(zhǎng)時(shí)間才能最終成為產(chǎn)品。2026 年將是一個(gè)快速實(shí)施的時(shí)間。

對(duì)于 AMD 和英特爾等公司來(lái)說(shuō),這提供了一條復(fù)制 NVLink 和 NVSwitch 功能并與其他公司共享開(kāi)發(fā)成果的途徑。像博通這樣的公司很可能是最大的贏家,因?yàn)樗ㄎ粸榉?NVIDIA 系統(tǒng)的連接提供商,無(wú)論是用于縱向擴(kuò)展還是橫向擴(kuò)展。無(wú)論是 AMD 還是英特爾獲勝,博通都在銷(xiāo)售連接。對(duì)于超大規(guī)模企業(yè)來(lái)說(shuō),無(wú)論誰(shuí)制造端點(diǎn),投資標(biāo)準(zhǔn)化結(jié)構(gòu)的能力都非常有意義。

順便說(shuō)一句,在 2019-2020 年期間,行業(yè)考慮將 CXL in-box 和Gen-Z作為擴(kuò)展解決方案。許多當(dāng)年展示 Gen-Z 的人現(xiàn)在都在 AMD 工作,就像 AMD 多年來(lái)一直在組建一支團(tuán)隊(duì),他們看到并一直在努力解決擴(kuò)展挑戰(zhàn)。

希望我們能夠盡快看到 UALink 投入使用。對(duì)啦,多說(shuō)一句,貌似沒(méi)有看到Marvell的身影?

 

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
RC0603FR-07100KL 1 YAGEO Corporation Fixed Resistor, Metal Glaze/thick Film, 0.1W, 100000ohm, 75V, 1% +/-Tol, 100ppm/Cel, Surface Mount, 0603, CHIP
$0.08 查看
SPA11N80C3XKSA2 1 Infineon Technologies AG Power Field-Effect Transistor, 11A I(D), 800V, 0.45ohm, 1-Element, N-Channel, Silicon, Metal-oxide Semiconductor FET, TO-220AB, ROHS COMPLIANT, PLASTIC, TO-220FP, 3 PIN
$3.79 查看
VS-25TTS12-M3 1 Vishay Intertechnologies Silicon Controlled Rectifier, SCR
$3.77 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體行業(yè)觀察;70萬(wàn)半導(dǎo)體精英共同關(guān)注的深原創(chuàng)新媒體,以客觀、專(zhuān)業(yè)、嚴(yán)謹(jǐn)?shù)膽B(tài)度,專(zhuān)注觀察全球半導(dǎo)體產(chǎn)業(yè)的最新資訊、技術(shù)前沿、發(fā)展趨勢(shì)。

乌鲁木齐县| 西充县| 杂多县| 浦东新区| 南宁市| 霍山县| 云龙县| 南召县| 双鸭山市| 二连浩特市| 安阳县| 洪湖市| 泉州市| 德安县| 灌云县| 沐川县| 正安县| 开化县| 章丘市| 旅游| 柳州市| 东港市| 玛多县| 交城县| 蓬溪县| 江源县| 洛南县| 绥德县| 封丘县| 宕昌县| 邯郸市| 上高县| 柘城县| 会昌县| 大方县| 汶川县| 永城市| 磐安县| 沐川县| 海口市| 高雄县|