如果說AI賦予了各行各業(yè)更為廣闊的想象空間,則加速計算正在強力支撐著這些想象的實現(xiàn)。
英偉達CEO黃仁勛在今年4月的GTC大會上曾談到,AI 正在各個領域“全面開花”,包括新的架構、新的學習策略、規(guī)模更大、性能更強的模型、新的科學領域、新的應用、新的行業(yè)等,所有這些領域都在發(fā)展。他指出,正是得益于加速計算,AI領域才不斷出現(xiàn)這些“驚人的進展”。
日前,在超級計算專家齊聚的年度盛會ISC上,就展示了加速計算幫助研究者應對重大挑戰(zhàn)的繁榮景象。研究者們致力于構建模擬新能源的數(shù)字孿生,或者通過使用AI和高性能計算(HPC)深入探索人類的大腦。
英偉達加速計算業(yè)務副總裁Ian Buck在演講中表示,一些公司甚至正在使用高敏感度儀器將HPC推向邊緣或在混合量子系統(tǒng)上加速模擬。
先進芯片助推超算邁入百億億次AI運算時代
在超級計算機邁入百億億次AI運算時代的過程中,先進的處理器芯片也在向更先進架構、更高性能沖刺,異構芯片和異構系統(tǒng)架構將越來越成為主流方向,為計算密集型工作負載提速。
英偉達的Grace CPU 超級芯片搭載了兩個基于Arm的CPU,它們通過高帶寬、低延遲、低功耗的 NVIDIA NVLink-C2C 互連技術連接。這項開創(chuàng)性的設計內(nèi)置多達144個高性能 Arm Neoverse 核心,并且?guī)в锌缮炜s矢量擴展和 1 TB/s 的內(nèi)存子系統(tǒng)。
Grace CPU 超級芯片支持最新的PCIe Gen5協(xié)議,可實現(xiàn)與GPU之間的高性能連接,同時還能連接 NVIDIA ConnectX-7智能網(wǎng)卡以及NVIDIA BlueField-3 DPU,以保障 HPC 及 AI 工作負載安全。
Grace Hopper超級芯片則在一個集成模塊中通過 NVLink-C2C連接NVIDIA Hopper GPU 與 NVIDIA Grace CPU,滿足HPC和超大規(guī)模 AI 應用需求。
盡管這兩款芯片在2023年上半年才正式上市,但美國和歐洲領先的超級計算中心都率先宣布將采用這兩款超級芯片。
洛斯阿拉莫斯國家實驗室(LANL)的新一代系統(tǒng) Venado 將成為美國首個采用 NVIDIA Grace CPU 技術的系統(tǒng)。Venado 是使用 HPE Cray EX 超級計算機構建而成的異構系統(tǒng),同時將配備Grace CPU超級芯片節(jié)點和Grace Hopper超級芯片節(jié)點,滿足各類新興應用需求。該系統(tǒng)建成后的AI性能預計將超過 10 ExaFlops。
瑞士國家計算中心的新系統(tǒng) Alps由慧與基于HPE Cray EX超級計算機而構建。該系統(tǒng)將使用 Grace CPU 超級芯片,以支持眾多領域的開創(chuàng)性研究。Alps 將作為一個通用系統(tǒng),向瑞士及其他國家的研究者開放。
在歐洲,英偉達和 SiPearl 正在一起擴大在Arm上構建百億億次級計算的開發(fā)者生態(tài)系統(tǒng)。這項工作將幫助該地區(qū)的用戶將應用移植到使用SiPearl的Rhea,以及未來基于Arm的CPU和英偉達加速計算和網(wǎng)絡技術的系統(tǒng)上。
日本筑波大學的計算科學中心正在英偉達的Quantum-2 InfiniBand平臺上將H100 Tensor Core GPU 和 x86 CPU 搭配使用。這臺新的超級計算機將處理氣候學、天體物理學、大數(shù)據(jù)、AI 等方面的工作。
DPU為未來龐大網(wǎng)絡計算規(guī)模夯實基礎
應對未來海量數(shù)據(jù)爆發(fā)和復雜計算難題的指數(shù)級增長,需要將計算移動到接近數(shù)據(jù)的位置,這是業(yè)界公認的以數(shù)據(jù)為中心的體系結構下的創(chuàng)新,也是英偉達數(shù)據(jù)處理器(DPU)的提出背景。
為了在現(xiàn)有x86體系中CPU內(nèi)存和PCIe帶寬基礎上,進一步提升整體系統(tǒng)性能。英偉達推出了專為TB級加速計算而設計的Grace CPU,以及專為現(xiàn)代超大規(guī)模云技術基礎架構而生的DPU。至此,英偉達的數(shù)據(jù)中心路線圖煥然新生,由CPU、GPU、DPU形成三大算力支柱。
目前,DPU在網(wǎng)絡性能提升方面的價值已經(jīng)被許多前沿研究領域所認可。洛斯阿拉莫斯國家實驗室(LANL)的杰出高級科學家Steve Poole預計,使用在英偉達Quantum InfiniBand 網(wǎng)絡上運行的DPU等加速計算可取得巨大的性能提升。
LANL的加速閃存盒(ABoF)將固態(tài)存儲與DPU和InfiniBand加速器相結合,可為Linux文件系統(tǒng)的關鍵性能部分提供加速。它的性能高達同類存儲系統(tǒng)的30倍,并將成為LANL基礎架構中的關鍵組件。ABoF 使“取得更多科學發(fā)現(xiàn)成為可能。讓計算靠近存儲可更大限度減少數(shù)據(jù)移動,提高仿真和數(shù)據(jù)分析工作流程的效率”,LANL 研究人員 Dominic Manno 在最近的LANL博客中這樣表示。
在歐洲和美國,一些 HPC 開發(fā)者正在開發(fā)將通信和計算作業(yè)卸載到 DPU 的方法,通過借助BlueField-2 DPU內(nèi)的Arm核和加速器的強大功能為超級計算機提供強力支持。
德克薩斯高級計算中心(TACC)近期也開始在 Dell PowerEdge 服務器中采用 BlueField-2 DPU。它將在 InfiniBand 網(wǎng)絡上,使其Lonestar6系統(tǒng)成為云原生超級計算的開發(fā)平臺。
在距 TACC 東北部 1200 英里的地方, 俄亥俄州立大學的研究人員展示了 DPU 如何將一個 HPC 熱門編程模型的運行速度提高 21%。他們通過卸載消息傳遞接口(MPI)的關鍵部分,加速了P3DFFT,這是一個用于眾多大規(guī)模HPC仿真的數(shù)學庫。
此外,在劍橋大學、倫敦大學學院、慕尼黑工業(yè)大學、達勒姆大學、佐治亞理工學院等,都在使用BlueField DPU加速相關研究。
混合量子/HPC數(shù)據(jù)中心之路開啟
量子計算一直被寄予厚望,用以解決當今面臨的一些嚴峻挑戰(zhàn),通過在HPC中發(fā)揮巨大作用,推動從藥物研發(fā)到天氣預報等各項工作的發(fā)展。隨著量子系統(tǒng)的發(fā)展,下一個重大飛躍是朝混合系統(tǒng)邁進:量子計算機和經(jīng)典計算機協(xié)同工作。
研究人員都希望這些系統(tǒng)級量子處理器(即QPU)成為功能強大的新型加速器。因此,擺在面前的一個重要任務就是將傳統(tǒng)系統(tǒng)和量子系統(tǒng)橋接到混合量子計算機中。這項任務主要包括兩部分:
首先,需要在GPU和QPU之間建立快速、低延遲的連接。這樣一來,混合系統(tǒng)可使用 GPU 完成其擅長的傳統(tǒng)作業(yè),例如電路優(yōu)化、校正和糾錯。
GPU 可以縮短這些步驟的執(zhí)行時間,并大幅降低經(jīng)典計算機和量子計算機之間的通信延遲,而這是當今混合量子作業(yè)面臨的主要瓶頸。
其次,該行業(yè)需要一個統(tǒng)一的編程模型,其中包含高效易用的工具,目前在 HPC 和 AI 方面的進展,已經(jīng)展示了固態(tài)軟件棧的價值。
為了對QPU進行編程,研究人員只能使用相當于低級組裝代碼的量子,非量子計算專家的科學家無法使用這種代碼。此外,開發(fā)者缺乏統(tǒng)一的編程模型和編譯器工具鏈,因此無法在任何 QPU 上運行工作。
為了高效地找到量子計算機加速工作的方法,科學家需要輕松地將其 HPC 應用的一部分先移植到模擬版 QPU,然后再移植到真正的 QPU。這個過程需要一個編譯器,使科學家們能夠以熟悉的方式高效工作。
英偉達的cuQuantum軟件開發(fā)套件可以在GPU上加速量子電路模擬,目前已獲得數(shù)十家量子組織的采用。最近,AWS 也宣布在其 Braket 服務中提供 cuQuantum。它還在 Braket 上展示了cuQuantum 如何在量子機器學習工作負載上實現(xiàn)高達 900 倍的加速。
目前,cuQuantum 已經(jīng)能夠在主要的量子軟件框架上實現(xiàn)加速計算,包括 Google 的 qsim、IBM的Qiskit Aer、Xanadu的PennyLane 和 Classiq 的 Quantum Algorithm Design 平臺。這意味著這些框架的用戶可以訪問GPU加速,而無需再進行任何編碼。
未來的混合量子計算之路任重而道遠,雖然能夠運行先進算法的量子計算硬件仍處于開發(fā)階段,但 NVIDIA cuQuantum 等經(jīng)典計算工具對推進量子算法的開發(fā)至關重要。通過將 GPU加速的模擬工具、編程模型和編譯器工具鏈結合,可以幫助HPC 研究人員進一步向混合量子數(shù)據(jù)中心的構建進發(fā)。
加速 AI 在醫(yī)療健康領域的應用
在前沿醫(yī)學領域,AI+HPC也正在為科學和研究界做出更大貢獻。醫(yī)療健康領域的數(shù)據(jù)匱乏一直是制約行業(yè)進一步提升的瓶頸之一,將AI引入該領域,正在從一定程度上紓解這些難題。
基于英偉達的Cambridge-1 超級計算機和 MONAI(一種用于醫(yī)學影像的 AI 框架),倫敦國王學院的研究人員打造了全球最大的開源合成大腦圖像集。這位倫敦國王學院的研究人員兼?zhèn)惗?AI 中心的 CTO 為醫(yī)療健康研究人員免費提供了 10 萬張合成大腦圖像。這是一個寶庫,可以加速人類對癡呆癥、帕金森癥或各類腦部疾病的認知。
這些圖像代表了合成數(shù)據(jù)在醫(yī)療健康領域的一個新興分支。合成圖像此前已經(jīng)廣泛應用于消費者和商業(yè)應用的計算機視覺領域,而實際上這些領域本身已有包含數(shù)百萬張真實圖像的開放數(shù)據(jù)集可供使用。
相比之下,醫(yī)學領域可供使用的真實影像反而稀缺。出于保護患者隱私的需要,醫(yī)學影像通常僅供與大型醫(yī)院相關的研究人員使用。即便如此,這些影像往往也只能反映醫(yī)院所服務的人群,而非范圍更廣的人群。
Cardoso 的 AI 方法的重要特征是,它可以根據(jù)需要制作圖像。女性大腦、男性大腦、老年人的大腦、年輕人的大腦等等,只需插入所需內(nèi)容,系統(tǒng)就會進行創(chuàng)建。
雖然這些圖像是模擬生成的,但非常實用,因為它們基于經(jīng)過良好測試的算法,所以外觀和運作方式與真實大腦高度相似。
這一重大突破表明,HPC+AI的組合正在為科學和研究界做出真正的貢獻。
寫在最后
數(shù)字經(jīng)濟時代,算力已成為支撐各領域發(fā)展與轉型的重要基石,在許多科研應用以及商業(yè)場景中已不可或缺。以往在氣候科學、能源研究、太空探索、數(shù)字生物學、量子計算等領域遙不可及的巨大挑戰(zhàn),如今有了先進超算平臺和AI平臺提供的強大基礎架構,正在解決這些重大的時代挑戰(zhàn)。
同時,高性能計算的飛速發(fā)展與應用普及,正在為更多領域帶來了巨大的動能。值得關注的是,HPC工作也在越來越多地延伸到超級計算機中心之外的范疇。為了將超級計算帶到邊緣,英偉達在開發(fā)用于HPC的Holoscan,它是圖像軟件的高度可擴展版本,將在Jetson AGX模塊和設備、四路 A100 服務器等各種加速平臺上運行。
隨著高性能計算向各個方向的擴展,不論是超級計算中心、云端還是邊緣等,一切正在發(fā)生巨變。而英偉達圍繞加速計算展開的一系列軟硬件創(chuàng)新和生態(tài)合作,也展現(xiàn)了它在高性能計算領域深耕的實力與決心。