Tech-Guide

如何挑選您的AI伺服器?(上)CPU和GPU

by GIGABYTE
生成式人工智慧和其他AI工具盛行的當下,挑選合適的AI伺服器成為各產業的首要任務。技嘉科技最新發表《科技指南》,帶領讀者認識AI伺服器的八個關鍵零組件,本篇從最重要的元件開始,即中央處理器(CPU)和圖形處理器(GPU)。挑選適當的運算晶片,打造量身訂做的人工智慧超算平台,可以讓工作事半功倍,為使用者開創全新的巔峰。
隨著人工智慧(AI)浪潮席捲全球,無論是在公部門或私部門,無論是在學術界、製造業或服務業,人們都積極引入人工智慧伺服器產品,開創全新的業務巔峰。人工智慧的應用領域非常廣泛,實用案例包括生成式AI能撰寫企劃案或提供客服支援,電腦視覺技術能提高物流中心或高速公路收費站的效率。對大多數的公家機構和私人企業而言,「該不該」買AI伺服器不再是問題,更重要的是該挑選「哪一款」AI伺服器,才能達到最好的效果?

人工智慧與高效能運算(HPC)伺服器解決方案領導品牌技嘉科技,發表本篇《科技指南》,協助讀者挑選最適宜的AI伺服器產品。本篇指南分為上下兩部,首先介紹伺服器內最關鍵的兩種處理器產品:中央處理器(CPU)和圖形處理器(GPU)。我們將為讀者解釋哪種處理器適合處理哪些類型的AI工作,以幫助做出明智的選擇,打造合乎需求的人工智慧超級運算平台。

了解更多:
《專為開發人工智慧所設計的技嘉科技AI伺服器產品
《進一步認識技嘉科技高效能運算伺服器
如何挑選適當的中央處理器CPU?
伺服器的中央處理器(CPU)就像大腦一樣,若沒有它,伺服器將無法操作。CPU的主要功能是接收和詮釋指令,主導伺服器內其他元件運作,達成用戶的目標。因此,AI伺服器的性能深受搭配的中央處理器所影響。

熟悉CPU市場的讀者,可能期待看到超微AMD和英特爾Intel這兩大品牌的比較。事實上,挑選CPU不單純是看這兩家產品。AMD和Intel確實是CPU市場的霸主,其中AMD的EPYC™ 9004系列處理器和Intel的第五代Xeon®可擴充處理器,代表以複雜指令集(CISC)架構為基礎的x86處理器的頂尖產品。如果使用者追求高性能和完善的生態系統,那當然建議使用這兩大品牌的最新處理器。如果預算上有考量,可以考慮挑選較早問世的Intel® Xeon®或AMD EPYC™處理器。而如果處理的AI工作沒有那麼吃運算力,可接受較少量的核心執行緒,那麼AMD Ryzen™也是不錯的選擇,這是一款非常傑出的入門等級伺服器處理器產品。

了解更多:
《關於技嘉GIGABYTE搭配AMD CPU伺服器系列產品的更多介紹》
《關於技嘉GIGABYTE搭配Intel CPU伺服器系列產品的更多介紹》

目前CPU市場上,除了Intel和AMD這兩大品牌以外,以精簡指令集(RISC)架構為基礎的中央處理器,也越來越有競爭力。這種晶片能容納更多核心,運算力媲美x86處理器,而且功耗比較低。由於絕大多數的行動和邊緣裝置(包括智慧型手機)都使用RISC架構的晶片,因此RISC架構的CPU擁有所謂的「雲端原生」特性,這意味著接收邊緣裝置收集的資訊時,無需額外使用編譯器進行翻譯。因此,如果使用者的AI工作主要涉及雲端邊緣運算,那麼可以考慮挑選RISC架構的中央處理器。

RISC架構的代表性產品是ARM處理器,技嘉AI伺服器搭載的ARM CPU主要由Ampere公司製造,最高階的Ampere®系列產品,單一處理器包含約兩百顆核心,提供卓越的效能功耗比,有助於降低總體擁有成本(TCO)。

近期,市場上備受關注的新款ARM處理器,是由輝達NVIDIA推出的Grace™ CPU超級晶片。這款產品具有多項NVIDIA獨家開發的創新功能,NVLink-C2C晶片互連技術提供高達900GB/s 的頻寬,LPDDR5X支援修正錯誤記憶體(ECC)。如果使用者經常採用NVIDIA的軟硬體商品組合,並希望嘗試其最新推出的中央處理器產品,那麼可以考慮選擇搭載這款CPU的技嘉H263-V60高密度伺服器。

了解更多:
《關於技嘉ARM伺服器產品的更多介紹》
《關於技嘉高密度伺服器產品的更多介紹》

挑選中央處理器還有一道步驟,就是評估所需要的插槽數量。雙插槽的高密度設計,提供較高的效能和可用性,但相對比較耗電,因此需要搭配更強大的散熱設備。單插槽的優勢是成本、功耗與散熱需求都比較低。如果單顆CPU的核心數能夠滿足AI工作需求,那這也是很好的選擇。
如何挑選AI伺服器的CPU?參考這張流程圖,可大致了解目前市面上CPU的選項。
如何挑選適當的圖形處理器GPU?
除了CPU以外,AI伺服器還使用稱為圖形處理器(GPU)的第二種處理器,主要是用來提供加速功能,可顯著提高AI處理速度。背後的原理是,儘管GPU內部結構與CPU相似,但設計較為簡單,因此核心數較多,可將一項工作拆成許多小塊,並透過平行運算同步處理,大大提高處理AI工作的效率。

了解更多:
《科技指南:CPU vs. GPU,淺談伺服器的兩大運算力
《關於技嘉GPU協同運算伺服器產品的更多介紹》

挑選GPU的訣竅是,先了解AI工作性質,是否可能發生突發性的改變?還是同質性很高?市面上的GPU大多是「專才」,特別擅長執行某些特定工作。如果使用者希望能保留彈性,隨時根據工作內容調整GPU設定,那可以考慮採用「現場可程式化邏輯閘陣列」(FPGA)的GPU。不同於「特定應用積體電路」(ASIC),FPGA晶片出廠後能由使用者重新設定功能,最具代表性的廠商是賽靈思Xilinx,如今已由AMD收購。技嘉多款伺服器產品支援FPGA的加速器。

另外還有一個考量點,那就是AI伺服器將進行人工智慧的「訓練」還是「推論」?目前市面上所有「有限記憶」人工智慧,都是透過這兩個步驟開發。在訓練階段,工程師將大數據導入AI模型,AI練習辨識數以「兆」計的參數,並依照辨識結果的對錯,持續微調參數的「權重」。久而久之,AI猜力變得萬無一失,就如它真正「看懂」接收到的資訊。在推論階段,人工智慧則是接觸真實世界的數據,利用訓練階段累積的經驗,試圖產出正確的輸出值。不論是訓練或推論,都很講究伺服器的算力,因此使用者可以選擇不同的GPU加速卡或運算模組,提升伺服器的效能。

了解更多:
《科技指南:從「訓練」到「推論」,一窺生成式AI神奇運作原理
您真的懂AI嗎?快來看能帶您快速跟上人工智慧趨勢的十大問答!

如果伺服器主要是進行AI訓練,那麼GPU可以搭配特殊的核心和加速引擎,加快訓練的速度。目前市面上最強大的AI訓練運算平台之一,是NVIDIA HGX™ H100 8-GPU,這是一款搭配八張H100 GPU的模組,部署在技嘉G593-SD0G593-SD2G593-ZD2三款伺服器內,可提供超過32 petaFLOPS的FP8深度學習運算性能。NVIDIA HGX™ H100 4-GPU則配置四張H100 GPU,推薦使用技嘉G363-SR0來發揮最大算力,原因是這款伺服器可結合液體冷卻來做應用,釋放晶片最大效能的同時,還能改善資料中心電力使用效率(PUE)。H100 SXM5 GPU的主要特色,是搭配第四代Tensor核心,以及具有FP8精確度的運算加速引擎「Transformer Engine」。模組內GPU之間透過第四代點對點NVLink高速互連技術,提供900 GB/s的互連頻寬,並透過NVIDIA NVSwitch加強跨節點集體通訊能力,使這套產品成為AI訓練的首選超算平台。

AMD推出的Instinct™ MI300X,特色是龐大的記憶體頻寬,最多可支援八百億個參數的大型語言模型(LLM),因此就連參數量高達四百億的大規模人工智慧模型「Falcon 40B」,都能在單張MI300X上面操作。技嘉G593-ZX1結合八張MI300X,非常適合人工智慧開發和高效能運算應用。

如果AI模型使用的參數沒有那麼大量,或是使用者有預算上的考量,也可以選擇採用不同款的AMD和NVIDIA加速器產品。比方說,技嘉有許多伺服器解決方案可結合AMD Instinct™ MI200系列加速器使用。如果想挑選NVIDIA的GPU產品,技嘉G493-SB0G293-S40G293-S41G293-S45皆支援適合AI訓練的NVIDIA L40S GPU。除此之外,還可以考慮使用技嘉的通用型機架式伺服器,例如R162-Z11這款產品雖然沒有結合運算模組,但有提供三個PCIe插槽,可依使用者需求搭配不同的GPU加速卡。

了解更多:
《關於技嘉機架式伺服器產品的更多介紹》
《成功案例: 技嘉GPU協同運算伺服器助攻成大勇奪亞太HPC-AI電腦競賽冠軍
圖形處理器對AI運算來說非常重要,因此應依照工作需求挑選最合適的GPU產品。
如果AI伺服器主要進行推論工作,所搭配的GPU也必須符合使用情境的需求。比如說,目前市面上最強大的AI推論伺服器之一,是技嘉G293-Z43這款產品,特色是在2U規格的機台內容納高達十六張AMD Alveo™ V70加速卡。Alveo™ V70採用AMD的XDNA™自適應資料流架構,資訊在節點間傳輸時不需要仰賴外部的記憶體裝置,有助於提升運算效能、降低功耗和降低延遲,非常適合人工智慧模型推論應用。高密度運算的伺服器設計,也非常符合資料中心或是機房的使用空間。此外,提供PCIe Gen 4(或以上)插槽的技嘉伺服器,都可搭配NVIDIA A2 Tensor核心GPU或L4 Tensor核心GPU使用,這兩款產品也是專為AI推論所設計。

如果AI推論工作主要是在雲端進行,技嘉還有提供Qualcomm人工智慧推論方案,所採用的Qualcomm Cloud AI 100加速器在吞吐量和低延遲方面表現優異,可支援雲端運算和邊緣運算等多種使用情境。技嘉旗下的GPU協同運算伺服器、機架式伺服器和專門為邊緣運算所設計的E系列邊緣運算伺服器,皆能結合Qualcomm的方案使用。

最後要留意的是,一般而言,AI訓練比推論更講究運算力,因此大部分的AI訓練伺服器也能完成AI推論的工作。另外一種創新的解決方案,就是結合CPU與GPU的「超級晶片」產品,兩種處理器都經過精心設計,發揮高效能運算進行人工智慧的訓練與推論。技嘉H223-V10H263-V11高密度伺服器所搭配的NVIDIA Grace Hopper™超級晶片就是這麼一款產品,AMD的第一款「資料中心等級」加速處理器(APU)產品Instinct™ MI300A也是相似的概念,結合技嘉G383-R80伺服器問世。如果使用者希望採用結合CPU和GPU的先進晶片,架設人工智慧超算平台,就可以考慮以上這幾款產品。

看完本篇科技指南,希望大家對於如何挑選人工智慧伺服器的中央處理器和圖形處理器,有更深入的認識。如果希望了解如何挑選AI伺服器的記憶體、儲存裝置和其他元件,請繼續閱讀《如何挑選您的AI伺服器?(下)》。如果對於AI伺服器產品有任何疑問,技嘉將提供您最適宜的諮詢服務,歡迎您透過[email protected]電子信箱聯絡技嘉科技業務窗口,我們將協助您挑選適合的伺服器解決方案。

延伸閱讀:
《科技指南:深究伺服器處理器,Server運算效能的核心關鍵
《科技指南:如何挑選適當的伺服器冷卻方案?
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報