Tech-Guide

如何挑選您的AI伺服器?(下)記憶體、儲存裝置和其他元件

by GIGABYTE
人工智慧盛行的當下,各種組織積極導入「AI伺服器」。技嘉科技最新發表的《科技指南》:「如何挑選您的AI伺服器?」,文章下半篇將介紹CPU和GPU以外的六個關鍵零組件。挑選合適元件可讓AI伺服器的性能達到顛峰,勝任人工智慧的相關工作。
本篇《科技指南》的上半篇,著重於人工智慧(AI)伺服器的中央處理器(CPU)圖形處理器(GPU)該如何挑選。除了處理器以外,還有其他六個關鍵零組件,分別是記憶體、儲存裝置、電源供應器、溫控裝置、擴充插槽和I/O連接埠,都會影響伺服器的整體性能。使用者應當挑選最合適的元件,才能建造超級電腦等級的AI運算平台。

了解更多:
《專為開發人工智慧所設計的技嘉科技AI伺服器產品
《進一步認識技嘉科技高效能運算伺服器
如何挑選適當的記憶體?
記憶體俗稱RAM,功能是暫存伺服器正在處理的程式與數據。先進的運算晶片處理資料極為快速,因此記憶體也要能夠跟上,提供足夠的容量和吞吐量,協助處理器完成運算作業。

目前市面上最先進的記憶體產品是DDR5 SDRAM,即第五代雙倍資料率同步動態隨機存取記憶體,簡稱DDR5。DDR5的數據傳輸速率、頻寬和容量,皆超過前一代產品,功耗也相對比較低,因此這是AI伺服器最適合採用的記憶體產品。

一台伺服器會有許多記憶體插槽,也就是DIMM插槽,使用者應該評估AI工作的實際需求,確保插槽數量足夠。舉例來說,技嘉科技G493-ZB3是專為人工智慧訓練推論設計的G系列GPU協同運算伺服器,DIMM插槽數量高達四十八條。DIMM本身也會採用獨特設計,優化傳輸速率、容量和穩定性;例如技嘉伺服器所支援的RDIMM(帶寄存器雙列直插式記憶體模組)和LRDIMM(低負載雙列直插式記憶體模組),就是這類型的先進DIMM產品。

伺服器處理器也有可能採取特殊設計,改善整體記憶體使用狀況。技嘉推出的AI訓練超算平台G593-SD0,支援Intel® Xeon® CPU Max 系列處理器,CPU內部封裝四顆高頻寬記憶體(HBM),可提升高效能運算(HPC)和AI工作負載的處理速度。AMD推出的XDNA™自適應資料流架構,使用於部分的GPU產品,特色是節點間傳輸資訊時不需仰賴外部記憶體,有助於提升運算速度和降低延遲,非常適合AI推論使用。
如何挑選適當的儲存裝置?
儲存裝置負責保管伺服器的所有程式與數據,挑選時要考慮三個要素:速度(即數據傳輸速率與頻寬),儲存容量,還有與資料中心「第三大支柱」DPU(資料處理器)的相容性。

首先要說明的是,固態硬碟(SSD)的性能遠勝過傳統的HDD硬碟,因此絕大多數的AI伺服器都採用SSD。SSD傳輸介面分為SATA、SAS和NVMe,其中SATA歷史最悠久,SAS比較先進,目前最頂尖的傳輸介面是NVMe,只能搭配SSD使用。NVMe利用PCIe提供的高頻寬改善硬碟讀寫速度,有效提升數據傳輸速率,並且降低延遲。AI伺服器最理想的儲存裝置,就是採用最新Gen5 NVMe傳輸介面的固態硬碟。

第二個考量點是容量。伺服器的儲存裝置分為兩種,分別是體積和容量較小的M.2,及大容量的企業級2.5吋規格。技嘉AI伺服器大多採用2.5吋裝置,並且提供「熱插拔」功能,意味著不用關機就可以拔出或插入硬碟,增進使用上的便利性。技嘉部分伺服器可同時支援2.5吋和M.2這兩種規格的儲存裝置。

值得留意的是,技嘉推出的幾款AI伺服器產品,例如支援NVIDIA Grace Hopper™超級晶片的H223-V10 H系列高密度伺服器,可透過在擴充插槽安裝NVIDIA BlueField-3 DPU資料處理器,額外支援更多的2.5吋熱插拔Gen5 NVMe固態硬碟。使用者挑選儲存裝置時,應考量與資料處理器的相容性,才能達到運算與儲存資源之間的最佳平衡。
記憶體和儲存裝置的功能相似,但不相同,考量點也有共通之處,可參考這張圖表來做抉擇,建造符合個別需求的人工智慧超算平台。
如何挑選適當的電源供應器?
電源供應器(PSU)的功能,是確保供電穩定性,讓伺服器能順暢運作。AI工作很消耗運算資源,也很消耗能源,因此挑選PSU的準則,就是追求最高的能源使用效率,並且留意PSU的冗餘設計。

檢查PSU能源使用效率的公認標準,是80 PLUS規範的認證,其中又分六個等級,最高的Titanium(鈦金級)PSU電力轉換效率落在90%到96%之間(實際測試會依照電力負載做進一步分類,以上數據代表測試結果的最大間距),次高的Platinum(白金級)PSU電力轉換效率則落在89%到94%之間。技嘉絕大多數的AI伺服器產品,都採用80 PLUS Titanium認證的電源供應器。

冗餘設計之所以重要,因為伺服器必須隨時維持正常運行,儘管部分PSU故障,也不容許發生當機、關機等狀況。技嘉全系列AI伺服器皆採取冗餘設計,有些機種就算有一半的PSU故障,還能保持百分之百的工作表現。
如何挑選適當的溫控裝置?
可想而知,伺服器元件會產生廢熱,因此要導入先進的溫控裝置,才能釋放運算晶片的最大效能,並且不會因為散熱而消耗太多電力,間接增加伺服器的碳足跡。

最常見的降溫方法,是透過冷空氣幫元件散熱,伺服器內安裝許多風扇,將廢熱排放到機殼以外。技嘉全系列AI伺服器產品皆採用獨家設計,透過模擬軟體評估機身內的氣流方向,然後微調機械架構,優化冷卻效益,並使用強力風扇與高效能散熱片增加零組件和冷空氣之間的接觸面積。機殼內的感應器則隨時監控元件溫度,若偵測到異常高溫,智慧型溫控程式將自動調整風扇速度,確保散熱。風扇設定亦可經由手動調整,協助使用者達到溫控與能源效率之間的平衡點。

部分的技嘉AI伺服器產品,例如支援NVIDIA HGX™ H100 4-GPU運算模組的G363-SR0 GPU協同運算伺服器,可結合液體冷卻方案使用,概念是將冷卻液導入機殼內的密封管線,透過「冷板」吸收零組件的廢熱,排放到伺服器外。採用液冷方案有助於釋放運算晶片的最大效能,同時可以改善資料中心的電力使用效率(PUE)

液體冷卻的進階版,就是浸沒式冷卻(immersion cooling),此套方案將整台伺服器浸泡在無毒性、不導電的冷卻液當中,藉由冷卻液循環進行散熱。技嘉提供單相與兩相浸沒式冷卻解決方案,並且打造單相浸沒式液冷的完整解決方案,包括專為EIA規格伺服器所設計的A1P0-EB0,和專為OCP規格伺服器所設計的A1O3-CC0。技嘉AI伺服器產品可結合浸沒式液冷技術使用,提升晶片的TDP和整體機房的PUE。

了解更多:
歡迎瀏覽技嘉科技先進冷卻解決方案專屬網站
《科技指南:如何挑選適當的伺服器冷卻方案?
以上這些簡單的原則,可協助使用者挑選適合AI伺服器的電源供應器、溫控裝置、擴充插槽和I/O連接埠。
如何挑選適當的擴充插槽?
所謂的可擴充性(scalability),就是伺服器長期使用下來,必須承擔越來越具挑戰性的運算工作,因此AI伺服器應當具備充足的擴充插槽,便於日後添加運算資源。

所要注意的兩個要點,第一個是要有配備PCIe Gen5規格的擴充插槽,數量越多越好,因為PCIe 5.0的頻寬與傳輸速率分別是128GB/s和32GT/s,為PCIe 4.0的兩倍快。只要準備好足夠的插槽數量,便可輕鬆添加新的GPU加速器、RAID磁碟陣列卡,或是先前提到的DPU資料處理器,協助分擔資料傳輸、壓縮、儲存、加密與分析工作,提升伺服器的運算效能。

第二,要留意擴充插槽的實際尺寸。業界常見的英文縮寫,例如FHFL(全長全高)和HHHL(半長半高,相當於LP low-profile),指的是插槽容納的擴充卡的實際大小。小尺寸的擴充卡大多能安裝在較大的插槽內,但較大的卡當然塞不進較小的插槽,因此擴充插槽在尺寸上的抉擇,等於是通用性和運算密度之間的取捨。部分技嘉伺服器也有提供OCP夾層卡( mezzanine)插槽的選項,可搭配OCP規格的網路轉接卡或儲存擴充卡使用,增加使用者的便利性及可挑選的擴充卡選項。
如何挑選適當的I/O連接埠?
AI伺服器最後需要考量的元件,就是連接外部裝置的I/O連接埠,用來與顯示器、交換器和其他伺服器連線。挑選原則依然是盡量採用吞吐量高的先進傳輸介面,例如數據傳輸速率達1 Gb/s,甚至10 Gb/s的區域網路連接埠(LAN port),USB 3.0或更高規格(例如USB 3.2)的USB 連接埠,等等。

使用者也可以留意,伺服器連接埠是否包括專屬管理連接埠,也就是MLAN?MLAN直接通往伺服器主機板上的基板管理控制器(BMC),提供便利又安全的管理渠道。選好以上這些關鍵零組件之後,AI伺服器的架設就趨近完成,很快就能開始處理複雜的AI工作負載!

看完本篇科技指南,希望大家對於如何挑選人工智慧伺服器的記憶體、儲存裝置和其他零組件,有更深入的認識。如果對於AI伺服器產品有任何疑問,技嘉將提供您最適宜的諮詢服務,歡迎您透過[email protected]電子信箱聯絡技嘉科技業務窗口,我們將協助您挑選適合的伺服器解決方案。

延伸閱讀:
《科技指南:從「訓練」到「推論」,一窺生成式AI的神奇運作原理
您真的懂AI嗎?快來看能帶您快速跟上人工智慧趨勢的十大問答!
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報