英偉達在其數據中心架構的設計上采取了一項顛覆性措施——摒棄部分光模塊,轉而采用銅纜進行內部互聯,這到底是怎么回事?看到網上有人說搞了幾十年的光進銅退,現在要反著來嗎?那么光模塊數量的需求會減少嗎?根據其描述,基于最新一代 NVLink Switch 芯片,GB200 可實現576顆 Blackwell GPU 組成計算集群,超越上一代 GH200 支持的 256 顆集群規模。在GB200方案中,其單臺機架中配置了36顆GRACE CPU和72顆Blackwell GPU,通過銅纜的方案將該72顆 Blackwell GPU 進行互聯。
GB200 單機柜方案中采用銅纜進行互聯
針對網上狼來了的看法,不禁用兩個但是但是,上一代GH200機柜內部不也是用的銅纜而非光模塊么,所以GB200單機柜內部采用NVLink5.0銅纜電連接并不稀奇。綜合英偉達的方案,我們分析:小于72個GPU以內的小型集群,英偉達可以全部采用銅纜進行內部互聯,無需使用光模塊。但是當GPU數量上升至72-576個區間時,也就是跨機柜場景(單機內部還是銅互聯),必須大量使用光模塊了,無論是800G還是未來的1.6T。對于超過576個GPU的集群的外部互聯,第三層網絡采用InfiniBand技術。由于NVLink5.0雙向帶寬已提升至1800GB,對應單向帶寬為900GB,若采用800G光模塊傳輸+2層網絡架構,(900GB*8/800Gb)*2=18個,即GB200與800G光模塊的配比關系為1:18;如果采用1.6T光模塊,配比關系為1:9.
從成本角度來看,一個NVL72單機柜需配備5000個200G速率的銅纜,200G速率的單價為45美金,總計22萬美金。再把銅纜中間的線材、兩端的連接器(每個價格15美元)以及相對成本較低的Cage部件都包含進來,相比光模塊的成本還是劃算的多。不過,現階段采用的是200G銅纜互聯,后續可能計劃升級至400G,但隨著速率的提升,銅纜的傳輸距離是快速變短的,例如200G銅纜支持7米,400G銅纜為2.5米,800G銅纜則限于1米。因此即使是單機架內的互聯,相信最終還是光模塊的天下。分析認為在NVLINK速率提升至7.2TB之前的數年內,銅纜仍是一個可行的替代方案。在市場上,前一代GH200的銷售業績不盡如人意,市場份額僅為5%,主要客戶是AWS。貌似英偉達對新一代GB200產品,預期還是比較樂觀的:據說AWS已預訂2萬張GB200芯片,谷歌、微軟等巨頭也有意向下單。若定價策略得當,GB200的市場滲透率有可能達到20-40%,甚至更高也不是不可能的。
Lightning 數據線 編織蘋果紅色不彈窗
線纜小編
9.90購買
數據中心高速銅纜未來可期
如上提到200G銅纜支持7米,400G銅纜為2.5米,800G銅纜則限于1米;由于機柜功耗的限制,服務器到交換機的連接距離很多場景下往往需要達到甚至超過7m,所以早期25G服務器到交換機連接的方式以有源光纜為主,而直連銅纜方案,由于理論上只能支持到5m的應用,使得其應用大為受限。在保證低成本的前提下,如何延長銅纜連接距離,有效的方式有兩種:一種是基于信號時鐘恢復的Retimer方案,一種是基于信號放大的Redriver方案,根據信號傳輸的特點,近幾年芯片公司都有結合硬件對軟件進行了優化,包括成本包括線纜材料選擇包括接口方案等,外部線目前的技術硬件前提下,IEEE802.3cd要求50G PAM4調制下的線纜滿足在13.28GHz下的SDD21小于17dB,而實際大規模生產出來的線纜,超過2.8m長的距離,已經超出這個標準。另一方面,雖然50G PAM4調制下的基準頻率與25G NRZ相差不大,但對于信號輸出強度更加敏感,中高頻的衰減相比于25G NRZ帶來的誤碼代價更高,因此在50G PAM4的應用和設計上我們傾向于更大的冗余度,現有技術前提下,銅線的使用長度仍然將限制銅纜的未來增長,當然主要說的是外部數據線,設備和設備連接的部分,所以我們說的“光退銅進”應該說的主要是外部線系列,而對應內部線,銅纜將會持續很長時間,目前一種將多個物理通道合并為一個高速數據流的接口技術高速接口的Mini Cool Edge IO(MCIO)嶄露頭角,其全稱多通道輸入/輸出,根據應用需求,MCIO接口分為多種類型,其中MCIO 4I和MCIO 8I是最常見的兩種。MCIO 4I將四個物理通道合并為一個高速數據流,實現了數據的并行傳輸,有效提升了數據傳輸的效率和實時性。它支持多種數據傳輸協議,如PCIe、CXL等,可以滿足不同設備和應用的需求。MCIO 4I在服務器、數據中心等設施中得到了廣泛應用,為高性能計算和數據中心的穩定運行提供了強有力的支持。相對于MCIO 4I,MCIO 8I將八個物理通道合并為一個高速數據流,進一步提高了數據的傳輸速率和吞吐量。它具有更高的帶寬和更低的延遲,可以滿足更為苛刻的數據傳輸需求。MCIO 8I主要應用于需要更高數據傳輸速率和更大吞吐量的應用場景,如超級計算、云計算等;MCIO目前階段可以說是在適當的時間點出現的適當的數據接口,技術性能沒有問題的大前提下.
對市場的看法
短期效應,光模塊需求減少,高速線需求劇增,由于GB200方案通過改進的NVSwitch架構和銅纜互聯大幅提升了單機柜內部的算力密度,原本需要更大規模集群才能達到的計算需求現在僅需較少數量的機柜就能實現,這意味著在一定規模的集群內部,光模塊的使用數量將顯著下降,特別是在中小規模的集群搭建中,光模塊的需求被大量取代。
長期趨勢,盡管在單機柜內部采用銅纜互聯,但隨著數據中心規模不斷擴大,特別是當需求超出單機柜范圍時,機柜間的互聯仍需依賴光模塊,而且隨著對更大規模算力集群的需求增加,光模塊的使用仍然是必不可少的,只是需求層次發生了變化,即從集群內部轉向集群間互聯。此次的G200設計銅纜,但并不意味著“銅”的持續增長,在數據中心標準化快速發展,數據中心硬件設計更加極致化的今天,“光”與“銅”需要結合自身的優勢,分別承擔好自己的“角色”,更好的為數據中心網絡服務。
技術迭代與需求匹配:隨著技術發展和需求變化,當銅纜技術遇到IO瓶頸或其他限制時,光模塊很可能會再度成為最優解,就像上面說的當銅纜的傳輸距離已經不足以支持單機柜內的互聯了。