英韌科技創(chuàng)新方案:低功耗動態(tài)優(yōu)化助力AI存儲突破
進入到2025年,DeepSeek-R1 AI大模型的爆火,推動“存力接棒算力”趨勢加速?,F(xiàn)如今,支撐AI“存力”的基礎設施的存儲正面臨新的挑戰(zhàn)和機遇,需要更高的性能、更低的延遲及更高效的能耗管理,以滿足AI數(shù)據(jù)中心對快速數(shù)據(jù)訪問和處理的需求。
與此同時,能耗問題也成為數(shù)據(jù)中心的一大痛點。根據(jù)國際能源署的預測,到2026年,數(shù)據(jù)中心的能耗可能超過1,000TWh(太瓦時),這大約相當于日本全年的電力消耗量,而該數(shù)字2022年僅為460TWh。在此背景下,如何讓數(shù)據(jù)搬移、數(shù)據(jù)分享更順暢,從而進一步助力數(shù)據(jù)中心降低能耗,正成為存儲企業(yè)聚焦的重點。
英韌科技股份有限公司創(chuàng)始人、董事長吳子寧
在3月27日的2025中國IC領袖峰會上,英韌科技股份有限公司創(chuàng)始人、董事長吳子寧圍繞“AI時代下的數(shù)據(jù)存儲創(chuàng)新與挑戰(zhàn)”的主題,分享了英韌科技“如何通過低功耗模式和智能化調度芯片模塊,幫助數(shù)據(jù)中心實現(xiàn)系統(tǒng)功耗的動態(tài)優(yōu)化”。
存儲是數(shù)字經(jīng)濟時代的基石
回顧20世紀30-40年代的IT時代,IT信息產(chǎn)業(yè)大約每10-15年就會經(jīng)歷一次重大的飛躍性變化。在1990-2000年的PC時代,英特爾是當時的引領者。隨后,手機時代取代了PC時代,高通成為新的引領者。在過去的10年里,英偉達憑借其卓越的GPU技術,成為技術和市場的引領者。
隨著數(shù)據(jù)處理技術和CPU/GPU技術的發(fā)展,數(shù)據(jù)量也呈現(xiàn)出指數(shù)型增長。從2010年到2028年,全球數(shù)據(jù)量從1.2ZB增長到384ZB,年化增長率高達40%,即每兩年翻一番。這一數(shù)據(jù)增長趨勢為存儲市場帶來了巨大的機遇。
現(xiàn)如今,數(shù)據(jù)成為了數(shù)字經(jīng)濟的基礎,GPU、CPU等則是將數(shù)據(jù)轉化為經(jīng)濟價值和產(chǎn)業(yè)價值的關鍵工具。在AI數(shù)據(jù)中心的發(fā)展中,雖然英偉達、GPU一直以來都備受關注,但信息系統(tǒng)實際上由計算、存儲和網(wǎng)絡三大支柱產(chǎn)業(yè)支撐。
計算方面,CPU和GPU負責處理數(shù)據(jù),使各種軟件能夠運行;存儲方面,因為數(shù)據(jù)每兩年翻一番,無論是在數(shù)據(jù)處理過程中,還是在最初采集的數(shù)據(jù)階段,產(chǎn)生的數(shù)據(jù)都需要有被存儲,因此存儲產(chǎn)業(yè)也在不斷演進,以支持數(shù)據(jù)處理和傳輸?shù)男枨螅痪W(wǎng)絡方面,則是將數(shù)據(jù)從采集地或存儲地傳輸?shù)接嬎銌卧?,從而實現(xiàn)數(shù)據(jù)的價值。
在吳子寧看來,在信息產(chǎn)業(yè)的三大支柱(計算、存儲和網(wǎng)絡)中,各環(huán)節(jié)的發(fā)展必須協(xié)同共進,不能有短板。但當前CPU每秒可處理60GB以上數(shù)據(jù),GPU處理能力更是達到每秒數(shù)TB,而網(wǎng)絡和存儲的處理能力仍停留在十數(shù)GB級別,這使得存儲成為限制系統(tǒng)性能的瓶頸。
以數(shù)據(jù)中心為例,機柜內部,每個服務器通常配備20多塊存儲硬盤,這些硬盤正是英韌科技關注的重點。吳子寧介紹說,在早期,數(shù)據(jù)中心主要使用機械硬盤(HDD),HDD通過馬達轉動和磁頭讀取數(shù)據(jù),但機械部件的存在導致可靠性較低、功耗較高且速度較慢。
自2010年起,固態(tài)硬盤(SSD)逐漸嶄露頭角,開始取代HDD在數(shù)據(jù)中心的地位。機械硬盤的使用量逐年減少,SSD的使用量則逐年增加。典型的SSD主要由閃存顆粒、主控芯片和內存DRAM組成,與HDD相比,SSD不僅去除了機械部件,提高了可靠性和速度,還降低了功耗,這些特征驅使SSD成為數(shù)據(jù)中心存儲設備的更優(yōu)選擇。
與個人SSD相比,企業(yè)級SSD在復雜性上有了顯著提升。這不僅體現(xiàn)在更多的閃存顆粒上,還體現(xiàn)在對每個存儲單元存儲更多比特的需求上。在過去十幾年里,數(shù)據(jù)中心的存儲技術經(jīng)歷了顯著的演變。從早期每個單元存儲一個比特的SLC(單層單元)技術,發(fā)展到如今每個單元能夠存儲16個比特的QLC(四層單元)技術。這種技術進步使得存儲密度大幅提升,但同時也帶來了新的挑戰(zhàn)。隨著存儲密度的增加,每個比特所占的空間被壓縮,數(shù)據(jù)出錯的概率也隨之上升,這對企業(yè)級SSD的應用提出了更高的要求。
因為企業(yè)級SSD不僅要具備高壽命和高性能,還必須確保數(shù)據(jù)存儲的絕對可靠性,所以它不能出現(xiàn)任何錯誤。然而,隨著存儲介質被不斷壓縮,要在提升存儲密度的同時保持甚至提高速度和可靠性,變得愈發(fā)困難。存儲容量的增大不僅意味著更多的閃存顆粒,還意味著更高的出錯概率,這需要主控芯片和固件代碼來解決。為了應對這些挑戰(zhàn),主控芯片和固件代碼需要具備超前糾錯能力、靈活的數(shù)據(jù)處理能力,并且需要與閃存顆粒廠商緊密合作,以確保每一代產(chǎn)品都能提供更出色的糾錯能力和性能表現(xiàn)。
在數(shù)據(jù)中心服務器使用的企業(yè)級SSD中,英韌科技的主控芯片(上圖左邊的主控芯片)起到了至關重要的作用。“通過主控芯片和其上運行的固件代碼,我們一方面與主機CPU/GPU直接通信,通過PCIe接口控制閃存單元和內存DRAM。”吳子寧介紹道。
企業(yè)級SSD具有較高的復雜性,這主要源于其大容量需求,需要配備更多的閃存顆粒。同時,為了滿足數(shù)據(jù)中心對數(shù)據(jù)一致性和可靠性的嚴格要求,還增加了“掉電保護”功能的電容和電路。無論是復雜的閃存顆粒管理,還是掉電保護機制的運行,這些均由存儲主控芯片控制??傊?,主控芯片不僅決定了SSD的性能穩(wěn)定性,還影響著其使用壽命和可靠性,確保在7×24小時不間斷的應用場景中,數(shù)據(jù)能夠隨時被調用。
英韌科技作為一家自研主控芯片的公司,要在市場上不斷迭代,緊跟GPU/CPU的發(fā)展,面臨著諸多挑戰(zhàn)。吳子寧強調說:“我們需要掌握并不斷迭代核心算法,提前布局新技術,同時確保每次研發(fā)和流片都能一次成功。這不僅需要長期耐心的投資,還需要堅定的執(zhí)行力。”
AI應用成為SSD的市場和技術的驅動力
過去幾年,除了傳統(tǒng)的數(shù)據(jù)中心和云計算,AI的落地也推動了數(shù)據(jù)中心的進一步發(fā)展。AI行業(yè)的發(fā)展不僅推動了數(shù)據(jù)中心的建設,還對數(shù)據(jù)中心的軟硬件應用提出了新的要求。預計到2028年,中國AI大規(guī)模市場的應用規(guī)模將達到1,700億元,其中不僅包括軟件應用,還有對硬件提出的許多新需求。
AI應用和大模型的落地需要計算、存儲和網(wǎng)絡的同步演進。以英偉達為例,其產(chǎn)品路線圖顯示,英偉達每年都會推出新產(chǎn)品,推理和計算能力每年翻番。與此同時,DRAM等內存技術也在指數(shù)級增長,以跟上英偉達的速度。在存儲方面,SSD接口速度和閃存技術也在不斷演進。今年第五代PCIe開始規(guī)模商用,明年可能會推出第六代PCIe。
同時,AI對存儲也提出了新的要求,尤其是在容量方面。傳統(tǒng)云計算對單盤SSD的容量需求通常為4TB或8TB,一般使用TLC閃存顆粒。然而,AI應用對數(shù)據(jù)中心的存儲需求更高,通常需要64TB的SSD。
為什么AI數(shù)據(jù)中心需要這么大容量的存儲呢?上面這張機柜布局圖給出了答案。圖中一排有10個機柜,左右各4個放置英偉達GPU服務器,中間2個分別用于網(wǎng)絡交換和存儲。在有限的機柜空間內存放更多數(shù)據(jù),是當前面臨的一大挑戰(zhàn)。數(shù)據(jù)集中存儲不僅節(jié)約空間,還能減少機柜數(shù)量,進而降低電力消耗和網(wǎng)絡接口需求,因此大容量存儲的需求急劇增加。
目前,一個機柜的存儲容量已達十幾個PB,不久以后有望實現(xiàn)100PB。此外,AI處理對存儲吞吐量要求極高,無論是生成圖片、視頻還是對話應答,都需要實時響應。與傳統(tǒng)云計算不同,AI應用涉及大量隨機讀取,如調用模型數(shù)據(jù)和用戶數(shù)據(jù)庫。而寫入操作主要是Checkpoint(檢查點),即在訓練或生成過程中保存中間結果,防止意外事故或掉電。Checkpoint寫入量不大,但要求順序寫入且性能穩(wěn)定,避免因寫入失敗導致數(shù)據(jù)阻塞。
英韌科技創(chuàng)新方案:讓數(shù)據(jù)搬移和分享更順暢
針對這些新的存儲需求,英韌科技也做了全面的技術研究,提出了新的解決方案。根據(jù)吳子寧的介紹,首先,公司利用這幾年業(yè)界提出的一些新的接口和概念,使數(shù)據(jù)搬移和與CPU/GPU的數(shù)據(jù)分享更加順暢。
他介紹了兩種主要的優(yōu)化數(shù)據(jù)交互流程的方案:一種是英偉達提出的GPU-Direct數(shù)據(jù)交互方式;另一種是CXL(Compute Express Link)技術。
- GPU-Direct優(yōu)化了傳統(tǒng)的數(shù)據(jù)交互流程。以往,GPU從存儲單元獲取數(shù)據(jù)時,需通過CPU和PCIe交換卡,經(jīng)多次數(shù)據(jù)搬移,導致功耗高、延時長。GPU-Direct讓GPU直接從存儲單元獲取數(shù)據(jù),減少中間環(huán)節(jié),降低功耗和延時,提升數(shù)據(jù)傳輸效率。
- CXL是近幾年新興的技術,它將CPU的內存總線與外部的IO總線有機結合,統(tǒng)一了兩者。通過CXL技術,CPU能夠直接從內部調用外部較遠層次的資源,將其納入自身的資源池。
一般來說,CXL設備有三種形態(tài):第一種是通過CXL,CPU可以與網(wǎng)卡等加速器共享緩沖區(qū);第二種是通過CXL協(xié)議,CPU和GPU能夠共享內存池;第三種是通過CXL擴展內存,可使服務器容量擴展至現(xiàn)有容量的10倍以上(這也是英韌科技目前在聚焦的方案)。
CXL擴展內存指的是在存儲領域,可以利用“內存擴展”的性能優(yōu)勢,將存儲單元掛接到CXL總線,使CPU能夠更便捷地調取數(shù)據(jù)。另外,還可以把數(shù)據(jù)直接調到應用單元、直接調到GPU節(jié)省能耗、節(jié)約鏈路的延時。除此之外,英韌科技也在利用新的存儲介質做創(chuàng)新產(chǎn)品。
傳統(tǒng)存儲介質受物理限制,在成本和效能間存在權衡。HBM和DDR的容量有限,而Flash雖便宜且容量大,但速度較慢。目前,業(yè)界正在研究介于兩者之間的新型存儲介質,如靠近DRAM的RAM、PCM、MRAM,以及靠近Flash的Low Latency Flash,后者利用成熟的Flash工藝,可以把性能提升至原來的10倍。
結合超低延時Flash和CXL接口,可創(chuàng)造出創(chuàng)新產(chǎn)品。如通過CXL連接DRAM擴展存儲,形成共享資源池,提高不同CPU/GPU間數(shù)據(jù)調度效率;或在CXL主控后連接低延時Flash,大幅擴展內存可訪問空間。
新型存儲介質為克服AI帶來的挑戰(zhàn)提供了新思路。在功耗優(yōu)化方面,英韌科技利用低功耗模式和智能調度芯片模塊,主動進行流量控制和監(jiān)控,實現(xiàn)系統(tǒng)功耗的動態(tài)調整,使功耗根據(jù)應用需求達到最優(yōu)。
據(jù)了解,通過智能功耗調整技術,英韌科技的主控芯片功耗降低了近30%,整盤功耗降低了10%。在AI數(shù)據(jù)中心耗電量巨大的背景下,這樣的功耗優(yōu)化顯得尤為重要。
小結:
展望未來,AI應用場景正驅動存儲和IT行業(yè)重塑發(fā)展。英韌科技憑借多年技術積累,聚焦高密度、高速度、低延遲和低功耗等關鍵技術,充分利用新型存儲介質和接口,通過創(chuàng)新的主控架構和智能化數(shù)據(jù)分層,使內存、閃存及新型非易失性介質協(xié)同工作,為系統(tǒng)設計人員提供便利。
最后,吳子寧強調說:“我們將持續(xù)創(chuàng)新,不斷演進主控芯片,為AI和云計算提供安全可靠的存儲解決方案。”