千卡損耗不超5% 揭秘百度“萬源”OS攻克一云多芯難題的技術硬核
從技術、功能、性能、產品、平臺,到系統定位、目標受眾,再到商業和生態打造,萬源”已顛覆傳統云計算,并為開發者們創造更大的智能底座。
2024-04-25 10:22:40
來源:通信世界全媒體 通信世界全媒體??

通信世界網消息(CWW)近年來,無論是Client端PC、手機,還是Server端DC,都隨著數據的爆炸而快速變化。然而,在這當中,芯片、OS的核心基座作用卻從未改變。從PC時代的WinTel聯盟,到移動互聯時代的Android、高通,從傳統DC的x86 、Linux,到云計算時代的Arm、云OS,二者相互依賴或同時升級亦或交叉演進,如影隨形。

今天,隨著AI大模型的到來,當GPU、NPU,尤其是GPU逐漸占據上風并挑戰了CPU的霸主存在時,全新OS的出現成為必需又恰逢其時。4月16日,在Create 2024 百度AI開發者大會上,百度集團執行副總裁、百度智能云事業群總裁沈抖正式發布新一代智能計算操作系統——萬源。

“傳統的云計算系統依然重要,但不再是主角,我們需要一個全新的操作系統,對新的計算平臺,也就是智能計算做好抽象和封裝,重新定義人機交互,為開發者提供更簡單、更流暢的開發體驗?!鄙蚨度缡钦f。

(百度集團執行副總裁、百度智能云事業群總裁沈抖)

在沈抖看來,隨著大模型技術的不斷演進,通過自然語言進行編程正在成為現實。編程將不再面向過程或者面向對象,而是面向需求;編程的過程將成為開發者表達愿望的過程,并為操作系統帶來革命性的變化。在操作系統的內核中,底層硬件從以CPU算力為主變成以GPU算力為主,并且新增了被大模型壓縮的世界知識。操作系統管理的對象發生了本質的變化,從管理進程、管理微服務,進化為管理智能。

確實,百度對“萬源”定位是清晰精準的,底層對象是GPU,產品內核在資源管理上從管理進程、管理微服務,變成了管理智能,新增了被大模型壓縮的世界知識,部署在服務端,重新定義人機交互,面向開發者提供更簡便流暢的環境和接口。

“萬源”極其重視開發者生態的培育,百度集團副總裁侯震宇在接受媒體采訪時解釋說到,操作系統的成功不只是技術上的成功,十幾年前在智能手機剛出來的時候,不只有安卓,大批的Symbian OS、BlackBerry OS,甚至是Windows 移動端OS出現,但最后只有Android贏得勝利,“得開發者得天下”。

(百度集團副總裁侯震宇)

而無論百度如何定義自已的“萬源”,對底層資源的管理分配調度,還是對上層應用的完美支撐適配,以及生態的打造,歸根到底還得憑借強大的底層技術,才能支撐起全新的智能計算的“大廈”。

底座強則萬物孕育,花開葉茂。侯震宇帶我們一道,揭開了“萬源”的三層架構,以及“萬源”如何攻克“一云多芯”難題的背后技術硬核。

“萬源”三層架構

在了解“萬源”技術實力之前,我們有必要先來了解下它的三層架構。

據了解,百度智能云全新推出的“萬源”智能計算操作系統主要由Kernel(內核)、Shell(外殼)、Toolkit(工具)三層構成,底層屏蔽掉云原生系統與異構算力的復雜性,上層則為AI原生應用的敏捷開發提供支撐與保障。

(萬源架構圖)

首先,在內核層,在算力資源管理方面,百度百舸·AI異構計算平臺針對大模型訓練、推理等任務,對智算集群的設計、調度、容錯等環節進行了專項優化。目前,百舸能夠實現萬卡集群上的模型有效訓練時長占比超過98.8%,線性加速比、帶寬有效性分別高達95%,算力效能業界領先。

此外,百舸還兼容昆侖芯、昇騰、海光DCU、英偉達、英特爾等國內外主流AI芯片,支持用戶以最小代價完成算力適配。

萬源內核中的另一個重要組成部分是大模型。大模型能夠將巨量的世界知識進行高效壓縮,并將自然語言的理解、生成、邏輯、記憶能力進行封裝。目前,萬源內核中既包含了業界領先的ERNIE 4.0、ERNIE 3.5大語言模型,也包括ERNIE Speed/Lite/Tiny等輕量級模型、文心視覺大模型和各具特色的第三方大模型。它們壓縮并封裝了龐大的世界知識,是更上層運行簡單接口和 AI 原生應用的能力源泉。

在內核層之上是Shell層,通過百度智能云千帆ModelBuilder解決內核中模型的管理、調度、二次開發等問題,屏蔽掉模型開發的復雜性,幫助更多人只投入少量的數據、資源和精力,就能快速精調出適合自己業務的模型。同時,在實際應用中,千帆ModelBuidler提供的模型路由服務,能夠自動為不同難度的任務選擇合適參數規模的模型,給出平衡效果與成本的最優模型組合。經測算,在模型效果基本持平的情況下,模型路由平均降低推理成本多達30%!

據了解,千帆大模型平臺不僅支持百度自研的文心大模型系列,而且支持BLOOM、Llama2等60+國內外第三方大模型的開發及應用,模型數量國內第一。

在Shell層之上,千帆AppBuilder和AgentBuilder共同構成了工具層,為開發者提供強大的AI原生應用開發能力。尤其是千帆AppBuilder提供的工作流編排功能,支持開發者使用預置的模板和組件,輕松定制自己的業務流程,還能夠集成、擴建自己的特色組件,在不同節點上選用適合的模型,通過靈活的編排實現業務邏輯。

目前,千帆大模型平臺已經服務了 8.5 萬家企業客戶,并累計精調超過 1.4 萬個模型。AI 原生應用開發平臺千帆 AppBuilder 全面開放服務,讓人人都能自己開發。目前已經有 8100 家伙伴通過該平臺開發 AI 原生應用。

在千帆AppBuilder上開發AI原生應用的過程中,還可以直接調用通過千帆ModelBuilder精調過的模型,讓整個開發過程變得極為流暢和便捷。在應用開發完成后,可以一鍵發布到百度搜索、微信公眾號等平臺,也可以通過API或SDK的方式直接集成到用戶自己的系統中,真正做到極速開發、輕松上市。

目前,Toolkit層工具組件擴增至54個,包括數十個大模型能力組件、AI能力組件以及百度自有的搜索組件等,為開發者提供了更加豐富、便捷的開發工具。

“我們把最底層的百舸大異構的集群,在中間層內嵌了百度文心一言大模型,當然也支持包括國內外其他78+大模型的千帆大模型平臺,特別是千帆的ModelBulider,共同構成了一個內核,由百舸、千帆發展成整個萬源操作系統?!焙钫鹩钫f道,它并不是說一蹴而就,而是我們過去這么多年工作以及多年幫助客戶解決問題積累出來的一個大型的操作系統,萬源首先是面向公有云環境,把所有的東西幫助大家“屏蔽”掉,當硬件和模型快速發展時,我們有能力給開發者提供一個更加簡潔、方便的開發工具、開發語言,所以這時候“萬源”也就應運而生了。

侯震宇表示,希望在萬源的“黑土地”上能夠長出來更多的應用,百度會自己做一些應用,但不會和真正的、潛在的合作伙伴以及潛在客戶去搶應用。就像蘋果,它會做一些它自己原生的應用,但它不會去跟其它家做競爭。

一云多芯 攻克極難攻堅的難題

在百度的解釋中,AI原生時代的全新操作系統,需要管理萬卡規模的集群,極致發揮CPU、GPU性能 ,高速互聯;需要強大的大模型(大語言模型、CV大模型)作為核心引擎;需要構建強大的大模型服務能力,并提供模型精調、評估、部署、服務的工具鏈;需要有好用的應用開發工具去做工作流編排、插件管理,簡化開發流程;同時保證安全和運維,要隱藏掉上一代云原生系統的復雜性,加速AI原生應用的爆發……

當下,全球芯片供應存在多種不確定性,導致多種算力芯片并存的格局。這對智算集群中模型推理和單一任務訓練提出了挑戰。侯震宇介紹,相比模型推理,“一云多芯”在模型訓練場景中是極難攻堅的難題,主要包含兩類細分場景:

一是智算集群中存在多個訓練任務,單一廠商芯片只服務單一任務;

二是在每個獨立的模型訓練任務中同時使用不同廠商芯片。這就需要解決不同廠商芯片算力均勻切分、芯片間通信效率優化等問題,難度極高。

image.png

(業界領先的單一任務一云多芯大模型訓練解決方案)

目前,百舸已經實現了單一訓練任務下不同廠商芯片的混合訓練,且百卡規模性能損失不超過3%,千卡規模性能損失不超過5%,業界領先。最大程度上屏蔽硬件之間差異,幫助用戶擺脫單一芯片的依賴,實現更優成本,打造更具彈性的供應鏈體系。

侯震宇分析說,“以CPU+GPU為代表的異構計算正在成為主流,但大模型場景的異構計算難度很高,不同的芯片之間很難互聯,且不同芯片間沒法在同一張網里面跑同一個任務”這是之前大家一貫的觀點。因為百度投入AI十幾年,我們的AI基礎設施積累的時間很長,所以在去年基本上就已經攻克了這個問題,在今天把它公布出來。

這里面涉及到多個層次的問題。

第一步,需要能夠讓不同的芯片自身跑起來,百舸AI異構計算平臺的線性加速比現在達到95%以上。這要歸功于百度智能云面向 AI 計算推出的 AI 加速套件「AIAK」,它的核心是網絡通信加速。AI、大模型能夠跑到芯片上基本都是一些算子,每家芯片廠商的算子實現,其實并不一樣,需要在整個框架層面上把底層通信和上層算子的優化實現拆開,這樣各家芯片針對算子進行優化,百度在把底下的通訊庫做好,不管什么樣的芯片首先都能夠跑在百度的加速庫上。

據了解,算子是指支持DNN模型訓練與推理的基本運算單元及組合,比如conv2d,matmul。深度模型由pytorch,TF等上層框架表達實現,一般人并不關心它們是如何由具體的硬件實現的。實際上,這些模型在硬件執行前首先經過圖級優化,分解為一個個算子。算子如何適配具體芯片的特點需要針對硬件特性仔細安排。對于AI芯片公司來說,其芯片都有自己的硬件架構和特性。因此為了讓DNN模型在自己芯片運行和發揮最佳性能,就需要定制自己的算子庫。

第二步,基于第一步,把不同的芯片都混合在同樣的一張算力網里面,跑在同一個模型訓練任務上。不同的芯片涉及不同的算力能力、性能,對通訊、存儲的要求以及最終的體驗都不一樣。百度在整個的底層的百舸加速庫上,又做了并行框架的實現。百度自研的自適應算法,可以根據當下整個網絡里面各種芯片及配比的不同,來自動實現TP(張量模型并行)、MP(模型并行)、PP(流水線并行)的不同的并行策略和參數設定。

侯震宇說到,這期間也遇到了一些非常細的和很難的技術問題。比如GPU卡間通信主要是用NVLink實現,但是卡出了機器之后走的RDMA網絡或者IB網絡。Nvidia GPU和百度昆侖芯,可以通過標準的網絡協議RDMA去實現?!暗恍┨厥獾男酒?,如昇騰把在網卡上實現的RDMA能力,集成到的芯片中,這就不是標準的網卡實現,我們會把這一層‘屏蔽’掉,采用把它復制到CPU,用CPU來做轉發的實現策略?!?/p>

“單個任務能夠用不同的芯片實現是一種非常難的技術,而這也是接下來多元芯片終將要面對的問題,我們已經先把這個問題解決掉了”。侯震宇補充說道。

簡單來說,百卡和千卡規模性能損失低,得益于百舸在存儲方面支持了高性能分布式存儲 PFS、以及萬卡級別的 RDMA 網絡,前者顯著提升訓練和推理過程中的 I/O 吞吐能力,后者有效降低網絡延遲。

破解技術難題,為開發者提供更簡單、更流暢的開發體驗等,是“萬源”獲得客戶青睞的一大主要原因。正如沈抖所說,從內核到Shell、再到應用開發工具,萬源已經實現了層與層的有機結合、端到端的效能優化。過去一年多,在內外部客戶的實際應用中,不斷打磨、持續完善,“萬源”,已經成為AI原生時代的智能計算操作系統,為用戶提供極簡的開發體驗、智能的系統內核,和高效的異構算力。

萬源的發布是一個起點。未來,百度智能云會進一步開放操作系統層面的生態合作。向上,開放更多的能力和接口,開發者可以非常簡單地開發應用。向左,企業可以用萬源做基礎、打造適合自己的垂直行業的操作系統。向右,可以把萬源直接部署在自己的智算中心,享受穩定、安全、高效的智能計算平臺。向下,適配更多的芯片,為開發者進一步隱去異構集群的復雜性,讓不同的芯片都能發揮最大的效能。

從技術、功能、性能、產品、平臺,到系統定位、目標受眾,再到商業和生態打造,萬源”已顛覆傳統云計算,并為開發者們創造更大的智能底座。

最新文章
關于我們

微信掃一掃,加關注

商務合作
  • QQ:61149512
国产精品第25页|欧美中文字幕在线一区|人人操人人摸97|超碰人人青青久久