通用大模型下,鍛造專屬生成式AI應用靠什么?
企業自身的個性化數據能夠差異化生成式AI應用,亞馬遜云科技依托Amazon Bedrock提供通過數據定制基礎模型的服務,支持三類模型定制方式:
2024-05-10 13:41:22
來源:丁科技網??

構建具有商業價值的生成式AI應用,并將它作為全新生產力,這是越來越多企業的通用選擇。不過,用來鍛造生成式AI應用的大模型是通用的,而生成式AI應用需要適合自身業務甚至是契合自身特點,簡單說,就是要“專門”和“專屬”。從“通用”到“專屬”的跨越,目前的最優解,仍在于利用好企業自身更具個性化的數據。就此,想要將生成式AI能力提供給每個人的亞馬遜云科技,除了提供豐富的模型能力之外,也提出“無數據,不模型”,意在助力更多企業構建全面的數據基座,通過充分發揮數據潛力,加速生成式AI技術落地,并更好地適應企業自身發展需要。前不久以“生成式AI時代的數據基座”為主題的溝通會上,亞馬遜云科技方面公開了相關領域的全新進展。

通過數據“定制”基礎模型

亞馬遜云科技大中華區產品部總經理陳曉建表示:“每個公司都能訪問相同的基礎模型,但那些能夠利用自己的數據構建具有真正商業價值的生成式人工智能應用的公司,將會是成功的公司?!?/p>

企業自身的個性化數據能夠差異化生成式AI應用,亞馬遜云科技依托Amazon Bedrock提供通過數據定制基礎模型的服務,支持三類模型定制方式:

一是檢索增強生成。企業可將自身的知識庫、數據庫等與生成式AI模型結合,在過程中實時檢索和利用企業內部相關數據,提高生成結果的準確性、一致性和信息量。該方式適合控制幻覺、用戶隱私數據保護、企業私域知識等應用場景。

二是微調。使用與目標任務相關的數據對模型進行進一步訓練,以提高其在特定任務上的性能。該方式適合角色理解、輸入理解、輸出格式控制等應用場景。

三是持續預訓練。企業利用內部文檔、客戶記錄等自身專有數據對模型進行持續預訓練。該方式門檻相對較高,成本較大,但可以得到一個企業自身定制的行業大模型,適合理解行業領域知識/術語、嚴控數據合規等應用場景。

持續引領三大必備核心能力

亞馬遜云科技認為企業構建生成式AI應用需要具備三項強大的數據能力,包括模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力。三大能力涵蓋了從基礎模型訓練到生成式 AI 應用構建的重要場景,有助于企業輕松應對海量多模態數據,提升基礎模型能力。通過持續引領上述三大核心能力,亞馬遜云科技助力企業構建數據基座,從而在在生成式AI時代取得成功。

先看利用現有數據支持微調或預訓練模型的能力。

利用現有數據支持微調或預訓練模型,從原始數據集到訓練出基礎模型需要解決三個主要問題:找到合適的存儲來承載海量數據、清洗加工原始數據為高質量數據集、對整個組織內數據的發現編目治理。

數據存儲方面,Amazon S3 擁有超過 200 萬億個對象,平均每秒超過 1 億個請求,在容量、安全和功能上都能滿足微調和預訓練基礎模型對數據存儲的要求;專門構建的文件存儲服務 Amazon FSx for Lustre可以提供亞毫秒延遲和數百萬 IOPS 的吞吐性能,進一步加快模型優化的速度和降低成本。

數據清洗方面,Amazon EMR Serverless 和 Amazon Glue 無服務器數據集成服務,可以幫助企業輕松完成數據清洗、去重、分詞等操作,專注于生成式 AI 業務創新。

數據治理方面,Amazon DataZone可以讓企業跨組織邊界大規模地發現、共享和管理數據,并且提供簡單易用的統一數據管理平臺和工具,來解鎖所有數據的潛能。

再看將現有數據快速結合模型產生獨特價值的能力。

將現有數據快速結合模型產生獨特價值,意在突破基礎模型缺乏垂直行業專業知識、缺乏時效性、生成錯誤信息等局限性,給出高質量答案。

亞馬遜云科技通過檢索增強生成(RAG)技術來解決上述問題,該技術也、被業界普遍認為是實現數據與模型結合的主要途徑之一。該技術通過將數據轉換為向量并存儲到向量數據庫中,從而將語義的關聯性轉化為向量間的數學距離問題,以實現內容的關聯性計算。

向量存儲的理想情況是將向量搜索和數據存儲結合在一起,亞馬遜云科技已經在八種數據存儲中添加了向量搜索功能,在提升數據查詢性能的同時,也讓客戶在構建生成式 AI 應用程序時擁有了更大的靈活性,從而釋放更多的價值。特別是,亞馬遜云科技還專門構建了圖數據庫Amazon Neptune、推出了分析數據庫引擎,能將圖數據分析速度提升 80倍,從而從圖形數據中快速獲取洞察,實現更快的向量搜索。

最后看有效處理新數據,助力生成式AI應用飛速發展的能力。

對生成式AI應用程序而言,基礎模型頻繁調用將會導致成本的增加和響應的延遲,這就讓通過新數據的更優處理來降本增效的需求更突出。

Amazon Memory DB內存數據庫,可以通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。該數據庫能存儲數百萬個向量,響應時間只需幾毫秒,并能以99%的召回率實現每秒百萬次的查詢性能。

亞馬遜云科技可提供無服務器數據庫服務和 Amazon OpenSearch Serverless 用于向量搜索,幫助生成式AI應用快速占領市場。無服務器的速度加上生成式 AI 的力量,能夠讓用戶最大限度減少運維負擔和成本,消除性能瓶頸,從而更好地專注于生成式 AI 業務創新。在這個過程中亞馬遜云科技負責無服務器背后的安全隔離、故障處理、負載均衡、自動擴展、利用率監控等復雜工作,讓用戶徹底消除后顧之憂。

在具體的應用領域,比如音樂領域,Amazon Music分析用戶和歌曲的特征,并將它們轉換成向量以提高推薦精準度。Amazon Music已通過Amazon OpenSearch將1億首歌曲編碼成向量并進行索引,為全球用戶提供實時音樂推薦。Amazon Music目前在 Amazon OpenSearch中管理著10.5億個向量,并能夠處理每秒高達7100次的查詢峰值,有效支撐其推薦系統。

亞馬遜云科技方面表示,希望每一個企業在生成式AI時代借助其服務打造堅實的數據基礎,從而高效安全地將海量的多模態數據和各種基礎模型結合在一起,創建出一系列具有獨特的價值的生成式AI應用程序并收到終端用戶的歡迎,進而產生更多的數據。而新數據又會繼續提升模型的準確度,創造更好的用戶體驗。這樣的模式就會產生生生不息的正向生成式AI數據飛輪,帶動企業業務走向成功。

最新文章
1
索尼集團公布2023財年業績:銷售收入增近20%,影音游等娛樂業務穩健向上
2
光峰業績下滑,峰米管理業務“雙優化”,投影“押寶”小明?
3
F5G-A領跑商用,高品質運力、萬兆超寬時代真的來了
4
半導體市場需求奏響“四重奏”
5
極米再推兩款護眼三色激光投影:極米 RS 10 Pro和極米RS 10
6
家電轉型助消費升級,我國家電行業處在轉型的關鍵時期
7
空調出貨零售兩極分化 小品牌如何靈活謀發展?
8
空氣炸鍋“逐鹿”海外:自主品牌缺位仍是痛點
9
海爾智家“以舊換新”再升級:多、快、好、省,煥新生活!
10
iQOO Z9 Turbo曜夜黑體驗:暗夜里的性能猛獸
11
風起青島,AI電視進行時
12
首發藍圖影像,vivo X100系列再造移動影像旗艦
13
康佳天鏡Mini AI-LED A8 Pro問世,AI電視邁入嶄新時代
14
快手電商舉行個護日百夏季煥新峰會 助力商家全域生意增長
15
快手“新農人”成農產品上行主力軍,200萬粉絲“王北四在東北”首場直播GMV近千萬
16
海信空調亮相中國品牌日 向世界傳遞中國品牌新質力量
17
TCL實業的這份年度業績里,藏著三個“意想不到”
18
空調以舊換新,選美的還是選格力?
19
籌劃會員體系打通,美團到店業務的“四兩撥千斤”?
20
2024 ISH | 全新林內空氣源冷暖熱水系統及熱水新品矩陣驚艷亮相
關于我們

微信掃一掃,加關注

商務合作
  • QQ:61149512
国产精品第25页|欧美中文字幕在线一区|人人操人人摸97|超碰人人青青久久