通用大模型下,鍛造專屬生成式AI應(yīng)用靠什么?
企業(yè)自身的個(gè)性化數(shù)據(jù)能夠差異化生成式AI應(yīng)用,亞馬遜云科技依托Amazon Bedrock提供通過(guò)數(shù)據(jù)定制基礎(chǔ)模型的服務(wù),支持三類模型定制方式:
2024-05-10 13:41:22
來(lái)源:丁科技網(wǎng)??

構(gòu)建具有商業(yè)價(jià)值的生成式AI應(yīng)用,并將它作為全新生產(chǎn)力,這是越來(lái)越多企業(yè)的通用選擇。不過(guò),用來(lái)鍛造生成式AI應(yīng)用的大模型是通用的,而生成式AI應(yīng)用需要適合自身業(yè)務(wù)甚至是契合自身特點(diǎn),簡(jiǎn)單說(shuō),就是要“專門(mén)”和“專屬”。從“通用”到“專屬”的跨越,目前的最優(yōu)解,仍在于利用好企業(yè)自身更具個(gè)性化的數(shù)據(jù)。就此,想要將生成式AI能力提供給每個(gè)人的亞馬遜云科技,除了提供豐富的模型能力之外,也提出“無(wú)數(shù)據(jù),不模型”,意在助力更多企業(yè)構(gòu)建全面的數(shù)據(jù)基座,通過(guò)充分發(fā)揮數(shù)據(jù)潛力,加速生成式AI技術(shù)落地,并更好地適應(yīng)企業(yè)自身發(fā)展需要。前不久以“生成式AI時(shí)代的數(shù)據(jù)基座”為主題的溝通會(huì)上,亞馬遜云科技方面公開(kāi)了相關(guān)領(lǐng)域的全新進(jìn)展。

通過(guò)數(shù)據(jù)“定制”基礎(chǔ)模型

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:“每個(gè)公司都能訪問(wèn)相同的基礎(chǔ)模型,但那些能夠利用自己的數(shù)據(jù)構(gòu)建具有真正商業(yè)價(jià)值的生成式人工智能應(yīng)用的公司,將會(huì)是成功的公司?!?/p>

企業(yè)自身的個(gè)性化數(shù)據(jù)能夠差異化生成式AI應(yīng)用,亞馬遜云科技依托Amazon Bedrock提供通過(guò)數(shù)據(jù)定制基礎(chǔ)模型的服務(wù),支持三類模型定制方式:

一是檢索增強(qiáng)生成。企業(yè)可將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型結(jié)合,在過(guò)程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部相關(guān)數(shù)據(jù),提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。該方式適合控制幻覺(jué)、用戶隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等應(yīng)用場(chǎng)景。

二是微調(diào)。使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。該方式適合角色理解、輸入理解、輸出格式控制等應(yīng)用場(chǎng)景。

三是持續(xù)預(yù)訓(xùn)練。企業(yè)利用內(nèi)部文檔、客戶記錄等自身專有數(shù)據(jù)對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。該方式門(mén)檻相對(duì)較高,成本較大,但可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型,適合理解行業(yè)領(lǐng)域知識(shí)/術(shù)語(yǔ)、嚴(yán)控?cái)?shù)據(jù)合規(guī)等應(yīng)用場(chǎng)景。

持續(xù)引領(lǐng)三大必備核心能力

亞馬遜云科技認(rèn)為企業(yè)構(gòu)建生成式AI應(yīng)用需要具備三項(xiàng)強(qiáng)大的數(shù)據(jù)能力,包括模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力。三大能力涵蓋了從基礎(chǔ)模型訓(xùn)練到生成式 AI 應(yīng)用構(gòu)建的重要場(chǎng)景,有助于企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力。通過(guò)持續(xù)引領(lǐng)上述三大核心能力,亞馬遜云科技助力企業(yè)構(gòu)建數(shù)據(jù)基座,從而在在生成式AI時(shí)代取得成功。

先看利用現(xiàn)有數(shù)據(jù)支持微調(diào)或預(yù)訓(xùn)練模型的能力。

利用現(xiàn)有數(shù)據(jù)支持微調(diào)或預(yù)訓(xùn)練模型,從原始數(shù)據(jù)集到訓(xùn)練出基礎(chǔ)模型需要解決三個(gè)主要問(wèn)題:找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)、清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集、對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。

數(shù)據(jù)存儲(chǔ)方面,Amazon S3 擁有超過(guò) 200 萬(wàn)億個(gè)對(duì)象,平均每秒超過(guò) 1 億個(gè)請(qǐng)求,在容量、安全和功能上都能滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)的要求;專門(mén)構(gòu)建的文件存儲(chǔ)服務(wù) Amazon FSx for Lustre可以提供亞毫秒延遲和數(shù)百萬(wàn) IOPS 的吞吐性能,進(jìn)一步加快模型優(yōu)化的速度和降低成本。

數(shù)據(jù)清洗方面,Amazon EMR Serverless 和 Amazon Glue 無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可以幫助企業(yè)輕松完成數(shù)據(jù)清洗、去重、分詞等操作,專注于生成式 AI 業(yè)務(wù)創(chuàng)新。

數(shù)據(jù)治理方面,Amazon DataZone可以讓企業(yè)跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),并且提供簡(jiǎn)單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具,來(lái)解鎖所有數(shù)據(jù)的潛能。

再看將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力。

將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值,意在突破基礎(chǔ)模型缺乏垂直行業(yè)專業(yè)知識(shí)、缺乏時(shí)效性、生成錯(cuò)誤信息等局限性,給出高質(zhì)量答案。

亞馬遜云科技通過(guò)檢索增強(qiáng)生成(RAG)技術(shù)來(lái)解決上述問(wèn)題,該技術(shù)也、被業(yè)界普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一。該技術(shù)通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問(wèn)題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。

向量存儲(chǔ)的理想情況是將向量搜索和數(shù)據(jù)存儲(chǔ)結(jié)合在一起,亞馬遜云科技已經(jīng)在八種數(shù)據(jù)存儲(chǔ)中添加了向量搜索功能,在提升數(shù)據(jù)查詢性能的同時(shí),也讓客戶在構(gòu)建生成式 AI 應(yīng)用程序時(shí)擁有了更大的靈活性,從而釋放更多的價(jià)值。特別是,亞馬遜云科技還專門(mén)構(gòu)建了圖數(shù)據(jù)庫(kù)Amazon Neptune、推出了分析數(shù)據(jù)庫(kù)引擎,能將圖數(shù)據(jù)分析速度提升 80倍,從而從圖形數(shù)據(jù)中快速獲取洞察,實(shí)現(xiàn)更快的向量搜索。

最后看有效處理新數(shù)據(jù),助力生成式AI應(yīng)用飛速發(fā)展的能力。

對(duì)生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲,這就讓通過(guò)新數(shù)據(jù)的更優(yōu)處理來(lái)降本增效的需求更突出。

Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù),可以通過(guò)緩存之前問(wèn)答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問(wèn)題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。該數(shù)據(jù)庫(kù)能存儲(chǔ)數(shù)百萬(wàn)個(gè)向量,響應(yīng)時(shí)間只需幾毫秒,并能以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。

亞馬遜云科技可提供無(wú)服務(wù)器數(shù)據(jù)庫(kù)服務(wù)和 Amazon OpenSearch Serverless 用于向量搜索,幫助生成式AI應(yīng)用快速占領(lǐng)市場(chǎng)。無(wú)服務(wù)器的速度加上生成式 AI 的力量,能夠讓用戶最大限度減少運(yùn)維負(fù)擔(dān)和成本,消除性能瓶頸,從而更好地專注于生成式 AI 業(yè)務(wù)創(chuàng)新。在這個(gè)過(guò)程中亞馬遜云科技負(fù)責(zé)無(wú)服務(wù)器背后的安全隔離、故障處理、負(fù)載均衡、自動(dòng)擴(kuò)展、利用率監(jiān)控等復(fù)雜工作,讓用戶徹底消除后顧之憂。

在具體的應(yīng)用領(lǐng)域,比如音樂(lè)領(lǐng)域,Amazon Music分析用戶和歌曲的特征,并將它們轉(zhuǎn)換成向量以提高推薦精準(zhǔn)度。Amazon Music已通過(guò)Amazon OpenSearch將1億首歌曲編碼成向量并進(jìn)行索引,為全球用戶提供實(shí)時(shí)音樂(lè)推薦。Amazon Music目前在 Amazon OpenSearch中管理著10.5億個(gè)向量,并能夠處理每秒高達(dá)7100次的查詢峰值,有效支撐其推薦系統(tǒng)。

亞馬遜云科技方面表示,希望每一個(gè)企業(yè)在生成式AI時(shí)代借助其服務(wù)打造堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),從而高效安全地將海量的多模態(tài)數(shù)據(jù)和各種基礎(chǔ)模型結(jié)合在一起,創(chuàng)建出一系列具有獨(dú)特的價(jià)值的生成式AI應(yīng)用程序并收到終端用戶的歡迎,進(jìn)而產(chǎn)生更多的數(shù)據(jù)。而新數(shù)據(jù)又會(huì)繼續(xù)提升模型的準(zhǔn)確度,創(chuàng)造更好的用戶體驗(yàn)。這樣的模式就會(huì)產(chǎn)生生生不息的正向生成式AI數(shù)據(jù)飛輪,帶動(dòng)企業(yè)業(yè)務(wù)走向成功。

原創(chuàng)文章
最新文章
1
凱度《用心煥新廚》首期上線,袁姍姍見(jiàn)證潘長(zhǎng)江父女“廚房戰(zhàn)爭(zhēng)”大和解
2
快手顏廷貴的鐵牛江湖:賣得是中國(guó)制造,更是中國(guó)驕傲
3
新秀賽段主播也能撬動(dòng)百萬(wàn)銷量?快手達(dá)人佳佳以強(qiáng)信任關(guān)系引爆護(hù)膚專場(chǎng)
4
自然場(chǎng)景植入構(gòu)建品牌心智,快手短劇聯(lián)合美團(tuán)打開(kāi)品牌營(yíng)銷新藍(lán)海
5
可靈AI與《逆水寒》手游達(dá)成深度合作 AI技術(shù)賦能游戲內(nèi)容創(chuàng)新
6
盛夏爆品全域熱銷,快手磁力引擎“清涼一夏煥新計(jì)劃”引爆消暑經(jīng)濟(jì)
7
線上空調(diào)市場(chǎng)價(jià)格戰(zhàn):小米均價(jià)不降反升,美的系海爾系降價(jià)猛
8
創(chuàng)維壁紙電視618“屠榜”背后:全鏈路創(chuàng)新讓對(duì)手“抄不了”
9
智媒融合 創(chuàng)新賦能——CCNS & ISBT 2025 征文正式開(kāi)啟
10
明星代言難解松下家電困局
11
華為首款鴻蒙AI手表正式官宣!華為WATCH 5將帶來(lái)AI智慧新體驗(yàn)
12
Mini LED成行業(yè)“風(fēng)向標(biāo)”,預(yù)計(jì)2025年中國(guó)市場(chǎng)或?qū)⑦_(dá)923萬(wàn)臺(tái)
13
三星Galaxy Fold7 Ultra 將于近期發(fā)布
14
內(nèi)外銷格局出現(xiàn)扭轉(zhuǎn) 出口市場(chǎng)步入同比下滑通道
15
難怪iPhone 16e銷量不及iPhone SE:背后原因揭開(kāi)
16
華為Mate X5翻新機(jī)來(lái)了 13999元降至8799元買嗎
17
開(kāi)源66項(xiàng)“三筒”核心專利,海信洗衣機(jī)的“陽(yáng)謀”打懵對(duì)手
18
索尼榮登2025《財(cái)富》中國(guó)ESG影響力榜 ——用科技與創(chuàng)意共筑可持續(xù)的未來(lái)
19
新玩家難越家電紅海?方洪波斷言“戰(zhàn)略已輸”背后的產(chǎn)業(yè)真相
20
從價(jià)格戰(zhàn)到“體驗(yàn)戰(zhàn)”,家電渠道的求索之路
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512