首頁 > 熱點 > 正文

數(shù)據(jù)時代的“軍備競賽”,究竟在拼什么? 天天精選

2023-06-19 12:34:51來源:引領(lǐng)外匯網(wǎng)

數(shù)據(jù)時代的“軍備競賽”,究竟在拼什么?,數(shù)據(jù)普惠,是數(shù)據(jù)基礎(chǔ)設(shè)施的

數(shù)據(jù)普惠,是數(shù)據(jù)基礎(chǔ)設(shè)施的使命。

2023年,在馬云提出“人類正從IT時代走向DT時代”的9年之后,以ChatGPT為代表的人工智能應(yīng)用涌現(xiàn),讓數(shù)據(jù)這個沒有新鮮事的低調(diào)賽道再度卷起浪花。


【資料圖】

業(yè)內(nèi)公認,數(shù)據(jù)是AI大模型的基礎(chǔ)。與之相呼應(yīng)的,為杜絕“垃圾進、垃圾出”,承擔數(shù)據(jù)存儲、處理、服務(wù)、安全等重要職責的數(shù)據(jù)基礎(chǔ)設(shè)施正式走到臺前——融合數(shù)據(jù)資產(chǎn)與AI模型的差異化競爭尚未開戰(zhàn),誰都不想在數(shù)據(jù)基建環(huán)節(jié)就敗下陣來。

然而,數(shù)據(jù)基礎(chǔ)設(shè)施究竟怎么建,誰又能提供更適合“中國企業(yè)體質(zhì)”的數(shù)據(jù)基建?這是諸多企業(yè)數(shù)字化轉(zhuǎn)型多年,依舊在探索而難解的問題。

觀望與探索,在“小馬過河”之前

回到2014,在定調(diào)“DT時代”的同一場活動上,馬云直言“阿里巴巴是大數(shù)據(jù)的紅利獲利者”。

所謂大數(shù)據(jù)的“紅利”,本質(zhì)是通過數(shù)據(jù)看清無數(shù)事務(wù)與復雜關(guān)聯(lián)背后的“真相”,依托數(shù)據(jù)支持科學的管理決策,引領(lǐng)高質(zhì)量發(fā)展。進一步,轉(zhuǎn)化為智能算法,指導機器自動做出千萬種精細化的行動,例如,提供千人千面的個性體驗。

幾乎同期,推薦算法一躍成為阿里存算資源的頭號消耗大戶;阿里有50%的服務(wù)器不再處理任何事務(wù),而僅僅用于處理數(shù)據(jù),也恰恰從系統(tǒng)層面印證了這一點。

從“看數(shù)據(jù)”、“用數(shù)據(jù)”到“數(shù)據(jù)智能”,哪怕放眼全球,阿里都做出了絕佳表率,生動詮釋著數(shù)據(jù)給互聯(lián)網(wǎng)商業(yè)帶來的飛躍和無限可能性。

然而,面對大廠們美好的標桿實踐,更多非“數(shù)據(jù)原生”的企業(yè)依舊選擇冷靜觀望。

“我們小小的港灣,停不下那樣龐大的航空母艦。”業(yè)內(nèi)幾起數(shù)據(jù)底層建設(shè)“翻車”案例發(fā)生后,一家快消品牌商的CIO在接受媒體采訪時表示,照搬大廠做法容易“水土不服”,其根本原因或出在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)成本高,而未能想清究竟要拿數(shù)據(jù)做什么,經(jīng)不起無限試錯,也等不起“十月懷胎、一朝分娩”。

盤點從數(shù)據(jù)生產(chǎn)到消費的全鏈路,可以簡單粗暴地切分為兩個部分:

上層,即數(shù)據(jù)應(yīng)用,包括BI、數(shù)據(jù)可視化以及數(shù)據(jù)挖掘等等,能面向數(shù)據(jù)分析師甚至毫無技術(shù)儲備的業(yè)務(wù)人員和經(jīng)營管理者,讓他們高效地調(diào)取和使用所需數(shù)據(jù)。

在各顯神通的數(shù)據(jù)應(yīng)用之下,是數(shù)據(jù)基礎(chǔ)設(shè)施,通常由存儲層(涉及云存儲、分布式文件系統(tǒng)等)、數(shù)據(jù)處理層(包括流批圖計算引擎等)、數(shù)據(jù)查詢與分析層、人工智能層(提供算法訓練、機器學習的技術(shù)基礎(chǔ))構(gòu)成。上述架構(gòu)無法孤立存在,而由一套數(shù)據(jù)云平臺進行統(tǒng)一調(diào)度管理,確保數(shù)據(jù)從生產(chǎn)到消費全流程可用、可控、安全。

理想狀態(tài)下,一套完善的數(shù)據(jù)基礎(chǔ)設(shè)施中,應(yīng)由數(shù)據(jù)云平臺承擔起“數(shù)據(jù)的操作系統(tǒng)”的重任——向下封裝底層多技術(shù)、多依賴的復雜性,向上以API的方式供給數(shù)據(jù)能力,幫助業(yè)務(wù)快速搭建所需的數(shù)據(jù)應(yīng)用,類似于基于iOS開發(fā)APP。

“現(xiàn)實根本沒有像Windows、Mac OS那樣好用的‘數(shù)據(jù)的操作系統(tǒng)’,企業(yè)必須直面混亂、復雜、深奧的底層?!币晃恍畔⒒稍兂錾怼⒂惺嗄闕T經(jīng)驗的資深從業(yè)者表示,這往往也是企業(yè)從IT走向DT、進行數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的難度所在。

在2015-2018年左右的探索期,相較于投入基礎(chǔ)建設(shè)、苦苦摸索艱深的底層數(shù)據(jù)技術(shù),模仿互聯(lián)網(wǎng)大廠在消費者域的做法顯然更聰明:依托APP、小程序、官網(wǎng)等在線手段,構(gòu)建單個場景的數(shù)據(jù)閉環(huán),實現(xiàn)小場景的“業(yè)務(wù)數(shù)據(jù)化”,從“拍腦袋”到有數(shù)據(jù)支持,增長肉眼可見。

談及數(shù)字化小場景閉環(huán)帶來的增長,一家自2017年起就采用UBA(用戶行為分析)提升私域渠道流量轉(zhuǎn)化的地產(chǎn)集團運營總監(jiān)談道:“這些數(shù)據(jù)創(chuàng)新實踐就像望遠鏡,打開了DT時代的窗口。你不需要造宇宙飛船登月,也能看到、感知到數(shù)據(jù)的價值?!?/p>

同期,數(shù)據(jù)賽道創(chuàng)業(yè)潮涌現(xiàn),從BI、用戶行為分析、推薦引擎,到CDP、數(shù)據(jù)中臺,百花齊放,為企業(yè)提供數(shù)據(jù)技術(shù)產(chǎn)品和解決方案的支持。這其中,越貼近業(yè)務(wù)、越能找到明星場景的廠商越受歡迎。

至于數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),待遇則與十幾年前的ERP頗有幾分相似,“上ERP找死,不上ERP等死”。

既然有不少BI和數(shù)據(jù)應(yīng)用已經(jīng)包攬了數(shù)據(jù)存算的部分基礎(chǔ)能力,既然定期從業(yè)務(wù)系統(tǒng)里手動抽數(shù)、手工做Excel報表還能堅持一段時間,這個動輒數(shù)十數(shù)百萬預算的“龐然大物”也還有等的空間,何不再等一等呢?

水面之下,數(shù)據(jù)基建進行時

等待對手造出更多標桿實踐再模仿,約等于把領(lǐng)先的機會拱手讓人。事實上,在尚且可控的成本范圍內(nèi),已有少數(shù)企業(yè)躬身入局數(shù)據(jù)基建。

2016年起,一家以飲料為主營業(yè)務(wù)的中國本土零售集團開始著手搭建數(shù)據(jù)基礎(chǔ)設(shè)施。從傳統(tǒng)數(shù)倉、自建大數(shù)據(jù)平臺到數(shù)據(jù)云平臺,摸爬滾打歷經(jīng)3個階段,他們走出了一條與阿里們不完全相同、之于傳統(tǒng)行業(yè)卻極具代表性的道路。

最初,集團選擇與國際頭部基礎(chǔ)軟件公司SAP合作,引入SAP HANA(一款以“高性能數(shù)據(jù)查詢分析”為賣點的內(nèi)存計算平臺),來滿足對業(yè)務(wù)數(shù)據(jù)的查詢與分析需求。

然而,伴隨數(shù)據(jù)量的增長,用于匹配SAP HANA的專有硬件開銷也在飆升。當數(shù)據(jù)量超過1T,甚至會出現(xiàn)“燒錢都解決不了”的問題——受技術(shù)架構(gòu)所限,查詢分析已無法靠增加節(jié)點來提速,報表產(chǎn)出極為困難??磾?shù)據(jù)雖好,卻變成一件無比奢侈的事。集團開始尋求新的解法。

2019年前后,Hadoop風靡國內(nèi)大數(shù)據(jù)技術(shù)圈。采用分布式基礎(chǔ)架構(gòu)的Hadoop擁有優(yōu)秀的并行處理和擴展能力。不同于HANA,Hadoop如果要“加量”,只需增加普通的服務(wù)器成本,而無需為高昂的專有硬件“加價”,直接打破了以SAP HANA、Teradata為代表的傳統(tǒng)數(shù)倉在海量數(shù)據(jù)場景所面臨的困境。

和彼時自有IT團隊的大型企業(yè)做法類似,這家零售集團選擇轉(zhuǎn)向利用開源Hadoop技術(shù),自建大數(shù)據(jù)平臺。

從直接外采到自建平臺,在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)上堅持投入了3年,集團數(shù)科公司的數(shù)據(jù)總監(jiān)直言,“當時并沒有想太多。一個是不希望被彎道超車,另一個,我們真的需要看數(shù)據(jù)。所以從沒想過什么‘爛尾’放棄?!?/p>

在自建平臺約1年后,“復雜性”接連襲來,挑戰(zhàn)層出不窮。

“我們嘗試了很多方式來應(yīng)對各種需求,解決了一個問題,又冒出一個問題。最終也導致數(shù)據(jù)平臺里有很多煙囪式的建設(shè),運維無以為繼?!痹摽偙O(jiān)說,譬如離線計算、實時計算、即席查詢各立一條“航道”,存算資源明顯有浪費,但不知如何優(yōu)化;開源組件迭代快,學習成本高;缺少穩(wěn)定的調(diào)度能力,導致數(shù)據(jù)作業(yè)不穩(wěn)定,報表產(chǎn)出延時。

評估團隊長期投入及成果預期后,2021年初,這家集團再度選擇外采,與數(shù)據(jù)云廠商奇點云合作,依托數(shù)據(jù)云平臺產(chǎn)品DataSimba,逐步完成了自身數(shù)據(jù)基礎(chǔ)設(shè)施的升級,借助商業(yè)化產(chǎn)品解決種種“疑難雜癥”?;跀?shù)據(jù)云平臺,集團數(shù)科公司還自主將數(shù)據(jù)能力從銷售域復制到了生產(chǎn)域、業(yè)財域。

“在DataSimba的背后,有一支成熟的外部團隊在幫我們迭代,把最新的大數(shù)據(jù)技術(shù)和成熟的業(yè)內(nèi)實踐裝進我們的基礎(chǔ)設(shè)施?!奔瘓F數(shù)據(jù)總監(jiān)補充道,“可見的提效是原本30分鐘都產(chǎn)不出的TB級數(shù)據(jù)復雜分析,現(xiàn)在只需要秒級,真正響應(yīng)科學經(jīng)營管理的需要。而更多不可見的(價值)是,減少重復造輪子,平臺設(shè)計能應(yīng)對靈活多變的業(yè)務(wù)和數(shù)據(jù)分析需求。”

據(jù)奇點云CTO地雷介紹,許多企業(yè)都在經(jīng)歷這家零售集團過去發(fā)生的故事,需要從傳統(tǒng)數(shù)倉轉(zhuǎn)向數(shù)據(jù)云,或曾自建過數(shù)據(jù)平臺,尋求數(shù)據(jù)技術(shù)棧的升級。而企業(yè)客戶之所以從自建轉(zhuǎn)向采購商業(yè)化的數(shù)據(jù)基礎(chǔ)軟件,除了對產(chǎn)品功能、性能及自主可控程度的評估,往往還有可持續(xù)性、可服務(wù)性及安全性的考量。

數(shù)據(jù)云科技廠商奇點云成立于2016年,堅持“平臺+應(yīng)用”模式,為企業(yè)提供自主可控的數(shù)據(jù)基礎(chǔ)設(shè)施(數(shù)據(jù)云)與多樣化的數(shù)據(jù)應(yīng)用(分析云)。其中,數(shù)據(jù)基礎(chǔ)設(shè)施更為通用,主要發(fā)力在平臺性能、功能、安全等維度,封裝底層技術(shù)復雜性;上層則針對品牌零售、智能制造等行業(yè)研發(fā)了豐富的數(shù)據(jù)應(yīng)用和模型。

奇點云創(chuàng)始人、CEO行在是在大數(shù)據(jù)領(lǐng)域摸爬滾打二十多年的老兵,曾完整親歷阿里大數(shù)據(jù)之路。他坦言,在奇點云創(chuàng)業(yè)初期,確實只有極少數(shù)客戶愿意投入數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),往往必須采取“基建+場景”的方式,以明星場景為切口,“無感植入”數(shù)據(jù)基建,到二期、三期再做能力擴展。而自2020、2021年以來,行在明顯感受到“做數(shù)據(jù)基建找死”的風聲發(fā)生了變化,企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的需求在持續(xù)上漲。

需求的一面,是基礎(chǔ)設(shè)施能提供的全局數(shù)據(jù)能力實在誘人,數(shù)字化轉(zhuǎn)型程度越深的企業(yè),越希望盡快掌握;另一面,是生產(chǎn)業(yè)務(wù)的需要和種種數(shù)據(jù)問題倒逼:

? 數(shù)據(jù)分散在數(shù)百個IT系統(tǒng)和業(yè)務(wù)流程中,缺乏統(tǒng)一的管理和治理,各說各話;

? 煙囪式的數(shù)據(jù)應(yīng)用建設(shè)加劇了數(shù)據(jù)孤島,需要打通構(gòu)建企業(yè)視角的數(shù)據(jù)資產(chǎn),同時保障各個單元的數(shù)據(jù)安全;

? 基于單個小閉環(huán)構(gòu)建的數(shù)據(jù)管理和應(yīng)用能力,無法適應(yīng)快速變化、日益復雜的業(yè)務(wù)場景,反而陷入重復建設(shè)中,需要可復用的數(shù)據(jù)能力;

? 數(shù)據(jù)量激增,復雜異構(gòu)的數(shù)據(jù)、實時的分析需求、高昂的存算消耗不斷提出技術(shù)難題,亟需構(gòu)建性能強大的數(shù)據(jù)底座,但成本越低越好。

做不好數(shù)據(jù)基建,可能真得“等死”。

深入海底,“普惠”是數(shù)據(jù)基礎(chǔ)設(shè)施的使命

2020年,數(shù)據(jù)被國家列為五大生產(chǎn)要素之一。站在生產(chǎn)要素的視角看,企業(yè)搭建數(shù)據(jù)基礎(chǔ)設(shè)施,消解底層的復雜性、統(tǒng)一向外提供數(shù)據(jù)能力和服務(wù),對于數(shù)據(jù)要素的長遠管理、利用、配置和流通而言,無疑是更為經(jīng)濟和聰明的方式。

與交通、能源等國家級基礎(chǔ)設(shè)施類似,企業(yè)級的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)同樣能產(chǎn)生明顯的“乘數(shù)效應(yīng)”:倍增的不僅是企業(yè)所擁有的數(shù)據(jù),更是能被企業(yè)所使用的數(shù)據(jù),能產(chǎn)生價值的數(shù)據(jù)。

而與國家級基礎(chǔ)設(shè)施不同的是,企業(yè)級數(shù)據(jù)基礎(chǔ)設(shè)施無法“集中(公共)力量辦大事”,往往更依賴企業(yè)自身的投入與服務(wù)商的能力。

一方面,邁向DT時代的企業(yè)必須更舍得在數(shù)據(jù)基建的投入,像投入設(shè)計研發(fā)、產(chǎn)線改造、供應(yīng)鏈升級那樣,數(shù)據(jù)應(yīng)得到核心資產(chǎn)同等程度的重視;

另一方面,降低“門檻”亦值得關(guān)注——通過專業(yè)技術(shù)持續(xù)提升數(shù)據(jù)基礎(chǔ)軟件的易用性和開放性,同時優(yōu)化存算成本,讓數(shù)據(jù)基建不再是少數(shù)派的“航空母艦”。

“推動數(shù)據(jù)普惠,是數(shù)據(jù)基礎(chǔ)設(shè)施的使命?!?/p>

地雷介紹,除了智能安全算法、可觀測元倉模型、指標工廠等亮眼的能力,數(shù)據(jù)云更多的技術(shù)攻關(guān)發(fā)生在“水面之下”,甚至已潛入“海底的無人之境”,比如優(yōu)化引擎內(nèi)核,或深入到j(luò)ava虛擬機層面,就是為了竭盡所能,降低客戶使用數(shù)據(jù)的門檻。

奇點云的數(shù)據(jù)云產(chǎn)品體系

以多引擎混合調(diào)度的場景為例,為應(yīng)對不同的數(shù)據(jù)查詢和分析場景,企業(yè)往往需要用到流、批、圖、時序等不同引擎。這些引擎如果各自分立,在維護困難的同時,也導致了資源浪費。

基于全容器化、多模態(tài)統(tǒng)一計算框架等技術(shù),奇點云提出“大規(guī)模多引擎混合調(diào)度技術(shù)”,在數(shù)據(jù)云平臺DataSimba中支持混合引擎調(diào)度,能根據(jù)業(yè)務(wù)負載自動調(diào)整容器資源的使用情況。

“就像‘潮汐車道’一樣,可以分時段按需跑不同引擎,幾乎不需要人工干預,提高任務(wù)執(zhí)行效率,降低系統(tǒng)負載?!钡乩捉榻B,相較傳統(tǒng)的煙囪式建設(shè),潮汐調(diào)度的方式通常能幫助企業(yè)節(jié)約30%以上的資源。

得益于大規(guī)模多引擎混合調(diào)度技術(shù),海量數(shù)據(jù)、多端來源的OneID融合分析也成為可能。

一家旗下有近5000個營銷服務(wù)網(wǎng)點的金融集團數(shù)據(jù)平臺負責人透露:“我們數(shù)據(jù)體量大、ID類型多、ID關(guān)系復雜,加上對存量和增量數(shù)據(jù)的考量,采用傳統(tǒng)方案不光成本極高,也是不現(xiàn)實且不可靠的。”

在多引擎混合調(diào)度技術(shù)框架下,奇點云采用“流批圖一體”架構(gòu),確保在計算性能、復雜場景計算及可解釋性上均具備優(yōu)勢,從而支撐中國企業(yè)特有的、海量數(shù)據(jù)多端來源的OneID融合分析場景。

“我們打通了100多個端的億級用戶數(shù)據(jù),并落地OneID,相比傳統(tǒng)方案,壓縮比達30%以上,計算時間節(jié)省了至少50%,測試用例通過率達到100%?!逼脚_負責人介紹。

又如“多租戶”,這個場景天然為了資源利用最大化而生。企業(yè)的數(shù)據(jù)團隊作為“平臺”,理應(yīng)通過多租戶的方式服務(wù)更多部門、BU,合理優(yōu)化資源利用,也免去他們自行運管基礎(chǔ)設(shè)施的煩惱。然而囿于數(shù)據(jù)安全隱患的考量,很多企業(yè)寧愿多付出資源,也不敢冒險。

為此,奇點云推出“數(shù)據(jù)平臺的多租戶安全和資源隔離技術(shù)”,通過雙層身份認證、雙層權(quán)限校驗、雙層存儲加密,來保證租戶資源的強邏輯隔離與數(shù)據(jù)安全。在多個數(shù)據(jù)團隊互不搶占資源的同時,相較傳統(tǒng)方案,更節(jié)約了50%的大數(shù)據(jù)集群計算節(jié)點。同時,通過動態(tài)的權(quán)限管控,支持租戶間數(shù)據(jù)安全共享,而無需數(shù)據(jù)遷移成本。

數(shù)據(jù)云作為基礎(chǔ)設(shè)施,已深入到越來越多企業(yè)生產(chǎn)甚至整個產(chǎn)業(yè)的運轉(zhuǎn)環(huán)節(jié)。為保證它的可靠、可用、可服務(wù),廠商往往會采用“堆機器”的方式,這背后有一個簡單的邏輯:備份越多,冗余越多,系統(tǒng)故障后的補救空間就越大——可以拿副本頂上。

對此,地雷的觀點卻有幾分“反常識”:“作為獨立第三方,我們有義務(wù)幫助客戶盡可能優(yōu)化資源成本。”

奇點云基于微服務(wù)體系、全容器化等技術(shù),在保障“RAS”(即可靠性、可用性、可服務(wù)性)的前提下,不斷壓縮數(shù)據(jù)云部署的最小節(jié)點數(shù)。部署包括數(shù)據(jù)云平臺DataSimba、數(shù)據(jù)存算引擎DataKun、數(shù)據(jù)安全引擎DataBlack在內(nèi)的全套數(shù)據(jù)云產(chǎn)品,最小節(jié)點數(shù)從11臺降至6臺,并仍在持續(xù)優(yōu)化。這意味著有更多企業(yè)能花更低的軟硬件成本,完成數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。

2023年5月,奇點云正式發(fā)布了“云數(shù)倉”版本的DataSimba Cloud,進一步提供更高性價比的“輕量級”云上數(shù)據(jù)基礎(chǔ)設(shè)施體驗。

“這些水面之下踏踏實實的技術(shù)攻關(guān),用行動證明了我們和客戶站在一起?!毙性谡f。

據(jù)悉,2023年剛剛過半,奇點云的數(shù)據(jù)云產(chǎn)品銷售成績就已遠優(yōu)于往年,其中,除了持續(xù)復購的老客戶,也多了不少來自制造、金融行業(yè)的新面孔。這種“雙向奔赴”或許正是行在、地雷和他的團隊潛心投入基礎(chǔ)設(shè)施技術(shù)研發(fā)的底氣。

面向數(shù)據(jù)時代的“軍備競賽”,究竟在比什么?

過去“能不能直接把你服務(wù)的頭部企業(yè)數(shù)據(jù)給我”的誤解,已經(jīng)成為坊間笑談?!皵?shù)字化轉(zhuǎn)型沒有標桿案例”的論斷,也一次又一次被低調(diào)的先行者們用實踐證偽。從滿足于單點數(shù)據(jù)應(yīng)用的閉環(huán),到縱身躍入底層數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),企業(yè)的耐心來自于亟待解決的數(shù)據(jù)痛點和對規(guī)?;l(fā)揮海量數(shù)據(jù)價值的希冀,也與國內(nèi)數(shù)據(jù)基礎(chǔ)軟件廠商們?yōu)椤皵?shù)據(jù)普惠”的不懈努力密不可分。

有數(shù)據(jù)顯示,在美國一次機構(gòu)調(diào)查中,受訪企業(yè)里設(shè)CDO職位的比例,從2012年的12%已經(jīng)提升至2021年的65%。而在中國,這個比例目前還不到5%。

當AI的風裹挾著數(shù)據(jù)技術(shù)的浪潮一同襲來,毫無疑問,擁有數(shù)據(jù)基礎(chǔ)設(shè)施和獨有數(shù)據(jù)資產(chǎn)的企業(yè),能搶先結(jié)合AI模型能力,建立起自己的競爭優(yōu)勢。

好在奇點只是臨近,對于那些習慣等待的企業(yè)來說,還有足夠的時間補齊短板。

關(guān)鍵詞:

責任編輯:hnmd004