返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 資訊 > 電商資訊>NASA計(jì)劃背后,阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu)概述

  DT時代,人們比以往任何時候都收集到更多的數(shù)據(jù)。據(jù)IDC報告,預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于40萬億GB),這一數(shù)據(jù)量是2011年的22倍!正在“爆炸式”增長的數(shù)據(jù),其潛在巨大價值有待發(fā)掘。它作為一種新的能源,正在發(fā)生聚變,變革著我們的生產(chǎn)和生活,催生了當(dāng)下大數(shù)據(jù)行業(yè)的熱火朝天。但是我們?nèi)绻荒軐@些數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)的分類組織和存儲,如果不能有效利用并發(fā)掘產(chǎn)生價值,那么它也是一個數(shù)據(jù)災(zāi)難,它猶如堆積如山的垃圾,給我們企業(yè)帶來的是極大的成本。

  現(xiàn)實(shí)情況是:阿里集團(tuán)的數(shù)據(jù)存儲已經(jīng)逼近EB級別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條;阿里內(nèi)部,離線數(shù)據(jù)處理每天面對的是百萬級規(guī)模的作業(yè),每天有數(shù)千位活躍的工程師在進(jìn)行數(shù)據(jù)處理工作,加上阿里大數(shù)據(jù)的井噴式爆發(fā),給數(shù)模型、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量和運(yùn)維保障工作增加了更高的難度。

1688商品關(guān)鍵詞采集工具

  面對阿里內(nèi)部成千上萬對數(shù)據(jù)有著深刻需求的員工,以及外部千萬級對數(shù)據(jù)有迫切渴望的商家和合作伙伴,如何有效滿足他們的需求,提高他們對數(shù)據(jù)使用的滿意度,是數(shù)據(jù)服務(wù)、數(shù)據(jù)產(chǎn)品面臨的更大挑戰(zhàn)。

  \

  注:阿里巴巴數(shù)據(jù)體系架構(gòu)圖

  上圖是阿里巴巴數(shù)據(jù)體系架構(gòu)圖,可以清晰地看到我們的數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四大層次。

  1數(shù)據(jù)采集層

  阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家、消費(fèi)者、商業(yè)組織等)在平臺上從事商業(yè)、消費(fèi)、娛樂等活動,每時每刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里數(shù)據(jù)體系第一環(huán)尤為重要。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案,并致力全面、高性能、規(guī)范地完成海量數(shù)據(jù)的采集,并將其傳輸?shù)酱髷?shù)據(jù)平臺。

  阿里巴巴的日志采集體系包括兩大體系:Aplus.JS是Web端日志采集技術(shù)方案;UserTack是APP端日志采集技術(shù)方案。

  在采集技術(shù)之上,阿里巴巴有面向各個場景的埋點(diǎn)規(guī)范,來滿足通用瀏覽、點(diǎn)擊、特殊交互、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打通等多種業(yè)務(wù)場景。同時,建立了一套高性能、高可靠性的數(shù)據(jù)傳輸體系完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸;在傳輸方面我們采用TimeTunnel(TT),它既包括數(shù)據(jù)庫的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù)的傳輸;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既能支持實(shí)時流式計(jì)算、也能實(shí)時各種時間窗口的批量計(jì)算。另一方面,也通過數(shù)據(jù)同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封裝)直連異構(gòu)數(shù)據(jù)庫(備庫)來抽取各種時間窗口的數(shù)據(jù)。

  2數(shù)據(jù)計(jì)算層

  從采集系統(tǒng)中收集了大量的原始數(shù)據(jù)后,數(shù)據(jù)只有被整合、計(jì)算才能洞察商業(yè)規(guī)律、挖掘潛在信息、實(shí)現(xiàn)大數(shù)據(jù)價值,達(dá)到賦能商業(yè)、創(chuàng)造商業(yè)的目的。面對海量的數(shù)據(jù)和復(fù)雜的計(jì)算,阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體系:數(shù)據(jù)存儲及計(jì)算云平臺(離線計(jì)算平臺MaxCompute和實(shí)時計(jì)算平臺StreamCompute)和數(shù)據(jù)整合及管理體系(OneData)。MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺,其豐富的功能和強(qiáng)大的存儲及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲和計(jì)算引擎;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺,在內(nèi)部較好的支持了阿里巴巴流式計(jì)算需求;OneData是數(shù)據(jù)整合及管理的方法體系和工具,阿里巴巴的大數(shù)據(jù)工程師在其體系下,構(gòu)建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的冗余和重復(fù)建設(shè),規(guī)避數(shù)據(jù)煙囪和不一致,充分發(fā)揮阿里巴巴在大數(shù)據(jù)海量、多樣性方面的獨(dú)特優(yōu)勢。

  借助OneData方法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層,并可以幫助相似大數(shù)據(jù)項(xiàng)目快速落地實(shí)現(xiàn)。

  從數(shù)據(jù)計(jì)算頻率角度來看,阿里數(shù)據(jù)倉庫可以分為離線數(shù)據(jù)倉庫和實(shí)時數(shù)據(jù)倉庫。離線數(shù)據(jù)倉庫主要是傳統(tǒng)的數(shù)據(jù)倉庫概念,數(shù)據(jù)計(jì)算頻率是主要是以天(包含小時、周和月)為單位;如T-1,則每天凌晨處理上一天的數(shù)據(jù)。但是隨著業(yè)務(wù)的發(fā)展特別是交易過程的縮短,用戶對數(shù)據(jù)產(chǎn)出的實(shí)時性要求逐漸提高,所以阿里的實(shí)時數(shù)據(jù)倉庫應(yīng)運(yùn)而生。雙11實(shí)時數(shù)據(jù)直播大屏,就是實(shí)時數(shù)據(jù)倉庫的一種典型應(yīng)用。

  阿里數(shù)據(jù)倉庫數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念:包括操作數(shù)據(jù)層(ODS,Operational Data Store)、明細(xì)數(shù)據(jù)層(DWD,Data Warehouse Detail)、匯總數(shù)據(jù)層(DWS, Data Warehouse Summary)和應(yīng)用數(shù)據(jù)層(ADS,Application Data Store)。通過數(shù)據(jù)倉庫不同層次之間的加工過程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對整個過程進(jìn)行有效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。

  在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個重要的組成部分。主要包含數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉庫元數(shù)據(jù)、數(shù)據(jù)鏈路元數(shù)據(jù)、工具類元數(shù)據(jù)、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)管理等,如用于存儲、計(jì)算和成本管理等。

  3數(shù)據(jù)服務(wù)層

  當(dāng)數(shù)據(jù)已被整合和計(jì)算好,需要提供給產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消費(fèi),為了更好的性能和體驗(yàn),阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層,通過接口服務(wù)化方式對外提供數(shù)據(jù)服務(wù)。針對不同的需求,數(shù)據(jù)服務(wù)層的數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫之上阿里巴巴信息采集器 ,如Mysql和Hbase等。后續(xù)將逐漸遷移至阿里云云數(shù)據(jù)庫ApsaraDB for RDS(簡稱RDS)和表格存儲(Table Store)等。

  數(shù)據(jù)服務(wù)可以使應(yīng)用對底層數(shù)據(jù)存儲透明,將海量數(shù)據(jù)方便高效地開放給集團(tuán)內(nèi)部各應(yīng)用使用。現(xiàn)數(shù)據(jù)服務(wù)每天幾十億的數(shù)據(jù)調(diào)用量,如何在性能、穩(wěn)定性、擴(kuò)展性等多方面更好地服務(wù)用戶;如何滿足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求;如何保證雙11媒體大屏的數(shù)據(jù)服務(wù)接口的高可用;隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)服務(wù)也在不斷前進(jìn)。

  數(shù)據(jù)服務(wù)層對外提供數(shù)據(jù)服務(wù)主要是通過OneService平臺。OneService以數(shù)據(jù)倉庫整合計(jì)算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù),主要提供簡單數(shù)據(jù)查詢服務(wù)、復(fù)雜數(shù)據(jù)查詢服務(wù)(類似用戶畫像(GProfile)等復(fù)雜數(shù)據(jù)查詢服務(wù))和實(shí)時數(shù)據(jù)推送服務(wù)等三大特色數(shù)據(jù)服務(wù)。

  4數(shù)據(jù)應(yīng)用層

  數(shù)據(jù)已經(jīng)準(zhǔn)備好,需要通過合適的應(yīng)用提供給用戶,讓數(shù)據(jù)最大化地發(fā)揮價值。阿里對數(shù)據(jù)的應(yīng)用表現(xiàn)在各個方面,搜索、推薦、廣告、金融、信用、保險、文娛、物流等。商家,阿里內(nèi)部的搜索、推薦、廣告、金融等平臺,阿里內(nèi)部的運(yùn)營和管理人員等,都是數(shù)據(jù)應(yīng)用方,各種應(yīng)用產(chǎn)品百花齊放; ISV、研究機(jī)構(gòu)和社會組織等也可以利用我們開放的數(shù)據(jù)能力和技術(shù)1688數(shù)據(jù)采集器。

  阿里巴巴基于數(shù)據(jù)的應(yīng)用有很多。我們相信,數(shù)據(jù)作為新能源,為社會注入的改變是顯而易見的。我們對數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上阿里巴巴產(chǎn)品采集助手。我們正在挖掘大數(shù)據(jù)更深層次的價值,為社會經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供數(shù)據(jù)層面的解讀。

如果您覺得 NASA計(jì)劃背后,阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu)概述 這篇文章對您有用,請分享給您的好友,謝謝
文章地址:http://www.meyanliao.com/article/online/NASAjhbhalbbdsjxtjggs.html
解放雙手無盡可能,有問題添加天線貓微信
主站蜘蛛池模板: 在线播放无码高潮的视频| 天堂无码在线观看| 成人av片无码免费天天看| av无码一区二区三区| 亚洲ⅴ国产v天堂a无码二区| 无码人妻一区二区三区兔费| 日韩成人无码中文字幕| 亚洲AV成人片无码网站| 无码精品久久久久久人妻中字| 久久亚洲精品无码gv| 无码囯产精品一区二区免费| 久久精品无码一区二区三区免费| 国产AV无码专区亚洲AVJULIA | 无码国产精品一区二区免费虚拟VR| 亚洲AV无码国产精品永久一区| 国产精品无码无需播放器| 无码色偷偷亚洲国内自拍| 孕妇特级毛片WW无码内射| 亚洲国产精品成人精品无码区| 亚欧无码精品无码有性视频| 亚洲中文无码卡通动漫野外| 亚洲av无码精品网站| 免费无码又爽又刺激网站| 一区二区三区无码高清| 无码人妻精一区二区三区| 在人线av无码免费高潮喷水| AV无码久久久久不卡蜜桃 | 一本大道在线无码一区| 一本色道无码道在线观看| 国产日韩精品无码区免费专区国产| JAVA性无码HD中文| 无码国产精品一区二区免费式影视 | 久久青青草原亚洲av无码app| 亚洲人成无码网WWW| 国产精品无码免费视频二三区| 久久亚洲AV成人无码国产最大| 亚洲一区二区无码偷拍| 在线看片无码永久免费视频| 精品欧洲AV无码一区二区男男| 成人免费午夜无码视频| 亚洲精品av无码喷奶水糖心|