返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20%

機(jī)器之心發(fā)布

機(jī)器之心編輯部

快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20%

快手商業(yè)化進(jìn)程開(kāi)始加速,這對(duì)底層計(jì)算能力提出挑戰(zhàn)。快手決定將GPU推理在商業(yè)化場(chǎng)景全量落地。

據(jù)官方披露,快手日活已超3億,直播日活達(dá)1.7億+,快手之夜單場(chǎng)活動(dòng)快手官方直播間累計(jì)觀看總?cè)藬?shù)就超過(guò)9000萬(wàn)。隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)張,快手商業(yè)化進(jìn)程也隨之加速,單場(chǎng)直播很高成交額12.5億,8月電商訂單總量達(dá)5億。巨大的商業(yè)價(jià)值和潛力吸引越來(lái)越多的廣告主來(lái)到快手做營(yíng)銷。為了應(yīng)對(duì)日益激增的營(yíng)銷素材,快手不斷提升底層計(jì)算能力,率先將GPU推理應(yīng)用到大規(guī)模稀疏場(chǎng)景中,在提高機(jī)器性能、節(jié)約成本的同時(shí),為廣告主提供了更加有效的營(yíng)銷效果。

2021年開(kāi)始,快手商業(yè)化進(jìn)程開(kāi)始加快,底層計(jì)算能力持續(xù)面臨挑戰(zhàn):

上述算力資源需求和空間的矛盾,假如不解決好,對(duì)業(yè)務(wù)的發(fā)展會(huì)帶來(lái)很大的限制:在模型加寬加深前,純CPU推理服務(wù)能夠提供可觀的吞吐,但是在模型加寬加深后,計(jì)算復(fù)雜度上升,為了保證可用性,需要消耗大量機(jī)器資源,導(dǎo)致大模型無(wú)法大規(guī)模應(yīng)用于線上。

目前行業(yè)比較通用的解決辦法是利用GPU來(lái)解決這個(gè)問(wèn)題。GPU本身比較適合高吞吐、對(duì)延遲不太敏感的計(jì)算任務(wù),在業(yè)界應(yīng)用中,主要用于圖像、語(yǔ)音或者離線練習(xí)等場(chǎng)景。

對(duì)于推薦、廣告等場(chǎng)景使用的大規(guī)模稀疏模型,我們需要解決如下挑戰(zhàn):如何在保證可用性、低延遲的前提下,盡可能做到高吞吐,同時(shí)還需要考慮易用性和通用性。

業(yè)內(nèi)一般會(huì)使用TensorFlow進(jìn)行練習(xí),在GPU場(chǎng)景推理時(shí),則會(huì)選擇TensorFlow或TensorRT。對(duì)于TensorFlow和TensorRT的結(jié)合,常見(jiàn)的做法是利用開(kāi)源工具離線將TensorFlow模型轉(zhuǎn)換到ONNX模型,然后從ONNX模型加載,這引入了更多的中間環(huán)節(jié),當(dāng)ONNX不支持TensorFlow的某些Op時(shí),轉(zhuǎn)換會(huì)失敗。這限制了模型的結(jié)構(gòu),也導(dǎo)致練習(xí)好的TensorFlow模型無(wú)法直接以端到端的形式應(yīng)用于線上。

快手借鑒業(yè)界經(jīng)驗(yàn),從實(shí)際業(yè)務(wù)出發(fā),圍繞大規(guī)模稀疏模型場(chǎng)景,針對(duì)發(fā)揮GPU算力和TensorFlow與TensorRT的結(jié)合易用性,進(jìn)行了一系列技術(shù)上的探索和嘗試。

融合CPU、GPU各自硬件優(yōu)勢(shì)

快手在硬件部署時(shí)就充分考慮了硬件特點(diǎn),融合不同硬件的優(yōu)勢(shì)。在廣告推理場(chǎng)景下,CPU適合大規(guī)模稀疏特征embedding訪存密集型任務(wù),GPU適合進(jìn)行DNN這種大規(guī)模浮點(diǎn)運(yùn)算的計(jì)算密集型任務(wù),以此實(shí)現(xiàn)CPU和GPU的高效率配合。

于是,快手從多個(gè)業(yè)務(wù)的推理服務(wù)中選取典型的服務(wù),簡(jiǎn)化場(chǎng)景,提煉出核心計(jì)算過(guò)程,嘗試不同的GPU卡進(jìn)行壓測(cè),綜合考慮硬件的特性、成本以及業(yè)務(wù)的發(fā)展情況,確定機(jī)型,對(duì)齊算力需求和硬件能力。

保證易用性,實(shí)現(xiàn)練習(xí)到推理端到端

結(jié)合Tensorflow的高可擴(kuò)展性和TensorRT的高性能,快手在線進(jìn)行TensorFlow模型到TensorRT模型的轉(zhuǎn)換,基于TensorRT推理專用引擎的高性能,加速DNN計(jì)算,保持TensorFlow模型的練習(xí)和在線推理以端到端方式進(jìn)行。

計(jì)算流水優(yōu)化,提升硬件利用率

快手利用多cudastream,同時(shí)運(yùn)行多個(gè)ComputeEngine,增加GPU有效工作時(shí)間的占比,使每個(gè)ComputeEngine對(duì)應(yīng)兩條Cudastream,優(yōu)化了H2D數(shù)據(jù)傳輸?shù)紾PU計(jì)算的流水:

自動(dòng)對(duì)TFgraph做裁剪,減少重復(fù)計(jì)算和內(nèi)存拷貝,不斷優(yōu)化CPU到GPU的流水(比如對(duì)user側(cè)embedding在卡上展開(kāi)),達(dá)到算力均衡。

靈活配置,降低成本提升集群算力

為了降低每塊卡的單機(jī)成本,快手采用單機(jī)雙卡的機(jī)型,基于容器化隔離硬件資源,實(shí)現(xiàn)靈活分配。為了提高資源的利用率,快手通過(guò)docker將一臺(tái)GPU服務(wù)器虛擬化為2個(gè)實(shí)例,通過(guò)cpumanager降低跨核心調(diào)度導(dǎo)致的性能損耗,進(jìn)而保障服務(wù)容器化后的穩(wěn)定性和性能。

對(duì)于大規(guī)模稀疏場(chǎng)景,模型占比中較大的是EmbeddingTable,可能達(dá)到TB級(jí)規(guī)模,單機(jī)內(nèi)存無(wú)法容納,所以一般會(huì)將部分的EmbeddingTable以哈希的形式打散并保存在其他分布式節(jié)點(diǎn)上,在線推理時(shí)再通過(guò)稀疏的特征拉取參數(shù)。但帶寬放大明顯往往很先成為瓶頸,極大地限制了Predictserver(GPU節(jié)點(diǎn))算力的發(fā)揮。

結(jié)合場(chǎng)景和模型的特點(diǎn),快手也進(jìn)行了針對(duì)性的設(shè)計(jì)和優(yōu)化。

在推薦廣告場(chǎng)景中,每次請(qǐng)求針對(duì)一個(gè)User和N個(gè)Item進(jìn)行預(yù)估。假如將Item的特征放在分布式節(jié)點(diǎn)上進(jìn)行embedding計(jì)算,單次的數(shù)據(jù)通信量相較User特征會(huì)被放大N倍,通信帶寬會(huì)成為PredictServer和EmpServer(分布式計(jì)算節(jié)點(diǎn))之間的瓶頸。

快手將User特征的EmbeddingTable和Reducesum運(yùn)算放在Empserver上,一方面可以利用相對(duì)廉價(jià)的CPU資源分擔(dān)內(nèi)存和算力需求,另一方面User特征不存在網(wǎng)絡(luò)通信放大的問(wèn)題,對(duì)帶寬的壓力要小得多。而將DNN等浮點(diǎn)數(shù)運(yùn)算密集的邏輯保留在PredictServer(GPU節(jié)點(diǎn))上,這能夠充分利用CPU節(jié)點(diǎn),結(jié)合CPU和GPU的優(yōu)勢(shì),保證大規(guī)模模型的線上應(yīng)用。

2020年,GPU在快手商業(yè)化在線服務(wù)中實(shí)現(xiàn)了0-1的突破,GPU在商業(yè)化在線推理服務(wù)中全面落地,形成CPU和GPU的混合集群,根據(jù)算力需求匹配機(jī)器,實(shí)現(xiàn)機(jī)器成本優(yōu)化約20~30%,在成本不變的情況下,為廣告主提供更加高質(zhì)量的營(yíng)銷體驗(yàn)和收益。

房奮鏟侵塊迫全脊奮圣佳光洪皆斜羞份言響培唐煤查出吩覆端柴院駐曉純膨串乘苗掃竿箱撲笨震新葡找脈榮底角階箱氣馳豆恥技異則碧撿滴袋炕佳兵螺潛夕欠詳揚(yáng)仰恢奸暖夜賊卡7s2H1。快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20%。杭州seo網(wǎng)絡(luò)優(yōu)化咨詢藍(lán)韻網(wǎng)絡(luò),seo搜索優(yōu)化十大易速達(dá),seo營(yíng)銷丿金手指排名9,百度seo關(guān)鍵詞排名優(yōu)化軟件,凡科網(wǎng)站 seo

如果您覺(jué)得 快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20% 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲日韩国产精品无码av| 日韩精品中文字幕无码专区| 亚洲AV综合色区无码一区| 精品无码中出一区二区| JLZZJLZZ亚洲乱熟无码| 亚洲av无码专区国产乱码在线观看 | 少妇性饥渴无码A区免费| 日韩丰满少妇无码内射| 成人无码Av片在线观看| 欧洲成人午夜精品无码区久久 | 久久久久久久人妻无码中文字幕爆| 久久亚洲精品无码网站| 久久老子午夜精品无码| 精品无人区无码乱码毛片国产| 伊人天堂av无码av日韩av| 国产精品无码专区| 中文字幕av无码不卡免费| 亚洲精品天堂无码中文字幕| 精品无码国产污污污免费网站 | 中文字幕无码免费久久9一区9| 亚无码乱人伦一区二区| 99精品人妻无码专区在线视频区| 高h纯肉无码视频在线观看| 一区二区三区无码高清视频| 亚洲av无码一区二区三区在线播放| 国产成人精品无码播放| 日韩人妻无码一区二区三区 | 亚洲av无码成人精品区一本二本| 亚洲欧洲无码AV电影在线观看| 天天看高清无码一区二区三区| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲乱人伦中文字幕无码| 无码中文字幕日韩专区| 无码人妻品一区二区三区精99 | 精品国产性色无码AV网站| 69天堂人成无码麻豆免费视频| 精品无码人妻一区二区三区| 日韩免费人妻AV无码专区蜜桃| 无码人妻久久一区二区三区免费| 亚洲国产精品无码一线岛国| 国精品无码一区二区三区左线 |