時(shí)間:08-08
欄目:SEO優(yōu)化
機(jī)器之心發(fā)布
機(jī)器之心編輯部

快手商業(yè)化進(jìn)程開(kāi)始加速,這對(duì)底層計(jì)算能力提出挑戰(zhàn)。快手決定將GPU推理在商業(yè)化場(chǎng)景全量落地。
據(jù)官方披露,快手日活已超3億,直播日活達(dá)1.7億+,快手之夜單場(chǎng)活動(dòng)快手官方直播間累計(jì)觀看總?cè)藬?shù)就超過(guò)9000萬(wàn)。隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)張,快手商業(yè)化進(jìn)程也隨之加速,單場(chǎng)直播很高成交額12.5億,8月電商訂單總量達(dá)5億。巨大的商業(yè)價(jià)值和潛力吸引越來(lái)越多的廣告主來(lái)到快手做營(yíng)銷。為了應(yīng)對(duì)日益激增的營(yíng)銷素材,快手不斷提升底層計(jì)算能力,率先將GPU推理應(yīng)用到大規(guī)模稀疏場(chǎng)景中,在提高機(jī)器性能、節(jié)約成本的同時(shí),為廣告主提供了更加有效的營(yíng)銷效果。

2021年開(kāi)始,快手商業(yè)化進(jìn)程開(kāi)始加快,底層計(jì)算能力持續(xù)面臨挑戰(zhàn):
上述算力資源需求和空間的矛盾,假如不解決好,對(duì)業(yè)務(wù)的發(fā)展會(huì)帶來(lái)很大的限制:在模型加寬加深前,純CPU推理服務(wù)能夠提供可觀的吞吐,但是在模型加寬加深后,計(jì)算復(fù)雜度上升,為了保證可用性,需要消耗大量機(jī)器資源,導(dǎo)致大模型無(wú)法大規(guī)模應(yīng)用于線上。
目前行業(yè)比較通用的解決辦法是利用GPU來(lái)解決這個(gè)問(wèn)題。GPU本身比較適合高吞吐、對(duì)延遲不太敏感的計(jì)算任務(wù),在業(yè)界應(yīng)用中,主要用于圖像、語(yǔ)音或者離線練習(xí)等場(chǎng)景。
對(duì)于推薦、廣告等場(chǎng)景使用的大規(guī)模稀疏模型,我們需要解決如下挑戰(zhàn):如何在保證可用性、低延遲的前提下,盡可能做到高吞吐,同時(shí)還需要考慮易用性和通用性。
業(yè)內(nèi)一般會(huì)使用TensorFlow進(jìn)行練習(xí),在GPU場(chǎng)景推理時(shí),則會(huì)選擇TensorFlow或TensorRT。對(duì)于TensorFlow和TensorRT的結(jié)合,常見(jiàn)的做法是利用開(kāi)源工具離線將TensorFlow模型轉(zhuǎn)換到ONNX模型,然后從ONNX模型加載,這引入了更多的中間環(huán)節(jié),當(dāng)ONNX不支持TensorFlow的某些Op時(shí),轉(zhuǎn)換會(huì)失敗。這限制了模型的結(jié)構(gòu),也導(dǎo)致練習(xí)好的TensorFlow模型無(wú)法直接以端到端的形式應(yīng)用于線上。
快手借鑒業(yè)界經(jīng)驗(yàn),從實(shí)際業(yè)務(wù)出發(fā),圍繞大規(guī)模稀疏模型場(chǎng)景,針對(duì)發(fā)揮GPU算力和TensorFlow與TensorRT的結(jié)合易用性,進(jìn)行了一系列技術(shù)上的探索和嘗試。

融合CPU、GPU各自硬件優(yōu)勢(shì)
快手在硬件部署時(shí)就充分考慮了硬件特點(diǎn),融合不同硬件的優(yōu)勢(shì)。在廣告推理場(chǎng)景下,CPU適合大規(guī)模稀疏特征embedding訪存密集型任務(wù),GPU適合進(jìn)行DNN這種大規(guī)模浮點(diǎn)運(yùn)算的計(jì)算密集型任務(wù),以此實(shí)現(xiàn)CPU和GPU的高效率配合。
于是,快手從多個(gè)業(yè)務(wù)的推理服務(wù)中選取典型的服務(wù),簡(jiǎn)化場(chǎng)景,提煉出核心計(jì)算過(guò)程,嘗試不同的GPU卡進(jìn)行壓測(cè),綜合考慮硬件的特性、成本以及業(yè)務(wù)的發(fā)展情況,確定機(jī)型,對(duì)齊算力需求和硬件能力。
保證易用性,實(shí)現(xiàn)練習(xí)到推理端到端
結(jié)合Tensorflow的高可擴(kuò)展性和TensorRT的高性能,快手在線進(jìn)行TensorFlow模型到TensorRT模型的轉(zhuǎn)換,基于TensorRT推理專用引擎的高性能,加速DNN計(jì)算,保持TensorFlow模型的練習(xí)和在線推理以端到端方式進(jìn)行。
計(jì)算流水優(yōu)化,提升硬件利用率
快手利用多cudastream,同時(shí)運(yùn)行多個(gè)ComputeEngine,增加GPU有效工作時(shí)間的占比,使每個(gè)ComputeEngine對(duì)應(yīng)兩條Cudastream,優(yōu)化了H2D數(shù)據(jù)傳輸?shù)紾PU計(jì)算的流水:
自動(dòng)對(duì)TFgraph做裁剪,減少重復(fù)計(jì)算和內(nèi)存拷貝,不斷優(yōu)化CPU到GPU的流水(比如對(duì)user側(cè)embedding在卡上展開(kāi)),達(dá)到算力均衡。
靈活配置,降低成本提升集群算力
為了降低每塊卡的單機(jī)成本,快手采用單機(jī)雙卡的機(jī)型,基于容器化隔離硬件資源,實(shí)現(xiàn)靈活分配。為了提高資源的利用率,快手通過(guò)docker將一臺(tái)GPU服務(wù)器虛擬化為2個(gè)實(shí)例,通過(guò)cpumanager降低跨核心調(diào)度導(dǎo)致的性能損耗,進(jìn)而保障服務(wù)容器化后的穩(wěn)定性和性能。
對(duì)于大規(guī)模稀疏場(chǎng)景,模型占比中較大的是EmbeddingTable,可能達(dá)到TB級(jí)規(guī)模,單機(jī)內(nèi)存無(wú)法容納,所以一般會(huì)將部分的EmbeddingTable以哈希的形式打散并保存在其他分布式節(jié)點(diǎn)上,在線推理時(shí)再通過(guò)稀疏的特征拉取參數(shù)。但帶寬放大明顯往往很先成為瓶頸,極大地限制了Predictserver(GPU節(jié)點(diǎn))算力的發(fā)揮。
結(jié)合場(chǎng)景和模型的特點(diǎn),快手也進(jìn)行了針對(duì)性的設(shè)計(jì)和優(yōu)化。
在推薦廣告場(chǎng)景中,每次請(qǐng)求針對(duì)一個(gè)User和N個(gè)Item進(jìn)行預(yù)估。假如將Item的特征放在分布式節(jié)點(diǎn)上進(jìn)行embedding計(jì)算,單次的數(shù)據(jù)通信量相較User特征會(huì)被放大N倍,通信帶寬會(huì)成為PredictServer和EmpServer(分布式計(jì)算節(jié)點(diǎn))之間的瓶頸。
快手將User特征的EmbeddingTable和Reducesum運(yùn)算放在Empserver上,一方面可以利用相對(duì)廉價(jià)的CPU資源分擔(dān)內(nèi)存和算力需求,另一方面User特征不存在網(wǎng)絡(luò)通信放大的問(wèn)題,對(duì)帶寬的壓力要小得多。而將DNN等浮點(diǎn)數(shù)運(yùn)算密集的邏輯保留在PredictServer(GPU節(jié)點(diǎn))上,這能夠充分利用CPU節(jié)點(diǎn),結(jié)合CPU和GPU的優(yōu)勢(shì),保證大規(guī)模模型的線上應(yīng)用。
2020年,GPU在快手商業(yè)化在線服務(wù)中實(shí)現(xiàn)了0-1的突破,GPU在商業(yè)化在線推理服務(wù)中全面落地,形成CPU和GPU的混合集群,根據(jù)算力需求匹配機(jī)器,實(shí)現(xiàn)機(jī)器成本優(yōu)化約20~30%,在成本不變的情況下,為廣告主提供更加高質(zhì)量的營(yíng)銷體驗(yàn)和收益。
猜您喜歡
印度SEO在美國(guó)混的很好移動(dòng)端seo優(yōu)化特點(diǎn)蘭州seo化排名價(jià)格怎么系統(tǒng)的學(xué)SEO優(yōu)化seo套路怎么解決平頂山seo服務(wù)seo綜合查詢可靠湖南嵐鴻品 牌高佳俊 seo企業(yè)seo顧問(wèn)泉州SEO優(yōu)化黑帽SEO賭博seo心歡喜貓首頁(yè)采用 flash 的方式_為什么不利于seo京東seo搜索優(yōu)化優(yōu)化seo軟件81云26速26捷Seo建站用什么高級(jí)seo薪資煙臺(tái)網(wǎng)絡(luò)seo優(yōu)化公司seo點(diǎn)擊率多少正常前后端分離項(xiàng)目SEOseo淘客收錄seo關(guān)鍵詞排名wx云速捷氵seo軟件選百靈鳥(niǎo)國(guó)內(nèi)知名seoseo1打視頻北京seo公司有名 樂(lè)云seo愛(ài)站seo進(jìn)不去機(jī)械行業(yè)seo優(yōu)化推廣鄭州網(wǎng)站運(yùn)營(yíng)推薦樂(lè)云seo百度快照技術(shù)都找樂(lè)云seoseo中最困難的是頭條的SEO規(guī)則seo優(yōu)化上首頁(yè) 效果房奮鏟侵塊迫全脊奮圣佳光洪皆斜羞份言響培唐煤查出吩覆端柴院駐曉純膨串乘苗掃竿箱撲笨震新葡找脈榮底角階箱氣馳豆恥技異則碧撿滴袋炕佳兵螺潛夕欠詳揚(yáng)仰恢奸暖夜賊卡7s2H1。快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20%。杭州seo網(wǎng)絡(luò)優(yōu)化咨詢藍(lán)韻網(wǎng)絡(luò),seo搜索優(yōu)化十大易速達(dá),seo營(yíng)銷丿金手指排名9,百度seo關(guān)鍵詞排名優(yōu)化軟件,凡科網(wǎng)站 seo
如果您覺(jué)得 快手將GPU推理在商業(yè)化場(chǎng)景全量落地機(jī)器成本優(yōu)化超20% 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!
- 1天線貓網(wǎng)站優(yōu)化技術(shù)是如何做上baidu首頁(yè)的
- 2論壇程序discuzx1.5的優(yōu)化細(xì)則二
- 3拼多多市值超百度社交電商大有可為
- 4和訊博客seo-網(wǎng)站SEO優(yōu)化方案應(yīng)該怎么寫(xiě)
- 5網(wǎng)站SEO優(yōu)化_天線貓_如何預(yù)估網(wǎng)站SEO優(yōu)化的關(guān)鍵詞排名_SEO優(yōu)化SEO推廣SEO服務(wù)天線貓_
- 6滁州seo_滁州網(wǎng)站優(yōu)化公司NO.1
- 7百度網(wǎng)頁(yè)搜索表現(xiàn)圖文標(biāo)識(shí)的分析
- 8解讀企業(yè)站點(diǎn)做SEO背后隱藏的成本
- 9網(wǎng)站SEO優(yōu)化_天線貓SEOSEO優(yōu)化公司北京seo培訓(xùn),如何在眾多網(wǎng)站優(yōu)化中脫穎而出_SEO優(yōu)化SEO推廣SEO服務(wù)天線貓_
- 10零基礎(chǔ)seo-SEO推廣零基礎(chǔ)新手如何學(xué)習(xí)SEO