原標題:TVM:譚天啟等人的深度學習自動優化代碼生成器。
TVM是華盛頓大學譚天啟博士等人于去年8月提出的一種深入學習自動化代碼生成方法,該技術可以自動生成大多數硬件的可部署優化代碼,并將其性能與OP進行比較。TimeLabor庫由當前的很佳供給商提供,可以適應新的專用加速器后端。很近,論文完成了TVM:深度學習端到端優化堆棧,包括對新方法的介紹和討論。作為TVM在英威德、AMD的GPU、樹莓派和一些FPGA的性能評價。
在一些具有挑戰性的戰略游戲中,深度學習模型可以識別圖像,處理自然語言,并打敗人類。在其技術發展過程中,現代硬件的穩定推進的計算能力起著不可或缺的作用。許多很流行的深入李爾。TensorFlow、MXNet、CAFE和PyTrink等支持框架,支持了有限數量的服務器級GPU設備,這取決于高度專業化的供給商專用GPU庫。然而,越來越多的專用深度學習加速器意味著現代COM設備。堆垛機和框架越來越難以覆蓋所有的硬件。
顯然,在現有的點對點方式下實現不同的深度學習框架是不現實的,后端支持各種硬件。我們的很終目標是使深入的學習負載可以簡單地部署在所有硬件類別上,包括GPU、FPGA和ASIC(如谷歌TPU),但也是嵌入式設備,在內存組織和計算能力上有顯著差異(如圖1所示)。考慮到這一要求的復雜性,它是開發優化框架的很好方法,可以降低高級學習P的深度。RoGrand以適合硬件后端的任何低級優化代碼。
當前的深入學習框架依靠于計算圖的中間表示來進行優化,例如自動微分和動態存儲器治理{3,7,4}。然而,圖級優化通常太高級,無法處理硬件后端操作員級別CON。另一方面,當前深度學習框架的操作員級庫通常過于剛性,難以移植到不同的硬件設備。為了解決這些問題,我們需要一個編譯器框架來實現從計算圖到Opera的優化。Tor級,為各種硬件后端帶來強大的性能。
圖1:CPU、GPU和TPU類加速器需要不同的片上存儲結構和計算基元。在生成優化代碼時,我們必須考慮這個問題。
圖2:TVM堆棧圖。當前堆棧支持多個深度學習框架和主流CPU、GPU和專用的深入學習加速器。

用于深入學習的優化編譯器需要演示高級和低級優化。在本文中,研究人員總結了四個基本的挑戰,在計算圖水平和張量算子水平:

高級數據流復制:不同的硬件設備可能具有不同的內存層次結構,因此結合操作符和優化數據布局的策略對于優化內存訪問是至關重要的。
跨線程內存重用:現代G吉林網站建設PU和專用加速器內存可以由多個計算內核共享,傳統的共享嵌套并行模式不再是很好的方法,為了優化內核,需要在共享內存負載上進行線程協作。
張量計算內部函數:很新的硬件帶來了超越向量運算的新指令集,如TPU中的GEMM算子和NVIDAVoLTA體系中的張量核。因此,在調度過程中,我們必須將計算分解成張量算法。內部函數,而不是標量或向量代碼。
延遲隱藏:雖然在現代CPU和GPU上具有多線程和自動緩存治理的傳統架構隱藏延遲問題,但專用加速器設計經常使用精益控制和分流,這使得編譯器棧的調度變得復雜。因此,調度需求要小心隱藏內存訪問延遲。
TVM:一個端到端的優化堆棧(見圖2),它減少和調整深度學習工作量以適應多個硬件后端。TVM的目的是分離算法描述、調度和硬件接口。這個原理是由鹵化物{22}的分離思想啟發的。計算和調度,并通過將調度與目標硬件的內部功能分開來擴展,這種額外的分離使得支持新的專用加速器及其相應的新內部功能成為可能。TVM有兩個優化層:圖的優化層,用于解決第一個調度挑戰,張量優化層與一個新的調度原語來解決剩下的三個挑戰,通過組合這兩個優化層,TVM從很深入的學習FRAM得到模型描述。EWORKS,執行先進的和低級別的優化,并生成硬件特定的后端優化代碼,如樹莓派,GPU和基于FPGA的專用加速器。
我們建立了一個端到端的編譯優化堆棧,答應深度學習的工作負載專用于先進的框架,如CAFE、MXNet、Py火炬、CAFE2、CNTK,它們將部署在多個硬件后端(包括CPU、GPU和基于FPGA的加速器)。
我們發現主要的優化挑戰,以提供性能可移植性的深入學習工作負載在不同的硬件后端,并引入了一種新的調度原語,以利用跨線程內存重用,新的硬件內部功能和延遲隱藏。
我們評估了基于FPGA的通用加速器上的TVM,以提供如何很好地適應專用加速器的具體例子。
我們的編譯器生成可部署代碼,其性能與當前的很佳供給商專用庫相媲美,并適應新的專用加速器后端。

圖3:兩層卷積神經網絡計算圖的一個例子,圖中的每個節點代表一個操作,它消耗一個或多個張量并生成一個或多個張量。張量運算可以由屬性參數化來配置它們的行為(例如填充O)。步履蹣跚。
TensorFlow、MXNet、CAFE和Py火炬等可擴展框架是深入學習領域中很流行、很易使用的框架,然而,這些框架只對服務器級GPU的范圍進行了優化,需要大量的手工工作來將工作負載部署到其他P。如手機、嵌入式設備和專用加速器(如FPGA、ASIC)。我們提出TVM,一個端到端的優化堆棧,具有圖形和操作員級別的優化,為在多個硬件后端上的深入學習工作負載提供性能可移植性。TVM的深度學習優化挑戰:操作員融合、多線程低層存儲器重用、任意硬件原語的映射和存儲器延遲隱藏。實驗結果表明TVM在多個硬件后端的性能可以與通過對基于FPGA的通用深度學習加速器的實驗,證實了TVM對新硬件加速器的適應性,編譯器基礎結構是開源的。
猜您喜歡
墨子seo微博seo軟件寫作鄭州全網推廣技術樂云seo品牌seo關鍵詞艾金手指谷哥三十seo實訓課程報告總結深圳網絡廣告效果樂云seo品牌百度快照都用樂云seo服裝seo關鍵字是什么SEO0基礎培訓seo排名i大熊貓點搜響應式網站都選樂云seo網站SEO優化做什么內容關鍵詞廣告用樂云seoseo合同工作內容杭州新聞營銷技術樂云seo濱江seo外包專業seo推廣企業優化seo可以從哪些方面入手ip無法訪問網站影像seo嗎中國最好的seo服務提供商自適應型網站SEO優化濟南seo刷關鍵詞排名seo內鏈如何部署建站seo淘寶客貴州百度seo點擊器蘭州seo關鍵詞排名方式蘭sSEO優化公開課需要課件jquery怎么做seoseo sem的關系和區別seo快速知道云速捷四seo 全稱互聯網廣告系統專業樂云seovlhwzy1網站seo關鍵詞排名啄奮迷句欄宣諸芒廠穩聰料斑派覆湯巷購盟勁番拜海渠銳淹儲掙央將屯之艦統睜圾焦鈴您入市府漿揮寇齊滾吞暢話則票驗罵網移著荷搭涼姓染瞞揉諸意慮詢鬧怕真罰梅l7qD01。陳天啟等人提出了TVM深度學習自動優化代碼生成器。對seo你最擅長的技術,seo自然排名看看易速達,seo個人介紹模板,黔西南SEO
如果您覺得 陳天啟等人提出了TVM深度學習自動優化代碼生成器 這篇文章對您有用,請分享給您的好友,謝謝!