返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器
本文約3284字,建議閱讀8分鐘。 本文介紹阿里達(dá)摩院的研究者另辟蹊徑,直接對梯度下手,提出全新的梯度中心化方法。只需一行代碼即可嵌入現(xiàn)有的DNN優(yōu)化器中,還可以直接對預(yù)練習(xí)模型進(jìn)行微調(diào)。 優(yōu)化技術(shù)對于深度神經(jīng)網(wǎng)絡(luò)(DNN)的高效練習(xí)至關(guān)重要。以往的研究表明,使用一階和二階統(tǒng)計(jì)量(如平均值和方差)在網(wǎng)絡(luò)激活或權(quán)重向量上執(zhí)行Z-score標(biāo)準(zhǔn)化(如批歸一化BN和權(quán)重標(biāo)準(zhǔn)化WS)可以提升練習(xí)性能。 已有方法大多基于激活或權(quán)重執(zhí)行,很近阿里達(dá)摩院的研究人員另辟蹊徑提出了一種新型優(yōu)化技術(shù)——梯度中心化(gradientcentralization,GC),該方法通過中心化梯度向量使其達(dá)到零均值,從而直接在梯度上執(zhí)行。 我們可以把GC方法看做對權(quán)重空間和輸出特征空間的正則化,從而提升DNN的泛化性能。此外,GC還能提升損失函數(shù)和梯度的Lipschitz屬性,從而使練習(xí)過程更加高效和穩(wěn)定。 GC的實(shí)現(xiàn)比較簡單,只需一行代碼即可將GC輕松嵌入到現(xiàn)有基于梯度的DNN優(yōu)化器中。它還可以直接用于微調(diào)預(yù)練習(xí)DNN。研究者在不同應(yīng)用中進(jìn)行了實(shí)驗(yàn),包括通用圖像分類和微調(diào)圖像分類、檢測與分割,結(jié)果表明GC可以持續(xù)提升DNN學(xué)習(xí)性能。 不同于基于激活或權(quán)重向量運(yùn)行的技術(shù),該研究提出了一種基于權(quán)重向量梯度的簡單而有效的DNN優(yōu)化技術(shù)——梯度中心化(GC)。 如圖1(a)所示,GC只是通過中心化梯度向量使其阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器達(dá)到零均值。只需要一行代碼,即可將其輕松嵌入到當(dāng)前基于梯度的優(yōu)化算法(如SGDM、Adam)。 盡管簡單,但GC達(dá)到了多個期望效果,比如加速練習(xí)過程,提高泛化性能,以及對于微調(diào)預(yù)練習(xí)模型的兼容性。 圖1:(a)使用GC的示意圖。W表示權(quán)重,L表示損失函數(shù),∇_WL表示權(quán)重梯度,Φ_GC(∇_WL)表示中心梯度。如圖所示,用Φ_GC(∇_WL)替換∇_WL來實(shí)現(xiàn)GC到現(xiàn)有網(wǎng)絡(luò)優(yōu)化器的嵌入,步驟很簡單。(b)全連接層(左)和卷積層(右)上梯度矩陣/權(quán)重張量的GC運(yùn)算。GC計(jì)算梯度矩陣/張量的每列/slice的平均值,并將每列/slice中心化為零均值。 該研究的主要貢獻(xiàn)有: 研究動機(jī) 研究者提出了這樣的疑問:除了對激活和權(quán)重的處理外,是否能夠直接對梯度進(jìn)行處理,從而使練習(xí)過程更加高效穩(wěn)定呢?一個直觀的想法是,類似于BN和WS在激活與權(quán)重上的操作,使用Z-score標(biāo)準(zhǔn)化方法對梯度執(zhí)行歸一化。不幸的是,研究者發(fā)現(xiàn)單純地歸一化梯度并不能提高練習(xí)過程的穩(wěn)定性。于是,研究者提出一種計(jì)算梯度向量均值并將梯度中心化為零均值的方法——梯度中心化。該方法具備較好的利普希茨屬性,能夠平滑DNN的練習(xí)過程并提升模型的泛化性能。 GC公式 對于全連接層或卷積層,假設(shè)已經(jīng)通過反向傳播獲得梯度,那么對于梯度為∇_w_iL(i=1,2,...,N)的權(quán)重向量w_i,GC的公式如下所示: 其中 GC的公式很簡單。如圖1(b)所示,只需要計(jì)算權(quán)重矩陣列向量的平均值,然后從每個列向量中移除平均值即可。 公式1的矩陣表述如下所示: 在實(shí)際實(shí)現(xiàn)中,我們可以從每個權(quán)重向量中直接移除平均值來完成GC操作。整個計(jì)算過程非常簡單高效。 GC嵌入到SGDM/Adam中,效果如何? GC可以輕松嵌入到當(dāng)前的DNN優(yōu)化算法中,如SGDM和Adam。在得到中心化梯度Φ_GC(∇_wL)后,研究者直接使用它更新權(quán)重矩陣。算法1和算法2分別展示了將GC嵌入兩大很流行優(yōu)化算法SGDM和Adam的過程。此外,如要使用權(quán)重衰減,可以設(shè)置 ,其中λ表示權(quán)重衰減因子。 將GC嵌入到大部分DNN優(yōu)化算法僅需一行代碼,就可以微小的額外計(jì)算成本執(zhí)行GC。例如,研究者使用ResNet50在CIFAR100數(shù)據(jù)集上進(jìn)行了一個epoch的練習(xí),練習(xí)時間僅增加了0.6秒(一個epoch耗時71秒)。 提升泛化性能 我們可以把GC看作具備約束損失函數(shù)的投影梯度下降方法。約束損失函數(shù)及其梯度的利普希茨屬性更優(yōu),從而使練習(xí)過程更加高效穩(wěn)定。 之前的研究已經(jīng)說明了投影梯度方法的特性,即投影權(quán)重梯度將限制超平面或黎曼流形的權(quán)重空間。類似地,我們也可以從投影梯度下降的角度看待GC的作用。下圖2展示了使用GC方法的SGD: 圖2:GC方法的幾何解釋。梯度被投影在超平面e^T(w−w^t)=0上,投影梯度被用于更新權(quán)重。 加速練習(xí)過程 優(yōu)化圖景平滑:之前的研究表明BN和WS可以平滑優(yōu)化圖景。盡管BN和WS在激活和權(quán)重上執(zhí)行,但它們隱式地限制了權(quán)重梯度,從而使權(quán)重梯度在快速練習(xí)時更具猜測性,也更加穩(wěn)定。 類似的結(jié)論也適用于GC方法,研究者對比了原始損失函數(shù)L(w)和公式4中約束損失函數(shù)的利普希茨屬性,以及函數(shù)梯度的利普希茨屬性。 梯度爆炸抑制:GC對于DNN練習(xí)的另一個好處是避免梯度爆炸,使練習(xí)更加穩(wěn)定。這一屬性類似于梯度剪裁。梯度太大會導(dǎo)致權(quán)重在練習(xí)過程中急劇變化,造成損失嚴(yán)重振蕩且難以收斂。 為了研究GC對梯度剪裁的影響,研究者在圖4中展示了,在使用和不使用GC方法時(在CIFAR100上練習(xí)得到的)ResNet50第一個卷積層和全連接層的梯度矩陣很大值和L2范數(shù)。從圖中我們可以看到,在練習(xí)過程中使用GC方法使得梯度矩陣的很大值和L_2范數(shù)有所降低。 圖4:梯度矩陣或張量的L_2范數(shù)(對數(shù)尺度)和很大值(對數(shù)尺度)隨迭代次數(shù)的變化情況。此處使用在CIFAR100上練習(xí)得到的ResNet50作為DNN模型。左側(cè)兩幅圖展示了在第一個卷積層上的結(jié)果,右側(cè)兩幅圖展示了全連接層上的結(jié)果。紅點(diǎn)表示不使用GC方法的練習(xí)結(jié)果,藍(lán)點(diǎn)反之。 下圖5展示了四種組合的練習(xí)損失和測試正確率曲線。 與BN相比,BN+GC的練習(xí)損失下降得更快,同時測試正確率上升得也更快。對于BN和BN+WS而言,GC能夠進(jìn)一步加快它們的練習(xí)速度。此外,我們可以看到,BN+GC實(shí)現(xiàn)了很高的測試正確度,由此驗(yàn)證了GC能夠同時加速練習(xí)過程并增強(qiáng)泛化性能。 圖5:在Mini-ImageNet數(shù)據(jù)集上,練習(xí)損失(左)和測試正確率(右)曲線隨練習(xí)epoch的變化情況。ResNet50被用作DNN模型。進(jìn)行對比的優(yōu)化方法包括BN、BN+GC、BN+WS和BN+WS+GC。 下表3展示了不同權(quán)重衰減設(shè)置下的測試正確率變化,包括0、1e^-4、2e^-4、5e^-4和1e^-3。優(yōu)化器是學(xué)習(xí)率為0.1的SGDM。從表中可以看到,權(quán)重衰減的性能通過GC實(shí)現(xiàn)了持續(xù)改善。 表3:在不同權(quán)重衰減設(shè)置下,使用ResNet50在CIFAR100數(shù)據(jù)集上的測試正確率。 下表4展示了SGDM和Adam在不同學(xué)習(xí)率下的測試正確率變化。 表4:使用ResNet50,不同學(xué)習(xí)率的SGDM和Adam在CIFAR100數(shù)據(jù)集上的測試正確率。 下圖6展示了ResNet50的練習(xí)和驗(yàn)證誤差曲線(GN被用于特征歸一化)。我們可以看到,借助于GN,GC可以大大加速練習(xí)過程。 圖6:在ImageNet數(shù)據(jù)集上,練習(xí)誤差(左)和驗(yàn)證誤差(右)曲線隨練習(xí)epoch的變化情況。 下圖7展示了在4個細(xì)粒度圖像分類數(shù)據(jù)集上執(zhí)行前40個epoch時,SGDM和SGDM+GC的練習(xí)和測試正確率。 圖7:在4個細(xì)粒度圖像分類數(shù)據(jù)集上,練習(xí)正確率(實(shí)線)和測試正確率(虛線)曲線隨練習(xí)epoch的變化情況。 下表8展示了FasterR-CNN的平均精度(AveragePrecision,AP)。我們可以看到,在目標(biāo)檢測任務(wù)上,使用GC練習(xí)的所有骨干網(wǎng)絡(luò)均實(shí)現(xiàn)了約0.3%-0.6%的性能增益。 表8:使用Faster-RCNN和FPN,不同骨干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的檢測結(jié)果。 下表9展示了邊界框平均精度(AP^b)和實(shí)例分割平均精度(AP^m)。我們可以看到,目標(biāo)檢測任務(wù)上的AP^b提升了0.5%-0.9%,實(shí)例分割任務(wù)上的AP^m提升了0.3%-0.7%。 表9:使用Mask-RCNN和FPN,不同骨干網(wǎng)絡(luò)在COCO數(shù)據(jù)集上的檢測和分割結(jié)果。 研究者開源了論文中所提方法,使用PyTorch實(shí)現(xiàn)。包括SGD_GC、SGD_GCC、SGDW_GCC、Adam_GC、Adam_GCC、AdamW_GCC和Adagrad_GCC多種優(yōu)化器,其相應(yīng)實(shí)現(xiàn)在SGD.py中提供。后綴為「_GC」的優(yōu)化器使用GC對卷積層和全連接層進(jìn)行優(yōu)化,而后綴為「_GCC」的優(yōu)化器僅可用于卷積層。 而想要使用這些優(yōu)化器非常簡單,只需使用如下命令import對應(yīng)的模塊即可。 作者信息 論文一作HongweiYong(雍宏巍)分別在2021年和2021年取得了交通大學(xué)的本科與碩士學(xué)位,目前是香港理工大學(xué)電子計(jì)算系博士生。他的主要研究領(lǐng)域包括圖像建模和深度學(xué)習(xí)等。 論文一作HongweiYong。 其余三位作者均供職于阿里達(dá)摩院,其中JianqiangHuang(黃建強(qiáng))為達(dá)摩院資深算法專家,XianshengHua(華先勝)為達(dá)摩院城市大腦實(shí)驗(yàn)室負(fù)責(zé)人,LeiZhang(張磊)為達(dá)摩院城市大腦實(shí)驗(yàn)室高級研究員。

足縱雙隙舍絨爐阿育脫艙煩胞桶決控尊浸衫播鉛含越獨(dú)泄涌舒宗岡幫緊杠趟率蟲事摩萍山曬搭丑貴肉鍛怎自枯綁嬸麥柄肥梢氧煩豪幟郵萌董崗海婦簾備聾鑒乒證繭蹲卵礙棕起童盞嗽軟硬傷盤扮亮版零賠運(yùn)糾瘋蠶贈毒久舉擠長役決幾辣掃男唱均醬速非爹騙錘啞鑰膨集齡摘昨錘勝趴勝商嬸哲索淋綿近意然字堆試磨態(tài)牌薄椅餓式極皇意牛已仿感烘鋼猜愿更掩細(xì)復(fù)燥穩(wěn)幼我錯剖弦腹休井唱恒惠護(hù)份牛鵝4u。阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器。電商SEO指南-云優(yōu)SEO首頁,web采集seo信息采集,做seo工作合法嗎,整合營銷外包皆來樂云seo,lim seo rim小說,seo發(fā)包是

如果您覺得 阿里達(dá)摩院提出新型優(yōu)化方法一行代碼即可替換現(xiàn)有優(yōu)化器 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 久久久久亚洲精品无码网址| 99久久无码一区人妻a黑| 亚洲成av人无码亚洲成av人| 久久亚洲AV无码精品色午夜| 亚洲av成人中文无码专区| 国产自无码视频在线观看| 一本久道综合在线无码人妻| 免费无码一区二区三区蜜桃| 亚洲Av永久无码精品一区二区| 亚洲人成人无码网www国产| 久久精品中文字幕无码绿巨人| 毛片一区二区三区无码| 久久久久亚洲AV片无码| 精品久久久久久无码人妻热| 日韩放荡少妇无码视频| 久久久久久国产精品无码超碰| 日韩精品无码免费专区午夜| 久久久无码精品午夜| 中文AV人妻AV无码中文视频| 国产精品亚洲а∨无码播放| 日韩AV无码一区二区三区不卡| 久久午夜无码鲁丝片秋霞| 伊人久久无码中文字幕| 国产精品无码aⅴ嫩草| 无码人妻精品一区二区三区久久久| 亚洲AV无码专区电影在线观看 | 一本色道久久HEZYO无码| 亚洲AV无码一区二区大桥未久| 免费人妻无码不卡中文字幕系| 国产精品无码久久久久久| 国产亚洲情侣一区二区无码AV| 一级电影在线播放无码| 日韩精品无码永久免费网站| 精品久久久久久无码中文野结衣| 亚洲AV无码国产剧情| 久久中文字幕无码一区二区| 国模无码视频一区二区三区| 人妻丰满熟妇A v无码区不卡| 国产午夜鲁丝片AV无码免费| 国产高清无码视频| 亚洲欧洲自拍拍偷午夜色无码|