發布時間:2022-01-05
欄目:電商資訊
原標題:阿里聯手中科大、浙大、華科大等高校研發4項AI安全技術獲國際會議收錄
【tianxianmao.com】2月23日消息,tianxianmao.com獲悉,阿里安全圖靈實驗室圍繞行業痛點、難點技術問題,涉及文本變異對抗、圖像、視頻內容風控以及AI小樣本研究的4個團隊,分別與中國科學技術大學、浙江大學、華中科技大學等知名高校研究人員合作,研發包括“內容安全、文本反垃圾、AI模型魯棒性、營商環境治理”4項新一代安全架構核心AI安全技術成果,均被國際會議ICASSP(InternationalConferenceonAcoustics,SpeechandSignalProcessing)2021收錄。
小樣本練習對抗血腥暴力視頻
在實際應用場景中,AI安全技術能有效解決數據量大的頭部風險,但對數據量極少或者新增的風險,現有AI模型往往難以勝任。
在2021年“掃黃打非”專項整治中,就出現了一波名為“邪典”的風險(軟色情、血腥暴力),主要為一些對青少年有不良導向的視頻,此類相關內容清理有害信息就多達37萬余條。隨著短視頻火爆發展,變異極快的“兒童邪典視頻”極易死灰復燃。
累積此類別的數據供原有模型練習需要一定時間,而小樣本方法恰好能填補“變異-模型未更新”的真空期。阿里安全圖靈實驗室高級算法工程師雍秦認為,使用小樣本方法,可很好地在真空期中覆蓋這種新風險,維護網絡清朗空間環境。

“之前發表的小樣本方法大都集中于優化小樣本元學習階段,該研究主要集中研究小樣本方法中的預練習問題,我們AI安全團隊提出了一種簡單有效的方法,使用自監督方法預練習一個更深的網絡,具有很好的魯棒性和泛化性。”雍秦說。
自監督學習的核心理念是對無標簽數據的進行學習,而且學習的是無標簽數據的數據結構或者特性,因此不需要標簽結果,這樣打造的AI模型對新鮮樣本的適應能力比較強。
在醫療、生物等行業安全領域,都普遍存在“樣本標注困難”“成本高”問題。雍秦堅信,小樣本自監督學習能很好改善這些困境。
阿里&浙大:增強AI對抗垃圾文本變異的穩定性和識別力
李進鋒等阿里安全算法專家經常會碰到發送大量垃圾文本的惡意用戶,黑灰產試圖通過對抗的手段規避阿里安全內容風控智能AI系統檢測。
以文本內容為例,惡意用戶可通過對文本中的違規內容進行變形變異,從而達到繞開模型識別檢測的目的。由于文本對抗門檻和成本低,文本內容風控場景中的對抗異常激烈,對抗給智能風控體系帶來了巨大挑戰。
圖:真實應用場景中的對抗文本(紅色字體為變異詞)
為應對挑戰,解決對抗場景中風控模型性能衰減的問題,阿里安全圖靈實驗室與浙江大學提出了基于對抗關系圖的文本對抗防御技術。
圖:基于對抗關系圖的文本對抗防御框架
與現有技術相比,阿里安全的內容風控系統建模與場景無關,只需練習一次即可應用到各個場景,基于對抗關系圖,就可以解決更復雜的多跳變異問題,如微(wei)-威(wei)-崴(wai)。阿里安全團隊將防御框架應用到了手機淘寶、旺旺反垃圾場景,取得了不錯的應用效果。
中科大&阿里:構建AI系統“防火墻”
去年,阿里安全圖靈實驗室發布了一款“AI安全診斷大師”,對AI模型進行全面的安全性評估,并針對AI系統的缺陷,提出提升模型防御能力建議。
這種“AI安全防火墻”的一個 關鍵技術就是對抗樣本檢測,對抗樣本的重要特性之一是人眼無法區分,導致無法通過人工打標進行對抗樣本的檢測。
2020年,阿里安全圖靈實驗室提出了一種基于Transformer的對抗樣本檢測方法,改進了傳統對抗樣本檢測方法只能檢測特定攻擊,難以泛化到其他攻擊的缺陷。
此次研究解決的是對抗樣本檢測泛化性的問題,但針對非常小擾動和非常稀疏的對抗樣本的檢測,仍是目前研究的難點。為了既能識別擾動大而廣的對抗樣本,又能識別擾動比較小而稀疏的對抗樣本,中科大和阿里的研究者提出了基于圖像域和梯度域的雙流對抗樣本檢測網絡,圖像域用于識別擾動大而廣的對抗樣本,梯度域則用于識別擾動比較小而稀疏的對抗樣本。
圖.雙流對抗樣本檢測網絡
隨著防御技術不斷變強,攻擊形態越來越多樣。在真實應用場景中,阿里安全圖靈實驗室也發現了一些沒有限制情況下的攻擊形態,這類攻擊很難應對。阿里安全圖靈實驗室高級安全專家越豐介紹,目前阿里希望能從攻防兩端以及產學研集合的方式來應對這種威脅。阿里安全聯合清華大學、UIUC(伊利諾伊大學厄巴納-香檳分校)舉辦了CVPR2021的AML-CVworkshop,產學研結合探討AI安全的問題。另外,三方在workshop上聯合天池一起舉辦了2個比賽:第六期-ImageNet無限制對抗攻擊和防御模型的白盒對抗攻擊。
提升商品圖像檢索能力優化用戶搜索體驗
電商平臺的各種模態商品數據迅速增長,如何從中快速且正確地找出用戶需要的商品是一個艱巨的挑戰。基于內容的文本到商品圖像的跨模態檢索就是緩解這個挑戰的 關鍵技術之一。

傳統的跨模態檢索方法建立在單層次的特征表示和單粒度的相似度度量上,難以有效地解決商品圖像檢索的問題。
同時,文本到商品圖像的跨模態檢索任務更復雜,比如單是商品圖像中的一類“服飾”已經表現出巨大的差異性,服飾可以穿在模特身上,也可以單獨擺放,還可折疊起來展示,服飾圖像背景往往也很復雜。不止如此,商品圖像包含其它很多豐富的種類,并且一幅圖像內往往呈現出多種物體,琳瑯滿目,難辨差異。
在阿里安全圖靈實驗室實習的浙江大學碩士生馬哲介紹,這次研究在文本-商品圖像跨模態檢索的場景下,提出了HSL網絡和兩種不同粒度的相似性度量方式,可顯著提升商品圖像檢索的性能,并能適應復雜的商品內容檢索。
阿里安全圖靈實驗室資深算法專家華棠強調,這種新研究不僅致力于提升用戶搜索體驗,也會用在平臺內容治理上,謹防黑灰產利用看似合規的商品圖片宣傳“禁限售”類商品。
“我們希望通過新一代安全架構核心AI技術來守護網絡內容安全,凈化網絡環境,也通過AI來保護數字資產的知識產權,優化營商環境。同時也致力于通過AI來防范黑灰產的對抗行為,盡很大努力為商家和用戶打造更好的互聯網平臺。”華棠說。
文章地址:http://www.meyanliao.com/article/online/8548.html