
近日,人工智能領(lǐng)域頂級(jí)會(huì)議AAAI (AAAI Conference on Artificial Intelligence)2022年度的論文揭曉,來(lái)自西安電子科技大學(xué)通信工程學(xué)院的何剛老師團(tuán)隊(duì)所發(fā)表的題為“Transcoded Video Restoration by Temporal Spatial Auxiliary Network”的最新針對(duì)視頻轉(zhuǎn)碼的修復(fù)處理算法研究成果被成功收錄。何剛老師是通信工程學(xué)院圖像傳輸與處理研究所(圖像所)骨干成員,圖像所隸屬于ISN國(guó)家重點(diǎn)實(shí)驗(yàn)室,負(fù)責(zé)人為李云松教授。AAAI Conference on Artificial Intelligence是美國(guó)人工智能協(xié)會(huì)主辦的年會(huì),被列為人工智能領(lǐng)域的CCF A類頂級(jí)會(huì)議。今年會(huì)議共收到9251篇投稿,創(chuàng)下AAAI投稿量的歷史新高,其中9020篇投稿進(jìn)入了評(píng)審環(huán)節(jié)。最終經(jīng)過大會(huì)討論決定共接收1349篇論文,錄取率為15.0%,創(chuàng)下歷史新低。
圖1 AAAI近6年錄取率變化圖
視頻技術(shù)在我們生產(chǎn)生活中的作用日益凸顯,特別是在新冠疫情來(lái)臨之后,視頻服務(wù)在助力復(fù)工復(fù)產(chǎn)方面發(fā)揮了重要的作用,短視頻、云直播、遠(yuǎn)程教育等新模式新業(yè)態(tài)快速涌現(xiàn)。據(jù)統(tǒng)計(jì),流媒體視頻在全網(wǎng)數(shù)據(jù)流量占比已超過70%。同時(shí),圍繞流媒體視頻展開的一系列工作,如視頻壓縮編解碼、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)以及元宇宙等,是當(dāng)前研究熱點(diǎn)。
結(jié)合深度學(xué)習(xí)技術(shù),何剛老師團(tuán)隊(duì)首次針對(duì)實(shí)際工程應(yīng)用中視頻經(jīng)歷多次壓縮編碼(即轉(zhuǎn)碼)而非獨(dú)立壓縮編碼,開創(chuàng)性地開發(fā)相應(yīng)的視頻修復(fù)去偽影增強(qiáng)算法,并取得了顯著成果。圖2為轉(zhuǎn)碼視頻壓縮去偽影增強(qiáng)的一個(gè)應(yīng)用場(chǎng)景示例,日常生活觀看的視頻大多數(shù)都在錄制與傳輸過程中經(jīng)歷了多次編碼壓縮。通常情況下使用移動(dòng)手機(jī)錄制的視頻通過互聯(lián)網(wǎng)分享給其他人時(shí)視頻至少會(huì)經(jīng)過兩次壓縮。首先,在手機(jī)端錄制的視頻會(huì)直接經(jīng)由手機(jī)內(nèi)置的編解碼器完成硬件編碼(也稱初始編碼),此時(shí)的視頻碼率較高,視頻內(nèi)容清晰,壓縮偽影不明顯。然后用戶將其上傳到如YouTube、快手、抖音等視頻服務(wù)提供商時(shí),這些廠商將對(duì)視頻進(jìn)行不同碼率的轉(zhuǎn)碼以適應(yīng)不同的應(yīng)用場(chǎng)景,而后分發(fā)給其他用戶。最終在其他用戶端顯示播放的該視頻是經(jīng)過編碼和轉(zhuǎn)碼后的版本,此時(shí)的視頻往往失真明顯,壓縮偽影明顯,尤其是在帶寬有限的情況下更加突出,會(huì)不同程度地影響用戶的觀看體驗(yàn)。
圖2轉(zhuǎn)碼視頻壓縮去偽影修復(fù)的應(yīng)用場(chǎng)景示例

(a)工作流程比較圖 (b)主客觀質(zhì)量比較示例圖
圖3論文方案與先前單次編碼壓縮去偽影方法在轉(zhuǎn)碼壓縮去偽影任務(wù)上的比較
考率到轉(zhuǎn)碼壓縮視頻中存在的偽影是多次編碼失真的疊加,先前的處理方案主要針對(duì)單次壓縮損傷的修復(fù),如圖3所示,當(dāng)其應(yīng)用于轉(zhuǎn)碼視頻上效果大打折扣。為此,結(jié)合實(shí)際應(yīng)用場(chǎng)景,該論文將深度學(xué)習(xí)與轉(zhuǎn)碼視頻去偽影任務(wù)相結(jié)合,利用轉(zhuǎn)碼視頻特性,將初始編碼信息作為中間輔助監(jiān)督標(biāo)簽,設(shè)計(jì)輔助監(jiān)督和全局監(jiān)督損失函數(shù)引導(dǎo)網(wǎng)絡(luò)訓(xùn)練。同時(shí),該論文結(jié)合視頻的時(shí)空相關(guān)特性設(shè)計(jì)了包括時(shí)域可變形對(duì)齊模塊(TDAM)、金字塔空域融合模塊(PSFM)等在內(nèi)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并協(xié)同輔助監(jiān)督(ASAM)和全局監(jiān)督(GSAM)訓(xùn)練以更好地提升轉(zhuǎn)碼視頻的畫面質(zhì)量,對(duì)應(yīng)網(wǎng)絡(luò)架構(gòu)圖見圖4。因此,通過論文方法,可以在不增加視頻碼率的情況下大幅提高視頻圖像質(zhì)量。表1以圖像客觀評(píng)價(jià)指標(biāo)PSNR/SSIM增益作為客觀評(píng)價(jià)指標(biāo)衡量該論文方法較先前方法而言的增強(qiáng)性能提升程度。從
圖4時(shí)空輔助轉(zhuǎn)碼壓縮去偽影修復(fù)網(wǎng)絡(luò)架構(gòu)圖
表中可以看出,該論文提出的方法在測(cè)試視頻序列的平均PSNR增益為0.782dB,相比于先前方法STDF而言提升增幅達(dá)52.4%。同時(shí),圖5為與先前單次編碼修復(fù)增強(qiáng)方法的主觀效果對(duì)比圖,可以看出該論文方案主觀質(zhì)量大幅提升,如轉(zhuǎn)碼損傷的斑馬線被修復(fù)還原,行人周圍的偽影得到大面積移除,籃球的邊緣紋理修復(fù)重現(xiàn)等。因此,本論文無(wú)論從客觀指標(biāo)和主觀效果上都極大程度地修復(fù)提升了視頻轉(zhuǎn)碼壓縮后的視覺質(zhì)量。
表1 論文方案與先前方法在轉(zhuǎn)碼去偽影修復(fù)任務(wù)上的PSNR/SSIM增益指標(biāo)比較
圖5論文方案與先前方法在轉(zhuǎn)碼去偽影修復(fù)任務(wù)上的修復(fù)效果對(duì)比圖
何剛老師及其科研團(tuán)隊(duì)一直致力于基于深度學(xué)習(xí)的圖像視頻增強(qiáng)處理及編解碼壓縮等學(xué)術(shù)研究技術(shù),至今已發(fā)表相關(guān)論文50多篇和相關(guān)專利。同時(shí),其團(tuán)隊(duì)和工業(yè)界應(yīng)用合作緊密,在2019年合作完成的人工智能AI圖像修復(fù)合作技術(shù)(去噪、去霧、去模糊、對(duì)比度增強(qiáng))獲得CCTV13《朝日新聞》采訪報(bào)道,其承擔(dān)超高清編解碼和視頻處理系統(tǒng)應(yīng)用國(guó)家海深探測(cè)項(xiàng)目獲2020年《陜西新聞》采訪報(bào)道。
論文主要作者:
何剛,副教授,現(xiàn)工作于西安電子科技大學(xué)通信工程學(xué)院圖像傳輸與處理研究所(圖像所)。圖像所是ISN國(guó)家重點(diǎn)實(shí)驗(yàn)室成員單位,負(fù)責(zé)人為李云松教授。本科畢業(yè)于西安交通大學(xué),博士畢業(yè)于日本早稻田大學(xué),師從后藤敏教授(IEEE Life Fellow),研究方向是基于人工智能高效視頻編碼算法,基于深度學(xué)習(xí)卷積網(wǎng)絡(luò)和對(duì)抗技術(shù)圖像視頻增強(qiáng)處理等研究,至今已發(fā)表SCI論文及國(guó)際會(huì)議50余篇。
徐莉,博士研究生,西安電子科技大學(xué)通信工程學(xué)院圖像傳輸與處理研究所(圖像所)成員。圖像所是ISN國(guó)家重點(diǎn)實(shí)驗(yàn)室成員單位,負(fù)責(zé)人為李云松教授。本科畢業(yè)于重慶大學(xué),目前在西安電子科技大學(xué)攻讀博士學(xué)位,博士期間的指導(dǎo)老師為雷杰老師和何剛老師,研究方向?yàn)樯疃葘W(xué)習(xí)在圖像視頻壓縮與增強(qiáng)領(lǐng)域上的應(yīng)用,目前已在AAAI、T-CSVT等國(guó)際頂級(jí)會(huì)議期刊發(fā)表多篇論文。
相關(guān)鏈接:
會(huì)議鏈接:https://aaai.org/Conferences/AAAI-22/
論文鏈接:https://arxiv.org/abs/2112.07948