2022年12月6日 星期二

AI壓縮 研究



萬物皆AI,影像壓縮也靠AI
還記得以前在學校念書時,有聽過H.264影像壓縮技術,現在已經到達H.266了,那時候有修過交大杭學鳴老師的課,大部分都忘光光了。真是感傷的、不過也要接受不用想這麼多。

Reference:

[1][20221206]台灣杉主機立大功 陽明交大投入AI影像壓縮專案有成

台灣杉主機立大功 陽明交大投入AI影像壓縮專案有成 (digitimes.com.tw)

隨著各種平板電腦、智慧型手機等數位裝置普及,隨手拍照、拍攝影片等,已成為消費者日常生活的一部分。儘管多媒體扮演全球經濟發展的重要關鍵,但發展超過20多年的影像/視訊壓縮技術,至今並沒有重大演進,依然是仰賴傳統數學公式協助,緩慢從H.263進步到H.264、H.265,乃至於最新的H.266等。因此,過去幾年有不少團隊開始嘗試以AI技術取代傳統影像壓縮技術,期盼能創造更好的效果。

2017年是學習式影像壓縮技術萌芽階段,當年全球僅有7篇論文,且壓縮效能不及採用H.265技術的圖片壓縮格式BPG(Better Portable Graphics)。不過自從2018年Google舉辦學習式影像壓縮競賽(CLIC)後,也帶動全球團隊投入此領域的風潮。

在此浪潮中,身為全球高科技重鎮的台灣也沒有缺席,由陽明交大資訊工程學系教授彭文孝領軍,與杭學鳴、蕭旭峰、黃敬群、邱維辰等教授合作的「基於生成模型的視訊壓縮」計畫,已連續四年參與由 Google 舉辦的CLIC競賽,且在 JPEG AI CfE 競賽中獲第二名的佳績。

陽明交大資訊工程學系教授彭文孝說,2020年Google在CLIC競賽中開始討論學習式視訊壓縮後,目前已有20篇以上的相關論文,而2021年Dr. David Minnen (Google)在International Conference on Image Processing (ICIP 2021)旗艦會議中,曾針對學習式影像壓縮發表演說,也代表將有更多業者投入相關資源在此領域中。特別是國際標準組織JEPG AI,亦表明將在2024年要完成學習式影像標準化的工作,彭教授團隊目前持續投入「基於生成模型的視訊壓縮」計畫,已在頂級研討會及重要國際研討會中,發表56篇論文,整體成效相當不錯。

早期團隊都是透過平行運算技術將研究室內的10多台電腦串連起來,才能免強滿足專案所需。2018年恰逢國研院國網中心開始打造台灣杉二號時,團隊獲得參與HPC平台測試的機會,也讓此研究專案獲得快速的長足進步。

借重國網中心資源 大幅縮短AI模型訓練時間

綜觀現今全球將AI應用於影像/視訊壓縮領域技術,大致上可分為端對端學習式影像壓縮、複合式學習式影像壓縮、端對端學習式視訊壓縮等技術。其中,端對端學習式影像壓縮、端對端學習式視訊壓縮等技術,已超越 H.265/HEVC的計畫目標,正朝向最新 H.266的效能邁進 。彭文孝教授帶領的團隊在相關技術上也有突破,並發表在IEEE知名期刊與歐洲電腦視覺頂尖會議(European Conference on Computer Vision)。

另外,團隊首創以增強式學習進行編碼優化壓縮技術。此增強式學習技術最大特色,在於能不更改既有編解碼器,即可達到提高影像壓縮效能的目標,有助於縮減商業化的速度。相關技術發表在資料壓縮的頂尖會議(Data Compression Conference) ,並分別在台灣及美國取得專利。

自從將研究專案轉移到國網中心的台灣杉主機之後,由於平台上已經預先安裝 多種深度學習框架容器,所以團隊過往得花費數小時的環境建置工作,現在只需數秒鐘即可完成。其次,台灣杉主機不光擁有大量的 GPU運算資源,也有足夠的VRAM,讓以前得花費數個月的模型訓練,現今可縮短到1~2週即可完成,讓團隊可針對每次研究成果持續進行優化。

在團隊規劃中,未來在持續投入AI模型優化之外,目前已著手與眾多公司洽談合作,將全力促進新一代壓縮標準的建立及發展。

沒有留言:

電子與通訊

這裡就是我的新的Blog 將以電子與通訊 做為本人研究探討之地!!
希望能夠更加了解神奇的宇宙 歡迎各位光臨 ^^"