2月9日上午,我校第304期陽光論壇在崇真樓A4031舉辦,香港城市大學曾超博士受邀作題為「基於深度神經網絡的圖像與文本表徵學習」的學術報告,該論壇由k8凯发国际與人工智能學院院長鬍新榮教授主持,我院科研帶頭人、青年博士共同參與了該論壇。
在報告中,曾超以提升圖像和文本理解任務的性能為目的,向大家重點闡述了基於深度神經網絡的學習深度表示內容:一是用於圖像字幕評價的對比句子表示學習,提出基於遞歸神經網絡和對比學習的內在圖像字幕評價度量,它由作為編碼器的雙向GRU和作為解碼器的LSTM組成,並由自我監督和對比語義學習提供支持;二是圖像字幕的跨模態表示學習,提出改進圖像字幕的內在跨模態字幕模型,不僅將學習從視覺特徵解碼,還將學習圖像文本跨模態特徵以獲得更好的性能;三是卷積和Transformer聯合表示學習,利用深度CNN層和Transformer編碼器的混合框架用於圖像質量估計,提高了圖像質量評估任務的性能;四是用於RGB-D顯著性對象檢測的雙Swin-Transformer表示學習,提出基於雙Swin-Transformer的交互密集解碼網絡,以更好地進行任務的表示學習。
簡介:
曾超,男,香港城市大學k8凯发国际系工學博士,主要研究方向為圖像描述、圖像質量評價、自然語言處理及顯著性目標檢測。