【記者莊幼寧台北報導】一部好看的影片總少不了相輔相成的音樂和影像。中央研究院研究團隊研發的「自動化音樂影帶生成之聲學視覺情緒高斯模型」能辨識音樂與影像中的情緒,幫助使用者找尋相近「情緒」的影音,產製完美的多媒體作品。
資訊科學所研究員王新民與資訊科技創新研究中心助理研究員楊奕軒及林彥宇等人利用心理學的二維空間來定義不同情緒,縱軸由上至下,表示感覺高昂到低沉,橫軸由左至右,代表情緒負面到正向。由此界定多媒體素材中情緒的程度差異,使用者依需求從軟體系統演算的結果找到相互配合的音樂和影片,系統也能自動依使用者設定的情緒變化,推薦音樂和影片清單。
楊奕軒說:「對多媒體素材的感受事實上是很主觀的東西,而這個模型就是在處理主觀的情緒。」他表示,以音樂為例,個人會因為曲調、音色和歌詞而產生不同的情緒,因此模型演算法試圖訓練電腦系統自動學習,辨認多媒體的情緒內涵。在聽覺方面透過音色、音調與節奏等;視覺方面則透過色彩、亮度和畫面跳動頻率等特徵來分析音樂和影像情緒在二維空間的分布。
隨著數位化時代的來臨,民眾獲取影音資料愈趨廣泛、輕鬆。透過此模型,可改善多媒體資料檢索的方式,使用者能更精準地找到需要的素材,雙向使用在影片的聲音後製、透過音樂搜索相關情緒的影像,應用於YouTube等社群影像分享網站上。楊奕軒說:「甚至可以讓KTV多一種依情緒撥放清單來點歌的模式。」
楊奕軒表示,影音和情緒的關聯明顯,因此研究團隊針對Google在今年「美國電腦協會國際多媒體年度學術研討年會」(ACM Multimedia 2012)中提出的「自動化音樂影帶生成與配對系統」競賽議題,研發此情緒高斯模型。也順利從17個來自世界各地的隊伍裡脫穎而出,獲得「電腦多媒體應用頂尖挑戰」首獎。
技術目前還在繼續精進,以期提升系統的分析效能。雖然尚未化成供使用的軟體,未來除了使其在電腦上使用外,中研院還會研發APP供行動裝置利用。
沒有留言:
張貼留言