MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

「MS- Video-to-Video」係一種深度學習模型,可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如,可以將一段日本動畫轉換成中國水墨畫風格,或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同,都是基於隱空間的視頻擴散模型(VLDM),且其共享相同結構的時空UNet(ST-UNet),其設計細節延續我們自研 VideoComposer,具體可以參考其技術報告。


Popular Tags