國產 ModelScope 模型
本項目MS-Vid2Vid由達摩院研發和訓練,主要用於提升文生視頻、圖生視頻的分辨率和時空連續性,其訓練數據包含了精選的海量的高清視頻、圖像數據(最短邊>720),可以將低分辨率的(16:9)的視頻提

「MS- Video-to-Video」係一種深度學習模型,可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如,可以將一段日本動畫轉換成中國水墨畫風格,或者將一段街頭表演轉換成動畫風格。
MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同,都是基於隱空間的視頻擴散模型(VLDM),且其共享相同結構的時空UNet(ST-UNet),其設計細節延續我們自研 VideoComposer,具體可以參考其技術報告。