MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

國產 ModelScope 模型

本項目MS-Vid2Vid由達摩院研發和訓練，主要用於提升文生視頻、圖生視頻的分辨率和時空連續性，其訓練數據包含了精選的海量的高清視頻、圖像數據（最短邊>720），可以將低分辨率的(16:9)的視頻提

「MS- Video-to-Video」係一種深度學習模型，可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如，可以將一段日本動畫轉換成中國水墨畫風格，或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同，都是基於隱空間的視頻擴散模型(VLDM)，且其共享相同結構的時空UNet(ST-UNet)，其設計細節延續我們自研 VideoComposer，具體可以參考其技術報告。