MMAudio 自動配音效模型

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube