LatentSync 1.5 – 最穩定的 LipSync 開源方案

LatentSync 1.5 是 ByteDance 團隊在 GitHub 上發佈的開源專案。1.5 版本增強了中文影片的表現。它的主要功能是直接地將音頻資訊轉換成為逼真的口型動作。專案提供了完整的訓練和推論程式碼,包含資料處理流程、兩種模型訓練步驟(U-Net 和 SyncNet),以及詳細的推論指令。

LatentSync 1.5 | 2025最强数字人,完美适配无人直播间,带货必备,优化中文语音,唇形同步!
LatentSync In ComfyUI Another Level Of AI Talking Avatar—Open Source Plus It Works!

通用和高保真音訊驅動的 3D 說話人臉合成

GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型,該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到(https://github.com/yerfor/GeneFace)。

GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀,並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻,以更好地了解其效果。同時,您也可以訪問該項目的頁面以獲取更多詳細信息。

如果您想要快速開始使用 GeneFace,存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作,進行模型推論或使用自己的目標人物視頻進行訓練。同時,存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。

除了存儲庫中提供的 May.mp4 視頻外,GeneFace 還提供了其他 8 個目標人物視頻,這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南,使用這些視頻進行自己的訓練。