Wav2Lip (Lipsync 工具）

ChatGPT, Bard, Claude2 比較

(英)GitHub – A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild

[ACM Multimedia, 2020] Wav2Lip: Accurately Lip-syncing Videos In The Wild

Watch this video on YouTube

Wav2Lip 簡介(英文)

我從三個不同的 A.I. 平台嘗試找更多關於 Wav2Lip 的資料時出現如下的情況：

首先，我去 Bard 問：你有聽過 GitHub 開放源碼 – A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild

Bard 回覆我：

是的，我聽過。這是一個 GitHub 存儲庫，其中包含一個名為 Wav2Lip 的 AI 模型，該模型可以將語音轉換為嘴唇生成。Wav2Lip 由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表。

Wav2Lip 的工作原理是首先使用面部識別算法來檢測視頻中的面部。然後，模型使用一組預先訓練的數據來學習將語音信號映射到嘴唇動作。最後，模型使用這些知識來生成與語音信號匹配的嘴唇動作。

Wav2Lip 是一個強大的工具，可用於在視頻中創建逼真的嘴唇同步。它已被用於製作各種應用，包括電影、電視節目和社交媒體視頻。

以下是一些關於 Wav2Lip 的詳細信息：

它是一個基於深度學習的模型，使用了兩個主要組件：面部識別和語音到嘴唇映射。
它是在一組包含 700 多個視頻和 100 多個語音文件的數據集上訓練的。
它可以生成與原始視頻中嘴唇動作高度匹配的嘴唇動作。
Wav2Lip 仍在開發中，但它已經是一個強大的工具，可用於在視頻中創建逼真的嘴唇同步。

然後我選擇 Bard 回覆當中的一段去問 ChatGPT3.5:

Wav2Lip 由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表。這正確嗎？

ChatGPT3.5 回覆我：

很抱歉，您提供的信息不準確。Wav2Lip 是一種用於實現嘴唇同步的人工智能技術，它可以將聲音與嘴部動作同步，從而產生似乎說話的效果。然而，Wav2Lip 並不是由印度海德拉巴大學和英國巴斯大學的團隊開發的，也沒有在 2020 年的 ACM Multimedia 會議上發表。

Wav2Lip 是由印度的一家公司 Synthace Private Limited 開發的，它在社交媒體上廣泛傳播，並受到許多人的歡迎。

但是，該技術並沒有出現在學術會議上發表的論文中，而是通過開發人工智能模型來實現的，這些模型可以將音頻與嘴部動作進行匹配，從而產生嘴唇同步的效果。請注意，關於技術和研究的信息可能會不斷更新和演變，因此最好查閱最新的來源以獲取準確的信息。

為了確定 Bard 是否弄錯，我決定再嘗試問清楚 Bard：

Wav2Lip 由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表?

Bard 再次回覆我：

是的，這正是 Wav2Lip 的情況。它由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表。

該團隊由以下人組成：

Ravi Kiran Bhagavatula，海德拉巴大學計算機科學系博士生
Sai Krishna Madineni，海德拉巴大學計算機科學系博士生
Ramesh Babu Bommanaboyina，海德拉巴大學計算機科學系助理教授
Anirban Roy，巴斯大學計算機科學系博士生
Yansong Feng，巴斯大學計算機科學系副教授
該團隊在其論文中描述了 Wav2Lip 的技術細節。他們使用了一個基於深度學習的模型，該模型使用了兩個主要組件：面部識別和語音到嘴唇映射。面部識別算法用於檢測視頻中的面部。語音到嘴唇映射模型用於將語音信號映射到嘴唇動作。

該模型是在一個包含 700 多個視頻和 100 多個語音文件的數據集上訓練的。它可以生成與原始視頻中嘴唇動作高度匹配的嘴唇動作。

Wav2Lip 是一個強大的工具，可用於在視頻中創建逼真的嘴唇同步。它已被用於製作各種應用，包括電影、電視節目和社交媒體視頻。

Bard 似乎十分肯定有關 Wav2Lip 的資料，因此我再次用相同的 Prompt 提問 ChatGPT：

Wav2Lip 由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表?

ChatGPT 3.5 再次回覆我：

之前提供的信息是不準確的。對於"Wav2Lip"技術的開發團隊和發表會議的信息並不正確。

實際上，Wav2Lip 是由印度的印度海得拉巴國際信息技術研究所（IIIT Hyderabad）的研究團隊開發的，該技術旨在將音頻與嘴唇運動同步，以生成看起來像是在說話的效果。然而，我無法提供具體的發表會議或日期的信息，因為這可能不是一個在學術會議上發表的技術。有關該技術的更多詳細信息可能需要查閱最新的研究文獻或官方來源以獲取準確的信息。

大家看懂了嗎？最後我決定去問 Claude2：

Wav2Lip 是誰開發的？

Claude2 回覆我：

Wav2Lip 是一個由克里斯蒂安恩工業光學系統實驗室和英特爾實驗室的研究人員於2019年開發的語音驅動的面部動畫模型。主要開發者包括:

- Supasorn Suwajanakorn - 克里斯蒂安恩工業光學系統實驗室研究員

- Steven M. Seitz - 華盛頓大學教授,克里斯蒂安恩工業光學系統實驗室主任

- Ira Kemelmacher-Shlizerman - 華盛頓大學助理教授 

- Eisuke Yamaguchi - 英特爾實驗室研究員

- Brian Curless - 華盛頓大學教授

- Carlos Hernandez - 英特爾實驗室研究員

Wav2Lip 使用 GANs 從語音輸入生成面部動畫,使生成的動畫與輸入語音高度相關。該模型獲得了很高的真實性並且運行效率高。它已在多個領域如視頻合成、電腦動畫等方面得到廣泛應用。

我開始有些頭暈，我繼續問 Claude2：

Wav2Lip 由來自印度海德拉巴大學和英國巴斯大學的團隊開發，並在 2020 年的 ACM Multimedia 會議上發表?

Claude2 再次回覆我：

您提供的信息不完全正確。Wav2Lip的主要開發團隊來自美國的克里斯蒂安恩工業光學系統實驗室和英特爾實驗室,而非印度海德拉巴大學和英國巴斯大學。

Wav2Lip 於2019年首次發表在arXiv預印本網站上,題為「Wav2Lip: Accurately Lip-syncing Videos In The Wild」。後續完整論文發表在2020年的ACM Multimedia conference。

主要開發者信息如我之前所提供的:

Supasorn Suwajanakorn
Steven M. Seitz
Ira Kemelmacher-Shlizerman
Eisuke Yamaguchi
Brian Curless
Carlos Hernandez

所以Wav2Lip的主要開發團隊應該是來自美國的機構,而非印度和英國的大學。如果您有其他可靠來源表明不同的開發團隊,請提供,我會進行復查和修正。目前看來Wav2Lip的主流公開報道都支持我提供的開發團隊信息。

究竟誰對誰錯？

結果我去 GitHub 找原作者的簡介，最後發現作者是印度籍博仕 https://rudrabha.github.io/，似乎 Bard 較為準確。

Popular Tags