MMAudio 自動配音效模型


Hello2 – 高清 LipSync 工具



MVSEP – 自制 Karaoke 必備

新增了新版本的 BSRoformer 權重。目前它可能是世界上最好的可用模型。


RVC-Boss/GPT-SoVITS 語音合成模型

功能:

  1. 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
  2. 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  3. 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  4. WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別(另外),從 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。

對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音(TTS)注釋 .list 文件格式:

vocal_path|speaker_name|language|text

語言字典:

  • ‘zh’: Chinese
  • ‘ja’: Japanese
  • ‘en’: English

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.


AudioBox –

Audiobox 是 Meta 的新音訊生成基礎研究模型。 集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果,從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound,所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。

馬上體驗 – 多種聲效創作故事


智能提升音頻品質 ai|coustics

ai|coustics 是一家專注於人工智慧及聲學領域的公司。他們提供多種提升音質的解決方案,包括聲音處理、音頻分析、語音辨識等。

ai|coustics 擁有未來的語音技術!你可體驗前所未有的使用生成語音人工智能高品質音頻,。無論您是在錄製播客、使用低品質耳機還是應對煩人的背景噪音,我們的技術都能將您的音頻提升至專業級品質。

筆者實測聲音原檔

聲音優化後檔案

ai|coustics 提供 HD-Speech API 同 SDK,可以方便自動整合並增強你的語音。 我哋嘅程式庫本身已經過優化,占用記憶體少,同時用最短嘅推斷時間而設計嘅,確保任何情況下都可以即時提升音頻品質,令你的音頻清晰及靚聲。

HD-Speech 即時音頻 SDK 程式庫適用於Windows、Mac、Linux、Web、Android 同iOS 平台,實現嵌入式、桌面及雲端環境度運行。

你可以親身體驗我哋嘅技術強大之處,即刻到我哋嘅 Playground Page 去見證 AI 語音增強嘅變革效果。

如果您對人工智慧和聲學感興趣,可以進一步探索該網站瞭解更多資訊。


廣東話<>輸出書面語字幕! youtuber.ai


Humanpal.io (支持 7 個廣東話語音模型)

如果你要製作一啲簡單嘅影片,呢個平台可以提供所有你需要製作影片工具,由文字到聲音,甚至動畫,都可以非常快速完成。而且收費非常便宜,最近甚至加入新嘅廣東話語音模型,值得一試。