詳細說明了模型架構、使用方法(包含命令列和圖形介面)、預訓練模型下載和安裝步驟,以及已知限制和未來發展方向,例如訓練和評估部分仍在進行中。 整體而言,MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。
Hello2 – 高清 LipSync 工具
LogicPro 11 -「AI 做歌真神奇」
香港音樂人試用 LogicPro 11 編曲、混音、Mixing、去人聲、自動分 Track 「AI 做歌真神奇」
MVSEP – 自制 Karaoke 必備
RVC-Boss/GPT-SoVITS 語音合成模型
功能:
- 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
- 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
- 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
- WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。
如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型
從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。
對於中文自動語音識別(另外),從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。
對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。
數據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
- ‘zh’: Chinese
- ‘ja’: Japanese
- ‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
AudioBox –
智能提升音頻品質 ai|coustics

ai|coustics 是一家專注於人工智慧及聲學領域的公司。他們提供多種提升音質的解決方案,包括聲音處理、音頻分析、語音辨識等。
ai|coustics 擁有未來的語音技術!你可體驗前所未有的使用生成語音人工智能高品質音頻,。無論您是在錄製播客、使用低品質耳機還是應對煩人的背景噪音,我們的技術都能將您的音頻提升至專業級品質。
筆者實測聲音原檔
聲音優化後檔案
ai|coustics 提供 HD-Speech API 同 SDK,可以方便自動整合並增強你的語音。 我哋嘅程式庫本身已經過優化,占用記憶體少,同時用最短嘅推斷時間而設計嘅,確保任何情況下都可以即時提升音頻品質,令你的音頻清晰及靚聲。
HD-Speech 即時音頻 SDK 程式庫適用於Windows、Mac、Linux、Web、Android 同iOS 平台,實現嵌入式、桌面及雲端環境度運行。
你可以親身體驗我哋嘅技術強大之處,即刻到我哋嘅 Playground Page 去見證 AI 語音增強嘅變革效果。
如果您對人工智慧和聲學感興趣,可以進一步探索該網站瞭解更多資訊。