whisper.cpp v.1.6.2 源碼: Speech To Text 輕量級模型
ChatTTS 對話場景設計的文本轉語音模型
Synthflow AI 第一個人工智慧語音代理平台
WhisperBot:實時語音轉文本系統
RVC-Boss/GPT-SoVITS 語音合成模型
功能:
- 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
- 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
- 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
- WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。
如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型
從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。
對於中文自動語音識別(另外),從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。
對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。
數據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
- ‘zh’: Chinese
- ‘ja’: Japanese
- ‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
Amphion 多功能聲頻 LLM
香港中文大學(深圳)、上海人工智慧實驗室和深圳大數據研究院聯合開發。
(more…)SeamlessM4T v2- 即時語音翻譯模型
無縫 M4T
Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。
M4T 是一體式大規模多語言和多模式的機器翻譯模型,可為近 100 種語言的語音和文字提供高品質翻譯。
SeamlessM4T 模型支援以下任務:
- 語音轉語音翻譯 (S2ST)
- 語音轉文字翻譯 (S2TT)
- 文字轉語音翻譯 (T2ST)
- 文本到文本翻譯 (T2TT)
- 自動語音辨識 (ASR)