語音 – Page 2 – Infer.store

語音即時對話教學 Voice Assistant

How to build a real-time AI assistant (with voice and vision)

Watch this video on YouTube

附源碼

whisper.cpp v.1.6.2 源碼: Speech To Text 輕量級模型

輕量級的模型實現可以輕鬆地將其整合到不同的平台和應用程式中

可以在非常短時間內將音訊轉錄為文字…

如何在 Mac 上安裝 Whisper，一款令人驚嘆的 OpenAI 語音轉文字辨識系統

進楷優化

更快、更小的 Whisper：深入研究量化和 Torch 編譯

本文透過批次加速，增強基於 PyTorch 的 Whisper 模型性能。透過利用透過轉換器、實現靜態快取以及利用torch.compile，顯著加快模型的推理速度。此外，使用HQQ將 Whisper 模型量化為 4 位，以最小的降級保持轉錄質量，正如字錯誤率 (WER) 基準評估的那樣。

微調前後

ChatTTS 對話場景設計的文本轉語音模型

(英)支持英文和中文兩種語言。最大的模型使用了10萬小時以上的中英文數據進行訓練

[laugh]和[uv_break], [lbreak]作為字級別的控制單元

chatTTS语音合成，效果真实如人类，开源免费！Windows、MacOS本地使用教程，附Windows整合包，Colab一键运行脚本。

Watch this video on YouTube

Youtube 教學

Synthflow AI 第一個人工智慧語音代理平台

Synthflow AI 是個網絡服務

輕鬆創建 AI 語音助手，以 24/7 撥打外線電話、接聽來電和安排預約 – 無需編碼！

How I Made An AI VOICE AGENT [Quick & Easy] - Synthflow AI Tutorial

Watch this video on YouTube

WhisperBot：實時語音轉文本系統

WhisperBot：整合了Mistral大型語言模型的實時語音轉文本系統

WhisperBot 基於 WhisperLive 和 WhisperSpeech 的功能而構建，在實時語音到文本管道之上集成了大型語言模型 Mistral (LLM)。WhisperLive 依賴於 OpenAI Whisper

RVC-Boss/GPT-SoVITS 語音合成模型

語音轉換與語音合成 Web 界面。

功能：

零樣本文本到語音（TTS）：輸入5秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本TTS：僅需1分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。
跨語言支持：支持與訓練數據集不同語言的推理，目前支持英語、日語和中文。
WebUI工具：集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶（已在 win>=10上測試），可以直接通過預打包文件安裝。只需下載預打包文件，解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI，只需一分钟素材训练模型，效果堪比商用。一键安装，附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

Watch this video on YouTube

從 GPT-SoVITS Models 下載預訓練模型，並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別（另外），從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型，並將它們放置在 tools/damo_asr/models 中。

對於UVR5（人聲/伴奏分離和混響移除，另外），從 UVR5 Weights 下載模型，並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音（TTS）注釋 .list 文件格式：

vocal_path|speaker_name|language|text

語言字典：

‘zh’: Chinese
‘ja’: Japanese
‘en’: English

示例：

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

Amphion 多功能聲頻 LLM

Amphion(/æmˈfaɪən/) 是一個用於音訊、音樂和語音生成的工具包

支持可重複的研究，並幫助初級研究人員和工程師開始音訊、音樂和語音生成研究和開發領域。

香港中文大學（深圳）、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)

SeamlessM4T v2- 即時語音翻譯模型

透過語音翻譯的多模態模型，讓世界更緊密地連結在一起

Meta : 最先進的語音和文字翻譯的基礎模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ，目前已更新到 v2，於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比，此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型，可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務：

語音轉語音翻譯 (S2ST)
語音轉文字翻譯 (S2TT)
文字轉語音翻譯 (T2ST)
文本到文本翻譯 (T2TT)
自動語音辨識 (ASR)

(more…)

Page 2 of 2

« Previous 1 2

無縫 M4T

Popular Tags