RVC-Boss/GPT-SoVITS 語音合成模型

功能:

  1. 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
  2. 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  3. 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  4. WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別(另外),從 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。

對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音(TTS)注釋 .list 文件格式:

vocal_path|speaker_name|language|text

語言字典:

  • ‘zh’: Chinese
  • ‘ja’: Japanese
  • ‘en’: English

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.


Meta 已著手訓練 Llama 3


MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

「MS- Video-to-Video」係一種深度學習模型,可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如,可以將一段日本動畫轉換成中國水墨畫風格,或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同,都是基於隱空間的視頻擴散模型(VLDM),且其共享相同結構的時空UNet(ST-UNet),其設計細節延續我們自研 VideoComposer,具體可以參考其技術報告。


Moore-AnimateAnyone

GitHub – MooreThreads/Moore-AnimateAnyone

Moore-AnimateAnyone 是一個開放源碼的專案,由 MooreThreads 創建與維護。此專案的目的是讓用戶能夠用簡便的方式來動畫化任何人物。

透過這個軟件,用戶可以將靜態的圖片或者是人物照片轉化成動態的動畫。它能讓角色栩栩如生,仿佛擁有了自己的情感和行動,這對於動漫創作者、游戲開發者或是任何需要虛擬人物動畫的創意工作者來說,都是一個非常有用的工具。

該平台的設計考慮到了易用性,即便是沒有編程經驗的人也可以輕鬆上手。用戶可以自定義角色的行為,並將它們應用於不同的娛樂或教育場景中。

此外,Moore-AnimateAnyone 專案鼓勵開源協作。這意味著任何有興趣的開發者都可以加入這個專案,通過貢獻代碼、文檔、反饋和維護等方式來完善這一工具。


practicalAI-cn: 實戰中文版

  •  使用 PyTorch 實現基本的機器學習算法和深度神經網絡。
  • 🖥️ 不需要任何設置,在瀏覽器中使用 Google Colab 運行所有程序。
  • 📦 不僅僅是教程,而是學習產品級的面向對象機器學習編程。

Civitai 推出俱樂部

Civitai 本週推出了俱樂部 —— 一個為創作者提供類似 Patreon 平台,讓為 Creator 提供以 Buzz 貨幣與用家進行交易。讓創作者分享他們的獨家創作,並討論如何充分利用這些東西。

Civitai 為提供獨家內容的創作者提供更好的體驗,並為所有人的永續發展鋪平道路。 可是,Civitai 遇到了一些障礙,也看到了一些強烈反對。

最終 Civitai 以民主方式決定未來,讓所有用戶提出一些想法,集思廣益,可以幫助創作者實現永續發展。 也許這些的結合可以成為我們未來成功的秘訣?

一旦您有機會查看這些選項,請務必投票


台灣-繁體中文 LLM v2,包括 7B 和 13B 模型

Taiwan LLM 基於 Meta Llama 2 的全參數微調模型技術,融合台灣本土的文本資料,包括公開的百科、新聞、小說、雜誌以及社群討論等,涵蓋超過 200 億個繁體中文字,使大型語言模型能對台灣地區的問題回答得更精確

Taiwan-LLM 是一個基於 Meta/LLaMa-2 ,適用於繁體中文應用。

台灣-LLM v2.0 13B 對超過 300 億個標記進行了預訓練,並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v2.0 7B 對超過 300 億個標記進行了預訓練,並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v1.0 13B 對超過 50 億個標記進行了預訓練,並對超過 49 萬個傳統普通話對話進行了指令調整。


Amphion 多功能聲頻 LLM

香港中文大學(深圳)、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)

Google Bard 2023 12 月更新

要避免 GPT 出現越來越嚴重的錯誤內容,唯有不斷改進現有的演算法。我相信 Bard 採用 Gemini 的 Multimodol 模型就是一種新嘗試。

Google Bard 最初是基於 LaMDA,但後來轉用 PaLM 和 Gemini。

  • 2023 年 3 月:Bard 在有限的容量下推出,由 LaMDA 提供支持。
  • 2023 年 5 月:Bard 擴展到其他國家,並轉向 PaLM,另一個來自 Google AI 的強大語言模型。
  • 2023 年 10 月:Bard 採用 Gemini,這是一個針對對話任務而特別設計的更先進的 LLM。

因此,儘管 LaMDA 在早期開發中起到了至關重要的作用,但目前依賴 Gemini 的能力來生成文本、翻譯語言、創作不同類型的創意內容,以及以一種信息豐富的方式回答您的問題。

以下是總結這些模型差異的一個表格:

(more…)

PromeAI 推出更高畫質 txt2video

PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能,亦提供料多種創意模式:

AI Supermodel Generation – 上傳一張人體模型或業餘人像照片,馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。

Creative Fusion – 將草圖與藝術風格融合,創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。

Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置,以獲得更理想的效果。

Image Variation – 這是 img2img,產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。

Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。 避免一次將面積擴大太多。

(more…)

Page 37 of 47
1 35 36 37 38 39 47