admin

RVC-Boss/GPT-SoVITS 語音合成模型

語音轉換與語音合成 Web 界面。

功能：

零樣本文本到語音（TTS）：輸入5秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本TTS：僅需1分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。
跨語言支持：支持與訓練數據集不同語言的推理，目前支持英語、日語和中文。
WebUI工具：集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶（已在 win>=10上測試），可以直接通過預打包文件安裝。只需下載預打包文件，解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI，只需一分钟素材训练模型，效果堪比商用。一键安装，附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

Watch this video on YouTube

從 GPT-SoVITS Models 下載預訓練模型，並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別（另外），從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型，並將它們放置在 tools/damo_asr/models 中。

對於UVR5（人聲/伴奏分離和混響移除，另外），從 UVR5 Weights 下載模型，並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音（TTS）注釋 .list 文件格式：

vocal_path|speaker_name|language|text

語言字典：

‘zh’: Chinese
‘ja’: Japanese
‘en’: English

示例：

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

Meta 已著手訓練 Llama 3

Meta改組AI部門，已著手訓練Llama 3

為了發展通用人工智慧（AGI），Meta將AI研發部門與產品部門整併，並開始打造新一代Llama 3模型

MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

國產 ModelScope 模型

本項目MS-Vid2Vid由達摩院研發和訓練，主要用於提升文生視頻、圖生視頻的分辨率和時空連續性，其訓練數據包含了精選的海量的高清視頻、圖像數據（最短邊>720），可以將低分辨率的(16:9)的視頻提

「MS- Video-to-Video」係一種深度學習模型，可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如，可以將一段日本動畫轉換成中國水墨畫風格，或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同，都是基於隱空間的視頻擴散模型(VLDM)，且其共享相同結構的時空UNet(ST-UNet)，其設計細節延續我們自研 VideoComposer，具體可以參考其技術報告。

Moore-AnimateAnyone

GitHub – MooreThreads/Moore-AnimateAnyone

Contribute to MooreThreads/Moore-AnimateAnyone development by creating an account on GitHub.

GitHub – MooreThreads/Moore-AnimateAnyone

Moore-AnimateAnyone 是一個開放源碼的專案，由 MooreThreads 創建與維護。此專案的目的是讓用戶能夠用簡便的方式來動畫化任何人物。

透過這個軟件，用戶可以將靜態的圖片或者是人物照片轉化成動態的動畫。它能讓角色栩栩如生，仿佛擁有了自己的情感和行動，這對於動漫創作者、游戲開發者或是任何需要虛擬人物動畫的創意工作者來說，都是一個非常有用的工具。

該平台的設計考慮到了易用性，即便是沒有編程經驗的人也可以輕鬆上手。用戶可以自定義角色的行為，並將它們應用於不同的娛樂或教育場景中。

此外，Moore-AnimateAnyone 專案鼓勵開源協作。這意味著任何有興趣的開發者都可以加入這個專案，通過貢獻代碼、文檔、反饋和維護等方式來完善這一工具。

practicalAI-cn: 實戰中文版

GitHub – AI實戰-practicalAI 中文版

AI實戰-practicalAI 中文版. Contribute to LisonEvf/practicalAI-cn development by creating an account on GitHub.

使用 PyTorch 實現基本的機器學習算法和深度神經網絡。
🖥️ 不需要任何設置，在瀏覽器中使用 Google Colab 運行所有程序。
📦 不僅僅是教程，而是學習產品級的面向對象機器學習編程。

Civitai 推出俱樂部

為創作者提供類似 Patreon

Civitai 仍然是最大的 Stable Diffusion 資源中心

Civitai 本週推出了俱樂部 —— 一個為創作者提供類似 Patreon 平台，讓為 Creator 提供以 Buzz 貨幣與用家進行交易。讓創作者分享他們的獨家創作，並討論如何充分利用這些東西。

Civitai 為提供獨家內容的創作者提供更好的體驗，並為所有人的永續發展鋪平道路。可是，Civitai 遇到了一些障礙，也看到了一些強烈反對。

最終 Civitai 以民主方式決定未來，讓所有用戶提出一些想法，集思廣益，可以幫助創作者實現永續發展。也許這些的結合可以成為我們未來成功的秘訣？

一旦您有機會查看這些選項，請務必投票！

台灣-繁體中文 LLM v2，包括 7B 和 13B 模型

台灣傳統國語

Taiwan LLM 基於 Meta Llama 2 的全參數微調模型技術，融合台灣本土的文本資料，包括公開的百科、新聞、小說、雜誌以及社群討論等，涵蓋超過 200 億個繁體中文字，使大型語言模型能對台灣地區的問題回答得更精確

Taiwan-LLM 是一個基於 Meta/LLaMa-2 ，適用於繁體中文應用。

台灣-LLM v2.0 13B 對超過 300 億個標記進行了預訓練，並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v2.0 7B 對超過 300 億個標記進行了預訓練，並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v1.0 13B 對超過 50 億個標記進行了預訓練，並對超過 49 萬個傳統普通話對話進行了指令調整。

Amphion 多功能聲頻 LLM

Amphion(/æmˈfaɪən/) 是一個用於音訊、音樂和語音生成的工具包

支持可重複的研究，並幫助初級研究人員和工程師開始音訊、音樂和語音生成研究和開發領域。

香港中文大學（深圳）、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)

Google Bard 2023 12 月更新

要避免 GPT 出現越來越嚴重的錯誤內容，唯有不斷改進現有的演算法。我相信 Bard 採用 Gemini 的 Multimodol 模型就是一種新嘗試。

Google Bard 最初是基於 LaMDA，但後來轉用 PaLM 和 Gemini。

2023 年 3 月：Bard 在有限的容量下推出，由 LaMDA 提供支持。
2023 年 5 月：Bard 擴展到其他國家，並轉向 PaLM，另一個來自 Google AI 的強大語言模型。
2023 年 10 月：Bard 採用 Gemini，這是一個針對對話任務而特別設計的更先進的 LLM。

因此，儘管 LaMDA 在早期開發中起到了至關重要的作用，但目前依賴 Gemini 的能力來生成文本、翻譯語言、創作不同類型的創意內容，以及以一種信息豐富的方式回答您的問題。

以下是總結這些模型差異的一個表格：

(more…)

PromeAI 推出更高畫質 txt2video

徹底改變您的工作方式，從而提高效率、生產力和創新。

在 PromeAI 上發現令人驚嘆的視訊文字到影片，這些影片將激發並激發您的想像。

PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能，亦提供料多種創意模式：

AI Supermodel Generation – 上傳一張人體模型或業餘人像照片，馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。

Creative Fusion – 將草圖與藝術風格融合，創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。

Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置，以獲得更理想的效果。

Image Variation – 這是 img2img，產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。

Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。避免一次將面積擴大太多。

(more…)

Page 37 of 47

« Previous 1 … 35 36 37 38 39 … 47 Next »