只要輸入 5 秒的聲音樣本,就可以體驗到 TTS 的聲音轉換,俗稱 “變聲”。而僅需要 1 分鐘的語音訓練數據,就可以微調模型,提升語音的相似度。GPT-SoVITS 目前支持英語、日語、韓語、粵語和中文。提供的 Web 工具令 TTS 操作相當方便,甚至提供歌曲與伴奏分離、自動語音訓練、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和 GPT / SoVITS 模型。
MagicQuill 智慧型互動圖像編輯系統
又一國內手足大作 ! 香港科大有份幫手!開源並已經可以下載。
MagicQuill demo video
Ollama 正式支持 Llama 3.2 Vision
Ollama正式支持Llama 3.2 Vision | 本地运行多模态模型实现图像识别
Ollama+Llama3.2-vision多模態模型實現監控
ollama支持Llama3.2-vision多模态大模型轻松实现监控找人!重磅分享:详细讲解提示词工程+视觉大模型实现视频目标查找!无需高端显卡,本地运行流畅,完美解决视频目标搜索难题,附赠完整源码
Ollama 支持 Llama3.2-vision 多模態大模型,輕鬆實現監控找人!詳細講解提示詞工程 + 視覺大模型實現視頻目標查找!無需高端顯卡,本地運行流暢,完美解決視頻目標搜索
零代碼構建AI智能體
零代码构建AI智能体!本地部署n8n+LiteLLM+免费gpt4o!ollama+aya-expanse-8b大模型!GitHub models免费API!打造专业级科技新闻撰稿AI Agent!
零代碼構建 AI 智能體!本地部署 n8n+LiteLLM+ 免費 gpt4o!ollama+aya-expanse-8b 大模型!GitHub models 免費API!打造專業級科技新聞撰稿 AI Agent!
Nvidia 開源項目專頁
CogVideoX Tora 運動軌跡影片
[AI tutorial] 本機產出影片大突破 CogVideoX Tora 參考多個運動軌跡產出影片的實際操作與範例解說 #ai #comfyui #CogVideoX
3 個步驟即執行 🤗“Parler TTS”AI 語音
3 steps to run HuggingFace 🤗 "Parler TTS" AI Voice on your local machine
F5-TTS 文字轉語音仿真模型
示範範例: https://SWivid.github.io/F5-TTS
F5-TTS (Best ElevenLabs Alternative Yet!): Easy Step-by-Step Installation + Demo