開源 – Page 4 – Infer.store

SynCD 圖像模型的客製化

SynCD 提供了一個生成多影像合成的流程，它可以無需要通過微調，就可以令同一物件在不同情境下產生多個不同的視角。透過結合共享注意力機制，SynCD 更加可以保留物體特徵，同時亦會根據 Prompt 的提示產生圖像。

RIFLEx 影像擴散轉換器的額外長度

RIFLEx 主要延長影片的長度而無需重新訓練模型。研究發現，影片中不同頻率組成的部分會影響影片連貫性。在高頻會導致畫面重複，而低頻就會導致影片變成慢動作。RIFLEx 的方法是通過降低影片內在頻率，避免延長時候的重複問題，實現高品質的影片長度伸延。甚至能夠同時進行時間和空間的擴展。

2025.3.1 : The code for CogVideoX-5B and fine-tuned CogVideoX-RIFLEx are released.
2025.2.26 RIFLEx is supported in HunyuanVideoGP, where a 10.5 s video at 1280×720 can be generated on an RTX 4090.
2025.2.26 RIFLEx is supported in ComfyUI-HunyuanVideoWrapper by KiJai.
2025.2.25 : The paper, project page, code and fine-tuned HunyuanVideo-RIFLEx are released.

AI Video Extend Without Looping - RIFLExRope With Hunyuan Video And Wan 2.1

Watch this video on YouTube

影片主要講解 DeepSeek R1 模型背後的強化學習演算法，並著重於如何透過人類回饋來訓練獎勵模型。包括如何根據人類對不同回應的偏好來調整獎勵值。接著深入探討 “近端策略優化”（Proximal Policy Optimization）演算法的細節。同時亦探討如何利用 “優勢函數”（Advantage Function）避免偏離原始策略。最後，影片亦解釋了如何運用群體策略優化成高於平均水準的回應，同時亦阻止了低於平均水準的回應，而因此提升了模型的推理能力。

Reinforcement Learning in DeepSeek-R1 | Visually Explained

Watch this video on YouTube

BFS-Prover 自動定理證明

最佳優先搜尋 (BFS Best-First Tree Search) 是一種樹狀搜尋演算法，它透過優先從機率最高的節點來運作，屬於簡單和效率演算法，但普遍認為對於證明定理並不是最理想的方法。 BFS-Prover 挑戰了傳統觀點，
提出一種可擴展的專家疊代框架，主要包含了三個創新點：一是策略性數據過濾，二是利用編譯回饋進行直接偏好優化 (DPO) Direct Preference Optimization，三是長度正規化。

PaliGemma 2 mix 視覺模型

Google PaliGemma 2 mix 是 Gemma 系列中的一個升級版視覺語言模型，能夠處理多種任務。PaliGemma 2 mix 能夠直接用於大部份常見的場景，提供了不同大小的模型，分別為（3B、10B 和 28B 參數），解析度亦有兩種模式，分別是（224 和 448 像數）。模型擅長處理短文和長文的生成、光學字符識別、影像問答、物件偵測和影像分割等任務，並且可以搭配 Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp 等工具使用。

🚀本地部署谷歌PaliGemma 2 mix视觉大模型！轻松识别图像！支持标记物体位置！支持ORC提取文字内容！支持自然语言问答、文档理解、视觉问答！5分钟带你掌握本地部署全流程！附全部代码与注释说明

Watch this video on YouTube

DeepSeek & Crawl4AI 爬蟲！

這影片教你如何使用 DeepSeek AI 和 Crawl4AI 驅動網頁爬蟲，甚至無需編寫任何程式，就能輕鬆地從任何網站收集結構化數據。影片同時亦展示了一個實際案例，講解點樣為公司尋找潛在客戶，包括地址、企業名稱和聯絡方式等資訊，然後將數據匯入試算表進行整理和分析。

Scrape Any Website for FREE & NO CODE Using DeepSeek & Crawl4AI! (Opensource)

Watch this video on YouTube

Transformer Lab 桌面 LLM 工作台

Transformer Lab 是個免費的開源 LLM 工作平台，方便進行微調、評估、匯出和測試，並支援唔同的推理引擎和平台。Transformer Lab 適用於擁有 GPU 或 TPU 的電腦，亦支援 MLX 的 M 系列的蘋果電腦。主要功能包括下載開源模型、智能聊天、計算嵌入、創建和下載訓練數據集、微調和訓練 LLM、以及使用 R A G 與文件互動。

MAC Image

ComfyUI Sonic 音訊對應到嘴型(Lipsync)

Sonic 不單將音訊對應到嘴型，而是更全面理解音訊的內容和情感，進而產生更自然、更加生動的人像動畫。可以配合 ComfyUI_Sonic 使用。項目亦包括 Realtalk 即時同逼真的音訊驅動人臉生成技術。新增 frame number 選項，可以控制輸出影片的長度。亦可基於音頻長度。

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型，專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性，因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意，並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法，成功生成長達五分鐘的歌曲，並在多種音樂風格和語言中展現了令人印象深刻的結果。（支持生成塑料粵語歌）

GitHub – alisson-anjos/YuE-exllamav2-UI

Contribute to alisson-anjos/YuE-exllamav2-UI development by creating an account on GitHub.

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!

Watch this video on YouTube

Page Assist 瀏覽器擴充功能

Page Assist 是一個瀏覽器外掛，透過 Ollama 於本機運行 AI 模型，Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料，十分注重隱私。專案是由 MIT 授權。

Page 4 of 7

« Previous 1 2 3 4 5 6 7 Next »