開源 – Page 6 – Infer.store

MangaNinja 優質線稿圖像上色

MangaNinja 的主要設計目標是基於協助線稿圖像上色。它採用了幾個關鍵技術：區塊隨機置換模組(patch shuffling module)，點驅動控制方案(point-driven control scheme)。實驗結果顯示，MangaNinja 在色彩準確度和生成圖像質量方面明顯優於其他現有的非生成式著色方法（如 BasicPBC）、一致性生成方法（如 IP-Adapter）以及 AnyDoor。總結來說，MangaNinja 透過區塊隨機置換模組和點驅動控制方案實現精確的線稿著色。它不僅可以處理單一參考圖像，還可以利用多個參考圖像進行著色，並且可以處理參考圖像與線稿之間存在差異的情況。此外，MangaNinja 的互動式控制功能，允許使用者更精確地控制著色結果。

MangaNinja: Line Art Colorization with Precise Reference Following

Watch this video on YouTube

HuggingFace 模型下載

Ollama 結構化的輸出方案

「structured-outputs」，主要展示如何利用 OpenAI 和 Ollama 這兩個大型語言模型平台，以結構化的輸出方式驗證數獨遊戲的有效性。程式碼包含一個測試架構，示範如何使用不同的模型（例如 OpenAI 的 gpt-4o-mini 和 Ollama 的 phi4）以及相應的執行指令。專案目前只有 Python 程式碼，並有簡潔的 README 檔說明使用方法，但缺乏更詳細的專案描述和資源連結，星星數和關注度也都很低。 核心目的在於展示結構化輸出的應用，並提供 OpenAI 和 Ollama 的實作範例。

Ollama Structured Outputs with Phi4 is KILLER - Get Started NOW!!

Watch this video on YouTube

GitHub – chrishayuk/structured-outputs

Contribute to chrishayuk/structured-outputs development by creating an account on GitHub.

DeepSeek-V3 國產超強模型

DeepSeek-V3 的架構，包含創新的多標記預測 (MTP) 目標函數和無輔助損失的負載平衡策略，以及基於Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 的高效能設計。

DeepSeek-V3 是一種強大的專家混合 (MoE) 語言模型，總參數為 671B，每個令牌啟動 37B。為了實現高效的推理和經濟高效的訓練，DeepSeek-V3 採用了多頭潛在註意力（MLA）和 DeepSeekMoE 架構，這些架構在 DeepSeek-V2 中得到了徹底的驗證。在 14.8 兆個多樣化的高品質 Token 上對 DeepSeek-V3 進行預訓練，然後進行監督微調和強化學習階段，以充分利用其能力。綜合評估表明，DeepSeek-V3 的性能優於其他開源模型，並且達到了與領先的閉源模型相當的性能。儘管性能出色，DeepSeek-V3 僅需要 2.788M H800 GPU 小時即可完成完整訓練。此外，它的訓練過程非常穩定。在整個訓練過程中，沒有遇到任何不可恢復的損失高峰或執行任何回滾。

Watch this video on YouTube

OpenWebUI 0.5.2 更新

更新包括：

🖊️ 頻道輸入指示器：準確了解誰在您的頻道中即時輸入，從而增強協作並保持每個人的參與。
👤 使用者狀態指示器：透過點擊頻道中的個人資料圖像來快速查看使用者的狀態，以獲得更好的協調和可用性見解。
🔒 可設定的 API 金鑰驗證限制：靈活配置 API 金鑰驗證的端點限制，現在預設為關閉，以便在受信任的環境中更順利地進行設定。

MAC Image

GraphRAG 平台大戰對話框架

聊天機器人/GraphRAG框架，可以根據社交平台用戶評論創建多個 LLM 代理，並讓他們就特定主題進行辯論。

B站知乎微博，谁更讨厌彩礼？

Watch this video on YouTube

Genesis 生成式物理引擎

Genesis 是一個強大的、通用物理引擎，旨在為機器人和更廣泛的應用程式（如具身 AI 和物理 AI）提供服務。它不僅是一個輕量級且超快速的模擬平台，擁有易於使用的 Python 介面和逼真的渲染系統，更是一個生成式數據引擎，能根據自然語言提示生成各種模態的數據，例如物理準確的影片、機器人策略、以及複雜的 3D 場景和角色動作。其核心是從零開始重建的物理引擎，結合多種物理求解器，並由上層的生成式代理框架進一步增強，實現數據生成的自動化。目前已公開發布物理引擎和模擬平台的原始碼，生成式框架將逐步推出。 Genesis 的目標是大幅提升模擬效率和數據生成能力，促進機器人學及相關領域的研究與發展。

MAC Image

mistral.rs 高速推理引擎

高效能語言模型推論引擎

它以 Rust 編寫，支援多種模型、量化方法 (GGML, GPTQ, HQQ 等) 和加速器 (CUDA, Metal, CPU)，並提供便捷的 Python API 和 OpenAI 相容的 HTTP 伺服器。核心功能包括快速推論、多種量化技術以提升效能，以及對 LoRA、X-LoRA 等模型調整技術的支援。附詳細說明安裝、建置、模型取得和使用方法，並提供豐富的範例程式碼與效能基准測試結果。(支援 Mac M 系列)

MAC Image

Gemini-Teacher 英語教師

Google Gemini AI 打造英語發音矯正

提供即時語音辨識、AI 驅動的發音評估、語法修正和情境對話練習等功能，旨在幫助使用者提升英語口語能力。使用者需要取得Gemini 的 API Key 才能運行。

MAC Image

TRELLIS 3D 高品質三維模型

根據文字或圖片提示生成高品質的三維模型

支援 Radiance Fields、3D Gaussians 和 mesh等多種格式。其核心是 Structured LATent, (SLAT 結構化潛在推理），採用為 SLAT 量身打造的校正流變換器（Rectified Flow Transformers）作為骨幹。專案提供了多達 20 億個參數的大規模預訓練模型，訓練資料包含 50 萬個不同類型的三維物件。TRELLIS 在效能上顯著超越現有方法，並展現出靈活的輸出格式選擇和局部三維編輯能力。文中包含模型架構、安裝步驟、預訓練模型、使用範例（包含最小化範例和網頁Demo）、授權資訊以及引用資訊等細節。

輸出的 3D 型以 Mixamo 加入 Rigging 教學

Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!

Watch this video on YouTube

MV-Adapter 多視角影像生成

MV-Adapter: Multi-view Consistent Image Generation Made Easy

MV-Adapter 是一款多功能的即插即用適配器，可將現有的預先訓練的文本到圖像 (T2I) 擴散模型轉變為多視圖生成器。不同於以往需要完整微調的繁複方法，MV-Adapter 透過更新較少參數，有效降低計算成本並避免過擬合。

它利用創新的雙重自我注意力層和平行注意力架構，高效建模 3D 幾何知識，並整合了條件編碼器以處理不同輸入，例如文字、圖片或幾何資訊。實驗結果顯示，MV-Adapter 在不同基礎 T2I 模型和控制條件下，都能生成高保真、多視角一致的影像，展現其適應性和多功能性，為多視角影像生成設定了新的品質標準。

Page 6 of 7

« Previous 1 … 4 5 6 7 Next »