開源 – Page 3 – Infer.store

Stable Virtual Camera 3D 擴散模型

Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型，無需複雜的 3D 建模，就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時，它亦提供了靈活的 3D 攝影機控制，用家可以自定攝影軌跡，而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權，主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型

gptme CLI AI 私人助理

gptme 是一個私人的 AI 助理，透過終端的命令行 C L I，就可以叫系統執行一系列的工作，例如編輯檔案、執行程式、瀏覽網站、資料分析。我們亦可以透過自然語言去執行 Linux Shell 的指令，意思係話，我們不再需要死記指令來操作系統。佢甚至可以通過 AI 視覺進行互動教學。

DeepHermes 3 內置推理的 LLM 模型

DeepHermes 3 Preview 是世界上第一批能夠將推理和正常 L L M 模式整合的模型之一。它包括高級的代理能力、更好的角色扮演、推理、能夠保持十分長的上下文連貫性對話。而且只要簡單的系統提示詞，就可以即刻啟動推理能力 Reasoning。

RAG 智能升級

影片介紹如何用 LangGraph、Agentic RAG、Nano-GraphRAG 和 Claude 3.7 Sonnet 製作一個具備推理能力的代理 Agent。作者透過展示了使用不同的工具，令 AI 模型能夠使用計算機、字典和搜尋引擎來增強 AI 模型的能力。

RAG Intelligent Upgraded: Agentic RAR + Nano-GraphRAG + Claude 3.7 Sonnet (Oxford Univ)

Watch this video on YouTube

Phantom 跨模態影片生成框架

Phantom 是字節跳動最新的影片生成框架，主要是可以生成主體一致性(Subject-to-Video)的影片。Phantom 會嚴格保留由用家提供的參考影像特徵，同時亦會根據提供的提示詞，創造出生動同連貫的影片。這個技術不單止可以用於單一主體，亦能夠同時處理多個主體之間的互動。透過跨模態對齊的訓練方式，Phantom 確保生成的影片內容既符合文字指令，亦能夠精準呈現參考影像中的主體。

olmOCR：PDF 文件轉換

olmOCR 是一個開發的開源工具包，可以將 PDF 文件轉換為適合大型語言模型作為訓練用途，或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容，表格、及方程式，甚至能夠準確識別手寫內容。

Mobius 無縫循環影片

Mobius 無縫循環影片是一個創新的技術方法，通過構建一個潛在循環（Latent Cycle），將影片的起始和結束噪音連接起來，並在推理過程逐步移動潛在空間，結果可以產生具有時間連貫性的循環影片。

wp-ai-chat：WordPress 插件

wp-ai-chat 是個開源的 WordPress 插件，旨在為 WordPress 網站整合 AI 助手功能。這個插件可以連接多種不同的 AI 模型，包括 DeepSeek、豆包、通義千問、OpenAI、Kimi 和千帆等，提供聊天、文章翻譯和 AI 生成 PPT 等功能。

ComfyUI-Copilot 智能工作流

ComfyUI-Copilot 是基於 ComfyUI 框架構建的智能助手，通過自然語言交互簡化並增強 AI 算法調試和部署過程。無論是生成文本、圖像還是音頻，ComfyUI-Copilot 都提供直觀的節點推薦、工作流構建輔助和模型查詢服務，以簡化您的開發過程。

DICEPTION：另類 Segment Anything Model

DICEPTION 是一個新型的通用擴散模型，是特別為影像的認知而設計。它只需要少量資料就能夠執行多種不同的影像偵察任務，例如距離的深度評估、畫面物件分類和評估人類身體的姿態。相對其他先進的擴散模型，例如 SAM-vit-h Segment Anything Model，DICEPTION 只需用 0.06% 的數據就能夠展現出非常準確的成果。

Page 3 of 7

« Previous 1 2 3 4 5 … 7 Next »