開源 – Infer.store

從零寫AI RAG 個人知識庫

影片中，作者使用了 Google 的 embedding 模型和 ChromaDB 向量資料庫來實現這個架構。

RAG 架構簡介 解釋了 RAG 的基本原理，即將長文章拆分成小片段，對每個片段進行 embedding，然後儲存到向量資料庫中，並在使用者提問時找出最相關的片段發送給大型語言模型。
文章分塊 示範如何將一篇關於「令狐沖轉生為史萊姆」的虛構文章進行分塊處理。他首先使用雙回車符作為切分依據，然後進一步優化，將以警號開頭的標題與後續的正文合併。
Embedding 與資料庫儲存 介紹如何使用 Google 的 embedding 模型對分塊後的文本進行 embedding，並將這些 embedding 及其原始文本儲存到 ChromaDB 向量資料庫中。作者特別提到 Google embedding 模型的「儲存」和「查詢」兩種模式。
查詢功能 說明如何透過查詢 embedding 模型並從 ChromaDB 中檢索出與使用者問題最相關的文本片段。
整合大型語言模型 最後，展示如何將查詢到的相關文本片段與使用者問題一起發送給大型語言模型（Gemini Flash 2.5），以生成更準確的回應。

影片強調動手實作的重要性，鼓勵觀眾親自寫一遍程式碼以加深理解。

从零写AI RAG 个人知识库

Watch this video on YouTube

Circuit Tracing 開源電路追蹤工具

在 Anthropic 最近的研究中，引入了一種追蹤大型語言模型思想的新方法。今天，他們開放該方法的源代碼，以便任何人都可以藉鑑我們的研究成果。

您可以造訪 Neuronpedia 介面來產生和查看您選擇的提示的歸因圖。對於更複雜的使用和研究，您可以查看程式碼庫。此版本使研究人員能夠：

透過產生自己的歸因圖來追蹤支援模型上的電路；
在互動前端中視覺化、註釋和共享圖表；
透過修改特徵值並觀察模型輸出如何變化來檢驗假設。

WAN 2.1 VACE 模型的原生支援

1.3B 模型採用 Creative Commons 非商業授權，14B 模型則為 Apache 2 授權。

影片詳細展示如何在ComfyUI中下載、載入不同模型，根據顯存選擇合適的模型版本，並調整參數以優化生成效果（如步數、強度等）

ComfyUI現在原生支援WAN 2.1 VACE模型，提供1.3B（適合低顯存顯卡）和14B（適合高顯存顯卡）兩種模型。
多種 AI 影片生成工作流程：
- 文字轉影片（Text-to-Video）
- 圖像轉影片（Image-to-Video）
- 影片控制（Video Control）
- 影片外延（Video Outpainting）
- 首尾影格生成（First Frame/Last Frame）

Amazing AI Video Natively in ComfyUI

Watch this video on YouTube

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練，而是自動生成問題，然後嘗試自動解決問題來進行學習。過往的監督學習，或者強化學習，一般都是由人類設定目標進行監管，而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示，這種模型不僅在這些領域達到了最先進的性能，甚至超越了由人類策劃的數據去訓練的模型。

nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM)，專為高效的訓練和實驗而設計。使用純 PyTorch 構建，整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器（SigLIP-B/16-224-85M）與輕量級因果語言模型（SmolLM2-135M）相結合，形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後，在 MMStar 上實現了 35.3% 的準確率，這使其成為低資源 VLM 研究的強大基線。

FaceFusion 3.2.0 GPU 詳細安裝教程

💥 FaceFusion 3.2.0 更新不僅帶來了全新的GPU加速，還提升了不少效能與真實感！

🔍 新功能
1️⃣ YOLO NSFW過濾
2️⃣ 多GPU支援
3️⃣ FLAC音訊輸出
4️⃣ 臉部選擇增強

NEW FaceFusion 3.2.0 GPU Installation – Boost Realism & Performance Like Never Before!

Watch this video on YouTube

LTX-Video 0.96

LTX-Video 是第一個基於 DiT 的視訊生成模型，可以即時產生高品質的視訊。它可以以 1216×704 的分辨率生成 30 FPS 的視頻，比觀看這些視頻的速度還快。該模型在多樣化影片的大規模資料集上進行訓練，可以產生具有逼真和多樣化內容的高解析度影片。模型支援文字轉圖像、圖像轉影片、基於關鍵影格的動畫、影片擴充（正向和反向）、影片轉影片以及這些功能的任意組合。

SkyReels-V2 生成無限長度影片

Skywork 是一個創新的研究團隊，致力於推動法學碩士和多模式理解。它們的使命是透過視覺和語言開發並實現無縫互動的尖端模型和資料集來突破人工智慧的界限。模型支援文字到視訊（T2V） 和圖像到視訊（I2V） 任務，並且可以在同步和非同步模式下進行推理。

影片長度限制的突破：雖然像 LTXV 和 HuanYun 等模型在速度或品質方面表現出色，但它們通常限制生成約 5 到 10 秒的短片。Frame pack 可以生成高達 60 秒的高品質影片，但 60 秒是其最大長度。Skyreels V2 透過其稱為「擴散強制 (diffusion forcing)」的技術，可以讓您生成長達 60 秒甚至可能更長的影片。技術上，擴散強制模型可以透過不斷訓練一個擴散強制取樣器並在最後組合每個結果來無限延長影片長度。

Skyreels V2 - Best Video Model for High Quality Infinite Length

Watch this video on YouTube

MiniMax MCP server

MiniMax 模型上下文協定 (MCP) 伺服器，可與強大的文字轉語音和視訊/圖像生成 API 進行互動。此伺服器允許 MCP 用戶端（如 Claude Desktop 、 Cursor 、 Windsurf 、 OpenAI Agents 等）產生語音、複製聲音、產生視訊、產生影像等。

GitHub 官方 MCP 伺服器

GitHub MCP 伺服器是一個模型上下文協定 (MCP) 提供與 GitHub API 無縫整合的伺服器，為開發人員和工具提供自動化和互動功能。提供一鍵安裝。完成後，切換代理模式，伺服器將會自動啟動。

建立與 GitHub 生態系統互動的 AI 驅動工具和應用程式

Introducing the GitHub MCP Server: AI interaction protocol | GitHub Checkout

Watch this video on YouTube

Page 1 of 7

1 2 3 … 7 Next »