admin

HiDream 文生圖模型

北京的 AI 初創公司 HiDream (智象未來)，剛剛推出了開源 170 億參數的文生圖模型，性能比 FLUX 更為出色。甚至已經在模型排行榜入面升上第二位。而由它生成出來的人物質感、結構、邏輯都非常之唔錯。甚至生成英文文字的準確性同排版能力亦相當之高。除了提供開源版本，亦提供了網上測試同商業版本。

Hi-Dream (the next Flux Killer?): ComfyUI Installation and Use (step-by-step) #ai #flux #hidream

Watch this video on YouTube

HiDream - Now With Native ComfyUI Support!

Watch this video on YouTube

VSCode Agent + MCP

影片展示了 Visual Studio 的最新 AI 功能，重點介紹了新的 Agent 智能體代理模式，同時引入了模型上下文協議 MCP Model Context Protocol。影片亦示範了完整的應用程式開發，並通過不同的模式與 AI 進行交互：包括詢問，編輯。亦會根據項目要求自動進行修改。這些進步反映了 AI 技術在增強開發工作流程和提高效率方面的快速成長。

VS Code Agent Mode Just Changed Everything

Watch this video on YouTube

Llama 4 Scout 是一個擁有 170 億個活躍參數和 16 個 MOE 的混合專家模型。它被認為是目前同類型最優秀的多模態模型，比前幾代的 Llama 模型更強大。新模型可以用單張 NVIDIA H100 GPU 運作。佢擁有業介領先的 1000 萬 tokens 上下文窗口，並且在廣泛使用的基準測試表現都優勝過 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。它在預訓練和後訓練的過程都用了 256K 的上下文長度。

另一個模型 Maverick 同樣是一個擁有 170 億個活躍參數的模型，但它擁有 128 個 MOE 的混合專家模型。基準測試擊敗了 GPT-4o 和 Gemini 2.0 Flash，而在圖像方面亦表現相當出色，能夠將提示詞同埋相關的視覺概念對齊，將模型的回應鎖定到圖像中的特定區域。兩個模型都有獨特的活躍參數模式，能夠節省一半資源。令開發同應用的價格更低。

Llama-4 First Look & Hands On Testing (Code, Vision, Dialogue)

Watch this video on YouTube

WhatsApp MCP 增強訊息處理功能

WhatsApp MCP 可利用您的個人 WhatsApp 帳戶進行搜索訊息、聯絡人及群組，並能向個人或群組發送訊息。所有訊息會自動儲存到本地的 S Q Lite 資料庫，確保私隱同控制權。用戶只需要掃描 QR code 就可以驗證帳戶並開始使用。WhatsApp MCP 整合了 Claude Desktop，利用語言模型來增強訊息的處理功能，十分適合需要高效管理 WhatsApp 通訊的用戶。

ComfyUI – ComfyUI-Manager Day 1

ComfyUI-Manager 在 3 月 28 日遷移至 ComfyUI 開發團隊所在的 GitHub Repository。因此我相信 ComfyUI 能夠持續提升使用者體驗。提供一鍵安裝、節點管理。如果您經常探索最新的 AI 繪圖技術，抑或需要特定的圖像處理節點，ComfyUI Manager 都能夠令相關操作流程更為簡易及高效。

InfiniteYou 克隆自己

InfiniteYou 的獨特之處在於其強大的身份保留技術！透過核心組件 InfuseNet，即使在生成全新場景或是不同風格的相片，也能精準保留相片中的人物特徵。您可以僅以文字描述，就能讓同一人物出現在不同情境、穿著不同的衫，甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制，令創意揮灑的同時，也能精細調整生成結果，直至符合您需要的獨特內容！(ByteDance)

LHM 體態模型

LHM (Large Animatable Human Reconstruction Model) 是一個高效及高質量的 3D 人體重建方案模型，能夠在幾秒鐘內生成影片。模型利用了多模態的 Transformer 架構，以注意力機制，對人體特徵和影像特徵進行編碼，能夠詳細保存服裝的幾何形狀和紋理。為了進一步增強細節，LHM 提出了一種針對頭部特徵的金字塔型編碼方案，能夠生成頭部區域的多種特徵。（阿里巴巴）

VisoMaster 面部替換 Face swapping

VisoMaster 是一個功能強大的面部替換與編輯工具，無論是靜態圖片還是動態影片，都能夠輕鬆地進行面部替換。替換後的結果非常自然流暢，幾乎看不出任何人工編輯的痕跡。而且可以根據需求定制模型和微調參數，以獲得更個性化的面部替換效果。

VisoMaster 2025 最新版 1.6：超简单换脸教程，一学就会！

Watch this video on YouTube

OpenAI 即將加入 MCP

OpenAI 正式宣佈將會在它們的產品 ChatGPT 與及桌面應用程式中添加 Anthropic 的上下文協議 (MCP) 的支援。 OpenAI CEO Sam Altman 表示 “我們很開心能夠在我們的產品中增加對 MCP 的支持”。

Qwen 2.5 Omni 7b 通義千問多模態模型

Qwen 2.5-Omni，是一個由阿里巴巴團隊開發的端對端多模態模型。它的主要目的是統一處理輸入的文字、圖像、音訊和影片，能同時生成文字和自然語音作為回應。模型在多模態輸入的感知、文字與語音的同步生成以及串流處理的優化等方面都採用了創新技術同埋架構，例如 TMRoPE 時間對齊編碼和 Thinker-Talker 架構。下面的影片詳細示範了 Qwen 在不同的應用場景下的優秀表現。

Qwen2.5-Omni-7B: Voice Chat + Video Chat! Powerful New Opensource end-to-end multimodal model

Watch this video on YouTube

Page 2 of 47

« Previous 1 2 3 4 … 47 Next »