AI Won't Be AGI, Until It Can At Least Do This (plus 6 key ways LLMs are being upgraded)
StableSwarmUI 支援 Stable Diffusion 3
LLM Analytics 可視化用量監察工具
Luma Dream Machine 高品質、逼真的視頻
MimicBrush 圖像編輯
MimicBrush 的一種創新的圖像編輯方法,通過提供參考圖像來編輯圖片,而無需明確指定編輯的細節。MimicBrush 的核心思想是「模仿編輯」,只需在原始圖像中用 Brush 標記要編輯的區域,並提供一張參考圖片,模型就會自動理解參考圖像中與目標區域相關的語義,並將其應用於編輯。這種方法使用基於擴散模型的生成框架,通過從影片中隨機選取幀並遮罩部分區域來進行自行監督學習,使模型能夠捕捉不同圖像之間的語義關係,實現零樣本的圖像編輯。研究還提供了一個基準測試,旨在促進未來對此領域的研究。

Multimodal RAG 多模態向量資料庫 ChromaDB
Multimodal RAG!? - Pushing the Boundaries of AI
建構一個能夠傾聽和觀察世界的人工智慧助手(逐步教學)(英)
Building an AI assistant that listens and sees the world (Step by step tutorial)