NVidia Sana – 高速生成高解析度模型

NVidia Lab(NVlabs) Sana 是一個高效的文字轉圖像模型，其核心設計包含高效的編碼器-解碼器架構 (DC-AE)、線性擴散變換器 (Linear DiT)、僅解碼器的文字編碼器，以及高效的訓練和採樣方法 (Flow-DPM-Solver)，讓它能快速生成高解析度 (最高 4096×4096) 的高品質圖片。相較於其他大型擴散模型，Sana 模型體積小，速度快，甚至可在 16GB 的筆電 GPU 上執行，生成 1024×1024 解析度的圖片只需不到一秒鐘。文件中包含了模型的架構說明、效能數據、使用方法（包含使用 Hugging Face Diffusers 的方式）、訓練方法以及未來的發展方向等資訊。

渲染 4K 影像的速度比 Flux 快 100 倍

SANA：使用線性擴散變壓器進行高效率高解析度影像合成

NVIDIA SANA In ComfyUI - 100 Times Faster Than Flux And Render 4K Images

Watch this video on YouTube

Popular Tags