ComfyUI-LTXVideo 的背景下,sigma(σ) 是指去噪過程(denoising process)中使用的噪聲水平(noise level),它是 LTX(Latent Vision)模型生成視頻時調度器(scheduler,例如 LTXVScheduler)的核心概念之一。Sigma 代表了每個去噪步驟中的噪聲強度,通過逐步減少噪聲,從隨機噪聲轉換為最終的視頻幀。以下是用繁體中文對 sigma 在 LTXVideo 中的作用和意義的詳細解釋,基於截至 2025 年 3 月 6 日的 ComfyUI 和 LTXVideo 的常見實現。


Sigma 的基本概念

  • 定義:Sigma 是一個數值,表示在潛在空間(latent space)中添加的噪聲量。較高的 sigma 值表示更多的噪聲(初始步驟),而較低的 sigma 值表示接近最終乾淨的輸出(終止步驟)。
  • 來源:在擴散模型(diffusion models)中,sigma 是基於變分自編碼器(VAE)和隨機過程(stochastic process)導出的,描述了噪聲分佈的標準差(standard deviation)。LTXVideo 延用了這種框架,但針對視頻生成進行了優化。
  • 作用:Sigma 調度(sigma schedule)指導模型如何從高噪聲狀態(完全隨機)逐步逼近目標視頻,確保幀與幀之間的時間連貫性(temporal coherence)。

Sigma 在 LTXVScheduler 中的具體應用

在您提供的 LTXVScheduler 節點中,sigma 是通過以下參數間接控制的:

  1. steps(步數)
  • 定義去噪過程的總步數(例如 30 步)。
  • Sigma 會在這些步驟中從初始值(高噪聲)逐漸下降到終止值(低噪聲)。
  1. max_shift(最大偏移)
  • 調整 sigma 調度的範圍。值為 2.05 時,允許較大的噪聲變化,影響視頻的動態感。
  • 較高的 max_shift 會拉伸 sigma 的變化範圍,增加潛在的創意性,但可能引入不穩定性。
  1. base_shift(基礎偏移)
  • 偏移 sigma 的基準值,預設為 0.95。較低的值(如 0.5-1.0)減少初始噪聲水平,影響生成過程的起點。
  • max_shift 配合使用,控制整體噪聲分佈。
  1. stretch(拉伸)
  • 若設為 true,會拉伸 sigma 調度以適應步數,確保每個步驟的噪聲變化均勻,可能提升視頻的平滑度。
  • 若設為 false,則使用標準線性下降,可能更適合某些特定模型。
  1. terminal(終點值)
  • 定義 sigma 的最低值,預設為 0.10。這個值決定去噪結束時保留的噪聲量。
  • 較低的 terminal(例如 0.05)產生更乾淨的視頻,但可能失去一些細節或動態感。
  1. SIGMAS 輸出
  • 是一個張量,包含每個步驟對應的 sigma 值(例如 [2.05, 1.98, …, 0.10])。
  • 這個張量被傳遞給採樣節點(如 KSamplerLTXVImgToVideo 的內部邏輯),指導去噪過程。

Sigma 在 LTXVideo 生成過程中的作用

LTXVideo 使用擴散模型的原理,將輸入圖像(或其潛在表示)與噪聲結合,通過反向去噪生成視頻。Sigma 的具體作用如下:

  • 初始狀態:在第一步,sigma 接近 max_shift(例如 2.05),圖像被完全噪聲化,成為隨機噪聲。
  • 逐步去噪:隨著步數增加,sigma 逐漸下降(根據 base_shiftterminal 調整),模型預測並移除噪聲,逐步還原圖像內容並添加時間維度的變化。
  • 終止狀態:在最後一步,sigma 達到 terminal(例如 0.10),生成接近最終視頻的乾淨幀。
  • 時間連貫性:由於是視頻生成,sigma 調度需確保幀與幀之間的平滑過渡,這是由 stretch 和步數共同控制的。

為什麼需要調整 Sigma?

  • 質量控制:調整 stepsterminal 可以平衡視頻的細節和計算成本。
  • 創意性:改變 max_shiftbase_shift 可以引入更多隨機性或穩定性,影響視頻的動態效果。
  • 硬體限制:較高的 steps 或過大的 max_shift 可能增加 VRAM 使用量(例如在 RTX 4090 上,24 GB 足以應對 768×512 分辨率,但 4K 可能需要優化)。

實用建議

  • 預設值測試:使用圖片中的預設值(steps: 30, max_shift: 2.05, base_shift: 0.95, stretch: true, terminal: 0.10)作為起點,生成視頻並檢查結果。
  • 微調
  • 若視頻模糊,增加 steps 到 40-50,或降低 terminal 到 0.05。
  • 若視頻有噪點,減少 max_shift 到 1.5,或提高 base_shift 到 1.0。
  • 若幀不連貫,確保 stretchtrue,並檢查 steps 是否足夠。
  • 硬體考慮:在 RTX 4090 上,建議保持分辨率在 1280×720 以下,並監控 VRAM 使用情況。

與 LTXVImgToVideo 的關係

LTXVSchedulerSIGMAS 輸出通常需要與 LTXVImgToVideo 整合。如果 LTXVImgToVideo 內部沒有直接使用 SIGMAS,您可能需要插入一個 KSampler 節點:

  • latentSIGMAS 連接到 KSampler
  • KSampler 的輸出(採樣後的潛在表示)傳給 LTXVImgToVideo

檢查 ComfyUI-LTXVideo 的原始碼(例如 nodes_registry.py)以確認 LTXVImgToVideo 是否內建調度器,或是否需要外部 LTXVScheduler


總結

Sigma 在 LTXVideo 中是去噪過程的關鍵參數,通過 LTXVScheduler 的參數(steps, max_shift, base_shift, stretch, terminal)進行控制。它決定了從噪聲到視頻的轉換路徑,影響質量、動態性和計算效率。根據您的需求調整這些參數,並與 LTXVImgToVideo 配合使用,即可生成符合預期的視頻。