Diffusion Model – LTXVideo

在 ComfyUI-LTXVideo 的背景下，sigma（σ） 是指去噪過程（denoising process）中使用的噪聲水平（noise level），它是 LTX（Latent Vision）模型生成視頻時調度器（scheduler，例如 LTXVScheduler）的核心概念之一。Sigma 代表了每個去噪步驟中的噪聲強度，通過逐步減少噪聲，從隨機噪聲轉換為最終的視頻幀。以下是用繁體中文對 sigma 在 LTXVideo 中的作用和意義的詳細解釋，基於截至 2025 年 3 月 6 日的 ComfyUI 和 LTXVideo 的常見實現。

Sigma 的基本概念

定義：Sigma 是一個數值，表示在潛在空間（latent space）中添加的噪聲量。較高的 sigma 值表示更多的噪聲（初始步驟），而較低的 sigma 值表示接近最終乾淨的輸出（終止步驟）。
來源：在擴散模型（diffusion models）中，sigma 是基於變分自編碼器（VAE）和隨機過程（stochastic process）導出的，描述了噪聲分佈的標準差（standard deviation）。LTXVideo 延用了這種框架，但針對視頻生成進行了優化。
作用：Sigma 調度（sigma schedule）指導模型如何從高噪聲狀態（完全隨機）逐步逼近目標視頻，確保幀與幀之間的時間連貫性（temporal coherence）。

Sigma 在 LTXVScheduler 中的具體應用

在您提供的 LTXVScheduler 節點中，sigma 是通過以下參數間接控制的：

steps（步數）：

定義去噪過程的總步數（例如 30 步）。
Sigma 會在這些步驟中從初始值（高噪聲）逐漸下降到終止值（低噪聲）。

max_shift（最大偏移）：

調整 sigma 調度的範圍。值為 2.05 時，允許較大的噪聲變化，影響視頻的動態感。
較高的 max_shift 會拉伸 sigma 的變化範圍，增加潛在的創意性，但可能引入不穩定性。

base_shift（基礎偏移）：

偏移 sigma 的基準值，預設為 0.95。較低的值（如 0.5-1.0）減少初始噪聲水平，影響生成過程的起點。
與 max_shift 配合使用，控制整體噪聲分佈。

stretch（拉伸）：

若設為 true，會拉伸 sigma 調度以適應步數，確保每個步驟的噪聲變化均勻，可能提升視頻的平滑度。
若設為 false，則使用標準線性下降，可能更適合某些特定模型。

terminal（終點值）：

定義 sigma 的最低值，預設為 0.10。這個值決定去噪結束時保留的噪聲量。
較低的 terminal（例如 0.05）產生更乾淨的視頻，但可能失去一些細節或動態感。

SIGMAS 輸出：

是一個張量，包含每個步驟對應的 sigma 值（例如 [2.05, 1.98, …, 0.10]）。
這個張量被傳遞給採樣節點（如 KSampler 或 LTXVImgToVideo 的內部邏輯），指導去噪過程。

Sigma 在 LTXVideo 生成過程中的作用

LTXVideo 使用擴散模型的原理，將輸入圖像（或其潛在表示）與噪聲結合，通過反向去噪生成視頻。Sigma 的具體作用如下：

初始狀態：在第一步，sigma 接近 max_shift（例如 2.05），圖像被完全噪聲化，成為隨機噪聲。
逐步去噪：隨著步數增加，sigma 逐漸下降（根據 base_shift 和 terminal 調整），模型預測並移除噪聲，逐步還原圖像內容並添加時間維度的變化。
終止狀態：在最後一步，sigma 達到 terminal（例如 0.10），生成接近最終視頻的乾淨幀。
時間連貫性：由於是視頻生成，sigma 調度需確保幀與幀之間的平滑過渡，這是由 stretch 和步數共同控制的。

為什麼需要調整 Sigma？

質量控制：調整 steps 和 terminal 可以平衡視頻的細節和計算成本。
創意性：改變 max_shift 和 base_shift 可以引入更多隨機性或穩定性，影響視頻的動態效果。
硬體限制：較高的 steps 或過大的 max_shift 可能增加 VRAM 使用量（例如在 RTX 4090 上，24 GB 足以應對 768×512 分辨率，但 4K 可能需要優化）。

實用建議

預設值測試：使用圖片中的預設值（steps: 30, max_shift: 2.05, base_shift: 0.95, stretch: true, terminal: 0.10）作為起點，生成視頻並檢查結果。
微調：
若視頻模糊，增加 steps 到 40-50，或降低 terminal 到 0.05。
若視頻有噪點，減少 max_shift 到 1.5，或提高 base_shift 到 1.0。
若幀不連貫，確保 stretch 為 true，並檢查 steps 是否足夠。
硬體考慮：在 RTX 4090 上，建議保持分辨率在 1280×720 以下，並監控 VRAM 使用情況。

與 LTXVImgToVideo 的關係

LTXVScheduler 的 SIGMAS 輸出通常需要與 LTXVImgToVideo 整合。如果 LTXVImgToVideo 內部沒有直接使用 SIGMAS，您可能需要插入一個 KSampler 節點：

將 latent 和 SIGMAS 連接到 KSampler。
將 KSampler 的輸出（採樣後的潛在表示）傳給 LTXVImgToVideo。

檢查 ComfyUI-LTXVideo 的原始碼（例如 nodes_registry.py）以確認 LTXVImgToVideo 是否內建調度器，或是否需要外部 LTXVScheduler。

總結

Sigma 在 LTXVideo 中是去噪過程的關鍵參數，通過 LTXVScheduler 的參數（steps, max_shift, base_shift, stretch, terminal）進行控制。它決定了從噪聲到視頻的轉換路徑，影響質量、動態性和計算效率。根據您的需求調整這些參數，並與 LTXVImgToVideo 配合使用，即可生成符合預期的視頻。