nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM),專為高效的訓練和實驗而設計。使用純 PyTorch 構建,整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器(SigLIP-B/16-224-85M)與輕量級因果語言模型(SmolLM2-135M)相結合,形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後,在 MMStar 上實現了 35.3% 的準確率,這使其成為低資源 VLM 研究的強大基線。