DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型（LLM）的推理能力，特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法，即透過少量高品質的合成數據集，讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程，並使用大型語言模型生成自然語言解釋，進而微調一個只有 15 億（1.5b)參數的小型模型，使其能夠進行複雜的數學推理，並在思考（think）和回答（answer）標籤中呈現其推理過程，而最終結果顯示即使是小型模型，也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性，包括數學、程式碼和其他領域，才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON

Watch this video on YouTube