NanoGPT 快速訓練語言模型 – Infer.store

NanoGPT 快速訓練語言模型

模型只有 1.24 億個參數

目標是盡快地在 8xH100 機器上訓練一個具有 1.24 億個參數的模型，使其在 FineWeb 數據集上達到 3.28 的驗證損失。