MiniMax-01 閃電注意力機制模型

MiniMax 公司釋出開源 MiniMax-01 系列大型語言模型，包含文字模型 MiniMax-Text-01 和視覺多模態模型MiniMax-VL-01。其核心採用了創新大規模的「Lightning Attention」機制，這是一種新型注意力機制，能有效處理長達 400 萬個 token 的超長上下文，遠超其他領先模型，同時在效能上與全球頂尖模型持平。模型的開源旨在推動 AI Agent 時代的發展，並透過高效的架構和訓練方法，提供具有競爭力的 API 服務。MiniMax 也強調了其模型在長上下文理解任務中的優異表現以及其在實際應用場景中的領先地位。

想了解更多關於這模型可參考這報告詳細闡述了模型架構、計算優化策略 (包括訓練和推論階段的並行策略和通訊計算重疊技術)、預訓練數據的構建和處理方法、以及安全性和對齊訓練等方面的工作。實驗結果顯示 MiniMax-01 在多項基準測試中取得了領先或相當的成果，並公開釋出模型權重和 API，旨在推動大型語言模型的發展。

4 Million Context Unlocked: China's NEW AI Breakthrough!!

Watch this video on YouTube

Popular Tags