KTransformers 克服資源限制

KTransformers 透過先進的核心優化技術來增強 Transformers 的體驗。KTransformers 特別為硬件資源有限的本地部署,並支援異構運算,例如量化模型的 GPU/CPU 卸載,令到不同的架構處理器可以協同工作。KTransformers 亦提供了一個 YAML 範本來呼叫特殊的優化指令。结果可以令 RTX 4090 本地運行 DeepSeek-R1、V3 的 671 B 满血版,以 24 Gig VRam 最高推理速度仍達到 14 tokens/s。當然,你亦需要保証足夠 D Ram。