KTransformers - 清华开源的大语言模型推理优化框架

2025-04-10 12:02:26

10人浏览

KTransformers是什么

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目，能优化大语言模型的推理性能，降低硬件门槛。KTransformers基于GPU/CPU异构计算策略，用MoE架构的稀疏性，支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版，预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。项目用基于计算强度的offload策略、高性能算子和CUDA Graph优化等技术，显著提升推理速度。

KTransformers的主要功能

支持超大模型的本地推理：支持在仅24GB显存的单张显卡上运行DeepSeek-R1等671B参数的满血版大模型，打破传统硬件限制。
提升推理速度：预处理速度最高可达286 tokens/s，推理生成速度达14 tokens/s。
兼容多种模型和算子：支持DeepSeek系列及其他MoE架构模型，提供灵活的模板注入框架，支持用户切换量化策略和内核替换，适应不同优化需求。
降低硬件门槛：将大模型的显存需求大幅降低，让普通用户和中小团队能在消费级硬件上运行千亿级参数模型，实现“家庭化”部署。
支持长序列任务：整合Intel AMX指令集，CPU预填充速度可达286 tokens/s，相比传统方案快28倍，将长序列任务的处理时间从“分钟级”缩短到“秒级”。

KTransformers的技术原理

MoE架构：将稀疏的MoE矩阵卸载到CPU/DRAM上处理，稠密部分保留在GPU上，大幅降低显存需求。
offload策略：根据计算强度将任务分配到GPU和CPU：计算强度高的任务（如MLA算子）优先分配到GPU，计算强度低的任务分配到CPU。
高性能算子优化：
- CPU端：用llamafile作为CPU内核，结合多线程、任务调度、负载均衡等优化，提升CPU推理效率。
- GPU端：引入Marlin算子，专门优化量化矩阵计算，相比传统库（如Torch）实现3.87倍的加速效果。
CUDA Graph优化：基于CUDA Graph减少Python调用开销，降低CPU/GPU通信的断点，实现高效的异构计算协同。每次decode仅需一个完整的CUDA Graph调用，显著提升推理性能。
量化与存储优化：采用4bit量化技术，进一步压缩模型存储需求，仅需24GB显存即可运行671B参数模型。同时优化KV缓存大小，减少存储开销。
模板注入框架：提供基于YAML的模板注入框架，支持用户灵活切换量化策略、内核替换等优化方式，适应不同场景的需求。

KTransformers的项目地址

GitHub仓库：https://github.com/kvcache-ai/ktransformers

KTransformers的应用场景

个人开发与中小团队：在消费级硬件上运行大模型，进行文本生成、问答系统等开发，降低成本。
长序列任务：高效处理长文本、代码分析等任务，将处理时间从分钟级缩短到秒级。
企业级应用：本地部署大模型，用于智能客服、内容推荐等，节省云服务费用。
学术研究：在普通硬件上探索和优化MoE架构模型，加速研究进程。
教育与培训：作为教学工具，帮助学生实践大模型应用，理解优化技术。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

上一篇：CustomVideoX - 中科大联合浙大等推出的个性化视频生成框架

下一篇：DragAnything - 快手联合浙大等机构开源的可控视频生成方法