deepseek的开源方向开始开花结果了。
来自清华大学的kvcache.ai团队即将发布的ktransformer大模型加载框架v0.3,大大优化了本地加载满血deepseek 671b的运行效率,
目前仅用一台双路Intel Xeon 4代cpu+一块24g显卡的服务器就跑出了13 tokens/s的速度,中文每秒应该有20字左右,3倍于llama.cpp
deepseek的开源方向开始开花结果了。
来自清华大学的kvcache.ai团队即将发布的ktransformer大模型加载框架v0.3,大大优化了本地加载满血deepseek 671b的运行效率,
目前仅用一台双路Intel Xeon 4代cpu+一块24g显卡的服务器就跑出了13 tokens/s的速度,中文每秒应该有20字左右,3倍于llama.cpp
作者最新文章
热门分类
社会TOP
社会最新文章