DeepSeek是一个能够优化思维链过程和产出结果的工具。它的架构包括EP并行、流水线优化和KV Cache存储池。
1. EP并行和流水线优化
EP并行是MoE的必备条件,而流水线优化则能提高GPU利用率。
2. KV Cache存储池
KV Cache被转移到存储池,考虑的因素包括延时、用户并行度与HBM空间比例的关系。
3. DeepSeek的优化策略
DeepSeek采用先搜索缓存,再进行计算的方式,以减少首个token生成时间。
4. deepseek的infra优化
deepseek的优化着重优化了非生产力场景的吞吐率,在chatbot APP形态下有价值。