月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。
Mooncake 采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。
月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。
Mooncake 采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。
2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,大幅度提升了推理吞吐。 近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目 Mooncake,共建以 KVCache 为中心的大模型推理架构。目前,M...
评论