本文说明了优化吞吐量(throughput)的现有 serving 系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量 LLM serving 性能的改进指标,以考虑成本和用户满意度。
评论删除后,数据将无法恢复
暂无更多评论