request_id: req-20260413-00017 model: qwen2.5-7b-k8s-chat prompt_tokens: 612 generated_tokens: 168 t=0ms 请求到达网关,完成鉴权和限流检查。 t=7ms tokenizer 和 chat template 拼装完成。 t=14ms 请求进入引擎调度队列,等待与其他请求做 continuous batching。 t=61ms 被调度进入 prefill batch。 t=61ms ~ 438ms prefill 阶段: - 整段 prompt 被送入模型 - 各层开始建立 KV cache - 这段时间主要影响 TTFT t=439ms 第一个 decode step 完成,首 token 返回给客户端。 t=439ms ~ 2650ms decode 阶段: - 每次新增一个 token - 读取已有 KV cache - 生成过程持续与其他请求共享 GPU t=2651ms 请求生成结束,KV cache 释放,可回收 block 返还给调度器。 关键观察: - queue_delay_ms = 47 - prefill_compute_ms = 377 - ttft_ms = 439 - avg_itl_ms = 13.2 - total_latency_ms = 2651 这条时间线想说明的不是某个绝对值,而是: - TTFT 不是单一耗时,它至少包含排队、prefill 和第一次 decode。 - decode 期间的流式体验,更接近看 ITL,而不是只看总时长。