Repository Reading Site
02-prefill-decode-timeline.txt
ml-platform/examples/21-llm-serving/02-prefill-decode-timeline.txt
request_id: req-20260413-00017
model: qwen2.5-7b-k8s-chat
prompt_tokens: 612
generated_tokens: 168
t=0ms
请求到达网关,完成鉴权和限流检查。
t=7ms
tokenizer 和 chat template 拼装完成。
t=14ms
请求进入引擎调度队列,等待与其他请求做 continuous batching。
t=61ms
被调度进入 prefill batch。
t=61ms ~ 438ms
prefill 阶段:
- 整段 prompt 被送入模型
- 各层开始建立 KV cache
- 这段时间主要影响 TTFT
t=439ms
第一个 decode step 完成,首 token 返回给客户端。
t=439ms ~ 2650ms
decode 阶段:
- 每次新增一个 token
- 读取已有 KV cache
- 生成过程持续与其他请求共享 GPU
t=2651ms
请求生成结束,KV cache 释放,可回收 block 返还给调度器。
关键观察:
- queue_delay_ms = 47
- prefill_compute_ms = 377
- ttft_ms = 439
- avg_itl_ms = 13.2
- total_latency_ms = 2651
这条时间线想说明的不是某个绝对值,而是:
- TTFT 不是单一耗时,它至少包含排队、prefill 和第一次 decode。
- decode 期间的流式体验,更接近看 ITL,而不是只看总时长。