K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

02-prefill-decode-timeline.txt

ml-platform/examples/21-llm-serving/02-prefill-decode-timeline.txt

Text Assetml-platform/examples/21-llm-serving/02-prefill-decode-timeline.txt1.1 KB2026年4月13日 07:47查看原始内容
request_id: req-20260413-00017
model: qwen2.5-7b-k8s-chat
prompt_tokens: 612
generated_tokens: 168

t=0ms
  请求到达网关,完成鉴权和限流检查。

t=7ms
  tokenizer 和 chat template 拼装完成。

t=14ms
  请求进入引擎调度队列,等待与其他请求做 continuous batching。

t=61ms
  被调度进入 prefill batch。

t=61ms ~ 438ms
  prefill 阶段:
  - 整段 prompt 被送入模型
  - 各层开始建立 KV cache
  - 这段时间主要影响 TTFT

t=439ms
  第一个 decode step 完成,首 token 返回给客户端。

t=439ms ~ 2650ms
  decode 阶段:
  - 每次新增一个 token
  - 读取已有 KV cache
  - 生成过程持续与其他请求共享 GPU

t=2651ms
  请求生成结束,KV cache 释放,可回收 block 返还给调度器。

关键观察:
- queue_delay_ms = 47
- prefill_compute_ms = 377
- ttft_ms = 439
- avg_itl_ms = 13.2
- total_latency_ms = 2651

这条时间线想说明的不是某个绝对值,而是:
- TTFT 不是单一耗时,它至少包含排队、prefill 和第一次 decode。
- decode 期间的流式体验,更接近看 ITL,而不是只看总时长。