Repository Reading Site
07-runtime-metrics.txt
ml-platform/examples/21-llm-serving/07-runtime-metrics.txt
# metrics snapshot at 2026-04-13T18:10:00Z
llm_requests_in_flight 18
llm_request_queue_depth 6
llm_ttft_ms_p50 612
llm_ttft_ms_p95 1498
llm_itl_ms_p50 11.8
llm_itl_ms_p95 28.6
llm_tokens_per_second 842.0
llm_prefix_cache_hit_ratio 0.37
llm_kv_cache_usage_ratio 0.81
llm_request_error_rate 0.006
llm_user_abort_rate 0.041
gpu_memory_used_bytes{pod="qwen2.5-7b-k8s-chat-0"} 5.84e+10
gpu_memory_used_bytes{pod="qwen2.5-7b-k8s-chat-1"} 5.79e+10
# 这些名字不要求和某个产品的真实指标完全一致。
# 它们只是帮助你建立“请求体验层 + 引擎层 + GPU 层”同时观测的直觉。