# metrics snapshot at 2026-04-13T18:10:00Z llm_requests_in_flight 18 llm_request_queue_depth 6 llm_ttft_ms_p50 612 llm_ttft_ms_p95 1498 llm_itl_ms_p50 11.8 llm_itl_ms_p95 28.6 llm_tokens_per_second 842.0 llm_prefix_cache_hit_ratio 0.37 llm_kv_cache_usage_ratio 0.81 llm_request_error_rate 0.006 llm_user_abort_rate 0.041 gpu_memory_used_bytes{pod="qwen2.5-7b-k8s-chat-0"} 5.84e+10 gpu_memory_used_bytes{pod="qwen2.5-7b-k8s-chat-1"} 5.79e+10 # 这些名字不要求和某个产品的真实指标完全一致。 # 它们只是帮助你建立“请求体验层 + 引擎层 + GPU 层”同时观测的直觉。