K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

ml-platform/examples/21-llm-serving

目录页面可以直接继续下钻查看 Markdown、示例文件和脚本。

Directoryml-platform/examples/21-llm-serving10 个条目

大模型推理与服务发布样本目录

这个目录不是可直接上线的生产配置,而是为了帮助初学者理解:

  • runtime package 如何进入推理引擎
  • 请求进入服务后如何经历 prefill 和 decode
  • KV cache 在运行时大概是什么形态
  • 量化方案、服务版本、部署清单和灰度发布分别长什么样

这里刻意保留了真实工程里的文件名和配置层次,但把依赖环境、镜像仓库、对象存储和业务域名都简化成了教学示例。

包含:

  • 00-inference-service-config.yaml 一份面向推理引擎的服务配置示例
  • 01-openai-chat-completions-request.json 一份 OpenAI 兼容接口请求示例
  • 02-prefill-decode-timeline.txt 一条请求在 prefill / decode 阶段的时间线说明
  • 03-kv-cache-layout.txt KV cache 分页和序列映射的示意样例
  • 04-quantization-plan.yaml 量化方案对比与发布决策示例
  • 05-model-release.yaml 从模型版本到服务版本的发布单示例
  • 06-serving-deployment.yaml 一份部署到 Kubernetes 的推理服务清单示例
  • 07-runtime-metrics.txt 线上推理服务的指标快照示例
  • 08-canary-rollout.yaml 金丝雀放量和回滚规则示例

建议配合根目录的:

一起阅读。

YAML 00-inference-service-config.yaml ml-platform/examples/21-llm-serving/00-inference-service-config.yaml JSON 01-openai-chat-completions-request.json ml-platform/examples/21-llm-serving/01-openai-chat-completions-request.json TXT 02-prefill-decode-timeline.txt ml-platform/examples/21-llm-serving/02-prefill-decode-timeline.txt TXT 03-kv-cache-layout.txt ml-platform/examples/21-llm-serving/03-kv-cache-layout.txt YAML 04-quantization-plan.yaml ml-platform/examples/21-llm-serving/04-quantization-plan.yaml YAML 05-model-release.yaml ml-platform/examples/21-llm-serving/05-model-release.yaml YAML 06-serving-deployment.yaml ml-platform/examples/21-llm-serving/06-serving-deployment.yaml TXT 07-runtime-metrics.txt ml-platform/examples/21-llm-serving/07-runtime-metrics.txt YAML 08-canary-rollout.yaml ml-platform/examples/21-llm-serving/08-canary-rollout.yaml MD README.md ml-platform/examples/21-llm-serving/README.md