K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

大模型推理与服务发布样本目录

这个目录不是可直接上线的生产配置,而是为了帮助初学者理解: 这里刻意保留了真实工程里的文件名和配置层次,但把依赖环境、镜像仓库、对象存储和业务域名都简化成了教学示例。 包含: 一份面向推理引擎的服务配置示例 一份 OpenAI 兼容接口请求示例 一条请求在 prefill / decode 阶段的时间线说明 KV cache 分页和序列映射的示意样例 量化方

Markdownml-platform/examples/21-llm-serving/README.md2026年4月13日 07:47

大模型推理与服务发布样本目录

这个目录不是可直接上线的生产配置,而是为了帮助初学者理解:

  • runtime package 如何进入推理引擎
  • 请求进入服务后如何经历 prefill 和 decode
  • KV cache 在运行时大概是什么形态
  • 量化方案、服务版本、部署清单和灰度发布分别长什么样

这里刻意保留了真实工程里的文件名和配置层次,但把依赖环境、镜像仓库、对象存储和业务域名都简化成了教学示例。

包含:

  • 00-inference-service-config.yaml 一份面向推理引擎的服务配置示例
  • 01-openai-chat-completions-request.json 一份 OpenAI 兼容接口请求示例
  • 02-prefill-decode-timeline.txt 一条请求在 prefill / decode 阶段的时间线说明
  • 03-kv-cache-layout.txt KV cache 分页和序列映射的示意样例
  • 04-quantization-plan.yaml 量化方案对比与发布决策示例
  • 05-model-release.yaml 从模型版本到服务版本的发布单示例
  • 06-serving-deployment.yaml 一份部署到 Kubernetes 的推理服务清单示例
  • 07-runtime-metrics.txt 线上推理服务的指标快照示例
  • 08-canary-rollout.yaml 金丝雀放量和回滚规则示例

建议配合根目录的:

一起阅读。