Repository Reading Site
ml-platform/examples/21-llm-serving
目录页面可以直接继续下钻查看 Markdown、示例文件和脚本。
大模型推理与服务发布样本目录
这个目录不是可直接上线的生产配置,而是为了帮助初学者理解:
- runtime package 如何进入推理引擎
- 请求进入服务后如何经历 prefill 和 decode
- KV cache 在运行时大概是什么形态
- 量化方案、服务版本、部署清单和灰度发布分别长什么样
这里刻意保留了真实工程里的文件名和配置层次,但把依赖环境、镜像仓库、对象存储和业务域名都简化成了教学示例。
包含:
00-inference-service-config.yaml一份面向推理引擎的服务配置示例01-openai-chat-completions-request.json一份 OpenAI 兼容接口请求示例02-prefill-decode-timeline.txt一条请求在 prefill / decode 阶段的时间线说明03-kv-cache-layout.txtKV cache 分页和序列映射的示意样例04-quantization-plan.yaml量化方案对比与发布决策示例05-model-release.yaml从模型版本到服务版本的发布单示例06-serving-deployment.yaml一份部署到 Kubernetes 的推理服务清单示例07-runtime-metrics.txt线上推理服务的指标快照示例08-canary-rollout.yaml金丝雀放量和回滚规则示例
建议配合根目录的:
一起阅读。