K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

ml-platform/examples/20-llm-training

目录页面可以直接继续下钻查看 Markdown、示例文件和脚本。

Directoryml-platform/examples/20-llm-training9 个条目

大模型训练与模型产物样本目录

这个目录不是可直接执行的真实训练结果,而是为了帮助初学者理解:

  • 训练配置长什么样
  • 训练运行元数据长什么样
  • checkpoint 目录通常包含什么
  • base model、adapter、merged model、runtime package 各自是什么

这里刻意保留了真实工程里的文件名和目录层级,但把超大的二进制权重文件换成了文本说明文件,避免把学习仓库变成模型仓库。

包含:

  • 00-sft-lora-training-config.yaml 一份 SFT + LoRA 训练任务配置示例
  • 01-run-metadata.json 一次训练运行的元数据示例
  • 02-checkpoint/checkpoint-000120/ 一个中间 checkpoint 的典型结构
  • 03-base-model/ 基础模型目录里常见的配置和 tokenizer 文件
  • 04-adapter/ LoRA adapter 的配置与产物说明
  • 05-model-registry/model-version.yaml 企业里模型版本登记卡示例
  • 06-merged-model/ 合并后模型目录的典型形态
  • 07-runtime-package/ 面向推理引擎的运行时包说明

建议配合根目录的:

一起阅读。

目录 02-checkpoint ml-platform/examples/20-llm-training/02-checkpoint 目录 03-base-model ml-platform/examples/20-llm-training/03-base-model 目录 04-adapter ml-platform/examples/20-llm-training/04-adapter 目录 05-model-registry ml-platform/examples/20-llm-training/05-model-registry 目录 06-merged-model ml-platform/examples/20-llm-training/06-merged-model 目录 07-runtime-package ml-platform/examples/20-llm-training/07-runtime-package YAML 00-sft-lora-training-config.yaml ml-platform/examples/20-llm-training/00-sft-lora-training-config.yaml JSON 01-run-metadata.json ml-platform/examples/20-llm-training/01-run-metadata.json MD README.md ml-platform/examples/20-llm-training/README.md