K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

第十八课:大模型全生态,从数据到训练到部署到治理原理

如果你现在准备在这套环境上做: 但脑子里还没有一张“大图”,那你很容易把整个系统学成很多零碎名词: 最后的结果往往是: 这篇文章的目标,就是先把整张图建立起来。 它不是某个具体框架的安装文档,而是面向小白和入行人员的“世界观搭建”文档。 你读完之后,至少应该能回答这些最基础但最关键的问题: 1. 什么是大模型,和传统机器学习模型有什么本质区别? 2. 数据集

Markdown18-第十八课-大模型全生态-从数据到训练到部署到治理原理.md2026年4月10日 09:28

第十八课:大模型全生态,从数据到训练到部署到治理原理

为什么要先写这篇总览

如果你现在准备在这套环境上做:

  • 数据准备
  • 训练
  • 微调
  • 评估
  • 部署
  • 发布
  • 监控

但脑子里还没有一张“大图”,那你很容易把整个系统学成很多零碎名词:

  • 数据集
  • Token
  • Checkpoint
  • LoRA
  • 推理服务
  • RAG
  • 向量库
  • 模型仓库

最后的结果往往是:

  • 你会背很多词
  • 但不知道这些词在同一条生产链里各自扮演什么角色

这篇文章的目标,就是先把整张图建立起来。

它不是某个具体框架的安装文档,而是面向小白和入行人员的“世界观搭建”文档。

你读完之后,至少应该能回答这些最基础但最关键的问题:

  1. 什么是大模型,和传统机器学习模型有什么本质区别?
  2. 数据集到底是什么?数据长什么样?从哪里来?
  3. 模型到底是怎么“被训练出来”的?
  4. 训练完的产物到底是什么文件?
  5. 模型为什么能回答用户?
  6. 模型为什么会胡说八道?
  7. 数据、模型、推理服务、知识库、RAG 到底是什么关系?
  8. 在一个公司里,这些东西通常怎么管理?

如果你要成长为能搭平台、能做架构、能排故障的人,这篇文章属于必须先打牢的基础。


先给你一张总图:大模型系统不是“一个模型文件”,而是一条完整生产链

你先记住这个总图:

原始数据
  -> 数据清洗 / 标注 / 版本管理
  -> 训练数据集
  -> Tokenizer
  -> 预训练 / 继续预训练 / 微调
  -> Checkpoint / 模型权重
  -> 评估 / 对齐 / 安全测试
  -> 模型仓库 / 模型注册
  -> 推理服务
  -> 应用层(聊天、RAG、Agent、工具调用)
  -> 监控 / 反馈 / 迭代

很多初学者会把“大模型”理解成最中间那个:

  • 模型权重

这当然重要,但它只是中间的一环。

真正的工程系统至少包含 6 层:

  1. 数据层
  2. 训练层
  3. 模型资产层
  4. 推理层
  5. 应用层
  6. 治理与运维层

后面我们一层一层拆开。


第一章:到底什么是大模型

最朴素的理解

大模型,本质上是一个参数量非常大的函数。

它接收输入:

  • 文本
  • 图片
  • 音频
  • 多模态组合

输出:

  • 下一个最可能的 token
  • 或者某种结构化结果

对于文本大模型来说,最核心的能力可以先粗暴理解为一句话:

给它前文,它预测下一个 token;不断重复,就生成了一整段回答。

为什么叫“大”

这里的“大”通常指:

  • 参数量大
  • 训练数据规模大
  • 计算量大
  • 上下文窗口大

参数你可以先理解成模型内部可学习的数字。

这些数字不是“知识条目”逐条存进去的,而是:

模型把海量文本里的统计规律、语言模式、概念关联、任务结构压缩进了这些参数里。

所以模型不是:

  • 一个简单数据库
  • 一个 if-else 规则集合

它更像一个被训练出来的“高维模式压缩器和生成器”。

它和传统程序有什么区别

传统程序:

  • 规则由人写
  • 程序按规则执行

例如:

如果用户余额 < 0,就拒绝转账
如果年龄 < 18,就不能注册某些业务

而大模型:

  • 规则不是人一条条写出来的
  • 而是通过大量数据训练出来的

这意味着大模型很强,但也意味着它有天然问题:

  • 不可完全解释
  • 不保证永远正确
  • 受训练数据分布影响很大
  • 容易产生幻觉

所以后面你会看到:

大模型工程的核心,不只是“把模型跑起来”,而是控制不确定性。


第二章:数据集到底是什么

这是所有入门者最容易糊涂的地方。

很多人一听“数据集”,脑子里只想到:

  • Excel
  • 表格
  • 很多条文本

这当然不算错,但太浅了。

数据集的本质定义

数据集,本质上是:

为某个训练、微调、评估目标而组织起来的一批样本。

注意这里有四个关键词:

  1. 一批
  2. 样本
  3. 有目标
  4. 有组织

这意味着数据集不是“随便堆文件”。

只有当你明确知道:

  • 样本是什么
  • 标签或目标是什么
  • 这个数据集要服务什么任务

它才真正成为一个“数据集”。

对大模型来说,数据不一定是表格

在传统机器学习里,数据常常长这样:

年龄 收入 城市 是否买房
28 20 万 上海
24 12 万 成都

这是结构化数据。

但大模型里,更多数据是非结构化或半结构化的:

  • 网页正文
  • 书籍文本
  • 对话记录
  • 代码仓库
  • 问答对
  • 偏好排序数据
  • 图片和文字配对
  • 音频转写

所以你要先把脑子切换过来:

大模型数据集的主流形态,不是表格,而是文本样本、对话样本、序列样本。


第三章:数据到底长什么样

这一章我会直接给你最小样本。

第一类:预训练数据

预训练数据最常见的是:

  • 大规模纯文本
  • 文本对
  • 代码文本

原始形态可能是一段网页正文:

Kubernetes 是一个用于自动部署、扩缩和管理容器化应用的平台。

也可能是清洗后的 JSONL:

{"text": "Kubernetes 是一个用于自动部署、扩缩和管理容器化应用的平台。"}
{"text": "Transformer 是当前大模型的核心结构之一。"}
{"text": "在 Linux 中,进程通过系统调用与内核交互。"}

这里的每一行就是一个样本。

JSONL 的意思是:

  • JSON Lines
  • 一行一个 JSON 对象

这是大模型训练里非常常见的数据格式。

第二类:指令微调数据

这种数据用来教模型:

  • 怎么听懂任务
  • 怎么按用户要求回答

最简单的样子可能是:

{"instruction": "解释什么是容器", "input": "", "output": "容器是一种轻量级的应用打包和运行方式。"}
{"instruction": "把下面句子翻译成英文", "input": "你好,世界", "output": "Hello, world."}

更接近现代聊天模型的数据会长这样:

{
  "messages": [
    {"role": "system", "content": "你是一个严谨的技术助手。"},
    {"role": "user", "content": "什么是 Pod?"},
    {"role": "assistant", "content": "Pod 是 Kubernetes 中最小的可部署单元。"}
  ]
}

这类数据告诉模型:

  • 用户问什么
  • 助手应该怎么答

第三类:偏好数据

偏好数据不是只给一个标准答案,而是给:

  • 更好的回答
  • 更差的回答

例如:

{
  "prompt": "解释什么是负载均衡",
  "chosen": "负载均衡是将请求分发到多个后端实例,以提高可用性和吞吐量。",
  "rejected": "负载均衡就是网速更快。"
}

这类数据常用于:

  • RLHF
  • DPO
  • 对齐训练

第四类:评测数据

评测数据不是用来训练,而是用来测:

  • 模型是否变好
  • 是否回归
  • 是否安全

它可能长这样:

{
  "question": "什么是 etcd?",
  "reference": "etcd 是一个分布式键值存储,常用于 Kubernetes 存储集群状态。",
  "category": "kubernetes-basic"
}

第五类:RAG 文档库数据

这个不是直接训练模型的数据,但它属于“大模型生态的重要数据”。

比如:

  • 产品手册
  • 运维文档
  • 内部知识库
  • PDF 解析文本

样子可能是:

{
  "doc_id": "k8s-ingress-001",
  "title": "Ingress 基础说明",
  "content": "Ingress 用于管理外部访问集群服务的 HTTP/HTTPS 路由。",
  "source": "internal-wiki",
  "updated_at": "2026-04-10"
}

后面做 RAG 时,这类数据通常进入:

  • 向量索引
  • 文档检索系统

但它不等于模型权重本身。


第四章:数据从哪里来

你以后做平台时,一定要明白:数据来源决定上限,也决定风险。

常见来源有:

1. 公共开放数据

例如:

  • 开源语料
  • 开源代码仓库
  • 公共问答数据
  • 开放论文和百科语料

优点:

  • 获取容易
  • 起步快

缺点:

  • 质量参差不齐
  • 重复严重
  • 法律边界要看清

2. 企业内部数据

例如:

  • 客服对话
  • 工单
  • 产品手册
  • 开发文档
  • 业务日志
  • 知识库

优点:

  • 贴近业务
  • 对场景提升很大

缺点:

  • 可能包含隐私、敏感信息、商业机密

3. 人工标注数据

例如:

  • 专家写答案
  • 标注员做问答对
  • 对多个回答进行偏好排序

优点:

  • 质量高
  • 方向可控

缺点:

  • 成本高
  • 速度慢

4. 合成数据

也就是用已有模型生成更多训练数据。

例如:

  • 老模型生成问答对
  • 专家审核后再进入数据集

优点:

  • 扩数据快

缺点:

  • 可能把错误一起放大
  • 容易造成“模型教模型”的偏差积累

所以专家不会只问:

  • 数据量多不多

还会问:

  • 来源是否合法
  • 质量是否稳定
  • 是否去重
  • 是否脱敏
  • 是否带偏见
  • 是否有版本管理

第五章:数据不是拿来就能训练,必须先加工

这是很多外行最容易低估的环节。

真实项目里,数据工程经常比训练本身还耗时间。

1. 清洗

要做的事包括:

  • 去乱码
  • 去 HTML 垃圾标签
  • 去广告
  • 去重复
  • 去损坏文本
  • 去异常长度样本

2. 规范化

例如:

  • 统一编码为 UTF-8
  • 统一换行
  • 统一对话格式
  • 统一字段名

3. 切分

例如:

  • 把大文档切成段
  • 把多轮对话切成训练样本
  • 给超长文本做分块

4. 标注或构造标签

例如:

  • 把原始文本变成问答对
  • 构造 chosen/rejected
  • 给样本加分类标签

5. 脱敏

这是企业落地极其关键的一步。

例如:

  • 手机号打码
  • 身份证脱敏
  • 邮箱匿名化
  • 客户名替换

6. 质量过滤

例如:

  • 去掉低质量回答
  • 去掉毒性内容
  • 去掉与任务无关样本

所以以后你要记住一句话:

数据不是“收集完就结束”,而是“清洗和治理之后才有资格进入训练”。


第六章:Tokenizer 是什么,为什么大模型看不懂原始文字

这是另一个非常关键的入门点。

大模型表面上在处理文字,但计算机最终处理的是数字。

Tokenizer 的作用,就是把文本转换成 token id。

例如一句话:

Kubernetes 很重要

可能被切成:

["Kuber", "netes", " 很", "重要"]

再映射成数字:

[18372, 912, 771, 6421]

注意:

  • token 不等于字
  • token 不等于词

它是一种介于字符和词之间的子词切分单位。

为什么不用“一个字一个 token”

因为那样太低效。

为什么不用“一个词一个 token”

因为词表会爆炸,很多词还会见不到。

所以现代 tokenizer 通常采用子词方案:

  • 常见词可以整体表示
  • 生僻词可以拆开表示

这对工程有什么影响

很大。

因为模型真正消耗的不是“字数”,而是:

  • token 数

你以后看到:

  • 上下文 8k
  • 上下文 32k
  • 上下文 128k

说的都不是“汉字数”,而是 token 数量级。


第七章:模型到底是怎么训练出来的

这是整篇文章最核心的技术线。

我们先只讲文本大模型。

第一层理解:它在做“下一个 token 预测”

假设输入是:

今天上海的天气很

模型会预测下一个 token 可能是什么。

可能的分布是:

  • “好”:0.32
  • “热”:0.25
  • “冷”:0.18
  • “差”:0.05

训练时,真实答案可能是:

  • “好”

那么模型就会被奖励朝正确方向调整参数。

这个过程会在海量文本上重复无数次。

久而久之,模型就学到了:

  • 语言结构
  • 常识模式
  • 指令格式
  • 代码风格
  • 问答套路

第二层理解:训练是参数不断被修正的过程

训练过程可以先粗暴理解成 6 步:

  1. 取一批训练样本
  2. 把文本变成 token
  3. 前向计算,得到预测结果
  4. 计算损失,也就是“预测错了多少”
  5. 反向传播,算出每个参数该怎么改
  6. 优化器更新参数

这个过程会重复成千上万、几百万次。

第三层理解:模型不是“突然学会”,而是“误差慢慢下降”

训练时,你会看到一个重要指标:

  • loss

它可以先简单理解为:

模型预测得有多差。

loss 越低,通常说明模型越能贴近训练数据分布。

但这里有一个重要提醒:

loss 下降不等于真实可用性一定提升。

因为工程上你还要看:

  • 通用能力
  • 专业能力
  • 幻觉率
  • 安全性
  • 工具调用正确率

所以训练不是“只看一个 loss 曲线”的事。


第八章:Transformer 为什么能让大模型这么强

你不用一开始就钻到公式里,但必须理解它解决了什么问题。

旧问题

早期序列模型处理长文本时,容易出现:

  • 前文记不住
  • 长距离依赖差
  • 训练效率低

Transformer 的核心突破

它用 Attention 机制,让模型在处理当前位置时,能动态关注前文中更相关的部分。

你可以把它想象成:

  • 当模型读到当前 token 时
  • 它不是机械只看前一个词
  • 而是在“翻前文笔记”,找哪些位置更重要

最简化理解

Transformer 里主要有三类东西:

  1. Embedding
  2. Attention
  3. Feed Forward Network

Embedding

把 token id 变成高维向量。

Attention

决定当前 token 应该重点参考前文哪些 token。

Feed Forward

对当前层的信息再做更复杂变换。

很多层叠起来,模型就能学到越来越抽象的表示。

为什么它对聊天特别有用

因为聊天需要同时处理:

  • 当前问题
  • 前文上下文
  • 系统要求
  • 任务格式

Attention 很适合做这种“从长上下文中挑重点”的工作。


第九章:训练完之后,产物到底长什么样

这是你以后做平台时必须非常清楚的一层。

很多人以为训练完“就得到一个模型”。

但工程上,模型产物通常是一组文件。

一个典型模型目录可能长这样

my-llm-v1/
  config.json
  generation_config.json
  tokenizer.json
  tokenizer_config.json
  special_tokens_map.json
  model-00001-of-00008.safetensors
  model-00002-of-00008.safetensors
  ...

这些文件分别是什么

config.json

描述模型结构,比如:

  • 层数
  • hidden size
  • attention heads
  • vocab size

tokenizer.json / tokenizer.model

描述 tokenizer 规则。

model*.safetensors

这才是最核心的权重文件。

里面装的是模型参数。

generation_config.json

描述默认生成行为,例如:

  • eos token
  • sampling 相关默认配置

Checkpoint 又是什么

训练中间不会只在最后存一次。

通常会周期性保存:

  • checkpoint-1000
  • checkpoint-2000
  • checkpoint-3000

每个 checkpoint 都代表某个训练步数下的模型状态。

这对工程很重要,因为它意味着:

  • 可以恢复训练
  • 可以回滚
  • 可以比较不同阶段模型

LoRA 产物又长什么样

如果你做的是参数高效微调,可能产物只是一小组 adapter 文件:

my-lora-adapter/
  adapter_config.json
  adapter_model.safetensors

这说明它不是完整模型,而是:

相对于某个基座模型的增量参数。

所以以后你必须区分:

  • 基础模型权重
  • 微调 adapter
  • 合并后的最终模型

它们不是同一个东西。


第十章:模型为什么能回答用户

这是所有外行最喜欢问、但最容易被讲糊涂的问题。

你可以先用一句不神秘的话理解:

模型之所以能回答,是因为它在训练中见过大量语言模式,并学会了在上下文条件下预测最合理的后续 token 序列。

一个用户请求进来时,会发生什么

先看最简化流程:

用户输入
  -> 拼接成 prompt
  -> tokenizer 转成 token ids
  -> 模型前向计算
  -> 得到下一个 token 概率分布
  -> 选出一个 token
  -> 把它接回上下文
  -> 再继续预测下一个 token
  -> 重复直到结束

为什么它看起来像“在思考”

因为:

  • 上下文很长
  • 参数很多
  • 语言模式学得很多
  • 每一步都在根据前文重新计算后续 token

所以最终表现就像它在:

  • 理解问题
  • 组织语言
  • 分步回答

但你要保持清醒:

它不是像人类那样“先有完整想法再说”,而是在生成过程中一步步延续最可能的序列。

为什么它有时能推理

因为在大量训练数据里,模型不只是学到词,还学到:

  • 解释模式
  • 推导模式
  • 代码结构
  • 数学步骤格式
  • 问题分解模板

这让它在很多任务里表现得像“会推理”。

但本质上仍是:

  • 基于参数和上下文做序列预测

第十一章:模型为什么会胡说八道

这也是你必须尽早建立的现实感。

模型会产生幻觉,根源通常有 5 类:

1. 训练里没学到或学得不够

模型没有见过足够相关信息,或者相关模式太弱。

2. 用户问题本身模糊

模型会倾向于“补全一个看起来合理的回答”。

3. 生成机制不是检索数据库

模型不是先去查事实表,再把正确记录搬给你。

它是根据参数里的模式生成文本。

4. 上下文不够或被污染

如果 prompt 里有噪声、冲突信息、错误示例,模型也会被带偏。

5. 对齐和约束不足

如果训练时没有很好处理:

  • 安全
  • 拒答
  • 引用
  • 工具调用边界

模型就更容易乱答。

所以你以后要明白:

大模型不是“百分之百正确的知识库”,而是“高能力但高不确定性的生成器”。

这也是为什么企业落地时,很多系统不会只裸用模型,而会叠加:

  • RAG
  • 工具调用
  • 检索
  • 审核
  • 规则网关

第十二章:预训练、继续预训练、SFT、RLHF、DPO 分别是什么

这是大模型训练链最容易混淆的一组概念。

1. 预训练 Pretraining

这是模型“打基础”的阶段。

目标是:

  • 学语言
  • 学通用模式
  • 学基础世界知识

数据通常非常大,成本最高。

2. 继续预训练 Continued Pretraining

也叫领域继续训练。

意思是:

  • 在已有基座模型上
  • 再喂某个领域的大规模原始文本

例如:

  • 法律文本
  • 医疗论文
  • 金融公告
  • 公司内部技术文档

它解决的是:

  • 基座模型懂通用,但不够懂你的领域

3. SFT 指令微调

SFT = Supervised Fine-Tuning

就是用“输入 -> 理想输出”的样本去教模型:

  • 如何按要求回答
  • 如何变成聊天助手
  • 如何遵循格式

4. RLHF

RLHF = Reinforcement Learning from Human Feedback

简单理解:

  • 让人类对多个回答做偏好排序
  • 再让模型朝更符合人类偏好的方向优化

它更偏“对齐”。

5. DPO

DPO = Direct Preference Optimization

它和偏好数据也有关,但实现路径比 RLHF 更直接,工程上常被认为更简洁。

一句话区分

预训练:教模型“会说话”
继续预训练:教模型“更懂某领域”
SFT:教模型“按要求说”
RLHF / DPO:教模型“更像人想要的方式说”

第十三章:RAG 是什么,它和训练是什么关系

很多新人会把 RAG 和微调混为一谈。

必须分清。

微调

是改模型参数。

RAG

是检索增强生成。

RAG 的基本链路是:

用户问题
  -> 检索相关文档
  -> 把文档拼进 prompt
  -> 模型基于这些文档回答

所以:

  • 微调是把知识“改进模型参数里”
  • RAG 是把知识“在回答时临时喂给模型”

什么时候更适合微调

当你要改的是:

  • 风格
  • 格式
  • 任务习惯
  • 专业术语表达

什么时候更适合 RAG

当你要注入的是:

  • 经常更新的知识
  • 企业私有文档
  • 精确事实
  • 可追溯来源

所以企业里很常见的做法不是二选一,而是:

  • 先有一个还不错的基础模型
  • 必要时做轻量微调
  • 再叠 RAG

第十四章:部署大模型到底在部署什么

这也是一个必须拆清的地方。

很多人说“部署模型”,但工程上至少有 4 层对象:

1. 模型文件

也就是:

  • 权重
  • tokenizer
  • config

2. 推理引擎或推理服务

它负责:

  • 加载模型
  • 接收请求
  • 做 batch
  • 管理显存
  • 执行生成

3. 对外 API 层

它负责:

  • 鉴权
  • 限流
  • 路由
  • 多模型选择
  • 日志

4. 应用层

例如:

  • Chat UI
  • 知识库问答
  • Copilot
  • Agent

所以“部署模型”不只是把一个 .safetensors 放上去。

真正部署的是:

一整套把模型文件变成可被业务调用服务的系统。


第十五章:模型上线后,请求是怎么走的

你以后做平台架构时,脑子里要有这条链:

用户
  -> 前端 / API 网关
  -> 应用服务
  -> prompt 组装
  -> 检索系统(可选)
  -> 推理服务
  -> 模型生成
  -> 返回结果
  -> 日志 / 监控 / 反馈

一个典型聊天请求的内部流程

  1. 用户发送问题。
  2. 系统拼接 system prompt、历史对话、用户输入。
  3. 如果有 RAG,先检索文档。
  4. 把检索结果插入上下文。
  5. 送给推理服务。
  6. 模型逐 token 生成回答。
  7. 服务把结果流式返回给用户。
  8. 记录延迟、token 数、错误率、用户反馈。

所以你要明白:

用户最终看到的一句回答,背后不是“模型自己独立完成”的,而是应用层、检索层、推理层共同作用的结果。


第十六章:模型管理到底在管理什么

这部分非常关键,因为真正的公司级工程能力,很多时候体现在“管理”而不是“训练”。

模型管理通常至少包括 8 件事:

1. 版本管理

例如:

  • base-model-v1
  • domain-sft-v2
  • chat-prod-v5

必须能明确知道:

  • 当前线上是哪版
  • 上一版是什么
  • 哪版可回滚

2. 来源追踪 Lineage

必须知道这版模型是由什么产生的:

  • 哪个基座模型
  • 哪份数据集
  • 哪个训练代码版本
  • 哪次训练任务
  • 哪个 checkpoint

3. 评测结果管理

每个模型版本不能只存权重,还要存:

  • 离线评测结果
  • 安全评测
  • 专项 benchmark
  • 人工评审结果

4. 模型仓库 / 注册表

模型要有一个统一的登记处。

这里通常存:

  • 模型名称
  • 版本
  • 描述
  • 权重位置
  • tokenizer 位置
  • 评测分数
  • 发布状态

5. 发布状态

例如:

  • staging
  • candidate
  • prod
  • deprecated

6. 权限和合规

不是所有人都该有:

  • 下载模型权重权限
  • 查看训练数据权限
  • 发布线上模型权限

7. 生命周期

模型也要有:

  • 创建
  • 评估
  • 上线
  • 监控
  • 下线

8. 回滚能力

如果线上指标变差,必须能迅速切回上一版。

所以模型管理本质上不是“存几个文件”,而是:

对模型资产做工程化治理。


第十七章:在公司里,数据管理到底要管什么

数据管理比模型管理还难。

至少要管这几类:

1. 数据版本

你不能只说:

  • “我们用了客户问答数据”

你必须知道:

  • 是哪一天导出的
  • 哪个清洗脚本处理的
  • 哪个版本进入训练

2. 元数据

例如:

  • 来源
  • 语言
  • 领域
  • 标签
  • 质量分
  • 是否含敏感信息

3. 权限

很多训练数据不应该对所有人开放。

4. 合规和审计

例如:

  • 是否包含隐私
  • 是否有版权风险
  • 是否允许进入训练
  • 是否可用于外部商用

5. 可回放

模型出问题后,你要能回答:

  • 它到底吃了什么数据

否则根本无法排查偏差来源。

所以数据管理不是“存硬盘里”这么简单,而是:

让数据成为可追踪、可审计、可复现、可治理的资产。


第十八章:在 Kubernetes 环境里,这整套东西通常怎么落

你现在是在一个 K8s 环境上做大模型全流程,所以必须把前面概念映射到平台组件。

你可以先这样理解:

数据层

通常需要:

  • 对象存储
  • 持久卷
  • 元数据数据库

它们用来放:

  • 原始数据
  • 清洗后数据
  • 训练产物
  • 模型权重
  • 日志

训练层

通常是:

  • Job
  • CronJob
  • Workflow
  • 分布式训练任务

它们负责:

  • 数据预处理
  • 训练
  • 微调
  • 评估

模型资产层

通常需要:

  • 模型仓库
  • 注册表
  • Artifact 存储

推理层

通常是:

  • 模型服务 Deployment
  • GPU 节点调度
  • Service / Ingress / Gateway
  • 自动扩缩容

应用层

通常包括:

  • API 网关
  • Chat 前端
  • RAG 服务
  • Agent 编排

观测与治理层

通常包括:

  • 日志
  • 指标
  • tracing
  • 审计
  • 告警

所以在 K8s 里落大模型,不是“只装个模型服务器”,而是:

用云原生方式把数据、训练、模型、推理、治理串成一个平台。


第十九章:一个最小可用的大模型全流程,到底是什么样

如果你要从零搭一个最小闭环,建议脑子里先有这个版本:

1. 收集一批领域文档或问答
2. 清洗并做成统一 JSONL
3. 做数据版本登记
4. 选择一个基础模型
5. 做 SFT 或 LoRA 微调
6. 导出模型或 adapter
7. 做离线评估
8. 注册模型版本
9. 部署推理服务
10. 接一个最小聊天 API
11. 做日志和指标采集
12. 根据用户反馈继续迭代

注意这里我没有要求你一开始就做:

  • 超大规模预训练
  • 复杂 RLHF
  • 多 Agent 系统

因为对大多数团队而言,真正有价值的第一步通常是:

  • 基座模型 + 自己的数据 + 轻量微调 / RAG + 可运营服务

而不是一上来就幻想“从头训练一个世界级基础模型”。


第二十章:小白最常见的 15 个误区

误区 1:数据集就是 Excel

不是。

大模型数据集更多是:

  • 文本样本
  • 对话样本
  • 偏好样本
  • 文档样本

误区 2:模型就是一个文件

不是。

通常是一组:

  • 权重
  • tokenizer
  • 配置
  • 版本信息

误区 3:模型学会回答,说明它“懂了”

不完全对。

更准确地说,它学会了:

  • 在大量上下文模式中生成看起来合理的后续序列

误区 4:有模型就不需要数据管理

恰恰相反。

越强的模型,越依赖高质量数据管理。

误区 5:微调一定比 RAG 好

不一定。

改风格常用微调,补新知识常用 RAG。

误区 6:推理服务就是部署权重

不是。

你部署的是:

  • 权重 + tokenizer + 推理引擎 + API + 监控

误区 7:loss 下降就等于业务变好

不一定。

必须做任务评测和线上验证。

误区 8:数据越多越好

不一定。

低质量、脏数据会伤害模型。

误区 9:大模型会自己查资料

默认不会。

如果没有接检索或工具,它主要依赖:

  • 参数
  • 上下文

误区 10:RAG 就是训练

不是。

RAG 是检索增强,不是参数训练。

误区 11:所有问题都应该自己从头训大模型

绝大多数团队都不应该。

更现实的是:

  • 选好基座
  • 用好数据
  • 做好微调和服务化

误区 12:模型管理只是给文件起名字

不是。

它包含版本、血缘、评测、权限、回滚。

误区 13:只要模型强,应用就会强

不一定。

很多时候应用质量受:

  • prompt
  • 检索
  • 工具
  • 审核
  • 产品流程

影响更大。

误区 14:部署成功就算完

不是。

真正难的是:

  • 监控
  • 成本
  • 延迟
  • 安全
  • 持续迭代

误区 15:学大模型只学模型就够了

不够。

如果你要成为能带团队、能搭平台的人,你必须同时懂:

  • 数据
  • 训练
  • 推理
  • 系统架构
  • 平台治理

最后把整套生态压缩成一句话

你可以把大模型系统先理解成这样:

用大规模数据把一个 Transformer 训练成“会预测下一个 token 的高维函数”,再通过微调、评估、部署、检索、治理,把它变成企业可用的智能服务。

这句话里每个词都不是废话:

  • 数据决定上限
  • 训练决定基础能力
  • 微调决定任务适配
  • 评估决定能不能上线
  • 部署决定能不能被调用
  • 检索决定知识能否更新
  • 治理决定系统能不能长期活下来

你接下来最应该继续学什么

如果你已经看懂这篇总览,下一步最值得继续展开的不是“更多概念”,而是以下 5 个专题:

  1. 数据工程专题
  2. Tokenizer 与 Transformer 结构专题
  3. SFT / LoRA / DPO 训练链专题
  4. 推理服务与 GPU 显存 / 吞吐 / 延迟专题
  5. RAG 与模型治理专题

如果你愿意,我下一步可以继续在这个仓库里给你写出下面这些配套文档:

  • 19-第十九课-大模型数据集-清洗-标注-版本管理与质量治理原理.md
  • 20-第二十课-大模型训练-SFT-LoRA-Checkpoint与模型产物原理.md
  • 21-第二十一课-大模型推理-量化-显存-KV-Cache与服务发布原理.md
  • 22-第二十二课-RAG-向量库-重排-工具调用与企业知识系统原理.md

这样你就能从“看懂世界观”,继续推进到“能真的搭一套平台”。


与仓库现有内容的关系

这篇文档是大模型总览。

而仓库现有的:

更像是一个通用机器学习样例流水线。

你可以把两者关系理解成:

  • 本文:解释“大模型世界观和生态图”
  • ml-pipeline.md:展示“一个更小型、更传统 ML 的真实工程闭环”

两者一起看,会更容易把“大模型平台”和“通用 ML 平台”放到同一张工程地图上。