K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

数据模块 — 功能设计与页面规划

--- | 功能 | 说明 | 优先级 | |------|------|--------| | 上传数据集 | 支持 JSONL/CSV/JSON/TXT/Parquet | P0 | | 格式自动识别 | 上传后自动检测文件格式和编码 | P0 | | 数据校验 | 格式校验、字段完整性、Token 长度检查 | P0 | | 数据预览 | 表格/JSO

Markdownsaas-platform/docs/data-module-design.md2026年4月9日 15:48

数据模块 — 功能设计与页面规划

一、数据在 AI SaaS 中的角色

数据是模型的"燃料"。平台上所有涉及数据的场景:

1. 微调训练: 用户上传对话数据 → 训练专属模型
2. 评估测试: 用户上传测试集 → 评估模型效果
3. 批量推理: 用户上传待处理数据 → 批量跑模型 → 下载结果
4. RAG 知识库: 用户上传文档 → 向量化 → 检索增强生成
5. 数据标注: 用户标注数据 → 提升模型质量(高级功能)

二、功能清单

2.1 数据集管理(核心)

功能 说明 优先级
上传数据集 支持 JSONL/CSV/JSON/TXT/Parquet P0
格式自动识别 上传后自动检测文件格式和编码 P0
数据校验 格式校验、字段完整性、Token 长度检查 P0
数据预览 表格/JSON 形式展示前 N 条 P0
数据统计 条数、Token 分布、字段统计、数据质量评分 P0
版本管理 同一数据集多版本,支持回溯 P1
数据分割 自动拆分训练集/验证集/测试集 P1
数据增强 同义改写、翻译扩充(调用自身模型) P2
数据脱敏 自动识别并遮蔽手机号/身份证/姓名 P2
数据导出 下载原始数据或处理后数据 P1
批量删除 选中多个数据集批量操作 P1
存储配额 按套餐限制存储空间,超额提醒 P0

2.2 数据格式支持

微调数据格式(对话式)

{"messages":[
  {"role":"system","content":"你是一个专业的客服助手"},
  {"role":"user","content":"我想退货"},
  {"role":"assistant","content":"好的,请提供您的订单号,我来帮您处理退货。退货流程如下:\n1. 确认订单信息\n2. 提交退货申请\n3. 寄回商品\n4. 退款到账(3-5个工作日)"}
]}
{"messages":[
  {"role":"user","content":"发票怎么开"},
  {"role":"assistant","content":"开票步骤:\n1. 登录账户\n2. 进入「订单管理」\n3. 点击「申请发票」\n4. 填写开票信息\n5. 提交后 1-3 个工作日出票"}
]}

微调数据格式(补全式)

{"prompt":"将以下文本翻译成英文:今天天气很好","completion":"The weather is very nice today"}
{"prompt":"对以下评论进行情感分析:这个产品太差了","completion":"负面"}

评估数据格式

{"input":"用户问题","expected_output":"期望答案","tags":["category1"]}

批量推理数据格式

{"id":"req-001","messages":[{"role":"user","content":"总结以下文章:..."}]}
{"id":"req-002","messages":[{"role":"user","content":"翻译:..."}]}

RAG 知识库格式

支持:
- PDF → 自动解析提取文本
- Word (.docx) → 提取文本
- Markdown → 直接使用
- TXT → 直接使用
- 网页 URL → 爬取内容

2.3 数据处理能力

能力 输入 输出 场景
Token 统计 原始文本 每条数据的 Token 数分布 评估训练成本
去重 完整数据集 去除重复/近似重复条目 提升数据质量
过滤 数据集 + 规则 满足条件的子集 Token 过长的去掉
采样 大数据集 随机/分层采样子集 快速验证
格式转换 CSV/JSON JSONL(微调格式) 适配训练需求
数据分割 完整集 train/val/test 训练前准备
质量评分 数据集 质量报告 识别低质量样本

2.4 知识库管理(RAG)

功能 说明 优先级
创建知识库 命名 + 选择 Embedding 模型 P1
上传文档 PDF/Word/MD/TXT,自动分块 P1
分块策略配置 chunk_size, overlap, 分隔符 P1
向量化 调用 Embedding 模型生成向量 P1
检索测试 输入问题 → 返回相关文档片段 P1
知识库关联模型 指定哪个模型使用哪个知识库 P1
文档管理 增删改文档,自动重新向量化 P1
向量数据库 Milvus / Qdrant / pgvector P1

三、页面设计

3.1 页面总览(数据相关)

控制台首页 (Dashboard)
│
├── 数据集管理
│   ├── 数据集列表页
│   ├── 上传数据集页
│   ├── 数据集详情页
│   │   ├── 数据预览 Tab
│   │   ├── 数据统计 Tab
│   │   ├── 数据校验 Tab
│   │   └── 版本历史 Tab
│   └── 数据处理页(去重/过滤/分割)
│
├── 知识库管理
│   ├── 知识库列表页
│   ├── 创建知识库页
│   ├── 知识库详情页
│   │   ├── 文档列表 Tab
│   │   ├── 检索测试 Tab
│   │   └── 配置 Tab
│   └── 上传文档页
│
├── 批量任务
│   ├── 批量推理列表页
│   ├── 创建批量任务页
│   └── 任务详情页(进度+结果下载)
│
└── 微调训练(数据部分)
    ├── 选择数据集步骤
    └── 数据预检报告

3.2 数据集列表页

┌──────────────────────────────────────────────────────────────┐
│ 数据集管理                                    [+ 上传数据集]  │
├──────────────────────────────────────────────────────────────┤
│ 搜索: [______________]  格式: [全部 ▼]  用途: [全部 ▼]      │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ ☐ 名称              格式    条数     大小    用途    创建时间   │
│ ─────────────────────────────────────────────────────────────│
│ ☐ customer-service   JSONL   12,450  3.2MB  微调    04-09    │
│   └─ v2 (最新) │ v1                                         │
│ ☐ product-qa         JSONL    5,230  1.1MB  微调    04-08    │
│ ☐ sentiment-test     CSV      2,000  0.5MB  评估    04-07    │
│ ☐ articles-batch     JSONL   50,000  15MB   批量    04-06    │
│                                                              │
│ 已使用 19.8MB / 5GB 配额                           [■■■░░] │
│                                                              │
│ 选中 0 项  [批量删除] [批量导出]                    第1/2页 > │
└──────────────────────────────────────────────────────────────┘

交互说明:

  • 点击数据集名称 → 进入详情页
  • 版本标签可展开切换
  • 支持批量选择操作
  • 存储配额可视化进度条
  • 搜索支持名称/描述模糊匹配

3.3 上传数据集页

┌──────────────────────────────────────────────────────────────┐
│ 上传数据集                                                    │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 数据集名称: [customer-service-v2________]                     │
│ 描述:       [客服对话数据,含退货退款场景__]                    │
│ 用途:       ○ 微调训练  ○ 评估测试  ○ 批量推理  ○ 知识库      │
│                                                              │
│ ┌──────────────────────────────────────────────────────┐     │
│ │                                                      │     │
│ │           拖拽文件到此处,或 [点击上传]                │     │
│ │                                                      │     │
│ │   支持格式: JSONL, CSV, JSON, TXT, Parquet           │     │
│ │   单文件最大: 500MB                                   │     │
│ │                                                      │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ ── 或者从 URL 导入 ──                                        │
│ URL: [https://example.com/data.jsonl____] [导入]             │
│                                                              │
│ ── 或者从已有数据集创建新版本 ──                               │
│ 基于: [customer-service v1 ▼] [创建新版本]                    │
│                                                              │
├──────────────────────────────────────────────────────────────┤
│ 上传中... customer-service-v2.jsonl  3.2MB                   │
│ [████████████████████░░░░] 78%  预计剩余 5秒                  │
│                                                              │
│ ✓ 格式检测: JSONL (对话格式)                                  │
│ ✓ 编码: UTF-8                                                │
│ ⟳ 校验中...                                                  │
│                                                              │
│                                          [取消] [确认上传]    │
└──────────────────────────────────────────────────────────────┘

3.4 数据集详情页 — 数据预览 Tab

┌──────────────────────────────────────────────────────────────┐
│ ← 返回  customer-service v2                [下载] [删除]     │
├──────────────────────────────────────────────────────────────┤
│ [数据预览]  [数据统计]  [校验报告]  [版本历史]                  │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 格式: JSONL (对话式微调)  条数: 12,450  大小: 3.2MB          │
│ 创建: 2026-04-09 15:30   更新: 2026-04-09 15:30             │
│                                                              │
│ ── 数据预览 (前 10/12,450 条) ──                      │
│                                                              │
│ #1                                                           │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ System: 你是一个专业的客服助手                         │     │
│ │ ─────────────────────────────────────────────────────│     │
│ │ User: 我想退货                                       │     │
│ │ ─────────────────────────────────────────────────────│     │
│ │ Assistant: 好的,请提供您的订单号,我来帮您处理退货。  │     │
│ │ 退货流程如下:                                        │     │
│ │ 1. 确认订单信息                                      │     │
│ │ 2. 提交退货申请 ...                                  │     │
│ │                                    Tokens: 128       │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ #2                                                           │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ User: 发票怎么开                                      │     │
│ │ ─────────────────────────────────────────────────────│     │
│ │ Assistant: 开票步骤:...                              │     │
│ │                                    Tokens: 95        │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ ... 展示更多                              第 1/1245> >> │
└──────────────────────────────────────────────────────────────┘

3.5 数据集详情页 — 数据统计 Tab

┌──────────────────────────────────────────────────────────────┐
│ [数据预览]  [数据统计]  [校验报告]  [版本历史]                  │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ ── 基本统计 ──                                               │
│                                                              │
│ 总条数:        12,450                                        │
│ 总 Token 数:   1,532,800                                     │
│ 平均 Token/条: 123                                           │
│ 最短:          12 tokens                                     │
│ 最长:          2,048 tokens                                  │
│ 预估训练费用:  ¥15.3 (基于 Qwen2.5-7B LoRA)                  │
│                                                              │
│ ── Token 长度分布 ──                                         │
│                                                              │
│ 2000+ │                                             ▓ 2%    │1000  │                                     ▓▓▓▓▓  8%      │500  │                          ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓  22%     │200  │          ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓  45%     │100  │ ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓                     18%     │50  │ ▓▓▓▓▓                                       5%      │
│        └──────────────────────────────────────────           │
│                                                              │
│ ── 角色分布 ──                                               │
│                                                              │
│ system:    8,200 条 (65.9%)  包含系统提示                     │
│ user:     12,450 条 (100%)   每条都有用户输入                  │
│ assistant: 12,450 条 (100%)  每条都有助手回复                  │
│ 多轮对话:   3,120 条 (25.1%)  2轮以上                         │
│                                                              │
│ ── 内容分析 ──                                               │
│                                                              │
│ 高频话题:                                                    │
│   退货退款  3,20025.7%  ████████████                    │
│   物流查询  2,80022.5%  ██████████                      │
│   开票问题  2,10016.9%  ████████                        │
│   账户问题  1,85014.9%  ███████                         │
│   产品咨询  1,50012.0%  █████                           │
│   其他      1,0008.0%  ███                             │
│                                                              │
│ 语言:  中文 98.2%  英文 1.5%  混合 0.3%                      │
└──────────────────────────────────────────────────────────────┘

3.6 数据集详情页 — 校验报告 Tab

┌──────────────────────────────────────────────────────────────┐
│ [数据预览]  [数据统计]  [校验报告]  [版本历史]                  │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 数据质量评分: 87/100  🟢 良好                                 │
│                                                              │
│ ── 通过的检查 ──                                             │
│ ✅ 格式正确: 所有行均为合法 JSON                              │
│ ✅ 必要字段: messages 字段存在                                │
│ ✅ 角色合法: 所有 role 为 system/user/assistant               │
│ ✅ 非空检查: 无空 content                                    │
│ ✅ 编码正确: UTF-8 无乱码                                    │
│                                                              │
│ ── 警告 ──                                                   │
│ ⚠️  23 条数据 Token 超过 2048 (可能被截断)         [查看]     │
│ ⚠️  156 条数据疑似重复 (相似度 > 95%)              [查看]     │
│ ⚠️  12 条数据 assistant 回复过短 (< 10 Token)     [查看]     │
│                                                              │
│ ── 错误 (需要修复) ──                                        │
│ ❌ 第 3,247 行: messages 不是数组                   [定位]    │
│ ❌ 第 8,901 行: content 含非法字符 \x00             [定位]    │
│                                                              │
│ ── 建议 ──                                                   │
│ 💡 去除 156 条重复数据可提升训练效果                           │
│ 💡 23 条超长数据建议截断或拆分为多轮对话                       │
│ 💡 建议补充更多"其他"类别数据,当前占比仅 8%                   │
│                                                              │
│                              [自动修复可修复项] [导出报告]    │
└──────────────────────────────────────────────────────────────┘

3.7 数据处理页

┌──────────────────────────────────────────────────────────────┐
│ 数据处理  ← customer-service v2                               │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 选择处理操作: 
│                                                              │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐        │
│ │  🔄 去重  │ │  🔍 过滤  │ │  ✂️ 分割  │ │  📊 采样  │        │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘        │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐                     │
│ │  🔄 格式  │ │  🔒 脱敏  │ │  ➕ 增强  │                     │
│ │   转换    │ │          │ │          │                     │
│ └──────────┘ └──────────┘ └──────────┘                     │
│                                                              │
│ ═══════════════════════════════════════════════════════════  │
│                                                              │
│ 去重配置: 
│   相似度阈值: [0.95____]  (0-1,越高越严格)                   │
│   比较字段:   ☑ user content  ☑ assistant content            │
│   策略:       ○ 保留第一条  ● 保留最长条                      │
│                                                              │
│ 预览结果: 
│   原始: 12,450 条                                            │
│   去重后: 12,294 条 (移除 156 条)                             │
│   [查看将被移除的数据]                                        │
│                                                              │
│                         [取消] [保存为新版本 v3]              │
└──────────────────────────────────────────────────────────────┘

3.8 知识库列表页

┌──────────────────────────────────────────────────────────────┐
│ 知识库管理                                    [+ 创建知识库]  │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ ┌─────────────────────────────────────┐                      │
│ │ 📚 产品帮助文档                       │                      │
│ │ Embedding: text-embedding-3-small    │                      │
│ │ 文档: 45 篇  │  向量: 1,230 chunks   │                      │
│ │ 最近更新: 2 小时前                    │                      │
│ │ 关联模型: qwen2.5-7b                 │                      │
│ │                      [管理] [测试]   │                      │
│ └─────────────────────────────────────┘                      │
│                                                              │
│ ┌─────────────────────────────────────┐                      │
│ │ 📚 内部规章制度                       │                      │
│ │ Embedding: bge-m3                    │                      │
│ │ 文档: 12 篇  │  向量: 380 chunks     │                      │
│ │ 最近更新: 3 天前                      │                      │
│ │ 关联模型: company-cs-v1 (微调)       │                      │
│ │                      [管理] [测试]   │                      │
│ └─────────────────────────────────────┘                      │
└──────────────────────────────────────────────────────────────┘

3.9 知识库检索测试页

┌──────────────────────────────────────────────────────────────┐
│ 检索测试 — 产品帮助文档                                       │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 输入问题: [如何退换货?_____________________________] [检索]  │
│                                                              │
│ 返回 Top 3 相关文档片段:                                     │
│                                                              │
│ #1  相似度: 0.92  来源: 售后政策.pdf (第3页)                  │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ 退换货政策:自签收之日起 7 天内,商品未拆封可无理由     │     │
│ │ 退换。拆封后如存在质量问题,15 天内可申请换货。退货     │     │
│ │ 运费由平台承担(质量问题)或消费者承担(无理由退货)。  │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ #2  相似度: 0.85  来源: FAQ.md (退换货章节)                   │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ Q: 退货流程是什么?                                    │     │
│ │ A: 1. 在订单页面点击"申请退货" 2. 选择退货原因          │     │
│ │    3. 等待审核(1个工作日)4. 寄回商品 ...              │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ #3  相似度: 0.78  来源: 物流说明.docx                         │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ 退货包裹请寄至:XX市XX区XX路XX号 退货仓库              │     │
│ │ 联系电话:400-XXX-XXXX                                │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ ── 模型回答预览 (结合检索结果) ──                             │
│                                                              │
│ 根据产品帮助文档,退换货流程如下:                            │
│ 1. 在订单页面点击"申请退货"                                  │
│ 2. 选择退货原因                                              │
│ 3. 等待审核(1个工作日)                                     │
│ ...                                                          │
│                                                              │
│ 配置: Top-K [3]  相似度阈值 [0.7]  Chunk大小 [512]           │
└──────────────────────────────────────────────────────────────┘

3.10 批量推理任务页

┌──────────────────────────────────────────────────────────────┐
│ 创建批量任务                                                  │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 任务名称: [产品描述批量翻译___________]                       │
│ 模型:     [qwen2.5-7b ▼]                                    │
│ 数据集:   [articles-batch (50,000条) ▼]                      │
│                                                              │
│ 系统提示词:                                                   │
│ ┌──────────────────────────────────────────────────────┐     │
│ │ 你是一个专业的翻译助手。将用户给出的中文翻译成英文,    │     │
│ │ 保持原文风格和专业术语准确。                            │     │
│ └──────────────────────────────────────────────────────┘     │
│                                                              │
│ 参数:                                                        │
│   max_tokens:  [512___]                                      │
│   temperature: [0.3___]                                      │
│   并发数:      [10____]                                      │
│                                                              │
│ 预估:                                                        │
│   输入 Token:  ~5,000,000                                    │
│   输出 Token:  ~3,000,000                                    │
│   预估费用:    ¥34.00                                        │
│   预估时间:    ~2.5 小时                                     │
│                                                              │
│                                   [取消] [提交任务 (¥34)]    │
└──────────────────────────────────────────────────────────────┘

提交后 → 任务详情页:
┌──────────────────────────────────────────────────────────────┐
│ 批量任务: 产品描述批量翻译          状态: 🟡 运行中           │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ 进度: [██████████████████░░░░░░] 72%  36,000 / 50,000       │
│ 已用时: 1小时48分  预计剩余: 42分钟                           │
│ 已消耗: ¥24.50                                               │
│                                                              │
│ 成功: 35,800  失败: 200  跳过: 0                             │
│                                                              │
│ ── 实时日志 ──                                               │
│ 15:32:01  处理 #35801-#35810  成功                           │
│ 15:31:58  处理 #35791-#35800  成功                           │
│ 15:31:55  处理 #35781-#35790  #35788 超时重试                │
│                                                              │
│                    [暂停] [取消] [下载已完成部分]             │
└──────────────────────────────────────────────────────────────┘

3.11 微调训练中的数据选择步骤

┌──────────────────────────────────────────────────────────────┐
│ 创建微调任务  步骤: ① 选择模型 → ② 选择数据 → ③ 配置 → ④ 提交│
├──────────────────────────────────────────────────────────────┤
│                                                              │
│ ② 选择训练数据                                               │
│                                                              │
│ 训练集: [customer-service v2 (12,294条) ▼]                   │
│ 验证集: ○ 自动从训练集拆分 10%                                │
│         ● 使用独立数据集 [customer-service-eval (500条) ▼]    │
│                                                              │
│ ── 数据预检报告 ──                                           │
│                                                              │
│ ✅ 格式兼容 qwen2.5-7b 微调要求                              │
│ ✅ 条数充足 (建议 > 100, 当前 12,294)                        │
│ ⚠️ 23 条超过模型最大长度 4096 tokens (将被截断)              │
│ ✅ 验证集与训练集无重叠                                       │
│                                                              │
│ 预估: 
│   训练数据 Token 总量: 1,512,800                             │
│   训练轮次 (3 epochs): 4,538,400 tokens 处理量               │
│   预估训练时间: ~45 分钟 (A10 GPU)                           │
│   预估费用: ¥3.75                                            │
│                                                              │
│                                     [← 上一步] [下一步 →]    │
└──────────────────────────────────────────────────────────────┘

四、数据流转全景

                    上传
用户本地文件 ─────────→ 对象存储 (S3/NFS)
                         │
                    ┌────▼─────┐
                    │ 数据校验  │ → 校验报告
                    │ Token统计 │ → 统计信息
                    │ 格式检测  │ → 元数据
                    └────┬─────┘
                         │
              ┌──────────┼──────────┐
              ▼          ▼          ▼
         ┌─────────┐ ┌───────┐ ┌─────────┐
         │ 微调训练 │ │ RAG   │ │ 批量推理 │
         │ (Job)   │ │向量化  │ │ (Job)   │
         └────┬────┘ └───┬───┘ └────┬────┘
              │          │          │
              ▼          ▼          ▼
         模型产出    知识库      推理结果
              │      (向量DB)    (下载)
              ▼
         部署为推理服务

五、技术实现要点

5.1 大文件上传

方案: 分片上传 (Multipart Upload)

前端:
  1. 文件分片 (每片 5MB)
  2. 计算每片 MD5
  3. 并发上传 (3-5 片并行)
  4. 断点续传 (记录已上传的片)
  5. 全部上传完  通知后端合并

后端 API:
  POST /api/v1/datasets/upload/init      获取 upload_id
  POST /api/v1/datasets/upload/part      上传分片
  POST /api/v1/datasets/upload/complete  合并确认

存储:
  小文件 (< 100MB): 直接存 NFS/S3
  大文件 (> 100MB): S3 Multipart Upload

5.2 数据处理异步化

大数据集处理 (去重/统计/校验) 耗时较长,必须异步:

1. 用户发起处理请求
2. 后端创建任务记录 (status: "pending")
3. 放入消息队列 (Redis Stream / RabbitMQ)
4. Worker 消费任务,处理数据
5. 处理中实时更新进度 (WebSocket / SSE 推送)
6. 完成后更新状态,通知用户

K8s 实现:
  小任务: 直接在 service Pod 中处理
  大任务: 创建 K8s Job,处理完自动清理

5.3 Token 计算

// 使用 tiktoken-go 兼容 OpenAI 的 Token 计算
import "github.com/pkoukk/tiktoken-go"

func CountTokens(text string, model string) int {
    enc, _ := tiktoken.EncodingForModel(model)
    tokens := enc.Encode(text, nil, nil)
    return len(tokens)
}

// 不同模型 tokenizer 不同:
// - OpenAI 系列: cl100k_base
// - Llama 系列: LlamaTokenizer (SentencePiece)
// - Qwen 系列: QwenTokenizer

5.4 数据安全

安全措施 说明
租户隔离 数据存储路径包含 org_id,API 层强制过滤
传输加密 HTTPS + TLS 1.3
存储加密 S3 SSE 或 NFS 上 LUKS 加密
访问审计 记录谁在什么时间访问了什么数据
自动脱敏 上传时扫描 PII(手机号/身份证/邮箱)
数据过期 配置保留期限,到期自动删除
GDPR 合规 提供数据导出和彻底删除能力

六、页面汇总

序号 页面 路由 优先级
1 数据集列表 /datasets P0
2 上传数据集 /datasets/upload P0
3 数据集详情-预览 /datasets/:id/preview P0
4 数据集详情-统计 /datasets/:id/stats P0
5 数据集详情-校验 /datasets/:id/validation P0
6 数据集详情-版本 /datasets/:id/versions P1
7 数据处理 /datasets/:id/process P1
8 知识库列表 /knowledge-bases P1
9 创建知识库 /knowledge-bases/create P1
10 知识库详情-文档 /knowledge-bases/:id/documents P1
11 知识库检索测试 /knowledge-bases/:id/test P1
12 批量推理列表 /batch-jobs P1
13 创建批量任务 /batch-jobs/create P1
14 批量任务详情 /batch-jobs/:id P1
15 微调-数据选择 /fine-tuning/create (step 2) P0
16 数据标注 /datasets/:id/annotate P2