K8s Lab 把当前仓库文档整理成一个可阅读的网页站点

Repository Reading Site

ml-platform/examples/19-llm-data

目录页面可以直接继续下钻查看 Markdown、示例文件和脚本。

Directoryml-platform/examples/19-llm-data8 个条目

大模型数据样本目录

这个目录不是生产数据,而是为了帮助初学者理解“大模型数据到底长什么样”而准备的最小示例。

包含:

  • 00-raw-corpus.jsonl 原始文本样本,带噪声和脏内容
  • 01-cleaned-corpus.jsonl 清洗后的训练文本样本
  • 02-sft-messages.jsonl 指令微调 / 聊天数据样本
  • 03-preference-dpo.jsonl 偏好数据样本
  • 04-eval-set.jsonl 评测集样本
  • 05-rag-documents.jsonl RAG 文档样本
  • 06-dataset-card.yaml 数据集说明卡和元数据示例

建议配合根目录的:

一起阅读。

JSONL 00-raw-corpus.jsonl ml-platform/examples/19-llm-data/00-raw-corpus.jsonl JSONL 01-cleaned-corpus.jsonl ml-platform/examples/19-llm-data/01-cleaned-corpus.jsonl JSONL 02-sft-messages.jsonl ml-platform/examples/19-llm-data/02-sft-messages.jsonl JSONL 03-preference-dpo.jsonl ml-platform/examples/19-llm-data/03-preference-dpo.jsonl JSONL 04-eval-set.jsonl ml-platform/examples/19-llm-data/04-eval-set.jsonl JSONL 05-rag-documents.jsonl ml-platform/examples/19-llm-data/05-rag-documents.jsonl YAML 06-dataset-card.yaml ml-platform/examples/19-llm-data/06-dataset-card.yaml MD README.md ml-platform/examples/19-llm-data/README.md