Repository Reading Site
ml-platform/examples/19-llm-data
目录页面可以直接继续下钻查看 Markdown、示例文件和脚本。
大模型数据样本目录
这个目录不是生产数据,而是为了帮助初学者理解“大模型数据到底长什么样”而准备的最小示例。
包含:
00-raw-corpus.jsonl原始文本样本,带噪声和脏内容01-cleaned-corpus.jsonl清洗后的训练文本样本02-sft-messages.jsonl指令微调 / 聊天数据样本03-preference-dpo.jsonl偏好数据样本04-eval-set.jsonl评测集样本05-rag-documents.jsonlRAG 文档样本06-dataset-card.yaml数据集说明卡和元数据示例
建议配合根目录的:
一起阅读。