昇思 MindSpore 大模型如鹏程・盘古、Qwen、Skywork 等的预训练数据以中文为核心、多源异构融合、高质量过滤为特点依托开源数据、互联网爬虫、电子书与领域数据构建经分布式清洗、去重、过滤后形成百亿至千亿级 Token 的训练语料是国产大模型知识能力与语言理解的核心基础。一、预训练数据核心来源昇思大模型数据来源遵循 “开源打底、网页主力、书籍补充、领域增强” 原则覆盖通用与专业场景开源开放数据集采用 Common Crawl、Wikipedia 中文、BookCorpus、CC100、CLUECorpus 等提供基础文本与知识底座占比约 30%。互联网网页数据通过合规爬虫抓取中文主流门户、博客、论坛、百科原始数据达80TB经清洗后保留高质量网页文本占比约 50%。电子书与出版物收录公开授权小说、教材、学术文献、古籍补充长文本与专业知识占比约 15%。领域与合作数据联合科研机构 / 企业获取政务、金融、能源、代码等领域数据增强行业适配性代码类模型如 CodeGeeX额外引入 GitHub 开源代码库23 种语言。自研补充数据如昆仑万维 Skywork 开源600GB/150B Token中文语料 Skypile作为模型专属训练数据。以鹏程・盘古为例原始数据约 80TB经 4 级清洗去重后得到1.1TB 高质量语料250B Token确保数据无偏、低噪、合规。二、数据处理核心流程昇思采用HadoopSpark 分布式集群处理 PB 级数据流程标准化、工程化格式归一化统一转换为 JSONL提取有效文本过滤乱码 / 特殊字符。多级去重通过 n-gram、SimHash、局部敏感哈希LSH剔除网页间 / 网页内重复内容。质量过滤用 fastText 分类模型过滤广告、垃圾、敏感内容通过语言模型 PPL 值筛选高流畅度文本。分词与编码基于 SentencePiece/BPE 分词生成 input_ids、attention_mask适配模型输入长度如 2048/4096。格式转换转为 MindRecord昇思原生格式或 Megatron 格式支持分布式训练高效读取。三、核心代码示例数据加载与预处理环境准备与依赖安装pip install mindspore mindformers datasets git clone https://gitee.com/mindspore/mindformers.git数据加载与预处理Pythonfrom mindformers import LlamaTokenizer from datasets import load_dataset import mindspore.dataset as ds # 1. 加载分词器与数据集 tokenizer LlamaTokenizer.from_pretrained(tokenizer.model) dataset load_dataset(json, data_filesraw_corpus.jsonl, splittrain) # 2. 预处理函数分词、截断、填充 def preprocess_func(examples): texts [text.strip() for text in examples[text]] return tokenizer( texts, truncationTrue, max_length2048, paddingmax_length, return_tensorsnp ) # 3. 批量处理多线程加速 tokenized_ds dataset.map( preprocess_func, batchedTrue, num_parallel_workers8, remove_columns[text] ) # 4. 转为MindSpore数据集适配分布式训练 ms_ds ds.NumpySlicesDataset( tokenized_ds, column_names[input_ids, attention_mask], shuffleTrue ) ms_ds ms_ds.batch(4) # 设置批次大小转换为 MindRecord 格式高效存储from mindspore.mindrecord import FileWriter writer FileWriter(pretrain_data.mindrecord, shard_num8) # 8分片 schema {input_ids: {type: int32, shape: [-1]}} writer.add_schema(schema, pretrain_data) for item in ms_ds.create_dict_iterator(): sample {input_ids: item[input_ids].asnumpy()} writer.write_raw_data([sample]) writer.commit()四、数据质量与合规保障昇思严格遵循数据合规、隐私保护、版权授权原则清洗阶段剔除个人信息与侵权内容所有开源数据遵守对应许可证自研数据通过合规审核确保模型训练与发布合法合规。高质量数据使模型在中文理解、知识问答、逻辑推理等任务上性能显著提升。
昇思大模型预训练数据来源
发布时间:2026/5/19 15:47:08
昇思 MindSpore 大模型如鹏程・盘古、Qwen、Skywork 等的预训练数据以中文为核心、多源异构融合、高质量过滤为特点依托开源数据、互联网爬虫、电子书与领域数据构建经分布式清洗、去重、过滤后形成百亿至千亿级 Token 的训练语料是国产大模型知识能力与语言理解的核心基础。一、预训练数据核心来源昇思大模型数据来源遵循 “开源打底、网页主力、书籍补充、领域增强” 原则覆盖通用与专业场景开源开放数据集采用 Common Crawl、Wikipedia 中文、BookCorpus、CC100、CLUECorpus 等提供基础文本与知识底座占比约 30%。互联网网页数据通过合规爬虫抓取中文主流门户、博客、论坛、百科原始数据达80TB经清洗后保留高质量网页文本占比约 50%。电子书与出版物收录公开授权小说、教材、学术文献、古籍补充长文本与专业知识占比约 15%。领域与合作数据联合科研机构 / 企业获取政务、金融、能源、代码等领域数据增强行业适配性代码类模型如 CodeGeeX额外引入 GitHub 开源代码库23 种语言。自研补充数据如昆仑万维 Skywork 开源600GB/150B Token中文语料 Skypile作为模型专属训练数据。以鹏程・盘古为例原始数据约 80TB经 4 级清洗去重后得到1.1TB 高质量语料250B Token确保数据无偏、低噪、合规。二、数据处理核心流程昇思采用HadoopSpark 分布式集群处理 PB 级数据流程标准化、工程化格式归一化统一转换为 JSONL提取有效文本过滤乱码 / 特殊字符。多级去重通过 n-gram、SimHash、局部敏感哈希LSH剔除网页间 / 网页内重复内容。质量过滤用 fastText 分类模型过滤广告、垃圾、敏感内容通过语言模型 PPL 值筛选高流畅度文本。分词与编码基于 SentencePiece/BPE 分词生成 input_ids、attention_mask适配模型输入长度如 2048/4096。格式转换转为 MindRecord昇思原生格式或 Megatron 格式支持分布式训练高效读取。三、核心代码示例数据加载与预处理环境准备与依赖安装pip install mindspore mindformers datasets git clone https://gitee.com/mindspore/mindformers.git数据加载与预处理Pythonfrom mindformers import LlamaTokenizer from datasets import load_dataset import mindspore.dataset as ds # 1. 加载分词器与数据集 tokenizer LlamaTokenizer.from_pretrained(tokenizer.model) dataset load_dataset(json, data_filesraw_corpus.jsonl, splittrain) # 2. 预处理函数分词、截断、填充 def preprocess_func(examples): texts [text.strip() for text in examples[text]] return tokenizer( texts, truncationTrue, max_length2048, paddingmax_length, return_tensorsnp ) # 3. 批量处理多线程加速 tokenized_ds dataset.map( preprocess_func, batchedTrue, num_parallel_workers8, remove_columns[text] ) # 4. 转为MindSpore数据集适配分布式训练 ms_ds ds.NumpySlicesDataset( tokenized_ds, column_names[input_ids, attention_mask], shuffleTrue ) ms_ds ms_ds.batch(4) # 设置批次大小转换为 MindRecord 格式高效存储from mindspore.mindrecord import FileWriter writer FileWriter(pretrain_data.mindrecord, shard_num8) # 8分片 schema {input_ids: {type: int32, shape: [-1]}} writer.add_schema(schema, pretrain_data) for item in ms_ds.create_dict_iterator(): sample {input_ids: item[input_ids].asnumpy()} writer.write_raw_data([sample]) writer.commit()四、数据质量与合规保障昇思严格遵循数据合规、隐私保护、版权授权原则清洗阶段剔除个人信息与侵权内容所有开源数据遵守对应许可证自研数据通过合规审核确保模型训练与发布合法合规。高质量数据使模型在中文理解、知识问答、逻辑推理等任务上性能显著提升。