Spanish Gigaword First Edition数据集介绍,官网编号LDC2006T12 Spanish Gigaword First EditionLDC2006T12是 LDC 于 2006 年发布的大规模西班牙语单语语料库核心用于语言模型训练、机器翻译与信息检索等基础 NLP 任务是西班牙语大规模无标注文本资源的早期标杆。以下从核心信息、内容构成、数据特性、应用价值与局限展开说明。一、核心基础信息信息类别详情数据集全称Spanish Gigaword First Edition官网编号LDC2006T12发布机构美国语言数据联盟LDC发布时间2006 年语料规模约 10 亿词级无标注文本含超 100 万个文档语料来源西班牙语新闻专线如 EFE、AP 西班牙语服务、新闻网站等权威媒体内容核心用途语言模型预训练、西班牙语 - 英语机器翻译、文本分类、信息检索等ISBN1-58563-386-0数据格式SGML遵循 Gigaword 系列统一 DTD 规范便于批量处理与解析