在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下,智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(Chinese Corpora Internet,简称 CCI),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,并以此为契机促进不同机构合作,共同推动大数据和人工智能领域的健康发展。
30210005-2023-11-30T13:00:22.png

项目背景

随着大模型的快速发展,业界及学界对高质量数据集的需求日益增长。这些数据集不仅需要包含大量信息,而且还需经过严格的筛选和清洗,以确保其准确性和下游模型及应用的安全。然而,当前业内流行的公开数据集均存在一定质量和安全风险,中文领域尤其缺乏高质量、符合安全要求的数据集。另外,构建一个符合安全要求的中文数据集也面临诸多挑战。

首先是语料内容的安全风险。当前,很多公开数据集存在以下问题:

  • 数据来源杂乱,存在诸多潜在内容风险,导致模型及应用存在潜在安全隐患;
  • 侵害他人合法权益:如隐私权、版权等,导致模型生成内容对个人或团体产生不利影响;‍‍‍
  • 歧视性内容:包含对特定群体的不公正或偏见性描述,影响模型的公正性和可接受度;‍
  • 虚假数据:不真实的信息可能导致模型训练结果偏差,影响模型的有效性和可靠性。

其次,内容清洗也存在突出的问题。目前,不同机构在内容清洗上的标准不一,对负面信息或违法违规信息的分类体系也大相径庭。由于缺乏统一的标准和认识,各机构在内容审核与安全过滤上投入了大量的人力和物力,但效果仍不理想。此外,大量的过滤规则需要非常及时地根据监管部门的业务指令和舆情热点事件不断更新,这对数据集迭代更新速度提出了新的要求。

因此,开源一个经过严格筛选和标准化处理的数据集对于大模型技术创新与发展尤为重要,只有更为广泛的合作和资源共享才能完成这项艰巨的任务。

中文互联网语料库CCI 

中文互联网语料库CCI在数据来源上均为高质量可信、中国境内的互联网站,经过严格的数据清洗和去重,并且在内容质量、价值观等方面进行了针对性的检测与过滤,进一步提升数据质量和安全可信程度。此次数据处理规则包括:

  • 基于规则的过滤:文字密度提取、敏感词过滤、垃圾信息过滤、简繁体转换等;
  • 基于模型的过滤:低质量内容过滤;‍
  • 数据去重:数据集内部 / 数据集间去重;

此外,由于大语言模型的预训练数据规模庞大,容易引发评测数据泄露。一旦评测数据不小心进入预训练数据,将导致大模型“被动刷题”的后果,对大模型团队容易带来负面影响。为此,我们在数据处理过程中采用了多种检索技术,对当前主流的多个中文评测数据集进行严格筛查和过滤。本数据集也是首个针对当前主流评测数据集进行严格过滤的开源数据集,包含以下方法:‍‍‍‍‍‍

  • 基于规则匹配:字符串匹配、模糊匹配等;
  • 基于信息检索方法:TF-IDF、BM25等;
  • 过滤的中文评测数据集包括:C-Eval、CMMLU、GAOKAO、CLUE等。

CCI语料库首期开放的数据(CCI v1.0.0)规模为 104GB。数据集总体的时间跨度为2001年1月至2023年11月。

智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data

未来,智源研究院与共建单位将继续在CCI语料库的基础上,进一步扩充数据来源、完善数据处理流程,不断提升语料库规模并提升数据集的质量,为大模型开源社区提供更多的高质量、可信的数据资源。