Nemotron-CC官网
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
Nemotron-CC是什么
Nemotron-CC是一个庞大的语言模型预训练数据集,包含令人惊叹的6.3万亿个token!它基于Common Crawl数据集,但经过精心处理,去除了大量噪声数据,并通过合成数据增强了数据量。这使得它在数据规模和质量上取得了很好的平衡,非常适合训练大型语言模型。
Nemotron-CC的主要功能
Nemotron-CC的主要功能是提供一个高质量、大规模的预训练数据集,用于训练大型语言模型。其特色在于:
- 海量数据:6.3万亿token,包含4.4万亿原始token和1.9万亿合成token。
- 数据质量高:通过分类器集成和数据清洗,有效减少了噪声数据。
- 多种格式支持:提供jsonl和parquet两种数据格式,方便用户使用。
- 多种数据分区:根据数据质量等级划分不同分区,满足不同模型训练需求。
如何使用Nemotron-CC
使用Nemotron-CC非常简单,只需遵循以下步骤:
- 访问Nemotron-CC官方网站,了解数据集详细信息和下载方式。
- 根据您的研究需求,选择合适的数据分区和格式下载数据。
- 使用下载的数据集对您的语言模型进行预训练。
- 根据模型表现调整训练参数和策略。
- 利用预训练好的模型进行特定任务的微调和应用。
Nemotron-CC的产品价格
Nemotron-CC数据集目前是免费提供的。
Nemotron-CC的常见问题
Nemotron-CC数据集的许可证是什么?
请访问Nemotron-CC官方网站查看许可证信息,以确保您的使用符合许可协议。
如何评估Nemotron-CC数据集的质量?
Nemotron-CC官方网站可能提供关于数据集质量的评估报告和指标,您可以参考这些信息。此外,您也可以通过在实际训练中对比不同数据集的效果来评估其质量。
Nemotron-CC数据集是否适合训练小型语言模型?
虽然Nemotron-CC数据集规模庞大,但其不同质量等级的分区也适合训练小型语言模型。选择合适的子集进行训练即可。
Nemotron-CC官网入口网址
https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html
OpenI小编发现Nemotron-CC网站非常受用户欢迎,请访问Nemotron-CC网址入口试用。
数据统计
数据评估
本站Home提供的Nemotron-CC都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由Home实际控制,在2025年 1月 16日 下午12:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,Home不承担任何责任。