TxT360：一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokensvia XiaoHu.AI学院 (author: 小互) | ChatGPT / AI新闻聚合

13:43 · 2024年10月8日 · 周二

TxT360：一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens

via XiaoHu.AI学院 (author: 小互)

TxT360：一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens

TxT360 是由 LLM360 创建的一个 Hugging Face 上用于大语言模型训练的数据集。该数据集包含了来自多个领域的高质量文本数据，总计超过15万亿个tokens，去重后的约5.7万亿个高质量的tokens。该数据集通过全球去重技术解决了跨数据集的重复问题，同时保留了高质量的精选数据源。TxT360在规模和性能上超越了FineWeb和RedPajama等现有数据集，允许预训练者更好地控制数据分布和上采样技术，从而优化模型训练。 99个Common Crawl快照：数据集包含了99个从互联网上抓取的网页数据集…

Powered by BroadcastChannel & Sepia

oaibest.com 2023-2025
admin@oaibest.com