ChatGPT / AI新闻聚合
13:43 · 2024年10月8日 · 周二
TxT360:一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens
via
XiaoHu.AI学院
(author: 小互)
Telegraph
TxT360:一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens
TxT360 是由 LLM360 创建的一个 Hugging Face 上用于大语言模型训练的数据集。该数据集包含了来自多个领域的高质量文本数据,总计超过15万亿个tokens,去重后的约5.7万亿个高质量的tokens。 该数据集通过全球去重技术解决了跨数据集的重复问题,同时保留了高质量的精选数据源。TxT360在规模和性能上超越了FineWeb和RedPajama等现有数据集,允许预训练者更好地控制数据分布和上采样技术,从而优化模型训练。 99个Common Crawl快照:数据集包含了99个从互联网上抓取的网页数据集…
Home
Tags
Links
免费GPT聊天
AI API中转2.8折起
服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
oaibest.com
2023-2024
admin@g4f.icu
|
服务状态