哈佛大学和谷歌将发布100万本公共领域书籍作为人工智能训练数据集人工智能训练数据成本高昂，最适合资金雄厚的科技公司

哈佛大学和谷歌将发布100万本公共领域书籍作为人工智能训练数据集

人工智能训练数据成本高昂，最适合资金雄厚的科技公司。因此，哈佛大学计划发布一个数据集，其中包含大约100万本公共领域书籍，涵盖各种类型、语言、作者，包括狄更斯、但丁和莎士比亚，这些书籍由于年代久远而不再受版权保护。新的数据集尚未发布，也不清楚何时或如何发布。不过，数据集包含了谷歌长期图书扫描项目“谷歌图书”的书籍，因此谷歌将参与这次发布。哈佛大学于3月首次透露了机构数据计划 (IDI)。IDI 执行董事莱珀特表示，该数据集旨在通过向任何想要训练大型语言模型的人开放如此庞大的数据集来“创造公平竞争环境”

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel