首页 > 教程攻略 > ai资讯 >哈佛与谷歌联手发布百万公版书AI训练数据集

哈佛与谷歌联手发布百万公版书AI训练数据集

来源：互联网时间：2026-05-27 10:00:22

训练一个像样的大语言模型，成本究竟有多高？数据这一关，往往就卡住了绝大多数玩家。海量、优质、合法的文本数据，其获取和处理的代价极为高昂，这几乎成了科技巨头们的专属游戏。然而，这个局面或许即将迎来一个关键的破局点。

近日，哈佛大学宣布了一项名为“机构数据倡议”（Institutional Data Initiative, IDI）的计划，其核心动作是准备向全球研究界和产业界开放一个规模惊人的数据集——涵盖约100万册已进入公共领域的书籍。这些书籍类型多样，语言丰富，作者名单里不乏狄更斯、但丁、莎士比亚等因年代久远而版权失效的文学巨匠。这无疑是一座沉睡的数字金矿。

目前，这个庞大的知识宝库尚未正式面世，具体的发布时间和获取途径仍在规划中。但可以确定的是，其书目来源正是谷歌深耕多年的“谷歌图书”（Google Books）数字化项目。这意味着，谷歌也将深度参与此次资源的开放工作，共同将这份“珍贵遗产”推向更广阔的舞台。

事实上，哈佛大学早在今年三月就首次透露了IDI的构想，旨在建立一个“为AI提供合法数据的可信渠道”。此后项目一度沉寂，直至此番正式启动，并确认已获得微软与OpenAI的资金支持。项目执行主任格雷格·莱珀特（Greg Leppert）道出了其核心愿景：通过向所有人——无论是顶尖学术机构还是资源有限的AI初创公司——开放如此规模的资源，来“打造一个公平的竞争环境”。其目标直指降低大模型训练的门槛，让创新不再被数据成本所垄断。