Science：AI竞赛，学界正在输给业界

大数据文摘 | 2023-03-06 20:34:37 阅读：173

大数据文摘转载自学术头条

人工智能（AI）正在向业界倾斜。相比于学界的前沿性研究，风靡当下的 AI 聊天机器人 ChatGPT、AI 艺术生成器 Midjourney，以及微软发布的新一代 AI 驱动搜索引擎 New Bing、谷歌发布 ChatGPT 竞品 Bard 和那些未来将要发布的“类 ChatGPT”等，似乎正在预示着一场更大、更系统的变革。

尽管消费者能够从业界的这些成果中受益，但伴随而来的是全球决策者的担忧——重要 AI 工具的公共科技替代品可能会越来越稀缺。

2023 年 3 月 3 日，来自麻省理工学院、弗吉尼亚理工大学的研究团队在权威科学期刊 Science 上发文，阐述了业界在“数据、算力与人才”方面的优势，并探讨了业界的这些优势可能带来的隐患，以及可行的对策。

学术头条在不改变文章原意的前提下，对原文进行了精简与编译。

几十年来，AI 研究在学界和业界并存，但随着深度学习成为该领域的领先技术，平衡正在向业界倾斜。我们常常看到业界 AI 的成功，如 DALL·E 2、ChatGPT、new Bing 等。

然而，这些头条新闻预示着一场更大、更系统的变革：业界正在占据 AI 研究的主导地位，从大型数据集、计算能力和高技能研究人员三方面支配着 AI 投入。这种支配正在转化为一系列研究成果：业界在学术出版物、尖端模型和关键基准方面的影响力越来越大。尽管消费者能够从中受益，但伴随而来的是全球决策者的担忧——重要 AI 工具的公共科技替代品可能会越来越稀缺。

业界的投入优势：数据、算力与人才

业界长期以来更能够访问大型、具有经济价值的数据集，因为大量用户与设备交互时会自然而然地产生数据。例如，在 2020 年，WhatsApp 美国用户每天发送大约 1000 亿条消息。然而，业界的主导地位除了凸显在数据之外，更是扩展到了现代 AI 的其他关键投入：人才和计算能力。

在过去十年中，AI 人才的需求骤升导致了 AI 人才竞争的加剧。然而，业界正在赢得这场竞赛。来自北美州的众多大学的数据显示，专门研究 AI 的计算机科学（CS）博士毕业生正以前所未有的数量进入业界。2004 年，只有 21% 的 AI 博士进入业界，但到 2020 年，这一数量占比高达 70%。

专门研究 AI 的 CS 研究人员也从大学被聘请到业界工作。自 2006 年以来，这一招聘人数增长了 8 倍，远高于 CS 研究人员的整体增长。这种担忧并不局限于美国的大学。在英国，华威大学国王十字校区院长 Abhinay Muthoo 表示，“顶尖的科技公司正在汲取大学的精华”。

学界和业界的算力使用也呈现出越来越大的差距。在图像分类中，业界使用的算力比学界或业界-学界合作使用的更大，并且增长更快。研究运用参数数量（所需算力的关键决定因素之一）来代替模型中使用的计算能力。2021 年，业界模型的平均规模是学界的 29 倍，突显出两组计算能力的巨大差异。

业界雇佣人才和利用更大算力的能力很可能是造成 AI 研究成果差异的原因。虽然公共和私营部门在 AI 方面的投资都在大幅增加，但业界的投资更大、增长更快。2021 年，非国防的美国政府机构在 AI 行业拨款 15 亿美元。同年，欧盟委员会计划支出 10 亿欧元。

相比之下，同年全球范围内，业界在 AI 上的支出超过了 3400 亿美元，大大超过了公共投资。例如，2019 年，谷歌母公司 Alphabet 在其子公司 DeepMind 上花费了 15 亿美元，这只是其 AI 投资的一部分。在欧洲，这一差距较小，但仍然存在；AI Watch 估计，“私营和公共部门分别占欧盟 AI 投资的 67% 和 33%”。

开展 AI 研究所需资金规模的一个例子来自 OpenAI，它最初是一个非营利组织，声称“不受产生财务回报的约束”，旨在“造福整个人类”。四年后，OpenAI 将其定位改为“有上限的营利组织”，并宣布这一改变将使他们“迅速增加对算力和人才方面的投资”。

业界在 AI 研究中日益占据主导地位

如今，业界对 AI 输入的主导地位表现在 AI 成果的日益突出，尤其是在研究发布、创建最大模型和超越关键基准方面。在主要 AI 会议上，由一位或多位业界联合作者撰写的研究论文从 2000 年的 22% 增长到 2020 年的 38%；业界在最大的 AI 模型中所占份额已从 2010 年的 11% 上升到 2021 年的 96%。

在 AI 基准方面，纵观图像识别、语义分析、语言建模、语义分割、对象检测和机器翻译 6 个方面，以及涵盖机器人和常识推理等领域的另外 14 项基准，在 2017 年之前，业界单独或与大学合作，有 62% 的时间处于领先地位。自 2020 年以来，这一比例已上升到 91%。

因此，通过在领先的研究机构发表文章、建立最先进的 AI 模型以及超越关键基准三个方面衡量，分析表明，业界在 AI 产出方面的地位越来越突出。

业界的压倒性优势带来隐患

业界对 AI 的投资不断增加，可能通过技术的商业化为社会带来巨大利益。公司可以创造更好的产品，使消费者受益——机器翻译有利于国际贸易，并能简化流程降低成本。业界对 AI 的投资还产生了对整个社区有价值的工具。例如，学界广泛使用的 PyTorch 和 TensorFlow，促进深度学习模型高效训练的硬件如 TPU，以及可公开访问的预训练模型——Meta 的 OPT 模型。

与此同时，AI 在业界中的集中也令人担忧，业界的商业动机促使他们关注以盈利为导向的话题。如果所有的前沿模型都来自业界，就会出现不存在具有公共意识的替代品的情况。换句话来说，“优先部门的 AI 研究人员倾向于专注于数据要求高和计算密集的深度学习方法”是以“涉及其他 AI 方法的研究、考虑 AI 的社会和伦理影响的研究以及在健康等领域的应用”为代价的。

AI 的发展轨迹如何？谁来控制它？AI 会替代人类吗并引发不平等吗？一些研究人员担心，“我们可能正走向社会次优轨迹，它更侧重于替代人类劳动，而不是增强人类能力。”一些人展开想象：业界和学界可能会形成与其他学科类似的分工：基础研究主要由大学完成，而应用研究和开发则主要由业界完成。

然而，在 AI 领域，产学的明确分工并不存在。业界所使用的应用模型往往是那些突破基础研究边界的模型。例如，transformer 是由谷歌大脑研究人员于 2017 年开发的一种深度学习架构，使得基础研究向前迈出重要一步，并且几乎立即应用于业界使用。尽管这意味着学术工作可以直接惠及业界，但是应用工作的业界主导权也赋予了它决定基础研究方向的权力。

鉴于 AI 工具可以在整个社会中得到广泛的应用，这种情况将使少数技术公司在社会发展方向拥有巨大的权力。对于世界上许多人来说，这种担忧进一步加剧，因为这些组织对他们来说是“外国公司”。例如，生命未来研究所认为，“欧洲公司没有开发通用 AI 系统，而且由于他们与美国和中国公司相比在竞争上处于相对劣势，不太可能很快开始开发”。

学界重塑 AI 前沿的可行之路

通过对业界 AI 的审查或外部监督，监管可能是解决方案。例如，2018 年，学者 Joy Buolamwini 和 Timnit Gebru 记录了商业人脸识别系统中的性别和种族偏见。然而，如果学界不能接触到业界的 AI 系统，或者没有资源来开发竞争模型，他们解释业界模型或提供公共利益的替代方案的能力将受到限制。

这既是因为学界无法建立尖端性能所需的大型模型，也是因为 AI 系统的一些有用的能力似乎是“涌现”的——系统只有在特别大的时候才能获得这些能力。模型的一些负面特征似乎也随着规模的增加而扩大。例如，AI 生成的语言中的毒性以及刻板印象。在任何一种情况下，没有足够资源的学者都无法对这些重要领域做出有意义的贡献。

在全球范围内，这种对学界在 AI 研究中的资源劣势的担忧正在被认识到，并开始出现政策应对措施。在美国，NAIRR 工作组提议创建公共研究云和公共数据集。在加拿大，国家高级研究计算平台一直在为该国的学界服务，自从近十年前启动以来，一直被超额使用。

对许多国家来说，这类投资所需的规模可能令人望而生畏。在这种情况下，决策者面临的关键问题将是，他们是否能够与志同道合的合作者一起筹集足够的资源，以达到创建反映自己优先事项的 AI 系统所需的规模。

算力并不是提供补救措施的唯一领域，构建公共数据集将非常重要。但是，这并非易事，因为现代 AI 训练数据集可以是数十亿份文档。特别值得关注的是，创建没有直接商业利益的重要数据集，以及提供资源让顶尖 AI 研究人员留在学界。例如，加拿大研究主席计划（CRCP）通过提供工资和研究基金吸引加拿大顶尖人才。

对于致力于这一问题的决策者来说，目标应该是确保有足够的能力来帮助审查或监控业界模型，或生产出符合公众利益的替代模型。

有了这些能力，学界可以继续塑造现代 AI 研究的前沿，并为负责任的 AI 制定基准。若没有这些能力，重要的公众兴趣 AI 工作将被抛弃。

参考链接：https://www.science.org/doi/10.1126/science.ade2420

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。