7月25日,谷歌推出了专门从事数学推理的AlphaProof模型,以及2024年早些时候首次推出的几何模型的升级版AlphaGeometry 2。谷歌在一篇博文中说,这些程序攻克了国际数学奥林匹克竞赛(International Mathematical Olympiad)六道难题中的四道。
在AI领域,产品之间进行比较非常困难,解数学题已成为关键的证据点。这是因为在大量书面文本基础上训练出来的大语言模型往往偏重于语言智能而非数学智能。虽然计算机擅长数字和传统计算,但基于文字的数学问题却超出了这些标准,需要更复杂的推理能力。
这就是谷歌研究人员认为其人工智能在著名数学竞赛中的表现意义重大的原因。“这是机器学习和AI领域的巨大进步,谷歌DeepMind负责AI科学研究的副总裁普什米特·科利(Pushmeet Kohli)在新闻发布会上说,“目前还没有开发出能以这种成功率解题的系统。”
虽然AI工具在自然聊天或生成图像方面正日渐娴熟,但它们在处理需要规划或需要多个步骤才能解决的问题时往往举步维艰。但谷歌及其竞争对手并没有放弃。据报道,该公司最大的竞争对手OpenAI也一直在研究新的推理技术。
谷歌称,AlphaProof是由擅长国际象棋、将棋和围棋等复杂策略游戏的谷歌AI程序演化而来的。2016年,DeepMind的一个程序击败了世界顶流围棋选手,由此而名声大噪。
大语言模型容易产生幻觉,或以令人信服的方式提供错误信息。谷歌表示,它利用AI将数学题翻译成技术语句,即所谓的 “形式语言”,从而避开了这一挑战。
数学领域的AI系统面临的另一个问题是缺乏可用的训练数据,而聊天机器人则不同,它可以从网上的大量文本中收集信息。该公司称,随着谷歌的AlphaProof模型成功解题,其代码也会随之更新,使其能够应对更多挑战。
该公司还发布了AlphaGeometry人工智能模型的改进版,称其能够解开国际数学奥林匹克竞赛过去25年所有几何题中的83%。
但谷歌研究人员同时指出,人工智能的解题能力远不能取代人类数学家。“谷歌 DeepMind负责强化学习的副总裁戴维·西尔弗(David Silver)说:“即使我们把雄心壮志拉满,我认为我们的目标也是提供一个可以证明任何事情的系统。但这却不是数学家工作的目标。”
西尔弗说,DeepMind的AI模型更像是计算尺或计算器:强大的计算工具,也许有朝一日能帮人类进行数学证明。但AI系统缺乏的是想象力。他说:“数学家提出的问题都很有趣。”