人工智能大模型正在催生新一轮技术创新与产业变革,给各行各业数字化转型和高质量发展带来新动能。在大模型技术持续快速迭代的同时,大模型在具体行业中的应用并不尽如人意。通用大模型通识能力强但缺少行业专业知识,要用一个通用的大模型来直接满足各行各业的特定需求,在当下依然难以实现。如何将大模型融入千行百业,是下一阶段的发展重点。
复旦大学浩清特聘教授、上海科学智能研究院院长、无限光年创始人漆远表示:“大模型就好比是同时在多个领域的通才,但在实际的应用场景中,我并不需要一个在各个领域都是博士水平的通才,只需要在特定一个领域能够实现解决问题的‘偏才’,足以推动生产力的发展。”
在经历“百模大战”后,模型的行业应用已成为大模型的发展重心。但在深入专业化场景时,当前通用大模型的表现并不理想,尤其是幻觉问题是大模型被用作生产力工具面临的核心挑战之一,如果大模型生成的内容不可控、难以解释,就很难满足专业领域对准确性、可靠性、严谨性的要求。
漆远早期曾在普渡大学任教,2014年回国后参与创立了达摩院的前身——iDST,之后他出任蚂蚁集团副总裁、首席数据科学家,创建并带领蚂蚁金服人工智能团队。2021年,漆远重返学界加盟复旦大学,受聘为“复旦-浩清”特聘教授、复旦人工智能创新与产业研究院院长。2022年,漆远成立无限光年,研发新一代可信的灰盒大模型技术,致力于让垂直领域大模型更精准、更可信。无限光年已完成多轮融资,投资人包括阿里云、启明创投等头部投资机构。
大模型规模卷不动了
目前,业界对大模型并没有形成明确统一的定义,狭义上指基于Transformer 技术框架的大语言模型,广义上则包含多模态大模型,学界将这些模型称为基础模型(FM, Foundation Model)。传统模型参数量通常在数万至数亿之间,儿大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如 OpenA1 的 GPT-1到GPT-3,参数量从 1.1 亿大幅拉升到 1750 亿,GPT-4 非官方估计约达1.8万亿。
大模型能够有效处理多种未见过的数据或新任务。基于注意力机制 (Attention)通过在大规模、 多样化的无标注数据集上进行预训练,大模型能够学习掌握丰富的通用知识和方法,从而在广泛的场景和任务中使用,例如文本生成、自然语言理解、翻译、数学推导、逻辑推理和多轮对话等。
模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高,也就是所谓的规模定律(Scaling Laws),但随着Scaling Laws驱动通用大模型性能不断提升,大模型在泛化性、专业性和经济性三方面难以兼得的不可能三角。
漆远指出,当大模型规模越来越大之后,面临非常大的挑战。首先是通用大模型以发展通识能力为主要目标、更侧重泛化性,在专业性和经济性方面很难充分满足具体行业的特定需求,商业落地是一个难题。第二,基础模型的研发成本随着参数规模的上升也急剧上升,有数据显示2017 年 Transformer 模型训练成本约为 900 美元,2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的训练成本预计分别约为 7800 万美元和 1.91 亿美元。第三,大模型会产生 “遗忘性灾难”,在训练的过程中本来某一方面性能很好,但随着对其他能力的训练这方面能力反而会下降。
垂直行业模型是当前AI落地关键,可信性值得关注
漆远认为,通用大模型可以在100个场景中,解决70%~80%的问题,但未必能100%满足企业某个场景的需求。但在实际的应用场景中,往往不需要一个大而全的模型,当大模型作为提升生产力的工具时,关心的是在应用场景中能真正发挥多少作用。
相比参数规模动辄万亿的大模型,十亿~百亿级参数量的大模型通过相对低成本的再训练或精调已经能达到较好的性能效果。漆远对此形象地解释说,“大模型就好比是同时在多个领域的通才,要把一个人在各个领域都培养成博士的难度之大可想而知,但如果把一个人只在一个特定的领域培养成博士,其他领域达到高中水平就很容易实现,这就足以在一个行业中投入使用真正推动生产力的发展,同时对训练成本的要求也没有那么高。因此,行业垂直大模型对于当下是非常重要的”。
行业大模型是发挥我国在 Al 领域应用场景优势的重要载体,但其安全和治理问题可能也更复杂,不仅面临通用大模型的共性问题,诸如可解释性、网络安全、价值对齐等,也会面临特定行业的特殊监管要求,如医疗、金融、交通、教育等强监管行业内存在的强制性标准等。
漆远强调,大模型也会一本正经“胡说八道”,就是所谓的“大模型幻觉”。无限光年联合创始人徐盈辉也表示,“如果大模型生成的内容不可控、难以解释,就很难满足专业领域对准确性、可靠性、严谨性的要求。针对该挑战,无限光年致力于研发神经符号计算等多种创新技术,并在此基础上打造新一代可信大模型。”
据了解,无限光年的可信光语大模型结合了大语言模型与符号推理,能够有效解决幻觉问题,大幅增强模型可信度,赋能金融服务、医疗诊断等垂直领域。在金融和医疗垂直领域评测中,可信光语大模型超越OpenAI的万亿参数大模型GPT4-Turbo,同时作为“精专”的百亿规模大模型,有效提升推理精度,降低服务成本。通过解决模型幻觉问题对企业级应用的重大挑战,无限光年深入金融、医疗场景,目前已服务多家头部公司和机构。