从金融、交通,到教育、医疗,一段时间以来,各个行业大模型如雨后春笋般出现在世人面前,让“大模型”这个几个月前还显得有些缥缈的新事物拥有了落地的根基,展现了“AI赋能千行百业”的潜力。
行业大模型,指的是在特定行业领域应用的大型语言模型。与以ChatGPT为代表的通用大模型相比,行业大模型通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好地理解行业的语义和规范,更有效地执行专业性更强的任务。
“通用大模型就像一个综合成绩很好的高中生,具备了基本的智商和能力,可以回答和解决很多基础问题。行业大模型更像学习了专业知识的本科生甚至硕博生,通过注入行业知识,使之具备解决专业问题的能力。”上海数库科技首席科技官曹峰做了这样生动的比喻。目前,业内普遍认为,未来只会有两三家“独大”的通用大模型,并涌现出无数更贴近产业需求的行业大模型。
在此背景下,高质量的行业知识库和训练数据便成了制胜的关键。多名业内人士表示,行业大模型的火热将为数据服务商带来发展机遇,助推数据收集、数据存储、数据标注、数据治理等垂直行业的持续繁荣。不过,随着业务门槛的提高、专业需求的多样化,以及平台巨头持续发力AI基础数据服务,行业或将迎来洗牌。真正能站稳脚跟的,是那些能切实解决行业痛点,拥有数据资源积累和技术壁垒,并快速将自身业务与大模型相融合的数据服务商。
行业大模型纷纷亮相
“华为云盘古大模型不作诗,只做事。”今年7月7日,华为常务董事张平安在华为开发者大会2023(Cloud)上说道。张平安介绍,华为云盘古大模型3.0包括“5+N+X”三层架构,即5个基础大模型、N个行业大模型和X个细分场景模型,将深耕行业,致力于重塑千行百业。
去年11月底,由美国Open AI公司推出的ChatGPT聊天机器人轰动全球。这款会聊天、能作诗的大型语言模型能学习人类知识、与人类交流互动,实现了“智能涌现”。此后,国内外科技巨头纷纷入局通用大模型赛道,一场大模型领域的“军备竞赛”大幕由此拉开。
然而,要成功训练一个性能良好的通用大模型,需要强大的算力和数据支持,也离不开密集的人才储备,是一场“烧钱游戏”。据国信证券估算,GPT-3的单次训练成本就高达140万美元,对于更大的大语言模型,训练成本则介于200万美元至1200万美元之间。这对于大厂而言尚可接受,对于中小企业而言则过于昂贵。
“一方面是受限于算力、人才和资金储备,通用大模型注定是少数玩家参与的赛道;另一方面,一些面向企业客户的场景,往往需要综合考虑性能与成本,即投入的模型研发成本、模型推理成本与产生的价值是否匹配,而且一些行业的私域数据还涉及到数据安全和隐私保护等问题。这自然就促使大家更多关注行业大模型了。”锦秋基金执行董事臧天宇表示。
易华录数据要素科技创新研究院院长林镇阳表示,通用大模型在垂直行业应用存在整合不足的问题,在解决医疗、法律等特定行业问题时准确度低,难以商用,研发行业大模型是推动大模型规模化落地应用的迫切需求。“大模型不应该是空中楼阁,未来一定是要落地,走向行业应用的。这是一件好事,也是正常的商业逻辑。”华创资本创始合伙人王道平表示。
与此同时,开源大模型的发展也为行业大模型提供了快速实现的可能性。臧天宇介绍,当前大多数行业大模型都是基于特定场景的数据,依靠开源大模型进行微调,从而在一些任务中取得不错的效果。“如果都是从零开始训练行业大模型的话,付出的成本太高。可以说,开源模型给过去在垂直领域形成了数据积累的玩家提供了一个更好的起点,也可以说是便宜得多的‘入场券’。”臧天宇说。
此前,行业还在热烈讨论“中国需要什么样的大模型”,如今,国内互联网巨头都用自己的行动给出了答案:百度与行业头部企业或机构共建了11个行业大模型,在能源、金融、航天、制造、传媒等领域探索落地;阿里云联合7家顶尖生态伙伴推动大模型在不同行业落地应用;腾讯云则与传媒、文旅、金融、政务、教育等行业的头部企业探索了超50个行业大模型的应用解决方案……
巨头亲自下场研发行业大模型,是否意味着中小厂商已无机会?或许未必。一家头部大模型研发公司的技术负责人表示,未来大模型将应用于千行百业,这是一个巨大的蛋糕。公司研发并推出行业大模型,更多是希望让市场看到大模型在不同行业的应用前景,吸引更多垂直领域玩家加入。“我们希望构建大模型生态系统,帮助开发者开发各种AI原生应用,让各行各业享受到大模型的技术红利。”该技术负责人说。
数据要素正变得越来越重要
算力、数据、算法,被称作人工智能的“三驾马车”。一直以来,行业对于算力和算法的关注度远远高于数据。尤其在今年年初,各大国内科技巨头对标ChatGPT逐鹿中文版通用大模型,高性能芯片的短缺带来“算力荒”,算力要素成为了市场最关注的热点。然而,进入到行业大模型的“大航海时代”,算力和数据要素正悄然发生着一些变化。
“对于‘大模型’世界来说,算力是生产力,数据是生产资料,算法是生产关系。在这之中,算力是让大模型转动的前提,高质量的数据是驱动算法持续迭代的养分。”工业和信息化部电子第五研究所副所长王蕴辉表示说,数据不仅决定了模型的规模和质量,也影响了大模型的泛化能力和适应性。
一个行业共识是,探索大模型在各行各业的应用过程中,数据要素正变得越来越重要。7月8日,在“2023世界人工智能大会·大模型时代下的数据要素流通”论坛上,商汤科技联合创始人杨帆表示,“数据问题,对人工智能、智能化极其重要,可能是最重要的问题,没有之一。”
面对大模型的热潮,数据交易平台也在积极行动。深圳数据交易所副总经理王冠表示,随着大模型厂商关注焦点从通用能力转向垂直领域,深圳数据交易所将持续供给科研、政务、金融等行业数据,并提供数据合规、产品上市等服务。
据悉,深圳数据交易所在开放群岛开源社区联合发起成立了大模型SIG,首批发起单位包括智谱AI、百度、华为昇思社区、腾讯云、阿里魔搭社区、启智社区等26家单位,汇集了算力提供方、训练数据提供方、大模型厂商、行业应用方以及第三方法律服务机构,以“高性能模型底座+高质量垂直行业数据”双轮驱动的方式,最大程度发挥数据要素的行业应用价值。
第三方数据服务商的机遇与挑战
上海市数商协会、上海数据交易所、复旦大学、数库科技联合发布的《全国数商产业发展报告(2022)》显示,截至2022年11月,全国数商行业企业数量达到192万家。王蕴辉介绍,在大模型研发应用方面,数据要素产业链的上中下游涵盖了从数据采集、分析建模到应用的整个过程。上游围绕生产环节,包含数据采集、数据清洗和标注、数据存储等;中游围绕加工环节,从数据中提取有用的信息和知识,训练构建模型;下游则围绕应用,根据客户的需求提供具体的行业或场景解决方案。
大模型的研发和应用为数据服务商提供了广阔的市场空间和需求。根据德勤今年一季度发布的《人工智能基础数据服务白皮书》,人工智能基础数据服务市场规模由2017年的8.2亿元增长至2022年的45亿元,预计2027年市场规模有望达到130亿~160亿元。
在大模型持续火热的带动下,AI基础数据服务商受到投资者青睐。经梳理IT桔子网站数据发现,最近已有多家数据服务商获融资。整数智能获得了数千万的Pre-A轮融资,主要用于智能数据工程平台的迭代升级;聚焦搭建数据与模型的MLOps(机器学习运维)服务商星鲸科技获数千万人民币天使轮融资;为车企与自动驾驶公司提供一站式数据标注解决方案的恺望数据获战略投资,最新估值达到5亿元。臧天宇透露,公司此前有在关注数据标注、清洗领域的创业公司,一些过去在语音或自动驾驶领域提供数据服务的企业也在尝试进入大模型方向。另外,向量数据库也是锦秋基金目前关注的方向。
但行业的高景气度并不一定利好所有参与者。早在2020年,《中国AI基础数据服务行业发展报告》就提示,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升和客户需求的变化,未来1~2年可能迎来一阵“倒闭潮”。这一预言在两年后的《全国数商产业发展报告(2022)》中可见端倪,虽然全国数商行业企业数量仍达192万家,但注册企业数量增长速度已为负值。
虽然企业数量的变化受多重因素影响,但行业的急剧变化与竞争格局的重塑,带来的影响不容小觑。一位有多年人工智能行业研究经历的业内人士表示,以数据生产供应环节为例,除了开源数据集以外,目前研发大模型所使用的数据一般有两种,一种由第三方专业的数据服务商采集加工,另一种是基于自身掌握的数据自建团队加工处理。目前,互联网平台公司既是数据需求方,同时也往往是数据拥有方,而且拥有强大的资源优势和对算法的深刻理解。近两年,互联网平台巨头在大模型研发领域的投入持续加大,也加快了自建数据团队的步伐,第三方数据服务商的份额正在被挤占。
一个典型的例子是,最新入局“百模大战”的互联网巨头京东于7月13日发布了言犀大模型。据悉,这一大模型的训练数据由70%的通用数据和30%的原生数据组成,这30%的原生数据源于京东云与全国超百万家企业进行的产业协同,以及服务多座城市智能化管理,从而使“每年数百亿优质交互数据”回流。此外,京东还升级了两个能够积累高质量行业数据的平台,以支撑产业应用对数据的新需求。
除此以外,据不完全统计,包括百度、阿里巴巴、科大讯飞(67.760, 0.00, 0.00%)等在内的科技大厂都建立了自己的数据标注团队,例如,2020年,科大讯飞在贵州毕节大方县设立了智慧就业车间,开展贵州方言标注等工作;百度智能云人工智能数据标注产业基地已经在山东济南、山西临汾等10多个地方落地。
如果说科技大厂的入局在行业内搅动了浪潮,那么大模型对数据需求的变化则进一步提升了行业的“水位”。 王蕴辉分析,与通用大模型相比,行业大模型的数据主要有四个方面的不同:一是更加专业,需要涵盖专业知识、术语、规则和逻辑,适应特定的需求和场景;二是更加稀缺,需从具体场景中采集数据,具有获取和整合难度;三是更加动态,需要不断进行更新扩充以适应行业的发展变化;四是更加敏感,行业大模型处理的往往是私人或带有商业机密性质的数据,需更加注重隐私保护和数据安全。
林镇阳也强调,行业大模型成熟转化依赖特定的应用场景,需根据实际需求打造专业领域的数据产品开发策略,对数据集质量的要求相应也提高了。以金融领域的研报为例,曹峰介绍,研报与有相对统一规范的财务报表非常不同,研究人员会将原材料、生产流程、最新工艺等信息写得很详细,不仅知识密度很高,而且表述方式十分丰富和多元。“如果要训练大模型完成撰写研报这样的任务,成本很高,需要有真正理解研报信息的人员对数据进行准确的标注和处理,这无疑是个不小的挑战。”曹峰说。
这也就意味着,对于第三方数据服务商而言,行业大模型提高了业务的门槛,专业要求也变得更加精深了。在风起云涌的行业大模型浪潮中,谁进谁退?行业或将迎来一次洗牌。
往专业更深处钻
向塔尖更高处攀
面对行业之变,怎样的第三方数据服务商更具优势?采访了多位业内人士,答案主要指向两个维度:一是在专业性方面具有较深行业积累,能够根据客户需求提供定制化、场景化的基础数据服务,并提供安全、合规等方面的保障;二是具有较强商业敏感度,能快速将已有技术和产品与行业大模型场景及应用结合,从单纯提供数据向提供知识咨询、智能应用的方向转变。
王蕴辉表示,对于训练行业大模型而言,行业数据获取、数据深度处理、数据安全保障是目前最困难的几个问题。以数据获取和数据安全为例,医疗、金融等行业的数据往往受到法律法规的限制,使模型训练面临数据来源不足、质量差等问题。同时,由于行业数据具有非公开性,必须采取数据加密、数据脱敏、访问控制手段保护数据的安全性和隐私性。能解决这些行业痛点的公司,也更容易在市场竞争中胜出。
在数据深度处理能力上,王道平认为,拥有数据并不能算一个优势,最终还是得看如何有效地挖掘和利用数据,更好地解决特定的问题。前述有多年人工智能行业研究经历的业内人士分析,在一些专业门槛高的领域,掌握稀缺技术的公司更容易获得客户青睐。例如在语音数据处理方面,掌握专业的声学知识,对音素、韵律、重音等内容具有标注经验,且具备语音合成技术的公司目前还比较稀缺,具有更强的市场竞争力。
中国信息通信研究院工程师王超伦介绍,数据服务分为四个层级,自下至上分别为数据即服务、分析即服务、知识即服务、智能即服务。前两者主要是为客户提供所需的数据以及基于数据进行分析挖掘,是目前大多数数据服务商的服务模式。后两者是以知识咨询和AI模型形式对外提供服务。
王冠认为,“大模型热”表明数据要素的智慧应用价值,大数据行业从简单的取数、查数向智慧用数迈入了新的发展阶段。“大模型视角下,大数据行业的核心价值是数据飞轮,将数据生产、数据应用、数据消费三大环节有机结合起来,并且通过一系列的数据工具实现三者之间的往复转动与良性循环。”王冠表示。
因此,随着大模型的逐步发展以及在各个行业中探索应用,越来越多的数据服务商正在思考如何将自身业务与大模型结合,“向塔尖更高处攀”,以在激烈的市场竞争中抢占先机。未来,“智能即服务”或将更多出现在公众的视野中。
一名第三方数据服务商负责人表示,当前市场各方正在积极对接需求与信息,研发大模型的企业正在寻求应用场景和领域数据,而数据服务商也正在论证大模型可以升维哪些场景和应用能力;曹峰表示,数库科技此前积累了大量金融财经类领域的词库和语料,目前正着手基于开源大模型,针对已有的语料和知识库进行微调,并将进一步升级数据体系;林镇阳透露,易华录基于深耕交通领域20余年的业务理解,正致力于构建高质量数据集和交通行业大模型……
长风已起,浪潮已至,拥抱变化和积极变革者胜。在这场充满机遇与挑战的行业变局中,谁是大浪淘沙后留下的真金,还需等待时间给我们答案。