学硕,学硕与专硕的区别
10月19日,恒生电子(600570.SH,股价29.92元,市值568.48亿元)发布了金融大模型LightGPT最新的能力升级成果,以及基于LightGPT打造的多款光子系列大模型应用产品,并宣布正式开放产品公测。
恒生电子董事长刘曙峰表示,当前金融行业对于大模型技术的关注度和参与度很高,但在大模型实际落地过程中主要存在模型选择难、算力供应不足、应用成熟度不足等问题,建议机构可以通过选择合适的金融大模型,采用大模型“私有化+MaaS服务”混合部署,基于场景驱动的金融垂直应用开发和积累数据资产、构建数据飞轮、提升应用成熟度等工作,实现金融行业大模型更好的应用落地。
恒生电子首席科学家、大模型产品总监白硕介绍,此次升级的LightGPT,面向金融机构实现LightGPT-7B的开源,推理和训练全面适配华为昇腾系列。
恒生电子推出金融大模型,背后经历了怎样的转向?落地应用金融行业,金融大模型具备哪些共通性和特殊性?当前大模型所需的AI算力,在国际半导体行业政策风声鹤唳之际,将面临怎样的连锁反应?
在此次发布会之际,《每日经济新闻》(以下简称NBD)记者专访了恒生电子首席科学家、大模型产品总监白硕。
白硕 图片来源:受访对象供图
禁令之下国内AI芯片危机互现
NBD:最近大家关注度比较高的是美国半导体禁令,新规可能会冲击英伟达A800或者H800的销售,对国内AI芯片或带来冲击,怎么看这一禁令后续对大模型行业带来的连锁反应?
白硕:我理解这可能会带来几方面影响:第一,由于禁令的生效,国内大模型企业可能打算买的或者已经在路上的AI芯片,都可能存在一定的风险。买不到当然就是“无米之炊”,大模型企业想推广的一些场景可能面临不方便推广或者没有那么顺利的问题。
挑战也带来了另一方面的影响:一方面,国产相应GPU可以快速顶上,达到同步、同功能、等效的替换。站在这个角度上,确实我们看到一些企业,譬如海光、华为的昇腾都在发力,我也期待他们会提供更加符合客户要求的算力支持,我们也会一起帮助AI的应用真正在行业落地。所以从这一方面来看,其实它是一个机会,推动国产GPU的技术进步。
此外,未来还会不会有另外一种可能性,当前国内大模型已经有的算力,可能处于一种分散的状态,不一定能够发挥它最大的效能,已经有的算力掌握在少数单位或者少数机构的手里,并不能非常充分地发挥它的作用。我们有没有可能把算力集中起来,以行业的方式,统一提供服务?这也是我们在思考的一条路径。
NBD:目前国内有多家金融机构研发自己的大模型技术,但大模型的开发需要大量资金、算力和数据的支撑,也对研发企业的实力提出了挑战,大模型技术未来是否会进一步拉大头部和中小金融机构之间的技术差距?
白硕:如果从算力角度来看,不同规模金融机构在算力方面投入的差距,可能很大程度上会使这个差距加剧,对算力投入成本的承受程度各不相同。但是,如果可以通过行业能力统一的方式来提供算力服务,大家或许都有机会。
另一方面,实际上大模型的预训练、精调和推理部署需要的算力有数量级的差别。实力雄厚的头部企业研发投入充足,先发优势明显,可以利用相对大的算力和自有数据对大模型进行精调;而研发投入相对有限的中小机构,可以采用跟随策略,直接使用成熟模型,只进行推理部署而不做精调。像恒生这样的金融科技服务商,可以在打造成熟模型方面为市场提供相应服务。
金融大模型应用生态仍有很大发展空间
NBD:恒生电子刘曙峰董事长提到了金融大模型的三个难点,模型选择难、算力训练难、质量控制难。目前大模型还面临哪些挑战?在语料大数据上,如何做好成本和质量上的平衡?此前,有数据行业人士提出一种方案:在相对垂直的领域,能不能通过提升语料的精度,优化大模型运行所需算力消耗?对此,您怎么看?
白硕:我觉得提升语料精度还不完全,这只是极小一部分。生态里有一些更合适的环节去承载精准的数据,而大模型只需要跟它对接,对接好了,质量自然就会提升。今天我们已经看到了在大模型上,无论是实时行情的插件还是精准规则的插件,都起到重要的作用。
还有一些数据是直接从应用系统里调出来的,这也是非常精准的,也是实时的。提升大模型整体表现,需要端到端地来看,让合适的组件提供合适的服务,构筑全面的生态。
NBD:它又给大模型应用层带来了很大的空间?
白硕:是的,可能很多通用领域的大模型供应商不会这么想,他们想的是怎么把别人的插件变成自己附属的一部分。但恒生这次推出的“光子”,定位金融应用对接大模型的“中控”部位,串联了通用工具链、金融插件工具、金融数据和金融业务场景,包括大模型也是它的一个组件,我们并不认为大模型就是核心。(备注:“光子”系恒生电子于今年6月推出的金融智能助手)
说到这里,这件事情怎么做更好,脑洞可以开得更大一点。推动大模型本身的技术进步和数据质量的提升只是一个手段,其他的手段还包括把更优质的数据放到更合适的部位,加强大模型跟其他组件的对接能力,而不是让大模型无所不能,这样才能构筑良好的大模型生态。
强烈的危机感,推动我们从“小模型”转向“大模型”
NBD:恒生推出的金融大模型LightGPT“私有化+MaaS服务”混合部署,提到了私有化数据私有化部署,共有数据公有云模式,私有云、混合云、公有云多种部署方式并存,这是基于金融行业的特色化布局?
白硕:不仅是金融行业,所有需要强监管、所有要求“家里有数”的机构都是一个道理,数据放出去,价值就不是你的了,只有在你手里,才是你的价值。如果这样的数据不和大模型结合,可能挖掘不出比较深的价值。所以,“家里”的数据和大模型的语言能力,加上通用的能力完整地结合,并不是把所有的能力压在一端,这个生态本身就是广义的。
站在大模型的角度,所有的插件都是工具;站在我们的角度,这些都是我们大模型生态的一部分。
NBD:恒生在这个时点推出金融大模型,基于哪些方面的考虑?
白硕:首先,一直以来恒生不仅是资本市场传统的IT系统供应商、金融数据提供商,也是资本市场重要的AI应用供应商。如智能客服、智能文档、智能投研等智能应用,类似这样的工作已经开展多年了,不是有大模型之后才入场的,我们原来就是这样的技术厂商。
总体来说,恒生和恒生旗下金融数据服务子公司恒生聚源都是这个战场上很长时间的一个玩家。即使人工智能在金融应用方面,也是一个很长时间的玩家。所以,我们知道这里面的行业痛点,也知道大模型技术出来以后,对我们意味着什么。
首先是在我们内部发生了一个转向:从以前依靠小模型转到依靠大模型,这个是最根本的。
传统模型或者说“小模型”,采用的是AI模型框架,为这个模型提供专用的数据,甚至是标注数据,训练出来是一个个“烟囱”。这些参数别的系统不能用,这些系统想要获得AI的能力,还得再去做独立的数据采集、数据标注和深度学习,这些是传统行业的特征。
而AI大模型是大规模预训练的,也就是说是大数据一次性灌到参数里,再经过一些精调,它可以同时适用于多个应用领域和多项AI任务。这些应用领域不需要再做大规模数据标注,只需要在任务精调环节做少量的数据标注,这是一个特别大的变化。
从传统人工智能或者小模型,转到现在的大模型,某种意义上相当于否定自己,我们有强烈的危机感,所以整个团队内部的转向是一个非常痛苦的过程。同时,这也意味着驱动我们转型的动力非常足,干劲也非常高,团队的共识也非常凝聚。
学硕(学硕与专硕的区别)