您的位置: 首页 > 特刊

数据、算力、隐私 “三道坎”

出处:北京商报 网编:刘浩天 2023-12-07

伴随着金融机构数字化体系的不断推进,金融业数智建设正从“立柱架梁”逐步迈进“积厚成势”。尽管金融行业对大模型的关注和应用日益升温,并且在智能客服、AI投顾等领域取得一定的成效和收益,但其在发展过程中仍面临着数据质量、算力成本、隐私安全这三大挑战。

数据质量

数据质量问题是金融大模型面临的首要挑战。

据了解,金融大模型需要大量的高质量数据来进行训练和预测,但金融数据的质量常常受到数据源的限制,包括数据的准确性、完整性和时效性等方面。中国信息协会常务理事、国研新经济研究院创始院长朱克力在接受北京商报记者采访时表示,在数据准确性方面,由于金融数据的来源复杂,数据准确性可能会受到影响。例如,一些数据可能存在录入错误,或者由于数据源的问题,数据可能本身就不准确。在数据完整性方面,如果数据不完整,那么模型的预测结果可能就会偏颇。在数据时效性方面,金融市场变化非常快,数据时效性也是一大挑战,过时的数据可能无法反映市场的真实情况,从而影响模型的预测结果。

针对如何解决金融大模型数据质量的问题,资深人工智能专家郭涛在接受北京商报记者采访时表示,金融机构和金融科技公司可以加强数据质量管理,包括数据清洗、数据标准化和数据验证等环节,提高数据的准确性和完整性。同时,可以积极寻找更多的数据源,增加数据的多样性和覆盖范围,提高模型的预测能力。

商汤金融创新部相关负责人亦对北京商报记者表示,金融机构应该基于已经治理好的高质量数据,通过大模型解决专属领域的问题,以快速实现大模型的业务价值,同时基于大模型的应用特点进行数据治理。

算力成本

算力是算法和数据的基础设施,支撑着算法和数据,算力的大小代表着对数据处理能力的强弱。作为大模型的重要底层支撑,算力成本问题也是金融大模型发展过程中不可忽视的一大挑战。

毕马威中国银行与资管行业首席信息官、咨询服务主管合伙人柳晓光对北京商报记者表示,大模型之所以产业化爆发,在于其涌现能力,即当参数规模到达一定水平后,性能显著提高,超出随机水平。以大模型的生成能力为主线,随着生成内容的可控性增强,模型架构的不断升级,对算力与存储的要求也越来越高。金融大模型需要庞大的计算资源来进行训练和推理,对于许多金融机构来说,建立和维护这样的计算基础设施可能会成本高昂,这对于金融机构和金融科技公司来说是一个巨大的挑战。

综合来看,算力成本高昂主要体现在硬件成本、能耗成本、人力成本三个方面,其中硬件成本是构建和维护高性能计算设备所需的硬件设备和设施的成本较高;能耗成本是大规模的金融大模型需要大量的计算资源,这会导致高能耗,进而增加了电力成本;人力成本方面,则是为了保证金融大模型的正常运行,需要专业的技术人员进行维护和管理,这增加了人力成本。

针对算力成本高昂的问题,郭涛表示,金融机构和金融科技公司可以考虑采用云计算和分布式计算等技术,灵活调配计算资源,降低算力的成本。此外,可以与其他机构进行合作,共享计算资源,提高资源利用效率。

另外,金融大模型需要处理海量数据,因此需要强大的算力资源。特别是随着信创进程的加快,如何更高效地利用算力,也是金融行业应用大模型过程中需要考虑的问题。针对该问题,商汤金融创新部相关负责人表示,金融机构可以考虑基于外部算力和公开数据进行业务场景验证,这是一个高效的方案。同时,基于外部成熟的算力软硬件建设方案,将私有化部署的算力效能最大化,随着业务场景拓展进行分布式可扩展的部署,这是目前有效的私有化建设思路。

隐私安全

今年以来,AI换脸新骗局多发,这也让AI技术安全风险被不断提及,同样,金融大模型的隐私安全问题也尤为重要。

众所周知,金融数据高度敏感,涉及用户的隐私,在使用大模型时,确保数据安全和符合隐私法规是一个要持续关注的问题。一旦数据泄露,不仅可能导致金融风险,还可能面临法律责任。柳晓光也对北京商报记者表示,金融业对数据使用的合规性、大模型涌现能力的可控性要求非常高,数据质量一定程度上决定了大模型生成信息的价值性、准确性和完整性。但金融行业数据涉及大量用户个人隐私数据、资金交易数据等,数据安全和隐私保护至关重要。因此,金融企业面临模型质量与数据安全之间的平衡关系的挑战,如何在安全合规的前提下获取和处理数据,确保数据合法使用是金融行业面临的关键挑战。

提及金融大模型的隐私安全问题,郭涛亦对北京商报记者表示,金融AI大模型需要大量的数据来进行训练和优化,而这些数据往往涉及到用户的个人隐私和金融安全。如果数据泄露或被恶意利用,不仅会损害用户的利益,也会对金融机构的声誉和业务造成严重影响。

如何解决这一问题?商汤金融创新部相关负责人表示,一方面是金融机构应确保数据安全,包括数据的存储和处理。通过私有化的架构部署和专业人才的本地服务,可以保证数据不离开本地环境,同时满足监管要求。另一方面是大模型本身,选用纯自主研发的基座大模型,结合业务场景做针对性调优。确保从基座大模型到业务适配的全过程相关数据都经过严密的清洗、审查,才能够充分保证大模型应用的全链自主和深度可控,方可从根本上保障大模型应用的隐私安全。

北京社科院副研究员王鹏亦指出,金融机构需要建立严格的数据管理制度,保障用户数据的安全和隐私。同时,可以采取一些技术手段,如数据加密、访问控制等来防止数据泄露和恶意利用。

本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871

商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)

网上有害信息举报  违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn

ICP备案编号:京ICP备08003726号-1  京公网安备11010502045556号  互联网新闻信息服务许可证11120220001号