在日前由金科创新社主办的主题为“云转型下的数据及人工智能平台部署与管理”的“2020金融科技创新实战沙龙”上,中国建设银行数据管理部副总经理刘贤荣分享了建设银行大数据应用建设的实践经验。刘贤荣在演讲中,针对数据不完整、不一致;数据处理分析工具少、复杂;数据应用开发周期长、缺乏平台支撑;数据使用中用户体验不佳等数据管理中的普遍问题提出了企业级数据能力及架构建设的体系化解决方案,并介绍了建行的云支撑的大数据平台与人工智能平台双引擎驱动的金融科技建设实践。刘贤荣指出,建行新一代核心业务系统,实现了“分区化”平台支撑体系,“后新一代”将建立新业态下的大数据云平台,以“云化+组件化+平台化”IT架构支撑,实现“响应国家战略,向社会提供公共云技术服务;支持普惠金融、金融科技、住房租赁三大战略相关项目建设;利用大数据技术进行传统业务的创新发展;为人工智能等新兴技术提供大数据技术支撑”的发展目标。
一、数据应用广泛存在的问题
当前,银行业数据应用普遍面临以下问题:
一是找数难(数据不完整)。以数据访问为例,个人客户数据在个人金融部,反欺诈数据在风险管理部,考核数据在计财部......实际上银行的用数环境呈蛛网结构,A找B、B找C、C找A,系统一旦多到一定程度,蛛网是不可控的。前端应用组件多达上百个,为了避免蛛网结构导致的相互交叉,是否可以在中间加一个数据整合区,作为数据交换的平台?这种做法确实在物理层面满足了各组件数据交换的需求,然而在逻辑层面,由于数据整合区只管理共享数据,针对特殊需要的数据,还是采用传统的部门间申请、协调的方式。要真正解决“找数难”的问题,需要银行在大数据应用方面,建立一个核心枢纽,支持全行数据应用和业务决策。为此,2014年建行在上海设立了大数据分析中心,集中全行的数据分析能力为全行数据应用提供支持,既然要支持全行的应用,就需要获取全行的数据,但是在数据获取方面还是遇到很大的阻碍,来自业务部门和技术部门的阻碍都有。
二是标准缺乏,数据不一致的情况普遍存在。数据标准化的意义不言而喻,是数据整合和数据应用的前提,但是统一数据标准却是很困难的事,因为数据标准没有落到业务流程中,如“个人客户性别”这个数据,在建行早期100多个原系统中存在着6套不同的编码,一些系统是“男女”, 一些是“FM”,还有一些是“01”......
三是用数门槛高,主要是数据分析的工具少、操作复杂。
四是用数慢,开发周期长,缺乏平台支撑。以监管报表为例,前端的统计人员要理清业务口径,把相关要求提交给各业务部门,业务部门根据要求衔接后端应用系统,再进行开发、测试,是一个复杂、漫长的过程。
五是用户体验不佳。
大数据发挥价值的前提条件是要让数据和业务形成闭环,实现两个目标:一是明确数据在业务中的应用效果,有时候数据模型看起很完美,但是在业务流程中效果体现不出来;二是业务要反哺数据。数据作为一种资源,与人、资本这样的资源最大的不同是不具有排他性,一般意思上,某种资源被他人占用后就无法再被使用了,但数据不一样,被使用的次数越多价值越高。也就是说,数据作为生产要素,在生产过程中会不断增值;反之,数据参与业务过程,如果不能实现增值,则意味着数据管理可能是失败的。因此,在数据使用的过程中,除了要在业务中沉淀数据价值,还要将增值后的数据存储到后端的数据库,但目前整体上看,业务反哺数据的工作还是缺失的,数据模型的应用效果缺乏有效评估,除了手机银行,其他渠道数据和业务的闭环还没有形成。
因此,在大数据应用中,数据和业务的关系还有待突破。大数据要真正成为银行核心生产力要素,需要有一个更接近于前台的数据管理部门,也可以叫数据中台。
二、建行大数据应用发展历程
建行大数据应用建设,始于2011年,经过10年左右的发展,划分为三个阶段。
第一阶段,数据整合阶段,完成企业级数据能力及架构建设(如图1所示)。没有一个核心的数据架构,大数据战略和大数据应用就是空谈。建行在这一阶段的重点工作一是建立统一的数据规范,数据与人不同,由于缺乏语义背景,如果没有统一的标准,它们是无法对话的。因此,要实现数字化流程,业务自动化处理,建立统一的数据规范是最基础的工作。建设银行2011年启动了新一代核心业务系统建设,从2011-2016年,用了6年左右的时间将所有核心业务流程进行了梳理。在这个过程中同步数据治理,规范了约800个数据标准。
二是站在整个数据应用的角度,从员工、客户、参与人、产品、合约、账户、事件、渠道、机构等“九大维度”组织数据,将各个业务流程中沉淀的通用数据作为原料,形成核心数据模型。
这一阶段的核心问题在于数据和业务的矛盾越来越突出。一方面,业务变化越来越快,以前平均6个月推出一个产品,产品的生命周期是5-10年,现在产品的投放周期缩短到几天,生命周期最多6个月,这种情况下很难用一个稳定的数据模型支撑快速变化的业务需求。另一方面,如果数据模型中,数据跟随业务的变化而快速更新,则模型的使用者会无所适从。因此,数据模型中不应该包含所有数据属性,只需要把相对稳定的数据标签组织起来。同时对外提供的数据服务要相对稳定。如何兼顾前端的快速变化和后端的稳定是大数据平台急需解决的问题。
第二阶段:新一代建设阶段,2011-2016年建成了“分区化”平台支撑体系(如图2所示),在这一阶段,建行将数据应用划分为12个分区,逻辑上非常清晰。主要工作一是实现数据规范在前端逐渐落地,保证了数据整合的效率。前端数据标准化之前,后端数据仓库的数据整合时间约为T+10天,标准化之后缩短至T+2~T+3天;二是引入实时数据仓库概念,金融行业和互联网行业的一个很大的差别是,互联网的各个渠道是相通的,比如通过百度搜索一双鞋,则京东或者淘宝很可能会根据这个搜索动作给用户推荐相关产品,但银行不是这样,通过电话银行修改过的信息,网点并不能同步修改。问题出在数据需要先存储到后端,再反馈到网点,中间会有一段时间的延迟。为了解决这个问题,我们在数据平台上增加了一个实时交换区。
第三阶段:后新一代阶段,建立新业态下的大数据云平台(如图3所示)。“后新一代”将建立新业态下的大数据云平台,以“云化+组件化+平台化”IT架构支撑,实现“响应国家战略,向社会提供公共云技术服务;支持普惠金融、金融科技、住房租赁三大战略相关项目建设;利用大数据技术进行传统业务的创新发展;为人工智能等新兴技术提供大数据技术支撑”的发展目标。
普惠金融战略中的两个代表性的产品,“快贷”和“速汇通”,分别针对个人和企业实现快速放贷,实时交换区部分解决了数据实时同步的问题,但敏捷性上还有欠缺,无法满足秒级放贷需求,大数据云平台架构通过对新一代的技术升级,实现从分区结构向组件构成演进。
上述三个阶段描绘了建行“数据承载业务-数据支撑业务-数据驱动业务”的数据价值发现演进路线:从早期的报表型的单一数据,被动接收数据,凭借经验决策;到分析型的部分整合数据、优化查询工具,满足分析需求;再到智慧导向型的海量数据、高效便捷的数据应用环境,基于数据进行决策,利用信息创造价值。
三、关于银行大数据应用的思考
1.打造数据驱动的银行
有观点认为数据驱动或是大数据应用是全行建设一个大而全的数据分析中心,承担所有数据分析的工作,并将结果提供给前端业务人员,前端人员只负责执行。而实际上,随着简单的存贷业务后台化,网点和柜面工作人员等面临的是客户个性化的服务需求,标准化的操作越来越少,需要前端人员具备随需而变的能力。因此,要真正实现数据驱动,需要让前端人员变成一个个决策点,在后台实时数据支持下,可以根据实际情况和场景进行判断和决策。
概括而言,实现数据驱动需要克服两大障碍:一是文化的问题。从前段时间各家银行ETC推广策略不难看出,银行还停留在量化指标驱动阶段,总行制定业务目标,再分解到各个业务部门、各分行、支行、网点......诸如决策仪表盘,各种业务模型对应的也是众多指标,而数据驱动不等同于量化指标驱动,在大数据平台上应该分拆来做。二是现有的系统还不够开放,有时候银行是以安全的名义去做封闭的事情,未来银行一定要有一个开放的心态,积极拥抱新技术。
2. 数据架构的技术趋势
图4为新一代技术架构所采用的技术,主要采用成熟工具产品,图5为后新一代大数据云平台技术,由成熟产品向互联网开源技术转型。
未来,银行数据架构将是云支撑的大数据平台与人工智能平台双引擎驱动,大数据平台提供规则化的数据分析挖掘服务,通过专家方式发现并固化数据规律,总结提炼出规则发现业务规律;人工智能平台提供机器学习(深度学习)的方法,基于大数据通过算法来进行特征工程和训练,发现和总结数据的业务规律;从最终用户角度看,人工智能技术降低了从海量数据中发现并总结业务规律的难度。
来源:公众号:金科创新社