廖晓格:平安银行在大数据平台的实践经验
1.金融大数据平台总体架构
银行拥有大量具有及高价值的数据,但是这些数据往往存在于不同的业务线上,由于收集标准不统一、统计标准不统一和部门权限问题等问题,造成了有数不能用。
在廖晓格看来,大数据平台就是通过整合全域数据,统一标准、口径和加工模式,打造便捷共享的中台数据支撑体系。将复杂的大数据处理技术封装起来,将数据以服务API的方式提供给前台应用,提升开发效率,降低开发难度,提升业务运行效率。
大数据平台分为数据中台和数据后台。数据后台分为基础平台和基础数据。基础平台包括大数据平台能力、AI基础平台和核心组件。
数据后台往上是数据中台,包括数据应用和数据产品,赋能给相应的场景和业务。数据产品包括知识图谱、银行统一知识库、用户行为系统和时空分析等等。数据应用则包括智能营销、智能风控以及智能体验和服务。
数据流总体架构是大数据平台总结架构中非常重要的一部分。廖晓格表示,目前银行有多个数据源,包括行内数据、集团数据、外联数据和互联网数据,平安通过不同的方式进行数据采集,包括Sqoop、Filebeat、Timeline等等。采集到的数据将会被传输进大数据平台进行处理、储存。
2.基础平台建设
廖晓格介绍,平安银行大数据基础平台建设是基于开源大数据组件,支持PB级别大数据海量存储和计算,支持大数据KV存储,Document存储及查询,支持海量大数据实时计算。
该大数据基础平台总容量50PB,日新增数据100T,包括金融数据、非金融数据、用户行为、网站爬虫数据等等,日计算Job 50万+,日服务800+用户。
廖晓格表示,由于金融数据是强敏感数据,因此平安银行建立了统一的脱敏平台,将数据进行脱敏之后,再通过可视化界面进行展示。在平台建设及扩容过程中,需要组建平台核心团队,深入理解组件功能,对平台能力进行快速优化。
在HDFS优化中,平安银行团队降低NameNode RPC压力,独立日志节点,balancer请求到namenode standby节点,未来将引进NameNode Federation联邦,并吧hive临时文件写到日志集群。
在Elasticsearch优化中,平安银行团队通过Spark离线构建Elasticsearch索引,再导入ES集群,解决Elasticsearch导入慢,写压力过大影响集群性能,未来将会跟Z+数据调度平台整合,并开放给用户使用。
安全是大数据平台的基础,廖晓格表示,金融大数据平台要处理海量的敏感数据,如何做到数据安全,保证敏感数据得到安全的使用?如何判断作业权限?如何报警查询作业?等问题都是需要解决的。
为了解决这些问题,平安银行做了很多工作。在安全架构方面,平安银行团队通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段,判断用户权限,返回用户对应的脱敏数据。
在执行流程上,首先判断是否具有权限,其次判断是否需要脱敏,采集团队会在原始层标注敏感字段,根据原始标注的脱敏字段进行字段血缘分析,将下游依赖原始脱敏字段的敏感字段添加到元数据脱敏库里面。
这样将会有效减少人工标注的工作,也将提高标注的准确率。
3.核心服务架构
廖晓格接下来对金融大数据平台的核心平台进行了介绍。其中包括三个部分:Z+调度平台、E+决策引擎和AI Cloud算法平台。
Z+调度平台是数据离线计算平台,支持多租户,数据的搬运工;E+决策引擎是数据实时计算平台,支持多租户,构建业务系统的变量中心及规则引擎;AI Cloud算法平台是数据模型训练平台,通过模型开发,训练,部署,并提供算法API服务。
廖晓格首先介绍了大数据开发平台,他表示,在大数据平台上每天会有大量的作业同时进行,因为必须要对平台上的作业进行管理。
该平台可以提供作业增删改查、作业上线流程、作业数据自动化测试、作业元数据信息管理、历史变更记录、作业资源管理等等能力。平台可以自动识别上下游作业依赖关系,实时刷新依赖关系,支持作业失败自动重试,设置作业生命周期,设置作业执行引擎。
整个平台支持将数据库(Mysql,Oracle),Elasticsearch,Hive,File,Redis等存储之间数据互相转换,支持数据应用研发。
4.四大类型数据中台服务
一个大数据平台是否好用,还是要看其数据中台服务能力。平安银行团队将数据中台的服务定义成四种类型:明细查询、标签服务、事件中心、图谱查询。四大类型的服务包括多个功能。
廖晓格对四大类型服务都做了详细的介绍。其中标签服务是通过标签系统完成,该系统通过整合行内外用户数据,建立银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。
事件中心则是通过对用户行为来定义用户的断点。比如用户在App上购买某产品失败,系统就会将该事件定义为断点,并反馈给客服,由客服向用户提供沟通服务,帮助用户完成业务。
图谱查询目前已经做到服务实体100+,关系类型300+,全网数据量达到800亿+,单次分析达到500个种子节点。
其中基于知识图谱的大数据可视化分析平台,可应用于金融场景下的反欺诈、贷后监控、群体案件排查和失联查找等。基于逻辑图库(Elasticsearch,关系数据库)等存储,支持海量图数据查询,支持基于图关系快速建模。
廖晓格表示,在未来团队将会对大数据平台进行升级,完成hadoop3.0升级,引入新组件,提高计算和存储性能,进行扩容,灾备机房建设。
在数据治理方面,将打造数据安全、高质量、数据标准化平台,让数据转化成知识和智慧,让数据成为生产力。在数据决策方面,要提炼数据知识,让大数据发挥智能决策能力打造公司数据知识大脑,利用实时流式计算,快速业务决策及营销。
(来自:移动支付网)