8月11日,平安银行一项名为“银行业务中大模型的微调方法、装置、设备及存储介质”的专利公布。其申请于2023年6月5日,涉及人工智能技术领域。
摘要显示,方法包括:接收银行业务中的场合请求,场合请求包括银行业务中需要处理的数据类型;根据数据类型和场合请求选择对应的大模型和构建微调辅助模型,将微调辅助模型接入大模型;接收已标注的数据样本,输入大模型和微调辅助模型,固定大模型的第一参数,对微调辅助模型进行训练;训练至大模型和微调辅助模型收敛时,将微调辅助模型的第二参数发送至大模型;根据微调辅助模型的第二参数对大模型进行微调(步骤A,下有详述)。
更具体的,微调辅助模型包括编码器和解码器,编码器用于提取数据类型中的目标特征信息,解码器用于从目标特征信息中还原出目标场合信息。
(步骤A)具体包括:根据第二参数将微调辅助模型中编码器提取的目标特征信息添加至大模型中相应的位置(步骤B,下有详述);根据第二参数将微调辅助模型中解码器输出的目标场合信息添加至大模型中相应的位置(步骤D,下有详述)。
(步骤B)具体包括:将微调辅助模型中的编码器接入大模型中对应的编码器中;将微调辅助模型中编码器的目标特征信息叠加至大模型对应的编码器的相应位置
(步骤C,下有详述)。(步骤C)则具体为:将微调辅助模型中编码器输出的目标特征信息叠加至大模型中对应编码器输出的目标特征信息。
之后,需要:将叠加之后的目标特征信息输入大模型中对应的编码器的下一处理器。
而(步骤D)包括:将微调辅助模型中解码器输出的目标场合信息叠加至大模型输出的目标场合信息中。
权利要求书提到,微调辅助模型的损失函数为:大模型的损失函数与防过拟合损失函数的差值,防过拟合损失函数根据微调辅助模型中编码器层和解码器层获取。
该发明的背景为,大模型是人工智能领域的趋势,因其具有较多的参数量,使其在相关场景中能力更鲁棒。但是大模型,训练成本极高,不是所有公司都有资源和能力对其进行训练。因此针对大模型的微调方法,活跃在学术圈。
由于银行数据对安全性有很高的要求,所以无法提供给外部进行大模型的训练,虽然已经有不少大模型出现,但是不同场景仍然需要对大模型的实现进行调整和改进。因此,微调技术在银行业大模型落地中得到广泛应用。
该发明实现通过少量数据对大模型的微调,降低了大模型在银行业不同领域进行应用时的训练成本,推动大模型在银行业的应用,使银行业务的服务更优质便捷和数字化。
来源:移动支付网