蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - III
此前,我们已经介绍了这篇报告的第二部分。大家可以在前几篇找到 Transformer,Attention。还有投喂大模型的 Prompt。这里开始第三章,行业大模型在金融领域的应用框架。请看目录。
2.3 行业大模型在金融领域的应用框架
(1)应用框架
基本思想:
第一,请求的时候使用的是 Prompt,正如举例子的那样;响应的时候,是 LLM 生成的内容。
第二,输入输出的时候,都有安全组件,做一波筛选。
第三,核心是“金融行业大模型”叠加若干个智能体。
第四,边缘方面。输入的时候,是信息检索、答案生成、知识库这些作为支持;输出的时候,工具调用、调用结果,知识库作为支持。
(2)金融知识库
大模型通过集成检索增强生成技术可显著提升其性能。检索增强技术,即 Retrieval-Augmented Generation(简称 RAG),结合了信息检索和答案生成两个步骤。
首先,创建一个全面的金融知识库。涵盖历史金融数据、最新市场动态、研究报告、市场分析等内容。
其次,将这些信息转化为高纬度的向量,主要为了计算相似性。向量搜索算法包括 FAISS,都能从知识库总,迅速准确地检索信息。最终都是调整成 Prompt 的形式,输送到模型。
那么这类知识库搜索,有什么好处?
最显而易见的,是降低模型误判的概率。知识库本身就是一个大类,已经带有很强相关的信息。
金融领域包含哪些信息?
一般而言,金融领域知识库可包括行情类(如新闻资讯、热带事件)、投教百科知识类、专业内容(如研报)、董监高事实类(如基金经理、董监高等)等知识,在经过知识加工(如拆条、标题生成、实体识别、时效判别、向量表达等)后更新到知识库中。
金融大模型的作用,对上述原始数据进行建模,生成包括但不限于意图识别、时效识别、关键词识别等等,这些处理之后数据,是被检索的。用户通过查询(Query)发起请求,上述处理后的数据,以数值形式输出,输出的多了,就变成知识向量条目。这时候,还会搭建一个融合模型,即 Stacking,再输出一个融合模型的输出,也称“答案”。
这些答案可以帮助大模型降低产生错误或虚构的信息的概率,即降低“幻觉”概率。实时或定期刷新知识库,保证库中的向量表示的是最新的信息,保证时效性。上下文敏感的检索机制,是另一个模型,用以辅助支持输出的“答案”的可靠程度,保证回答不仅基于客观事实,而且与用户查询的具体上下文紧密相关。
举个例子,用户提问“巴菲特为什么减持比亚迪?”。
首先,大模型识别任务需求,判断是否需要调用知识库。
如果需要调用,则去知识库检索多篇相关资讯,获取最相关答案。
最后,大模型将所有信息进行融合,作为输入的 Prompt,通过逻辑和表达等方法,生成最后的答案。
(3)金融工具库
金融工具库,其作用是用以弥补金融指令的不足的。当前大模型处理逻辑推理和高度专业化、高复杂化的金融指令时,是存在不足的,而这些问题,由工具库搜集,并进行快速响应。
金融工具库通常包括金融计算器、实时股票和基金查询系统、基金经理分析工具以及投资组合诊断工具等。这些工具的辅助信息,帮助大模型更好地理解指令。特别是涉及专业金融知识和数据处理的。例如,实时股票信息查询,又如,复杂的财务计算。凡此之类的。
大模型如何学会调用工具的?
第一,针对输入的 Prompt,大模型针对经过意图识别、实体抽取后进行需求分析,模型会先判断需求的边界,自己是否能处理。以决定是否需要调用外部工具,如果需要调用工具,模型会进入决策阶段,选取工具,构造合适的 API 访问金融工具。使用工具期间,模型可以多次调用获取权限的 API。
上述能力,可以通过工程策略,或对模型进行专门训练,训练模型正确使用工具。
举个例子,用户查股票价格,模型是查询来的价格,方法就是调用工具库。如果用户要计算近利润,模型会使用金融计算器,辅助这一任务完成。
(4)安全围栏工具
模型应用的前提是安全合规,特别是在金融这类非常严格的领域。例如,没有相应牌照的情况下,模型不得进行基金推荐服务,不得采用明显的销售推广话术,也不得传播有悖金融价值观的信息。其他禁止的行为包括:隐私风险、模型攻击、缺乏可解释性、缺乏可溯源性、以及有害内容生成等。
提升模型原生安全的措施包括:
第一,对安全指令增强训练。增强模型对复杂道德问题、金融合规要求的理解,减少误解风险。
第二,安全围栏的含义,通过智能化风控技术,可以帮助抵挡恶意提问,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。
输入内容时候,安全组件对服务请求进行分析,筛选敏感或不合规内容,并采用模糊匹配和深度模型深入理解上下文,以识别安全风险(例如非金融相关查询)并在必要时拦截请求。
输出时候,安全组件负责监控和审查模型的响应,通过实时监测,在线风控大模型部署或正则策略以及离线安全改写机制,确保输出内容的金融合规性。
方法,模糊匹配,深入理解上下文,安全组件监控模型,审查模型,正则策略,离线安全改写机制。这些模型是如何搭建起来的?
(5)多智能体协同
我们知道智能体是大模型外延的组件,这里分了几大类。
第一,任务分配问题。确保每个智能体领到的子任务与其能力相适应。
第二,策略协商问题。与其他智能体交互、协商,形成方案,注意,是统一协调的方案。
第三,信息共享问题。共享时候,要注意信息的不一致、不可靠、不完整等问题。
多智能体的框架,基于 4E 原则,即 Engineering, Executing, Expressing, Evaluating。
具体做法:设计框架 - 搜集数据、推理,形成答案 - 执行,优化 - 检查准确合理性。
框架的存在,使得大模型可应用于解读金融市场热点、债券舆情分析、政策解读等各类问题。为人类大脑工作原理的理解和模拟提供了新的思路,为生成式模型在金融行业的落地发展打开了新的视角。
(6)案例:巴菲特减持比亚迪股份
背景:2023 年 1 月,金融市场上出现了值得关注的大事件:巴菲特透过港交所权益披露信息,显示其半年内累计减持比亚迪股份超过 7000 万股。此举涉及的资金高达 150 亿港元,引起了市场和投资者的广泛猜测和讨论。这一决策背后的原因成为了分析的焦点。
Engineering。:巴菲特对于投资的理念和原则是什么?他注重什么样的投资机会?比亚迪的业务状况和财务表现如何?公司的内在价值是如何评估的?巴菲特为什么选择在2008年金融危机后买入比亚迪股票?他持有比亚迪股票的原因是什么?
Executing。针对巴菲特的投资理念和原则,执行节点会去搜索相关金融知识库关于巴菲特的咨询新闻,并通过大模型
的理解生成能力总结出一个初步答案。针对比亚迪的财务状况,则可以通过调用专业金融工具库查询企业 2008 年后的相关营收,利润等具体财务咨询,并通过大模型的分析能力进行总结。
Expressing。通常是报告,包含巴菲特减持比亚迪的潜在原因:比亚迪股价与内在价值的关系变化、比亚迪与其他新能源竞争对手的竞争力比较、以及巴菲特可能的资产配置调整逻辑。
Evaluating。检查所得出结论的合理性、准确性,以及是否全面覆盖了影响巴菲特投资决策的所有潜在因素。模型给出的答案,是否切中要害地回答了问题,答案本身是否有逻辑硬伤。这些问题,要能识别并且改写。
2.4 大模型的应用实践
这一个小节,几乎是原文。
(1)投研
随着财富管理行业的快速增长和普惠化,投研所需要的报告来不及写,对于数据的准确性也提出挑战。
蚂蚁集团支小助通过自动化采集,将研报、新闻、分析师音视频素材输入大模型,借助大模型的多模态理解能力,通过观点归纳和数据结构化,协助工作人员完成市场的高效解读。
支小助投研版的实测数据表明,其每日可辅助每位投研分析师高质量地完成超过100+篇研报和资讯的金融逻辑和观点提取,完成 50+金融事件的推理和归因,并将典型的量化分析任务的效率从天级别提升到小时级别,带来了明显的生产力提升。
(2)保险
“蚂蚁保”在销售时候非常受欢迎,但是理赔运营成本高企。主要由于医疗凭证多、专业,为用户提交材料带来了困难,人工审查时间也变长了,影响结案周期。
解决方法,建设了高精度的“自动化信息提取”和“自动化核赔”双智能引擎。
自动化信息提取通过融合文档的图像、版面以及文字信息,构建高精度的自动化信息提取平台,实现材料分类、材料去重、凭证归档、凭证 KV 提取、票据表格识别等功能模块。
自动化核赔通过将借助十万级典型理赔案件提取信息和结论,构造了高精度核赔决策模型。进行自动化核赔时,核赔决策模型首先针对用户上传的理赔材料,利用自然语言处理技术,进行关键信息(时间、诊断、手术、既往症、医院等)的实体识别、关系抽取和并按医疗事件进行组装,从而形成结构化的理赔案件。
通过大模型的 CoT 逻辑思维链能力,该系统能够快速准确地判断理赔申请的有效性,避免人工审核中可能出现的主观性和误判。此外,与传统的基于分类的黑箱模型不同的是,本系统不仅能够给出核赔结论,在需要拒赔时还能够给出具体的拒赔原因。“保险理赔凭证识别和保险医学 NLP 引擎”可以作为健康险两核、保顾、健康服务等多个场景辅助甚至部分高发常规案例辅助医学背景业务专家高效诊断。
(3)个人金融智能助理
大模型在其中的应用则聚焦在非持牌的金融资讯推荐和投教知识上,但智能理财助理要完全替代人工金融专家仍面临一系列挑战。这些挑战包括金融信息过载、复杂金融任务拆解、专业术语晦涩,缺乏个性化投资建议等问题。
针对通用大模型专业金融知识缺失的问题,应用在智能理财助理中的大模型引入了可信、多元、实时的泛金融内容和知识,构建起百亿级别 Token 级别的通用+蚂蚁金融语料并通过模型知识注入与信息检索赋予智能理财助理兼具广度和深度的“知识力”。
金融行业的复杂性与用户期望的简明性之间存在着巨大的差距。为了弥合这一鸿沟,支小宝智能理财助理应用通过扩展上下文窗口至 32K,以深入理解用户意图,实现更连贯的多轮对话;通过构建对话仿真工具,蚂蚁内部训练了对话仿真工具,模拟专业理财专家与用户的对话,提升其理财领域语言能力; 针对通用大模型在金融领域应用面临的安全性及合规性问题,蚂蚁聘请超过 100 名金融专家对生成内容在隐私保护、合规表达、内容安全、上下文关联等多个维度评估,使用基于人类反馈的 RLHF 让大模型对齐金融业务的合规需求,并通过后置校验的方式保障安全底线及输出内容的合规性,在数据,模型,输出层面建起了“安全防护围栏”。
(4)个人金融智能助理
在合同合规性审查领域,合同要素提取起着至关重要的作用。
合同要素提取的一个重要挑战是,不同合同的抽取字段各不相同,且某些字段的训练样本稀少甚至完全缺失。为应对这一挑战,上财课题组提出了“零样本要素提取”,旨在使模型具备对任意字段的抽取能力,即使从未见过的字段,能够采集。
为了提高要素提取的准确率,上财课题组结合人工标注数据,训练了一款支持“零样本要素提取”的大语言模型。此外,为了增加模型对于“表格型数据”的理解能力,增加了训练数据中【表格内容】的字段比例,提高了训练数据的质量。
要素提取大模型在测试数据集上的综合准确率达到了 85%,相较于 ChatGPT 3.5 的53% 准确率,有了显著提升。
对于金融和合同管理领域的组织而言,这意味着模型将提供更高效和可靠的合同合规性审查支持,从而降低潜在的法律风险和合同纠纷的发生。
参考文献
[1] 极市平台-ExtremeMart(2023),图解大模型计算加速系列:Flash Attention V1,从硬件到计算逻辑,极市平台