【环球热闻】大模型试水投研场景,如何防止“一本正经地胡说八道”
21世纪经济报道记者 陈植 上海报道
AI大模型技术正应用在越来越多金融场景。
(资料图)
仅仅在投研提效领域,多个大模型产品悄然面世。
近日,恒生聚源推出基于大模型技术的投研工具平台WarrenQ,致力于重新赋能“搜、读、算、写”的投研全流程场景,进一步提升投研效率。
与此同时,多家金融科技平台也推出基于大模型的投研提效工具,即在通用大模型基础上引入指令微调或提示工程,自动生成各类报告与图表摘要,提升投研人员的信息获取效率。
一位券商投研人员向记者透露,目前他们正在测试多款大模型投研工具的性能。
“整体而言,这类产品若要显著提升投研效率,还需解决诸多实际操作瓶颈,比如大模型技术自动生成的信息是否具有即时性、能否做到信息溯源、是否支持二次编辑与多人协同工作,能否一键快速分享等。”他告诉记者。尽管当前大模型投研工具的技术路径不一,但他们通过测试发现,具备自主庞大数据库与良好大模型训练成效的相关工具更受欢迎,因为它不但精准快速解决投研人员的个性化信息收集检索要求,还能方便投研人员轻松进行内容加工,进而大幅提升投研效率。
恒生电子董事长刘曙峰向记者表示,尽管大模型技术带来“语控万物”、“大才能强”等变化,但在金融垂直领域,其应用仍面临知识信息时效性、数据安全与隐私保护、具体应用支持等方面的局限。因此,金融行业需建设行业大模型以承接垂直领域的特定需求。
“未来,金融行业大模型能落地的场景非常多,除了投研,还有投顾、客服、运营、合规、交易等。但它的应用难点在于协同,特别是数据协同,各种数据如何打通,将是非常具体且困难的问题。”他指出。因此,金融机构要部署应用大模型,需从选模型、估规模、建场景三大步骤入手,构建金融行业大模型与基于大模型的全新数智产品,为金融行业应用大模型提供新范式。
防止大模型“一本正经地胡说八道”AI大模型技术正悄然“改变”投研生态。
有机构调研显示,在投研领域,众多金融机构面临诸多痛点瓶颈——60%分析师遇到数据碎片、数据孤岛、投研工具繁杂等困扰;50%基金经理遇到信息爆炸、重点信息不突出等挑战;80% 金融机构管理层感到研究团队不透明,知识沉淀难等问题。
于是,越来越多金融科技平台寄希望大模型技术破解这些投研痛点瓶颈。
当前,大模型投研工具主要分成两类,一是在现有通用大模型GPT4.0基础上直接引入“提示工程”与“指令微调”,以此自动生成上市公司公告财报要点信息与行业报告核心内容,提升投研人员信息获取效率;二是“从头做起”——将自身数据库通过大模型技术进行大量预训练,再引入指令精调与提示工程技术,让自动生成的内容能进一步满足投研人员的个性化信息检索收集需求。
记者多方了解到,投研人员最担忧大模型投研工具会产生两大问题,一是一本正经地“胡说八道”,二是自动生成的相关内容明显“过时”,无法满足投研建模要求。
要解决上述两大问题,绝非易事。
恒生聚源副总经理白雪告诉记者,为了满足数据即时性要求,WarrenQ在数据层与模型层的基础上,加入涵盖NL2SQL、搜索接口、指标计算、向量数据库等插件层,确保大模型产品能即时调用最新的数据以反映最新的金融市场动态与行业变化趋势等。
记者获悉,要防止大模型“一本正经地胡说八道”,金融科技机构还需开展大量预训练与指令微调。比如在预训练环节,大模型时常会“自由发挥”,自动生成很多“天马行空式”的内容信息,于是开发人员通过不断调整指令与反复预训练,教会大模型如何正确识别提问语义与自动生成相应的专业精确回答,确保大模型能不再“答非所问”。
此外,大模型投研工具能否具备“实用性”,还在于它是否具备支持查看原文、研报图表抽取、OCR识别、支持二次编辑、文档信息挖掘等功能。
白雪告诉记者,针对投研环节的数据分析与智能处理实际需求,WarrenQ推出了两款AI工具,分别是WarrenQ-Chat和ChatMiner。前者主要借助大模型叠加搜索与恒生聚源金融数据库,通过对话指令,帮助投研人员高效获取金融行情、资讯和数据,且每一句自动生成的对话都支持原文溯源,还可以生成金融专业报表,从而将传统投研的“搜读算写”流程转变成“Chat读算写”,提升投研人员的信息获取效率;后者则主要发挥金融文档挖掘器功能——即大模型和向量数据库会根据投研人员个性化需求,对相关文档进行快速解读与精准检索定位,自动生成提取关键信息,提升投研人员对海量文本数据的整合归纳提炼效率。
一位正研发大模型投研工具的金融科技平台人士向记者直言,其研发难度远远超过预期。仅在数据库建设、大模型技术选用、大模型预训练等方面,企业都走过不少弯路,
“这背后,是金融科技平台需全方位比拼数据、算力与算法。只有数据库越全越庞大、算力更强、算法模型更高效的大模型投研工具才有望脱颖而出。”他直言。
在白雪看来,大模型时代的产品化服务与落地,可以持续做好三件事:一是加强数据获取的精准性、数据更新的即时性;二是提升大模型及其精准的意图识别能力,做到自然语言到数据、自然语言到指令的精确映射,即“语控万数”、“语控万物”;三是用好向量数据库,将私域知识库与大模型结合起来做好产品与服务。
金融行业大模型的征途在多位业内人士看来,AI大模型技术能否成功应用在投研、投顾、客服、运营、合规、交易等金融场景,另一个关键成败因素是金融科技平台能否构建专业的金融行业大模型。
一位奇富科技人士指出,金融行业因其行业特殊性,对训练数据质量、模型生成效果、数据安全合规等方面有着更高要求。首先,金融行业大模型需全面掌握金融专业术语,理解客户意图,在与客户对话过程能精确提取线索(即客户想了解的信息),并给出兼顾专业性与合规性的应答;其次,金融行业大模型必须在准确性和适用性两个方面做到极致,因为在金融领域,大模型自动生成的内容是不能出现“任何错误”的。
在他看来,要实现上述要求,金融科技平台需向金融行业大模型注入足够全面庞大的数据进行反复预训练,才能实现“回答精确”与“话术合规”。
“公司在信贷领域所积累的逾5000万份征信报告及解读、月均逾350万的用户深度对话,以及涵盖900多个行业、逾3000个标签属性的逾1600万家企业金融行为数据,加之所衍生的知识图谱与专业知识,都被纳入金融行业大模型的数据基础。”这位奇富科技人士向记者直言。
恒生电子首席科学家白硕告诉记者,金融行业大模型的研发,的确离不开庞大的金融数据支撑。恒生电子所打造的金融行业大模型LightGPT已使用逾4000亿tokens的金融领域数据(包括资讯、公告、研报、结构化数据等)、以及逾400亿tokens的语种强化数据(包括金融教材、金融百科、政府报告、法规条例等),并以此作为大模型二次预训练的“语料”,支持逾80项金融专属任务指令微调,进一步提升金融行业大模型的准确理解能力。
白雪告诉记者,大模型投研工具的研发成败,很大程度取决于“语料”的丰富度与专业性。因为投研人员都希望自动生成的内容信息能尽可能多地涵盖当前市场各种动态与观点,这都需要金融科技平台不断向大模型注入最新的各类精准的金融语料,并实时链接映射到数据库,令大模型投研工具自动生成的内容能最大限度“与时俱进”。
值得注意的是,一个行之有效的金融行业大模型光有庞大专业的数据库是不够的——除了与之配套的算力算法等金融基础设施,它还需解决诸多挑战,包括能否做到轻量化部署、能否在金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码能力等金融大模型能力评测领域取得不俗表现,并保证内容和指令的合规安全等。
上述金融科技平台人士向记者透露,这令众多金融机构倍感压力——若在传统AI模型基础上研发金融行业大模型,几乎是很难完成的任务。因为传统AI模型与大模型技术在数据、模型、模型开发方式、业务应用、适用场景及成本等方面完全“不同”——相比传统AI模型的作坊式操作、研发周期长、通用性低等特点,大模型技术开创性地提出预训练模式,以流水线的模型开发方式可泛化多应用场景,实现高通用性。
“两者截然不同的特点,预示着金融机构需要持续投入大量资金资源,持续强化金融行业大模型的预训练成效,才能令它更精准高效地匹配投研、投顾、客服、运营、合规、交易等金融场景各类业务需求。”他直言。
白硕告诉记者,目前LightGPT计划在9月底完成新一轮的金融能力升级,并支持金融机构通过私域任务数据定制化“精调”大模型,从而打造机构专属的大模型,满足个性化需求。
在刘曙峰看来,在大模型时代,“数据+算法+算力”正构成新范式的基本要素。金融行业更需促进大模型产业上下游合作,为金融数智化提供更强有力的技术支撑。
关键词:
- 【环球热闻】大模型试水投研场景,如何防止“一本正经地胡说八道”(2023-07-04 11:00:48)
- 环球热资讯!战高温保供电 应对今夏用电高峰(2023-07-04 11:03:42)
- 突发!国际原油市场大消息,两大产油国沙特、俄罗斯先后宣布减产!数星期内美国市场无成品油出货景象再现?|环球最资讯(2023-07-04 11:08:19)
- 这份消暑津贴请收下!增材云3D模型有奖征集活动开启,快来参与._天天简讯(2023-07-04 11:10:24)
- 个股走势分化,创新药ETF(159992)震荡回调现跌0.6%(2023-07-04 10:57:28)
- 要闻:美团落子泛娱乐(2023-07-04 11:03:22)
- 【读财报】主动权益基金半年考:超四成实现正收益 高“AI含量”产品收益率靠前-环球消息(2023-07-04 11:04:53)
- 2023云边协同大会在京召开,重磅发布多项成果(2023-07-04 11:07:49)
- 三门峡考区2022年初中级经济师资格证书领取通知(2023-07-04 10:59:02)
- 8月4号到今天一共多少天_8月4号|世界快讯(2023-07-04 11:00:44)
- 听云南 | 怒江傈僳族“刮克”舞 是傈僳族的民间瑰宝之一|天天速递(2023-07-04 11:01:25)
- 炒股黄金期货分析(国际黄金期货实时行情分析) 每日报道(2023-07-04 10:57:45)
- 每日看点!赛力斯汽车与华为共同决定成立“AITO问界销服联合工作组”(2023-07-04 10:56:32)
- 新天药业:第二季度“新天转债”转股约1.06万股(2023-07-04 10:52:32)
- 儿童元旦节目(元旦节目)|天天最资讯(2023-07-04 10:52:01)
- 汽车流通协会:6月中国汽车经销商库存预警指数为54% 同比上升4.5个百分点|环球热点(2023-07-04 10:50:17)
- 【环球速看料】微信关闭账号保护功能在哪里_微信关闭账号保护(2023-07-04 11:04:15)
- 星汉灿烂电视剧原著(星汉灿烂原著小说什么时候发布的)_世界快资讯(2023-07-04 10:53:53)
- 天天滚动:小米k50开发者选项怎么打开(小米note3开发者选项在)(2023-07-04 10:56:29)
- 医疗卫生信息化龙头卫宁健康董事长被留置,公司股票跌停(2023-07-04 10:52:35)
- 罗博特科:公司现有的铜电镀设备不能用于复合集流体产业链环节 目前公司尚未开发复合集流体产业链客户 今日最新(2023-07-04 10:45:36)
- 20多国递出申请,都在等中国回话,阿根廷债务到期:想用人民币还|环球即时(2023-07-04 10:57:08)
- 立中集团7月4日盘中涨幅达5%-焦点关注(2023-07-04 10:45:33)
- 河北燕赵健康保和冀惠保2021版区别 哪个好?-最新(2023-07-04 10:43:43)
- 高温难阻铁路暑运攀高 当前热文(2023-07-04 10:49:32)
- 环球观点:f1车队有哪些2021_f1奔驰车队最近怎么这么厉害(2023-07-04 10:40:13)
- 年终总结报告个人工作_一周工作总结报告(2023-07-04 10:42:16)
- 2023新一代信息技术桌面云创新发展论坛成功举办(2023-07-04 10:47:22)
- 法系不死只是凋零!雷诺或以进口身份重新回归中国(2023-07-04 10:49:44)
- 西部矿业: 公司不掌握控股股东的具体增持计划及决策情况 要闻速递(2023-07-04 10:35:41)
-
每日看点!赛力斯汽车与华为共同决定成立“A
7月3日讯:就在前两天,AITO汽车发布了AITO问界销服联合工作组致全体伙
-
新天药业:第二季度“新天转债”转股约1.06
新天药业(SZ002873,收盘价:13 57元)7月3日晚间发布公告称,2023年
-
儿童元旦节目(元旦节目)|天天最资讯
导读1、元旦晚会节目有:集体舞人多的情况下跳集体舞最好不过了,避免
-
汽车流通协会:6月中国汽车经销商库存预警
6月30日,中国汽车流通协会发布的最新一期“中国汽车经销商库存预警指
-
【环球速看料】微信关闭账号保护功能在哪里
1、可以关闭的,但是要你微信中的一个以上的好友发个验证码个你的微信
-
星汉灿烂电视剧原著(星汉灿烂原著小说什么
星汉灿烂小说原著名为《星汉灿烂,幸甚至哉》,是晋江文学城签约作者关
-
天天滚动:小米k50开发者选项怎么打开(小米
来为大家解答以上的问题。小米k50开发者选项怎么打开,小米note3开发者
-
医疗卫生信息化龙头卫宁健康董事长被留置,
中新网7月3日电(中新财经记者谢艺观)7月3日,医疗卫生信息化龙头企业卫
-
罗博特科:公司现有的铜电镀设备不能用于复
每经AI快讯,有投资者在投资者互动平台提问:尊敬的董秘您好,公司电镀
-
20多国递出申请,都在等中国回话,阿根廷债
在当前的全球经济大棋局中,美元的全球主导地位和其对全球经济的深度影
- 滚动
- 综合
- 房产