雷锋网 (大众号:雷锋网) AI金融评论按:什么是知识图谱?复杂的说,知识图谱是信息(实体)自身以及信息(实体)之间的关联,是计算机完成智能的根底。知识图谱之于计算机,就好比知识之于人类,而金融行业的特点决议了其对金融知识图谱的刚性需求。此文为整理业内专业人士观念分享。
深度剖析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争
人类天生擅长将信息停止分类、关联,但并不擅长记忆、处置海量碎片化的信息,但计算机可以。所以以后越来越多的AI创业公司开端努力于攻克构建知识图谱的底层技术。
不同于拥有少量C端数据的BAT,该范畴的创业公司往往从垂直范畴的企业级效劳切入。目前在国际,金融、法律、医疗、智能客服、安防等行业都曾经有了努力于该范畴知识图谱构建的AI创业公司,但金融行业由于其行业特点将成为该范畴创业最大的蓝海。
图1:知识图谱的构建与使用
半自动化构建知识图谱的代表 数据供给商面临三大痛点
金融行业的特点决议了其对金融知识图谱的刚性需求。
首先,金融行业拥有海量的包括各行各业的数据信息,而且这些信息又以各种方式(如文字、表格、图形等)存储在少量的文档上,这些都是非规范化、碎片化的信息,需求被整理成规范化的、相关联的金融知识图谱,才便于金融从业者运用。
其次,金融行业的地下文档具有一定的法律效应,故关于数据的准确性、时效性有很高的要求。
目前,整理这些数据的任务次要还是由金融数据供给商来完成的。
而其中的明星级代表就是万得(Wind)。它所采用的是数据爬虫技术,从地下渠道第一工夫取得企业工商信息、财务报告等数据,再由少量人工停止整理和分类,以“人力形式”构造化这些信息,再经过万得终端提供应金融从业者运用。万得作为以后最大的金融数据拥有者,经过多年在金融行业中的运营与积聚,拥有了丰厚的金融知识图谱数据以及少量的金融客户,但其知识图谱的构建却是半自动的进程,仍需求人工操作。
这种形式如今看起来似乎没什么成绩,但其中存在三个最大的痛点:
-
第一,数据供给商不可以“实时、矫捷”地提供金融知识图谱。由于半自动化的知识图谱构建技术,需求人工将金融文档中的信息提取出来,快则数小时,慢则好几天,还容易出错。这就无法满足一些对精确性、及时性、无人工等有高要求的使用场景,比方金融监管、秘密文档复核、外部审计等。
-
第二,数据供给商所拥有的知识图谱仅包括了地下数据,少量秘密的、外部的、更为重要的数据不能被内部数据供给商整理成知识图谱。
-
第三,人工无法整理一切数据。以万得为例,由于遭到人工才能限制,其整理的数据仅包括资产负债表、利润表、现金流量表中的次要数据,无法提炼出企业报告中其他上百个表格数据以及隐藏在少量自然文本段落中的信息,而这些信息正是深化剖析该企业的业务和财务情况的底层数据。
简而言之,以万得为代表的数据供给商还不具有实时、片面地“构建知识图谱”的才能和技术,出售的依然是数据自身。
所以,面向企业级效劳的AI创业公司都努力于可以全自动化的构建金融知识图谱,处理上述三大痛点。但是目前该市场还是处于需求大大高过供应的状况,这或许是由于全自动构建知识图谱的这项底层技术实践上在学术界都是一个难点。
全自动化构建知识图谱的中心技术是NLP与CV的交融
人们在阅读金融文档的时分,对其中的自然段落、图表中的信息在很短的工夫内便能了解其中的意思,但关于计算机来说,这两头还有几个转换步骤。
图2:全自动化构建知识图谱的进程
首先,当计算机看到一份金融文档的扫描图片时,看到的仅仅是图片中一切光点所出现的数字矩阵;然后,经过OCR(Optical Character Recognition,光学字符辨认)技术,将庞大的数字矩阵转换成包括字符以及字符的地位信息的矢量文档,比方金融行业最罕见的PDF格式的文档就是矢量化的文档。但是,在此阶段,计算机看到的仅仅是一个一个的文字以及该文字的地位,并不能晓得哪些字符组成了主语,哪些字符是谓语动词,哪些数字是关键信息,文档的哪些局部是表格。
接上去,需求让计算机将这些零散的单个字符组分解金融知识图谱,这就需求用到富格式文档(Richly Formatted Data)处置技术。在这个阶段,就是计算机将零散的字符提炼成信息的阶段,也是技术上的难点。由于各类披露的金融文档出现为富格式文本的方式,包括篇章构造、文字段落、数据表格等各类方式,而计算机关于不同方式的文本需求运用不同的处置技术;同时不同渠道取得的金融文档内容还能够呈现不分歧的中央,这还需求AI模型可以分辨矛盾数据、乐音数据。
所以,想要将这些文档上的字符归结提炼成为规范化的、相关联的、精确的信息,需求AI范畴中的自然言语处置(NLP)技术与计算机视觉深度(CV)的技术的交融。
也就是说,在全自动构成知识图谱的进程中,真正的难点在于计算机如何从含有复杂格式的少量材料中,疾速地“了解”、“读懂”人类言语,甚至是对经过复杂演算的数据后果停止“纠错”。攻破这些技术难点的创业公司就将拥有中心的“技术”竞争力,也就是说它们将不再出售数据自身,而是出售“构建数据”这项技术。而各家创业公司的技术硬实力,将会成为其占领该范畴的真正壁垒。
全自动构建金融知识图谱将使金融机构提升运营效率、浪费合规本钱
当全自动构建知识图谱的技术开端真正浸透到金融机构中,金融行业才干真正完成智能化的飞跃,大幅提升行业运营效率。
图3:全自动构建知识图谱在金融机构及金融监管场景的使用
一方面,假如全自动构建金融知识图谱的数据的技术公有化部署在公司外部,则外部秘密数据的规范化整理、辨认、关联、剖析将可以被计算机替代。其使用场景可以涵盖从外部繁复的文档整理复核任务到外部合规审核。数据显示,中国证监会仅在2017年就作出行政处分决议224件,罚没款金额74.79亿元,同比增长74.74%;而由于其他缘由呈现了纤细错误的财务报告也会让企业成为媒体和大众征伐的对象。假如企业能将合规的审核交给计算机,则企业外部为繁琐文档任务付出的人力本钱、为合规处分付出的经济本钱等等,都将被节省上去。
再就是即使对已地下的金融文档,全自动构建知识图谱的技术也将可以使企业大大延长取得关键信息的工夫。假如是运用内部的数据供给商,从企业年报PDF上网地下,到万得(Wind)的财报数据入库,快则需求几个小时,慢则需求数天。但金融行业不断是分秒都很“贵”的中央,假如能经过全自动知识图谱构建技术让财报数据在2分钟之内即可被金融从业者获取及使用,无疑将大大进步金融机构外部的运营效率。
与此同时,内部数据供给商提供的财报数据往往仅包括资产负债表、利润表、现金流量表里的次要数据信息,无法提炼出隐藏在几百页企业报告中深化剖析该企业的业务和财务情况的底层数据,但这些信息却可以被计算机自动提取。金融行业从业者将可以取得愈加片面、精准的信息。
知识图谱的使用将助力金融监管,监管科技市场前景宽广
另一方面,对金融监管机构而言,基于其特殊性质,关于内部效劳商的介入会愈加慎重。而经过公有化部署全自动构建知识图谱技术效劳,应用外部闭环顺序操作,就可以在尽能够进步数据的保密等级,增加人工直接参与的状况下,及时取得最片面、最精准的规范化大数据。
同时,防备零碎性金融风险不断是我国金融监管的重中之重。经过构建跨行业、跨机构的金融知识图谱,取得规随着中国经济向消费型模式的转型, 电子商务和移动电子商务的快速发展带来了支付行业强劲的增长。范化的、精确无误的、及时通明的以及数量宏大的根底数据或信息,才干让人工智能在海量的数据和信息中自动辨认和预测风险,对分散的数据停止综合剖析以得出行为形式,这将是协助监管机构防备零碎性金融风险最为无效的金融科技。
随着中国银保监会的正式挂牌,中国金融监管进入“一委一行两会”的格式。一致化监管、全体化监管、穿透化监管将成为将来金融监管的主基调,少量跨行业、跨机构的数据将被打通,构建金融知识图谱的技术将成为市场刚需,成为监管科技的重点使用之一。
目前,全球的监管科技市场正处于一个上升阶段,依据市场调研公司Let's talkpayment估计,到2020年,全球范围内监管科技的市场规模将超越1000亿美元。中国也将在这一范畴迎来宽广的市场。
基于此,突破拥有金融大数据的数据效劳商所构建的商业壁垒,在技术层面曾经完成,金融知识图谱的市场竞争也正在从“数据”竞争跨向“技术”竞争的新时代,技术自身才是创业公司的壁垒。拥有中心技术,金融数据自身并不是不可替代。
。