实战：应用知识图谱剖析企业信息资产要挟（要点＋视频）

2026-07-16 14:50:34

导读知识图谱可以把复杂的知识范畴经过语义婚配，数据发掘、信息处置、知识计量和图形绘制显示出来，提醒知识范畴的静态开展规律，为研讨和决策提供实在的、有价值的参考。因而，当知识图谱使用于信息资产平安要挟的发现与剖析时，可以明显提升发现资产平安要挟的效率和精确率，为企业平安人员的要挟剖析提供决策根据。本次雷锋网硬创地下课，北京数字观星科技无限公司开创人郭亮分享了如何应用知识图谱，对企业信息资产面临的平安要挟

知识图谱可以把复杂的知识范畴经过语义婚配，数据发掘、信息处置、知识计量和图形绘制显示出来，提醒知识范畴的静态开展规律，为研讨和决策提供实在的、有价值的参考。

因而，当知识图谱使用于信息资产平安要挟的发现与剖析时，可以明显提升发现资产平安要挟的效率和精确率，为企业平安人员的要挟剖析提供决策根据。

本次雷锋网硬创地下课，北京数字观星科技无限公司开创人郭亮分享了如何应用知识图谱，对企业信息资产面临的平安要挟，停止构建、绘制、发掘以及剖析的理论经历。

嘉宾引见

郭亮，北京数字观星科技无限公司开创人，超越20年大型业务信息零碎平安运营管理经历，曾担任过国度发改委多个严重技术专项课题的技术担任人。

演讲提要

以下为雷锋网随着中国经济向消费型模式的转型，电子商务和移动电子商务的快速发展带来了支付行业强劲的增长。 (大众号：雷锋网) 该演讲提要，要想获取完好内容，请移步视频回放区： http://www.mooc.ai/course/443/learn#lesson/2420。

一、知识图谱的相关概念和构建

1.知识图谱

Google于2012年首先提出了知识图谱（Knowledge Graph）概念，目的在于描绘真实世界中存在的各种实体、概念，以及它们之间的关联关系，大幅改善搜索体验。

实质上, 知识图谱旨在描绘真实世界中存在的各种实体或概念及其关系,其构成一张宏大的语义网络图，节点表示实体或概念，边则由属性或关系构成。

知识是一个外延十分丰厚的概念；知识普遍存在于社会各个范畴。迷信知识图谱狭义上包括：生物的基因图谱、教育教学中的认知地图、探究太空的天体图、描画地形的GIS、模仿人脑的神经网络图、各种金属图谱等。

知识图谱是以迷信知识为对象，显示学科的开展进程与构造关系的一种图形，具有“图”和“谱”的双重性质与特征。

2.知识图谱的3种节点：

实体: 指的是具有可区别性且独立存在的某种事物。如某一团体、某一个城市、某一种植物等、某一种商品等等。世界万物有详细事物组成，此指实体。如图1的“中国”、“美国”、“日本”等。，实体是知识图谱中的最根本元素，不同的实体间存在不同的关系。

语义类（概念）：具有同种特性的实体构成的集合，如国度、民族、书籍、电脑等。概念次要指集合、类别、对象类型、事物的品种，例如人物、天文等。

内容: 通常作为实体和语义类的名字、描绘、解释等，可以由文本、图像、音视频等来表达。

基于上述定义。基于三元组是知识图谱的一种通用表示方式，即,其中，是知识库中的实体集合，共包括|E|种不同实体；是知识库中的关系集合，共包括|R|种不同关系；代表知识库中的三元组集合。三元组的根本方式次要包括(实体1-关系-实体2)和(实体-属性-属性值)等。

每个实体(概念的内涵)可用一个全局独一确定的ID来标识，每个属性-属性值对(attribute-value pair，AVP)可用来描写实体的内在特性，而关系可用来衔接两个实体，描写它们之间的关联。如下图1的知识图谱例子所示，中国是一个实体，北京是一个实体，中国-首都-北京是一个（实体-关系-实体）的三元组样例北京是一个实体，人口是一种属性2069.3万是属性值。北京-人口-2069.3万构成一个（实体-属性-属性值）的三元组样例。

3.知识图谱的构建

包括3个步骤：

信息抽取，即从各品种型的数据源中提取出实体（概念）、属性以及实体捡的互相关系，在此根底上构成本体化的知识表达

知识交融，在取得新知识后，需求对其停止整合，以消弭矛盾和歧义，比方某些实体能够有多种表达，某个特定称谓也许对应于多个不同的实体等

知识加工，关于经过交融的新知识，需求经过质量评价之后（局部需求人工参与鉴别），才干将合格的局部参加到知识库中，以确保知识库的质量，新增数据之后，可以停止知识推理、拓展示有知识、失掉新知识。

实战：利用知识图谱分析企业信息资产威胁（要点＋视频）

4.知识样本数据的获取

传统静态知识

次要数据来源：Web of Science

迷信文献数据：(SCI) (SSCI)

专利文献数据：德温特创新索引DII

国际会议文献数据：(CPCI)

国际数据库：CNKI、CSSCI、CSCD、万方等

网络数据源：Google Scholar、arXiv、CiteSeerX

静态知识

次要数据来源：事情数据

另外还有Scopus，Science Direct

设备可读取以及可输入的异常数据

4.样本数据的梳理

基于数据停止知识可视化的质量、合感性和牢靠性很大水平上依赖于所用数据的准确性和片面性，不精确或不片面的数据往往形成不准确甚至错误的后果。即便目前最威望、公认质量最高的WoS，也存在数据著录格式（如人名和地名的不一致）和脱漏的成绩。

5.数据规范化

为便于可视化，对复杂地频次计算的单元数据，规范化经常经过数据间的类似度测量。次要有两大类：一是集合论办法（Set-theoretic measures），包括Cosine、Pearson、Spearman、Inclusion 指数和Jaccard指数；二是概率论办法（Probabilistic measure），次要有合力指数（Association Strength）和概率亲和力指数（Probabilistic Afﬁnity）

6.数据剖析-简化剖析

因子剖析以较少几个因子描绘许多目标或要素间关系，即把较亲密的变量归在同一类，每类变量成为一个因子，以大批的因子反映原材料中大局部信息。

7.在知识图谱的解读进程中，经常需求对图谱停止相应操作，包括阅读、缩小、减少、过滤、查寻、关联和按需挪动等。次要从以下几方面着手：网络剖析、历时剖析、空间剖析、渐变检测

二、资产和要挟

资产数字化是趋向，每个资产都有其特征；要挟是数字的表征，要挟数据有其特征

实战：利用知识图谱分析企业信息资产威胁（要点＋视频）

三、关联和剖析

分三步：

第一步，先把企业展开任务需求哪些关键知识辨认出来，找到源头，不论是企业外部的还是内部的，不论是数据库、文档库还是网页，都会聚起来；

第二步，是经过知识图谱，让零碎能“看法了解”这些数字和文字代表的含义，把各个源头的知识抽取出来，把知识和人都关联起来，构成一张知识网；

第三步，让知识围绕业务转起来，完成智能化使用，包括语义搜索、特性化引荐、智能问答、协同研讨、决策支持等等

要想获取雷锋网该地下课演讲的完好内容，请移步视频回放区：http://www.mooc.ai/course/443/learn#lesson/2420。

。

免责声明：本文章由会员“丁悦华”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：