农企新闻网

传达静态学的自动监控:一种组稀疏贝叶斯学习办法

发布者:王楠远
导读雷锋网(大众号:雷锋网)AI 科技评论按:本文作者吉林大学博士生裴红斌,本文为对他宣布在 AAAI 2018 论文的独家解读稿件,未经答应不得转载。Group Sparse Bayesian Learning for ActiveSurveillance on Epidemic Dynamics传达静态学的自动监控:一种组稀疏贝叶斯学习办法https://arxiv.org/pdf/1712.00

雷锋网 (大众号:雷锋网) AI 科技评论按:本文作者吉林大学博士生裴红斌,本文为对他宣布在 AAAI 2018 论文的独家解读稿件,未经答应不得转载。

Group Sparse Bayesian Learning for ActiveSurveillance on Epidemic Dynamics

传达静态学的自动监控:一种组稀疏贝叶斯学习办法

https://arxiv.org/pdf/1712.00328.pdf

裴红斌是吉林大学三年级在读博士,师从吉林大学杨博教授。他近期的研讨是应用机器学习技术处理人类传染病的监控、预测、和控制成绩,为公共卫生提供人工智能支持。他与香港浸会大学刘际明教授协作,相关任务宣布在 TPAMI 2017 和 AAAI 2018。

传达景象是普遍存在于真实世界的一类静态学进程,例如疾病传达、信息分散等。预测传达静态学(epidemic dynamics)关于了解和控制传达具有十分重要的意义。基于静态零碎模型,预测传达静态学可直观地定义为:已知零碎的以后形态估量其将来的形态。可以看到, 预测的根底在于监控,即及时地搜集和报告零碎的以后形态。

在实践使用中传达静态学的监控十分困难,由于真实的传达景象通常触及宏大的时空范围,无限的人力物力等监控资源难以掩盖大规模的监控范围。例如,由于毗连缅甸以及本身天文环境,云南省腾冲市是我国疟疾的重发区,2005 至 2011 年共确认 7,835 名疟疾患者。但是,腾冲市疾控中心(CDC)执行日常病例调查的任务人员却仅有几人!腾冲市版图 5,845 平方公里(略小于上海市),共有 18 个乡、221 个村、658,207 位居民。显然无限的人力无法满足及时、片面监控疟疾的需求。在其他传达监控中,资源无限的应战也普遍存在,例如空气质量检测[1]、互联网舆情感知[2]、城市交通监控[3]。

自动监控(active surveillance)是处理上述资源无限成绩的可行战略: 选择并监控静态零碎中的多数关键节点,进而应用这些节点的信息来预测整个零碎将来的传达静态学 。自动监控战略仅关注零碎中的多数关键节点,能满足无限监控资源的约束,并较精确地预测传达静态学,回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命——为广大的互联网公司进行AI赋能。因而有着重要的理论价值。完成自动监控的中心的成绩是:在零碎中如何评价和辨认对传达预测最关键的节点?该成绩十分具有应战性,由于零碎中各局部间的交互构造是高度异构且隐藏的。

现有的传感器部署(sensor deployment)任务大多假定零碎中的交互构造已知,从而将关键节点辨认成绩转换为无限候全集上的组合优化成绩,进而运用启示式算法对其求解,如次模最大化(sub-modular maximization)。但是在真实传达景象中,这种交互构造(有时被称作分散网络)往往无法被察看,如传染病在隐藏的人口接触网络上传达[4]。另一类办法是应用高斯进程来预测未观测节点的形态,并运用自动学习战略(如信息熵、互信息)来辨认对预测最重要的节点[5]。高斯进程是黑盒模型,传达机制等先验知识不易被融入,也就是说,高斯进程的参数学习倚重于少量的训练数据。但是,真实传达景象积聚的历史数据往往是很无限的。

本文自动监控框架

我们首先提出面向传达静态学预测的自动监控框架。这个普通性的框架分为三步:

  • Step 1: 在 N 个感兴味的节点上搜集传达静态学数据。

  • Step 2: 从所搜集数据中发掘哨兵网络(sentinel network),其中哨兵节点(sentinel node)个数 k 由预算决议。

  • Step 3: 基于哨兵网络和 k 个哨兵上的监控数据,预测全部 N 个节点将来的传达静态学。

后两步是自动监控框架的关键,我们在接上去对其停止详细引见。

成绩定义

思索一次继续工夫为 T 的传达,其在 N 个兴味点上被观测,观测数据  D  为 T 乘 N 的矩阵。D中元素能够是延续实数(如某区域空气净化物浓度)或团圆数值(如某条公路能否阻塞)。运用矩阵 Ds 表示 k 个哨兵节点上的监控数据,即假若某节点为哨兵则  Ds  与  D  中该列元素相反,否则该列为零向量。f( Ds , S )表示应用监控数据  Ds  预测传达静态学的静态零碎函数,,其中 N 乘 N 的矩阵  S  是哨兵矩阵。哨兵矩阵是静态零碎函数中一组关键参数,描写哨兵节点对其他节点的影响。换句话说,完成自动监控的关键在于获取静态零碎函数f( Ds , S )。我们辨别方式化定义上述框架中后两步的计算成绩。

成绩一哨兵辨认:如何从数据  D  中辨认哨兵节点并发掘哨兵网络  S

成绩二哨兵预测:基于哨兵节点上搜集的数据  Ds ,如何应用哨兵网络  预测一切 N 个节点将来的传达静态学? 

哨兵辨认

我们的根本思想十分直观:在静态零碎中,对其他节点没有影响力的节点是不重要的;反之,重要的节点对其他节点有明显的影响力,可主导整个零碎将来的形态,所以这类节点应被选为哨兵节点。对应于哨兵矩阵 S(S 编码哨兵节点对其他节点的影响),我们可经过推断行稀疏构造来确定一个节点能否关键。换言之,不重要节点在 S 中应对应于稀疏行,即行中绝大少数元素为零;重要的节点则应对应于非稀疏行。图1以线性静态零碎为例演示了这一根本思想。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

基于这一思绪我们提出了一个新颖的目标,γ 值,来评价节点的重要性:在哨兵矩阵的先验构造和后验构造中都重要的节点是对预测传达静态学关键的节点。详细地,γ 值定义为哨兵矩阵先验中的超参数,该参数异样侧写了哨兵矩阵后验构造。数学定义如下,


公式中是第 i 个节点的 γ 值。接上去我们从先验和后验的视角辨别引见该目标。

先验视角 

从根本思想动身,我们希冀哨兵网络具有行稀疏的构造,即非零元素集中于哨兵所对应的行中。因而,我们采用零均值的多元高斯散布作为的哨兵网络的先验:


经过上述建模,第 i 行的一切元素(即网络中由i节点所收回的边)被严密地联络在一同,且被共同的超参数 γ 所控制。这类从数据中推断的超参数被称作自动相关确定(automatic relevancedetermination)机制[5]。当第i行对应的  γ 较小时,i 节点所收回的边会变弱,则 i 节点是不重要的节点,那么将其舍弃不会对预测的精确率形成太大影响。 

后验视角  

如上所述, γ 值异样反映了哨兵矩阵的后验构造。我们在线性延续零碎和逻辑团圆零碎中辨别建模了哨兵矩阵,这两类零碎被普遍用于描写真实世界中的传达景象。两种零碎中建模所对应的图模型如下图所示。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

将哨兵矩阵看做隐变量,我们采用希冀最大化 EM 算法和变分近似近似办法求解超参数。我们剖析 γ 求解公式后发现,γ 值实践描写了节点本身对其他节点的影响力,以及其影响力的不确定性。我们提出了一种后向选择算法 SNMA 来挑选对预测最佳的哨兵集合。该算法开端于全部的 N 个兴味节点,每次迭代后舍弃一个节点,直到仅剩 k 个节点作为哨兵节点(k 的数量由预算决议)。每次迭代被舍弃的节点是对应 γ 值最小的节点。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

哨兵预测

一旦经过 SNMA 算法取得了哨兵矩阵的后验构造,我们可应用监控数据(即仅在 k 个哨兵节点上搜集的数据)来预测整个零碎 N 个节点的传达静态学。运用星号下标表示一个新的监控样本,零碎将来的形态可由上面预测散布给出。


实验后果

我们在人工分解数据集和真实数据集上辨别验证了该办法。采用两种比照算法,基于互信息的高斯进程(GPs-MI)和 group lasso。GPs-MI 是一种盛行的传感器部署办法[6],其效果好于实验设计办法,如 A-, D-, 和 E-优化设计。Group lasso 是一个典型的组稀疏学习办法,与我们所设计的 Bayesian group sparse 办法相似。该算法自身不具有自动监控才能,但可嵌入我们提出的自动监控框架中。

我们运用失败率(failure rate)和均方根误差 RMSE 两个目标来权衡算法效果。在人工数据实验中,失败率描写能否找到了正确的哨兵节点。RMSE 权衡哨兵预测后果与真实传达静态学间的误差。我们采用了5折穿插验证办法。从图3可以看出,在人工分解数据中,无论是线性延续零碎还是逻辑团圆零碎,我们提出的 SNMA 算法有最低的失败率和 RMSE。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

真实数据实验 

我们首先运用 2009 年香港 H1N1 流感数据做实验验证。这次大流感在香港共形成 36,000 人感染,290 人病情严重,80 人死亡。我们研讨该次流感自 2009 年 6 月 1 日后 105 地利间的感染病例。香港包括 18 个行政区域,因而将香港建模为包括 18 个节点的静态零碎。由于 2009 年 H1N1 流感的感染期为三天,我们根据三天聚合数据后可失掉 N=18,T=35 的流打动态学。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

上图是不同算法的哨兵预测后果,横轴是所运用哨兵节点的数量,纵轴为对传达的预测误差。我们的办法 SNMA 在绝大少数状况下都有最好的预测后果。下图更直观地展现了不同算法的预测曲线,我们选择哨兵数量为 8 的状况作为个案研讨来比拟不同算法表现。黑色星表示 2009 年香港 H1N1 流感的真实传达趋向。对三种办法,我们都运用 8 月 15 日前数据训练模型,预测之后的传达静态学。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

SNMA 算法所选择对预测 2009 年 H1N1 最重要的 8 个哨兵节点对应的空间散布如下图所示。其中红⾊⽓泡标识哨兵节点,气泡下的红圈指示该节点的监控重要水平,⿊色点为不需求监控的区域。和我们直觉相符大多哨兵节点集中于人口密集的港岛和九龙地域。异样风趣的是西贡、离岛等偏僻、人口稀少的区域也有较高的监控重要性,能够是由于这里 H1N1 流感的传达形式与港岛和九龙不同。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法

相似地,我们还在 2005-2009 年腾冲市疟疾迸发数据和 2015 年某中文在线社区中信息分散的真实数据上验证了该办法。实验显示我们提出办法 SNMA 优于 GPs-MI 和 group lasso。SNMA 算法的优势次要在于:

1.该算法是基于模型的,这使得先验知识易于集成并且训练更为高效;

2.由于采用 Bayesian 框架建模了数据和参数中的不确定性,该算法可无效处置高乐音和训练数据不充沛的成绩。

参考文献

[1] Hsieh,Hsun-Ping, Shou-De Lin, and Yu Zheng. 2015. Inferring air quality for stationlocation recommendation based on urban big data. In Proceedings of the 21th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney,Australia: ACM.

[2] Yan Chen, Hadi Amiri, Zhoujun Li, andTat-Seng Chua. Emerging topic detection for organizations from microblogs. InProceedings of the 36th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval. ACM, 2013.

[3] Natali Ruchansky, Mark Crovella, andEvimaria Terzi. Matrix completion with queries. In Proceedings of the 21th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2015.

[4]Bo Yang, Hongbin Pei, Hechang Chen, Jiming Liu, and Shang Xia. Characterizingand discovering spatiotemporal social contact patterns for healthcare[J]. IEEEtransactions on pattern analysis and machine intelligence, 2017, 39(8):1532-1546.

[5]MacKay DJC: Probable networks and plausible predictions—a review of practicalBayesian methods for supervised neural networks. Network, 1995, 6(3): 469-505.

[6]Andreas Krause, Ajit Singh, and Carlos Guestrin. Near-optimal sensor placementsin Gaussian processes: Theory, efficient algorithms and empirical studies.Journal of Machine Learning Research, 9(Feb):235–284, 2008.

雷锋网特约稿件,未经受权制止转载。概况见。

传播动态学的主动监控:一种组稀疏贝叶斯学习方法