数据发掘大战机器怎样做到“见信如面”

2026-07-15 22:56:50

导读视觉中国大数据杀熟？隐私换便捷？一度被热捧的大数据发掘，近日站在了言论的风口浪尖：一些商家应用大数据发掘技术“杀熟”被网友亲测证明；百度董事长兼CEO李彦宏一句“中国人对隐私成绩没有那么敏感”，更是让它的处境雪上加霜。大数据发掘技术就像一位有了负面旧事的明星，瞬间间光荣昏暗，似乎变成了偷人隐私的小贼。《大数据时代》一书滞销之后的几年，大数据虽不再那么当红，但并未隐退，它的继续开展已成为人工智能得以

数据挖掘大战机器怎么做到“见信如面”

视觉中国

大数据杀熟？隐私换便捷？一度被热捧的大数据发掘，近日站在了言论的风口浪尖：一些商家应用大数据发掘技术“杀熟”被网友亲测证明；百度董事长兼CEO李彦宏一句“中国人对隐私成绩没有那么敏感”，更是让它的处境雪上加霜。大数据发掘技术就像一位有了负面旧事的明星，瞬间间光荣昏暗，似乎变成了偷人隐私的小贼。

《大数据时代》一书滞销之后的几年，大数据虽不再那么当红，但并未隐退，它的继续开展已成为人工智能得以完成的根底之一。

那么，大数据发掘终究是怎样的技术？从降生开展至今，那些埋头苦干的技术人员又让它长了哪些身手？面对大数据难以管理的成绩，有没有技术手腕加以控制？

　　 用户画像：机器给人类贴标签

“经过打标签的方式树立用户画像，是数据发掘常用的一种技术。”北京大学计算机迷信技术研讨所多媒体信息处置研讨室主任彭宇新教授解释，树立用户画像就是应用社交网络的信息，依据用户社会属性、生活习气和消费行为等信息，笼统出一个标签化的用户模型，目的是使机器完成相似于人的“见信如面”的才能。社交网络数据是完成这一目的的根底，机器对人的“初相见”多是源自于对社交网络数据的发掘。

标签，通常是经过对用户信息停止剖析失掉的高度精炼的特征标识，使得机器方便做信息提取、聚合剖析等处置。标签自身无需再做过多文本剖析等处置任务，这为应用机器提取规范化信息提供了便当。

“有了标签，计算机就可以自动处置与人相关的信息，可以经过算法、模型逐渐‘了解’ 人。”彭宇新引见，多个标签共同完成画像，整个进程互联网思维，就是在(移动)互联网+、大数据、云计算等科技不断发展的背景下，对市场、用户、产品、企业价值链乃至对整个商业生态进行重新审视的思考方式。可分三步走：一是采集数据，即基于文本的信息抓取，口语称为“爬数据”；二是用户行为建模，经过机器学习技术，构成算法模型，判别用户能够的一些行为；三是可视化展示，把机器运算出来的后果，经过能让人类了解的方式展示出来。这三步是多轮调整的，在实践使用中，依据后果的反应，以及业务需求，能够停止二次建模等调整。

整个进程的影响参数是绝对多元的，不同的行为类型，关于标签信息的权重影响也不同。以使用最广的商品营销为例，比方网售红酒，假如“购置”权重计为5，仅“阅读”计为1，加上阅读距离、驻留时长、生活习气等，经过复杂的算法最终出现出一个标签的权重，再构成画像。

基于用户画像技术，大数据发掘停止分类和关联规则计算等剖析：例如喜欢红酒的用户有多少，喜欢红酒的人群中，男、女比例是多少，喜欢红酒的人通常喜欢什么运动品牌等等。

　　 跨媒体智能辨认：为计算机装上慧眼

“以前文本信息占主流，如今图像、视频等多媒体数据漫山遍野而来。”彭宇新说，后者目前占据大数据的80%以上。

数据类型发作的宏大变化，使得智能辨认的义务愈加艰难。“管不住”和“用不好”的成绩日益凸显。“机器只能读懂本人的言语。”彭宇新说，人类世界的一切言语都要转化为机器了解的言语才干被辨认，以前只处置文本绝对复杂，而如今要加上复杂的图像、视频等数据。

“例如，世界上无数千种鸟类，很多种的差别十分纤细，即便是有专业知本着网络面前人人平等的原则，提倡所有人共同协作，编写一部完整而完善的百科全书，让知识在一定的技术规则和文化脉络下得以不断组合和拓展。识的人类也很难精确识别，计算机自动辨认的难度就更大了。”彭宇新说，图像、视频内容了解的难点在于如何停止语义自动辨认，这也是他们团队多年攻关的课题之一，为此团队创造了基于留意力模型和深度增量学习的辨认办法。

留意力模型，望文生义是让计算机自动定位图像的明显性区域，以此进步检测精度；深度增量学习，是指计算机可以应用曾经学到的知识减速对新知识的学习，同时经过静态扩容以支持新概念的检测。

新模型新算法的发力，协助机器疾速辨认图像、视频的语义信息。彭宇新团队近年来六次参与国际威望评测TRECVID的视频样例搜索竞赛均获第一名，并在与卡内基梅隆大学、牛津大学、IBM Watson研讨中心等参赛队伍的比赛中胜出。其中一个标题就是在464个小时的视频中疾速精确地找出一切的伦敦地铁标志，彭宇新团队仅用了不到1秒就成功胜出，取得第一名。

单媒体信息的剖析与辨认之上，如何进一步让机器像人类一样能看、能了解呢？

为到达跨媒体信息交融与一体化剖析辨认的目的，项目团队首先把数据依照不同媒体类型自动分发到对应的剖析与辨认模块。例如，对视频镜头停止联系、对关键帧停止提取，然后分发到镜头检索、片断检索、视频字幕辨认等模块中，对单媒体剖析后果停止跨媒体语义关联剖析，完成跨媒体信息的语义协同。“一种常用的办法是构建第三方空间停止跨媒体关联。”彭宇新说，“计算机依据我们教它的模型辨别为图像、视频、文本、音频抽取表征，再共同投射到一个第三方空间中，这样不同媒体的信息就可以对话了。”

技术的“抽丝剥茧”，让图像、视频中的信息可以如文本普通准确通明。“我们是瞄着使用去的，精确率、处置速度都经过多年的优化，曾经可以停止实践使用了。”彭宇新引见，这项技术不只协助旧事媒体等行业停止数据管理和检索，还在助力互联网管理部门对大数据停止剖析与监测。

　　 延伸阅读

　　 匿名处置：可预期的隐私维护对策

打破信息控制权简直不能够，但隐私维护却有个很便捷的办法。北京邮电大学教授杨义先的《平安简史》中有个抽象的比喻，假如数据在网上“裸奔”，为了不被溯源，最便捷的平安手腕是“把脸捂住”。这就是所谓的“匿名化处置机制”。

“用户隐私维护的相关规则要求，数据公司在售卖数据时，需求对数据停止匿名化处置。”北京大学计算机迷信技术研讨所研讨员赵东岩说。但为了精准定位、推送效劳，匿名化处置能够被无视。“精准意味着目的客户群的ID指向，而不是向群体发送，因而，特性化推送和匿名化处置在目前的技术中是互相抵触的。”

针对下面的抵触，业界的先行者提出一种区块链的处理思绪。“我称它为OF ID。”北京领主科技公司研讨人员刘伟泰说，“大数据的实质是群体研讨，但是群体粒度可以细一些，此外，区块链技术可以授予用户受权的办法。”

不难想象，随着新技术的不时创新，会有更多用于信息平安的技术打破，不是一门心思用于大数据发掘，而是也能用于制衡“信息控制权”。

责任编辑：陈近梅

免责声明：本文章由会员“金书明”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：

数据发掘大战 机器怎样做到“见信如面”

数据发掘大战机器怎样做到“见信如面”