快手宿华：我们7年累计50亿条视频，靠AI 提升长尾用户的幸福感

2024-12-27 03:14:22

导读快手开创人兼CEO 宿华钛媒体注：上周，快手上的视频总数曾经超越了50亿，如何让这50亿视频与观看视频的用户停止婚配是一个史无前例的应战。在过来，业内惯例的做法是运营好长尾曲线中头部的“爆款”视频，但快手表示，希望尾部视频异样能被感兴味的人观看。在本周一，2018年中国图灵大会上，快手开创人兼CEO宿华列席，分享了以“AI 如何提升幸福感”的主题

快手开创人兼CEO 宿华

钛媒体注：上周，快手上的视频总数曾经超越了50亿，如何让这50亿视频与观看视频的用户停止婚配是一个史无前例的应战。在过来，业内惯例的做法是运营好长尾曲线中头部的“爆款”视频，但快手表示，希望尾部视频异样能被感兴味的人观看。

在本周一，2018年中国图灵大会上，快手开创人兼CEO宿华列席，分享了以“AI 如何提升幸福感”的主题演讲，分享了快手在人工智能最新的探究与使用。

大约12年前，宿华参加了谷歌，开端接触、学习和使用机器学习技术。在谷歌，他不断在研讨如何尝试应用AI和机器学习，处理信息婚配和信息分发的成绩。

宿华以为，之前的视频平台不是那么需求 AI，是由于视频的数量没有到达一个量级。假如每年只新增两百部电影、三百部电视剧，可以经过人工标注的方式把它剖析和了解的特别清楚。但是，假设每天新增千万级的视频，面对50亿的生活片段，是不能够去依托人工编辑和传统的媒体板块去分发，也无法照顾到长尾的用户。

宿华以为，“记载”自身是可以提升幸福感的。每团体心中都有一个盼望——看见他人和被他人看见。幸福感需求让我们每一团体都可以看见，被这个世界发现，可以让本人的心情情感被他人晓得，被人感知，被他人看到和了解。

他表示，快手最想做的事情，是要构建一整套的以 AI 技术为中心的根底设备，可以用科技的力气提升每一团体共同的幸福感，可以让每一团体更多更好的感受这个世界，也可以更好的被这个世界所感遭到。

当要照顾每一团体的需求，尤其是长尾用户的需求时，就需求依托人工智能。快手将 AI 次要使用在四个环节：内容消费，内容了解，用户了解和视频分发。

往年4、5月份，快手上线了一个魔法表情、肢体辨认舞蹈游戏以及 AR 模型特效。这些特效面前，涵盖了人脸关键点、背景联系、人体姿势估量、视觉惯性里程计等人工智能技术。为了支撑这些技术，快手自主研发了 3D 引擎及 YCNN 深度学习推理引擎。即使运用低配置的手机，算法与模型仍然可以高效疾速运转，让更多用户的记载进程体验愈加丰厚风趣的玩法。

快手会经过大数据去了解每一位用户的兴味偏好，同时，得益于快手是一个分享社区，快手的用户了解不只基于内容，还基于行为数据。每天有上亿的用户在停止“数据标注”，包括点击点赞、关注转发、播放时长、用户关系等，交错成了网状的关系，协助快手来更好的了解用户，除了用户兴味偏好，更了解用户潜在的兴味，协助用户发掘探究更大的未知范畴。

在将来，快手还将探究 AI 诸多方向，例如，经过多模态信息交融的视频了解器可以像人类一样了解一个视频，了解人类复杂的心情。

“如何把用户的行为数据和内容明晰组合在一同，特别是把内容外面的视觉，加上工夫轴当前停止延续的视频剖析，再加上深度的剖析，用户的行为剖析，整个多模的集成组合在一同，也是一个十分有意思的课题。”宿华说。（本文首发钛媒体，作者/李程程）

以下是宿华的演讲全文，略经钛媒体编辑：

大约12年前，我刚参加谷歌，开端接触、学习和使用机器学习的技术，次要为处理搜索引擎当中的一些成绩，学了很多后人的推导公式，学了很多的模型、思想。后来我考虑，AI应该用来处理什么样的成绩，不是数学上的成绩，而是说为社会、为人类应该处理什么成绩？

想了很长工夫，有了一个答案。在这些年理论的范畴中，我想明白了，不论我们做什么样的技术，最初都应该用于提升人类的幸福感，或许是做到幸福感的改善。AI当然是当下最火最热的技术，上面我给大家分享的就是，我这些年是怎样去用AI处理幸福感的成绩。

“记载”可以提升幸福感

首先，我们发现“记载”是可以提升人们幸福感的。由于每一份记载都有两类人：一个是记载的发生者、记载者，一个是记载的察看者。

关于察看者来讲，经过他人的记载可以看到更宽广的世界。在城市里可以看到乡村农产品消费，在乡村里可以看到国外的世界，土耳其的热气球。非洲的小孩可以和中国人交冤家，在日本的留先生可以和本人在中国的家人、冤家交流。

我们想每团体心中都有一个盼望，一个是看见他人，一个是被他人看见。我们希望本人的形态，本人的情感，本人的灵感，可以被更多的人看见，被更多的人了解。我想，记载是其中最关键的一环，是可以使得每团体幸福感都失掉提升的能够的方案。

快手是2011年成立的，我们干了7年的工夫，一路上阅历了十分多的应战，阅历了日活在1亿量的网络社区。我们怎样做的呢？

我们在用科技的力气去提升每一团体的幸福感。我们在尝试让每一团体都可以记载本人的生活形态，每团体都无机会留下本人的记载出现给这个世界，每团体都可以让世界发现本人，每团体都可以因而消减一点点的孤单感，提升一点点的幸福感，从而可以提升整个社会幸福感的总和。

我们在这条路上曾经走了七年的工AI已经渗透到了生活中的方方面面。在智能交通领域，人工智能技术也正在发挥作用。夫，直到上周，我们大约累计有50亿条视频。50亿条视频是什么概念？

这外面是快手用户，均匀每天可以发生一千万到两千万条视频。中国有两千多个县，我们可以拍到每个县，在座的各位你们的家乡每个县都可以看到数千条量级的视频。用户在任何时辰翻开快手，都可以看就任何一个中央。这50亿条视频，简直都不反复。并非某些视频的库虽然很大，但是大体是同一个电影、或许综艺的剪辑。在快手发生的、留上去的50亿条视频，都是生活中活生生的、新颖的生活形态，五花八门的人，五花八门的事。

AI 如何了解长尾用户生活片段

我们方才讲，其实幸福感需求让我们每一团体都可以看见，被这个世界发现，可以让本人的心情情感被他人晓得，被人感知，被他人看到，被他人了解。但是，50亿的量级是十分庞大的量级，我们过来的视频平台，库里每天新增的视频历来没有打破过千万量级的，这在历史上都是没有过的。

所以在座的这些内容、这些视频，和那些察看者之间婚配的时分，实践上以前说照顾好头部就可以了，可是面对50亿的生活片段，我们怎样把长尾的用户照顾好，真的可以让每一团体都失掉一些关注，每团体都消减本人的孤单感，这实践上是十分困难的课题。

我在十几年前，在谷歌的时分就研讨这个成绩，我们做很好的婚配，做很好的信息的分发。实践上我们全体是在用AI，用机器学习的技术在尝试去处理。

历史上的其他的视频平台不是那么需求，特别是每个视频数量没有那么多的时分。假如每年只新增两百部电影，三百部电视剧。每一个电影、每一个电视剧，或许每一个综艺节目，我们都可以用人工标注的方式把它剖析、了解的特别清楚。但是，每天新增千万量级视频，不能够找人标出来，也不能找编辑去像传统的媒体按板块分发。我们想要去照顾长尾用户、想要去照顾每一团体，这样的平台，我们愈加无法挑选那些头部的，极多数的热的视频给大家看。

那么我们的处理办法是什么？是用AI，使用在四个环节。第一个环节内容的消费，是记载的发生环境。第二个环节，如何让这些人去了解视频。

我是80后。80后从小就喊了解万岁，我置信了解也是机器明天可以做的一个次要的方向之一。让机器像我们人类一样可以了解这个世界，可以了解每一团体，让机器了解每一个生活的片断，这也是快手公司在做的事情。

基于这样的了解，我们前面才会有整个很好的分发，有一个更好的平台去照顾到每一团体。我们了解每一段视频，每一个视频片断，我们要了解每一个用户的偏好，了解每一个用户潜在的偏好，最初才干做一个很好的分发视频。

第一个模块在记载，往年4月份、5月份快手上线的一个魔法表情，可以疾速模仿一团体，从年老到老去的进程。第二个是全体的姿势检测，外面还有AR的玩法，实践上他面前是基于我们本人研发的一套3D零碎的AR零碎，我们YCNN的深度学习零碎，这个深度学习零碎它的中心优势就是可以在十分低端的手机上，跟我们一同完成跨平台，不止在安卓、iPhone上运转的效率进步，同时可以把模型做得十分小，速度做得十分快。最重要的是做了十分多的视频中的记载的玩法，处理人体姿势辨认的成绩，人脸关键点检索成绩，视觉惯性里程计，还有手势辨认。

让机器了解这些视频是什么内容，当一个生活的片断上传过去当前，我们立刻会将一系列的信息拿掉，比方检测有几团体，进一步需求检测是男人还是女人，是老人还是小孩，是中国人还是本国人，可以把之间的关系了解，就变得越来越难。

我们除了跟人有关的辨认，还做了少量图像方面的，有场景的辨认，是在会场还是在操场，是在家里或办公室，我们做了很多的场景辨认。更进一步、更难一点的，在做饭、做菜，还是在钓鱼，各方面场景的场所，还有他正在做的事，是在赛车，还是在大马路上骑自行车，还是卡车、轿车，有更多的更初级的辨认。当然我们还做了颜值辨认，比拟好玩，目火线上还没有这个使用。

这其中还有和语音有关的了解，就是我们常常发现一个视频，他外面很多信息是包括在音频外面，特别是传递心情，人类的很多心情是在声响外面，再转化为语速、语调崎岖，或许他用得配乐，就是音乐自身的情感属性，我们做了少量的音乐的构造化的了解。

我们最高的并发大约是20万，在疾速的言语外面，有几十万的并发的、实时的语音辨认的需求，我们到如今为止，还是仅用本人自研的，由于20万的并发率，对机器的要求特别高，找第三方的话，不情愿投入机器。

另外，疾速的语音辨认还有一个难点，我们的场景是生活场景，它不是收音洁净的。在生活中能够有两团体在说话，能够有汽车在叫，能够在操场外面，或许在教室，整个是一个复杂的场景，这外面我们怎样可以做到最好的，速度要最快的语音辨认，几十万部的并发辨认，对我们来说也是一个十分大的应战。

从全球板块来讲，我们会承受一定水平上的辨认率的下降，但是要让功能和让场景的顺应性更好，这是快手目后面临的成绩之一。在底层，我们有本人研发的，一个大规模并行的机器学习的平台，是做模仿训练和推理，也包括做一些数据的标注。

当然对快手来讲，我们做视频内容的了解，很大水平上得益于我们是一个社区，社区外面每天有上亿的人在帮我们标注，他们的点击点赞行为，他们的关注行为，他们的转发行为，他们的播放时长，他们人和人之间互相的关系，网状的关系，就在协助我们更好的了解用户。我们不是地道从内容动身的，我们还有行为数据。

但是，如何把用户的行为数据和内容明晰组合在一同，特别是把内容外面的视觉加上工夫轴当前停止延续的视频剖析，再加上深度的剖析，再加上用户的行为剖析，整个多模的集成组合在一同，也是一个十分有意思的课题。

AI 如何探究社区用户的兴味边界

第三个局部是了解用户，当然这外面的用户并不是内容的记载者，是指看内容，当你拿出你的手机，翻开一个APP的时分，我们希望协助你发现这个世界，这时分对平台来讲，我们需求了解你的兴味偏好，更次要的我们还需求了解你潜在的兴味，就是你过来还没有探究过，但是你能够会喜欢的方向和范畴把它发掘出来，才干帮你探究更大的未知范畴。

在快手，我们也是得益于我们做的是一个社区，举个例子，其真实日常生活中，我们怎样去扩展本人的兴味偏好，一个是随机的，不小心看到的、很好玩的。比方我当年为什么会选择做AI，真的是不小心碰到了有一个团队在做机器学习的使用，我跟他们聊了当前很感兴味，从此走上了这个路，这是一个十分随机的形态。

还有一个做法是问冤家，比方在你的冤家圈外面，或许你的室友、你的同窗，四处说我昨天打了棒球，很好玩，你要不要一同来玩一下，我刚学了一个C++言语不错，要不要一同来学一同，冤家通知你，协助你扩展你的兴味偏好。

在快手我们应用相似的逻辑去做，就是在一个大的社区外面，总有那么一些人跟你很类似，但又不完全一样，跟你类似又关注他们喜欢的东西，他们喜欢的那些跟你偏好不一样的东西，你极大的能够会喜欢，我们尝试去扩展兴味的时分，去了解一个用户群偏好的时分，我们会使用到外面，尽心去做，这样可以协助每一团体，你不是一团体在探究，是有社区外面不计其数的人跟你类似又不同的人在探究，同时你协助其他一些跟你类似而不同的人去探究，这样我们可以更好的了解一团体的潜力。

接上去就是视频分发，我们的记载可以更好的发生，在内容、视频、生活片断中会最好的了解，在用户的偏好，潜在的兴味，可以可以更好的发掘的根底之上，我们才干做一个更好的分发零碎。这个分发零碎可以真正照顾长尾，可以让更多的人找到本人喜欢的人，找到喜欢本人的人，可以让更多的人被看见，让我们看见更大的世界。

我们如今曾经退化到的用实时的办法做整个的日志零碎，能够有同行晓得，早年我们都是用一些偏Linux的办法去做，到如今线上曾经可以实时的运转深度学习的办法，并且还不是一个模型，能够是一个层叠的组合的复杂的模型。但是，现实上可以做到标值的响定，用户的每次行为，现实上在一秒钟当前，就可以反响到视频中去，可以给用户更好、更准、更宽广的世界，等候用户去发现。

将来我们还有很多想要研讨的方向，这外面列了其中一些，我本人最感兴味的是多模态信息交融的视频了解，我觉得总有一天我们的机器可以像人类一样了解一个视频。我本人有一次看到一个特别有意思的视频，那个视频很短，是一个男生和一个女生走在一同，拥抱，然后分开。看到那个视频的时分，我是可以了解他们是一对情侣，他们应该是最初一个拥抱，不清楚什么缘由分开了。

我事先就想说，是不是机器有一天也可以了解到这一层，我在了解这个视频的时分，我发现有两团体，我发现他们拥抱了之后，收回的声响是包括了十分悲伤的心情，他们分开的时分又很决绝，我们就失掉了这样一个结论。也许有一天我们做的人工智能零碎，可以像我一样，像人类一样去了解生活中的片断，可以更好的了解人类的心情、情感，甚至是灵感。我很等待那一天的到来。

对快手来讲，我们是要构建一整套的以AI技术为中心的根底设备，可以用科技的力气提升每一团体共同的幸福觉得，可以让每一团体更多更好的感受这个世界，也可以更好的被这个世界所感遭到，这是快手最想做的事情。

谢谢大家。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或许下载钛媒体App

快手宿华：我们7年累计50亿条视频，靠AI 提升长尾用户的幸福感

免责声明：本文章由会员“张原华”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：