5月25日,由亿欧举行的“GIIS 安防 AI创新峰会”在北京千禧酒店浩大召开。其中, 快商通 开创人肖龙源的演讲标题是《 声纹辨认 +安防:助理安全城市建立晋级》。肖龙源是厦门快商通科技股份无限公司开创人,首席产品经理, 人工智能 崇敬者。肖龙源还当选国际人工智能创业30人榜单,当选厦门出色青年及青年创新创业(青年双百)人才,国立华裔大学统计学院兼职教授,厦门大数据迷信研讨基地声誉院长。
在演讲现场,肖龙源先引见了声纹辨认技术的开展历程与使用优势,随后从公司业务动身,为在场观众举例阐明了声纹辨认的使用场景。在演讲的最初,肖龙源引见了本人关于安防行业的了解与愿景,肖龙源表示,希望能用他的产品和技术效劳于30亿人。以下便是肖龙源的演讲原文(亿欧对该内容有局部删减)。
肖龙源:大家下午好!我明天演讲的内容是关于声纹辨认的,它与图象辨认、指纹辨认有一个个性是身份特征提取,指纹按一下就晓得你是谁,声纹辨认就是你说一句话就晓得你是谁。
声纹辨认的优势
我们人类至多99%的信息交流是用言语来输入完成的,我们为什么说要经过语音来完成呢?其实我们如今一切的视频、一切的安防使用都是只用一个能看的东西,但其实人还有一个功用是能听,能考虑。
2017年习近平总书记屡次喊到社会治安平面化防控,这个防控分为两个:一个是多维度防控,相当于音视频可以相交融;另一个就是多层次防控,声纹辨认是辨认完身份,同时还可以能把你所说的话表达出来,用语音辨认翻译成文字,然后做自然言语的提取让你能做考虑。 想象一下,将来我们走在路上,假如你此时想要评价政治或是政府官员,那你要小心,由于在公共场所下,你的人脸加上你说的话全部都会被采集。所以将来讲悄然话最好是到闺房去讲,由于在你房间里摄像头是不会放出来的,还有一个中央不会放摄像头,那就是厕所。
然后声纹辨认的优势是什么?在提取身份特征时,假如你用指纹来比对,必需要接触,而声纹辨认不必接触。假如跟人脸辨认来做比拟,人脸辨认假如被拍照的话就会比拟担忧,绝对来说声纹辨认的冲突性会没那么大,随意说一段话就可以停止。这是声纹辨认的优势。
声纹辨认技术的开展历程
我明天并不是要来讲优势的,声纹辨认的开展其实比拟苦逼。我和我的团队归结声纹辨认的历程有四个阶段,包括三个跨越式的开展,2000年前声纹辨认都是用模板比对的办法,2000年后都是用罗纳德运用的模型来做声纹辨认的验证办法。
前面又阅历了十年的探究和沉淀,有三个机构初次地下,一个是算法,它运用的原理是什么呢?即用不同长度的语音,可以提取到固定长度的低维度数字算法下面来做身份特征认证。也就是说当这个算法出来之后,它标志着声纹辨认也可以用深度学习的办法停止处置。
2011年微软和谷歌先把这个办法用在语音下面,用深度学习网络来做学习办法,做到了30%的辨认率。随后我们快商通是把深度学习的办法用在声纹辨认下面,我们从2011年就开端做声纹辨认了,用在这下面标志着声纹辨认也开端运用深度神经网络来提升辨认率,所以这个是整个声纹辨认技术开展的四个阶段,三个跨越式的开展。
声纹辨认的使用场景
方才引见了我们技术的开展历程,引荐一下我们向全球开放的六个模块,次要还是针对安防来做。
声纹辨认身份认证云 是几个场景比拟容易了解的。有一些无人便当店很火了之后对我们收回约请,约请我们做测试,希望用户摇摇头、眨眨眼就完成领取,这是活体检验,加起来差不多10秒左右。拿我们的声纹辨认做活体检测,用户说一段话就可以完成领取,差不多在两秒钟左右。人脸辨认加上声纹辨认会有很好的交融,也可以为技术带来一个提升。
声纹辨认在社保等等场景也运用得比拟多,再就是 电信反欺诈零碎 。2016年-2017年微软大数据调查网络诈骗50%以下去自于电信诈骗,而声纹辨认它可以把语音和电话完满交融,所以声纹辨认我们如今比拟大的使用场景就是在金融范畴。举个例子,我们去年给一个用户做植入,应他们的要求,我们为一切拨打9511和400电话的人都停止了身份验证,验证这团体有没有骗过保或许骗过单。我们能做到10亿同时检索,辨认率可以到达80%,如今市面上普遍的只到达60%,这是我们做了一个很大的技术上的提升。
三是音频构造化与视频构造化,如今是完全交融的,我们称之为 音视频双监控 。习近平总书记说社会治安平面化防控要作党多维度和多层次,当我们视频进入模糊、看不见、天亮,或许是面板挡住、遇到盲区时,当你在视野上看不到的时分当然可以用耳朵听到,可以判别这团体的身份、年龄、心情,可以用环境的检测来补偿视频的缺乏,增加四周环境不测事情的发作。
四是 大数据研判, 其实是使用我们的大数据技术,基于海量的音视频信息,经过疾速的定位到工夫点下面搜索出我们想要的音频或许视频内容做结合。这里其实有一个益处,我们做了一个方才我后面讲的,可以依据人的口音、年龄区间,还有声响说出来,比方说盲区的时分可以经过声响听出是男的还是女的。还无情绪,比方说你很冲动等等,这些都能提取,经过多维度补偿我们视频监控的缺乏。
智能芯片。我们如今比拟盛行的一个关键词叫边缘计算,我们摄像头下面也有一个芯片,叫声纹语音芯片,跟摄像头装一个芯片是一样的。明天半夜吃饭大家提到喧闹音怎样办?这个技术很多人都在处理,我们也在美国很知名的杂志上发了两篇论文,假如很喧闹的声响在十米以内有人说话我听不见或许听不清楚怎样办?这个芯片其实能用来处理十米以内乐音的。我们也是有开放的一个平台,把这个植入到监控摄像头下面。我是技术出身,技术到达什么样我不关怀,我关怀的是能不能处理成绩,能不能把气噪声响处理掉,这是可以完全可以的。
方才讲到声纹辨认场景分线上线下,这个我就不多说了。
肖龙源的安防近景
其实关于安防来说,我谈一下团体见地。习大大举全国之力开展人工智能,这次特朗普搞贸易大战,其实是针对我们2025中国制造。从2017年7月份开端,我们公司专门成立了一个部门来接政府的项目,赋能产业晋级。 往年年会之后我立马开端讲赋能产业晋级,我也在整合他人的一些技术,但是整个声纹战略的语音都是我们的技术。
方才讲了既然特朗普他们在扼杀2025制造,不希望国度先把市场开收回来,其实我们的市场技术没那么成熟,为什么要开发?举全国之力开展,从互联网到挪动互联网不敢喊,就希望用技术,用市场需求来倒逼技术的开展。国度如今也在搞什么,你给我钱你给我货,在美国还没有到达这种要求,他们AI用的都是华人。要赶上这一票,在座的能够搞安防的都是在按这个路子来,你提要求我给你货,共同推进中国的开展。
中国后来搞了“一带一路”,我们有一个愿景,有一个希望,这个愿景就是希望能拿我的产品和技术效劳于30亿人。这个愿景比拟大,我原来属于少年失意,我是白手起家,什么都干。次要是靠互联网,做分发流量,最多一年可以做一个多亿。后来由于天天喝酒跑去反省了,人家说能够是肝癌,后来就去医院反省了,反省了两家说没事儿。第二家医院第三家医院通知我的时分,我忽然在想,我这个地位活着要么选择回家过日子、种田,要么就好好的效劳社会。事先我下了一个决计,希望拿我的产品和技术效劳30亿人。
我从2011天开端做人工智能,2013年完全是我团体投入,所以我赚回来的钱都往外面投入。我们搞了一个标题,明明是生意人为什么要当迷信家,我拿我的技术跟在座有共同体,我们希望做成音频、视频分解一带一路,可以共同效劳于30亿,共同完成30亿用户量,用我们的产品效劳30亿。
谢谢大家!
亿欧引荐:2018年6月13-15日,由上海市经济和信息化委员会、上海市商务委员会、上海市长宁区人民政府指点,上海市长宁区青年结合会和亿欧公司结合主办的“ 2018全球智能+新商业峰会 ”将在上海长宁世贸展馆举行,诚邀各位一同助力“AI落地,产业晋级”。
活动概况: 2018全球智能+新商业峰会
本文系投稿稿件,作者:肖龙源;转载请注明作者姓名和“来源:亿欧”;文本次涌现的 AI、区块链和物联网热潮不同于以往,将对产业、社会和生活产生真正堪称“颠覆性”的变革。IT 技术人员需要全方位地“换脑”:对原有的知识结构进行全面刷新,全面升级。章内容系作者团体观念,不代表亿欧对观念赞同或支持。