假如你是网游重度患者,那你一定听过“你好,祝贺走出老手村,纵情享用你的修仙之旅吧”;假如你在驾驶时开启了手机地图导航,那你一定听过“后方路口左转,请驶入辅路”;还有银行排队叫号时“请6666号到第6号窗口操持业务”。我们都晓得,这些声响的来源一定不是真人,而是机器。那么冷冰冰的机器是如何发声的呢?这就触及到“语音分解”技术。
语音分解技术从业趋向,独乐乐不如众乐乐
与语音辨认、语义了解这两项技术相比,语音分解似乎稍显低调。为协助从业者更深化的理解这项技术的失业与创业趋向,亿欧日前采访了一位具有10余年从业经历的语音分解范畴老兵——李秀林。
在10余年语音相关技术研发以及学术研讨时期,中科院博士李秀林请求了一系列语音技术的相关专利,包括文本处置、韵律预测、声学模型、拼接零碎、模型自顺应、神经网络、情感分解等多个方面。
关于这位老兵,亿欧最为敬佩的中央并不在于其技术积聚与专业才能,而是他不管阅历行业顶峰还是低谷,都能一直坚持初心。李秀林回想,自其从业以来,语音分解行业的开展可总结为3个阶段:
第一阶段是在2006年以前,彼时语音分解的次要办法是采用拼接分解技术, 用聚类的办法停止数据分类,或许经过决策树去做目的参数的预测,从而选择适宜的声学片段停止拼接。
第二阶段是在2006年-2012年间,基于HMM的统计参数模型逐步成为语音分解技术的热点, 也由此发生了一波研讨热潮。但是这种办法虽然具有模型小,对硬件要求低的优点,但声响的质量较差。该办法次要使用在硬件才能较差或许网络不波动的场景,比方导航零碎。
到2010年,由于事先整个语音范畴无论是在需求端还是技术端均无法获得严重的打破,尤其是语音辨认的功能无法到达预期效果,形成了研发经费被增添、人才少量流失的窘境,包括语音辨认和语音分解在内的整个语音范畴堕入了低谷期。此时,担任 松下 研发中心初级研发经理的李秀林,并没有 “随波逐流”到抢手的技术范畴,而是不断埋头苦干,潜心研究。
第三阶段从2012年-2013年开端,神经网络技术有了分明的打破,深度学习成为了一个有适用价值的工具,语音范畴逐步复苏,人才不时回归,创业公司如雨后春笋般生长起来。
与此同时,李秀林决议保持原有的温馨环境,离任松下,参加 百度 ,迎接新的应战。
任职百度时期,李秀林率领团队先后完成了在线语音分解、离线语音分解零碎的研发,使语音分解技术在百度的多条业务线得以使用。随后,李秀林开端专心攻克百度小说频道这一特定场景。由于小说的内容丰厚,情感崎岖大,朗诵时需求更强的表达才能。但事先的情感分解技术还停留在较为初级的阶段,难以实践使用。
针对这种状况,李秀林博士创始了一个完全不同的技术道路,应用基于篇章的、情感更丰厚的、更大规模的语音数据(数百小时),经过高精度自动预处置技术对数据停止处置和建模,完成了具无情感表达才能的高质量分解零碎。这一打破性研讨惹起了百度CEO李彦宏及多位高管的留意,他们为此鼎力赞扬并推行语音分解技术。2016年,这一项目取得了百度最高奖的奖项。
人生总是要不时地攀爬顶峰,且李秀林以为,百度的产品交互多为“滑屏”式,语音分解业务可以触达的用户并不多。因而,2016年李秀林参加滴滴并任职滴滴研讨院语音团队担任人兼首席算法工程师。2018年,李秀林博士辞去滴滴职位参加国际语音分解技术公司标贝科技,任结合开创人兼CTO。谈及缘由,李博士表示正好可以同语音分解的开展趋向一并解释。
李秀林引见说,在 滴滴 任务可以为导航及智能客服业务效劳,但是即使百度与滴滴的用户群体很大,语音分解技术实践上可以触达的用户还是非常无限的。或许说,语音分解技术的真正价值并没有被发扬出来。
语音分解的需求并不只仅存在于百度滴滴这样的巨头或独角兽身上,很多中小型企业也存在语音方面的需求。但是,这些中小企业虽然有才能开收回十分火爆的使用,却往往难以支撑语音研发所需的宏大投入本钱。如何处理呢?
这就需求有一个专门消费声响的公司与之协作,从需求剖析到声响采集再到最初完好的语音分解处理方案,全方位地协助这些中小型企业提升用户体验,同时也能协助各行各业享用语音分解技术带来的效果红利。李秀林以为,用语音分解技术效劳于B端用户,其发明的价值一定远远大于仅效劳于某一家公司,也势必是语音分解范畴将来的开展趋向。
从数据到全体处理方案, 标贝科技 业务大跨步
那么,李秀林博士为何选择牵手标贝科技?
能够在很多人眼里,标贝科技还是一家做数据标注的公司。
李秀林向亿欧引见道,标贝科技曾经从数据效劳型公司晋级为语音分解技术全体处理方案的公司,其业务从本来的音频、图像、文本等数据加工处置,拓展至语音分解技术范畴。李秀林之所以看好标贝科技的业务拓展,其缘由可分为内与外两个方面。
从外部来看,标贝科技拥有专业标注团队和少量自无数据,其数据加工才能曾经到达业内抢先程度。基于这一优势,可以展开少量的实验去继续提升分解效果,不时停止创新打破。李秀林以为,想要模仿出优质的声响,数据量与数据加工流程是极端关键的根底,标贝科技由数据标注与加工起家,其原有业务可使语音分解的后期任务更为随心所欲。
从内部来看,标贝科技原有的数据效劳曾经不能满足局部用户的需求。经过这次业务拓展,标贝科技不再只为用户提供数据处置这一后期预备任务,而是包括需求剖析、语料设计、语音采集、数据处置、线上效劳、效果评价的完好业务链。这不只代表标贝科技在业务上的行进,也意味着标贝科技艺够为用户提供更为完好、更为优质的整套语音分解效劳,使更多的产品在专业语音分解技术的加持下体验更优。
技术赋能协作方,标贝科技着力打造“声响超市”
标贝科技做语音分解业务具有一定的后天优势,但是关于新业务的探究仍无法漫不经心。李秀林博士又为何以为标贝科技艺够做好语音分解业务呢?
标贝科技语音分解业务包括音库制造和纯文本标注。音库制造包括多语种的分解音库录制,基于语音文件的音字标注、韵律标注、音节音素标注等外容;纯文本标注包括基于文本停止分词、词性、多音字、韵律、数字符号标注等。为满足以上功用,标贝科技设计了一套专业化的业务流程:
语料设计: 后期针对客户需求制定不同的语料设计方案,不同范畴采用特定的语料。
语音采集: 这一环节的中心是对录音质量的把控。发音人在录音棚长工夫录制,一个音节的了解错误都会影响语音质量,这时就需求有专人、全程监视,确保源头语音素材就是高质量。
数据处置: 标贝科技经过计算机顺序预处置,再交由人工停止完善。数据处置的任务非常复杂,如若全部人工标注,低效且不理想,但是经过顺序预标再由人工检测,其任务效率便可以大大进步。
评测: 为协助客户找到影响分解效果的成绩点,标贝科技基于对语音分解零碎的了解,可以收费为用户提供专业的剖析评测报告,从文本处置、韵律层级预测、声学参数和声码器四个方面停止剖析,协助其疾速找出成绩所在。
在引见标贝科技语音分解业务时,李秀林向亿欧提到一个新名词——声响超市。即在标贝科技提供的声响平台上,各公司可以自在地挑选声响,并依据调用状况停止缴费。同时,标贝科技还可以为有需求的大型企业提供定制化业务。
在用户方面,标贝科技选择的是教育、泛文娱以及触及人机交互业务的B端公司。之所以做这样的选择,李秀林引见缘由如下:语音分解的用户体验会遭到整个交互环节的影响,例如在语音辨认环节,机器能否可以正确地辨认出用户所说?在语义了解环节,机器能否可以精确的剖析出用户意图,并婚配出最为优质的答案?标贝科技仅仅可以处理语音分解这一个环节,在机新生的改变世界的企业将会诞生,从而更好的服务整个人类世界,走向更高科技的智能化生活。器给出错误答复的条件下,经过声响的安抚,增加用户的不称心水平。也因而,标贝科技会选择受语音辨认与语义了解影响较少的环节去展开业务,例如教育范畴的故事机,泛文娱范畴的配音等。
李秀林参加标贝科技后,将率领标贝科技语音分解团队努力于做出足够媲美真人的声响。现阶段的重点,是用尽能够大批的数据和语料掩盖到尽能够多的言语景象,即强化学习。
无论语音分解范畴处于顶峰还是低谷,李秀林一直坚持初心,希望可以生成 “以假乱真”的声响。李秀林对亿欧表示, “声响是日常沟通交流的重要载体,想要让大家在各种场景下都能享用到很好的声响体验,要让声响以假乱真,其苛求度十分高。”
现阶段标贝科技希望用语音分解技术为协作方赋能。标贝科技为B端用户提供优质的语音分解效劳,再由此辐射到更为普遍的C端人群,“数据效劳技术,技术改动生活”,我们等待标贝科技更为真实的“声响”!
5月25日,相约北京·千禧酒店,与安防行业大咖共话安防AI创新!呈献一场安防行业千人盛宴。
在这里,安防巨头厂商海康、大华、宇视将论述安防产品AI创新;CV新秀商汤、旷视、依图、云从、云天励飞将引见创企如何抢占市场树立壁垒;投资机构真格、明势、IDG、高榕将共谈最受资本喜爱的公司当具有哪些特质;还有中科院威望专家,将带来AI以及各种生物辨认的最前沿科技。
仅剩200张门票,理解大会概况及抢票请戳: GIIS 2018·安防AI创新峰会
版权声明
凡来源为亿欧网的内容,其版权均属北京亿欧网盟科技无限公司一切。文章内容系作者团体观念,不代表亿欧对观念赞同或支持。