农企新闻网

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

发布者:丁熙明
导读5月29日~30日,2018第六届TopDigital创新发布盛典暨创新奖颁奖仪式在上海举行。TopDigital追踪数字技术浪潮下的创新开展,掩盖TMT(Technology/Media/Telecom)、ABC回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命

5月29日~30日,2018第六届TopDigital创新发布盛典暨创新奖颁奖仪式在上海举行。TopDigital追踪数字技术浪潮下的创新开展,掩盖TMT(Technology/Media/Telecom)、ABC回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命——为广大的互联网公司进行AI赋能。(AI/Big Data/Cloud Computing)、大文创、泛金融等行业范畴,吸引了来自国际外数百家企业和上千名专业人士参与。

作为国际大会,如何让不同言语文明的参会者完成无妨碍沟通是大会的根本。雷锋网 (大众号:雷锋网) 理解到,作为此次峰会的协作同伴,搜狗将全程提供人工智能同传展现。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

国际会议“御用”的搜狗同传

在国际外专家和企业的高端对话中,搜狗的人工智能同传提供了强力的支持,让与会者无需担忧言语成绩。会场两侧屏幕上以中英双语实时展现嘉宾发言内容,翻译速度简直与嘉宾发言速度分歧。双语字幕不只能让与会者高效直观的获取演讲内容,实时文字记载也能为会后的材料整理节省少量的工夫。

自2016年降生以来,搜狗同传曾经支持了数百场国际外会议,屡次使用于GMIC、中国车联网博览会、世界电信和信息大会、全球人工智能技术大会等前沿国际科技大会,成为国际顶端会议的标配。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

2017年,由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办的 全球人工智能与机器人峰会(CCF-GAIR) 上,搜狗同传也作为协作同伴为大会提供同传支持。

据理解,搜狗同传不只能流利地记载、翻译内容,还能很好地辨认词语和句子的进展。这种复杂的同传任务难度极大,需求掩盖语音断句、语音辨认、文本断句、机器翻译等多个技术维度,才干构成波动牢靠的临场表现。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

不同于传统的机器翻译,实时翻译技术包括语音辨认、机器翻译两个小气向,还有一些细节优化与零碎调优。搜狗同传将语音辨认与机器翻译技术结合在了一同,希望提供从听到说、能了解会考虑的才能。

揭秘搜狗同传四大黑科技

搜狗的翻译团队在自然言语处置和深度学习方面有十分深沉的积聚,与谷歌GNMT的八层构造相比,搜狗同传的神经网络精简为五层,在效率上可取得不小的进步。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

在搜狗同传的技术框架中,语音断句算法经过能量检测和基于深度学习模型的方式,对语音信号停止语音和静音的判别,这样可以跳过对静音片段的处置以提升解码效率,同时语音片断可以联系成多句并行辨认,大大进步语音辨认的效率。

语音辨认局部,搜狗同传运用了CLDNN+CTC结合的声学模型和RNNLM言语模型,把经过语音断句后的片段,经过声学模型和言语模型转化成文本,保证辨认输入后果愈加通畅、流利,契合正常的发言习气。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

而在语音辨认和翻译之间,最关键的桥梁则是文本断句,这个模块是搜狗的语音同传技术可以使用的重要缘由。文本断句经过内容平滑技术去掉有意义词语,使句子变得通畅,然后经过规则和模型两种办法停止语句划分并加标点。

搜狗用到了双向 GRU 技术构建编码端的构造。经过 attention 机制在源端和目的端文本间停止对齐并生成以后时辰的句子级向量表示,并送至解码端,解码端逐词解码输入翻译后果。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

搜狗同传将语音辨认与机器翻译技术结合在了一同,采用端到端的神经网络翻译技术,经过编码端获取源端句子的散布式表示,应用留意力模型聚焦源端,运用循环神经网络生成翻译后果,翻译的后果相比传统机器翻译大约能高出30%~40%。

搜狗同传还创新性地将许多自然言语处置门类中非翻译义务的办法用于机器翻译中,经过向神经网络添加额定的机器学习模块来提升质量,点对点处理神经机器翻译中的详细成绩。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

例如,搜狗同传运用了如下四类技巧来提升模型质量:

  1. 用命名实体标注模型(NER)和神经网络实体翻译器对人名的稀有词停止翻译;

  2. 多模型集成(ensemble)来给出最优翻译后果;

  3. 重打分/重排序(rescore or rerank)机制选出最优翻译;

  4. 采用了Geoffrey Hinton团队提出的网络层正则化(layer normalization)技术,进步模型训练效率,同时改善模型的翻译质量。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

除此之外,机器翻译的最终效果不只和算法相关,还和数据密不可分。对同传来说,人们希望以愈加自然、接近人和人交互的方式来停止,同时也希望翻译引擎能更多的了解人的言语需求,在分解时的言语表达愈加自然。

搜狗作为一家搜索公司积聚的庞大语料库,对机器翻译效果的提升有很大协助。依据搜狗方面给出的预测数据,目前搜狗语音辨认的精确率为97%,支持最快每秒400字的高速听写,语音输出日频次高达3.4亿次,搜狗语音翻译的精确率则可以到达90%。

AI将助力同传效劳普及

完成全人类之间的顺畅交流不断是人类的梦想,如古人工智能让人们看到了完成这一梦想的希望,这也是AI翻译让群众继续兴奋、让技术公司和研讨人员坚持动力的最大缘由。

回想一年之前,人们还自信地以为AI取代传统人工同声传译“为时髦早”,但在短短一年工夫里,搜狗同传就曾经支持了数百场国际外会议,屡次使用于前沿国际科技大会,成为国际顶端会议的标配,充沛展现了国际企业在人工智能技术范畴的开展和实力。

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?

搜狗同传是AI技术落地实践使用的优秀案例,在本次大会的亮相更是反映出AI技术在应对全球跨言语交流、进步人类任务效率方面所具有的宏大潜力,为与会的各界人士对将来人工智能技术的普遍使用带来决心和等待。

置信在将来,搜狗同传会在更多范畴大展身手,带动翻译行业发生新的量变。


如今关注“雷锋网”微信大众号(leiphone-sz),回复关键词【2018】,随机抽送价值 3999 元的参会门票 3 张

相关文章:

揭秘:搜狗语音实时翻译是怎样炼成的

揭秘搜狗同传黑科技:它凭什么成为国际会议标配?