时间:2019-09-02 11:51:57 作者:无名 浏览量:33
在由美国国家标准技术署(NIST)主办的说话人识别技术评测(Speaker Recognition Evaluation,SRE)公布的最新评测结果。由快商通首席科学家李海洲教授及快商通声纹研究院领衔的I4U团队获得综合成绩第三名的好成绩,在大中华区参赛团队中排名第一。快商通客服在线下载日益激增!
国产骄傲、声纹识别排名全球前三!快商通客服在线下载日益激增!图一
l NIST SRE:国际最权威、标准最严、影响力最大的声纹识别技术评测
SRE 2018 是由NIST(National Institute of Standards and Technology,美国国家标准与技术研究院,直属美国商务部)承办的国际上规模最大、标准最严、最权威的声纹识别技术评测,为全球参赛研究机构提供了一个公平的统一测试平台,旨在关注声纹识别领域的核心技术问题。从1996年开始举办至今,参加 NIST SRE 评测的队伍逐年增加,今年有包括麻省理工、清华大学、声扬科技等在内的25个国家、78支队伍参赛。
近年来,NIST SRE 的重点任务是对于现阶段实用领域中,口语对话电话语音(CTS)的说话人检测。
国产骄傲、声纹识别排名全球前三!快商通客服在线下载日益激增!图二
今年,除了在各种手机上录制的CTS 之外,SRE18中的开发和测试材料还加入了IP语音(VOIP)数据,以及视频音频(AfV)数据。数据库环境的复杂程度更高、干扰因素更多,已远远超过一般的实际应用场景,意味着对参评机构的算法性能和系统鲁棒性等提出更高的要求。
另外,由于现实应用中,系统往往要根据不同的需求来决定阈值的选取。今年,为综合考核参评系统的灵活度、实用度以及综合实力,NIST 将C_primary(或称为actDCF)作为首要核心指标,用于描述说话人识别系统的整体辨别能力,评判标准不再仅看在某个阈值点的FAR/FRR或DCF,进一步提升了竞赛的难度。
因此,NIST SRE 测评结果不仅为当前说话人识别的最新技术进步水平,也代表着该技术在目前实战场景应用中能够具备的最佳表现。
l 声纹识别技术排名全球前三,快商通凭什么?
在众多多场景测评中,快商通声纹识别系统在十万分之一的误报率下识别准确率超过99%。是国内声纹识别领域企业中在该指标下的最好水平,也体现了我国说话人识别技术已达到世界领先水平。
“NIST SRE 评测挑战最大的是单信道多说话人识别。”快商通AI事业部研究员叶志坚表示,“测试数据中,每段语音使用麦克风阵列录制用来混合测试,比如电话信道涵盖了移动电话,固定电话等。麦克风类型也几乎覆盖实际应用中所有类型。其次,环境噪声也更‘广义化’,包括环境噪声、人声非语言、彩铃炫铃等各种背景噪声情况。我们的系统采用了经典的DNN-ivector系统和基于端到端深度神经网络(DNN)的说话人特征提取系统,在不同语种中使用的结果都不错。”
今年,快商通声纹研究院在单信道多说话人识别方面取得了重大的进展,提出“单耳语音分离技术”,实现单音频定向人声分离,开创性解决声纹识别中“鸡尾酒会问题”难题。经实测、在嘈杂的环境中能够准确分辨多说话人声音。
这套强大声纹识别系统出色的完成了 NIST SRE 的说话人检测任务,特别是在降低环境“噪声”干扰,以及同一段语音中多声纹特征提取方面表现优异,系统将语音样本分割聚类成独立的片段,准确标注出“谁”从“什么时候”到“什么时候”在说话。
l 美国“最严技术封锁”,国产AI能力崛起
美国商务部工业安全署(BIS)根据出口行政规定(ExportAdministration Regulations,EAR)对军民两用和较为不敏感的军品出口进行监管,主要甄别涉及国家安全和高技术范畴的出口。根据美国商务部文件(15 CFR Part 744 [DocketNo. 180712626–8840–01] RIN 0694–AH61 Review of Controls for Certain Emerging Technologies),从美国公布的清单中甄别筛选出的代表性产业类别来看,可谓条条针对中国最新计划发展的高科技产业。