从技术到产业的动态关注

依图夺冠世界级声纹识别竞赛!全球声纹识别竞赛拔头筹依图夺冠世界级声纹识别竞赛!全球声纹识别竞赛拔头筹

2019-09-10 00:00:00

中国军团,继续刷新全球AI各项竞赛。

这一次,是全球声纹识别竞赛;这一次,是独角兽依图。

VoxCeleb说话人识别挑战赛,简称VoxSRC,近日正式公布结果。

在这场汇聚了中外语音领域顶级高手的挑战赛中,依图(logicworld)以绝对领先优势斩获冠军。

而且挑战赛比拼内容,正是当前语音识别领域最高精尖的“声纹识别”赛道。

之前依图已经展示了视觉感知、语音识别和语义理解等方面的不俗实力。

现在,依图则进一步用一个前沿技术领域的全球冠军,展示了其技术深度之外,在广度方面的开拓。真是依图出没,气势汹涌。

依图又夺何冠?

VoxSRC,由来自牛津大学,斯坦福国际研究院和麻省理工的学者组织举办。

参赛者包括约翰霍普金斯大学、法国国家信息与自动化研究所、日本电气(NEC)等传统豪强,也有中国的清华大学,天津大学,中山大学,依图科技,平安科技等学校企业。

选手都有备而来,比拼直接而激烈。

指纹识别,人脸识别已经被大众所熟知,但同样作为生物信息识别的一种——声纹识别(即说话人识别),目前还是技术挑战的前沿,常在科幻电影中出现,也常被语音AI公司当展望谈及。

声纹识别权威评判标准不多,但真正检验技术的,VoxCeleb说话人识别挑战赛可能算一个。

其主要考核,是运用AI技术如何能够从自然语音中识别出说话人。

比赛采用的训练数据集为VoxCeleb2,由牛津大学发起提供。这一数据集中的音频全部采集自YouTube,场景包括明星红地毯、名人演讲、真人节目访谈以及大型体育解说等,包含了5994位名人的超过一百万条语音。

这些名人涉及不同的性别,种族,口音,职业和年龄,并且音频中存在各种各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音设备噪声等等。

比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的公平与公正。