深度声纹:一个端到端的神经声纹嵌入系统

摘要:

简介:本文提出了Deep Speaker,这是一个使用神经网络的神经说话人嵌入系统。系统将话语排列在一个超球面上,在这个超球面上,通过余弦相似度计算说话人的相似度。

应用场景:说话人识别、确认和聚类。

方法:利用雷斯克恩和GRU结构提取声学特征,利用均值池生成声学级的说话人嵌入,利用基于余弦相似度的三重损失进行训练。

结果:在三个不同数据集上的实验结果表明,Deep Speaker的性能优于基于DNN的i-vector基线。例如,在与文本无关的数据集上,认证错误率相对降低50%,识别准确率提高60%。此外,实验还表明,用普通话训练的模型可以提高英语说话人的识别准确率。

1,简介

基础知识点1:说话人识别

算法用于从音频数据中识别说话人。主要有两种:一种是说话人验证,一种是说话人身份验证(两分类任务,是不是说话人);二、说话人识别,说话人识别(多分类任务,谁在说话)。

基础知识点二:演讲者

识别根据输入数据分为两类:一是文本依赖识别,要求说话人念出特定的句子;第二,文本无关识别,随便说说,不需要具体内容。

行业行情1:说话人识别至今仍是一项具有挑战性的任务。

基础知识点三:传统音箱

识别基于I向量和概率线性鉴别分析(PLDA)。框架主要分为三步:1,收集足够的统计数据);数据;2.提取说话人嵌入(I向量);3.分类(PLDA)。

基础知识点4:官方统计(又称鲍姆-韦尔奇统计)可以用高斯混合模型-通用背景模型(GMM-UBM)计算。通过使用序列类型特征向量(例如梅尔频率倒谱系数、MFCC)来优化该模型。最近,深度神经网络(DNN)也被用于提取表面统计数据。

基础知识点五:传统方法的上述三个步骤是相互独立的。基于DNN的方法可以将第一步和第二步结合起来进行训练,中间瓶颈层提供的帧级向量可以用于训练集中不包括的说话人。但是这种方法至少有两个主要问题:(1)步骤1和步骤2没有直接针对说话人识别进行优化;(2)培训与测试不匹配。训练使用帧级标签,而测试使用表达式级标签。

本文算法结构概述1: (1)利用DNN(ResCNN和GRU)从语音模式中提取帧级特征。(2)池化和长度标准化层生成具有表达级别的说话人嵌入。(3)模型采用三重丢失训练,即同一说话人的向量对之间的距离最小化,不同说话人的向量对之间的距离最大化。(4)使用softmax层和交叉熵来提高模型的性能。

基础知识点6: CNN可以有效减少声音特征的谱变异,对声音特征的谱相关性进行建模。

本文算法的结构细节是1:与类似PLDA的损失函数不同,本文中的损失函数是DNN在本文中训练的嵌入向量的相似度,可以直接反映相似度。

本文算法结构细节2:采用全局负采样代替同一个小批量训练数据的负采样,提高训练速度。

本文的结论是1:深度说话人明显优于基于DNN的i-vector。

文本无关的说话人识别系统,在文本相关的识别中,深度说话人可以达到基线,如果采用文本无关的调试模型,文本相关的识别可以得到改善。

结论二:(1) Deep Speaker在大规模数据上表现良好;(2)不同语言之间的迁移表现良好。

2.相关著作

基础知识点7: PLDA可用于计算向量相似度,其变体方法有重尾PLDA和高斯-PLDA。

3、深度扬声器

整体结构:

3.1?DNN结构

3.1.1残余CNN

批量归一化:我们在卷积和非线性之间采用顺序批量归一化(bn),遵循[18]。

激活限幅整流线性(relu)功能:

3.1.2 GRU

GRU采用唯前锋GRU;;

BN和clipped ReLu也用于层间。

3.2扬声器嵌入

3.3三重损失和选择

相似度计算公式:

损失函数公式:

其中,

重要提示:在全球范围内寻找阴性样本,而不仅仅是这一批。

三联体丢失可以参考/jcjx 0315/article/details/77160273。

3.4 Softmax预训练

预训练(用预训练得到的权重初始化正式训练的权重):用分类层代替长度(soft max+交叉熵)?标准化和三重态损失层。

预培训的好处:

注:有预训练的线路,前10次是softmax预训练,后15次是triple正式训练,导致ACC和EER突变。