关键词:
说话人验证系统
高频掩蔽
深度学习
多头注意力机制
巴特沃斯低通滤波器
摘要:
语音在人机交互中扮演着重要角色,除了传递说话人想要表达的指令之外,还包含说话人的身份信息,利用说话人的声音特征验证说话人的身份称为说话人验证。说话人验证相比于人脸识别、指纹识别具有操作更便捷的特性。作为一种身份认证技术具有广泛的应用场景,如智能家居、车载语音系统、电话银行等。但在2018年,出现针对说话人验证系统的对抗攻击,其在一段音频中插入一段人耳不可察觉的微小扰动,使一个原本没有注册登记说话人被识别为已登记的任意目标说话人或特定的目标说话人,以此攻击说话人验证系统,给用户带来巨大损失。特别是近两年来,随着基于机器学习和深度学习的发展,对抗攻击种类越来越多,攻击能力越来越强,攻击方式越来越隐蔽,造成攻击越来越难防御。由于目前的防御方式不足以应对层出不穷的攻击,因此急需要研究一种新的防御手段来防御对抗攻击。基于此本文提出三种防御策略,一是基于五阶巴特沃斯低通滤波器防御策略;二是基于CNN与量化反量化的防御策略;三是基于多头注意力机制的防御策略。(1)基于五阶巴特沃斯低通滤波器防御策略。针对三阶巴特沃斯低通滤波器的防御效果不佳,提出改进的方法,通过提高巴特沃斯低通滤波器的阶数提高滤波器的性能,进而提高防御效率。根据滤波器设置的截止频率,过滤或抑制高频信号,保留低频信号以达到减小对抗扰动的目的。实验结果表明,采用该防御策略对快速梯度符号法攻击防御的效果为63.8%,对Fake Bob攻击的防御效果为23.1%,优于其他对比实验。(2)基于CNN与量化反量化的防御策略。针对CNN只能对音频进行基础的检测,不能确保通过检测的音频都为正常音频,因此在此基础上进行改进,提出量化反量化的方法对通过检测的音频进一步处理。首先利用卷积神经网络对输入的音频作检测,如果检测为正常样本则在进行量化反量化的还原处理,进一步降噪,再输入说话人验证系统识别;如果为对抗样本则直接去除。实验结果表明,该方法处理后的音频在说话人识别系统的识别准确率可达到91.3%。(3)基于多头注意力机制的防御策略。针对现有的防御手段如随机掩蔽,对Fake Bob攻击的防御效果较差。因此,本文提出一种利用掩蔽音频的高频分量方法来消除原始样本中人为添加的扰动,结合多头注意力模型进行音频恢复,恢复后重新输入ASV系统进行验证。实验结果表明采用掩蔽音频的高频分量结合多头注意力模型将对抗音频恢复为原始音频的准确率达到95.9%,可以有效提高ASV系统的鲁棒性,优于其他两种防御方式。