华中科大王云明教授AFM:新型压电纳米纤维气凝胶实现高精度声纹识别
2025-09-17 15:21:01 作者:本网整理 来源:网络 分享至:

 

 

近年来,语音通信作为最直接的信息交流方式,广泛应用于无线通信领域,但也面临语音合成、录音回放和语音模仿等欺骗性攻击的威胁。与指纹、面部虹膜、DNA等生物识别技术相比,声纹识别具有动态、非接触和远程实施的优势,尤其适用于电信防诈骗等场景。然而,现有声学传感器在声电转换性能、信号提取能力和复杂环境下的识别效果方面仍存在显著不足,尤其是传统传感器在灵敏度、带宽和功耗方面的局限,制约了声纹识别技术的发展。

针对上述挑战,华中科技大学王云明教授李贵刚教授国防科技大学Xu Lingjuan合作成功研制出一种基于L-聚乳酸/丝素蛋白(PLLA/SF)的声学驱动纳米纤维气凝胶(ANA),该材料具备三维多孔结构,能够在声波激励下产生显著的结构形变,从而提升声电转换性能该器件在90–1000 Hz范围内实现宽频响应,灵敏度高达16 V·Pa⁻¹,最大输出电压和电流分别达到65.6 V和10.59 μA,频率分辨率优于1 Hz。通过对其电响应信号进行特征频谱分析,该传感器可有效识别说话人身份与情绪状态,为未来自供电人机语音交互系统提供了新思路。相关论文以“Piezoelectric Voiceprint Recognition Based on 3D Nanofiber Aerogel”为题,发表在Advanced Functional Materials 上,论文第一作者为Xia Weibang。

在研究过程中,团队通过湿法静电纺丝与水基聚氨酯复合交联的策略,构建出结构稳定的三维纳米纤维网络。图1a展示了PLLA/SF ANA用于声纹识别的示意图。随后,图1b显示不同纳米分散浓度(1%、3%和5%)下材料在90–1000 Hz频带内的输出电压表现,其中3%浓度下性能最优。图1c进一步表明,该传感器能准确识别包含100、110和120 Hz的复合音频信号,经快速傅里叶变换(FFT)分析后,频谱峰值与原始信号高度一致。此外,当带有“悲伤”情绪说出“Good luck”时,传感器不仅能提取时间域上的振幅起伏、间隔停顿等特征,还能在频域上识别出140 Hz和284 Hz等情绪相关频段(图1d),显示出其在多维度声纹分析中的潜力。

图1 a) 基于PLLA/SF纳米纤维气凝胶的声纹识别原理示意图。 b) 不同纳米分散浓度(1%、3%、5%)PLLA/SF ANA在90–1000 Hz频带内的输出电压。 c) ANA对100、110、120 Hz三频混合声的电压时域信号与FFT谱图。 d) 受试者以悲伤情绪说出“Good luck”时的电压波形及FFT谱。 

图2a比较了不同纺丝浓度下材料的输出电压,发现18%浓度下性能最佳。在120 dB声压级、90–1000 Hz频率范围内,器件的开路电压和短路电流在150 Hz处达到峰值,分别为65.6 V和10.59 μA(图2b–c)。随后,研究人员让不同受试者向传感器说出“Hi Nanoscience”,并记录其时域电压信号(图2d)。通过FFT和短时傅里叶变换(STFT)分析,男性和女性的基频分布差异显著(图2e),男性集中于200 Hz以下,女性则大约在240 Hz,体现出其在天生生理结构差异上的敏感性。

图2 a) 不同纳米纤维分散浓度下ANA的输出电压对比。 b) 最优参数ANA在90–1000 Hz范围内的开路电压。 c) 对应短路电流。 d) 四位受试者朗读“Hi Nanoscience”的时域电压信号。 e) 相应FFT与STFT谱,显示性别与节奏差异。 

图3进一步评估了器件在不同声压、距离和角度下的性能。随着声压级从87 dB升至120 dB,输出电压从7.2 V提高至65.6 V(图3a)。声源距离越近,声压衰减越明显,电压响应也随之变化(图3b)。器件的声学灵敏度在低SPL下最高可达16 V·Pa⁻¹(图3c)。经FFT带通滤波处理后,信号在150 Hz处保持高度纯净,信噪比达58 dB(图3d–e)。此外,传感器表现出明显的“8字形”方向响应特性(图3f),说明其具备声源定向感知能力。在经过5万次强声循环和9个月存储后,器件仍保持稳定的电输出(图3g–h),显示出优异的耐久性。

图3 a) 输出电压随声压级(87–120 dB)的变化。 b) 2 cm与25 cm声源距离下的电压波形对比。 c) 灵敏度随声压级变化曲线,最高16 V·Pa⁻¹。 d) 经140–160 Hz带通滤波前后150 Hz信号对比。 e) 150 Hz主频信噪比达58 dB。 f) 不同入射角度的“8”字形指向响应。 g) 5万次120 dB循环冲击后的电压稳定性。 h) 九个月老化后性能保持率超过90%。

为验证其高精度频率分辨能力,团队生成了多组双频信号(100/200 Hz、130/131 Hz、150/150.01 Hz),PLLA/SF ANA均能清晰分辨出频率间隔小至0.01 Hz的峰值(图4a–b、d–e、g–h)。此外,该传感器还能准确识别狗、猪、豹等动物叫声(图4c、f、i),并成功模拟了对诈骗电话音频的响应,显示出其在多种实际场景中良好的声纹识别能力。

图4 a、b) 对100/200 Hz双频信号的时域与FFT分辨。 d、e) 对130/131 Hz双频信号的分辨。 g、h) 对150/150.01 Hz双频信号的分辨。 c、f、i) 记录并识别狗、猪、豹叫声的电压波形与频谱。

综上所述,该研究开发的PLLA/SF声驱动纳米纤维气凝胶在宽频响应、高灵敏度、高分辨率和稳定性方面表现出色,能够通过声电响应频谱有效识别说话人身份与情绪。这一技术有望推动个性化AI语音交互服务的发展,并在可穿戴/植入式语音识别设备中发挥长远作用,为人机交互领域带来新的技术突破。

免责声明:本网站所转载的文字、图片与视频资料版权归原创作者所有,如果涉及侵权,请第一时间联系本网删除。

    标签:
相关文章
无相关信息