【48812】科研效果上新!
日期:2024-06-15 06:15:32   来源:数据采集转换类

  IJCAI(International Joint Conference on Artificial Intelligence)是全球AI范畴的首要国际会议之一,是我国核算机学会(CCF)引荐的A类国际会议。自1969年以来一直在推进人工智能技能的理论和使用开展。该会议每年招引来自世界各地的顶尖研讨者和实践者,共享他们在人工智能最前沿范畴的最新研讨效果,具有极高的学术名誉和影响力。

  论文首要研讨内容为多通道语音增强使命。多通道语音增强旨在经过多个麦克风从背景噪声中提取方针语音信号,有用地使用空间头绪是完成这一方针的要害。虽然深度学习技能在多通道语音处理方面展现出巨大潜力,但大多数现有办法依然依赖于直接操作短时傅里叶改换(STFT)系数。针对这一问题,潘佳慧同学提出了选用球谐改换(Spherical Harmonics Transformation, SHT)来处理多通道语音信号。该团队对TIMIT数据集进行了不同信噪比和混响条件下的评价,效果显现,他们开发的模型在功能上逾越了现有的基线模型。这一效果不只提升了功能,还在削减模型的核算量和参数的一起,明显地增强了模型的泛化才能。MS-SNSD数据集上的试验效果进一步证明了所提办法的有用性。这项技能的使用远景广泛,为多通道语音增强范畴带来了新的研讨方向和解决方案。

  将球谐改换系数作为模型的辅助输入能够简练地表达空间散布,答应不同麦克风数量的信号转化为一致维度的系数,使得单一模型能习惯不同装备的麦克风阵列,无需为每种布局独自规划模型。团队规划了两种根据SHT辅助输入的模型架构:并行与串行。并行模型包含两个编码器,别离处理STFT和SHT数据,经过兼并这两个编码器在解码器中的输出来预算增强的STFT,有用地交融了空间上下文信息。串行模型则首要对信号使用SHT改换,再将转化后的信号的STFT作为网络输入。这项研讨的首要奉献包含:首要,将球谐改换技能集成进深度学习办法中,改进了多通道语音增强的空间处理才能;其次,引入了两种立异的网络架构,别离独立处理STFT系数和SHT的并行模型,以及联合处理空间和频谱数据的串行模型;最终,证明了所提模型在多种环境条件下均能展现出杰出的功能,并且能有用习惯不一样的麦克风阵列装备。