侧边栏壁纸
  • 累计撰写 16 篇文章
  • 累计收到 2 条评论

SSL综述

晨旭不想写程序
2024-06-02 / 0 评论 / 6 阅读 / 正在检测是否收录...

SSL(SoundSourceLocation)

声源定位,是是我们任务一的主要研究主题题

我们通过这一文献A survey of sound source localization with deep learning methods中的简要介绍

了解到声源定位大多数场景下的主要任务其实是DOA,也就是direction of arrival

关注于方位角与仰角的研究,并不注重于距离的研究

传统的SSL方法是基于信号/信道模型和信号处理(SP)技术。尽管多年来它们在该领域的显着进步,但在可能存在噪声、混响和几个同时发射声源的困难但常见的场景中,它们表现不佳。

在近几年,深度学习成果不断涌出,很多研究都证明DL方法在一些SSL场景下比传统方法更优秀,

尽管如此,在过往对于SSL问题解决的综述中只有很少提及到DL方法,本文就是为综述DL在SSL方向的应用而作,总结近几年间使用的DL on SSL方法

针对DL SSL方法,我们一般使用麦克风阵列获得的多通道输入信号进行特征提取后作为输入特征输入神经网络 最后得出DOA的预测

image-20240404001733309

在最新的一些研究中,特征提取模块往往被省略掉,多通道信号直接输入DNN

麦克风阵列中,麦克风之间的距离相比于麦克风到声源的距离要近,虽然从信号波形上来看他们差不多

但是在延迟与振幅方面都有或多或少的差距,这些差距主要来源于源到不同麦克风的不同传播路径,对于直接路径和在室内环境中组成混响的大量反射

麦克风信号通常使用时频(TF)表示,使用短时傅里叶变换

SSL的一大难点就是不同源头的声音在传播时,在时间轴上有了重合,其实就是同时有多个音源进行发声,如何准确分离他们也是一件很重要的任务,出现反射现象与嘈杂环境的时候,声源之间的位置关系较为复杂

传统难点:

多音源同时发声

反射

噪声

传统方法通常对于情况进行假设后进行建模,在真实世界中并不都能起到作用

而深度学习方法能够对于真实的数据进行适应,当然这也造成了

DNN缺点:

DNN方法在一般场景下的主要缺点就是不通用高效(受限于训练成本与所需数据量)

深度学习的缺点就是如果给定配置发生变化 得出的结果也不满意

方法分类

TDoA

当麦克风阵列形状已知时,DOA估计可以通过估计麦克风之间源的到达时间差(TDoA)来决定

GCC-PHAT

具有相位变换的广义互相关(CC)方法(GCC-PHAT)是处理2麦克风阵列时最常用的方法之一,它被是两个麦克风信号之间的交叉功率谱(CPS)的加权版本的逆傅里叶变换

image-20240405212623605

广义互相关函数表示的就是同一声源在时延 s 下两个麦克风信号之间的相关性。

$X_i(f)$是麦克风信号经过傅里叶变换后的频域表示

使用复共轭(*)是一种特殊的处理办法,只有这样才能保留交叉功率谱的相位差

image-20240405214616054

接下来我们进行PHAT加权 其形式就是公式主体部分,使用获得的交叉功率谱除以幅值

通过寻找使得广义互相关函数最大的时延参数,即两个麦克风获取的信号相似度最高时,达到最好估计时间差的效果,这样能够获得最准确的时间差

目前GCC方法已经扩展到了两个以上麦克风的情况

这种方法本身具有一定的抗噪声与抗混响能力,但是在信噪比降低、混响增强时,该算法性能急剧下降

SRP-PHAT

TDOA这种方法没有用到阵列整体的优势,缺乏稳健性。而基于可控响应功率(SRP)的波束形成技术,具有较强的稳健性、抗噪性,以及具有一定的空域滤波性能,能够提高信号的信噪比,增加探测距离。在确定声源位置时,一般采用最优化算法,最小二乘法容易陷入局部极值点,而基于自然选择法则的遗传算法(GA)模拟生物进化过程,具有并行计算的特点,是一种全局搜索算法,能够得到全局最优解。将基于可控响应功率的波束形成技术和遗传法算法应用于枪声定位系统中,并通过实际的试验数据对此方法进行了验证,从结果来看具有较高的精度。

基于相位变换加权的可控响应功率的声源定位算法

这种方法具有较强的鲁棒性 但是在低信噪比的环境下定位性能较差,计算量较大,不经常使用

SRP-PHAT对阵型没有特定要求,因此也适用于分布式阵列,事实上很多基于分布式阵列的定位系统采用了该算法。

这种方法就是在空间中一点做出所有麦克风对信号的GCCPHAT和,在整个声源空间中寻找使得SRP值最大的点即为声源位置估计

MUSIC

基于高分辨率谱估计的声源定位方法:

通过分析每个元素信号之间的相关性,构造 出一个拟合矩阵,从而确定声源位置。

MUSIC算法首先通过将阵列接收到的信号进行空间谱估计,得到信号在不同方向到达时的空间谱。然后,通过对这些空间谱进行分解,可以找到信号所在的方向。

将阵列输出数据的协方差矩阵进行特征分解,从而得到与信号分量相对应的信号子空间和与信号分量相正交的噪声子空间。 利用这两个子空间的正交性,构造一个空间谱函数,该函数在信号源所在方向处具有 尖峰。通过搜索空间谱函数的峰值,可以得到信号源的方向估计。

1、构建信号接收矩阵,将阵列接收到的信号按照时间在矩阵中排列,每一列对应一个传感器接收到的信号。

2、利用接收信号矩阵计算协方差矩阵,并对其进行特征值分解,得到信号的空间谱。空间谱表示了信号在不同方向到达时的能量分布。

协方差矩阵描述了各个传感器接收到信号之间的相关性和变化。

对协方差矩阵进行特征值分解。特征值分解是一种将矩阵分解为特征向量和特征值的操作。在这里,我们得到的特征向量描述了信号在各个方向上的空间谱,而特征值表示了信号在这些方向上的能量。

为什么通过特征分解能够得到各个方向上的空间谱,并且能够构成信号子空间与噪声子空间,

3、利用空间谱进行DOA估计,通过对空间谱进行分析,可以找到信号的主要方向。在MUSIC算法中,通过选取空间谱中的极值点(通常是最小的N个特征值对应的特征向量),可以确定信号的方向到达。

https://zhuanlan.zhihu.com/p/613304918

image-20240406211354625

在这里插入图片描述

0

评论 (0)

取消