基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。 基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。 基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。
8 {9 [$ e2 l% @7 a$ E% b% M·声源定位 声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列,平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。
发展趋势 麦克风阵列技术相对于单麦克风系统有很多优点,已成为语音增强及语音信号处理的重要部分。语音增强和声源定位已经成为阵列技术中不可缺少的部分,在视频会议,智能机器人,助听器,智能家电,通信,智能玩具,车载领域都需要声源定位和语音增强。 当下,大部分语音信号处理都是基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化,是典型的非平稳态过程。因为语音信号具有短时平稳的特性,所以可以用主流信号处理方法对其处理。因此,麦克风阵列的基本原理和模型方面还存在较大的局限,所以基础研究的突破才是未来的根本。 小型化 麦克风阵列受制于半波长理论的限制,限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是出于ID设计考虑。实际上,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小,移植到消费领域只是时间问题。 低成本化 当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。近年来,由于新技术的应用,多麦克风阵列的成本下降非常明显。 多人声的处理和识别 人的耳朵可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音。但现在的麦克风阵列和语音识别还都是单人识别模式,距离多人识别的目标还很远。现在的算法思想主要是“抑制”,而不是“利用”,这实际上就是人为故意简化了物理模型,因此语音交互格局已定的说法经不起推敲,对语音交互的认识和探究应该说才刚刚开始,基础世界的探究很可能还会出现诺奖级的成果。若展望的更远一些,则是物理学的进展和人工智能的进展相结合,可能会颠覆当前的声学信号处理以及语音识别方法。 阵列麦克风对人工智能的意义 通过电扫阵列等空间定位技术可以获取声源的有效位置,智能设备在获取精准的声源位置信息,让我们的语音更加智能,通过算法获取高品质的语音信号质量。 麦克风阵列可以自动检测声源位置,跟踪说话人,同时可以获取多声源和跟踪移动声源的优势,无论你走到任何位置,智能设备都会对你的位置方向进行语音增强。 阵列麦克风增加了空域处理,对多信号空时频三维的处理弥补单信号在噪声抑制,回声抑制,混响抑制,声源定位,语音分离方面的不足,让我们的智能设备在复杂的环境中都可以获取高质量的语音信号,提供更好的智能语音体验。 总结 在万物互联的今天,麦克风阵列技术已经走进了我们的日常生活。在智能音响、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成为人机交互入口的第一选择,麦克风阵列技术自然也成为热门的前端技术。进击的麦克风阵列还会给人工智能带来什么,让我们拭目以待。 |