智能语音技术中麦克风阵列的原理_二手音频_音频应用论坛 - Powered by AUIOAPP

音频应用论坛

 找回密码
 快速注册

QQ登录

只需一步,快速开始

搜索
热搜: 音频应用

[音频线] 智能语音技术中麦克风阵列的原理

[复制链接]
茫然 发表于 2018-8-7 11:12:52

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
智能语音技术中麦克风阵列的原理5 K: @& s, x( _7 N- c) a3 g9 Y& j
8 ?4 I2 r' K) T8 E  z6 h# g. ^
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
9 `. }1 r9 P3 H" f# n, x( n0 e4 E- q& h
  早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
( G- A" |7 C8 K+ P( D: n: z  h6 K+ K
9 j" |2 `, u6 d* \  麦克风阵列能干什么?' ?' ?% ~' n1 l5 b
5 {: U  t( E- S2 i/ s
  任何一项技术的发生发展都伴随着问题的提出及解决,麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能!+ L. h1 h# u7 r4 I5 ?
+ V. S( s0 {/ x& \) Y; G
  噪声环境怎么破?— 语音增强1 Q3 @1 K: [9 ]: u1 H0 Q

9 O# |. t! r9 B2 m  语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。
6 _; U( e( _1 d
9 A5 X* `" [8 z" \" n. |  通过麦克风阵列波束形成进行语音增强示意图3 Q8 \7 |- g/ f' x, S! X

0 ~$ F0 e$ X4 t) ?% N9 Y  从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。
- S+ c" B2 b8 g: k8 [; y
: V& n2 H/ n. t+ W  但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
5 T3 u1 M# p/ |% n8 F! M  ]5 j' Z# X* J. v0 k0 y* H' ^7 e: u( L* c
  目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。" c+ P/ _* F' }9 m# w8 D
6 [7 G' b( D& c' _4 P
  说话人老是变幻位置怎么破?—声源定位1 K, x) A. R0 C. m% a; O& K  @
3 o8 V. F7 p7 e
  现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。" V" [8 G- k& J

& J% ?2 g+ G% L  室内回声太大怎么破?—去混响. v2 R, p3 T/ g$ p

6 f; ~/ l4 T' ~' [7 c' [  一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。) i$ f3 e6 ]+ O4 |
- X5 I5 Z- `7 X" F: y
  但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。% G! k& `+ L6 O

/ r( f/ R& \8 z5 i2 S! U1 h  影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:
9 F) D' A$ Y# S2 O
& E$ {! l5 ~4 f9 D  S4 n  1、基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
6 P5 o5 [$ a9 ^% S4 ?4 k3 @: N  I6 Y" r' i% x8 C( P
  2、基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
0 `+ `$ i4 H5 k1 U/ y4 z) ^
  U0 Y& f: K. {3 o  3、基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
# ~( E1 V) _, D% }4 n: i4 u1 Y) n$ d
6 U6 O9 Z; {6 v5 @9 J2 d  现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果,在测试对比中,多种混响时间下识别效果接近手机近讲水平。9 n( k7 @  o6 _) D) _# y* d4 j# L
4 |7 ?% X0 ?& m
  混响语音信号频谱: x4 F1 R1 R6 a9 L
4 J. c# k+ x0 O* a! D; @  A* ?
  说话人太多怎么破?—声源信号提取(分离)
$ O, W; t" G4 p
2 P6 l3 h4 w7 B$ B2 L( L" M  家里人说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
' `9 R6 R6 |- [: D7 M/ S8 x# l5 P8 A5 z/ j2 Y. Z& F, x
  通过麦克风阵列波束形成做语音提取和分离
( v3 P1 c, a0 x6 c0 f* z$ O: R; ~9 @0 y; ^9 Q
  利用麦克风阵列做信号的提取和分离主要有以下几种方式:# |0 \7 ]% n- T% r/ ^  y

# C% N  R8 \+ B$ F* ]1 R, A  1、基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离:+ f' M9 B$ ]2 c+ r

, F4 i6 E3 ~5 J; i  2、基于传统的盲源信号分离(Blind Source Separation)的方法进行,主要包括主成分分析(Principal Component Analysis,PCA)和基于独立成分分析(Independent Component Analysis,ICA)的方法。) n" e  Z1 b; {$ }! b! h
) P; h' ?8 X2 }: g+ y) z- i8 i6 ]
  进击的麦克风阵列
: x: q/ p- ?$ i9 S2 p
7 Y: f) e1 y( v8 J  麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。
. ?4 t  n, C. z9 x% V! e5 S: h
- q' K5 e$ w9 w/ P# F7 n' }8 V  相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积——总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。: d- ~% w# I$ L& t# c: M$ |

/ B* t% J9 x# i  在万物互联的今天,麦克风阵列技术已经深刻的走进了我们的日常生活。在智能车载、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成了人机交互入口的第一选择,麦克风阵列自然也成为其中非常重要的前端技术。
0 U/ \8 I* H3 G6 r6 r4 P' Z
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

软硬产品代理咨询服务:声卡:雅马哈UR22C、罗兰声卡、福克斯特、艾肯、阿波罗 、M-audio 、普瑞声纳 、福克斯特、 达思冠系列 音箱:吸顶NS-IW560C、吸顶NS-IW660 、NS-AW350、低音NS-SW050、低音NS-SW100;JBL 吸顶8124、CSS-8006BM;香蕉猴 gibbon系列;普瑞声纳E5XT、E4.5、 E3.5BT 有线话筒:舒尔PGA27、PGA48、MV51、mv88、mv88+、SM27 ;森海E945 、MK4、E835S;舒伯乐top248s;罗德NT1-A、VIDEOMIC、VIDEOMIC GO、VideoMicro、VideoMic NTG 无线领夹麦克风:罗德 wireless go II 一拖一、一拖二;猛犸lark150 耳机:森海HD300 pro、美奇 CR-Buds 、索尼7506、爱科技K240S、K240 MKII、K271 MKII、K52、K72、K92、先锋、飞利浦 1:飞利浦会务通/会议摄像头/全向麦克风/执法仪/录音笔 2:洋铭便携式移动演播室 / 切换台 / 摄控一体摄像机 / 虚拟演播室 / 微金课教室 / 色键器 3:逻兰音视频切换台 / 声卡 / 电子鼓 /电钢琴 /耳机 4:Blackmagic专业摄影机 /调色台 / 切换台/ 广播级转换器 / 监视器 / 采集卡 5:索尼专业摄像机/佳能专业摄像机/松下专业摄像机/ insta360专业摄像机 6:话筒:铁三角/ 舒尔/ 森海塞尔 / AKG / RODE/ BBS 7:音响:YAMAHA/ 声艺 / 皇冠 /JBL / 真力/咪宝/BOSE /美奇 8:声卡:RME/羚羊/IXI /艾肯/PreSonus普瑞声纳/Focusrite福克斯特/YAMAHA/雅马哈/ickb 9:耳机:铁三角/beyerdynamic拜亚动力/AKG爱科技/索尼/RunningMan/美技 10:思锐三脚架 /防潮箱 /米泊三脚架/意美捷三脚架/曼富图三脚架 11:XSW系列,300.500代理商,EWD数字系列代理,6000.9000定制产品,还包销了全国三个型号:XSW1-825,EW100 G4-945,EWD- kk 205

小黑屋|手机版|Archiver|音频应用 (鄂ICP备13005321号-1)

Powered by Audio app

快速回复 返回顶部 返回列表