麦博Microlab 发表于 2007-4-18 21:56:14

语音信号处理

语音信号处理
音频和视频是二大信息传播的形式,随着计算机技术的发展。音频和视频技术也得到了广泛的应用。
本人硕士研究的主要方向是语音数字信号处理、语音识别和语音编码。毕业后继续从事语音数字信号处理工作。目前主要工作是对各种语音(speech)和音频(audio)编码标准算法进行学习,进而进行实际应用的移植和优化。

接触了语音数字信号处理这专业后,自己深深地喜欢上这个方向,也将自己的职业方向定于此。平时涉足语音数字信号处理的各各方面:主要有:语音识别、语音编码、语音增强,音频特效(回声,3D等)。还对语音端点检测各种算法进行了深入的研究。

要在这一方向上有所成绩,应该学习以下几门基础课程:
    一、数字信号处理
    二、随机过程
    三、几门专门讲述语音信号处理的书籍
   除此之外,还要多阅读相关的中英文文献,对各种算法进行认真的演算和相互的编程练习。编程语言可以根据自己的专长,我平时所用的就是: C 和 matlab.

工作一年半来,主要是做语音/音频编解码方面的工作。 先后接触过以下的编解码:
   WMA encoder;WMA decoder 包括standerd, profession and lossless,;MP3 encoder/deocder, AMR_NB encoder/decoder;G.729 encoder/decoder, FLAC(Free lossless audio codec) decoder;AAC plus;AC3.
   主要是基于ARM core做项目开发,所经历的指令集: ARMv4~ ARMv6, 接下来要好好学习ARMv7指令了,适应时代的要求啊。

总结起来,在所有语音信号处理系统中,音频编码的深入研究学习对自己的能力提升会很快的,编码是在充分利用语音的数学模型和语音的相关时域的特性来去除冗余。
   speech codec 主要算法: 1、线性预测模型(LP) ---(Levison--Durbin)算法;2、LP--LSP--LSF 一些的系数转换;3、矢量量化;4、后滤波 等。
   代表codec: G.726, G.729系列, AMR_NB/WB, SVM 等变速率编码

   Audio Codec: 主要算法: 1、子带滤波;2、MDCT/IMDCT;3、量化(量化步长的自适应商定);4, huffman encoder/decoder;5,multi-channel 的编码方式,最主要有:双声道 M/S(利用两声道数据的相关性);多声道有mutli-channel transform ,也就是乘以一矩阵,能把2channel 变成多声道,相反操作也行。
   代表codec: WMA 系列;AAC 系列;MP3系列。

      上面只是大概说说主要的算法模型,还有很多算法细节要去好好学习,如不同的codec的帧长长度变化很大:从32samples到8192samples,甚至不定长的。等。 总之一句,很多算法都是可以reuse的,学通了可以多次应用,好好学习很重要啊。

北国军师 发表于 2007-11-23 09:37:31

:victory: :victory: :victory:
页: [1]
查看完整版本: 语音信号处理