您的当前位置：首页正文

谱减法语音增强

2021-09-11 来源：独旅网

Ｖａｌｕｅ　Ｅｎｇｉｎｅｅｒｉｎｇ　・４７・　谱减法语音增强　Ｓｐｅｅｃｈ　Ｅｎｈａｎｃｅｍｅｎｔ　Ｍｅｔｈｏｄ　Ｕｓｉｎｇ　Ｓｐｅｃｔｒａｌ　Ｓｕｂｔｒａｃｔｉｏｎ　郭欢Ｇｕｏ　Ｈｕａｎ　（空军航空大学基础部，长春１３００２２）　（Ｂａｓｉｃ　Ｃｏｕｒｓｅ　Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ａｉｒ　Ｆｏｒｃｅ　ｓ　Ａｖｉａｔｉｏｎ　ｓ　Ｕｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｃｈｕｎ　１３００２２，Ｃｈｉｎａ）　摘要：本文就语音信号及各噪声信号的特点进行了分析研究，提出了一种具有高稳定性且适用范围广的语音信号增强算法，并更进一步提　出一种采用谱减法的语音增强方法。　三　二　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｓｔｕｄｙ　ｏｆ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ　ｏｆ　ｓｐｅｅｃｈ　ｓｉｇｎａｌ　ａｎｄ　ｎｏｉｓｅ　ｓｉｇｎａｌ　ａｎａｌｙｓｉｓ　ｈａｖｅ　ｓｕｇｇｅｓｔｅｄ　ａ　ｈｉｇｈ—ｉｎｔｅｇｒｉｔｙ　ａｎｄ　ａ　ｂｒｏａｄ　ｓｃｏｐｅ　ｏｆ　ｓｐｅｅｃｈ　ｓｉｇｎａｌｓ　ａｎｄ　ａｌｇｏｒｉｔｈｍｓ．Ｔｈｅ　ｐａｐｅｒ　ｆｕｒｔｈｅｒ　ｂｒｉｎｇｓ　ｆｏｒｗａｒｄ　ａ　ｒａｎｇｅ　ｏｆ　ｓｐｅｅｃｈ　ｅｎｈａｎｃｅｍｅｎｔ　ｍｅｔｈｏｄ　ｕｓｉｎｇ　ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ．　关键词：语音信号处理；谱减法；语音增强　Ｋｅｙ　ｗｏｒｄｓ：ｓｐｅｅｃｈ　ｓｉｇｎａｌ　ｐｒｏｃｅｓｓｉｎｇ；ｓｐｅｃｔｒａｌ　ｓｕｂｔｒａｃｔｉｏｎ；ｓｐｅｅｃｈ　ｅｎｈａｎｃｅｍｅｎｔ　中图分类号：ＴＮ９１２　文献标识码：Ａ　文章编号：１００６—４３１１（２０１０）０６—００４７—０２　０引言　些可以通过变换而转变为加性噪声。例如，乘性噪声ｆ或卷积噪声）＝－３－　语音增强的一个主要目标是从带噪语音信号中提取尽可能纯　以通过同态变换，而成为加性噪声。又如，某些与信号相关的量化噪　净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取　声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。　完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要　这里仅讨论加性噪声。加性噪声大致上有：周期性噪声、脉冲噪声、　有两个一是改进语音质量，消除背景噪声，使听者乐于接受，不感　宽带噪声和同声道其他语音的干扰等。　觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度　１．１周期性噪声：其特点是具有许多离散的线谱。主要来源于　量。这两个目的往往不能兼得。之前有一些对低信噪比带噪语音进　发动机等周期性运转的机械。电气干扰，特别是电源交流声，也会引　行语音增强的方法，可以显著地降低背景噪声，改进语音质量，但并　起周期性噪声。显然，这种周期性噪声可以用梳状滤波器予以抑制，　不能提高语音的可懂度，甚至略有下降。　这可以用数字信号处理的方法来实现。如图１所示，图中ＤＦＴ和　环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语　ＩＤＦＴ分别为离散傅里叶变换和反变换，其原理是一目了然的。　音识别已取得重大进展，正在步入实用阶段。但目前的识别系统大　ｒ————］ｒ——————］ｒ————１　都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音　带噪语　Ｌ—————＿－ＪＤＦｒ　Ｉ—上塑堂壁　ｌ　—Ｉ—ＤＦ一Ｔ　一　＋增强语音　识别系统的识别率将受到严重影响。低速率语音编码，特别是参数　图１语音增强过程图　编码（声码器即为典型一例），也遇到类似问题。由于语音生成模型是　然而，实际环境中产生的周期性噪声并非简单地只含线谱分　低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景　量，而是由许多窄谱带组成。而且，往往是时变的，并与语音信号频　噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可　谱重叠，必须采用自适应滤波的方法才有可能自动识别和区分噪声　懂。在上述情况下，语音增强作为一种预处理手段，不失为解决噪声　分量。　污染的～种有效途径。　１．２脉冲噪声：脉冲噪声表现为时域波形中突然出现的窄脉　ｌ噪声特性　冲。它来源于爆炸、撞击和放电等。消除脉冲噪声通常可以在时域内　噪声来源取决于实际的应用环境，因而噪声特性可以说是变化　进行，其过程如下：根据带噪语音信号幅度的平均值确定闭值。当信　无穷。噪声可以是加性的，也可以是非加性的。对于非加性噪声，有　号幅度超出这一闭值时，判别为脉；中噪声。然后对它进行适当的衰　７Ｏｃｃ条件下不同酶量（Ｌ）的破胶曲线　和支撑　剂孔隙渗透　４生物酶破胶剂与氧化剂对比　压　率的降　低。利用岩　常用的氧化破胶剂有过硫酸钾和过硫酸铵等。氧化破胶剂在高　刨１　芯实验　我们室内测　温下与压裂液反应迅速，使压裂液提前降解而失去输送支撑剂的能　蜒　试了压　裂液酶法破　力，甚至导致压裂施工失败；它属于非特殊性反应物，能和遇到的任　幽　胶后岩　芯渗透率变　何反应物如管材、地层基质和烃类等发生反应，生成与地层不配伍　化，与　常规破胶剂　的污染物，造成地层伤害；氧化破胶剂很可能在达到目的裂缝前就　相比，　生物破胶酶　消失耗尽了，因此达不到破胶的目的。生物酶破胶剂对瓜胶及其衍　能将渗　透率提高近　生物破胶，主要是通过催化瓜胶表面特定键使其裂解，最终将破胶　一倍，　也说明了压　残渣液中的聚合大分子物质变成简单的不可还原的单糖，使得压裂　裂液对　地层的伤害　液残渣液能从支撑剂充填中更稳定地返排出来，减少聚合物伤害，　程度。　提高采油增产效率。　３　石油压裂液　５现场应用效果　生物破　胶的应用工　树６７—１１和树８１—３３开展了石油压裂液生物破胶现场试验，共　时间（分钟）　乙　压裂８层，累计注入压裂液８１４．９１ｍ　，注入生物酶浓度５０ｐｐｍ，扩散　图６　为了设计生物　４０分钟开始返排，共返排４２６ｍ　，返排率达到５２．２８％，比不用生物　破胶剂的使用方法，测试了加有破胶剂的压裂液分别置于３Ｏ℃、　酶的４３．５７％平均返排率高出８．７１％，两口井初期日捞液５ｔ，目前日　４０℃、６０℃的恒温水浴中，观察破胶现象，结果显示，生物破胶剂在　捞液１．３ｔ，从返排量和破胶液粘度看，返排比较彻底，破胶也很彻　低于４０℃时在几个小时内不会使压裂液粘度降低，在６０。Ｃ可在３０　底，取得了较好的压裂效果。　分钟内将压裂液粘度降至１０厘泊以下；并且生物破胶剂可提高破　６认识　胶性能。　针对榆树林油田压裂液配方体系，利用我国独特的极端微生物　根据本生物破胶剂在常温下活性很低的特性，设计生物破胶剂　资源，配制了适用于榆树林油田的石油压裂液的生物破胶剂，该生　的使用方法为从加砂开始，将一定量的生物破胶剂（携砂液量的十　物破胶剂可使瓜尔胶、田青胶、魔芋胶、胡麻胶、香豆胶等植物胶降　万分之六）和携砂液混合，之后压入地层；或先与交联剂混合，之后　粘，破胶后压裂液残渣相对较少，对岩芯伤害率明显低于化学破胶　再与基液混合，压入地层。其他工序不变。　的伤害率，取得了非常满意的压裂效果。　・４８・　价值工程　上　减，甚至完全消除。也可以根据相邻信号样值通过内插的方法将脉　ｆｓ（ｗ）『＿［ｉＹ（ｗ）　ｉＮ（ｗ）ｆ　２】。　（８）　冲噪声在时域上进行平滑。　根据人耳对相位变化的不敏感这一特点，可以用原带噪语音信　１．３背景噪声对发音的影响：噪声破环了语音信号原有的声学　从而可以得　特征和模型参数，模糊了不同语音之间的差别，使语音质量下降，可　号ｙ（ｔ）的相位谱来代替估计之后的语音信号的相位谱，储度降低，强噪声会使人产生听觉疲劳。不仅如此，强噪声环境还对　到降噪后的语音时域信号。基本谱减法的原理图如５图所示　噪声　讲话人产生影响，使讲话人改变在安静环境或低噪声环境中的发音　带噪　方差　方式，从而改变了语音的特征参数，这称为Ｌｏｍｂａｒｄ效应，它对语音　语音　识别系统有很大影响。　１．４同声道语音干扰：人耳可以在两人以上讲话环境中分辨出　所需要的声音，这种分辨能力是人体内部语音理解机理具有的一种　增强　感知能力。人类的这种分离语音的能力称为“鸡尾酒会效应”，这种　语音　能力来源于人的双耳输入效应。但当多个语音叠合在一起，在单信　图５谮减法原理框图　道中传输时，双耳信号因合并而消失。如同人的指纹那样，每个人因　３改进的谱减法　发音系统生理构造的差异，也有不同的“声纹”，这种“声纹”在于他　由于假设加性噪声是零均值的高斯分布的，才有式（４）相关项　们的语音生成模型参数不同。同声道语音干扰及其传输和增强过程　等于０。但是这个假设在现实世界中并不总是正确的，因为噪声通　的示意如图２所示。　常不可能是零均值的高斯分布的，噪声可能是非零均值的，也可能　是非高斯分布的。在此时，这个非零项就不能被忽略，尤其是在低信　噪比时更不能被忽略。本文提出的近似估计此非零项的方法如下：　首先：　图２语音增强过程示意图　ｔ／ｅ［Ｓ（Ｗ）Ｎ　（Ｗ）１＝ＩＳ（Ｗ）ＩＩＮ（Ｗ）Ｉｃｏｓ（Ｏｓ－ＯＮ）　（９）　其中Ｓ（Ｗ）＝ＩＳ（Ｗ）ｌｅｘｐ（ｊ０ｓ），　Ｎ（Ｗ）＝ＩＮ（Ｗ）Ｉｃｏｓ（Ｏｓ－Ｏ　），所以有：　Ｅ（１￣ｅ｛Ｓ（Ｗ）Ｎ　（Ｗ）１）＝Ｅ（ＩＳ（ｗ）ＩＩＮ（Ｗ）ｌｅｏｓ（０　ｅＮ））　（１　ｏ）　假设ＩＳ（ｗ）ｌ、１Ｎ（ｗ）Ｉ和Ｃ０￥（０　０　）是相互独立的，所以有：　Ｅ＝（Ｒｅ｛Ｓ（Ｗ）Ｎ　（Ｗ）１）＝Ｅ（Ｉｓ（Ｗ）Ｉ）Ｅ（ＩＮ（Ｗ）１）Ｅ（ＣＯ￥（０　一０　｝）　（１１）　１．５宽带噪声：宽带噪声的来源很多，热噪声、气流（如风、呼吸）　噪声及各种随机噪声源，量化噪声也可视为宽带噪声。由于宽带噪　声与语音信号在时域和频域上完全重叠，因而消除它最为困难。这　种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声通常可　以认为是白色高斯噪声。不具有白色频谱的噪声，可以先进行白化　处理。对于非平稳的宽带噪声，情况就更为复杂一些。　下面列举几种噪声波形图：　＝　由于不等式Ｅ（ｘｚ）≥【Ｅ（Ｘ）］　成立，所以有：　Ｅ（ＩＳ（Ｗ）Ｉ）：０【［ＥＩＳ（Ｗ）Ｉ　和Ｅ（ＩＮ（Ｗ）ｆ）：ｐ［ＥＩＮ（ｗ）　‘　（１２）　其中０≤　，Ｂ≤ｌ，所以（１１）变为：　ＥｆＲｅ｛Ｓ（Ｗ）Ｎ　（Ｗ）｝）＝　ｐＥ（ＣＯＳ（０ｓ－０　））：［ＥｆＩＳ（ｗ）Ｊ　）Ｅ（ＩＮ（ｗ）１２）】　｝　［Ｅ（ＩＳ（Ｗ）Ｉ　）Ｅ（ＩＮ（ｗ）　Ｉ）］　（１３）　其中设　：　ｐＥ（（ＣＯ８（０ｓ－０　）），故０≤　≤１。所以（８）变为：Ｅ（ＩＹ　图３白噪声波形图　图４冲击噪声波形圈　２基本谱减算法　（Ｗ）ｆ。）：Ｅ（ＩＳ（Ｗ）『２）＋Ｅ（ＩＮ（Ｗ）『２）＋２　［Ｅ（ＩＳ（Ｗ）Ｉ　）Ｅ（ＩＮ（Ｗ】ｉ。）】　（１４）　对一个分析帧内的短时平稳过程，有：ＩＹ（Ｗ）１２＝１Ｓ（ｗ）１２＋ＩＮ（ｗ）１２＋　牟　基本谱减算法的思想是假设在加性噪声与短时平稳的语音信　２Ｘ［ＩＳ（ｗ）ＦＩＮ（Ｗ）　Ｉｚ］　（１５）　号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从　由上式得　ＩＳ（ｗ）１２＝ｌｙ（Ｗ）Ｊ２－（１—２　）ＩＮ（Ｗ）ｔ２－２Ｘ［ＩＹ（ｗ）ｆ２＿（１．．　）ｌＮ　而得到较为纯净的语音频谱。　上　Ｉ４］　（１６）　如果设ｓ（ｔ）为纯净语音信号，ｎ（ｔ）为噪声信号，Ｙ（ｔ）为带噪语音　（ｗ）从原带噪语音信号ｙ（ｔ）可以求得功率谱ＩＹ（Ｗ）ｌ：通过发声前的　信号，则有：　Ｙ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ）　【１）　“寂静段”可以估计噪声ｒｌ（ｔ）的功率谱参数，取【０，１】之间的某个值　则根据式（１６）就可以求得ＩＳ　用Ｙ（Ｗ）、Ｓ（Ｗ）、Ｎ（Ｗ）分别表示Ｙ（ｔ）、Ｓ（ｔ）、ｎ（ｔ）的傅立叶变换。　（不同语音帧可以取相同或不同的值）（Ｗ）Ｉｚ进而可以得到原始语音的估计值ｌＳ（Ｗ）Ｉ从而就可以得到降噪　则可得：　Ｙ（Ｗ）：Ｓ（Ｗ）＋Ｎ（Ｗ）　（２）　后的语音时域信号。参数　根据实验结果来确定，可根据噪声的大　小来动态地确定它的大小，以获得最好的增强效果。　由此可得：　基本谱减算法能大大地消除背景噪声，提高语音信号的信噪　Ｅ（ＩＹ（Ｗ）ｌ　）＝Ｅ（ＩＳ（Ｗ）Ｉ。）＋Ｅ（ＩＮ（Ｗ）　ｌ）＋２Ｅ｛Ｒｅ［Ｓ（Ｗ）Ｎ　（Ｗ）］｝　（４）　比。实验结果表明这种改进的谱减法有效地提高了增强效果，更好　由于Ｓ（ｔ）和ｎ（ｔ）独立，所以Ｓ（Ｗ）与Ｎ（ｗ）也独立。而Ｎ（ｗ）为零　地抑制了噪声，提高了语音质量。语音增强将越来越广泛的应用于　人们的生活中，所以本课题具有实际应用的意义。　均值得高斯分布，故Ｅ｛Ｒｅ［Ｓ（Ｗ）Ｎ　（Ｗ）］ｌ＝０。所以有：　Ｅ（ＩＹ（ｗ）Ｉ　）＝Ｅ（ＩＳ（Ｗ）Ｊ　）＋Ｅ（ＩＮ（ｗ）Ｊ：）　对一个分析帧内得短时平稳过程，有　（５）　参考文献：　ＩＹ（Ｗ）ＩＺ＝ｌＳ（Ｗ）　Ｉ＋ＩＮ（Ｗ）。１＋２Ｒｅ［Ｓ（Ｗ）Ｎ　（Ｗ）１　由上式可得：　（３）　４结论　有变化，这样可以通过发音前所谓“寂静段”（认为在这～段里没　１９９５，６．　有语音只有噪声，一般为带噪语音的前３～４帧）来估计噪声的功率　【４］易克初，田赋，付强．语音信号处理　】．北京：国防工业出版社，　谱ＩＮ（ｗ）　，从而有：　２Ｏ００，５．　ＩＳ（Ｗ）　Ｉ＝ＩＹ（ｗ）Ｉ　一ＩＮ（Ｗ）　Ｉ　（７）　［１】【美］Ｔｈｏｍａｓ　Ｆ．Ｑｕａｔｉｅｒｉ．离散时间语音信号处理一原理与应用【Ｍ１．北京：　２００４．　ＩＹ（Ｗ）１２＝１Ｓ（ｗ）２１＋ＩＮ（ｗ）　ｊ　（６）　电子工业出版社，［２］赵力．语音信号处理［Ｍ】．北京：机械工业出版社，２００３，４．　由于平稳噪声的功率谱在发音前和发音期间可以认为基本没　［３］杨形峻，迟惠生．语音信号数字处理【Ｍ】．北京：电子工业出版社，　［５］Ｔｏｍａｓ　Ｗ　Ｐａｒｓｏｎｓ．Ｖｏｉｃｅ　ａｎｄ　Ｓｐｅｅｃｈ　Ｐｒｏｃｅｓｓｉｎｇ【Ｍ】．Ｎｅｗ　Ｙｏｒｋ：Ｉ￣ｔｅｇｍｗ－　Ｈｉｌｌ，１９８６，２．　由此达到原始语音的估计值：　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文