一种基于matlab的特定声音识别算法的研究【毕业设计+开题报告+文献综述】_第1页
已阅读1页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、<p>  本科毕业设计(论文)</p><p><b>  (二零 届)</b></p><p>  一种基于MATLAB的特定声音识别算法的研究</p><p>  所在学院 </p><p>  专业班级 电气工程及其自动化 &l

2、t;/p><p>  学生姓名 学号 </p><p>  指导教师 职称 </p><p>  完成日期 年 月 </p><p><b>  摘 要</b></p><p&

3、gt;  语音信号处理研究分为语音识别、语音合成、语音编码和声纹识别四大分支。声纹识别备受人们关注, 声纹识别简单来说就是通过一句话来判断是谁说的。其中的说话人辨识领域广泛应用于刑侦破案、罪犯跟踪、国防监听、个性化领域等;特定声音识别指特征特别的声音,枪声,玻璃声,呼救声就属于这一类。通过研究上述三种典型的特定声音,提取相关语音参数,通过三种特定声音参数之间的对比,辨识出特定声音,达到本论文的要求。主要内容有:语音识别概述 语音相关原理

4、概述 提取语音,语谱分析,特征提取,训练数据,短时能量等。编制MATLAB编程环境,以提高语音识别效率。经过设计是在MATLAB的编译环境下,试验结果表明:该方案旨在满足特定声音识别的基本要求。</p><p>  关键词 语音识别 声纹识别 MATLAB 特征值 特定声音</p><p>  MATLAB-based voice recognition algorithm for a p

5、articular</p><p><b>  Abstract</b></p><p>  Speech signal processing research into speech recognition, speech synthesis, speech coding and acoustic pattern recognition four branches.

6、 Voiceprint identification much attention, voiceprint identification is simply through the sentence to determine who said it. Speaker identification which is widely used in the field of forensic detection, tracking crimi

7、nals, monitoring of national defense, individual fields, etc.; specific features of voice recognition that particular sound, guns, glass sound</p><p><b>  目 录</b></p><p><b>  摘

8、 要I</b></p><p>  AbstractIV</p><p><b>  1 绪论1</b></p><p>  1.1 本课题来源及研究任务1</p><p>  1.2 国内外相关技术发展及动态1</p><p>  1.2.1国外研究历史及现状1<

9、/p><p>  1.2.2 国内研究历史及现状3</p><p>  1.3 特定声音识别技术的发展4</p><p>  1.4语音识别系统的分类4</p><p>  1.5特定声音识别的研究方法5</p><p>  1.6 本论文内容安排5</p><p>  2 特定语音信号

10、的原理7</p><p>  2.1 基于MATLAB的特定语音信号时域特征分析7</p><p>  2.2基于MATLAB的语音信号频域特征分析12</p><p>  2.3基于MATLAB的语音信号线性预测分析15</p><p>  3 特定声音MATLAB的实现和仿真23</p><p>  3.

11、1基于MATLAB的语音信号采集23</p><p>  3.2基于MATLAB的语音信号时域分析23</p><p>  3.3基于MATLAB的语音信号频域分析28</p><p>  4特定声音辨识31</p><p>  4.1原始波形图31</p><p><b>  4.2语谱图32&

12、lt;/b></p><p>  4.3 倒谱系数33</p><p>  4.4 短时谱34</p><p><b>  5结论36</b></p><p>  致 谢错误!未定义书签。</p><p>  参 考 文 献37</p><p><b&

13、gt;  附 录38</b></p><p><b>  1 绪论</b></p><p>  1.1 本课题来源及研究任务</p><p>  语音识别方法大致可分为基于说话人的语音识别方法、基于说话内容的语音识别方法、基于统计的语音识别方法和基于网络的语音识别方法。 数字语音信号处理是将数字信号处理与语音学相结合,解决现代通

14、信领域中人与人、人与机器之间的信息交流的学科。</p><p>  近几年来语音信号处理学科在世界范围内已取得了飞速的发展。与其他生物识别技术,诸如指纹识别、虹膜识别等相比较,特定声音识别技术具有不会遗忘,无需记忆、使用方便等优点,还具有以下的特性:</p><p>  用户接受的程度高,由于不涉及个人的隐私问题,用户没任何心理障碍。更为简便、准确经济及可扩展性良好等众多优势,特别是电信网

15、络的身份识别。</p><p>  特定声音识别技术在SR技术上,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网和通信领域中,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问等等众多领域。在呼叫中心应用上,SR技术同样可以提供更加个性化式对呼叫的人机交互界面。当顾客通过电话的方式对呼叫中心发出请求,系统能够根据话音判断出身份,从而提供个性

16、化的服务。</p><p>  本课题的主要任务是利用MATLAB软件进行特定声音识别的辨识。给出三种特定声音枪声、玻璃破碎声音和呼救声,利用MATLAB仿真,辨识出这三种特定的声音。</p><p>  1.2 国内外相关技术发展及动态</p><p>  1.2.1国外研究历史及现状</p><p>  随着计算机的发明问世,语音识别的研

17、究得到了迅速的发展。自1959年第一个用软件实现的英语十音素识别系统的完成,至今已有三十多年历史。共历程颇多艰辛和曲折[1]。</p><p>  语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。 </p><p>  但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首

18、先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 </p><p>

19、;  随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大

20、的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。 </p><p>  实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 &

21、lt;/p><p>  这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 </p><p>  统计方法将研究者的视线从微观转向宏观,不再

22、刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则

23、的语言处理机制等也在语音识别中得到了应用。 </p><p>  20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,N

24、uance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。 </p><p>  其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制

25、”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。</p><p>  1.2.2 国内研究历史及现状</p><p>  我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技

26、术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 </p><p>  清华大学电子工程系语音技术与专用芯片设计课题组,

27、研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。</p>&

28、lt;p>  中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。</p><p>  如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括

29、几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。</p><p>  1.3 特定声音识别技术的发展 </p><p>  1、神经

30、网络用于训练韵律模型</p><p>  由于人工神经网络具备良好的自学习和自适应能力,将其应用于语音合成系统中的韵律模型研究具有很重要的意义。将神经网络模型与已有的文语转换系统有机结合,可以改变传统的文语转换系统的韵律模型,具有更强的适应性和可训练性,使合成语音的自然度得到显著提高,增加了系统的灵活性和风格的多样性。</p><p>  2、数据挖掘用于发现语音知识</p>

31、<p>  数据挖掘作为一种在大量数据库中发现隐藏新知识的计算技术方法,通过语音定性模型的建立,将数据分析和挖掘结果转化为逻辑规则或用可视化的形式进行表达。因此,将数据挖掘和人机交互接口紧密地联系在一起,将对计算机语音信号处理的研究工作产生巨大的推动力,为语音信号处理提供了一条崭新的研究途径。</p><p>  3、文本-可视语音转换系统研制成功</p><p>  文本-可

32、视语音转换技术的出现是多媒体技术迅速发展的产物 也迎合了社会发展的需求。它给人们的生活增添了新的色彩,使计算机更加人性化,人们与计算机的交流变得更为简单。相信在不久的将来,它会在众多的技术、商业和娱乐领域得到广泛的应用,并逐步进入我们每个人的生活。</p><p>  1.4语音识别系统的分类</p><p>  语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性

33、考虑,可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。</p><p>  如果从说话的方式考虑,也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入

34、每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。</p><p>  如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识

35、别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。</p><p>  1.5特定声音识别的研究方法</p><p>  MATLAB是一种功能强大,效率高、交互性好的数值计算和可视化

36、计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。随着MATLAB的不断发展,其功能越来越强大,广泛应用于数字语音信号处理、数值图像处理、仿真、自动控制、小波分析和神经网络等领域。同时又由于MATLAB具有大量的信号处理工具箱并能利用非线性动态系统分析工具Simulink等优点,所以近年来MATLAB已成为数字信号处理的有利工具,因此也成为学习语音信号处理和进行研究工作的仿真软

37、件工具。</p><p>  本次对特定的语音识别正是在MATLAB这个平台上实现的,下面简单介绍MATLAB在语音识别中的几个方面的应用。</p><p>  通过MATLAB可以对数字化的语音信号进行时域分析和频域分析。通过MATLAB可以方便地展现语音信号的时域和频域曲线,并且根据语音的特性对语音进行分析。例如,清浊音的幅度差别、语音信号的端点、信号在频域中的共振峰频率、加不同窗和不

38、同窗长对信号的影响、LPC分析、频谱分析等。</p><p>  通过MATLAB可以对数字化的语音信号进行估计和判别。例如,根据语音信号的短时参数,以及不同语音信号的短时参数的性质对一段给定的信号进行有无声和清浊音的判断、对语音信号的基音周期进行估计等。</p><p>  通过对MATLAB的编程对语音信号进行处理。由于MATLAB是一种面向科学和工程计算的高级语言,允许用数学形式的语

39、言编程,又有大量的库函数,所以编程简单、编程效果高,易学易懂。我们可以对信号进行加噪和去噪、滤波、截取语音等,也可以进行语音编码、语音识别、语音合成的编程。</p><p>  1.6 本论文内容安排</p><p>  本论文首先介绍了本课题设计的背景知识,然后描述了特定声音识别的研究主要内容和方法,最后详细介绍本人是如何通过几个关键的参数来研究特定声音的识别的。以下是各章节的具体安排。

40、</p><p>  第一章:绪论部分,通过国外国内语音识别方面的对比,说明我国语音识别发展现状,特定声音识别技术的应用以及本论文的研究任务。</p><p>  第二章:简要地概括了特定声音识别的相关参数的基本原理。包括自相关函数、短时过零率、倒谱分析、线性预测等。</p><p>  第三章:对特定声音“呼救声”进行相关分析,并进行仿真。</p>

41、<p>  第四章:着重对枪声,玻璃声,呼救声这三种特定声音从几个方面进行辨识。</p><p><b>  第五章:总结。</b></p><p>  2 特定语音信号的原理</p><p>  2.1 基于MATLAB的特定语音信号时域特征分析</p><p>  2.1.1 实验目的</p>

42、<p>  语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。</p><p

43、>  本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。</p><p>  2.1.2实验内容及原理</p><p><b>  1.窗口的选择</b></p><p>  通过对发声机理的认识,语

44、音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。</p><p>  图1.1 矩形窗和Hamming窗的时域波形</p><p>  矩形窗的

45、定义:一个N点的矩形窗函数定义为如下</p><p>  hamming窗的定义:一个N点的hamming窗函数定义为如下</p><p>  这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N),具有较高的频率分辨率,旁瓣峰值大(-13.3dB),会导致泄漏现象;汉明窗的主瓣宽8*pi/N,旁瓣峰值低(-42.7dB),可

46、以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。</p><p>  图1.2 矩形窗和Hamming窗的频率响应</p><p>  表1.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值</p><p><b>  2.短时能量<

47、;/b></p><p>  由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:</p><p>  ,其中N为窗长 </p><p>  特殊地,当采用矩形窗时,可简化为:</p><p&

48、gt;  短时能量函数的应用:1)可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据En值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量显著增强。 </p><p><b>  3.短时平均过

49、零率</b></p><p>  过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:</p><p>  其中为符号函数,,在矩形窗条件下,可以简化为</p><p>  短时过零率可以粗略估计语音

50、的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。.</p><p>  图1.3为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短

51、时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为0.5左右,浊音的过零率为0.1左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。</p><p>  短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中

52、找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。</p><p>  图1.3矩形窗条件下的短时平均过零率</p><p><b>  4、短时自相关函数</b></p><p>  自

53、相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:</p><p>  令,并且,可以得到:</p><p>  图6给出了清音的短时自相关函数波形,图7给出了不

54、同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关

55、函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:</p><p>  1)区分语音是清音还是浊音;</p><p>  2)估计浊音语音信号的基音周期。</p><p>  图1.4 清音的短时自相关函数</p><p>  图1.5 不同矩形窗长条件下的浊音的短时自相关函数</p>

56、;<p>  5、时域分析方法的应用</p><p><b>  1)基音频率的估计</b></p><p>  首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,

57、举例来说,若某一语音浊音段的第一最大峰值约为35个抽样点,设抽样频率为11.025KHZ,则基音频率为11025/35=315 HZ。</p><p>  但是,实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关,另一方面还与声道特性有关。鉴于此,可采用三电平削波法先进行预处理。</p><p>  2)语音端点的检测与估计</p><p>  可利

58、用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,这在语音处理中是富有挑战性的一个课题。</p><p>  2.2基于MATLAB的语音信号频域特征分析</p><p>  3.2.1 实验目的</p><p>  傅里叶分析是分析线性系统和平稳信号稳态特性的强

59、有力工具,它在许多工程领域得到了广泛的应用。它理论完善,且具有快速算法,在语音信号中处理领域也是一个重要的工具。语音信号的本质上是非平稳信号,所以可以假设语音信号在10~30ms这样短的时间内是平稳的,这是短时分帧处理的基础,也是短时傅里叶分析的基础。短时傅里叶分析就是在基于短时平稳的假设下,用稳态分析方法处理非平稳的一种方法。因为语音信号可以被看做短时平稳信号,所以可以采用短时傅里叶分析。</p><p>&l

60、t;b>  2.2.2实验原理</b></p><p><b>  1、短时傅立叶变换</b></p><p>  由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:</p><p><b>  (2.1)</b></p><p>  其中w(n-m)是实窗

61、口函数序列,n表示某一语音信号帧。令n-m=k',则得到</p><p><b>  (2.2)</b></p><p><b>  于是可以得到</b></p><p><b>  (2.3)</b></p><p><b>  假定</b>&l

62、t;/p><p><b>  (4)</b></p><p><b>  则可以得到</b></p><p><b>  (5)</b></p><p>  同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n和ω,所以它既是时序n的离散函

63、数,又是角频率ω的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令ω=2πk/N,则得离散的短时傅立叶吧如下:</p><p><b>  (6)</b></p><p><b>  2、语谱图</b></p><p>  水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的

64、动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。</p><p>  语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。</p><p>  宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获

65、得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等场合得到应用。</p><p><b>  3、复倒谱和倒谱</b></p><p>  复倒谱是x(n)的Z变换取对数后的逆Z变换,其表达式如下:</p><p>&

66、lt;b>  (7)</b></p><p>  倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即</p><p><b>  (8)</b></p><p>  在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道

67、系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下面的关系:</p><p><b>  (9)</b></p><p>  由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系:</p><p

68、><b>  (10)</b></p><p>  浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。</p><p><b>  4、基因周期估计</b></p><p>  浊音信号的倒谱中存在峰值,它的出

69、现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用倒谱的这个特点,我们可以进行语音的清浊音判决,并且可以估计浊音的基音周期。首先计算语音的倒谱,然后在可能出现的基因周期附近寻找峰值。如果倒谱峰值超过了预先设置的门限,则输入语音判断为浊音,其峰值位置就是基因周期的估计值;反之,如果没有超出门限的峰值的话,则输入语音为清音。</p><p><b>  5、共振峰估计</b><

70、/p><p>  对倒谱进行滤波,取出低时间部分进行进行逆特征系统处理,可以得到一个平滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过此对数谱进行峰值检测,就可以估计出前几个共振峰的频率和强度。对于浊音的声道特性,可以采用前三个共振峰来描述;清音不具备共振峰特点。</p><p>  2.3基于MATLAB的语音信号线性预测分析</p>

71、<p>  2.3.1 实验目的</p><p>  1947年美国科学家维纳在研究火炮的自动控制时提出了线性预测的思想。1967年日本学者板仓等人首先将线性预测技术应用于语音分析和语音合成领域中,使语音处理技术获得了巨大的发展。在各种语音处理技术中,线性预测是第一个真正使用的技术。</p><p>  作为最有效地语音分析技术之一,线性预测分析的基本思想是:一个语音取样的现

72、在值可以用若干个语音取样过去值的加权组合来逼近。在线性组合中的加权系数称为预测器系数。通过使实际语音抽样和线性预测抽样之间的差值的平方和达到最小值,能够决定唯一的一组预测器系数。线性预测的基本原理是建立在语音的数字模型基础上,为估计数字模型的参数,线性预测方法提供了一种可靠精确而有效地方法。</p><p><b>  2.3.2实验原理</b></p><p>  

73、1 LP分析基本原理</p><p>  在语音编码算法中,由于实际语音信号的动态变化范围较大,如果直接对其进行量化,则编码所需的比特数较大,编码率较高。为了保证在较好的语音编码质量前提下,尽量减少编码速率,可设法减小编码器输入信号的动态范围。线性预测编码就是利用过去的样值对新样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号进行量化编码

74、,可大大减少量化所需的比特数,使编码速率降低。</p><p>  LP分析为线性时不变因果稳定系统V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。</p><p>  如果利用P个取样值来进行预测,则称为P阶线性预测。假设用过去P个取样值的加权之和来预测信号当前取样值,则预测信号为:</p><p><b>  

75、(1)</b></p><p>  其中加权系数用表示,称为预测系数,则预测误差为:</p><p><b>  (2)</b></p><p>  要使预测最佳,则要使短时平均预测误差最小有:</p><p><b>  (3)</b></p><p><

76、b>  (4)</b></p><p><b>  令 </b></p><p>  (5) </p><p><b>  最小的可表示成:<

77、;/b></p><p><b>  (6)</b></p><p>  显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。</p><p>  通过LPC分析,由若干帧语音可以得到若干组LPC参数,每组参数形成一个描绘该帧语音特征的矢量,即LPC特征矢量。由LPC特征矢量可以进一步得到很多种派生

78、特征矢量,例如线性预测倒谱系数、线谱对特征、部分相关系数、对数面积比等等。不同的特征矢量具有不同的特点,它们在语音编码和识别领域有着不同的应用价值。</p><p><b>  2 自相关法</b></p><p>  在最佳线性预测中,若用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则,即令</p><p>  (7)

79、 </p><p>  事实上就是短时自相关函数,因而</p><p><b>  (8)</b></p><p><b>  (9)</b></p><p>  根据平稳随机信号的自相关性质,可得</p&

80、gt;<p><b>  (10) </b></p><p><b>  由(6)式,可得:</b></p><p>  (11) </p><p>  综上所述,可以得到如下矩阵形式:</p><p><b>  (12)</b></p>

81、<p>  值得注意的是,自相关法在计算预测误差时,数据段的两端都需要加P个零取样值,因而可造成谱估计失真。特别是在短数据段的情况下,这一现实更为严重。另外,当预测系数量化时,有可能造成实际系统的不稳定。</p><p>  自相关解法主要有杜宾算法、格型算法和舒尔算法等几种高效递推算法。</p><p><b>  3 协方差法</b></p>

82、;<p>  如果在最佳线性预测中,用下式定义的时间平均最小均方准则代替(3)式的集合平均最小均方准则,则可得到类似的方程:</p><p><b>  (13) </b></p><p>  可以看出,这里的数据段两端不需要添加零取样值。在理论上,协方差法计算出来的预测系数有可能造成预测误差滤波器的不稳定,但在实际上当每帧信号取样足够多时,其计算结果将

83、与自相关法的结果很接近,因而稳定性一般是能够保证的 (当然这种方法也有量化效应可能引起不稳定的缺点)。</p><p>  协方差解法的最大优点在于不存在自相关法中两端出现很大预测误差的情况,在N和P相差不大时,其参数估值比自相关法要精确的多。但是在语音信号处理时,往往取N在200左右。此时,自相关法具有较大误差的段落在整个语音段中所占的比例很小,参数估值也是比较准确的。在这种情况下,协方差法误差较小的优点就不再

84、突出,其缺乏高效递推算法的缺点成为了制约因素。所以,在语音信号处理中往往使用高效的自相关法。</p><p><b>  4 全极点声道模型</b></p><p>  将线性预测分析应用于语音信号处理,不仅是为了利用其预测功能,更因为它提供了一个非常好的声道模型。</p><p>  将式(2)所示的方程看成是滤波器在语音信号激励下的输入输出

85、方程,则该滤波器称为预测误差滤波器,其e(n)是输出误差。变换到z域,P阶预测误差滤波器的系统函数为</p><p><b>  (14) </b></p><p>  可以看出,如果将预测误差e(n)作为激励信号,使其通过预测误差滤波器的逆滤波器H(Z),即</p><p><b>  (15) </b></p&g

86、t;<p>  则H(Z)的输出为语音信号s(n),也就是说,H(Z)在预测误差e(n)的激励下可以合成语音。因此,H(Z)被称为语音信号的全极点模型,也称为语音合成器。该模型的参数就是P阶线性预测的预测系数。</p><p>  因为预测误差含有语音信号的基音信息,所以对于浊音,模型的激励信号源是以基音周期重复的单位脉冲;对于清音,激励信号源e(n)是自噪声。语音信号的全极点模型是一种很重要的声道

87、模型,是许多应用和研究的基础。</p><p><b>  5 LPCC</b></p><p>  如果声道特性H(Z)用式(14)所示的全极点模型表示,有</p><p><b>  (16)</b></p><p>  式中,S(z)和I(z)分别为语音信号和激励源的Z变换。对人的听觉来说,浊

88、音是最重要的语音信号。对于浊音,模型的激励信号源e(n)是以基音周期重复的单位脉冲,此时有</p><p>  。可得的Z变换S(z)为</p><p><b>  (17)</b></p><p>  式中,为P阶线性预测系数。根据倒谱的定义,对具有最小相位特征的语音信号,有</p><p><b>  (1

89、8)</b></p><p>  式中,为语音信号的倒谱。将式(16)代入式(17),并对两边求导,得</p><p><b>  (19)</b></p><p>  根据上式即可由线性预测系数通过递推得到倒谱系数,将这样得到的倒谱称为线性预测倒谱系数。</p><p>  6 结合语音帧能量构成LPC组合

90、参数</p><p>  由于人能从声音的音色、频高等各种信息中感知说话人的个性,因此可以想象,利用特征的有效组合可以得到比较稳定的识别性能。一般来说,如果组合的各参量之间相关性不大,则会更有效一些,因为它们分别反映了语音信号中的不同特征。多年来,人们对组合参数在说话人识别中的应用进行了大量研究 。实验证明,组合参数可以提高系统的识别性能。</p><p>  组合参数虽然可以提高系统的性

91、能,但很显然,无论是在特征参数提取环节,还是在模型训练和模型匹配环节都使运算量有所增加。在特征参数提取环节,要计算一种以上的特征参数。在模型训练和模型匹配环节,由于组合参数特征矢量的维数较多,使运算复杂度有所增加。运算量的增加会使系统的识别速度受到影响。</p><p>  为使运算量问题得到较好的解决,所以可以由LPC参数与语音帧能量构成组合参数,能够在运算量增加不明显的情况下改进系统的性能。</p>

92、;<p>  语音帧能量是指一帧语音信号的能量,它等于该帧语音样值的平方和。选取与语音帧能量构成组合参数主要有以下考虑:1)语音帧能量是语音信号最基本的短时参数之一,它表征一帧语音信号能量的大小,是语音信号一个重要的时域特征;2)由一帧语音求出的语音帧能量是一个标量值,与其它参量构成组合参数不会使原特征矢量的维数明显增加,特征矢量的维数越少,则需要的运算复杂度越小,另外,获取语音帧能量的运算并不复杂;3)语音帧能量与LPC

93、参数之间的相关性不大,它们反映的是语音信号的不同特征,应该有较好的效果。</p><p><b>  7 模型增益G</b></p><p>  模型的激励信号表示为:</p><p>  (20) </p><p>  预测误差e(n)如式(2),这样当实际的预测系数与模型系数相等时,有</p>

94、<p><b>  (21) </b></p><p>  这说明激励信号正比于误差信号,其比例常数等于模型增益G。通常假设误差信号的能量等于输入激励信号的能量,因此可以得到:</p><p>  (22) </p><p>  对于式中的激励信号,主要分为浊音和清音两种情况。其中为浊音时,考虑到此时实际的激励信

95、号为声门脉冲,因此可以将激励信号表示为时的单位抽样。为了保证这个假设成立,要求分析的区间应该大致和语音基因周期的长度相等。当语音为清音时,我们假定激励信号为一个零均值、单位方差的平稳白噪声过程。</p><p>  采用自相关解法时,浊音的模型增益为</p><p><b>  (23)</b></p><p>  清音计算模型增益的公式和浊音

96、相同。</p><p>  我们使用的原始语音为“北风”,采样频率为11000。</p><p>  在这里我们取第30帧进行观察,线性预测阶数为12,看到图3.1所示的原始语音帧的波形,预测语音帧波形和它们之间预测误差的波形。图3.2为原始语音帧和预测语音帧的短时谱和LPC谱的波形</p><p>  图1.7 原始语音帧、预测语音帧和预测误差的波形</p&

97、gt;<p>  图1.8 原始语音帧和预测语音帧的短时谱和LPC谱的波形</p><p>  这里我们可以改变线性误差的阶数来观察语音帧的短时谱和LP谱的变化情况,如图1.9。</p><p>  图1.9 预测阶数对语音帧短时谱和LPC谱的影响</p><p>  从图中可以看出,P越大,LPC谱越能反映出语音短时谱的细节部分,但LPC谱的光滑度随

98、之下降。由于我们的目的只是用LPC谱反映声道综合效应的谱的表示式,而具体的谐波形状是通过激励谱来控制的,因此LPC谱只要能够体现出语音的共振峰的结构和谱包络就可以,因此从计算复杂性的角度分析,预测阶数P应该适中。</p><p>  图3.4是原始语音和预测误差的倒谱波形,我们可以从中计算出原始语音的基音周期。从图中看出两峰值之间的间隔为40点左右,基音周期为40/11000=3.6ms,频率为278Hz左右。&

99、lt;/p><p>  图1.10原始语音和预测误差的倒谱波形</p><p>  图1.11给出了原始语音的语谱图和预测语音的语谱图,通过比较发现,预测语音的预测效果还可以,基音频率相差无几。</p><p>  图1.11 原始语音的语谱图和预测语音的语谱图</p><p>  3 特定声音MATLAB的实现和仿真</p>&l

100、t;p>  所谓特定声音,指的是比较独特的声音,比如像枪声、玻璃破碎的声音、呼救声等等,这些声音在现代技术中有着广泛的应用。比如说刑侦破案、罪犯跟踪、国防监听等。基于上述情况,下面就呼救声而言,对呼救声这种特定声音进行分析。</p><p>  3.1基于MATLAB的语音信号采集</p><p>  利用matlab工具,可以对相关声音进行采集。</p><p&

101、gt;<b>  程序如下:</b></p><p><b>  Fs=11025;</b></p><p>  x=wavrecord(5*Fs,Fs,'int16');%采集5秒的声音%</p><p>  sound(x,11025);%读出刚采集的声音%</p><p>  

102、还有一种方法是利用pc机自带的录音机进行录音。利用matlab的相关函数录入即可。</p><p>  3.2基于MATLAB的语音信号时域分析</p><p>  1)语音的波形原始程序:</p><p><b>  fs=22050;</b></p><p>  x=wavread('g:\s1.wav

103、9;);%读取语音信号的数据,赋给变量x</p><p>  wavplay(x,22050);%播放语音信号</p><p>  y=fft(x,1024);%对信号做1024点FFT变换</p><p>  f=fs*(0:511)/1024;</p><p><b>  figure(1)</b></p>

104、;<p><b>  plot(x)</b></p><p>  title('原始语音信号');%做原始语音信号的时域图形</p><p>  xlabel('time n');</p><p>  ylabel('幅值 n');</p><p><b

105、>  figure(2)</b></p><p>  freqz(x) %绘制原始语音信号的频率响应图</p><p>  title('频率响应图')</p><p><b>  figure(3)</b></p><p>  subplot(2,1,

106、1);</p><p>  plot(abs(y(1:512))) %做原始语音信号的FFT频谱图</p><p>  title('原始语音信号FFT频谱')</p><p>  subplot(2,1,2);</p><p>  plot(f,abs(y(1:512)));</p><p&g

107、t;  title('原始语音信号频谱')</p><p>  xlabel('Hz');</p><p>  ylabel('幅值');</p><p><b>  仿真结果:</b></p><p><b>  图4—1</b></p>

108、<p><b>  图4—2</b></p><p><b>  图4—3</b></p><p><b>  2)语音的自相关</b></p><p><b>  fs=22050;</b></p><p>  x=wavread('

109、;g:\s1');</p><p>  s1=x(1:320);</p><p><b>  N=320;</b></p><p><b>  A=[];</b></p><p>  for k=1:320;</p><p><b>  sum=0;<

110、/b></p><p>  for m=1:N-k+1;</p><p>  sum=sum+s1(m)*s1(m+k-1);</p><p><b>  end </b></p><p><b>  A(k)=sum;</b></p><p><b>  e

111、nd</b></p><p>  for k=1:320</p><p>  A1(k)=A(k)/A(1);</p><p><b>  end</b></p><p>  f=zeros(1,320);</p><p><b>  n=1;j=1;</b>&l

112、t;/p><p>  while j<=320</p><p>  f(1,j)=x(n)*[0.54-0.46*cos(2*pi*n/319)];</p><p>  j=j+1;n=n+1;</p><p><b>  end</b></p><p><b>  B=[];<

113、/b></p><p>  for k=1:320;</p><p><b>  sum=0;</b></p><p>  for m=1:N-k+1;</p><p>  sum=sum+f(m)*f(m+k-1);</p><p><b>  end</b><

114、/p><p><b>  B(k)=sum;</b></p><p><b>  end</b></p><p>  for k=1:320 </p><p>  B1(k)=B(k)/B(1);</p><p><b>  end</b></p>

115、;<p>  s2=s1/max(s1);</p><p>  figure (1)</p><p>  subplot(3,1,1)</p><p><b>  plot(s2)</b></p><p>  title('一帧语音信号')</p><p>  xla

116、bel('样点数')</p><p>  ylabel('幅值')</p><p>  axis([0,320,-1,1]);</p><p>  subplot(3,1,2)</p><p><b>  plot(A1);</b></p><p>  title(

117、'加矩形窗的自相关函数')</p><p>  xlabel('延时k')</p><p>  ylabel('R(k)')</p><p>  axis([0,320,-1,1]);</p><p>  subplot(3,1,3)</p><p><b> 

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 众赏文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论