一、汉语连续语音端点检测技术的研究(论文文献综述)
侯苗苗[1](2021)在《基于CNN多特征融合的藏语语音识别的研究》文中研究表明随着科学技术的进步以及人机交互技术的兴盛,语音识别技术已经成为国内外研究的热门学科。目前国内以现代标准汉语为代表主流语言在语音识别上已经获得了很好的成绩,但对于非主流语言来说,比如少数民族语言藏语,前人也做过一些相关的研究,最终取得的研究结果不理想。因此本文以研究藏语语音识别为目的,重点研究了融合多个特征的藏语语音识别。本文的主要工作和创新如下:1.实现了基于Savitzy-Golay滤波和改进子带能量熵的端点检测算法。设计了与基于谱减法下短时能量结合子带方差的算法、谱减法下子带能熵算法以及改进的基于MFCC余弦值算法三种算法的对比实验。实验结果表明,在不同信噪比的高斯白噪声、Factory噪声以及Pink噪声下,本文算法都优于其他算法,特别是低信噪比下。对于-10d B的高斯白噪声来说,本文算法的检测精度分别比基于谱减法下短时能量结合子带方差算法和谱减法下子带能熵比算法的检测精度提升了12.38%、9.13%。2.实现了基于CNN声学模型的藏语语音识别。采用了200维声谱图特征,利用CNN网络来训练藏语语音语料来建立声学模型,通过对藏语文本语料训练获取3-gram语言模型,按照一定的比例随机分配语料,设计识别交叉验证实验。实验结果表明,三次交叉验证实验得到基于CNN的藏语语音识别词错误率分别为26.90%、27.19%、26.58%,从识别错误率来看,该模型用于藏语语音识别具有一定可靠性。同时完成了模型中是否添加Dropout对识别结果影响的实验,结果表明同一组数据下添加了Dropout的模型识别效果更好,并且识别率提升了1.8%。3.实现了基于CNN的多特征藏语语音识别。采用了FBank、MFCC、声谱图三种特征,介绍了特征融合的方式,设计了不同对比实验:基于FBank特征的识别、基于FBank+MFCC特征的识别、基于FBank+声谱图特征的识别、基于FBank+MFCC+声谱图特征的识别,实现了这四种方案的藏语语音识别,实验结果表明:基于FBank+MFCC+声谱图特征的识别效果最佳,比前三种方案词错误率分别低1.28%、0.87%、0.42%。
罗思洋[2](2021)在《噪声环境下的语音端点检测方法研究》文中指出语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone Frequency Cepstral Coefficient,GFCC)的第一维系数GFCC0引入到语音端点检测任务中,结合多窗谱减法实现语音信号的端点检测。在babble和volvo等四种噪声环境下使用GFCC0特征法可以取得比谱熵法和对数频谱距离法更高的检测准确率,结合多窗谱减法虽然会增加检测时长,但可以进一步提升GFCC0特征法在低信噪比babble噪声和volvo噪声环境下的检测准确率。二、针对基于多特征融合的语音端点检测方法在复杂噪声环境下端点检测性能不足的问题,本文提出一种结合Gammatone频率倒谱系数与Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的融合特征,通过将语音信号的GFCC0与MFCC0特征相乘构造第一类融合特征。第一类融合特征可以实现对语音段的有效追踪,但在部分噪声环境下对语音段中清音的追踪能力略有不足。三、针对第一类融合特征对清音段追踪能力不足的问题,本文提出了一种自适应加权融合方法,利用清音追踪能力较强的投影特征和浊音追踪能力较强的子带谱熵特征分别提升GFCC0特征对清、浊音的追踪能力,构造兼顾语音段中清、浊音追踪能力的第二类融合特征。四、针对固定阈值的端点识别方法影响端点检测性能的问题,本文在提取两类融合特征的基础上,利用自适应估计的双门限法作为端点识别方法,分别基于两类融合特征实现带噪语音信号的端点检测。在pink和volvo等七种噪声环境下的实验结果表明,第一类融合特征可以在其中五种噪声环境下有效提升端点检测的准确率,而第二类融合特征在七种噪声环境下均取得了比对比算法更好的检测结果,特别是在volvo噪声环境下的检测准确率可以达到94.5%以上。
李高攀[3](2021)在《藏语语音端点检测算法研究》文中认为语音端点检测是一种从掺杂有背景噪声的语音信号中区分出语音和非语音信号的技术,它直接影响着语音识别、语音增强等语音处理技术的性能。因此,语音端点检测算法的研究对语音处理技术性能的提高有着关键性的作用。目前,语音端点检测算法主要有基于特征阈值和基于模型匹配两类。其中,基于特征阈值的端点检测算法通过对比提取的语音信号的特征值和实验前设定的阈值进行比较,从而实现语音和噪声的判定。基于模型匹配的端点检测算法先通过训练数据集样本训练分类器,然后利用训练好的分类器判定每帧信号为语音或噪声,从而达到语音端点检测的目的。随着神经网络技术的发展,基于神经网络的语音端点检测算法在诸多基于模型匹配的语音端点检测算法中异军突起。藏语语音端点检测是藏语语音处理的基础性工作,但相对于汉语和英语等语种,藏语语音端点检测技术还处于初级发展阶段。一方面,藏语语音端点检测算法目前还停留在基于特征阈值的端点检测算法上,并且藏语在该类算法上应用也比较少;另一方面,基于模型匹配的语音端点检测算法还没有在藏语中进行应用。因此,藏语语音端点检测技术还有很大的发展空间。本文针对藏语语音端点检测技术发展现状,分别采用基于特征阈值和基于模型匹配的两类端点检测算法进行了藏语语音端点检测技术研究。同时,本文提出了基于一维卷积神经网络的藏语语音端点检测算法。首先,本文将三种常用的基于特征阈值的端点检测算法应用在连续藏语语音上。实验对比发现,在该类算法中基于短时能量和过零率的端点检测算法和基于谱熵的端点检测算法在高信噪比环境下准确率较高,但随着信噪比的降低,它们的准确率表现出急剧下降的现象。相对而言,基于梅尔频率倒谱系数的藏语语音端点检测算法的准确率在不同噪声和信噪比环境下都具有较好的表现。其次,为进一步提升复杂噪声环境下端点检测算法在藏语语料上的准确率和鲁棒性,本文提出了基于一维卷积神经网络的语音端点检测算法并将其应用在藏语上。该算法的主要思想是在保留二维卷积神经网络的局部观察、权值共享及高层聚合等特性的同时,将二维卷积神经网络的输入层、卷积层和池化层由二维结构置为一维。本文算法在简化神经网络结构的同时,实现了复杂噪声环境下藏语语音端点的准确检测。仿真实验表明,与基于梅尔频率倒谱系数的语音端点检测算法和基于二维卷积神经网络的语音端点检测算法相比,本文提出的语音端点检测算法准确率更高、鲁棒性更强。
王宇琛,张二华[4](2020)在《汉语连续语音切分技术研究》文中提出汉语连续语音切分的准确性,是影响汉语语音识别率的重要因素之一。连续语音切分是汉语语音识别的重要基础,论文介绍了汉语语音切分技术的基本原理,综合利用端点检测、基音周期轨迹、语谱图等特征,研究了一种汉语语音切分的算法。实验表明该算法能有效提高汉语连续语音切分的准确率。
王小标[5](2020)在《噪声环境下的语音基频检测算法研究》文中认为语音基频是语音信号中比较重要的特征信息,主要应用到语音合成系统和声纹识别系统。目前,语音基频检测算法的研究一直是研究的重点和难点,并且现有的语音基频检测算法都是估计算法,对于纯净语音信号来说,其准确性较好,但对于噪声环境下的语音信号,其准确性仍有待提高。因此,本文采用谱减法、自适应滤波法、自相关函数法和平均幅度差函数法来解决噪声环境下语音基频检测算法准确性低的问题。首先分析了语音信号的产生流程与数学模型,对语音信号基音频率的数学模型进行研究,分析语音基频的特性,建立相应的语音库,对语音信号的预处理各个流程进行分析,并且通过大量的仿真实验确定语音预加重、分帧、加窗、端点检测所使用的方法。对语音增强基本理论和算法进行研究,并且指出谱减算法在语音增强实际应用中存在的问题,使用自适应滤波算法对谱减算法进行改进,提出了后置自适应滤波器谱减算法。后置自适应滤波器谱减算法不仅解决了使用谱减算法过程中残留的“音乐噪声”问题,并且输出更高信噪比的语音信号,同时,后置自适应滤波器谱减算法也适用于噪声环境下的语音增强。本文对语音基频检测算法中的自相关函数法(Auto Correlation Function,ACF)和平均幅度差函数法(Average Magnitude Different Function,AMDF)进行仿真实现,并且指出它们在实际应用中存在的问题。使用自相关函数法和平均幅度差函数法相结合进行算法的改进,改进的算法增大了基音周期的边界点的峰值,提高了基音周期判断的准确性,进一步提高了语音基频检测算法的准确性。改进的语音基频检测算法保留了自相关函数法和平均幅度差函数法的优点,并且在算法流程中使用了带通滤波器、中心削波算法和平滑滤波算法,降低了部分共振峰、倍频和半频、野点的干扰。为了验证改进的语音基频检测算法在噪声环境下语音基频检测的有效性和准确性,采用含有噪声背景的语音库数据集进行语音基频检测算法验证,统计语音基频检测算法的错误率参数PTE、UE、VE。对于含有babble噪声语音库数据集来说,改进的语音基频检测算法的PTE相对于自相关函数法和平均幅度差函数法分别减少了 6.50%和11.89%,对于含有pink噪声、factory 1噪声、white噪声语音库数据集来说,改进的语音基频检测算法的错误率都小于自相关函数法和平均幅度差函数法的错误率,结果表明在噪声环境下,改进的语音基频检测算法准确性要高于自相关函数法和平均幅度差函数法,并且改进的语音基频检测算法可以对真实环境下的语音基频进行检测。
汤琛[6](2020)在《车载噪声背景下声纹识别关键技术研究》文中指出近些年来,声纹识别技术随着人工智能的飞速发展日益受到重视。汽车落入家家户户后,随着人们对车载娱乐的需求和电子元件的迅速发展,车载语音设备成为了当今研究热点之一。因为声纹特征易受复杂环境和非稳定因素影响,所以车载噪声背景下声纹识别系统就成为了一个重要课题。声纹识别是指在语音信号中提取出说话者个人信息以区分说话者身份。声纹识别系统主要分为前端处理、特征提取和识别模型三个部分。前端处理后的语音质量直接影响着下一步提取特征参数的质量,而特征参数提取的质量又进一步关系着识别的准确性,因此前端处理和特征提取是声纹识别系统两个非常重要的部分。本文首先阐述了声纹识别、语音端点检测、声纹特征提取等关键技术的基本原理,接着对车载噪声背景下声纹识别系统的一些关键技术进行了研究。论文主要工作有:1.在分析传统双门限端点检测算法的优势与不足的基础上,将遗传模拟退火(GASA)、模糊C均值(FCM)和贝叶斯准则(BIC)相结合,提出了一种基于GASA优化FCM-BIC算法的语音端点检测方法。该方法选用短时能量和谱熵作为门限参数,并融入了遗传模拟退火算法,将得到的聚类中心赋给FCM-BIC以确定信号特征的门限值,最后根据门限检测出语音端点。实验结果表明,该方法端点检测加权错误测度小于传统双门限法方法,在白噪声下算法改善效果更明显,在车载噪声下端点检测效果最好。2.针对传统瓶颈特征(Bottle-neck Feature,BN)提取方法抗噪性不强、冗杂信息较多导致识别率不高,提出了一种基于TCL和稀疏DNN网络的瓶颈特征提取方法。引入TCL对训练语料进行时间结构分类,对基于交叉熵的目标函数引入合适的重叠组稀疏正则项来构建稀疏DNN网络。最后实验表明,改进方法相较于传统声纹特征(MFCC、LPCC)和基于稀疏深度神经网络的瓶颈特征的等错误率(EER)有一定的降低,能有效地提高说话人识别的准确性。3.在研究了声纹识别技术中的端点检测方法和特征提取方法的基础上,将这些声纹识别技术应用到车载噪声背景下说话人识别系统中,通过对比实验分别研究了高斯混合阶数、端点检测和信噪比对声纹识别系统性能的影响。最后实验表明,基于GMM-UBM声学模型识别率要高于GMM模型,且GMM-UBM模型系统识别率会随着混合阶数的增加而增加;端点检测能有效减少噪声对识别系统的影响,在识别语音长度较短的识别系统中,基于GASA优化FCM-BIC的语音端点检测方法对系统识别率提升更明显;基于TCL和稀疏DNN网络的瓶颈特征相较于传统声纹参数在低信噪比环境下识别率有明显提升。
王宇琛[7](2019)在《噪声环境下连续语音识别技术研究》文中研究表明人工智能是目前最热门的科学研究领域之一,语音识别是人工智能的一个重要研究方向。随着科学技术的发展,连续语音识别技术已经取得了很大的进展。目前的连续语音识别系统,在实验室环境下,对纯净语音已达到很高的识别率,但在噪声环境下,识别率明显下降。在连续语音识别系统的实际应用中,噪声几乎是不可避免的,因此针对噪声环境下的连续语音识别技术研究显得尤为重要。本文从语音识别技术的理论基础出发,介绍了连续语音识别系统的各个组成部分,包括语音信号预处理、语音信号特征分析、连续语音切分、声学模型和语言模型等。最终实现了一个噪声环境下的中等词汇量汉语连续语音识别系统,并测试了该系统的性能。本文的主要研究内容如下:(1)语音信号特征分析。本文介绍了语音信号的预处理技术,包括以谱减法为主的语音增强技术,然后分析了语音信号在时域、频域和倒谱域的特征,提取了多种特征参数,着重研究了频域的语谱图特征和倒谱域的基音周期轨迹特征。(2)连续语音切分技术。连续语音的切分包含两个步骤,一是端点检测,二是语音段基元的切分。本文研究了基于时域特征参数的多阈值端点检测技术,然后在分析基音周期轨迹和语谱图的基础上,研究了一种具有一定抗噪性的汉语连续语音音节切分方法,实验表明该方法具有较高的准确率。(3)语音识别模型分析。连续语音识别系统分为两层,声学模型层和语言模型层,声学模型用于将语音信号识别为对应的音,本文研究了三种声学模型,分别是矢量量化模型、离散隐马尔科夫模型和连续隐马尔科夫模型,并通过实验对这三种模型的识别率和性能进行了对比分析,还研究了不同训练样本对连续隐马尔科夫模型识别率的影响。由于汉语广泛存在同音字现象,本文应用N元文法模型作为语言模型进行音-字的转换。最后,将声学模型与语言模型相结合,实现了一个完整的连续语音识别系统。
曾剑飞[8](2019)在《低信噪比条件下的语音端点检测算法研究》文中认为语音端点检测作为各种语音信号处理系统的前端操作,在语音信号处理领域中具有重要的意义。低信噪比条件下的语音端点检测是语音处理领域的一个技术难题,阻碍了语音处理技术向嘈杂环境、短波通信等应用领域的拓展。为探寻一种理想的语音端点检测算法,既能够保证在低信噪比的环境下拥有较好的正确率,又能够满足较少的先验知识与运算量的要求。本文对低信噪比条件下的语音端点算法进行了研究,并提出相应解决思路。本文总结归纳了近几十年来语音端点检测研究的进展和成果,从语音端点检测的准确性、稳定性、自适应性和运算量上对常用的几种语音端点算法进行分析,发现在低信噪比条件下,传统的语音端点检测算法都存在检测准确率急剧下降的问题。针对这一问题,本文从提升降噪效果、提升端点检测算法鲁棒性两方面开展研究。在语音降噪方面,本文提出了一种改进的谱减降噪算法,该算法采用端点检测、分段噪声估计、动态参数调整等办法,解决了常规谱减算法存在的无话段估计困难、噪声估计不精确、音乐噪声较大等问题。在端点检测方面,本文提出了一种改进的子带能熵比端点检测算法,该算法采用子带划分、优化能量计算方式、优化谱熵计算、两级平滑处理方式等办法,有效提升了算法在不同噪声条件下的鲁棒性。在上述研究的基础上,本文还提出了一种改进谱减与子带能熵比结合的算法,该算法采用先验信噪比估计、谱减降噪、子带能熵比端点检测等办法,有效提升了算法在低信噪比条件下的鲁棒性。最后,本文使用NOISEX-92噪声库和纯净语音文件合成不同噪声类型和信噪比的带噪语音,对常规端点检测算法和本文提出的改进算法进行比较分析,验证了本文所提算法的有效性。本文开展的研究与所提出的改进算法,为低信噪比条件下的语音端点检测提供了新的思路和解决方案,具有一定的参考价值。
王晓波[9](2019)在《面向语音端点检测的关键电路优化设计》文中提出随着物联网的发展,语音识别技术受到越来越多的关注。语音端点检测作为语音识别预处理模块中的关键模块,检测正确率和速度直接影响语音识别的正确率和速度。时频端点检测算法由于其抗噪性较强且有一定实时性而被广泛用于语音端点检测的硬件加速。本文针对已有的时频端点检测电路进行优化设计,在保证正确率的条件下,进一步提高语音端点检测的速度与硬件资源利用率。本文首先根据时频语音端点检测算法的软件仿真,确定了端点检测电路的关键模块:分帧模块和谱熵计算模块;为了减少分帧电路硬件资源占有率,本文改进了已有的先存后算的分帧电路结构,设计了一种先进行预计算,然后存储所计算的中间数据的分帧电路。在需要使用数据时,只要取出之前的预计算数据进行一步计算即可得到计算结果;为了减少谱熵计算电路的延时,本文设计了基于流水线的谱熵计算电路结构,一方面对其中耗时较多的FFT单元进行了流水线设计,另一方面通过计算流程的转换,去除了谱熵计算中各个步骤间的数据依赖关系,使得谱熵计算电路能够实现流水线计算。本文采用ISE工具在搭载了Xilinx Artix-7芯片的FPGA开发板上对所设计的电路进行了验证。实验结果表明:本文设计的端点检测电路在信噪比0dB下能够达到90%以上的检测准确率;计算延迟与同类EZV-EDG端点检测电路相比减少了18%,最高频率达到了130.730MHz;Register和LUT硬件资源与DoV端点检测电路和谱减端点检测电路相比降低了10%以上。结果表明本文设计实现了一种实时性、抗噪性、硬件资源利用率较好的语音端点检测电路。
汤国春[10](2019)在《对外汉语看图说话题自动评分模型的构建研究》文中研究说明本研究以HSKK(中级)中的看图说话题为例,借助先进的智能语音和自然语言处理等技术提取能够有效评估看图说话题的评分特征,通过回归分析来构建看图说话题目的自动评分模型并验证其有效性。首先,对看图说话题的题型特点、考查要求和评分标准进行分析,将看图说话题自动评分的评分特征分为内容相关性、表达流利性和语法准确性三个方面。内容相关性方面的特征包括关键词覆盖率和语量,表达流利性方面的特征包括发音得分、停顿频率以及重复和纠正次数,语法准确性特征是语法错误数。其次,运用了先进的智能语音技术和自然语言处理技术提取评分特征。在计算关键词覆盖率时运用了腾讯AI的关键词检索技术,通过式子kcr=m/n计算关键词覆盖率。在计算语量时,运用腾讯AI的长语音识别技术将应试者的答题语音转换成文字,然后对转换后的文字进行适当的校对,最后统计字数从而得到应试者的语量。在获取应试者的发音标准程度时,生成参考文本的步骤与计算语量时相同,最后采用科大讯飞的语音评测技术获得应试者的发音得分。在计算停顿频率时,首先利用基于短时能量和过零率双门限的端点检测技术将答题语音中有声段和静音段切分出来,接着统计静音段的个数(首尾的停顿除外)和发音总时长,最后用每分钟的停顿次数来表示停顿频率。由于口语中的重复和纠正现象比较复杂,重复和纠正次数主要通过人工标记的方式的获取。在获得语法错误时,采取的是将语音转换成文字,然后在对文本进行语法错误检测的方法,用到的主要技术是“小红笔”文本自动校对技术。最后,构建评分模型。首先收集了70条答题语音数据,并将其随机分成两组:构建组(50条)和检验组(20条)。在构建组的数据基础上,将三位评分员的平均分作为因变量,提取出来评分特征作为自变量,采用多元逐步线性回归分析方法进行回归分析,最终进入回归方程的评分特征有四个:关键词覆盖率(kcr)、语量(nwords)、重复和纠正次数(rac)、语法错误数(nge),得到的看图说话题的评分模型如下:score=2.52+8.223*kcr+0.073*nwords-0.903*rac-0.397*nge评分模型构建完成之后,在检验组上进行评分模型的性能测试,得到预测分数与原始分数的整体相关性大小为0.832,一致率和相邻一致率分别为70%和100%,验证了本研究提取的评分特征和构建的评分模型的有效性。
二、汉语连续语音端点检测技术的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语连续语音端点检测技术的研究(论文提纲范文)
(1)基于CNN多特征融合的藏语语音识别的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 语音识别的发展及现状 |
1.3 藏语语音识别研究现状 |
1.4 语音识别中的端点检测处理 |
1.5 本文结构安排 |
第2章 语音识别原理和数据准备 |
2.1 语音识别基本原理 |
2.2 语音信号预处理 |
2.3 特征选择 |
2.4 声学模型和语言模型 |
2.5 数据准备 |
2.5.1 藏语语料库 |
2.5.2 藏语发音字典 |
2.6 本章小结 |
第3章 语音识别中的端点检测 |
3.1 端点检测相关理论 |
3.1.1 Savitzy-Golay滤波 |
3.1.2 子带块能熵矩阵 |
3.1.3 CQT |
3.2 基于Savitzy-Golay滤波和子带块能熵矩阵的语音端点检测 |
3.3 实验结果及分析 |
3.3.1 抗噪性能分析 |
3.3.2 不同噪声环境下的识别精度检测 |
3.4 本章小结 |
第4章 基于CNN的声学模型训练 |
4.1 卷积神经网络的基本原理 |
4.1.1 卷积层 |
4.1.2 池化层 |
4.1.3 全连接层 |
4.2 基于CNN的声学模型训练 |
4.2.1 藏语识别的建模单元 |
4.2.2 特征提取 |
4.2.3 基于CNN的声学模型 |
4.3 语言模型训练 |
4.4 实验结果及分析 |
4.4.1 实验数据处理 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第5章 基于CNN多特征融合的声学模型训练 |
5.1 不同特征的提取方法 |
5.1.1 FBank特征 |
5.1.2 MFCC特征 |
5.2 基于CNN的多特征声学模型训练 |
5.3 实验结果及分析 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(2)噪声环境下的语音端点检测方法研究(论文提纲范文)
摘要 |
Abstract |
主要符号对照表 |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究进展 |
1.3 本文主要研究内容及创新点 |
1.3.1 主要研究内容 |
1.3.2 创新点 |
1.4 论文结构安排 |
第二章 语音端点检测关键技术分析 |
2.1 语音端点检测的基本框架 |
2.2 带噪语音信号 |
2.3 语音信号的预处理 |
2.3.1 预加重 |
2.3.2 分帧 |
2.3.3 加窗 |
2.4 传统语音端点检测特征 |
2.4.1 时域特征 |
2.4.2 频域特征 |
2.5 常用语音端点识别方法 |
2.5.1 阈值判决法 |
2.5.2 模式匹配法 |
2.6 语音端点检测的评价指标 |
第三章 基于特征的语音端点检测常用方法 |
3.1 基于对数谱距离的语音端点检测方法 |
3.1.1 算法原理 |
3.1.2 算法实现与分析 |
3.2 基于谱熵的语音端点检测方法 |
3.2.1 算法原理 |
3.2.2 算法实现与分析 |
3.3 基于能零比的语音端点检测方法 |
3.3.1 算法原理 |
3.3.2 算法实现与分析 |
3.4 基于能熵比的语音端点检测方法 |
3.4.1 算法原理 |
3.4.2 算法实现与分析 |
3.5 本章小结 |
第四章 基于单特征的语音端点检测方法研究 |
4.1 引言 |
4.2 特征提取 |
4.2.1 GFCC特征提取 |
4.2.2 特征预处理 |
4.3 多窗谱减法 |
4.4 实验设计与分析 |
4.4.1 实验设计 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第五章 基于多特征融合的语音端点检测方法研究 |
5.1 引言 |
5.2 联合MFCC和 GFCC的融合特征 |
5.2.1 特征融合目标分析 |
5.2.2 MFCC特征提取 |
5.2.3 MFCC_0和GFCC_0特征融合方法 |
5.3 兼顾清浊音段追踪的融合特征 |
5.3.1 特征融合目标分析 |
5.3.2 特征提取 |
5.3.3 多特征融合方法 |
5.4 自适应门限估计方法 |
5.5 实验设计与分析 |
5.5.1 实验设计 |
5.5.2 基于PMGFCC特征的检测结果 |
5.5.3 基于FBPG特征的检测结果 |
5.5.4 实验结果分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 A 攻读硕士期间发表的论文及其他成果 |
(3)藏语语音端点检测算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国外研究现状 |
1.3 国内研究现状 |
1.4 论文主要内容与组织结构 |
第二章 语音端点检测相关技术介绍 |
2.1 预处理 |
2.1.1 预加重和分帧 |
2.1.2 加窗 |
2.2 特征提取 |
2.2.1 短时能量特征提取 |
2.2.2 MFCC特征提取 |
2.3 端点检测算法分类 |
2.3.1 基于特征阈值的端点检测 |
2.3.2 基于模型匹配的端点检测 |
2.4 本章小结 |
第三章 基于特征阈值的端点检测算法分析 |
3.1 基于短时能量和过零率的藏语语音端点检测算法 |
3.1.1 算法思想 |
3.1.2 短时能量与短时过零率特征提取 |
3.1.3 算法实现 |
3.1.4 实验结果分析 |
3.2 基于谱熵的藏语语音端点检测算法 |
3.2.1 算法思想 |
3.2.2 谱熵特征提取 |
3.2.3 算法实现 |
3.2.4 实验结果分析 |
3.3 基于MFCC的藏语语音端点检测算法 |
3.3.1 算法思想 |
3.3.2 MFCC特征提取 |
3.3.3 算法实现 |
3.3.4 实验结果分析 |
3.4 本章小结 |
第四章 基于一维卷积神经网络的藏语语音端点检测 |
4.1 卷积神经网络相关概念 |
4.1.1 卷积神经网络的发展 |
4.1.2 卷积神经网络结构特征 |
4.1.3 卷积神经网络的训练 |
4.2 二维卷积神经网络结构 |
4.3 基于一维卷积神经网络的端点检测算法实现 |
4.3.1 语音预处理 |
4.3.2 一维卷积神经网络 |
4.3.3 端点检测 |
4.4 实验 |
4.4.1 实验数据 |
4.4.2 实验评价标准 |
4.4.3 实验结果及分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间取得的研究成果 |
(4)汉语连续语音切分技术研究(论文提纲范文)
1 引言 |
2 端点检测技术 |
2.1 双门限端点检测 |
2.2 多阈值端点检测 |
3 汉语语音音节切分 |
3.1 基音周期轨迹分析 |
3.2 语谱图分析 |
4 实验结果与分析 |
4.1 实验数据 |
4.2 结果与分析 |
5 结语 |
(5)噪声环境下的语音基频检测算法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题研究背景及意义 |
1.2 语音基频检测算法的研究现状 |
1.2.1 语音基频检测算法的国外研究现状 |
1.2.2 语音基频检测算法的国内研究现状 |
1.3 本文的主要研究内容 |
2 语音基频的基本理论及语音库建立 |
2.1 语音信号的时域模型 |
2.1.1 语音信号的产生 |
2.1.2 语音信号的时域模型 |
2.1.3 语音信号的特征 |
2.2 语音基频基本理论 |
2.3 语音库的建立 |
2.3.1 纯净语音库的建立 |
2.3.2 噪声语音库的建立 |
2.3.3 真实环境语音库的建立 |
2.4 语音信号预处理 |
2.4.1 采集量化 |
2.4.2 预加重 |
2.4.3 分帧加窗 |
2.4.4 端点识别 |
2.5 小结 |
3 语音增强算法的改进 |
3.1 语音增强概述 |
3.2 噪声对语音信号处理系统的影响 |
3.2.1 噪声对语音端点检测的影响 |
3.2.2 噪声对语音信号基频检测的影响 |
3.3 后置自适应滤波器谱减算法实现 |
3.3.1 谱减算法原理及问题分析 |
3.3.2 自适应滤波法语音增强原理 |
3.3.3 后置自适应滤波器谱减算法的原理 |
3.4 后置自适应滤波器谱减算法的性能评估 |
3.4.1 语音增强算法性能评估方法 |
3.4.2 时域波形图及频域语谱图分析 |
3.4.3 仿真语音环境下的实验与分析 |
3.4.4 真实语音环境下实验及分析 |
3.5 小结 |
4 语音基频检测算法的研究与改进 |
4.1 语音基频检测算法综述 |
4.2 语音基频检测算法存在问题分析及改进措施 |
4.2.1 自相关函数法 |
4.2.2 平均幅度差函数法 |
4.2.3 语音基频检测算法的改进 |
4.2.4 提高语音基音周期检测准确性的措施 |
4.3 小结 |
5 实验与结论 |
5.1 语音数据的信息分布情况 |
5.2 语音基频检测算法的软件设计 |
5.3 改进的语音基频检测算法的语谱图分析 |
5.4 改进的语音基频检测算法的错误率参数分析 |
5.5 真实环境下的语音基频检测 |
5.6 小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读学位期间发表的论文、软着 |
(6)车载噪声背景下声纹识别关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 发展历史与研究现状 |
1.3 声纹识别研究的难点 |
1.4 论文主要内容安排 |
第二章 声纹识别相关原理 |
2.1 声纹识别系统 |
2.2 语音信号与噪声 |
2.2.1 语音信号的产生 |
2.2.2 车载噪声的来源 |
2.3 语音信号的预处理 |
2.4 声学模型 |
2.4.1 HMM模型 |
2.4.2 GMM-HMM模型 |
2.4.3 GMM-UBM模型 |
2.5 本章小结 |
第三章 语音信号端点检测方法研究 |
3.1 端点检测原理 |
3.2 端点检测常用算法 |
3.2.1 基于卷积神经网络的端点检测算法 |
3.2.2 基于谱熵的端点检测算法 |
3.2.3 基于频带方差的端点检测算法 |
3.2.4 基于双门限的端点检测算法 |
3.2.5 问题分析 |
3.3 基于GASA优化FCM-BIC的语音端点检测方法 |
3.3.1 GASA |
3.3.2 FCM |
3.3.3 BIC |
3.3.4 实现步骤 |
3.3.5 算法仿真 |
3.4 本章小结 |
第四章 声纹特征参数提取方法研究 |
4.1 声纹特征参数 |
4.1.1 线性预测倒谱系数 |
4.1.2 梅尔倒谱系数 |
4.1.3 瓶颈特征 |
4.2 基于TCL和稀疏DNN的瓶颈特征提取方法 |
4.2.1 TCL |
4.2.2 稀疏深度神经网络 |
4.2.3 方法流程 |
4.2.4 实验分析 |
4.3 本章小结 |
第五章 车载噪声背景下声纹识别系统实验与分析 |
5.1 系统设置 |
5.2 实验设计与结果分析 |
5.2.1 高斯混合阶数对系统的影响 |
5.2.2 端点检测对系统的影响 |
5.2.3 信噪比对系统的影响 |
5.3 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 1 攻读硕士学位期间主要研究成果 |
致谢 |
(7)噪声环境下连续语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 连续语音识别技术的发展及研究现状 |
1.3.1 国外连续语音识别技术的发展简介 |
1.3.2 国内连续语音识别技术的发展简介 |
1.3.3 语音识别技术的研究现状与发展趋势 |
1.4 噪声环境下连续语音识别技术的难点 |
1.5 论文的组织结构安排 |
2 语音信号特征分析 |
2.1 语音信号预处理 |
2.1.1 预加重 |
2.1.2 分帧 |
2.1.3 加窗 |
2.2 语音信号的时域特征分析 |
2.2.1 短时能量 |
2.2.2 短时平均过零率 |
2.3 语音信号的频域特征分析 |
2.4 语音信号的倒谱域特征分析 |
2.5 噪声处理 |
2.5.1 语音增强 |
2.5.2 绘制基音谱图 |
2.6 本章小结 |
3 汉语连续语音切分技术 |
3.1 语音信号的端点检测技术 |
3.1.1 双门限端点检测技术 |
3.1.2 多阈值端点检测技术 |
3.2 汉语语音音节切分 |
3.2.1 基音周期轨迹分析 |
3.2.2 语谱图分析 |
3.3 本章小结 |
4 汉语语音识别的声学模型 |
4.1 矢量量化 |
4.2 隐马尔可夫模型 |
4.2.1 隐马尔可夫模型的基本思想 |
4.2.2 隐马尔可夫模型的基本问题 |
4.2.2.1 前向-后向算法 |
4.2.2.2 Baum-Welch算法 |
4.2.3 离散型隐马尔科夫模型 |
4.2.4 连续型隐马尔可夫模型 |
4.3 本章小结 |
5 汉语语音识别的语言模型 |
5.1 统计语言模型 |
5.1.1 N元文法语言学模型 |
5.1.2 N元文法模型的数据平滑技术 |
5.1.2.1 加法平滑技术 |
5.1.2.2 Good-Turning估计 |
5.1.2.3 线性差值平滑技术 |
5.1.3 N元文法模型的搜索算法 |
5.2 汉语连续语音识别系统实现 |
5.2.1 系统框架设计 |
5.2.2 系统测试 |
5.2.2.1 实验环境 |
5.2.2.2 实验结果及分析 |
5.3 本章小结 |
6 总结与展望 |
致谢 |
参考文献 |
附录 |
(8)低信噪比条件下的语音端点检测算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 本文研究的背景及意义 |
1.2 国内外相关行业的研究概况 |
1.2.1 基于时域特征参数的检测算法 |
1.2.2 基于变换域参数的检测算法 |
1.2.3 基于距离和失真度的检测算法 |
1.2.4 基于信息论的检测算法 |
1.2.5 基于统计模型和模式分类的检测算法 |
1.2.6 基于人工神经网络的检测算法 |
1.2.7 其他算法 |
1.3 本文研究的主要内容 |
1.4 章节安排 |
第二章 常规语音端点检测算法与问题分析 |
2.1 语音端点检测的常规流程 |
2.1.1 预处理 |
2.1.2 特征提取 |
2.1.3 端点判决 |
2.1.4 后处理 |
2.2 基于短时能量和短时过零率的双门限端点检测 |
2.2.1 算法原理 |
2.2.2 问题分析 |
2.3 基于频带方差的语音端点检测算法 |
2.3.1 算法原理 |
2.3.2 问题分析 |
2.4 基于谱熵的语音端点检测算法 |
2.4.1 算法原理 |
2.4.2 问题分析 |
2.5 基于卷积神经网络的端点检测方法 |
2.5.1 算法原理 |
2.5.2 问题分析 |
2.6 本章小结 |
第三章 改进的谱减降噪算法 |
3.1 带噪语音和信噪比 |
3.1.1 噪声类型与信噪比 |
3.1.2 噪声对语音的影响 |
3.2 常规语音降噪算法 |
3.2.1 LMS自适应滤波器算法 |
3.2.2 谱减算法 |
3.3 改进的谱减算法 |
3.3.1 改进方法 |
3.3.2 实现步骤 |
3.4 实验与对比 |
3.4.1 实验准备 |
3.4.2 实验流程 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 低信噪比条件下的端点检测算法 |
4.1 低信噪比条件下的语音端点检测 |
4.1.1 存在的主要问题 |
4.1.2 主要解决思路 |
4.1.3 算法评价方法 |
4.2 常规算法的优势与不足 |
4.2.1 子带谱熵算法 |
4.2.2 能熵比算法 |
4.2.3 算法的优势与不足 |
4.3 改进的子带能熵比算法 |
4.3.1 算法改进 |
4.3.2 实现步骤 |
4.3.3 算法仿真 |
4.4 改进谱减与子带能熵比结合的端点检测算法 |
4.4.1 算法原理 |
4.4.2 实现步骤 |
4.4.3 算法仿真 |
4.5 本章小结 |
第五章 实验与性能比较 |
5.1 实验准备 |
5.1.1 平台与数据选择 |
5.1.2 流程设计 |
5.2 实验结果 |
5.2.1 混叠Babble噪声的端点检测 |
5.2.2 混叠Factory1 噪声的端点检测 |
5.2.3 混叠HFChannel噪声的端点检测 |
5.2.4 混叠Pink噪声的端点检测 |
5.2.5 混叠White噪声的端点检测 |
5.2.6 不同噪声间的横向对比 |
5.2.7 不同信噪比间的横向对比 |
5.3 实验总结 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(9)面向语音端点检测的关键电路优化设计(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 研究内容和设计指标 |
1.3.1 研究内容 |
1.3.2 设计指标 |
1.4 论文组织结构 |
第二章 语音端点检测系统介绍 |
2.1 语音端点检测系统简介 |
2.1.1 语音识别系统中的语音端点模块 |
2.1.2 时频结合语音端点检测算法原理介绍 |
2.1.3 时频结合语音端点检测算法模块介绍 |
2.2 语音特征参数介绍 |
2.2.1 语音特征参数选择 |
2.2.2 时域参数原理介绍 |
2.2.3 频域参数原理介绍 |
2.3 时频结合语音端点检测电路设计 |
2.3.1 语音端点检测算法电路设计方案 |
2.3.2 时频端点检测电路模块设计 |
2.3.3 关键电路分析 |
2.4 本章小结 |
第三章 端点检测预处理电路优化设计 |
3.1 语音端点检测预处理电路分析 |
3.1.1 预加重电路 |
3.1.2 分帧电路 |
3.1.3 加窗电路 |
3.2 分帧-特征提取电路优化设计 |
3.2.1 过零率分帧电路 |
3.2.2 平均能量分帧电路 |
3.2.3 熵谱-分帧电路 |
3.3 仿真验证与实验结果 |
3.3.1 仿真验证 |
3.3.2 分帧电路优化实验结果 |
3.4 本章小结 |
第四章 端点检测计算电路优化设计 |
4.1 语音端点检测计算电路分析 |
4.1.1 短时能量和过零率电路 |
4.1.2 谱熵参数计算电路 |
4.1.3 判决电路 |
4.2 谱熵计算电路优化设计 |
4.2.1 FFT流水线结构 |
4.2.2 频谱处理计算结构 |
4.2.3 时频参数同步电路 |
4.3 仿真验证和结果分析 |
4.3.1 电路功能仿真验证 |
4.3.2 谱熵参数计算电路实验结果 |
4.4 本章小结 |
第五章 端点检测电路验证 |
5.1 实验平台 |
5.1.1 软件环境介绍 |
5.1.2 硬件环境介绍 |
5.1.3 验证数据集 |
5.2 实验结果和分析 |
5.2.1 系统功能验证 |
5.2.2 系统计算效率 |
5.2.3 硬件资源开销 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间的研究成果 |
附录 |
(10)对外汉语看图说话题自动评分模型的构建研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.1.1 对外汉语口语测试的发展现状 |
1.1.2 对外汉语口语测试评分方式现状 |
1.1.3 看图说话题型测试现状分析 |
1.1.4 看图说话题型实现自动化评分的必要性 |
1.2 研究意义 |
1.3 研究目标 |
1.4 研究方法和思路 |
1.4.1 研究方法 |
1.4.2 研究思路 |
1.5 论文结构安排 |
第2章 相关研究综述 |
2.1 相关概念界定 |
2.1.1 对外汉语口语测试 |
2.1.2 看图说话 |
2.1.3 自动评分模型 |
2.2 口语自动评分方法的研究现状 |
2.2.1 限制型口语测试任务自动评分的研究现状 |
2.2.2 半限制型口语测试任务自动评分的研究现状 |
2.3 对外汉语自动评分模型的相关研究 |
第3章 看图说话题的评分特征分析 |
3.1 评分标准 |
3.1.1 HSKK看图说话题的自测评分说明 |
3.1.2 高等HSK口语考试评分标准 |
3.1.3 看图说话题评分标准 |
3.2 内容相关性特征 |
3.2.1 与图片相符的程度 |
3.2.2 语量情况 |
3.3 表达流利性特征 |
3.3.1 发音标准程度 |
3.3.2 停顿情况 |
3.3.3 重复和纠正情况 |
3.4 语法准确性特征 |
第4章 看图说话题自动评分的相关技术 |
4.1 提取评分特征的技术方法 |
4.2 语音关键词检索技术 |
4.3 语音识别技术 |
4.4 语音评测技术 |
4.5 语音端点检测技术 |
4.6 文本自动校对技术 |
第5章 看图说话题自动评分模型的构建与检验 |
5.1 数据来源及评分方式 |
5.1.1 数据来源 |
5.1.2 评分方法 |
5.1.3 评分者信度分析 |
5.2 评分特征的提取 |
5.2.1 内容相关性特征提取 |
5.2.2 表达流利性特征提取 |
5.2.3 语法准确性特征提取 |
5.2.4 评分特征的描述性分析 |
5.2.5 评分特征提取的质量分析 |
5.3 自动评分模型的构建 |
5.4 自动评分模型的性能检验 |
5.4.1 预测分数与原始分数的相关性分析 |
5.4.2 预测分数与原始分数的一致性分析 |
5.5 结果讨论 |
第6章 总结与展望 |
6.1 研究总结 |
6.2 研究不足与展望 |
附录A 语料样本的基本信息 |
附录B 语料样本的分组情况和统计结果 |
参考文献 |
在读期间参与的项目 |
致谢 |
四、汉语连续语音端点检测技术的研究(论文参考文献)
- [1]基于CNN多特征融合的藏语语音识别的研究[D]. 侯苗苗. 西北师范大学, 2021(12)
- [2]噪声环境下的语音端点检测方法研究[D]. 罗思洋. 昆明理工大学, 2021(01)
- [3]藏语语音端点检测算法研究[D]. 李高攀. 青海师范大学, 2021(09)
- [4]汉语连续语音切分技术研究[J]. 王宇琛,张二华. 计算机与数字工程, 2020(08)
- [5]噪声环境下的语音基频检测算法研究[D]. 王小标. 西安理工大学, 2020(01)
- [6]车载噪声背景下声纹识别关键技术研究[D]. 汤琛. 湖南师范大学, 2020(01)
- [7]噪声环境下连续语音识别技术研究[D]. 王宇琛. 南京理工大学, 2019(01)
- [8]低信噪比条件下的语音端点检测算法研究[D]. 曾剑飞. 华南理工大学, 2019(01)
- [9]面向语音端点检测的关键电路优化设计[D]. 王晓波. 东南大学, 2019(06)
- [10]对外汉语看图说话题自动评分模型的构建研究[D]. 汤国春. 南京师范大学, 2019(04)