一、基于模式识别的语音分类方法(论文文献综述)
彭洁[1](2020)在《基于模式识别的光纤周界安防系统检测信号解析技术的研究》文中进行了进一步梳理近年来,随着光纤周界安防系统广泛应用于仓库、油气管道等大型防区的安全防护,如何提高安防系统的实时性与准确度成为安防领域的研究重点。光纤周界安防系统利用光纤振动传感器采集光纤振动信号,但采集到的信号纷乱复杂,所以如何对信号进行有效处理并识别分类是亟待解决的问题。本文基于以上研究背景,对光纤周界安防系统的信号处理与识别技术展开相关研究,相关工作及提出的创新点如下:(1)阐述多种干涉型光纤振动传感器采集信号的工作原理,分析各传感器优缺点及适用场景,说明使用Michelson光纤振动传感器的原因。(2)研究了光纤振动信号的处理方法,在时域、频域和小波域的特征提取基础上,创新地提出将双门限端点检测方法及Mel系数特征提取方法应用到数据处理环节,并根据以上方法对采集的光纤振动信号进行处理。(3)重点论述了选择传统KNN算法的原因,介绍了传统KNN算法的基本原理与实现过程,并结合本论文的分类标准,分析了在多种距离度量方式中选择欧式距离的原因。(4)基于对传统KNN算法的分析,本论文创新地提出了 KNN算法的改进,主要包括以下三个方面:通过交叉验证法选取最佳K值得到最高识别准确率、将KD树应用于KNN算法提高算法效率以及通过距离加权提高系统识别准确率,最后还通过实验对传统KNN算法与改进后算法性能进行对比分析。
仝润泽[2](2020)在《面向手势识别的表面肌电信号分类算法研究》文中研究表明表面肌电信号(Surface Electromyography,sEMG)是能够反应肌肉收缩情况的生物电信号。通过分析sEMG信号可以获知肢体的运动信息。由于sEMG采集方便、仿生性好,在假肢控制、辅助诊断、人机交互等领域得到广泛应用。在利用sEMG信号分析人体运动意图的研究中,主要涉及到数据预处理、特征提取与模型分类。其中,特征提取是极其关键的一环,然而这往往涉及到大量手动设计的特征与专业的领域知识,因此实验者会在特征提取上耗费时间与精力。为了解决此问题,研究者借鉴了深度学习在图像分类上的成功经验,将能够自动提取特征的深度学习方法应用在基于sEMG的手势识别问题中。实验结果表明,该方法可以显着提升肌电信号的分类精度。本文在前人研究的基础上,根据sEMG信号的特点,设计出一种深度学习模型——双流网络模型,此模型能够自动提取sEMG信号的时空特征。首先,将多帧肌电信号合并为灰度图,利用卷积神经网络(Convolutional Neural Networks,CNN)来提取灰度图的高层次的抽象空间特征。其次,sEMG信号属于时序信号的一种,信号内部存在着时间规律,可以采用长短时间记忆机(Long Short-Term Memory,LSTM)学习信号间的时间特征。之后,将来自表面肌电信号的空间特征与时间特征融合为时空特征。通过使用CNN与LSTM的并行结构,可以有效的自动学习到sEMG信号内部的时空特征。除此之外,本文还探讨了还另外两种CNN与LSTM的结合方式,通过实验验证,也获得较好的分类效果。最后,本文使用了团队自研的肌电仪作为sEMG的采集设备,采集了8位志愿者的5种手势数据构建了Elonxi DB数据集,本文设计的三种模型将与经典的传统分类方法和基于CNN的方法进行对比实验。除此之外,为验证双流网络模型的泛化能力,公开数据集Nina Pro DB1被用于本文的实验部分。实验结果表明,与CNN相比,本文提出的网络结构能够提取sEMG信号的时空特征,可以更加有效的提高手势识别准确率。
刘桐[3](2020)在《基于视频音频联合识别的校园霸凌检测算法研究》文中认为在这个网络媒体技术高速发展的时代,人们接收信息的渠道变得越来越多,校园霸凌事件也开始走入人们的视野中。在互联网自媒体时代中,网络世界中繁杂的暴力、低俗信息对青少年的心智发展产生了严重的影响,有的学生甚至会去模仿接触到的暴力低俗行为,校园霸凌事件不仅影响了校园生活风气还对学生的心理发展产生了恶劣的影响,由此可见在校园中主动检测校园霸凌事件的重要性。本文分别从视频与音频两方面通过模式识别技术对学生遭受校园霸凌的情况进行及时判断,并且通过改进的DS融合算法对两方面的判别结果进行融合。基于校园监控视频并结合定向音频采集设备实现了对学生身心安全进行无间歇的实时监测,有利于构建和谐的校园环境。针对视频图像复杂的数据特征,本文首先对视频图像数据进行预处理,并通过搭建深度卷积神经网络来提取霸凌动作和日常动作数据特征。每16帧视频图像数据提取出一个4096维度的特征向量,在此基础上设计神经网络识别算法,该识别算法的识别规则如下:以16帧视频图像为基本识别单元对视频样本数据进行分割,对每一个基本单元进行一次判断,最终取所有判断结果的平均值作为最终识别结果,最终校园霸凌行为识别的准确率达到了92.00%,精准率达到了95.65%,召回率达到了88.00%,F1-Score值为91.67%,表明该分类模型性能较好。针对音频数据特征的复杂性,本文首先对音频数据进行预加重、分帧、加窗等预处理,其次对音频数据进行MFCC特征参数的提取,之后搭建深度卷积神经网络设计暴力情绪识别算法。本文暴力情绪识别算法的设计基于自制小型语音数据库、芬兰语音数据库以及CASIA公开语音数据库。针对自制小型语音数据库,该识别算法的精准率为88.33%,F1-Score为81.14%;针对芬兰语音数据库,该识别算法的准确率为95.00%,F1-Score为95.00%;针对CASIA公开语音数据库,该识别算法的准确率为91.67%,F1-Score为91.43%。本文中暴力情绪识别算法在3种语音数据库上表现出较好的性能,证明了该算法的通用性。最后,针对DS融合算法的局限性,提出了新的融合规则。并利用改进后的DS融合算法对视频与音频两方面的识别结果进行融合,其准确率为94.33%,F1-Score为94.07%,相比于改进前DS融合算法,该算法的准确率提高了10.19%,F1-Score提高了2.66%。
许展昭[4](2020)在《基于嗅觉神经模型的表面肌电信号处理研究》文中研究说明有关报告显示,近年来我国的老龄化程度越来越高,同时全国的残疾人群也非常庞大。对于部分存在运动障碍的老年人或残疾人士而言,传统的假肢或轮椅等设备并不能够实现他们自主行动的需求。基于肌电信号的脑机接口的出现为上述需求提供了有效的解决途径,无论肢体是否残疾,脑机接口使用者都能够通过“意识”直接控制外部设备。除了能够帮助某些运动障碍人士进行自主行动,基于肌电信号的脑机接口在其它场景也有较多应用。近年来,对于人工神经网络的研究非常热门,然而人工神经网络往往不具备仿生特性。目前,国际上已经把对嗅觉的仿生研究列为重要的研究课题,由Freeman提出的K系列嗅觉模型不仅能够很好的模拟实验中测得的很多电生理信号(包括脑电信号在内),并且具有较好的模式识别能力,因此受到了很多的关注。肌电信号作为一种非线性、非平稳、信噪比很低的高维度信号,对信号处理的要求很高。考虑到肌电信号与脑电信号的特性比较相似,KⅢ模型对肌电信号的模式识别也有着与生俱来的潜力。因此,本文将应用KⅢ模型开展表面肌电信号的模式识别研究,希望能够借助KⅢ模型的仿生生物特性,得到较好的肌电信号模式识别效果,从而为基于肌电信号的脑机接口的发展出一份力。本文的研究工作主要分为2个部分:(1)设计了相关实验,通过自主设计的信号采集装置,采集被试者在无声语音发声时脸部的表面肌电信号,得到由6个汉字组成的数据集。对于采集得到的信号,依次进行了信号切割、信号规整、信号增强,之后对信号了进行时域和频域的特征提取,并进行了特征降维,为后续的模式识别做准备。(2)对KⅢ模型进行了详细的介绍和仿真分析,深入介绍了KⅢ模型的模式识别基础。使用原始肌电信号作为KⅢ模型的输入信号,取得的最佳识别率为60%左右;使用特征向量作为KⅢ模型的输入信号,取得的最佳识别率为75%左右;引入常用的分类器与KⅢ模型结合,从而形成了“KⅢ+X”,代替了原有的“KⅢ+最小欧氏距离法”。其中,“KⅢ+SVM”的平均识别率最高(83.6%)。此外,还证明了 KⅢ模型在整个模式识别流程中的重要性。
王永东[5](2019)在《二十一世纪人工智能艺术设计思潮研究》文中提出技术与艺术,一直从人类社会诞生之初就开始在技术环境和人文环境的交替下进行着“技术艺术化”和“艺术技术化”的不断渗透。将技术与艺术的这种动态发展关系放在具体的时代背景和人文环境中进行研究,是推动技术与艺术各自领域理论和实践发展的必由之路。21世纪作为人工智能爆发式发展以及艺术数字化变革的重要历史阶段,人工智能艺术设计将是技术与艺术在新的时代背景下的融合。研究21世纪人工智能艺术设计的思潮符合技术与艺术的双重时代背景。本文以21世纪人工智能艺术设计思潮为研究对象,以国内外关于人工智能和艺术设计专业知识的经典着作为理论基础,以21世纪人工智能技术与艺术设计的发展趋势为理论依据,将21世纪人工智能艺术设计分为智能交互艺术设计、智能机器人艺术设计以及虚拟现实艺术设计。运用文献研究法、案例分析法、分类研究法和跨学科研究法等具体的研究方法,对每一种人工智能艺术设计思潮的背景、起源、定义、分类、特征、审美等展开详细研究。通过收集有关人工智能技术和艺术设计前沿研究领域的大量书籍资料,首先对与艺术设计相契合的人工智能技术做了简单的介绍,然后以人工智能技术在艺术设计领域的渗透为依据,对人工智能艺术设计的思潮展开分类,总体上确定了人工智能艺术设计思潮的研究框架。再分别从艺术种类、艺术形式和审美特征等研究方面结合具体的艺术作品对特定的人工智能艺术思潮展开详细论证。在文章的最后,笔者结合有关21世纪未来人工智能技术和艺术设计发展趋势的相关资料,对人工智能艺术的发展趋势进行了预测。本文通过对21世纪人工智能艺术设计思潮的分类、特征、审美等方面的研究,建立了一个初步的人工智能艺术设计思潮研究的框架,理论上丰富了艺术设计研究的体系,为人工智能艺术设计思潮的研究提供了基础理论资料。同时,通过对人工智能各大艺术设计思潮审美特征的研究,在一定程度上培养了人工智能艺术设计受众对于人工智能艺术设计审美的审美范式。结合未来人工智能技术的发展趋势,从艺术的内容观念、艺术形式、艺术媒介等方面对未来人工智能艺术的发展做了预测,得出了人工智能艺术在未来一段时间内呈现出的微艺术形式、强伦理观念和新艺术媒介等一系列特征。
王吉[6](2018)在《基于模式识别的室内声源定位研究》文中提出近年来,模式识别在声源定位中应用广泛。这类方法比传统声源定位算法更具鲁棒性,但在带有噪声、混响的室内环境中,该类方法会出现计算量大、定位精度不高等问题。针对这些问题,本文提出了一种基于特征长度的声源定位方法。通过提取不同长度的相位加权变换广义互相关函数作为特征,来提升基于朴素贝叶斯、线性判别分析、支持向量机的分类识别定位性能。为此,本文主要做了以下工作:1.选取合适长度的相位加权变换广义互相关函数对分类识别定位方法进行优化。实验表明,轻度混响环境下,可在保持相当的定位精度的前提下,通过减小特征长度来减少计算量;强混响环境下,可通过增加特征长度提高定位精度,且线性判别分析分类器定位性能优于朴素贝叶斯分类器和支持向量机分类器。2.针对10°、50°和90°三个方位的声源,选取合适长度的相位加权变换广义互相关函数对分类识别定位方法进行优化。实验表明,混响环境下,对于90°方位的声源,选用较短的相位加权变换广义互相关函数特征就能达到较好的定位性能,对于10°方位的声源,需用较长的相位加权变换广义互相关函数特征才能够达到更高的定位精度。3.提取不同信噪比环境下的相位加权变换广义互相关函数,训练而成相应的线性判别分析分类器,将定位精度最高的线性判别分类器用于环境信噪比未知的室内声源定位。实验表明,轻度混响环境下,选用与环境信噪比稍低的训练集训练而成的线性判别分类器可以达到更好的分类定位效果;强混响环境下,选用与环境等信噪比或者稍低的训练集训练而成的线性判别分类器可以达到更好的分类定位效果。
陈阳,覃鸿,李卫军,周新奇,董肖莉,张丽萍,李浩光[7](2016)在《仿生模式识别技术研究与应用进展》文中指出回顾了仿生模式识别与传统模式识别的本质区别,与传统模式识别"分类划分"思想不同,仿生模式识别把模式识别问题看成是各类样本的"认识",并将"同源连续性"规律作为先验知识,用高维空间几何形体覆盖方法实现对同类事物的学习,因此克服了传统模式识别的缺点。其有效性逐渐受到学者的广泛关注。分析总结了目前已有的仿生模式识别方法的研究和应用,方法研究包括样本点分布的拓扑分析、覆盖算法和重叠空间中样本的归属;应用研究方面包括目标识别、生物特征识别、文本识别、近红外光谱定性分析等。分析表明仿生模式识别是创新、有效的模式识别方法。最后指出同类样本点分布流形的分析方法和高维空间拓扑理论与算法研究等是仿生模式识别未来重要的发展方向。
张涛[8](2012)在《基于语音特征的帕金森病可视化诊断方法研究》文中进行了进一步梳理帕金森病是人类常见的神经退行性疾病之一,其病程时间长且发病范围广。由于该病病因尚未完全明确,目前所有针对帕金森病的治疗都是控制病症,而无法从根本上进行治愈。但在发病早期就开始接受合理治疗的患者,绝大多数能够延缓病情的发展,生活基本自理。因此,帕金森病的早期诊断不论对于家庭还是社会均具有重大意义。语言障碍是帕金森病的早期症状之一,基于语言障碍的帕金森病诊断是近年来的帕金森病诊断研究热点之一。本文针对帕金森病的语言障碍特征,本文提出利用多维筛组合分类器进行帕金森病的可视化诊断。在解决帕金森病诊断实际问题的同时,完善基于高维数据列向量图表示的可视化组合分类器理论和方法,无论对信息融合和模式识别学术研究还是对基于语音特征的帕金森疾病诊断应用研究都具有重要意义。首先,基于可视化分类器的框架结构,提出多维筛组合分类器框架,并从数据表示、类域生成与权重计算三个方面进行了完善。在数据表示阶段,提出基于色度学混色原理的彩色多元图着色表示,完善了模式识别应用下的多元图表示中类别信息的表示方法;在类域生成阶段,以训练样本的空间单点表示为出发点,提出了基于计算几何的区域主动生长的类界面求取方法。通过对基点区域的主动生长,使得整个表示空间任意区域均可进行类别表示,从而完成分类界面的计算过程;在权重计算阶段,从类空间类别分布特性出发,分别从不同的视觉角度提出基于类空间模糊度与规整度的权重分配方法,分别从统计和结构角度对类空间进行可视化权重计算。对通用数据的综合数据实验表明,多维筛分类器不但具有良好的可视化特性,而且分类性能已经达到或超过主流分类器的水平。其次,研究了帕金森病语音特征与帕金森病临床表现之间的关系。通过实验验证,进一步阐明各语音特征的物理意义及其应用特点,为基于语言障碍检测的帕金森病早期诊断提供了可靠依据。在证明语音特征用于帕金森病诊断的有效性同时,分析了不同特征下不同元音的类间分离度,为基于语音障碍的帕金森病自动诊断奠定了基础。最后,在对基于语言障碍的帕金森病的分类实验中,分别利用帕金森数据集与远程帕金森数据集进行了帕金森病的可视化诊断与病程的判断。实验表明,利用可视化模式识别理论,不但完成了诊断过程的全程可视化,有助于新的诊断指标的发现,而且获得了比经典分类器更高的诊断精度。
魏丽娜[9](2012)在《婴儿情绪信息的模式识别技术研究与实现》文中进行了进一步梳理婴幼儿专家的研究成果表明,婴儿的情绪表达不仅是与外界交流的主要方式,而且是反映其生理和心理需求、心身健康状态乃至智力发育水平的重要信息来源。近年来,婴儿情绪信息的研究已经引起了人们极大的兴趣并成为相关领域正在探索之中的新兴前沿研究热点。从已有的研究工作来看,婴儿的语音信息是最便于准确采集并能体现婴儿独特的语言运动方式和情感表达特征的重要信息,受到了研究学者们的普遍关注。然而,目前尚缺乏统一的婴儿情绪分类方法及相应的语音信息特征描述,特别是对于蕴涵着丰富情绪信息的婴儿笑声和哭声,在其内涵意义的识别与理解上尚未形成统一的看法。本文在作者亲身体验的实践基础上,采用模式识别技术对上述问题作了探索性研究。首先,从婴儿的发生器官结构及其情绪表达特征入手,结合婴儿的主要生理与心理需求和其所处的环境特点,对婴儿的情绪状态分类与相关的语音情绪信息作了分析。然后,通过线性预测参数(LPC)、线性预测倒谱参数(LPCC)和Mel尺度倒谱参数(MFCC)等信号分析的技术参数,对婴儿语音情绪信息的数据采集和预处理过程及相应的特征参数提取方法进行了研究。在此基础上,本文进一步探讨和比较了人工神经网络(ANN)、隐马尔可夫模型(HMM)、动态时间规整(DTW)等方法应用于婴儿情绪信息模式识别的可行性。经过综合比较,本文采用了MFCC参数和DTW方法,针对婴儿最常见的高兴、饥饿、困倦三种典型的身心状态所表达的情绪信息作模式识别研究,并给出了其技术实现方法和实验测试结果,取得了良好的识别效果。本文的研究成果为相关领域的研究工作提供了重要的探索性启发。
李邵梅[10](2011)在《文本无关短语音说话人识别技术研究》文中研究表明近年来,随着应用需求的推进和相关理论的发展,说话人识别的研究取得了很大的进展,国内外研究机构正在积极推动其新理论的研究、新方法的实验和实用化进程,其中,利用短语音进行训练和识别的研究备受关注。从2004年开始NIST(美国国家标准与技术署)在举办说话人识别评测(SRE)时就按照语音长度划分测试项,在语音长度最短的测试项中,训练和识别的语音长度都不大于10秒。从评测的结果来看,与语音长度较长的测试项相比,该测试项性能下降严重。这主要是因为目前的说话人识别系统主要采用概率统计模型,识别性能很大程度上依赖于训练语音和测试语音的匹配程度,而通常采用的短时倒谱特征中同时包含说话人信息和语义信息,其中语义信息的差异会影响训练和识别的匹配程度。文本相关的说话人识别性能远优于文本无关的说话人识别的主要原因就在于它保证了训练和识别中的语义是完全匹配的。但是在文本无关的说话人识别中,如果训练和测试语音太短,两者的语义内容可能存在较为严重的失配现象,而现有的语音信号处理技术不能实现语音中的语义信息和说话人信息的分离,所以这是影响文本无关说话人识别性能的重要因素。为了研究语音长度对说话人识别性能的影响,提高短语音的识别性能,本文研究主要基于以下两个思路展开:1、研究如何克服短语音条件下训练和识别语音的语义不匹配对识别性能的影响,并且针对说话人辨认和说话人确认两种应用,分别提出了解决方法。2、研究如何通过从长度有限的语音中提取尽可能多的语音特征,丰富说话人特征的描述,进而提高短语音条件下说话人识别的性能。本课题的主要贡献和创新点包括以下几个方面:1)提出了基于“说话人属性约束”的特征变换方法,通过相对抑制语义信息对短时倒谱特征分布的影响,突出说话人信息在语音特征空间分布中的作用,使同一说话人的特征分布更集中,不同说话人间的区分更明显,从而提高了短语音说话人辨认的识别率。本文利用语音信号服从内蕴的非线性流形结构分布的特点,基于语音特征在空间中的局部几何结构,构建了近邻关系关联包;利用说话人属性约束变换,减少了短时倒谱特征中语义信息对说话人辨认的影响;并推导出了该变换中的显性变换矩阵,在GMM-UBM(Gaussian Mixture Model-Universal Background Model,混合高斯模型-通用背景模型)模型的基线说话人辨认系统进行了测试。在同一数据集上,跟已有的特征变换方法相比,在训练语音长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,该方法误识率的相对改善率分别为13.48%、9.58%、8.75%、9.90%和11.92%。2)提出了基于UBM(Universal Background Model,通用背景模型)混元子空间的文本无关说话人确认方法,寻找训练语音和测试语音的超向量中语义匹配的单元,充分利用这部分的识别结果,同时,减少超向量特征中语义不匹配部分的影响,降低了短语音说话人确认中的等错误率。本文根据文本相关的说话人识别的性能要远优于文本无关的说话人识别的性能的客观事实,以及训练语音和测试语音中的语义信息不匹配是影响短语音说话人识别性能的主要原因,提出了基于通用背景模型的混元在空间中分布的近邻关系,通过划分混元子空间的方法将文本无关的说话人识别隐性地转换为基于“语义内容”的说话人识别方法。利用语音特征对混元子空间的归属关系,对训练语音和测试语音进行拆分,基于各子空间内的子超向量识别,实现文本无关到“语义内容”相关的转换,最后通过设计合理的融合方法对各子空间的识别结果进行融合。在同一数据集上,本文提出的说话人确认方法和已有的基于子空间的说话人确认系统相比,在训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其等错误率的相对改善率分别为8.67%、10.22%、6.13%、5.00%和6.10%。3)提出了“仿生神经网络激励源”特征,将仿生模式识别的思想引入到说话人激励源建模中,验证了该特征用于说话人识别的有效性,并与基于短时倒谱特征的系统结合,提高了说话人识别的性能。针对现有的基于AANN(Auto-Associate Neural Network,自联想神经网络)方法从LP(Linear Prediction,线性预测)残差中提取激励源特征的不足,提出了基于仿生神经网络的说话人LP残差建模方法,并以此构建了激励源特征和相应的识别系统。该方法避免了传统神经网络中复杂的迭代训练过程,同时利用仿生模式识别的“基于认知而非区分”的思想有效地提高了系统在小样本,也就是短语音条件下的识别效果。在同一数据集上,基于LP残差向量,跟已有的基于AANN的识别方法相比,本文提出的基于仿生神经的识别方法在说话人辨认中,当训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其误识率相对改善率分别为6.98%、11.59%、9.67%、9.00%和18.45%。鉴于在说话人识别中,基于LP残差的激励源特征对短时倒谱特征具有很好的互补性,研究了基于短时倒谱特征和激励源特征融合的短语音说话人识别,并设计了基于可信度的短时倒谱特征和激励源特征判决融合方法。通过对不同特征间相关性的度量,研究了说话人识别中LP残差激励源特征对短时倒谱特征的互补性,为说话人识别中激励源特征和短时倒谱特征的结果融合提供了理论依据。针对说话人辨认和说话人确认,分别采用了基于单次识别中各特征识别结果可靠性的动态融合方法和基于不同特征在说话人识别中固有的区分性能的静态融合方法。相对于单一的短时倒谱特征,两种特征的识别结果融合之后,当训练语音的长度为10秒,测试语音长度分别为10秒、8秒、5秒、3秒和2秒时,系统识别性能的相对改善率分别为13.44%、11.11%、10.22%、10.12%和8.95%(说话人辨认)和5.51%、5.02%、10.72%、8.43%和2.55%(说话人确认)。
二、基于模式识别的语音分类方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于模式识别的语音分类方法(论文提纲范文)
(1)基于模式识别的光纤周界安防系统检测信号解析技术的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.3 论文研究内容及章节安排 |
第二章 光纤传感技术及常见相位调制传感器 |
2.1 光纤传感技术 |
2.2 光纤振动传感器的相位调制 |
2.3 常用的相位调制型光纤振动传感器 |
2.3.1 Sagnac型光纤振动传感器 |
2.3.2 Mach-Zehnder型光纤振动传感器 |
2.3.3 Michelson型光纤振动传感器 |
2.3.4 三种光纤振动传感器的对比 |
2.4 光纤周界安防系统整体框架 |
2.5 本章小结 |
第三章 基于传统KNN算法的光纤周界安防系统的方案设计 |
3.1 常用于光纤周界安防系统的模式识别算法 |
3.1.1 K-means算法 |
3.1.2 SVM算法 |
3.1.3 神经网络算法 |
3.1.4 KNN算法 |
3.1.5 光纤周界安防系统的算法选择 |
3.2 KNN算法综述 |
3.3 KNN算法的距离度量 |
3.3.1 欧几里得距离 |
3.3.2 曼哈顿距离 |
3.3.3 切比雪夫距离 |
3.3.4 明可夫斯基距离 |
3.3.5 马哈拉诺比斯距离 |
3.3.6 汉明距离 |
3.3.7 向量空间余弦相似度 |
3.3.8 KNN算法距离度量方式的选择 |
3.4 基于传统KNN算法的光纤周界安防系统的方案设计 |
3.5 KNN算法分析 |
3.6 本章小结 |
第四章 基于改进KNN算法的光纤周界安防系统的方案设计 |
4.1 KNN算法选取最佳K值的方案设计 |
4.1.1 简单交叉验证 |
4.1.2 N折交叉验证 |
4.1.3 留一法 |
4.1.4 自定义交叉验证 |
4.1.5 KNN算法选取最佳K值的方案选择 |
4.2 数据降维的方案设计 |
4.2.1 特征选择 |
4.2.2 主成分分析 |
4.3 基于KD-KNN算法的光纤周界安防系统的方案设计 |
4.3.1 KD-Tree模型的建立 |
4.3.2 KD-KNN算法的实现 |
4.4 改进算法识别准确率的方案设计 |
4.4.1 权重思想 |
4.4.2 距离加权 |
4.5 本章小结 |
第五章 基于模式识别的光纤周界安防系统 |
5.1 实验工具 |
5.2 实验环境 |
5.3 实验方案的设计与实现 |
5.3.1 光纤振动信号的端点检测 |
5.3.2 时域特征值提取 |
5.3.3 频域特征值提取 |
5.3.4 小波域特征值提取 |
5.3.5 Mel特征值提取 |
5.3.6 归一化处理 |
5.3.7 PCA确定主成分维度的实验 |
5.3.8 五折交叉验证确定最佳K值的实验 |
5.3.9 基于KNN及其改进算法的光纤周界安防系统性能分析的实验 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文主要工作总结 |
6.2 后续工作的展望 |
致谢 |
参考文献 |
攻取学位期间取得的研究成果 |
(2)面向手势识别的表面肌电信号分类算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究的背景与意义 |
1.2 研究现状与发展趋势 |
1.2.1 基于模式识别的方法 |
1.2.2 基于深度学习的方法 |
1.2.3 目前面临的问题 |
1.3 主要的研究内容与贡献 |
1.4 论文组织结构 |
第二章 表面肌电信号的研究基础与采集过程 |
2.1 表面肌电信号的生理学原理 |
2.2 表面肌电信号的特性与数学模型 |
2.3 前臂肌肉与手部动作的关系 |
2.4 表面肌电信号的采集 |
2.4.1 肌电信号采集设备 |
2.4.2 手势选取与数据采集 |
2.5 本章小结 |
第三章 表面肌电信号的特征提取与分类方法 |
3.1 表面肌电信号的窗口分析法 |
3.2 表面肌电信号的特征提取方法 |
3.3 表面肌电信号分类方法 |
3.4 基于表面肌电信号的深度学习理论基础 |
3.5 本章小结 |
第四章 基于深度学习肌电分类模型的设计与验证 |
4.1 模型结构 |
4.1.1 基于时空特征的双流网络模型 |
4.1.2 CNN-LSTMs串行网络模型 |
4.1.3 多特征融合网络模型 |
4.2 实验对比 |
4.2.1 三种模型的实验对比 |
4.2.2 双流网络模型与传统方法的对比 |
4.2.3 基于双流网络模型的机械臂控制 |
4.3 本章小结 |
第五章 基于时空特征的双流网络模型的实验研究 |
5.1 NinaPro DB1 数据集 |
5.2 实验与分析 |
5.2.1 手势数目的实验对比与分析 |
5.2.2 训练集数据量的实验对比与分析 |
5.2.3 LSMT隐藏层单元数量的实验分析 |
5.2.4 双流网络模型与其它模型的对比 |
5.2.5 时空特征的可视化对比分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介 |
1 作者简历 |
2 攻读硕士学位期间发表的学术论文 |
学位论文数据集 |
(3)基于视频音频联合识别的校园霸凌检测算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题来源 |
1.1.2 研究背景和意义 |
1.2 相关理论的发展现状及分析 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.2.3 国内外研究现状分析 |
1.3 主要研究内容 |
1.4 论文结构设置 |
第2章 校园霸凌识别及数据融合相关算法 |
2.1 神经网络及学习算法简介 |
2.1.1 人工神经网络 |
2.1.2 卷积神经网络 |
2.1.3 神经网络中防止过拟合方法 |
2.2 视频及音频数据预处理 |
2.2.1 视频数据预处理 |
2.2.2 音频数据预处理 |
2.3 数据融合算法研究 |
2.3.1 数据融合的定义及分类 |
2.3.2 数据融合方法 |
2.4 系统性能评估方法与指标 |
2.5 本章小结 |
第3章 基于视频的校园霸凌识别 |
3.1 视频图像预处理 |
3.2 视频特征提取 |
3.2.1 C3D卷积神经网络结构 |
3.2.2 C3D卷积神经网络参数 |
3.3 基于视频的分类算法设计 |
3.3.1 分类算法结构 |
3.3.2 分类算法参数 |
3.4 基于视频的校园霸凌检测结果 |
3.4.1 分类算法训练结果 |
3.4.2 分类算法识别结果 |
3.4.3 分类算法评估结果 |
3.5 本章小结 |
第4章 基于音频的校园霸凌识别 |
4.1 语音预处理 |
4.2 MFCC特征提取 |
4.2.1 MFCC物理意义及优势 |
4.2.2 MFCC提取流程 |
4.3 语音情感分类算法设计 |
4.3.1 六分类算法 |
4.3.2 二分类算法 |
4.4 基于音频的校园霸凌检测结果 |
4.4.1 二分类算法训练结果 |
4.4.2 二分类算法识别结果及性能评估 |
4.5 本章小结 |
第5章 视频音频融合判决算法 |
5.1 数据融合理论 |
5.1.1 DS算法理论 |
5.1.2 DS算法理论局限性 |
5.2 改进DS算法理论 |
5.2.1 改进焦元函数 |
5.2.2 改进合成规则 |
5.2.3 改进方法的对比及性能分析 |
5.3 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其他成果 |
致谢 |
(4)基于嗅觉神经模型的表面肌电信号处理研究(论文提纲范文)
致谢 |
摘要 |
1.绪论 |
1.1 研究背景与意义 |
1.2 肌电信号处理研究现状 |
1.2.1 肌电信号处理的研究进展 |
1.2.2 信号增强研究现状 |
1.2.3 特征提取研究现状 |
1.3 嗅觉神经模型研究现状 |
1.3.1 嗅觉神经模型的发展 |
1.3.2 KⅢ模型研究现状 |
1.4 论文主要内容 |
2.表面肌电信号的处理研究 |
2.1 引言 |
2.2 肌电信号采集 |
2.2.1 信号采集方式 |
2.2.2 信号采集装置 |
2.2.3 采集实验设计 |
2.3 肌电信号预处理 |
2.3.1 信号分割 |
2.3.2 信号规整 |
2.3.3 信号增强 |
2.4 肌电信号特征提取 |
2.4.1 时域特征提取 |
2.4.2 频域特征提取 |
2.4.3 特征降维 |
2.5 本章小结 |
3.K系列嗅觉神经模型研究 |
3.1 引言 |
3.2 生物嗅觉系统与K系列模型 |
3.2.1 生物嗅觉系统介绍 |
3.2.2 K系列模型介绍 |
3.3 KⅢ模型的参数配置与仿真分析 |
3.3.1 参数配置 |
3.3.2 仿真分析 |
3.4 KⅢ模型的模式识别基础 |
3.4.1 模型运作机理 |
3.4.2 学习规则 |
3.4.3 学习与识别过程 |
3.5 本章小结 |
4.基于KⅢ模型的肌电信号识别研究 |
4.1 引言 |
4.2 使用原始肌电信号的模式识别研究 |
4.2.1 子段数量对于识别效果的影响研究 |
4.2.2 子段复用对于识别效果的影响研究 |
4.2.3 增强算法对于识别效果的影响研究 |
4.2.4 小结 |
4.3 使用特征向量的模式识别研究 |
4.3.1 训练样本数量对于识别效果的影响研究 |
4.3.2 训练轮数对于识别效果的影响研究 |
4.3.3 学习规则对于识别效果的影响研究 |
4.3.4 拒绝阈值对于识别效果的影响研究 |
4.3.5 增强算法对于识别效果的影响研究 |
4.3.6 小结 |
4.4 与其他分类器的识别效果对比研究 |
4.4.1 分类器介绍 |
4.4.2 结合各分类器的识别效果研究 |
4.4.3 小结 |
4.5 本章小结 |
5.总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
(5)二十一世纪人工智能艺术设计思潮研究(论文提纲范文)
摘要 |
Abstract |
第一章 :绪论 |
1.1 研究背景 |
1.2 国内外研究综述 |
1.2.1 国内研究综述 |
1.2.2 国外研究综述 |
1.3 研究目的与意义 |
1.3.1 研究目的 |
1.3.2 研究意义 |
1.4 研究方法与论文架构 |
1.4.1 研究方法 |
1.4.2 论文架构 |
1.5 本章小结 |
第二章 人工智能与人工智能艺术设计 |
2.1 人工智能的概念 |
2.2 与艺术设计契合的人工智能技术 |
2.2.1 智能机器人技术 |
2.2.2 智能人机交互技术 |
2.2.3 虚拟现实技术 |
2.2.4 模式识别技术 |
2.3 人工智能与艺术设计的关系 |
2.4 人工智能艺术设计的概念及界定 |
2.5 人工智能艺术设计的研究对象与方法 |
2.5.1 人工智能艺术设计的研究对象 |
2.5.2 人工智能艺术设计的研究方法 |
2.6 人工智能艺术设计的基本特征 |
2.6.1 技术手段的依赖性 |
2.6.2 艺术内容的构想性 |
2.6.3 艺术形式的多样性 |
2.7 人工智能艺术设计的审美特征 |
2.7.1 审美主体的交互性 |
2.7.2 审美客体的虚拟性 |
2.7.3 审美群体的大众性 |
2.8 本章小结 |
第三章 :人工智能交互艺术设计 |
3.1 人工智能交互艺术设计的概念 |
3.2 人工智能交互艺术设计的分类 |
3.2.1 生物智能交互艺术设计 |
3.2.2 智能体感交互艺术设计 |
3.2.3 脑电波交互艺术设计 |
3.2.4 其他智能交互艺术设计 |
3.3 智能交互艺术设计的艺术特点 |
3.3.1 互动性 |
3.3.2 虚拟性 |
3.3.3 观念性 |
3.4 智能交互艺术设计的审美本质特征 |
3.4.1 形式的融合性 |
3.4.2 观念的超前性 |
3.4.3 体验的沉浸性 |
3.5 本章小结 |
第四章 :智能机器人艺术设计 |
4.1 智能机器人艺术设计的概念 |
4.2 智能机器人艺术设计的分类 |
4.3 智能机器人表情艺术设计 |
4.3.1 智能机器人行为表演 |
4.3.2 智能机器人音乐舞蹈 |
4.4 智能机器人实用艺术设计 |
4.5 机器人造型艺术设计 |
4.5.1 智能机器人绘画艺术设计 |
4.5.2 智能机器人书法艺术设计 |
4.5.3 智能机器人雕塑艺术设计 |
4.6 智能机器人艺术设计的审美特征 |
4.6.1 技术审美性 |
4.6.2 文化审美性 |
4.6.3 内容审美性 |
4.7 本章小结 |
第五章 :虚拟现实艺术设计 |
5.1 虚拟现实艺术设计概念的界定 |
5.2 虚拟现实艺术设计研究的对象 |
5.3 虚拟现实艺术设计研究的任务 |
5.4 虚拟现实艺术设计的实现手段 |
5.4.1 沉浸式虚拟现实艺术设计 |
5.4.2 桌面式虚拟现实艺术设计 |
5.4.3 分布式虚拟现实艺术设计 |
5.5 虚拟现实艺术设计的“3I+M”特征 |
5.5.1 沉浸性(Immersion) |
5.5.2 交互性(Interaction) |
5.5.3 构想性(Imagination) |
5.5.4 多感知性(Multi Perceives) |
5.6 虚拟现实艺术设计的表现形式 |
5.6.1 继承性VR艺术设计 |
5.6.2 观念性VR艺术设计 |
5.7 本章小结 |
第六章 :21世纪未来人工智能艺术设计的发展 |
6.1 21世纪未来人工智能技术的发展 |
6.1.1 非生物意义人类的出现 |
6.1.2 大脑新皮质—人类的第二大脑 |
6.2 未来新型人工智能技术催生的艺术特征 |
6.2.1 微艺术设计形式 |
6.2.2 强伦理观念 |
6.2.3 新艺术设计媒介 |
6.3 本章小结 |
第七章 :结论与展望 |
7.1 结论总结 |
7.2 研究展望 |
致谢 |
参考文献 |
攻读硕士期间发表的论文和比赛获奖情况 |
附录 :图表索引及来源 |
(6)基于模式识别的室内声源定位研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 传统声源定位算法概述 |
1.2.2 基于模式识别的声源定位 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
第二章 声源定位理论与模式识别算法 |
2.1 声源传播近场和远场模型 |
2.2 室内声源定位 |
2.2.1 房间脉冲响应 |
2.2.2 室内混响与环境噪声 |
2.3 模式识别理论及常见算法 |
2.3.1 模式识别理论 |
2.3.2 朴素贝叶斯 |
2.3.3 线性判别分析 |
2.3.4 支持向量机 |
2.4 本章小结 |
第三章 基于特征长度的室内声源定位 |
3.1 基于广义互相关函数的特征提取 |
3.1.1 麦克风阵列接收信号模型 |
3.1.2 语音信号预处理 |
3.1.3 估计互相关函数 |
3.1.4 GCC-PHAT特征提取 |
3.2 定位方法概述 |
3.3 仿真实验与分析 |
3.3.1 仿真环境 |
3.3.2 特征长度对定位精度的影响 |
3.3.3 不同方位下特征长度的选取 |
3.4 本章小结 |
第四章 室内环境下的LDA分类器优选 |
4.1 未知信噪比环境下的LDA分类器优选 |
4.1.1 方法概述 |
4.1.2 仿真实验与分析 |
4.2 LDA分类器优选方法验证 |
4.2.1 方法概述 |
4.2.2 仿真实验与分析 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 未来工作展望 |
参考文献 |
附录1 攻读硕士学位期间申请的专利 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(7)仿生模式识别技术研究与应用进展(论文提纲范文)
1 仿生模式识别的基本原理 |
1.1 仿生模式识别的基点———“同源连续性”规律 |
1.2 仿生模式识别的学习过程 |
1.3 仿生模式识别的识别过程 |
2 方法研究 |
2.1 样本点分布的拓扑分析 |
2.2 覆盖算法研究 |
2.3 重叠空间中样本的归属判别 |
2.4 其他仿生模式识别实现方法研究 |
3 应用研究 |
3.1 目标识别 |
3.2 生物特征识别 |
3.3 文本识别 |
3.4 近红外光谱定性分析 |
3.5 其他应用 |
4 结束语 |
(8)基于语音特征的帕金森病可视化诊断方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 研究现状 |
1.2.1 新型帕金森病诊断方法研究现状 |
1.2.2 基于语音障碍的帕金森病诊断研究现状 |
1.2.3 基于多元图表示的可视化模式识别研究现状 |
1.3 本文的主要研究内容 |
第2章 多维筛分类器的可视化分类原理 |
2.1 引言 |
2.2 多维筛分类器 |
2.2.1 可视化分类器框架 |
2.2.2 多维筛分类器框架 |
2.3 多维筛与传统可视化分类器区别 |
2.3.1 数据表示特色分析 |
2.3.2 界面生成特色分析 |
2.3.3 组合分类器结构分析 |
2.4 基于多维筛的帕金森病可视化诊断 |
2.5 本章小结 |
第3章 多维数据的多元图表示与优化方法 |
3.1 引言 |
3.2 模式识别的表示问题 |
3.2.1 表示在模式识别中的作用 |
3.2.2 表示的理解与表示的原则 |
3.2.3 表示的方法 |
3.3. 高维数据的 2D 图单点表示原理 |
3.3.1 单点单变量 2D 图表示 |
3.3.2 单点多变量 2D 图表示 |
3.3.3 单点全变量 2D 图表示 |
3.3.4 表示方法对比 |
3.4 基于色度学空间的多元图表示 |
3.4.1 传统多元图表示的局限 |
3.4.2 色度学在多元图表示的应用 |
3.4.3 色度多元图的生成方法 |
3.5 基于非线性变换的图表示优化 |
3.5.1 非线性变换作用与原则 |
3.5.2 多元图表示的非线性优化 |
3.6 本章小结 |
第4章 多维筛类域空间生成与权系数计算 |
4.1 引言 |
4.2 基于域匹配思想的类域生成原理 |
4.2.1 经典分类界面生成算法分析 |
4.2.2 主动生长类域生成基本思想 |
4.3 基于计算几何的主动生长类域生成方法 |
4.3.1 数据描述 |
4.3.2 1 维空间下的主动生长 |
4.3.3 主动生长的等效算法 |
4.3.4 高维扩展 |
4.4 域匹配空间的可视化信息 |
4.5 分类界面转换 |
4.6 基于粗糙度的子分类器权重计算 |
4.6.1 分类界面中的模糊性 |
4.6.2 特定类粗糙度计算 |
4.6.3 子分类器空间权重计算 |
4.7 类空间规整度的计算几何组合分类器权重分配 |
4.7.1 分类界面中共生关系计算 |
4.7.2 子分类器规整度与权重计算 |
4.8 本章小结 |
第5章 多维筛分类器性能测试与评价 |
5.1 引言 |
5.2 实验数据 |
5.3 不同加权方式测试 |
5.3.1 测试方法 |
5.3.2 实验结果与分析 |
5.4. 不同分类器对比实验 |
5.4.1 测试方法 |
5.4.2 实验结果与分析 |
5.5 分类界面对比 |
5.6 本章小结 |
第6章 基于语音障碍的帕金森病可视化诊断 |
6.1 引言 |
6.2 帕金森病语音障碍特征分析 |
6.2.1 帕金森病语音信号特点 |
6.2.2 采集方法与对象选择 |
6.2.3 语音特征分析 |
6.3 测试数据集的选择 |
6.3.1 帕金森数据集 |
6.3.2 远程帕金森数据集 |
6.4 帕金森病的可视化分类过程 |
6.5 实验结果 |
6.5.1 不同的量化级下分类精度对比 |
6.5.2 非线性参数与加权方式的影响 |
6.5.3 多维筛层数的影响 |
6.6 与其他分类器比较 |
6.7 本章小结 |
结论 |
参考文献 |
附录 1 量化阶对帕金森数据集精度的影响 |
攻读博士学位期间承担的科研任务与主要成果 |
致谢 |
作者简介 |
(9)婴儿情绪信息的模式识别技术研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与选题意义 |
1.1.1 研究背景 |
1.1.2 选题意义 |
1.2 国内外研究发展综述 |
1.2.1 文献检索 |
1.2.2 研究综述 |
1.2.3 发展现状与趋势 |
1.3 本文研究内容与方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
第二章 婴儿情绪的表达特征与情绪信息分类 |
2.1 婴儿情绪的表达特征 |
2.1.1 情绪定义与分类 |
2.1.2 婴儿的发声系统 |
2.1.3 婴儿情绪的表达 |
2.2 婴儿情绪信息的分类 |
2.2.1 婴儿语音信息的划分 |
2.2.2 表情信息的划分 |
2.2.3 姿态与动作信息的划分 |
2.2.4 电生理信息的划分 |
第三章 婴儿情绪信息的采集及特征参数提取 |
3.1 婴儿情绪信息的采集与预处理 |
3.1.1 情绪信息的采样与量化 |
3.1.2 频谱信号预加重处理 |
3.1.3 语音信号分帧和加窗 |
3.1.4 语音信号的端点检测 |
3.2 婴儿情绪信息的特征参数提取 |
3.2.1 线性预测倒谱参数(LPCC) |
3.2.2 MEL频标倒谱参数(MFCC) |
第四章 婴儿情绪信息的模式识别方法及算法 |
4.1 婴儿情绪信息的模式识别方法 |
4.1.1 人工神经网络(ANN) |
4.1.2 隐马尔可夫模型(HMM) |
4.1.3 动态时间规整(DTW)方法 |
4.1.4 模式识别方法的比较 |
4.2 婴儿情绪信息的模式识别算法 |
4.2.1 DTW算法原理 |
4.2.2 DTW算法改进 |
4.2.3 DTW算法应用 |
4.3 模式识别算法程序编制与实现 |
4.3.1 源文件说明 |
4.3.2 算法流程图 |
4.3.3 模板训练算法 |
4.3.4 模板识别算法 |
4.3.5 数据预处理算法 |
4.3.6 模式识别DTW算法 |
第五章 实验测试及分析结论 |
5.1 实验测试方法与步骤 |
5.1.1 信息处理过程 |
5.1.2 基本实验环境 |
5.2 数据采集及预处理 |
5.2.1 情绪状态的分类 |
5.2.2 数据采集及存储 |
5.2.3 情绪信号预处理 |
5.3 特征参数提取及模式识别 |
5.3.1 特征参数提取 |
5.3.2 模式识别效果 |
5.4 实验分析结论与改进建议 |
5.4.1 分析结论 |
5.4.2 改进建议 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
(10)文本无关短语音说话人识别技术研究(论文提纲范文)
目录 |
表目录 |
图目录 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 说话人识别的基本概念 |
1.2 说话人识别的研究进展 |
1.3 短语音说话人识别的研究现状 |
1.4 论文的来源及主要研究内容 |
1.5 本文结构安排 |
第二章 主流的说话人识别方法概述及性能分析 |
2.1 说话人识别原理简介 |
2.2 美尔频率倒谱系数 |
2.3 基于GMM-UBM模型的说话人识别 |
2.3.1 GMM的简介 |
2.3.2 GMM-UBM的训练:EM算法 |
2.3.3 GMM-UBM的训练:MAP自适应 |
2.3.4 GMM-UBM的似然比得分 |
2.4 基于SVM模型的说话人识别 |
2.4.1 SVM的简介 |
2.4.2 基于SVM的说话人识别架构 |
2.4.3 SVM的输出判决策略 |
2.4.4 SVM在说话人识别中应用面临的问题 |
2.5 基于GSV-SVM模型的说话人识别 |
2.6 基于MFCC的说话人识别模型在短语音条件下应用的不足 |
2.7 GMM-UBM和GSV-SVM的识别性能与分析 |
2.7.1 实验数据库 |
2.7.2 性能评估指标 |
2.7.3 实验结果与分析 |
2.8 总结 |
第三章 基于语义信息抑制的短语音说话人辨认 |
3.1 已有的语义信息分离方法 |
3.1.1 已有的基于PCA的语义信息分离方法 |
3.1.2 已有的基于LDA的语义信息抑制方法 |
3.2 语音信号的内蕴非线性结构分析 |
3.3 拉普拉斯本征映射及其在语音信号处理中的应用 |
3.3.1 拉普拉斯本征映射 |
3.3.2 局部保距投影(LPP) |
3.3.3 区分性局部保距投影(DLPP) |
3.4 基于说话人属性约束的局部保距投影 |
3.4.1 SAC-LPP变换的基本原理 |
3.4.2 SAC-LPP变换的数学描述 |
3.4.3 SAC-LPP变换矩阵的推导 |
3.5 SAC-LPP在GMM-UBM模型中的应用 |
3.6 SAC-LPP中类间近邻以及目标函数的选择 |
3.7 实验结果与分析 |
3.7.1 测试结果与分析 |
3.7.2 SAC-LPP变换在说话人识别中的可行性分析 |
3.8 总结 |
第四章 基于UBM混元子空间的短语音说话人确认 |
4.1 已有的基于音素信息的文本无关说话人识别方法 |
4.1.1 基于广义音素分类的说话人识别 |
4.1.2 基于单音素的说话人识别 |
4.2 基于S-GSV-SVM的说话人确认原理 |
4.3 基于层级聚类的UBM混元子空间分类方法 |
4.3.1 常用的高斯混元间的测度 |
4.3.2 基于层级聚类的高斯混元分类方法 |
4.4 基于双重可信度的子空间融合方法研究 |
4.4.1 子空间融合方法研究 |
4.4.2 基于自适应匹配度的可信度度量方法 |
4.4.3 基于模型推广性的可信度度量方法 |
4.4.4 基于双重可信度线性子空间融合方法 |
4.5 实验与结果分析 |
4.5.1 子空间划分方法对识别性能影响的实验 |
4.5.2 多子空间融合方法的实验与分析 |
4.6 总结 |
第五章 基于仿生模式识别的说话人激励源特征建模方法 |
5.1 已有的基于原始语音的激励源特征提取方法 |
5.2 已有的基于LP残差的说话人识别方法 |
5.3 短语音条件下基于LP残差的说话人识别研究 |
5.4 基于LP残差向量和BNN的说话人识别 |
5.4.1 仿生模式识别的基本原理 |
5.4.2 基于仿生模式识别的神经网络构造方法 |
5.4.3 相关参数的设置及判决策略 |
5.5 两种特征融合方法研究 |
5.5.1 基于可靠性的动态融合方法 |
5.5.2 基于特征区分性的静态融合方法 |
5.6 实验与结果分析 |
5.6.1 基于LP残差向量和BNN的识别性能分析 |
5.6.2 激励源特征和MFCC融合后的识别性能 |
5.6.3 与其他短时倒谱特征融合的识别性能比较 |
5.7 总结 |
第六章 结束语 |
6.1 本文的创新性研究成果 |
6.2 本文的局限性及下一步工作 |
参考文献 |
作者简历 攻读博士学位期间完成的主要工作 |
致谢 |
四、基于模式识别的语音分类方法(论文参考文献)
- [1]基于模式识别的光纤周界安防系统检测信号解析技术的研究[D]. 彭洁. 北京邮电大学, 2020(05)
- [2]面向手势识别的表面肌电信号分类算法研究[D]. 仝润泽. 浙江工业大学, 2020(02)
- [3]基于视频音频联合识别的校园霸凌检测算法研究[D]. 刘桐. 哈尔滨工业大学, 2020(02)
- [4]基于嗅觉神经模型的表面肌电信号处理研究[D]. 许展昭. 浙江大学, 2020(02)
- [5]二十一世纪人工智能艺术设计思潮研究[D]. 王永东. 武汉理工大学, 2019(07)
- [6]基于模式识别的室内声源定位研究[D]. 王吉. 南京邮电大学, 2018(02)
- [7]仿生模式识别技术研究与应用进展[J]. 陈阳,覃鸿,李卫军,周新奇,董肖莉,张丽萍,李浩光. 智能系统学报, 2016(01)
- [8]基于语音特征的帕金森病可视化诊断方法研究[D]. 张涛. 燕山大学, 2012(08)
- [9]婴儿情绪信息的模式识别技术研究与实现[D]. 魏丽娜. 复旦大学, 2012(03)
- [10]文本无关短语音说话人识别技术研究[D]. 李邵梅. 解放军信息工程大学, 2011(08)