汉语语音识别中语速、音量和音高的调节研究

汉语语音识别中语速、音量和音高的调节研究

一、在汉语语音识别中语速、音量和音调调整的研究(论文文献综述)

高茹洁[1](2021)在《政务资讯平台语音信号处理方法研究与实现》文中研究指明随着国家对“智慧政务”的关注和人工智能的迅猛发展,使人们对政务资讯平台的时、度、效提出了更高的要求。政务资讯平台的运营维护需要大量的文字输入,手动拼音输入法严重影响汉字的输入速度,进而影响相关的工作进程。而语音识别技术作为一种可以取代传统拼音输入的技术,其具有的精准度和时效性在政务资讯平台中具有较大的应用潜力。目前将语音识别技术应用于政务资讯平台的应用系统研究尚不成熟,因此,本文研究政务资讯平台中语音信号处理方法及其实现。针对政务资讯平台语音信号处理的功能需求,本文重点研究政务资讯平台语音信号处理方法及其实现,特别是对语音增强算法、端点检测算法以及语音识别算法进行了研究和分析。根据作者实际工作情况采用了具有针对性的语音信号处理方法,同时完成了政务资讯平台语音信号处理软件的实现与测试。首先,本文采用谱减法对输入的含噪语音信号进行增强,从而提高信号的信噪比。然后,针对传统双门限端点检测算法存在信号漏检的问题,采用一种改进的双门限端点检测算法,有效解决信号漏检问题。之后,利用基于听觉感知频率的语音信号MFCC系数提取语音信号特征。最后针对BP神经网络语音识别算法中存在的局部最优解问题,研究利用粒子群优化的BP神经网络,通过粒子群对网络层内部层与层连接的权值和阈值进行优化,从而降低运行时间并提高了识别准确率。在此基础上,进一步研究了政务资讯平台语音信号处理的软件实现方法,利用Python环境实现了本文提出的语音处理方法,并对相关功能模块进行了测试。测试结果表明,本文采用的方法能够较好的实现政务平台语音识别功能。

王明山[2](2021)在《语音技术在高铁牵引供电调度仿真平台中的应用与开发》文中提出能够模拟真实工作场景的高铁牵引供电调度仿真平台对供电调度人员的培训工作具有重要的意义。牵引供电调度人员的日常主要工作内容之一是接打电话,并通过电话来了解核实牵引供电系统的运行状况,并且发布相应的命令,而目前的仿真平台对这一过程的模拟仅限于文本的形式。本文对高铁牵引供电调度仿真平台上的供电调度电话的来电语音进行语音合成模拟,对语音回复的关键内容进行识别判断,这对于提升调度培训人员的参与感和训练效果具有很大的意义。介绍供电调度仿真平台中电调电话的工作机制,指出其存在的不足和需要达到的仿真效果。根据该平台的特点,对语音合成系统和语音识别系统的设计提出要求。分析对合成文本进行语言学处理的过程,包括文本规整和词语切分;介绍语音学的处理过程,主要是协同发音理论。对基于物理发声机制的合成方式、参数合成、波形拼接合成这三种语音合成技术的机理及特点进行了相关介绍,并采用语音波形拼接合成技术实现语音合成。基于VC++6.0开发了一个牵引供电调度仿真平台专用的语音合成系统,并且加入语音变速功能。开发语音合成系统之前,开发了两个辅助工具:一个对音源文件进行二次处理的语音编辑工具,以此建立合成语音库;另一个词库编辑工具,可以根据高铁牵引供电调度专用词表进行组词,建立起文本和音节的联系,同时,也可以调整语音的韵律。对一些具有牵引供电调度专用性的文本进行语音合成测试,合成语音自然流畅,验证了该系统的有效性,能够用于高铁牵引供电调度仿真平台中的来电语音模拟。研究语音识别技术的相关理论,并基于VC++6.0开发了一个牵引供电调度专用词的语音识别系统。对语音波形进行可视化分析计算,提出以清音段特征和浊音段的能量变化趋势作为识别特征,特征以字符串的形式表示。语音模式识别采用特征字符串匹配的方式。选取一些牵引供电调度专用词汇,对这些词汇进行测试后的结果表明该系统能够识别出所要测试的词语。该系统基本上可以实现对牵引供电调度专用词表中的词语的识别。

魏新享[3](2021)在《基于声学特征工程的汉语语音韵律边界识别》文中提出语音韵律边界识别是指对输入语音的韵律边界,包括韵律词,韵律短语,语调短语等,进行自动的判别。基于声学特征的韵律边界识别对自然语言理解和语音合成等领域具有重要的意义。在语音语义理解方面,声学特征直接表达了说话者的停顿和节奏,正确的韵律边界识别才能正确理解语义。另一方面,目前合成语音的自然度还有待提高,基于声学特征的韵律边界识别和标注是高质量自然度高的合成语料库必不可少的。另外,在当前的汉语韵律边界识别研究中,大多数研究都忽视了次要韵律短语边界,同时该边界处的声学特征并不明显,从而导致该韵律边界识别效果不是很理想。因此,针对于汉语韵律边界识别中所存在的问题,本文利用特征工程方法基于声学特征对汉语韵律边界识别进行了研究。首先本文从特征选择角度出发,对当前韵律边界相关的声学特征进行了调研,并通过开放语料库对这些相关声学特征进行了统计分析,再与当前的研究工作进行对比,从而找出和韵律边界具有相关性的特征。其次,针对韵母结构对汉语韵律边界识别中韵母时长的影响,从特征构造的角度出发,提出了基于韵母结构的归一化韵母时长模型,从而将实际韵母时长与韵母结构特征结合起来,构造出了新的归一化韵母时长特征,并利用长短期记忆(LSTM)网络模型对韵律边界识别进行建模。最后通过对不同特征集下的韵律边界识别结果进行对比,发现相比于实际韵母时长特征,经过构建后的归一化韵母时长特征在次要韵律边界识别中,F-Score提升了5.9%,在韵律词边界、主要韵律短语边界及语调组边界识别中,F-Score分别提升了1.4%、1.8%和0.8%。再次,在对特征集进行扩充和完善后,针对高维特征给识别模型所带来的维数灾难问题,对特征提取部分引入了PCA-LDA降维算法。同时,考虑到LSTM网络模型在韵律边界识别中可能会损失一部分关键信息,本文为网络模型引入了注意力机制。最后的韵律边界识别结果表明,相比于降维前,降维后特征集对应的韵律边界识别F-Score整体提升了14.9%,并且在次要韵律短语边界上F-Score提升了4.2%。另外,对比原有网络模型和引入注意力机制后的网络模型发现,改进的网络模型韵律边界识别F-Score平均提升了2.5%。最后,对本论文围绕韵律边界识别所展开的所有工作进行了总结,并对本文中一些仍然有待完善和改进的地方做了简要分析。

康少琦[4](2021)在《肢体康复设备语音交互控制方法研究》文中提出肢体康复设备可以为脑卒中患者提供安全高效的运动机能恢复效果,但由于患者的肢体运动不便,肢体康复设备很难由患者自行操作。语音交互控制是一种重要的人机交互方式,将语音交互控制技术应用于肢体康复设备可以辅助患者自主的进行设备的控制,从而提高患者的使用便捷性,减少患者的厌烦情绪,提高康复治疗的效果。不同于一般的家用设备,当语音交互控制应用于智能医疗领域如肢体康复设备时,语音控制的可靠性就成为必须要解决的问题。本文针对肢体康复设备,研究了一种可靠并且高效的语音交互控制方法,主要的研究内容如下:(1)肢体康复设备语音控制命令构建方法研究与实现。本文研究了汉语的香农信息学特性,研究了汉语发音的异同,根据这些研究结论分析了语音识别的常见错误成因,针对这些常见错误成因研究了肢体康复设备的语音命令实验筛选方法,并选定了部分语音命令。(2)肢体康复设备语音控制安全验证方法研究与实现。本文研究了语音交互控制安全验证方法,研究并设计了针对肢体康复设备语音命令的语音验证码,并通过实验测试了语音验证码的安全检查和纠错效果。(3)肢体康复设备语音控制降噪方法研究与实现。本文分析了使用肢体康复设备语音控制功能时所面临的噪声干扰环境,研究了该环境下无关语音噪声的不同干扰模式,并研究了基于无关语音噪声干扰模式和语音信号TDOA定位信息的语音分离方法,通过实验测试了这种语音分离方法的实际效果。(4)肢体康复设备语音控制命令结构化信息抽取方法研究与实现。本文研究了肢体康复设备语音命令结构化信息抽取预训练模型改进方法,研究了该预训练模型的迁移学习方法,并通过实验测试了该模型对患者语音命令信息抽取的实际效果。

张子扬[5](2021)在《司法话者识别下的平静语音与生气语音的共振峰研究》文中进行了进一步梳理本篇论文所研究的内容,是当前司法话者识别研究中比较关注且热点的问题,实际应用性和价值性均比较强。现下,时代经济的发展与科学技术手段的进步日新月异,电话、手机、网络对讲系统等一系列的通讯工具得到了极大范围的普及。一方面,这些通讯工具便捷迅速,很大程度上方便了我们的生活。另一方面,因为通话的载体主要为语音,而语音又具有转瞬即逝的特点,通讯工具两端的通话人无法见到彼此,更不可能感知对方生理上所发生的变化。所以,通讯工具常常被各类犯罪分子作为作案的首要工具,特别是在以匿名电话为手段的绑架案、勒索案、诈骗案、诽谤案等各类案件中,这些与人民的生活息息相关。在警方对案件侦破的过程中,语音材料则成为了案件中仅有的线索与证据,甚至成为疑难案件侦查的突破点,所以其重要性是不言而喻的。传统的司法话者识别中,主要是针对语音材料本身,从语音数字信号处理的角度,通过不同的算法,得出相关的声学信息,从中解析出讲话人的身份信息。而本文不仅仅从语音信号中得出声学参数,还将司法话者识别与情绪语音相结合,更加贴合实际情况,也扩大了应用范围。通过研究,排除在实际的司法话者识别过程中人的情绪对于识别过程的干扰,增强了应用性,进行实践上与理论上的创新。全文共有六章,第一章为绪论,主要介绍研究背景、研究理论、研究方法、研究现状、研究价值以及研究的重要意义。第一部分介绍司法话者识别当前的研究现状,自动识别法与专家识别法所取得的重要研究成果与研究进展;第二部分主要介绍本文所使用的研究理论;第三部分则主要介绍了本文研究的创新点。第二章主要介绍了实验设备、参数设置、实验过程、实验方法等。首先对本文实验所用到的设备进行了相关介绍,对相关仪器的工作原理进行了阐释;在语音信号采集方面,对发音语料的选取和发音人的选择进行了说明;并对实验过程中实验参数的设置、实验过程、数据的处理等均做了详细的说明。第三章主要对生气时的情绪状态与平静时的情绪状态下单元音的共振峰静态模式进行了研究。主要考察的是基本声学参数,例如声强、元音时长、基频以及第一、第二、第三、第四共振峰的差异情况。第四章主要对两种不同情绪状态下三合元音的共振峰动态模式进行了研究。现阶段国外大多数的研究中所采用的是共振峰之间的比值法,以此来反映说话人不同共振峰之间的相对关系,但笔者认为采取传统的差值法能够更形象地反映出不同共振峰之间的关系,于是采用做差的方法对共振峰进行了研究。第五章则利用Voicesauce这一软件对三种不同情绪状态下的语音进行了三十二种声学参数的提取,试图探索出更加能够代表个人特定性的特征参量。还讨论了基于当前司法鉴定中的话者识别所遇到的实际问题,情绪语音的研究在司法话者识别下的意义与价值。第六章主要是对本文进行概括与总结,并得出探索结论。本文的创新点在于,传统的司法话者识别上加入了人的情绪状态。虽然现阶段话者识别中已经运用了自动识别模式,但自动识别模式只严格要求一种状态,按照标准的固有模式录音,才能进行准确识别。本文的研究价值是在自动化模式匹配的基础上,将情绪状态这一影响因素排除,因为往往发音人情绪状态的不同会影响模式匹配的结果,把情绪因素排除掉之后,识别的结果的正确率得以提高,从而提高识别系统的鲁棒性。

陶冶[6](2021)在《教学语言的声学特征分析软件设计与开发》文中认为教育过程是一种传播过程,教师作为传者,势必需要有好的教学语言技能。教育部对师范生的教学语言技能提出很高的要求,但由于师范生在教学语言技能训练过程中存在生师比大、资源有限等问题,导致师范生的教学语言技能提升慢、效果不理想。现有的语音编辑与分析类软件与师范生教学语言技能训练目标适配性不好,对师范生帮助不大。因此,在泛在学习的背景下,本研究使用基于设计的研究范式,按照瀑布模型设计与开发一款能为教学语言技能训练方面提供“泛在训练”的辅助软件。软件能够对师范生教学语言的音量高低、语速快慢、节奏缓急、情感投入等方面进行记录、分析与反馈。通过软件测试、教师访谈、学生试用等方式对软件各项功能进行修改与完善,根据软件记录的学生使用数据,验证使用者对软件的接受程度与有效性。根据研究过程,本论文共分为六章:绪论部分主要介绍了研究背景、研究问题、研究目标、研究内容、研究方法、技术路线以及研究意义;研究现状部分,对教学语言技能的研究现状进行综述,界定概念,对现有的语音分析类软件的功能及特点进行了梳理,阐述了相关研究理论基础;教学软件的设计部分介绍了需求分析、架构设计、界面设计、交互与反馈设计以及功能设计;教学软件的开发部分,介绍了软件的界面和功能的开发方法;教学软件的试用与完善部分通过语音测试、教师访谈和学生试用对软件各项功能进行修改与完善,根据试用结果分析(马尔科夫链)分析了教学软件的有效性;结论与建议部分,分析了软件不同功能在帮助师范生提升教学语言技能方面的有效性,总结了设计与开发辅助教学语言技能类软件的方法建议,并反思了本研究的不足。通过研究得出以下结论:教学语言的声学特征分析软件对师范生自主进行教学语言技能训练起到了支持作用;软件在教学语言技能的语速、停顿、情感方面训练效果显着,在音量方面仍有不足。因此,本研究建议后续在设计与开发教学语言技能辅助软件时,可以尝试从单一维度分析转向多维度分析,不同维度的声学特征相结合的分析方式更能有效地提供教学语言技能训练的评价与反馈;从整体语音分析转向分句分析,逐句分析可以使得软件的分析结果更精准、更细致,从而使软件的评价与反馈更具有可信度和有效性。由于时间和精力的限制,本研究在软件的功能开发上还需要进一步提升,以期优化软件,为教学语言技能训练提供更有效地帮助。

王咿卜[7](2021)在《基于基频控制的语音合成的研究》文中研究指明语音合成是通过计算机对文本信息进行处理,将文字转换为语音的一项技术。随着智能时代的到来,语音合成已经成为信号处理与人工智能的重要研究内容,是实现人机交互的重要途径。目前大部分语音合成技术基于复杂的神经网络模型,存在数据收集困难、无法调整声调的缺点,导致语音合成过程不够灵活,情感表达不足,隐藏了人们发音过程中的数学本质。因此,如何使语音在具有高保真度的同时实现声调的灵活切换仍然是一个需要深入研究的问题。针对该问题,论文做了以下主要研究工作:(1)传统的语音合成技术基于语音波形的拼接,无法调整合成语音的声调,并且在波形拼接处存在语音波形不连续的现象,容易造成听觉上的不流畅。针对该问题,提出了一种基于基频控制实现语音声调切换的方法。该方法从语谱图中了解到语音的重要参数是基音频率与共振峰,采用自相关函数法提取语音的基音频率曲线,采用倒谱法提取共振峰参数,并对参数进行分析。通过高次多项式拟合法分别对汉语四种声调的基音频率曲线进行拟合,在此基础上结合分段函数插值法对含音阶变化的语音进行基音频率曲线拟合。通过调整拟合函数的系数实现汉语不同声调之间的切换,以及语音演唱中不同音阶的变化。通过构造函数得到连续的基音频率曲线,有效地解决了语音合成中声调变换不灵活与语音不流畅的问题。(2)深度学习领域的语音合成技术,有效地提高了语音合成的准确度,但这种技术对数据集的内容要求较高,且合成语音受数据种类的影响较大。针对该问题,从数学角度研究了一种基于三角函数叠加法实现语音合成的方法。该方法结合现有的汉语音素语料库,通过改变基音频率曲线的相关参数,实现了不同语音音素的合成,建立了不同汉语单韵母及声调的数学函数库,极大程度的降低了对语音数据的收集难度。搭建了能够进行语音参数分析、实现声调变换的语音合成平台,展现了语音形成过程中的数学原理。本文从语音合成的现有问题出发,以构造数学函数的方式实现基音频率曲线的控制,在此基础上进一步实现语音合成,并且建立了语音合成系统。研究结果表明:对于汉语音素,平均识别率为85.3%;对于汉语四种声调,平均识别率为95.5%;对于含音阶变化的语音,认为相似程度较好的占比率为66.7%。通过测试结果,验证本文研究的方法具有有效性和可行性。

康杰[8](2021)在《基于深度学习的端到端安多藏语语音识别系统设计》文中进行了进一步梳理由于国内外语音识别研究技术的飞速发展,汉语、英语、德语等资源丰富语言的语音识别技术取得了良好的识别结果,特别是端到端技术的兴起避免了多个模块固有的缺陷,降低了语音识别模型的复杂性。然而,藏语语音识别由于其语料库构建困难和方言的特点导致发展缓慢,因此,提高藏语语音识别系统的性能具有重要的研究意义。目前,藏语语音识别面临诸多挑战:第一,尚未拥有权威公开的藏语语料库资源,语料库构建不易;第二,在特征提取方面,目前的特征不能很好地表征藏语语音;第三,藏语语音识别模型仍存在模型训练慢、识别率不高的问题。本研究主要设计了一个基于深度学习的端到端安多藏语语音识别系统,本研究的贡献如下:(1)构建了一个用于连续语音识别的安多藏语语料库,包含10个说话人,共有16000条语句;对构建的语料库进行数据增强,通过实验验证数据增强在藏语数据不足情况下的作用。(2)在数据预处理的过程中,利用Praat软件编写了脚本实现端点检测、切分、标注等功能,并提取了语音信号的语谱图以及40维的Fbank特征,作为网络模型的输入;(3)将循环神经网络与卷积神经网络相结合,能够有效捕捉语音时序上下文信息与频域局部空间信息,构建了声学模型;在此基础上引入联结时序分类机制、注意力机制以及迁移学习思想,提高了模型性能,并构建了基于Web框架的安多藏语语音识别系统;与从零开始训练的模型相比,使用了迁移学习的模型性能要好,在提高速度的同时降低了对硬件的要求,同时证明了从源语言到目标语言的模型迁移训练是可行的,且效果良好、词错误率达到了26.6%;此外,使用混合增强数据集进行实验,与基线相比性能提高了1.7%。

封宝鼎[9](2020)在《助老机器人语音合成方法研究与实现》文中研究指明由于政治经济发展、医疗水平提升以及计划生育等政策,中国社会已经自2000年开始正式进入人口老龄化阶段。2019年11月22日附近,中共中央、国务院印发了《国家积极应对人口老龄化中长期规划》。为响应规划的号召,为可敬可亲的老年人开发助老服务机器人产品是一种很好的服务,语音交互作为十分方便、快捷、易于操作的人机交互方式势必会应用于其上。本文研究语音交互技术中的“嘴巴”部分——语音合成系统,提出了语音合成的三个层次,一是从文本到语音,二是情感的转换,三是说话人的转换。建立汉语中性语音合成系统,根据嵌入式设备的特点,由于HMM的合成系统具有巨大的优势,然后针对基于HMM的语音合成,首先阐述HMM的原理与算法,然后详细介绍汉语言合成的技术关键,最后给出本文所建立基于HMM的语音合成系统的效果。建立多种情感的转换系统,分析了研究中出现的比较主流的若干情感空间模型,并且主要研究基于HMM的情感语音合成方法流程,基于中科院的CASIA情感语音库,对语音韵律参数的统计规律进行分析与总结,论证了基于HMM的情感语音合成中,对韵律参数进行调整而进行情感模拟的可行性,并且在本文设计的基于HMM的语音合成系统中加入了情感调整模块,实现了六种情感的表达。建立说话人转换技术系统,分析主流框架与流程,研究中比较主流的几种说话人转换的方法,并且进行了优劣分析。介绍了基于HMM的说话人转换方法,详细论述了MLLR算法和Eigen Voice算法的原理,并通过实验对比性能。在本文设计的HMM语音合成系统中加入了说话人转换的模块,通过50句话的语音录入,实现了一个说话人转换模块。建立完整的可用软件系统,开发了完整的前后端软件以实现服务机器人平台上的语音合成需求。前端主要使用android studio开发,采用广播机制的在线合成直接播放和表单输入的离线合成获取语音文件两种形式,并且介绍了说话人录音提交的详细交互流程;在后端主要用Python编写应用服务器程序,采用My SQL实现数据表的操作,并采用开源ASR项目ASRT进行录音质量检测。系统功能和性能测试表明本系统可用性高,响应较快,性能可靠。

郭晓晨[10](2020)在《面向短时语音的维吾尔语-汉语语种识别方法研究》文中提出语音是人们效率最高的沟通交流方式,也是社会交际的载体。语音也是是各个国家和各个民族之间的纽带,让人们交流更快捷方便。近年来,语种识别技术广泛应用在各个领域,例如:作为混合语音识别系统的前端区分混合语音,作为机器翻译中的前端处理,应用于多语种信息服务等。同时,随着一带一路倡议的提出,新疆越来越多的得到各地的关注。因此,本文的研究目标为:面向维吾尔语与汉语的语音,利用底层声学特征对语种识别任务开展相关研究,旨在建立一个能在短时语音条件下具有良好性能的语种识别模型。首先,由于目前还没有一个公用的基于维吾尔语-汉语的语种识别数据集,因此本文构建了一个用于维吾尔语-汉语语种识别的数据集,并对数据集的来源与基本信息、数据集的数据清洗和预处理过程做了介绍。并且提出了一种最大限度的保留语种区分性信息的静音检测处理方法。基于音调扰动方法,提出了一种可以弥补说话人数量过少、说话人男女分布不平衡的数据增强方法,并结合噪声扰动对数据集进行了增强。其次,如何从底层声学信息中更有效的提取语种可区分性特征是语种识别课题中的关键。基于此问题,本文开展了基于GMM-ivector框架的维吾尔语汉语语种识别研究,搭建了基于GMM-ivector的维吾尔语-汉语语种识别系统,通过实验的方式确定了模型的参数以及实现细节。最后基于搭建的GMM-ivector系统,验证了WCCN噪声补偿技术对系统的性能影响,并通过实验的方式对比了CDS、SVM、LDA等主流后端分类方法在短时语音的语种识别系统上的性能优劣。再次,基于GMM-ivector系统在短时条件下的性能不佳问题,开展了基于深度学习的维吾尔语-汉语语种识别系统研究。搭建了基于Resnet-50的深度学习语种识别系统,并通过对比的方式验证了深度学习下的语种识别系统在短时长条件下的性能要优于GMM-ivector系统。针对Resnet-50基线系统存在的问题对模型进行了改进,提出了Resnet-LSTM与Resnet-Attention两个改进模型,并综合不同时长下的测试语音片段对改进模型进行了评估,实验结果表明,改进的Resnet模型提高了短时语种识别任务的分类性能。最后,本文从语音的不同声学特征入手,开展了基于MFCC特征与基音周期特征的组合模型研究。将基音周期特征与MFCC特征直接进行拼接后训练了Resnet语种识别模型,证明了基音周期特征在语种识别任务中的有效性。然后对MFCC特征与基音周期特征分别进行建模,并在后端使用融合分类网络对模型进行了融合,得到了基于多特征的组合模型。实验结果表明,多特征的组合模型可以大大提高短时语音下的维吾尔语-汉语语种识别任务的分类性能。

二、在汉语语音识别中语速、音量和音调调整的研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、在汉语语音识别中语速、音量和音调调整的研究(论文提纲范文)

(1)政务资讯平台语音信号处理方法研究与实现(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要研究内容及结构安排
第二章 政务资讯平台语音信号处理应用分析
    2.1 政务资讯平台语音信号处理概述
    2.2 政务资讯平台语音信号处理基本流程
        2.2.1 语音增强
        2.2.2 预处理
        2.2.3 特征参数提取
        2.2.4 语音识别
    2.3 本章小结
第三章 政务资讯平台语音信号处理方法研究
    3.1 基于谱减法的语音增强
    3.2 基于改进双门限端点检测的语音信号预处理
        3.2.1 改进的双门限端点检测算法
        3.2.2 仿真及结果分析
    3.3 基于MFCC系数的语音信号特征参数提取
    3.4 基于粒子群优化BP神经网络的语音识别算法
        3.4.1 BP神经网络算法原理
        3.4.2 粒子群优化算法原理
        3.4.3 基于粒子群优化的BP神经网络算法原理
        3.4.4 仿真及结果分析
    3.5 本章小结
第四章 政务资讯平台语音信号处理实现研究
    4.1 政务资讯平台中语音信号处理软件设计与实现
        4.1.1 政务资讯平台语音信号处理软件实现概述
        4.1.2 政务资讯平台常用词汇语音数据库设计
        4.1.3 政务资讯平台语音信号处理人机交互界面的设计与实现
        4.1.4 政务资讯平台语音信号处理离线模式的设计与实现
        4.1.5 政务资讯平台语音信号处理在线模式的设计与实现
    4.2 政务资讯平台语音信号处理软件的功能测试
        4.2.1 政务资讯平台语音信号处理软件基本需求
        4.2.2 政务资讯平台语音识别测试语音数据库构建
        4.2.3 语音增强模块功能测试
        4.2.4 语音信号预处理模块功能测试
        4.2.5 语音信号特征信息提取模块功能测试
        4.2.6 语音识别模块功能测试
        4.2.7 语音信号处理软件性能分析
    4.3 本章小结
第五章 总结与展望
    5.1 论文总结
    5.2 展望
参考文献
附录 部分代码
致谢

(2)语音技术在高铁牵引供电调度仿真平台中的应用与开发(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 语音合成
        1.2.2 语音识别
    1.3 电调电话仿真设计特点及改进需求
        1.3.1 电调电话的仿真设计
        1.3.2 改进需求分析
    1.4 论文主要工作
2 语音合成技术的研究
    2.1 语言学处理
        2.1.1 文本规整
        2.1.2 词语切分
    2.2 语音学处理
    2.3 语音合成技术
        2.3.1 语音合成技术分类
        2.3.2 设计方案
    2.4 本章小结
3 语音合成系统开发
    3.1 语音库设计
        3.1.1 音源采集
        3.1.2 语音编辑工具的开发
    3.2 词库编辑工具的开发
    3.3 语音合成系统实现
        3.3.1 语音波形拼接合成
        3.3.2 语音变速
        3.3.3 语音合成系统
    3.4 本章小结
4 语音识别系统开发
    4.1 语音识别系统介绍
        4.1.1 语音识别系统结构
        4.1.2 语音识别系统分类
        4.1.3 语音识别方法简介
    4.2 语音识别系统设计方案
    4.3 识别过程
        4.3.1 语音实时采集
        4.3.2 语音可视化分析
        4.3.3 端点检测
        4.3.4 特征提取
        4.3.5 模板匹配
    4.4 语音识别系统
    4.5 测试结果
    4.6 本章小结
5 总结与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(3)基于声学特征工程的汉语语音韵律边界识别(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 韵律边界识别的研究现状
        1.2.2 韵律边界识别中的特征提取
        1.2.3 语音中降维算法的研究现状
    1.3 研究内容及创新点
    1.4 论文组织结构
第2章 汉语韵律边界识别基础
    2.1 韵律边界
        2.1.1 韵律边界概念
        2.1.2 韵律标注体系
    2.2 词性标注
        2.2.1 汉语自动分词
        2.2.2 词性标注
    2.3 深度神经网络模型
        2.3.1 循环神经网络
        2.3.2 LSTM网络模型
        2.3.3 激活函数
        2.3.4 注意力机制
    2.4 特征工程
    2.5 评价指标
    2.6 本章小结
第3章 汉语韵律边界声学特征分析
    3.1 开放语料库
        3.1.1 语料库
        3.1.2 数据清洗
        3.1.3 韵律边界信息统计
    3.2 韵律边界的基频提取
    3.3 韵律边界的音强提取
    3.4 静音分析
        3.4.1 静音时长的提取
        3.4.2 静音时长的均值分析
    3.5 时长特征的提取和分析
        3.5.1 韵律边界的声母时长分析
        3.5.2 韵律边界的韵母时长分析
        3.5.3 声调对时长特征影响的分析
    3.6 韵母结构对时长特征影响的分析
        3.6.1 汉语韵母结构
        3.6.2 韵母结构对韵母时长的影响
    3.7 本章小结
第4章 基于韵母时长模型的LSTM汉语韵律边界识别
    4.1 基于韵母结构的韵母时长归一化模型
    4.2 特征集设计
    4.3 汉语韵律边界识别模型的搭建
        4.3.1 汉语韵律边界识别整体框图
        4.3.2 基于LSTM网络的汉语韵律边界识别模型
    4.4 数据集划分
    4.5 实验平台
    4.6 数据标准化以及模型参数设置
        4.6.1 数据标准化
        4.6.2 模型参数设置
    4.7 特征计算结果及统计分析
    4.8 实验结果与分析
        4.8.1 参数设置
        4.8.2 特征分析
    4.9 本章小结
第5章 基于PCA-LDA的韵律边界识别注意力模型
    5.1 声学特征集的扩充
    5.2 特征降维
        5.2.1 PCA降维
        5.2.2 LDA降维
        5.2.3 PCA-LDA联合降维
    5.3 基于注意力机制的汉语短语韵律边界识别
    5.4 降维计算结果与分析
    5.5 实验结果与分析
        5.5.1 参数设置
        5.5.2 韵律边界识别结果对比与分析
    5.6 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 展望
参考文献
攻读硕士学位期间的论文成果及参与项目
致谢

(4)肢体康复设备语音交互控制方法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 论文主要工作
    1.4 文章结构安排
第二章 肢体康复设备语音指令分析及指令优选
    2.1 肢体康复设备运动功能简介
    2.2 语音指令识别错误成因分析
        2.1.1 人类语言特点对语音识别准确率的影响
        2.1.2 语音识别系统修正机制对语音识别准确率的影响
        2.1.3 汉语相近发音对语音识别准确率的影响
        2.1.4 康复设备语音控制指令设计原则
    2.3 肢体康复设备语音控制指令优选
        2.3.1 腿部运动语音控制指令优选
        2.3.2 上身运动语音控制指令优选
        2.3.3 全身运动语音控制指令优选
    2.4 本章小结
第三章 语音控制指令识别可靠性方法研究
    3.1 语音验证码的特征和设计方法
    3.2 语音验证码的安全检查和纠错机制研究
        3.2.1 语音验证码安全检验的内容及方法
        3.2.2 语音验证码的纠错机制研究
    3.3 语音验证码安全检查和纠错效果测试
    3.4 本章小结
第四章 语音背景噪声降噪方法研究
    4.1 康复设备使用环境噪声情况分析
    4.2 无关语音噪声的不同干扰模式及其判别方法
        4.2.1 语音语谱图的获取方法
        4.2.2 无关语音噪声干扰模式特性
        4.2.3 卷积混响干扰模式的判别方法
    4.3 两种无关语音噪声干扰模式下的降噪方法改进研究
        4.3.1 语音声源定位的方法
        4.3.2 卷积混响干扰的降噪方法
        4.3.3 音节连续干扰的降噪方法
    4.4 语音降噪方法效果测试实验设计
        4.4.1 实验方案设计
        4.4.2 实验数据分析及实验结果
    4.5 本章小结
第五章 语音控制指令结构化信息抽取方法研究
    5.1 中文预训练词向置模型的选取和改进
        5.1.1 中文预训练模型的选取
        5.1.2 中文预训练模型的改进
        5.1.3 中文预训练数据集
    5.2 康复设备语音控制结构化信息抽取模型设计
        5.2.1 康复设备语音命令数据集标注方法研究
        5.2.2 迁移学习模型设计
        5.2.3 语音指令信息抽取结果及后处理方法
    5.3 语音指令信息抽取效果测试实验设计
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢

(5)司法话者识别下的平静语音与生气语音的共振峰研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景及综述
        1.1.1 研究背景
        1.1.2 研究进程
    1.2 研究价值和意义
        1.2.1 研究价值
        1.2.2 研究意义
    1.3 司法话者识别
        1.3.1 司法语音的定义
        1.3.2 司法话者识别概述
    1.4 本文创新点
第二章 研究方法
    2.1 实验设备与声道采样
        2.1.1 实验设备
        2.1.2 发音人及语料内容
    2.2 参数设置
    2.3 实验过程
        2.3.1 实验目的
        2.3.2 实验方法
    2.4 数据处理
第三章 情绪语音共振峰静态模式研究
    3.1 引言
    3.2 实验条件与声样采集
        3.2.1 实验目的
        3.2.2 实验流程
    3.3 实验内容与结果
        3.3.1 声强
        3.3.2 元音时长
        3.3.3 基频(F0)
        3.3.4 第一共振峰(F1)
        3.3.5 第二共振峰(F2)
        3.3.6 第三共振峰(F3)
        3.3.7 第四共振峰(F4)
    3.4 实验分析
        3.4.1 声强与时长变化
        3.4.2 基频(F0)的变化
        3.4.3 共振峰的变化
    3.5 小结
第四章 情绪语音共振峰动态模式研究
    4.1 引言
    4.2 实验条件与声样采集
        4.2.1 实验目的
        4.2.2 实验流程
    4.3 实验内容与结果
        4.3.1 共振峰走向特征差异
        4.3.2 共振峰频率特征差异
第五章 情绪语音音质特性研究
    5.1 引言
    5.2 实验目的、方法、过程
        5.2.1 语料来源
        5.2.2 实验目的
        5.2.3 实验方法
        5.2.4 数据处理
    5.3 实验内容与结果
    5.4 小结
第六章 结语
参考文献
附录A 脚本
附录B 生气与平静情绪状态下的共振峰差值表
附录C 发音人信息
致谢

(6)教学语言的声学特征分析软件设计与开发(论文提纲范文)

中文摘要
abstract
第1章 问题提出
    1.1 研究背景
        1.1.1 教育部对师范生的教学语言技能提出很高的要求
        1.1.2 师范生的教学语言技能训练资源有限
        1.1.3 现有的语音分析类软件与师范生技能训练适配度不高
    1.2 研究问题
    1.3 研究目标
    1.4 研究内容
        1.4.1 教学语言理论研究现状分析
        1.4.2 基于瀑布模型的教学语言声学特征分析软件的设计开发
        1.4.3 软件的测试与完善
    1.5 研究方法
        1.5.1 基于设计的研究范式
        1.5.2 访谈法
        1.5.3 问卷调查法
    1.6 技术路线
    1.7 研究意义
        1.7.1 理论意义
        1.7.2 实践意义
第2章 概念界定与研究现状分析
    2.1 “教学语言技能”概念界定
    2.2 “教学语言技能”研究现状
    2.3 语音分析软件现状分析
第3章 理论基础
    3.1 行为主义学习理论
    3.2 人机工程理论
第4章 教学语言的声学特征分析软件的设计
    4.1 需求分析
        4.1.1 功能性需求
        4.1.2 非功能性需求
    4.2 架构设计
    4.3 界面设计
    4.4 交互与反馈设计
        4.4.1 交互设计
        4.4.2 反馈设计
    4.5 功能设计
        4.5.1 语音输入读取模块
        4.5.2 语音分析模块
        4.5.3 评价与反馈模块
        4.5.4 记录储存模块
第5章 教学软件的开发与实现阶段
    5.1 软件界面的实现
    5.2 软件功能模块的实现
        5.2.1 语音输入读取模块的实现
        5.2.2 语音分析模块的实现
        5.2.3 评价反馈模块的实现
        5.2.4 记录储存模块的实现
第6章 教学软件的试用与完善
    6.1 受试者基本情况
    6.2 软件音量功能的测试
        6.2.1 软件音量分析的准确性检验
        6.2.2 软件对不同录音设备分析结果的差异性分析
        6.2.3 软件分析常模的确定
    6.3 软件停顿与语速功能的测试
        6.3.1 软件标注基本参数的误差分析
        6.3.2 分句分析功能测试
    6.4 软件接受程度分析
    6.5 软件分析结果反馈的有效性验证
        6.5.1 停顿表现预测与改进
        6.5.2 情感表现预测与改进
        6.5.3 语速表现预测与改进
第7章 研究结论与建议
    7.1 研究结论
        7.1.1 软件能为师范生自主教学语言技能训练提供支持
        7.1.2 软件在辅助师范生语速、节奏与情感训练方面效果显着
        7.1.3 软件在辅助师范生调节授课音量反馈方面存在局限
    7.2 研究不足与展望
        7.2.1 研究的不足
        7.2.2 研究的展望
参考文献
附录
    附录1 国家精品课程软件分析结果
    附录2 教学语言声学特征分析软件满意度调查问卷
    附录3 教学语言声学特征分析软件访谈提纲
致谢
攻读学位期间发表的学术论文目录

(7)基于基频控制的语音合成的研究(论文提纲范文)

摘要
ABSTRACT
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状分析
        1.2.1 语音合成的发展
        1.2.2 语音合成的国内外形势
        1.2.3 语音合成的局限性
    1.3 论文研究内容及章节结构
        1.3.1 研究内容概述
        1.3.2 章节结构
2 语音形成过程
    2.1 语音形成的数学建模
    2.2 语音的物理属性
    2.3 语谱图
    2.4 本章小结
3 语音特征参数的提取
    3.1 语音信号的预处理
        3.1.1 语音信号的分帧处理
        3.1.2 语音信号的端点检测
    3.2 基音频率提取
    3.3 共振峰提取
    3.4 基音频率曲线
        3.4.1 汉语声调的基音频率曲线
        3.4.2 语音演唱中的基音频率曲线
    3.5 语音音质与基音频率
        3.5.1 音质概念
        3.5.2 基音频率及共振峰对音质的影响
    3.6 本章小结
4 基频曲线拟合与语音合成
    4.1 曲线拟合函数
    4.2 拟合函数次数
        4.2.1 汉语声调的基频曲线拟合函数次数
        4.2.2 语音演唱的基频曲线拟合函数次数
    4.3 拟合函数系数
    4.4 基音频率曲线拟合过程
        4.4.1 汉语声调的基音频率曲线拟合
        4.4.2 语音演唱的基频曲线拟合
    4.5 基频控制的语音合成
    4.6 本章小结
5 语音合成平台
    5.1 基音频率函数库
        5.1.1 四种声调的基频函数库
        5.1.2 汉语单韵母的基频函数库
    5.2 语音拟合结果分析
        5.2.1 汉语单韵母的语音合成结果
        5.2.2 汉语声调的语音合成结果
        5.2.3 语音演唱的语音合成结果
    5.3 建立语音合成平台
    5.4 本章小结
6 总结与展望
    6.1 全文工作总结
    6.2 未来工作展望
参考文献
攻读硕士学位期间取得的成果

(8)基于深度学习的端到端安多藏语语音识别系统设计(论文提纲范文)

摘要
abstract
第一章 引言
    1.1 藏语语音识别的研究背景及意义
    1.2 语音识别研究现状
    1.3 研究内容、创新之处及研究方法
    1.4 论文组织结构
第二章 语音识别基础理论与技术
    2.1 语音识别基本理论
    2.2 深度神经网络相关理论与技术
    2.3 ASR评判标准
    2.4 本章小结
第三章 藏语安多方言语料库的构建
    3.1 藏语基本情况
    3.2 语料库构建
    3.3 本章小结
第四章 基于端到端的安多藏语语音识别
    4.1 基于CTC与注意力的安多藏语语音识别
    4.2 语料库的数据增强
    4.3 实验结果与分析
    4.4 使用数据增强的对比实验
    4.5 基于端到端的藏语语音识别系统设计
    4.6 本章小结
第五章 总结与展望
    5.1 论文总结
    5.2 展望
参考文献
致谢
个人简历

(9)助老机器人语音合成方法研究与实现(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 助老机器人的研究意义
    1.3 语音合成技术国内外研究现状
    1.4 助老机器人语音合成需求分析
    1.5 本文研究主要内容
    1.6 本文框架结构安排
第二章 基于HMM的汉语中性语音合成系统
    2.1 语音合成方法概述
        2.1.1 前端文本处理
        2.1.2 韵律规则分析
        2.1.3 语音合成部分
    2.2 HMM概述及原理
        2.2.1 隐马尔可夫模型(HMM)定义
        2.2.2 HMM的三个基本问题及其解决算法
        2.2.3 HMM的分类
        2.2.4 HTK工具包
    2.3 基于HMM的汉语合成系统的实现
        2.3.1 训练部分
        2.3.2 合成部分
        2.3.3 合成效果
    2.4 本章小结
第三章 基于HMM的情感语音合成
    3.1 情感语音合成技术概述
        3.1.1 情感语音合成技术难点
        3.1.2 基于HMM的情感语音合成
    3.2 语音情感理论概述
        3.2.1 语音情感模型介绍
    3.3 不同情感的语音特征分析
        3.3.1 情感语音的基频参数
        3.3.2 情感语音的时长参数
        3.3.3 情感语音的能量参数
        3.3.4 小结
    3.4 情感语音参数转换
        3.4.1 情感转换流程
        3.4.2 合成结果
    3.5 本章小结
第四章 基于HMM的语音合成系统的说话人转换
    4.1 说话人转换技术
        4.1.1 说话人转换方法概述
        4.1.2 基于HMM的说话人转换方法
        4.1.3 自适应算法的讨论
    4.2 基于HMM的自适应方法对比
        4.2.1 MLLR算法
        4.2.2 EigenVoice算法
        4.2.3 EigenVoice与MLLR结果对比
        4.2.4 自适应方法的选择
        4.2.5 本章小结
第五章 语音合成软件的设计与实现
    5.1 需求分析
    5.2 系统整体架构设计
    5.3 前端软件设计
        5.3.1 程序流程设计
        5.3.2 语音合成任务
        5.3.3 语音转换录入
    5.4 后端程序设计
    5.5 软件测试
    5.6 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献
作者在攻读硕士学位期间研究成果及发表的论文

(10)面向短时语音的维吾尔语-汉语语种识别方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 语种识别简介
        1.1.1 语种识别概述
        1.1.2 语种识别的研究意义
    1.2 语种识别的研究现状
        1.2.1 不同层次的语种区分性信息
        1.2.2 语种识别的国内外相关研究概况
    1.3 本文研究背景
    1.4 本文的主要研究内容与章节安排
第2章 基于维吾尔语汉语的语种识别特征工程
    2.1 数据来源
    2.2 数据清洗
        2.2.1 采样率转换
        2.2.2 数据筛选与音量标准化
        2.2.3 端点检测
        2.2.4 划分数据集
    2.3 数据增强
        2.3.1 语音处理中常用的数据增强技术
        2.3.2 本文采取的数据增强策略
    2.4 声学特征提取
        2.4.1 fbank特征
        2.4.2 MFCC特征
    2.5 本章小结
第3章 基于GMM-ivector的语音语种识别方法研究
    3.1 GMM-ivector的模型架构
        3.1.1 通用背景模型UBM
        3.1.2 最大后验概率准则MAP
        3.1.3 基于因子分析法的i-vector提取
    3.2 后端判别模型
        3.2.1 余弦距离判别CDS
        3.2.2 支持向量机SVM
        3.2.3 线性鉴别分析LDA
    3.3 基于类内协方差规整的噪声补偿技术
    3.4 实验分析
        3.4.1 UBM模型中高斯分量的个数的确定
        3.4.2 噪声补偿补偿性能分析
        3.4.3 后端分类模型构建实验
        3.4.4 实验结果对比
    3.5 本章小结
第4章 基于深度学习的语音语种识别方法研究
    4.1 卷积神经网络概述
        4.1.1 卷积层
        4.1.2 池化层
        4.1.3 全连接层
        4.1.4 激活函数
    4.2 基于Resnet网络的语种识别基线系统
        4.2.1 Resnet网络结构简介
        4.2.2 基于Resnet的基线系统构建
        4.2.3 Resnet基线系统的层次结构改进
    4.3 面向语句级向量编码层的Resnet网络改进
        4.3.1 Resnet结合LSTM的语种识别
        4.3.2 Restnet结合Attention的语种识别
    4.4 实验分析
        4.4.1 实验配置
        4.4.2 Resnet的基线系统搭建实验
        4.4.3 语句级向量编码的Resnet改进实验
        4.4.4 各模型在测试集中的性能对比分析
    4.5 本章小结
第5章 基于特征融合的语种识别方法研究
    5.1 基音周期特征的提取
    5.2 基于MFCC特征与基音周期特征的语种识别融合模型
    5.3 实验分析
        5.3.1 MFCC+pitch融合特征实验分析
        5.3.2 改进的端点检测方法性能分析
        5.3.3 基于MFCC与 pitch特征的组合模型实验分析
        5.3.4 实验结果对比
    5.4 本章小结
第6章 总结与展望
    6.1 研究总结
    6.2 研究展望
参考文献
致谢
个人简历
在学期间研究成果

四、在汉语语音识别中语速、音量和音调调整的研究(论文参考文献)

  • [1]政务资讯平台语音信号处理方法研究与实现[D]. 高茹洁. 内蒙古大学, 2021(12)
  • [2]语音技术在高铁牵引供电调度仿真平台中的应用与开发[D]. 王明山. 北京交通大学, 2021
  • [3]基于声学特征工程的汉语语音韵律边界识别[D]. 魏新享. 东华大学, 2021(09)
  • [4]肢体康复设备语音交互控制方法研究[D]. 康少琦. 北京邮电大学, 2021(01)
  • [5]司法话者识别下的平静语音与生气语音的共振峰研究[D]. 张子扬. 上海师范大学, 2021(07)
  • [6]教学语言的声学特征分析软件设计与开发[D]. 陶冶. 内蒙古师范大学, 2021(09)
  • [7]基于基频控制的语音合成的研究[D]. 王咿卜. 陕西科技大学, 2021(09)
  • [8]基于深度学习的端到端安多藏语语音识别系统设计[D]. 康杰. 青海师范大学, 2021(09)
  • [9]助老机器人语音合成方法研究与实现[D]. 封宝鼎. 东南大学, 2020(01)
  • [10]面向短时语音的维吾尔语-汉语语种识别方法研究[D]. 郭晓晨. 新疆大学, 2020(07)

标签:;  ;  ;  ;  ;  

汉语语音识别中语速、音量和音高的调节研究
下载Doc文档

猜你喜欢