一、用LPC及DTW进行语音模式比较的设计与实现(论文文献综述)
高茹洁[1](2021)在《政务资讯平台语音信号处理方法研究与实现》文中指出随着国家对“智慧政务”的关注和人工智能的迅猛发展,使人们对政务资讯平台的时、度、效提出了更高的要求。政务资讯平台的运营维护需要大量的文字输入,手动拼音输入法严重影响汉字的输入速度,进而影响相关的工作进程。而语音识别技术作为一种可以取代传统拼音输入的技术,其具有的精准度和时效性在政务资讯平台中具有较大的应用潜力。目前将语音识别技术应用于政务资讯平台的应用系统研究尚不成熟,因此,本文研究政务资讯平台中语音信号处理方法及其实现。针对政务资讯平台语音信号处理的功能需求,本文重点研究政务资讯平台语音信号处理方法及其实现,特别是对语音增强算法、端点检测算法以及语音识别算法进行了研究和分析。根据作者实际工作情况采用了具有针对性的语音信号处理方法,同时完成了政务资讯平台语音信号处理软件的实现与测试。首先,本文采用谱减法对输入的含噪语音信号进行增强,从而提高信号的信噪比。然后,针对传统双门限端点检测算法存在信号漏检的问题,采用一种改进的双门限端点检测算法,有效解决信号漏检问题。之后,利用基于听觉感知频率的语音信号MFCC系数提取语音信号特征。最后针对BP神经网络语音识别算法中存在的局部最优解问题,研究利用粒子群优化的BP神经网络,通过粒子群对网络层内部层与层连接的权值和阈值进行优化,从而降低运行时间并提高了识别准确率。在此基础上,进一步研究了政务资讯平台语音信号处理的软件实现方法,利用Python环境实现了本文提出的语音处理方法,并对相关功能模块进行了测试。测试结果表明,本文采用的方法能够较好的实现政务平台语音识别功能。
刘玉博[2](2021)在《基于手势识别与语音控制的上肢康复人机交互技术研究》文中研究表明随人口老龄化程度的加深,因心脑血管疾病引发的上肢运动功能障碍患者越来越多,运动疗法可有效帮助患者获得肢体康复,而现有康复医疗师数量匮乏且能力水平高低不一。随着机器人技术的快速发展,面对此种社会现状,上肢康复机器人应运而生。上肢康复机器人的应用能够减轻康复医疗师的负担,成本更低,可有效起到缓解康复医疗师数量匮乏和帮助患者实现康复训练的目的,但经过研究和分析发现,现有上肢康复机器人也存在通用性及人机融合性较差等共性缺点,如何使患者与上肢康复机器人实现更好的人机交互成为目前研究热点。本文针对目前上肢康复机器人发展现状,自主设计上肢康复机器人,搭建实验平台,实现基于手势识别与语音控制相结合的人机交互方式,具体研究内容如下:首先针对人体上肢运动特点,设计满足左、右肢使用的两肢通用型上肢康复机器人,为验证合理性,分别进行了静力学、运动学和动力学仿真分析,研究基于CAN总线的软硬件系统开发和基于CANopen通讯协议的上位机软件开发。其次,提出手势识别与语音控制相结合的非接触式人机交互方式。研究基于Kinect的手势识别技术,采用像素滤波器和改进中值滤波对Kinect深度图像进行修复,通过Kinect骨架获取技术分别实现左、右手的手部追踪定位,基于深度双阈值对手部进行分割,提取手部感兴趣区域的HOG特征,实现基于SVM的可区分左右手的实时静态手势识别。为对手势识别结果进行判断并实现对上肢康复机器人运动控制,研究孤立词语音识别技术,对语音信号依次进行包含采样量化等步骤在内的预处理过程,提取MFCC特征参数,获取语音信号的静、动态信息,分别采用DTW与改进DTW算法识别并进行对比,最终选择采用改进DTW算法进行语音识别。最后,为验证设计合理性,对上肢康复机器人进行康复训练实验,在完成手势识别与语音识别的基础之上,将其与上肢康复机器人进行系统集成,搭建基于手势识别与语音控制的人机交互实验平台,测试实现针对左、右两肢训练的多种康复模式。
梁肇聪[3](2021)在《船载声音识别分析系统的研制》文中研究指明海上经济发展给人们带来了丰厚的物质财富,使人们的生活质量得到了巨大的改善。但是,海上作业也导致海上事故的频繁发生,威胁到人们的经济和人身安全,因此及时获取并识别出海上遇险信号成为一个重要研究方向。常规方法是通过红外、可见光的图像技术进行搜索与识别,该方法对光照条件依赖性比较强,尤其是在海上能见度低的恶劣气象条件下,会大大降低识别的准确率。因此,为了解决该问题,本文从声学角度出发,通过分析研究海上复杂环境下的各种典型声音信号的特征,提出一种微弱信号降噪方法,进而研制一套船载声音识别分析系统。由于受到海上复杂多变气候环境的影响,导致目标声音信号往往淹没在噪声中,为了能够及时、有效地识别目标声音信号,本文提出一种基于整体退火遗传算法的自适应噪声抵消方法来提高微弱的目标声音信号的信噪比,为微弱信号的降噪处理提供一种新方法。为了进一步降低噪声对后续目标声音信号识别的干扰,本文采取双门限端点检测方法,根据短时能量与短时过零率两者的阈值对目标声音信号进行裁剪并提取出有效数据段;传统识别仅依赖单一特征参数使得识别准确率较低,本文融合具有良好鲁棒性且易提取的静态特征MFCC和动态特征一阶差分MFCC作为特征参数,有效地改善识别的准确率;由于声音的差异性及独特性使得目标声音信号的特征矢量长度不一,针对传统的DTW模型需进行全局匹配的不足,基于分段匹配、逐次剔除的核心思想,本文提出一种改进的DTW模型对目标声音信号进行识别,进一步缩短识别时间,使识别的准确性和效率得到提高。在理论研究的基础上,根据本文所设定的系统性能指标,完成系统平台的软硬件设计。首先通过驻极体电容式传声器对声音信号进行拾取,并转化为模拟电信号;然后通过程控放大、低通滤波等进行调理;最后经A/D转换模块转换成可由主控单元进行处理的数字量。主控单元对数据经整体退火遗传的自适应噪声抵消、端点检测、特征参数提取、改进的DTW模型匹配等一系列处理操作,识别出目标声音信号并将结果通过上位机反馈给用户。通过仿真验证及实际测试,证明本系统能准确地识别出用户关注的复杂海上声音环境下的目标声音信号。本文研究的理论具有较高的学术研究价值,所设计的系统具有良好的市场应用前景。
刘琼[4](2020)在《基于嵌入式微处理器的人机语音交互系统的设计与研究》文中指出语音识别技术通过近些年的发展已经日趋成熟,从某种意义上来讲,可以说是完全实现“人工智能”的“奠基石”。当今基于嵌入式的语音识别系统是在微处理器平台(如芯片)的基础上,通过对语音库中的语音进行训练生成训练模型,将待测语音与之进行模式匹配,从而完成非特定人的语音识别。虽然目前对于语音识别技术的研究已经从实验室逐渐实用化,但在实际应用中会受到诸多客观因素的影响例如背景噪音,造成识别精度的降低,用户体验很不友好。本文以嵌入式微处理器为核心,设计实现可应用于自动售货机的语音控制系统。本文先简要说明了语音信号预处理的过程,并采用双门限判定方法进行端点检测。然后提出小波+MFCC的特征提取算法,用小波变换替代傅里叶变换,弥补了傅里叶变换窗口大小不能随频率变换的缺点。随后,利用DTW算法能有效处理语音的时变特性与组合多项式核函数相结合,得到PDTW-SVM算法,不仅兼具局部插值能力与全局泛化能力,还能解决语音信号的时变特性与传统的等长向量的SVM核函数之间矛盾的问题。最后,将PDTW-SVM算法移植到LD3320平台上,并根据实际应用场景增加基于CX20921的回声降噪电路,提高系统的抗噪性和稳定性。本文分别对语音识别系统做仿真及硬件测试,实验结果表明,该系统仿真识别率最高可达96.49%,实测识别率可达92.17%,具有较高的实用价值。
朱良泽[5](2020)在《时间序列相似性度量及其在语音识别领域的应用》文中认为时间序列是一组按照时间先后顺序进行排列的数据点集合,每个元素由采集时间和数据值组成(其中数据值可以是一个确定的数也可以是一个向量,即多元),是生产生活中常见的一种数据类型,广泛应用于数理统计、信号处理、模式识别等与时间数据测量相关的应用科学与工程学,对其进行相似性度量可用于指导生产实践。本文以日常生活中最常见的一种时间序列----语音序列数据为对象,对时间序列相似性度量问题进行了研究,针对一元语音信号相似性度量和多元语音信号相似性度量方法进行了改进,提出了改进的基于时间序列相似性识别语音信号识别算法。本文主要工作如下:(1)针对一元语音信号相似性度量方法,本文首先在预处理阶段对语音信号进行多项式平滑滤波(Savitzky-Golay),随之对平滑后的序列选取重要点。本文在使用连续三点取值算法的基础上,在重要点选取时增加了新的极值点选取约束条件,并引入了变化明显的转折点,从而有效的降低时间序列的长度,实验表明本文提出的算法具有可行性和有效性。(2)针对多元语音信号相似性度量方法,在低信噪比环境下传统端点检测算法存在清音和无声区的区分效果不好的问题,本文对端点检测中短时过零率算法进行了改进,使得清音和无声区的区分更加明显,并在语音信号识别时序列间每帧的距离计算引入余弦距离计算,改进了传统欧式距离中单个维度数值变化影响实验结果的问题。实验结果表明本文提出的改进方法,不仅识别准确率较高,在识别时间上也更加高效。
王福钊[6](2020)在《ROS地面移动机器人藏语语音控制的研究与实现》文中认为近年来,各种智能机器人如雨后春笋般涌现,正在不断改变着我们的生产和生活。越来越多的企业和科研机构投入大量人力和物力到智能机器人的研究中,相关实验室也在高校中纷纷成立。语音是人类进行交流时最直接、最简便、最高效的表达方式,是最丰富的信息传递载体,也是智能机器人与人类进行人机交互的重要方式。藏族是中华民族大家庭的重要成员,藏语是国内使用人数最多的民族语言。随着藏区社会经济的发展,各类智能技术和产品本地化的研究就显得更加紧迫。由于藏区经济、社会和科技的发展相对国内其它地区滞后,目前尚未有正式发布的、面向藏语的智能机器人产品,也没有成立机器人研究相关课题和团队。本文结合地区特色,研究和实现了基于机器人操作系统(ROS)的地面移动机器人藏语语音控制系统,其包括藏语语音识别的研究与实现、地面移动机器人的移动控制设计与实现两部分内容。对于藏语语音识别,本文研究了基于动态时间规划(DTW)算法和基于高斯混合隐马尔可夫(GMM-HMM)模型的两种语音识别方法。首先,结合机器人控制的实际应用需要,收集了100条控制命令(其中拉萨话49条,安多语51条),录制创建了5000个语音文件的语料库。其次,选取其中1000个语料作为测试集,其余4000个语料作为训练集。最后,在基于DTW的语音识别中使用偶然模板训练法进行模型训练,并验证了该方法的语音识别率为90.9%;在基于高斯混合隐马尔可夫模型的语音识别中进行模型训练,并验证了该方法的语音识别率为94.4%。在ROS地面移动机器人控制方面,本文着重研究了机器人操作系统ROS1.0架构特点、工程结构和通信机制,并分别设计实现了基于DTW和基于GMM-HMM的藏语语音命令词识别的移动机器人控制系统,并在Turtle Bot2移动机器人平台上进行了测试。测试表明,系统具有良好的可用性,对藏语语音指令的识别率较高,地面移动机器人接收指令后运动顺畅无误。
王国林[7](2017)在《基于DTW的语音评价系统及其中学英语教学中的应用》文中研究表明全球化、国际化的发展背景下,我国对英语重视的程度不断提高,越来越多的人将英语作为第二语言。英语口语又是学好英语的重要环节。在传统教学模式中,教师只注重学生英语的读写能力,往往忽视学生英语口语的教学。为了改善学生的口语水平,市场上的英语口语学习软件不断的涌现出来,但是很多软件缺少口语学习的实时反馈;有些虽然可以实时反馈,但没有针对中学英语教学的实际需求,不能让英语教师根据教学的实际需要自由使用。本文针对中学英语教学的实际需要,设计开发了英语词汇发音即时评价系统,教师可以根据教学进度,给学生制作需要练习词汇的标准音频,学生可以根据标准的音频进行练习,系统能即时进行反馈。本文的主要研究工作如下:首先,在研究分析了市场上英语语音识别和口语练习系统的基础上,根据当前中学英语教师的实际需求,研究英语词汇发音评价作为研究目标。其次,研究了语音信息处理基础理论,选取了抗噪能力和鲁棒性更好的谱减法与短时能量相结合的方法进行端点检测;在语音特征方面,选择了平滑的梅尔倒谱系数(SMFCC)、音量强度和基音轨迹作为系统比对的特征参数。再次,在分析基于DTW语音模式匹配算法的基础上,提出了改进的DTW语音匹配算法,在保证匹配准确率的基础上,明显提高了语音匹配的速度,确保语音评价系统的实时性。最后,设计并实现了语音评价系统,在Android平台上对系统进行了测试。结果表明,本系统基本上能对学生的词汇发音进行客观地评价。本文完成的语音评价系统,可以应用到starC教学平台中,增加了学生英语口语学习的兴趣,提高学生口语学习的效率,教师也可以准确地了解每个学生的发音情况。
张基晟[8](2017)在《语音识别软件关键技术的研究》文中认为语音识别字面上理解就是可以让计算机或者其他机器听到人所说的话并且做出一定的判断,本质上来说它属于模式匹配,它的根本目的就是要研究具有听觉功能的装置,让其通过语音的输入,理解说话人的意图并做出与命令相对应的响应。语音识别是一门很复杂的交叉性学科,涉及到语言学,声学,计算机科学,生理学,数字信号处理学等等学科。本文在系统分析了网络中开源的语音识别程序、语音信号分析和动态时间规整算法原理的基础上,针对特定词特定人的模式匹配构建了一个具有简单功能的语音识别系统。论文主要内容包括:首先简单介绍了语音识别的基本概念和算法原理及少量系统处理模块,国内外语音识别发展的历程和研究现状,阐明了本论文的研究背景和意义。分析语音识别系统的特点、结构和类型,以及语音识别应用所面临的问题,粗略介绍了目前比较运用较广的几种算法。根据本文语音识别系统自身所用的读入方式,介绍了音频格式,其中,详细介绍了 WAV格式音频文件的存储原理和文件格式。研究了语音信号的产生模型、数字化与预处理、在时域和频域中得到并分析音频信号的特征参数。详细介绍了 DTW(动态时间规整)算法以及对算法进行改进。对程序做大量测试并记录,在每次实现预期功能基础上新增更多的功能,在实验出错的情况下换一个角度开发出新的可行功能。预测出可以进一步实现的功能,可聚类出口音方言识别,添加GUI图形用户界面,嵌入式程序应用等等。基于DTW算法的语音识别在端点检测上具有很大的优势,可以较快较准的检测到有效语音的端点位置,提高了识别准确性和识别速度。本文在MATLAB环境中仿真了语音的预处理、端点检测、特征参数提取、模型训练、模型匹配和识别语音等过程。并且自建了多套声音模板,通过多次语音识别测试了程序语音识别功能的合理性。最后对语音识别的研究前景做出了展望。
熊洋[9](2013)在《基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现》文中研究指明语音人机交互是人机交互工程的一项重要研究内容。目前,中文语音交互技术发展很快,系统应用已经比较成熟,如科大讯飞的移动TTS(Text to Speech文语转换)系统已经投入商用。本文以语音交互系统为研究对象,旨在以构建基于车联网的移动车载语音交互系统为研究目的,通过研究设计实现了系统语音识别及合成模块的相应算法,并分别构建了其对应的系统,实验测试结果良好,可以满足嵌入式移植及车联网环境下的需求。论文介绍了基于小词汇量语音识别算法与TTS系统的车联网移动终端的构建与实现;分析了Android手机平台的系统特性及嵌入式环境下语音交互模式的特点;讨论了基于该具体应用背景下特定的语音识别算法和语音合成算法,分别设计了语音识别模块(含在线模式与离线模式)与语音合成模块;对相应算法做了车联网环境下的适应性改进;在线模式下的语音识别研究:在PC机上利用HTK搭建语音识别系统,以此模拟车联网云计算中心的在线语音识别功能;而离线模式下的语音识别:采用DTW算法,并用C++程序对算法对其进行了编写和修改,在PC机上进行了测试,测评效果良好;语音合成:利用Espeak语音合成开发软件,并在PC机上模拟安卓(Andriod)系统环境,对语音合成系统进行了测试和运行,取得良好的效果;最后对该算法模块的复杂度和实时性进行了分析,最终得到了适合移植到车联网移动环境下的嵌入式语音交互系统的基本构架。本文的创新点在于提出了基于车载嵌入式系统的语音交互系统及其算法,并将车载系统的语音识别分为在线和离线两种模式,并且对相关算法进行了适应性(复杂度和准确度)的分析和优化,使之适合于嵌入式环境的实现。
马骏,刘桢,刘赛男,王美青,程威,赵琪[10](2011)在《嵌入式语音识别系统》文中认为本文介绍了一款针对特定人、孤立词的嵌入式语音识别系统的设计与实现。使用ACTER公司的为主控核心,本系统主要分为预处理、端点检测、LPCC特征提取和DTW动态规整匹配部分组成。整体调度采用中断方式实现将该系统用于语音控制小车实验,识别率达到90.3%。本系统设计性能满足玩具、游戏等消费娱乐电子设备对识别率和实时性的性能要求,而且体积小在智能家居也有广泛的应用,具有广阔的市场应用前景。
二、用LPC及DTW进行语音模式比较的设计与实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、用LPC及DTW进行语音模式比较的设计与实现(论文提纲范文)
(1)政务资讯平台语音信号处理方法研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文主要研究内容及结构安排 |
第二章 政务资讯平台语音信号处理应用分析 |
2.1 政务资讯平台语音信号处理概述 |
2.2 政务资讯平台语音信号处理基本流程 |
2.2.1 语音增强 |
2.2.2 预处理 |
2.2.3 特征参数提取 |
2.2.4 语音识别 |
2.3 本章小结 |
第三章 政务资讯平台语音信号处理方法研究 |
3.1 基于谱减法的语音增强 |
3.2 基于改进双门限端点检测的语音信号预处理 |
3.2.1 改进的双门限端点检测算法 |
3.2.2 仿真及结果分析 |
3.3 基于MFCC系数的语音信号特征参数提取 |
3.4 基于粒子群优化BP神经网络的语音识别算法 |
3.4.1 BP神经网络算法原理 |
3.4.2 粒子群优化算法原理 |
3.4.3 基于粒子群优化的BP神经网络算法原理 |
3.4.4 仿真及结果分析 |
3.5 本章小结 |
第四章 政务资讯平台语音信号处理实现研究 |
4.1 政务资讯平台中语音信号处理软件设计与实现 |
4.1.1 政务资讯平台语音信号处理软件实现概述 |
4.1.2 政务资讯平台常用词汇语音数据库设计 |
4.1.3 政务资讯平台语音信号处理人机交互界面的设计与实现 |
4.1.4 政务资讯平台语音信号处理离线模式的设计与实现 |
4.1.5 政务资讯平台语音信号处理在线模式的设计与实现 |
4.2 政务资讯平台语音信号处理软件的功能测试 |
4.2.1 政务资讯平台语音信号处理软件基本需求 |
4.2.2 政务资讯平台语音识别测试语音数据库构建 |
4.2.3 语音增强模块功能测试 |
4.2.4 语音信号预处理模块功能测试 |
4.2.5 语音信号特征信息提取模块功能测试 |
4.2.6 语音识别模块功能测试 |
4.2.7 语音信号处理软件性能分析 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 展望 |
参考文献 |
附录 部分代码 |
致谢 |
(2)基于手势识别与语音控制的上肢康复人机交互技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与意义 |
1.2 上肢康复机器人国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.2.3 上肢康复机器人研究现状分析 |
1.3 论文主要研究内容 |
第2章 上肢康复机器人系统设计 |
2.1 上肢康复机器人机械系统设计 |
2.2 上肢康复机器人仿真分析 |
2.2.1 上肢康复机器人静力学仿真 |
2.2.2 上肢康复机器人运动学及动力学仿真 |
2.3 上肢康复机器人控制系统软硬件开发 |
2.3.1 硬件系统设计 |
2.3.2 软件系统设计 |
2.4 本章小结 |
第3章 基于深度信息的静态手势识别算法研究 |
3.1 Kinect设备原理及数据源获取 |
3.1.1 Kinect工作原理 |
3.1.2 Kinect版本选择 |
3.1.3 数据源获取 |
3.2 Kinect深度图像修复算法研究 |
3.2.1 Kinect误差及产生原因 |
3.2.2 基于像素滤波器的深度图像修复 |
3.2.3 基于改进中值滤波的深度图像修复 |
3.2.4 深度图像修复效果评价 |
3.3 实时静态手势识别算法研究 |
3.3.1 深度双阈值手部分割 |
3.3.2 手部区域图像优化处理 |
3.4 HOG特征提取 |
3.5 SVM手势分类识别 |
3.5.1 SVM原理 |
3.5.2 SVM核函数 |
3.6 实验结果与分析 |
3.7 本章小结 |
第4章 孤立词语音识别技术研究 |
4.1 语音信号预处理 |
4.1.1 采样量化 |
4.1.2 语音增强 |
4.1.3 预加重 |
4.1.4 加窗分帧 |
4.1.5 双门限法端点检测 |
4.2 MFCC特征参数提取 |
4.3 基于改进DTW的模式匹配 |
4.3.1 动态时间规整原理及其改进算法 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第5章 上肢康复平台系统集成与实验验证 |
5.1 实验平台搭建 |
5.2 实验内容 |
5.2.1 单关节和自定义复合康复训练 |
5.2.2 基于手势识别与语音控制的康复训练 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 本文研究内容 |
6.2 创新点 |
6.3 工作展望 |
参考文献 |
攻读硕士学位期间发表的学术论文与其他研究成果 |
致谢 |
学位论文评阅及答辩情况表 |
(3)船载声音识别分析系统的研制(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 声音信号识别分析技术国内外发展现状 |
1.2.1 语音信号识别分析技术发展现状 |
1.2.2 非语音信号识别分析技术发展现状 |
1.3 本文主要研究内容 |
第2章 系统关键技术研究 |
2.1 系统原理 |
2.2 微弱声音信号降噪处理方法的研究 |
2.2.1 自适应噪声抵消方法的研究 |
2.2.2 基于整体退火遗传的自适应噪声抵消方法 |
2.3 声音信号预处理 |
2.3.1 预加重 |
2.3.2 分帧 |
2.3.3 加窗 |
2.4 声音信号端点检测 |
2.4.1 短时能量 |
2.4.2 短时过零率 |
2.5 声音信号特征参数的提取 |
2.5.1 特征参数的选择 |
2.5.2 特征参数的提取 |
2.6 声音信号识别模型 |
2.6.1 识别模型的选择 |
2.6.2 改进的DTW模型 |
2.7 本章小结 |
第3章 系统性能指标及电路设计 |
3.1 系统性能指标 |
3.2 系统硬件整体设计方案 |
3.3 主控单元电路设计 |
3.4 声音信号拾取单元电路设计 |
3.5 声音信号调理单元电路设计 |
3.5.1 低通滤波电路设计 |
3.5.2 程控放大电路设计 |
3.6 声音信号采集单元电路设计 |
3.7 存储单元电路设计 |
3.7.1 SRAM电路设计 |
3.7.2 SD卡电路设计 |
3.8 通信单元电路设计 |
3.9 电源单元电路设计 |
3.9.1 +12V转±5V降压电路 |
3.9.2 +5V转+3.3V降压电路 |
3.10 本章小结 |
第4章 系统软件设计 |
4.1 系统软件整体设计方案 |
4.2 硬件驱动层程序设计 |
4.2.1 SRAM驱动程序 |
4.2.2 SD卡驱动程序 |
4.2.3 程控放大驱动程序 |
4.2.4 ADC驱动程序 |
4.2.5 串口驱动程序 |
4.3 应用核心层程序设计 |
4.3.1 主控调度程序 |
4.3.2 声纹模板提取程序 |
4.3.3 声音信号识别程序 |
4.3.4 文件系统操作程序 |
4.3.5 系统通信程序 |
4.4 应用实现层程序设计 |
4.5 本章小结 |
第5章 系统功能测试 |
5.1 系统硬件功能测试 |
5.1.1 拾取单元测试 |
5.1.2 调理单元测试 |
5.1.3 采集单元测试 |
5.1.4 存储单元测试 |
5.1.5 电源单元测试 |
5.2 系统软件功能测试 |
5.2.1 基于整体退火遗传的自适应噪声抵消方法测试 |
5.2.2 端点检测测试 |
5.2.3 特征参数提取测试 |
5.2.4 改进的DTW模型匹配测试 |
5.3 系统整体功能测试 |
5.4 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文及获奖情况 |
致谢 |
(4)基于嵌入式微处理器的人机语音交互系统的设计与研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外发展现状分析 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 语音识别技术面临的主要问题 |
1.4 本文的研究内容和意义 |
1.5 论文的结构安排 |
第二章 语音识别预处理及端点检测 |
2.1 系统概述 |
2.2 语音识别预处理 |
2.2.1 语音信号的采样和量化 |
2.2.2 预加重 |
2.2.3 加窗和分帧 |
2.3 语音识别端点检测和语音分割 |
2.3.1 短时能量分析 |
2.3.2 短时平均过零率 |
2.3.3 双门限比较法 |
2.4 本章小结 |
第三章 语音特征提取算法的设计与优化 |
3.1 梅尔频率倒谱系数 |
3.2 基于小波变换的MFCC算法优化 |
3.2.1 小波变换 |
3.2.2 小波变换与MFCC算法的结合 |
3.2.3 实验结果及分析 |
3.3 本章小结 |
第四章 语音模式匹配算法的设计与优化 |
4.1 支持向量机分类原理 |
4.1.1 最优分类面 |
4.1.2 线性支持向量机 |
4.1.3 近似线性支持向量机 |
4.1.4 非线性支持向量机 |
4.1.5 多项式SVM核函数的优化 |
4.2 动态时间归正的识别技术 |
4.2.1 DTW基本原理 |
4.2.2 DTW与 SVM算法的结合(DTW-SVM) |
4.2.3 实验结果与分析 |
4.3 本章小结 |
第五章 嵌入式平台下语音识别系统的设计与实现 |
5.1 嵌入式平台概述 |
5.2 硬件电路设计 |
5.2.1 LD3320的通讯方式及内部架构 |
5.2.2 LD3320电路设计 |
5.2.3 EEPROM电路设计 |
5.2.4 POWER电路 |
5.2.5 回声降噪电路(CX20921) |
5.3 软件系统设计 |
5.4 硬件平台的测试与分析 |
5.4.1 识别准确率 |
5.4.2 系统响应时间 |
5.5 本章小结 |
第六章 总结与展望 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
致谢 |
(5)时间序列相似性度量及其在语音识别领域的应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.1.1 课题研究背景 |
1.1.2 课题研究意义 |
1.2 时间序列相似性的研究现状 |
1.2.1 基于锁步度量的时间序列相似性度量 |
1.2.2 基于弹性度量的时间序列相似性度量 |
1.3 时间序列的表示方法 |
1.3.1 时间域连续表示 |
1.3.2 基于变换的表示 |
1.3.3 基于离散化的表示 |
1.4 语音识别技术的发展进程及研究现状 |
1.4.1 高斯混合模型+隐马尔可夫模型语音识别 |
1.4.2 DTW语音识别 |
1.4.3 神经网络在语音识别中的应用 |
1.5 语音识别技术的应用 |
1.6 论文技术路线、研究内容和章节安排 |
1.6.1 论文技术路线 |
1.6.2 章节安排 |
1.7 本章小结 |
第二章 一元时间序列相似性度量 |
2.1 一元时间序列预处理 |
2.1.1 一元时间序列定义 |
2.1.2 特征缩放 |
2.1.3 多项式最小二乘滤波 |
2.2 一元时间序列特征提取 |
2.2.1 时间序列中连续三点的变换模式 |
2.2.2 重要点选取算法 |
2.3 时间序列相似性度量(FastDTW) |
2.4 基于PAA算法的时间序列相似性度量 |
2.5 本章小结 |
第三章 多元时间序列相似性度量及其在语音识别的应用 |
3.1 多元时间序列基本概念 |
3.1.1 多元时间序列的定义 |
3.1.2 多元时间序列相似性度量 |
3.1.3 欧式距离 |
3.1.4 余弦距离 |
3.2 多元时间序列相似性度量算法在语音识别中的应用 |
3.3 语音信号预处理 |
3.3.1 语音信号预加重 |
3.3.2 语音信号加窗处理 |
3.3.3 语音信号端点检测 |
3.3.4 短时能量 |
3.3.5 短时过零率 |
3.3.6 双门限端点检测算法 |
3.3.7 改进短时过零率 |
3.4 特征参数提取 |
3.5 语音信号的识别 |
3.6 本章小结 |
第四章 实验设计及结果分析 |
4.1 一元时间序列相似度量实验 |
4.1.1 实验环境 |
4.1.2 实验设计 |
4.1.3 实验评价指标 |
4.1.4 实验结果 |
4.1.5 实验结果分析 |
4.2 基于PAA算法的时间序列相似性度量 |
4.2.1 实验设计 |
4.2.2 实验结果 |
4.2.3 实验结果分析 |
4.3 多元时间序列相似性度量及语音识别实验 |
4.3.1 实验设计 |
4.3.2 实验结果 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 概述 |
5.2 本文主要工作与创新点总结 |
5.3 下一步研究方向展望 |
参考文献 |
攻读硕士期间发表的论文及所取得的研究成果 |
致谢 |
(6)ROS地面移动机器人藏语语音控制的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 论文的研究背景 |
1.2 论文的研究目的和意义 |
1.3 论文研究内容和组织结构 |
第二章 藏语语音识别简介 |
2.1 藏语概述 |
2.1.1 文字特性 |
2.1.2 语音特性 |
2.2 语音识别概述 |
2.2.1 语音识别概念 |
2.2.2 语音识别分类 |
2.3 语音识别技术 |
2.3.1 基于模板匹配的语音识别 |
2.3.2 基于隐马尔可夫的语音识别 |
2.3.3 基于神经网络的语音识别 |
2.3.4 语音识别技术小结 |
2.4 藏语语音识别研究现状 |
第三章 ROS概述 |
3.1 ROS介绍 |
3.1.1 ROS特点 |
3.1.2 ROS架构 |
3.1.3 ROS消息通信机制 |
3.1.4 ROS工程结构 |
3.2 ROS研究与应用现状 |
第四章 藏语语音识别模块的实现 |
4.1 语料库建设 |
4.1.1 文本语料库 |
4.1.2 语音语料库 |
4.2 语音前期处理 |
4.2.1 语音预加重 |
4.2.2 语音端点检测 |
4.2.3 分帧加窗 |
4.2.4 特征提取 |
4.3 DTW方法语音训练与识别 |
4.3.1 创建特征模板库 |
4.3.2 动态语音匹配 |
4.3.3 实验测试 |
4.4 GMM-HMM模型训练与识别 |
4.4.1 模型训练 |
4.4.2 语音识别 |
4.4.3 实验测试 |
第五章 ROS机器人移动控制模块开发 |
5.1 系统资源 |
5.1.1 硬件资源 |
5.1.2 软件资源 |
5.2 ROS节点设计 |
5.2.1 总体设计 |
5.2.2 项目搭建 |
5.2.3 移动控制功能调试 |
第六章 移动机器人藏语语音控制的实现 |
6.1 藏语语音识别节点 |
6.2 TURTLEBOT2 移动控制节点 |
6.3 系统测试 |
第七章 总结和展望 |
参考文献 |
攻读学位期间发表的学术论文目录 |
攻读学位期间参与的科研项目 |
致谢 |
(7)基于DTW的语音评价系统及其中学英语教学中的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外相关研究现状 |
1.3 论文组织结构 |
第2章 语音比对理论基础和技术架构 |
2.1 语音信号的特性 |
2.1.1 语音信号的时域特性 |
2.1.2 语音信号的频域特性 |
2.2 语音比对技术概述 |
2.2.1 语音识别技术介绍 |
2.2.2 语音比对技术介绍 |
2.3 语音信号的预处理 |
2.3.1 语音信号的预加重和归一化 |
2.3.2 语音信号的分帧、加窗处理 |
2.3.3 语音信号的端点检测 |
2.4 语音重要特征参数 |
2.4.1 线性预测系数 |
2.4.2 线性倒谱系数 |
2.4.3 梅尔倒谱系数 |
2.5 本章小节 |
第3章 基于改进的DTW模式匹配算法 |
3.1 DTW算法原理 |
3.2 改进的DTW算法 |
3.3 实验分析 |
3.4 本章小节 |
第4章 基于DTW语音评价系统的实现 |
4.1 语音评价系统框架 |
4.2 语音信号的预处理 |
4.2.1 语音信号的分帧加窗 |
4.2.2 信号端点检测 |
4.3 特征参数的选取 |
4.3.1 改进的MFCC特征提取 |
4.3.2 音量强度 |
4.3.3 基音轨迹 |
4.4 特征参数的规整化 |
4.4.1 内插法 |
4.4.2 线性缩放 |
4.4.3 线性平移 |
4.5 模式匹配 |
4.6 语音评分机制的建立 |
4.7 本章小节 |
第5章 实验结果及系统应用 |
5.1 实验环境 |
5.2 实验对象 |
5.3 实验步骤 |
5.4 实验结果及分析 |
5.5 语音评价在中学英语教学中的应用 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士期间学术成果 |
致谢 |
(8)语音识别软件关键技术的研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外研究历史与现状 |
1.2.1 语音识别研究现状 |
1.2.2 语音识别存在的问题 |
1.3 研究目的及意义 |
1.4 研究的主要内容及结构 |
第2章 语音识别系统开发理论 |
2.1 语音识别系统简介 |
2.1.1 语音识别系统的结构 |
2.1.2 语音识别的系统类型 |
2.1.3 语音识别的基元选择 |
2.2 语音识别系统的应用 |
2.2.1 语音识别系统的应用分类 |
2.2.2 语音识别系统应用的特点 |
2.2.3 语音识别系统的应用所面临的问题 |
2.3 语音识别的算法简介 |
2.3.1 基于语音学和声学的方法 |
2.3.2 模板匹配的方法 |
2.3.3 神经网络的方法 |
2.4 本章小结 |
第3章 音频文件存储原理及处理方法 |
3.1 常见音频格式介绍 |
3.1.1 文件格式 |
3.1.2 WAV文件格式分析与详解 |
3.1.3 WAV头文件格式 |
3.2 音频处理方法 |
3.2.1 信号采样 |
3.2.2 预加重 |
3.2.3 分帧加窗 |
3.2.4 信号的时域分析 |
3.2.5 自相关函数 |
3.2.6 端点检测 |
3.3 语音信号的特征参数 |
3.3.1 线性预测编码(LPC) |
3.3.2 LPCC |
3.4 本章小结 |
第4章 语音识别软件的原理与实现 |
4.1 基于DTW算法语音识别系统设计 |
4.1.1 DTW算法详解 |
4.1.2 DTW算法匹配原理 |
4.1.3 DTW算法例子 |
4.2 DTW算法在代码中的实现 |
4.3 DTW算法优化 |
4.4 本章小结 |
第5章 语音识别程序测试及功能延伸 |
5.1 语音识别程序基本功能测试结果 |
5.1.1 程序识别数字测试 |
5.1.2 程序识别字母 |
5.2 语音识别程序扩展功能测试结果 |
5.2.1 程序识别特定人特定词 |
5.2.2 程序UI方向拓展 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 研究展望 |
参考文献 |
致谢 |
(9)基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现(论文提纲范文)
致谢 |
中文摘要 |
ABSTRACT |
1 绪论 |
1.1 基于车联网的语音交互系统的研究意义 |
1.2 国内外基于车联网的智能终端系统的研究历史和现状 |
1.3 基于云服务的智能3G手机的语音交互 |
1.4 基于Android系统的车联网车载语音终端的设计 |
1.4.1 硬件总体设计 |
1.4.2 语音识别模块设计 |
1.4.3 语音合成模块设计 |
1.4.4 系统的功能模块图 |
1.5 论文的组织结构与特色性工作 |
2 语音识别算法原理和模块算法 |
2.1 语音识别算法概述 |
2.2 语音识别系统的组成 |
2.3 语音识别算法的分类及分析 |
2.3.1 DTW算法分析 |
2.3.2 HMM算法分析 |
2.3.3 神经网络语音识别算法分析 |
2.3.4 算法选取 |
2.4 本章小结 |
3 在线模式下的语音识别 |
3.1 汉语声学模型的训练 |
3.1.1 前端信号处理 |
3.1.2 声学模型及其训练 |
3.2 HMM模型定义 |
3.3 HMM基本算法 |
3.4 HTK工具简介 |
3.4.1 HTK的软件结构 |
3.4.2 HTK主要应用工具介绍 |
3.5 汉语声学模型训练 |
3.5.1 训练流程设计 |
3.5.2 定义HMM模型 |
3.5.3 声学前端 |
3.5.4 HMM模型初始化 |
3.5.5 HMM模型训练 |
3.6 汉语语音识别测试 |
3.7 本章小结 |
4 离线模式下的语音识别 |
4.1 嵌入式语音识别技术 |
4.2 语音识别算法的选取 |
4.3 基于DTW的孤立词语音识别系统 |
4.3.1 孤立词识别系统 |
4.3.2 预处理和特征提取 |
4.3.3 动态时间规整DTW算法 |
4.4 本章小结 |
5 语音合成算法原理和模块算法 |
5.1 语音合成概述 |
5.1.1 概述 |
5.1.2 TTS系统的组成 |
5.2 语音合成算法的分类与比较 |
5.2.1 波形合成法 |
5.2.2 参数合成法 |
5.2.3 规则合成法 |
5.2.4 各种语音合成方法的比较 |
5.3 嵌入式语音合成 |
5.4 Espeak的基本功能及参数 |
5.5 Espeak的语音合成原理 |
5.6 本章小结 |
6 车载语音交互系统的搭建和测试 |
6.1 语音识别模块 |
6.1.1 DTW语音识别算法编程和实验 |
6.1.2 DTW语音识别算法的改进 |
6.2 语音合成模块 |
6.2.1 Windows平台Android移植环境的搭建 |
6.2.2 语音合成服务往Android平台上的移植 |
6.3 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读硕士期间主要研究成果 |
学位论文数据集 |
(10)嵌入式语音识别系统(论文提纲范文)
1. 课题背景描述 |
2. 总体设计 |
3. 系统硬件平台的搭建 |
3.1 语音采集板的设计与实现 |
3.2 语音处理模块FPGA开发板的配置 |
4. 系统的软件设计与实现 |
4.1 系统调度 |
4.2 预处理 |
4.3 端点检测 |
4.4 特征提取 |
4.5 模式匹配 |
4.6 控制接口 |
5. 关键技术及其实现 |
5.1 LPCC算法定点化 |
5.2 DTW算法实现 |
6. 系统识别性能 |
7. 总结 |
四、用LPC及DTW进行语音模式比较的设计与实现(论文参考文献)
- [1]政务资讯平台语音信号处理方法研究与实现[D]. 高茹洁. 内蒙古大学, 2021(12)
- [2]基于手势识别与语音控制的上肢康复人机交互技术研究[D]. 刘玉博. 山东大学, 2021(12)
- [3]船载声音识别分析系统的研制[D]. 梁肇聪. 哈尔滨理工大学, 2021(09)
- [4]基于嵌入式微处理器的人机语音交互系统的设计与研究[D]. 刘琼. 南京邮电大学, 2020(03)
- [5]时间序列相似性度量及其在语音识别领域的应用[D]. 朱良泽. 中北大学, 2020(10)
- [6]ROS地面移动机器人藏语语音控制的研究与实现[D]. 王福钊. 西藏大学, 2020(02)
- [7]基于DTW的语音评价系统及其中学英语教学中的应用[D]. 王国林. 华中师范大学, 2017(02)
- [8]语音识别软件关键技术的研究[D]. 张基晟. 大连海事大学, 2017(06)
- [9]基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现[D]. 熊洋. 北京交通大学, 2013(02)
- [10]嵌入式语音识别系统[J]. 马骏,刘桢,刘赛男,王美青,程威,赵琪. 科技信息, 2011(06)