一、基于时频分步处理的PSOLA韵律合成方法(论文文献综述)
熊洋[1](2013)在《基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现》文中提出语音人机交互是人机交互工程的一项重要研究内容。目前,中文语音交互技术发展很快,系统应用已经比较成熟,如科大讯飞的移动TTS(Text to Speech文语转换)系统已经投入商用。本文以语音交互系统为研究对象,旨在以构建基于车联网的移动车载语音交互系统为研究目的,通过研究设计实现了系统语音识别及合成模块的相应算法,并分别构建了其对应的系统,实验测试结果良好,可以满足嵌入式移植及车联网环境下的需求。论文介绍了基于小词汇量语音识别算法与TTS系统的车联网移动终端的构建与实现;分析了Android手机平台的系统特性及嵌入式环境下语音交互模式的特点;讨论了基于该具体应用背景下特定的语音识别算法和语音合成算法,分别设计了语音识别模块(含在线模式与离线模式)与语音合成模块;对相应算法做了车联网环境下的适应性改进;在线模式下的语音识别研究:在PC机上利用HTK搭建语音识别系统,以此模拟车联网云计算中心的在线语音识别功能;而离线模式下的语音识别:采用DTW算法,并用C++程序对算法对其进行了编写和修改,在PC机上进行了测试,测评效果良好;语音合成:利用Espeak语音合成开发软件,并在PC机上模拟安卓(Andriod)系统环境,对语音合成系统进行了测试和运行,取得良好的效果;最后对该算法模块的复杂度和实时性进行了分析,最终得到了适合移植到车联网移动环境下的嵌入式语音交互系统的基本构架。本文的创新点在于提出了基于车载嵌入式系统的语音交互系统及其算法,并将车载系统的语音识别分为在线和离线两种模式,并且对相关算法进行了适应性(复杂度和准确度)的分析和优化,使之适合于嵌入式环境的实现。
王宁[2](2012)在《采用Pitch Target模型与韵律参数调整的语音情感转换》文中研究说明人的语音不仅包含了语言信息,也包含了超语言信息。语言信息,即人们所说的文本内容的涵义。而超语言信息,与人的态度和情感有很大的关系。人的语音携带了喜怒哀乐等各种情感信息,同样的文本内容可以用不同的语调,不同的重音,不同的声调来表达不同的情感,从而给人不同的感受。因此,情感是语音重要的组成部分,对情感语音进行研究具有非常重要的现实意义。语音情感转换就是对同一个说话人的源语音信号进行韵律参数和频谱转换,使其具有目标情感的韵律特征,再将其合成出目标情感的语音。为了使语音能够合成出目标情感状态,本文提出了一种基于Pitch Target模型与韵律参数调整的语音情感转换方法。针对高兴、愤怒、悲伤和中立这4种不同情感建立了基于音节的Pitch Target模型的参数库,在此基础上对语音情感韵律特征进行建模,得出中性语音转换成其他情感语音的转换函数;再根据分析语音库中情感语音的韵律特征参数,对转换后的情感语音韵律参数进行修改,最后运用STRAIGHT模型合成出含情感色彩的语音。主要内容如下:(1)从情感语音转换的需求出发,对Pitch Target模型进行了改进。用基音轮廓的第一个值插入代表基音轮廓的等式来代替原参数β,将基音轮廓的最后一值代入target等式,代替a或者b,使得参数的求取更加简便。这个求取过程是在一个音节上进行的。因此,每一个音节关联一个基音目标。(2)实现了基于Pitch Target模型与韵律参数调整的语音情感转换方案。通过对基于Pitch Target模型的四种参数进行基于GMM的联合建模,生成转换函数,将源语音的声调改变成目标情感的声调。并对改变后的基音频率进行了时长,幅值等的修改,使其与目标语音情感更接近。(3)在对情感语音进行韵律参数的调整的过程中,分别对语音信号的时长,能量以及基频幅值等进行了修改。时域上,对语音信号的短时能量进行了一定比例的修改。频域上,信号时长的修改采用了线性插值抽取的方法,对基音频率和频谱对应的采样点分别进行了复制或者删除,并对基频和频谱的幅值进行了相应的修改。对源与目标语音基于LPCC特征参数建立联合GMM模型,应用于短时频谱参数转换,并采用STRAIGHT进行情感语音的合成。
谭海涛[3](2011)在《音频节奏的分析与应用》文中认为音乐随着互联网广泛而深入的应用,与我们日常生活的联系愈发紧密。音乐的节奏是音乐的骨架,是描述音乐结构的基础,对音乐的表达,基于内容的音乐检索等方面具有重要的意义。本文面向音乐的节奏分析和音符重音起始点的检测方法进行了研究,以及探索了将这种音乐中的检测方法应用于语音中的可行性,主要包含以下几方面的工作。提出了一种使用MFCC(Mel Frequency Cepstrum Coefficients),LPCC(Linear Prediction Cepstral Coefficients)等特征的音符重音起始点检测方法。不同于传统的单纯基于能量和相位的方法,通过这种方法可以更好的适应音乐的频谱特性。还研究了Chroma等音乐分析中常用的特征在音符重音起始点检测中的应用。其次,提出使用MFCC等音频特征的节拍类型分类,以及使用自相关方法的节拍时长计算,在这两种方法的基础上,对音乐重音起始点检测做出了改进,然后提出了一种基于ANN(人工神经网络)的动态节拍划分方法,实现对音频进行按节奏的划分。最后建立了音乐的节奏划分系统,比较了使用不同的音频特征对音乐中重音起始点位置检测和节奏划分效果的影响,证明了本文所提出的音乐节奏划分方法具有良好的适应性和准确率。而且将这种方法对语音音频进行了分析,结果表明系统对于语音信号的节奏也具有一定的分析能力。
张晓蕊[4](2011)在《语音变调算法研究及其在语音合成中的应用》文中研究说明随着信息技术和多媒体技术的发展,普通的音视频素材已经不能满足人们生产活动和娱乐生活的需求。应运而生的语音变调技术,是在保持音频文件播放速度不变的前提下,按照某种算法对说话人的音调进行调整,从而实现音调的升高或降低,而语音音调的不同主要是由基音频率和共振峰频率来决定,因此音调的改变可以通过改变原始语音信号的基音频率和共振峰频率来实现。目前存在的语音变调方法都还不是很完善,还存在着各种各样的缺点。语音合成技术是随着人们对人机交互提出要求而发展起来的一种语音信号处理技术,是将计算机输出的或人为输入的一些非语音信息如文字、数字、标点符号等转换为清晰自然可懂的语音输出,这种技术又称为文语转换技术(Text to Speech,简称TTS)。较早的文语转换系统在合成模块一般采用参数合成法,其中共振峰合成法和LPC合成法应用较多。对参数合成法的研究起步比较早,所以参数合成法已具有相对成熟的理论基础,而且实现起来较简单,但实际合成的连续语音不自然,有明显的机器腔。二十世纪九十年代初,基音同步叠加技术的研究开始兴起,并成功运用到了TTS系统中。基音同步叠加(PSOLA, pitch synchronous overlap add)技术不同于简单的波形拼接技术,它在对语音基元拼接的时候,首先对音频文件分析得到基音标注,然后以基音周期为单位对拼接单元的基频、音长和音强等韵律特征做出适合的调整,在不改变原始语音基元音质的基础上,灵活地改变语音的韵律特征。本文通过分析研究现有语音合成方法存在的优缺点,在PSOLA算法的基础上,提出了一种时长和基频分步处理的语音合成方法,并通过实验证实了其有效性。本文主要工作如下:1、对现有变调方法作了分类分析,主要分析了3种典型方法的变调原理和特点,即时域同步叠加固定合成法(synchronized overlap-add fixed synthesis, SOLA-FS)、频域插值法和相位声码器法,并通过分析研究指出了它们的优缺点。然后在SOLA-FS算法的基础上,提出了一种改进的基于SOLA-FS的变调方法,仿真实验发现该变调方法不仅能在保持音频播放时间不变的前提下改变音调,而且降低了算法复杂度,并在一定程度上减少了噪音,并给出了改进前后运行时间的比较,以及改进前后对应的语谱图。实验发现改进的SOLA-FS方法在自然度上的优势明显优于其他变调方法,然后给出了三种不同变调算法下变调结果的主观测听对比。结果表明:不论对语音音调的升高还是降低,在相同变调系数下,改进的SOLA-FS方法均具有最好的变调效果。2、将改进的SOLA-FS变调方法与波形拼接技术相结合,提出了一种音高、时长分步处理的语音韵律拼接合成方法,既保持了语音拼接单元的清晰度和自然度,也在一定程度上提高了合成语音的韵律修改能力。文中给出了在不同的音高调整参数下,传统的TD-PSOLA方法与时频分步合成法在基频修改时所对应的合成语音的时域图和基频轨迹图,并在最后给出了算法复杂度的比较。实验证明,传统的TD-PSLOA方法在音高修改时,其合成语音对应的基频轨迹的包络与语音样本的基频包络有较大出入,尤其是当基频修改幅度较大时,会造成叠加单元的混叠或遗漏,从而影响合成语音的效果。而时频分步法在音高修改时,其合成语音对应的基频包络相对语音样本基本不变,而且当音高变化幅度较大时仍能达到较好的语音合成效果。但是,本文提出的合成方法在时间复杂度上会增加,但随着计算机技术和数据存储技术的发展,算法的复杂度将不会是一个大问题。论文最后对所做的全部工作进行了总结,并给出了论文中存在的不足和下一步要研究的方向。
袁晓勇[5](2009)在《基于LPAC-PSOLA合成算法语音转换系统》文中提出语音转换是一项改变说话人声音特征的技术,是将源说话人声音转化为具有目标说话人特征信息声音的方法。语音转换是语音信号处理领域的一个较新的分支,涉及信号处理、声学语言学、人工智能、模式识别和计算机科学等学科领域,它的研究对语音分析、语音编码、语音合成、语音增强和语音识别等语音信号处理领域有重要的促进作用。语音转换研究语音模型中各特征参数的变化规律,对语音参数的合成、语音编码技术的进步、说话人加密和模拟技术的发展有着重要的促进作用;同时它在电影、电视节目中的配音、数字化的娱乐等多媒体方向、医学领域、刑侦及保密通信等方面也有着广泛的应用。语音转换技术是对说话人识别和语音合成技术的丰富和延拓,有着良好技术发展前景。因此语音转换技术的研究具有广阔的应用前景和重要的理论研究和实用价值。本论文采用线性预测分析系数波形-叠接合成法实现语音转换,是基于提取源语音和目标语音特征的线性预测系数转化的线谱对频率,建立联合参数的高斯混合模型训练法,采用最大期望法估计联合矢量高斯混合模型的参数来确定转换规则,据转换规则将源语音转换为预测语音,再将预测语音通过波形叠接法合成出转化后具有目标说话人特征的语音。其中,在语音信号转换的处理中,需要将线性预测系数与线谱对频率参数相互转换。本文采用利用余弦函数特性改进的Chebyshev多项式求根法,将余弦函数转换为高次幂函数再进行搜索求根,来实现语音特征的线性预测系数与线谱对参数的转化。
姜晓庆,崔世耀,殷艳华[6](2008)在《人机语音交互中的情感语音处理》文中研究表明选取三种典型的情感状态,通过对在不同情感状态下大量取样的语音样本的基频、能量、时长及相关韵律特征参数作统计分析,基于统计结果使用PCA方法进行情感状态识别实验,识别准确率达91.67%。结合情感识别结果,使用DTW算法通过模式匹配进行小词汇表的语音识别,提高语音识别正确率;给出输出语音韵律特征参数的调整方法,使人机语音交互得到更加人性化的改进。
周树森[7](2008)在《基于语料库的歌声合成方法》文中提出语音处理技术有着广泛的应用领域,歌声合成是语音处理技术的一个新的应用领域。对歌声合成方法的研究在谱曲作词、唱片制作、娱乐等领域都有很大的应用价值,虽然国际上对歌声合成方法已有一定的研究,但针对普通话的歌声合成方法则开展得较少,同时由于比单纯的语音合成多了关于音调检测与变换方面的处理过程,因此具有一定的挑战性。针对一个实际的普通话歌声合成应用需求,本文力图在现有语音合成与歌声合成技术基础上,建立起一个具有较高合成质量的普通话歌声合成系统。首先,本文介绍了音频处理、语音及歌声合成方面的主要技术,以及基于语料库的歌声合成方法的体系结构。其次,本文详细给出了歌声合成语料库的预处理方法,在此基础上研究并实现了对歌声的音符自动切分、清浊音识别、音高识别等歌声预处理算法。第三,提出了一种基于自适应滤波器的歌声旋律调整算法。算法的核心部分是设计一个具有自适应能力的滤波器,将音频信号的每一个周期都准确的检测出来。接着利用Hanning窗来平滑,减少了调整后音频信号的噪音。本文设计并实现了该旋律自动调整系统,并将处理结果与已有的旋律调整算法进行了比较。实验结果表明,本文提出的旋律调整算法获得的音质要优于其它方法。最后,在上述算法基础上,针对本文对歌声合成的具体应用需求,设计了一个基于语料库的歌声合成算法,为了增加合成歌声的清晰度与流畅度,设计了压线与歌声音强平滑等后处理算法,并实现了一个基于给定旋律与歌词的歌声合成系统,该系统首先检测出给定旋律所对应的音高、音长,然后对歌词对应的歌声语料库进行旋律变换与歌声合成,最终输出合成后的歌声。为了对合成质量进行评估,本文将歌声合成的结果进行了主观评测,结果表明,歌声合成的结果是可以接受的,该系统可以用于日常的娱乐。
黎子芬,谢晓方,林丽娜,刘剑锋[8](2008)在《基于TD-PSOLA算法的语音合成方法研究》文中指出介绍了一种采用TD-PSOLA合成语音的新方法,针对采用自相关法提取基音周期的缺点,该方法运用中心削波法降低计算短时信号的自相关函数的计算量。经过仿真验证,该方法大大降低了原算法的复杂度且在一定的范围内能合成高质量的语音,具有很强的工程价值。
陈坚红,李蔚,盛德仁,任浩仁[9](2007)在《火电厂语音报警系统中的动态文语转换方法》文中指出针对火电厂实时动态语音报警系统的特点,提出了基于动态文语转换技术的火电厂实时动态语音报警系统的实现框架.阐述了实时、动态文语转换子系统的各组成部分,研究了基于基音同步叠加算法(PSOLA)的实时动态文语转换方法,讨论了采用组件对象模型(COM)技术进行包括语音合成数据库、文本预处理、韵律处理和语音波形的生成在内的程序实现的要点.分析测试的结果表明,采用这种方法合成的语音质量高、实时性好,完全可以应用到包括火电厂实时动态语音报警系统在内的其他实时语音处理场合中.
颜祥[10](2007)在《基于韵律联合短时谱的说话人变换》文中研究说明说话人变换是一项改变说话人声音特征的技术,是将源说话人的语音特征转换成目标说话人的特征,使得听起来象是目标说话人的语音,而保持源说话人的语义信息内容不变。这个研究涉及到语音分析,语音编码,语音合成,语音增强,语音识别等各个方面,在军事,娱乐,教育等领域也有重要的应用,课题研究主要包括:(1)研究了一种韵律联合短时谱的转换方法。此方法利用一个基于高斯混合模型的转换函数,将每一帧语音信号的LSF系数和基音周期同时作为特征向量代入GMM模型,从而实现谱包络和基音周期的联合转换,再将转换出来的基音周期对源说话人的残差进行修正,最后合成出语音。该方法包括分析、转换和合成三个步骤。(2)研究了在各类不同参数下的转换结果,对于转换后的语音也进行了主观及客观评测,得到了最为优化的一组参数,并且将本方法与传统方法从4个转换角度作出比较。系统改进后对转换后语音进行评测可以看出,在主观方面,转换后效果提升了11.7%的,而在客观方面,也可发现性能有6.7%的提升。这表明改进后的系统相对于传统方法转换性能得到了改善,转换后语音的自然度,可懂度,倾向性也有所提高。证明本方法对说话人转换系统性能的提高是有效的。
二、基于时频分步处理的PSOLA韵律合成方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于时频分步处理的PSOLA韵律合成方法(论文提纲范文)
(1)基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现(论文提纲范文)
致谢 |
中文摘要 |
ABSTRACT |
1 绪论 |
1.1 基于车联网的语音交互系统的研究意义 |
1.2 国内外基于车联网的智能终端系统的研究历史和现状 |
1.3 基于云服务的智能3G手机的语音交互 |
1.4 基于Android系统的车联网车载语音终端的设计 |
1.4.1 硬件总体设计 |
1.4.2 语音识别模块设计 |
1.4.3 语音合成模块设计 |
1.4.4 系统的功能模块图 |
1.5 论文的组织结构与特色性工作 |
2 语音识别算法原理和模块算法 |
2.1 语音识别算法概述 |
2.2 语音识别系统的组成 |
2.3 语音识别算法的分类及分析 |
2.3.1 DTW算法分析 |
2.3.2 HMM算法分析 |
2.3.3 神经网络语音识别算法分析 |
2.3.4 算法选取 |
2.4 本章小结 |
3 在线模式下的语音识别 |
3.1 汉语声学模型的训练 |
3.1.1 前端信号处理 |
3.1.2 声学模型及其训练 |
3.2 HMM模型定义 |
3.3 HMM基本算法 |
3.4 HTK工具简介 |
3.4.1 HTK的软件结构 |
3.4.2 HTK主要应用工具介绍 |
3.5 汉语声学模型训练 |
3.5.1 训练流程设计 |
3.5.2 定义HMM模型 |
3.5.3 声学前端 |
3.5.4 HMM模型初始化 |
3.5.5 HMM模型训练 |
3.6 汉语语音识别测试 |
3.7 本章小结 |
4 离线模式下的语音识别 |
4.1 嵌入式语音识别技术 |
4.2 语音识别算法的选取 |
4.3 基于DTW的孤立词语音识别系统 |
4.3.1 孤立词识别系统 |
4.3.2 预处理和特征提取 |
4.3.3 动态时间规整DTW算法 |
4.4 本章小结 |
5 语音合成算法原理和模块算法 |
5.1 语音合成概述 |
5.1.1 概述 |
5.1.2 TTS系统的组成 |
5.2 语音合成算法的分类与比较 |
5.2.1 波形合成法 |
5.2.2 参数合成法 |
5.2.3 规则合成法 |
5.2.4 各种语音合成方法的比较 |
5.3 嵌入式语音合成 |
5.4 Espeak的基本功能及参数 |
5.5 Espeak的语音合成原理 |
5.6 本章小结 |
6 车载语音交互系统的搭建和测试 |
6.1 语音识别模块 |
6.1.1 DTW语音识别算法编程和实验 |
6.1.2 DTW语音识别算法的改进 |
6.2 语音合成模块 |
6.2.1 Windows平台Android移植环境的搭建 |
6.2.2 语音合成服务往Android平台上的移植 |
6.3 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
攻读硕士期间主要研究成果 |
学位论文数据集 |
(2)采用Pitch Target模型与韵律参数调整的语音情感转换(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 课题研究背景 |
1.3 语音情感转换的研究现状及意义 |
1.4 论文章节安排 |
第二章 语音情感转换理论基础 |
2.1 语音信号的基本特性 |
2.1.1 语音发音机理 |
2.1.2 语音产生模型 |
2.2 语音信号的预处理 |
2.2.1 语音信号的采集与数字化 |
2.2.2 语音信号的预加重和加窗 |
2.2.3 语音信号的端点检测 |
2.3 特征参数选取 |
2.3.1 基音频率检测 |
2.3.2 基音检测后的平滑处理 |
2.3.3 频谱参数 |
2.4 基于GMM模型的语音情感转换 |
2.4.1 GMM模型的定义 |
2.4.2 GMM模型的训练及转换 |
2.4.3 动态时间规整算法(DTW) |
2.5 STRAIGHT模型 |
2.6 语音情感转换评价标准 |
2.6.1 客观评价标准 |
2.6.2 主观评价标准 |
第三章 情感语音特征分析 |
3.1 语音的情感定义及分类 |
3.2 情感语音特征参数分析 |
3.2.1 基音频率的分析 |
3.2.2 情感语音时间长度的特征 |
3.2.3 情感语音短时能量的分析 |
3.2.4 情感语音的共振峰分析 |
第四章 语音情感转换 |
4.1 基频目标模型 |
4.1.1 传统Pitch Target模型 |
4.1.2 改进的Pitch Target模型 |
4.2 基于基频目标模型的语音情感转换 |
4.2.1 基音频率转换 |
4.2.2 频谱转换 |
4.3 基于韵律参数修改的语音情感转换 |
4.3.1 修改韵律参数 |
4.3.2 修改韵律参数和频谱参数 |
4.4 结合基频目标模型与韵律参数修改的语音情感转换 |
第五章 语音情感转换实验结果及分析 |
5.1 情感语音语料库 |
5.1.1 情感语音数据库的建立 |
5.1.2 情感语音语料内容 |
5.2 实验结果及分析 |
5.2.1 基于基频目标模型的语音情感转换实验 |
5.2.2 基于韵律参数修改的语音情感转换实验 |
5.2.3 结合基频目标模型与韵律参数修改的语音情感转换实验 |
第六章 总结及展望 |
参考文献 |
致谢 |
(3)音频节奏的分析与应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景和意义 |
1.2 音乐节奏分析当前研究现状 |
1.2.1 音乐节奏定义 |
1.2.2 音乐节奏分析方法研究现状 |
1.2.3 当前存在的问题 |
1.3 本文研究内容及全文结构 |
第2章 音符重音起始点检测技术 |
2.1 音乐信号预处理 |
2.1.1 采样与量化 |
2.1.2 预加重处理 |
2.1.3 分帧与加窗 |
2.1.4 全相位处理 |
2.2 音乐重音起始点检测 |
2.2.1 重音起始点检测方法 |
2.2.2 MFCC 特征及其提取方法 |
2.2.3 差分全相位MFCC 及其提取方法 |
2.2.4 LPCC 特征及其提取方法 |
2.2.5 Chroma 特征及其提取方法 |
2.3 重音起始点检测结果及准确性分析 |
2.3.1 实验数据 |
2.3.2 评价标准 |
2.3.3 实验结果及分析 |
2.4 本章小结 |
第3章 基于ANN 的动态节奏分析方法 |
3.1 基于ANN 的节拍类型分类 |
3.1.1 人工神经网络ANN 简介 |
3.1.2 网络隐层节点数设定 |
3.1.3 输入音频时间长度设定 |
3.2 音乐节拍周期计算 |
3.3 重音起始点检测改进方法 |
3.4 基于PSOLA 算法的节拍合成 |
3.5 本章小结 |
第4章 音乐节拍分析系统实现及准确性分析 |
4.1 音乐节奏分析系统构建 |
4.2 实验数据 |
4.3 实验结果分析 |
4.3.1 使用不同特征的节拍类型分类实验结果 |
4.3.2 改进的起始点检测方法实验结果分析 |
4.3.3 音乐及律诗节拍分析实验结果 |
4.4 本章小结 |
结论 |
参考文献 |
致谢 |
(4)语音变调算法研究及其在语音合成中的应用(论文提纲范文)
摘要 |
ABSTRACT |
符号说明 |
第一章 绪论 |
1.1 研究背景 |
1.2 语音变调 |
1.2.1 语音变调基本原理 |
1.2.2 语音变调的应用 |
1.3 语音合成 |
1.3.1 语音合成的基本原理 |
1.3.2 语音合成的基本应用 |
1.4 本文主要工作以及章节安排 |
第二章 语音变调主要方法概述 |
2.1 时域法 |
2.1.1 时域调制法 |
2.1.2 基于SOLA-FS的变调方法 |
2.1.2.1 变调变时间处理 |
2.1.2.2 基于SOLA-FS的时长规整方法以保持播放时间不变 |
2.2 频域方法 |
2.2.1 基于频域插值的变调方法 |
2.2.2 基于相位声码器技术的变调方法 |
2.2.2.1 相位展开 |
2.2.2.2 即时频率估计与合成相位计算 |
第三章 主要语音合成技术概述 |
3.1 参数合成方法 |
3.1.1 线性预测合成方法 |
3.1.2 共振峰合成方法 |
3.2 波形拼接合成技术 |
3.2.1 TD-PSOLA算法 |
3.2.2 FD-PSOLA算法 |
第四章 改进的SOLA-FS变调方法及其仿真实现 |
4.1 参数S_s和_a的选取 |
4.2 SOLA-FS变调方法的改进 |
4.3 三种变调方法的仿真实现及音效评估 |
4.3.1 MATLAB仿真实现 |
4.3.2 变调效果主观评价 |
第五章 基于PSOLA的时频分步语音合成法及其仿真实现 |
5.1 同态滤波技术及其应用 |
5.1.1 同态滤波原理 |
5.1.2 语音信号两个卷积分量的分离 |
5.1.2.1 声门激励的复倒谱 |
5.1.2.2 声道冲激序列的复倒谱 |
5.1.2.3 短时语音信号两个卷积分量的分离 |
5.1.3 时频分步语音合成 |
5.2 时频分步语音合成法的仿真实现及与TD-PSOLA方法的比较 |
结束语 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
学位论文评阅及答辩情况表 |
(5)基于LPAC-PSOLA合成算法语音转换系统(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语音处理技术的发展 |
1.1.1 语音编码 |
1.1.2 语音识别 |
1.1.3 语音合成 |
1.2 语音转换技术的发展 |
1.2.1 国内外研究现状 |
1.2.2 语音转换技术的应用 |
1.2.3 语音转换系统的研究 |
1.3 论文主要研究内容及安排 |
第2章 语音信号的基本特性和转换模型 |
2.1 语音信号的基本特性 |
2.1.1 语音信号的产生模型 |
2.1.2 语音信号的说话人特征 |
2.2 语音信号的转换模型 |
2.2.1 语音转换的研究方法 |
2.2.2 语音转换的原理模型 |
2.3 本章小结 |
第3章 语音转换的关键技术的系统分析 |
3.1 语音转换的应用 |
3.2 语音转换系统的分析 |
3.2.1 语音转换研究的层次结构 |
3.2.2 语音转换系统的总体构成 |
3.2.3 语音转换技术实现 |
3.3 语音转换性能测试 |
3.3.1 主观性能评估 |
3.3.2 客观性能评估 |
3.4 本章小结 |
第4章 语音转换系统设计 |
4.1 总体设计 |
4.2 语音转换的实现过程 |
4.2.1 训练阶段 |
4.2.2 转换阶段 |
4.2.3 语音合成 |
4.3 语音转换性能测试 |
4.3.1 主观测试方法 |
4.3.2 客观测试方法 |
4.4 实验设计和实验结果测试 |
4.4.1 实验语音的采集 |
4.4.2 实验系统的设计 |
4.4.3 实验结果的测试 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(6)人机语音交互中的情感语音处理(论文提纲范文)
1 情感语音处理概述 |
2 情感语音的韵律特征统计分析 |
2.1 基本结构 |
2.2 情感语音数据库的建立 |
2. 3 情感语音样本的韵律特征参数的提取与统计 |
3 情感识别与语音识别研究 |
3.1 基于PCA的情感识别 |
3.1.1 基本原理 |
3.1.2 识别结果 |
3.2 基于模式匹配算法的语音识别 |
4 输出语音韵律调整方法研究 |
5 结语 |
(7)基于语料库的歌声合成方法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景 |
1.2 本课题研究的目的及意义 |
1.3 语音与歌声的对比 |
1.3.1 语音的特性 |
1.3.2 歌声的特性 |
1.4 国内外相关技术发展现状 |
1.4.1 语音合成技术发展现状 |
1.4.2 歌声合成技术发展现状 |
1.5 本文主要研究内容 |
第2章 歌声合成系统体系结构 |
2.1 系统体系结构 |
2.2 歌声语料库的构建方法 |
2.3 合成单元选择 |
2.3.1 字音转换 |
2.3.2 目标距离函数 |
2.4 旋律和幅值调整 |
2.5 音乐效果 |
2.5.1 混响 |
2.5.2 背景音乐 |
2.6 本章小结 |
第3章 歌声预处理算法 |
3.1 简介 |
3.2 端点检测 |
3.2.1 简介 |
3.2.2 歌声端点检测方法 |
3.3 清浊音切分 |
3.3.1 简介 |
3.3.2 清浊音切分算法 |
3.4 音符识别 |
3.4.1 简介 |
3.4.2 音符识别算法 |
3.5 本章小结 |
第4章 基于自适应滤波器的旋律和幅值调整算法 |
4.1 引言 |
4.2 信号周期检测 |
4.3 旋律和幅值调整 |
4.4 信号拼接合成 |
4.5 旋律调整算法的评估 |
4.5.1 体系结构 |
4.5.2 试验结果比较 |
4.6 本章小结 |
第5章 歌声合成算法的实现与评测 |
5.1 引言 |
5.2 系统设计与实现 |
5.2.1 语料库的设计 |
5.2.2 系统流程图 |
5.2.3 系统模块的设计 |
5.2.4 系统实现 |
5.3 系统评测 |
5.3.1 评测方法 |
5.3.2 评测结果 |
5.4 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(9)火电厂语音报警系统中的动态文语转换方法(论文提纲范文)
1 基于文语转换技术的实时动态火电厂语音报警系统框架 |
2 基于PSOLA实时动态语音合成方法 |
2.1 基本原理 |
2.2 基音同步分析 |
2.3 基音同步修改 |
2.4 同步叠加合成 |
3 动态文语转换的实现方法 |
3.1 语音合成数据库 |
3.2 文字到语音的转换 |
3.3 合成语音的测试 |
4 结 语 |
(10)基于韵律联合短时谱的说话人变换(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景 |
1.2 说话人转换技术的概述 |
1.3 说话人转换的研究意义和应用 |
1.4 论文研究课题的章节安排 |
第二章 说话人转换的基本原理 |
2.1 语音信号 |
2.1.1 语音信号的发音系统及其模型 |
2.1.2 语音信号的数字模型 |
2.1.3 语音信号的说话人特征 |
2.2 说话人转换系统的构成 |
2.2.1 语音模型及参数 |
2.2.2 映射规则 |
2.2.3 语音库 |
2.3 说话人转换的评价标准 |
2.3.1 客观评价标准 |
2.3.2 主观评价标准 |
2.4 说话人转换所采用的的模型 |
2.4.1 声道模型 |
2.4.2 激励源模型 |
2.4.3 高斯混合模型(GMM) |
2.5 时域基音同步叠加(TD-PSOLA)算法 |
2.5.1 时间长度的调整 |
2.5.2 基音的调整 |
2.5.3 叠加合成 |
2.6 频域基音同步叠加(FD-PSOLA)算法 |
2.6.1 谐波增减法 |
2.6.2 频谱扩展与压缩 |
2.6.3 语音的合成 |
2.7 本章小结 |
第三章 联合转换的算法实现 |
3.1 语音韵律的分析 |
3.2 语音谱包络的分析 |
3.3 转换函数的训练 |
3.3.1 动态时间归整DTW 对齐 |
3.3.2 联合参数的GMM 模型训练 |
3.3.3 映射规则的推导 |
3.4 基于均值算法的残差调整 |
3.5 残差信号的分析与周期转换 |
3.6 语音合成 |
3.7 本章小结 |
第四章 实验结果及相关问题 |
4.1 实验前的准备 |
4.1.1 实验环境及评测方法 |
4.1.2 系数的确定 |
4.2 实验结果分析 |
4.2.1 女声到男声 |
4.2.2 女声到女声 |
4.2.3 男声到女声 |
4.2.4 男声到男声 |
4.3 语音转换结果讨论 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考目录 |
攻读学位期间主要的研究成果 |
致谢 |
详细摘要 |
四、基于时频分步处理的PSOLA韵律合成方法(论文参考文献)
- [1]基于小词汇量语音识别算法与TTS系统的车联网移动终端研究与实现[D]. 熊洋. 北京交通大学, 2013(02)
- [2]采用Pitch Target模型与韵律参数调整的语音情感转换[D]. 王宁. 苏州大学, 2012(03)
- [3]音频节奏的分析与应用[D]. 谭海涛. 哈尔滨工业大学, 2011(05)
- [4]语音变调算法研究及其在语音合成中的应用[D]. 张晓蕊. 山东大学, 2011(04)
- [5]基于LPAC-PSOLA合成算法语音转换系统[D]. 袁晓勇. 哈尔滨工程大学, 2009(S1)
- [6]人机语音交互中的情感语音处理[J]. 姜晓庆,崔世耀,殷艳华. 济南大学学报(自然科学版), 2008(04)
- [7]基于语料库的歌声合成方法[D]. 周树森. 哈尔滨工业大学, 2008(S2)
- [8]基于TD-PSOLA算法的语音合成方法研究[J]. 黎子芬,谢晓方,林丽娜,刘剑锋. 海军航空工程学院学报, 2008(01)
- [9]火电厂语音报警系统中的动态文语转换方法[J]. 陈坚红,李蔚,盛德仁,任浩仁. 浙江大学学报(工学版), 2007(12)
- [10]基于韵律联合短时谱的说话人变换[D]. 颜祥. 苏州大学, 2007(04)