一、基于模糊逻辑二元谱特征的语音检测算法(论文文献综述)
吴启晖,莫永成[1](2003)在《基于模糊逻辑二元谱特征的语音检测算法》文中指出语音信号检测是语音信号处理研究的重要方面.而低信噪比下具有抗正弦干扰能力的语音信号检测算法是该领域的研究热点,基于模糊逻辑的多特征语音信号检测已成为该领域的研究方向。本文提出了基于模糊逻辑二元谱特征的语音检测算法,该方法具有运算量小,抗噪性能好.抗正弦干扰能力强等特点。
任延珍,刘晨雨,刘武洋,王丽娜[2](2021)在《语音伪造及检测技术研究综述》文中提出语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显着进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1)对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2)对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3)对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。
柴进[3](2021)在《声音特征提取和识别算法研究及FPGA实现》文中研究指明声音信号在人们的生活中无处不在。作为最常见的信号之一,声音信号是信息的源头,不仅可以让人类建立对外部世界的认识,也可以让人类表达自我的想法。如今声音识别被广泛应用在自然保护、导航、安全监控等许多领域当中。声音识别技术主要有两个研究方向,分别是声音特征提取算法和识别算法,现有的声音特征提取和识别算法复杂度较高、计算量较大,通常在软件平台实现,难以满足边缘计算设备低功耗、实时性的要求。针对上述问题,论文选择现场可编程门阵列(Field Programmable Gate Array,FPGA)作为算法实现的平台,研究了声音特征提取和识别算法的简化改进和FPGA实现。论文主要研究内容如下:1)研究了现有的声音特征提取算法和声音识别算法,选择性能较好、适合硬件实现的声音梅尔谱特征提取算法和卷积神经网络识别算法。2)基于公开声音数据集,针对应用需求选择特定声音种类声音数据,自建声音训练和测试数据集,包含6种声音,共5900个,增加声音数据来源的多样性,保证不同种类声音数据的均匀性。3)论文对原算法进行改进,降低算法在FPGA平台实现时消耗资源。原声音梅尔谱特征提取算法需要输入声音的时间较长,卷积神经网络识别算法网络结构较大,论文减少了需要输入声音的时长,通过改变网络结构减少了网络的参数量。改进后的算法定点仿真后,识别准确率和原算法相差0.02%。4)在FPGA平台上进行实现改进后声音梅尔谱特征提取和卷积神经网络识别算法。声音梅尔谱特征提取部分只提取梅尔滤波器组的有效数据,减少了所需存储滤波器系数数量;卷积神经网络部分使用模块复用的方式降低了资源使用量。论文与原算法相比,需要输入声音的时长减少到1.61秒,降低了83.9%,声音梅尔谱特征图数据量减少了83.94%,增加了实时性、减少了参数和计算量。卷积神经网络参数量减少了65.63%,在FPGA平台上实现了声音特征提取和卷积神经网络识别算法,实际环境测试声音识别平均准确率为88.33%(使用自建声音数据集,声音识别平均准确率为90.9%)。论文实现声音识别系统应用于智能物联网预警系统中,作为终端设备监测识别环境声音。
宋浠瑜[4](2020)在《房间轮廓声学重构与室内声学定位关键技术研究》文中进行了进一步梳理位置信息可用于提供个性化服务以增强用户体验,促进物联网产业发展及智慧城市建设。随着全球定位系统(Global Positioning System,GPS)和北斗导航系统(BDS)的广泛应用,室外定位问题己基本解决,室外位置信息服务(Location Based Services,LBS)产业蓬勃发展。然而,人类80%以上的时间都在室内环境中活动,位置服务、社交网络、健康求助、智慧城市、应急救援、物联网、精确打击等无不需要具备室内定位功能。由于受建筑物的遮挡和多径效应的影响,GPS或BDS的室内定位性能无法满足人们对室内LBS的应用需求,因此,室内定位己成为LBS应用推广最迫切需要解决的问题。实用的室内定位方案需要满足精度、覆盖范围、可靠性、成本、功耗、可扩展性和响应时间等方面的需求。近年来,国内外研究者们提出了蓝牙、红外线、RFID、WLAN、超宽带、超声波等室内定位技术及应用系统,但是受人类活动干扰、信号多径传播、基础设施依赖等因素影响,不同的室内定位技术根据其定位性能都有一定的应用局限,迄今为止尚无一种普适化的室内定位系统能提供主导室内的全球性、全天候定位服务,使LBS产业全面覆盖室内外空间。因此,如何在室内复杂环境中进行场景识别并提升感兴趣目标的定位性能,己成为各种智能交互与通信系统产业共同关注的焦点。本文分析了室内定位技术的现状,尤其是室内声学定位的发展概况,确定了房间轮廓声学重构与室内声学定位关键技术研究方案,基于多通道声信号获取与单通道声信号获取两种方式,开展房间轮廓声学重构、室内声源定位与室内声学指纹定位的相关研究,分析房间轮廓声学重构对室内声学定位(本文重点讨论室内声源定位与室内声学指纹定位)性能的影响。研究房间轮廓声学重构与室内声学定位关键技术的意义,不仅在于其能满足不同室内LBS用户对位置精度的多尺度(分米级与米级)要求,还能满足用户对其位置信息获取的隐私保护需求,因此具有实际应用价值。文中对上述研究所涉及的应用背景与知识理论进行了介绍,明确了房间轮廓声学重构的基本原理与室内声学定位系统的工作机理,同时也对室内声学定位算法的常用手段进行了总结。本文的主要研究内容包括:1.综述了室内声学定位技术的发展概况,特别是室内声源定位与室内声学指纹定位的研究现状、技术问题与发展趋势。概述了房间轮廓声学重构技术的发展,并从多通道声信号获取与分析以及单通道声信号获取与分析两方面,总结了房间轮廓声学重构的实用方法,验证了房间轮廓信息对室内声学定位性能提升的有效性。2.介绍了房间轮廓声学重构的基础理论,分析了室内声场理论模型,推导了三维波动方程的基本公式,对利用房间平行墙面间声学共振特性,实现房间轮廓声学重构的过程进行了数学描述,并总结了基于波动声学的房间轮廓声学重构在实际应用中的参数问题;从多通道声信号获取与分析(麦克风阵列)以及单通道声信号获取与分析(智能手机)两方面,分别介绍了基于几何声学理论的房间轮廓声学重构方法,为基于阵列手机的室内声源定位,及基于智能手机的室内声学指纹定位应用研究提供室内声场环境先验;最后,介绍了室内声学定位的基础理论,介绍了基于时延估计的声源定位、基于波束形成的声源定位与基于机器学习的声学指纹定位的基本方法,归纳总结了室内声场环境对声学定位系统的重要影响,为后续室内声源定位和室内声学指纹定位的研究工作,提供理论与方法支撑。3.提出了一种基于三维麦克风阵列感知的房间轮廓声学重构方法,充分利用阵列拓扑结构优势,降低了一阶反射声脉冲峰误判的可能,简化了基于多通道声信号获取与分析的房间轮廓声学重构过程,提高了重构精度与效率,并保证了基于随机区域收缩(Stochastic Region Contraction,SRC)的可控功率响应相位变换(Steered Response Power with Phase Transform,SRP-PHAT)波束形成算法的可行性;并在房间轮廓重构基础上,提出了基于Delaunay三角剖分的声源位置搜索体积重建方法,在保证SRP-PHAT-SRC算法位置估计精度的同时,合理有效地缩小了室内运动声源的搜索体元,实现了室内说话人实时轨迹的高效估算与跟踪。4.提出了一种智能手机多传感融合的室内行人连续自定位方法,将基于智能手机惯性传感器数据的行人航迹推算(Pedestrian Dead Reckoning,PDR)与基于时延估计的声源定位算法相结合,并发展了一种基于声压级与声能分析的声学约束更新算法,该算法结合房间轮廓信息,通过利用声源与其一阶镜像声源之间的几何关系,保证了时延估计数据在可靠范围之内,更新消除了PDR迭代误差,实现了准确、有效且无用户协作的室内行人连续自定位。5.提出了一种基于听觉场景分析(Audiroty Scene Analysis,ASA)的室内LBS用户定位方法。该方法以室内环境背景声的心理声学特征谱为声学特征,构建多维声学指纹,结合房间轮廓信息与房间内区域分簇结果,勾画出室内场景的轮廓及其声音能量分布状态(房间色彩声图),一方面可以为室内小区域定位提供较为详实的位置信息和空间布局,另一方面又不暴露室内场景布局与物品的图像细节,解决了传统室内地图的隐私保护矛盾;在此基础上,基于机器学习的理论与算法,线下构建与更新“位置——指纹”映射关系数据库,线上以最小方差匹配,快速准确定位用户位置,实现无基础设施依赖且无用户协作的室内小区域级定位。
彭智朝[5](2020)在《融入生理学和行为学特征的言语情感识别研究》文中进行了进一步梳理即将到来的万物互联时代为人机交互领域提供了巨大的发展机遇,言语交互是人机交互中最自然,最便捷的交互方式。言语情感识别是言语交互中非常重要的一环,只有准确地识别说话人的言语情感信息,才能理解说话人的言外之意,实现有效言语交互。互联网环境中,言语情感信息可以在文本(如微博等)和语音两个言语通道上进行传递。文本情感通常是指说话人有意识的情感表达。从情感言语生成角度看,说话人的心理和生理状态都会反映在言语内容和行为信息等特征上,从这些特征信息中可以挖掘用户的情感状态。比如,微博用户的心理和生理状态会导致其言语内容和交互行为特征上的不同,通过这些特征信息可以挖掘用户是否有抑郁倾向情绪。语音情感更多的是一种无意识的、不由自主的情感表达。从情感言语感知的角度来看,声音进入听话人的听觉生理系统进行一系列的转换到达听觉皮层,通过语音音调、强度和持续时间等特征识别用户情感状态。本文根据文本产生和语音感知的特点,从不同的角度将生理学和行为学特征融入到言语情感识别研究中。在文本情感识别中,我们主要通过微博的文本内容和交互行为学特征挖掘微博用户的生理和心理状态,在语音情感识别中则主要利用听话人的听觉机理抽取语音中和情感相关的有效特征表示来提高情感的识别率。基于这个研究思路,本文在文本情感挖掘和语音情感识别中,在以下四个方面进行了创新性研究:(1)本文提出了一种结合用户行为特征的口语化文本情感识别方法,具体是指在文本言语通道上的抑郁倾向人群识别。首先根据口语化文本的新特点构建了抑郁情感词典并基于该词典提取文本特征表示,然后结合用户言语交互行为特征采用多核学习方法找到异构特征与情感的最优映射来实现抑郁倾向人群识别。实验结果表明,结合文本特征表示和交互行为特征是一种有效的情感挖掘方法。(2)本文首先提出了基于耳蜗滤波的情感识别方法,虽然该方法取得了比基于MFCC的方法更好的结果,但它存在明显的缺点,因此本文进一步提出了基于听觉调制的情感识别方法。基于听觉调制的方法引入了调制滤波来产生多维时间调制线索,然后采用3D CNN(convolutional neural network)模型直接对调制线索进行联合谱时特征学习。实验结果表明,3D CNN可以从时间调制线索中有效提取情感区分性的听觉表征。(3)受人耳听觉注意机制的启发,本文提出了一种基于注意力模型的滑动循环网络(Attention-based sliding recurrent neural network,ASRNN)模型来识别语音情感。其中,通过滑动窗来实现持续关注并提取连续的段级内部表征,然后通过时域注意力模型来实现选择性注意机制。最后通过注意力听辨实验对注意力模型和人耳听觉注意机制的相关性进行了比较分析。实验结果表明,该模型能从听觉表征中有效地捕获显着的情绪区域。(4)受人耳听觉系统多尺度调制的启发,本文提出了基于多分辨率调制耳蜗图(multi-resolution modulation-filtered cochleagram,MMCG)特征的维度情感识别方法。其中MMCG把时间调制线索编码成不同分辨率的调制耳蜗图来捕获时间和上下文调制线索。考虑到MMCG中的每种调制耳蜗图包含不同尺度的调制线索,本文设计了一种并行LSTM网络结构从不同分辨率特征中建立多个时间依赖关系并跟踪情感在时间序列上的动态性。实验结果表明,MMCG特征能够获得多尺度情感信息,而并行LSTM能够有效地跟踪情感的时间动态。
颜霖煌[6](2020)在《基于图像边缘保持滤波技术的语音增强算法研究》文中认为语音增强的目标是从带噪语音中去除噪声干扰,尽可能提取纯净语音。语音增强具有减小语音失真、提高语音质量和降低听觉疲劳度等作用。目前语音增强技术已普遍应用于移动通信、计算机、智能穿戴设备、智能家居等产品和领域中。传统单通道语音增强算法可以较好地抑制平稳噪声,达到提高语音质量的目的,但对于听力正常人群处理后语音可懂度并没有显着提升。传统语音增强算法基本都需要进行噪声估计。噪声估计的准确度直接关系到算法的降噪性能和语音失真量。通常谱减类、维纳滤波、子空间类等单通道语音增强算法对平稳噪声的估计和更新可以取得令人满意的效果,可是在更多的现实场景中,如餐厅、车站候车厅等,噪声谱特性随时间不断变化,这些算法的噪声估计效果变得不尽理想,降噪性能大幅下降,因此这些算法的应用环境和场景也变得有限。针对当前单通道语音增强存在的局限性,本论文研究基于图像边缘保持滤波技术的语音增强算法,首先利用图像处理中的双边滤波和引导滤波算法,通过理论建模研究时频单元和图像像素点的异同,利用保边去噪的优势处理语谱图的时频单元,在平滑背景噪声的时候保持语谱图语音特性的边缘信息。此外针对当前有监督算法的研究现状和问题,本论文利用基于语谱图降噪卷积神经网络的方法进行语音增强。本文的研究旨在一方面在无噪声估计环节下提升语音质量,另一方面改善当前已有算法抑制非平稳噪声不理想的现状。本文的具体工作和创新点体现在以下三个方面:(1)提出基于双边语谱图滤波改进OMLSA(Optimally Modified Log-spectral Amplitude)算法进行语音增强。运用双边滤波技术处理语音信号的语谱图来实现语音去噪,把纯净语音的语谱图当成一幅纯净图像,每一个时频单元代表一个像素点,而把带噪语音归一化后的语谱图当成是一幅干净图像受到噪声干扰或雾化的结果,利用增强的语谱信息估计OMLSA算法的后验信噪比,对噪声信号的噪点和模糊区域进行有效抑制,最终获得较纯净的语谱图,并重构出时域的语音信号。(2)提出一种基于听觉掩蔽效应的引导语谱图滤波语音增强算法。通过分析引导滤波算法在图像中的运算和应用,受益于引导滤波算法结构本身的局部线性模型,使得边缘保持效果和算法效率均优于双边滤波,且成功地克服了双边滤波等方法的梯度反转问题。作出引导语谱图滤波表达式的理论推导,提出基于听觉掩蔽效应的引导语谱图滤波语音增强算法,利用引导滤波抑制语谱图背景噪声,锐化语谱来提取纯净语音,并结合人耳的听觉掩蔽效应,对增强后的语谱根据听觉掩蔽阈值的大小自适应地调整和削减残余噪声。在不同的噪声环境下全面对比多种传统单通道语音增强算法的性能,重点研究引导语谱图滤波应对平稳和非平稳态噪声环境的性能兼具的效果,实现语音质量、语音可懂度和自然度的提升。(3)研究基于语谱图降噪卷积神经网络的方法进行语音增强,通过引入监督学习解决双边滤波和引导滤波算法出现的中低频残留噪声问题。将语音信号按照图像的特征提取方式,用语谱图当做训练集,应用性能突出的降噪卷积神经网络进行语谱图降噪处理,避开传统语音特征常用的循环神经网络的开发深度有限、复杂度过大的问题,依靠语谱图裁剪策略更容易获得大量训练数据,空间存储成本小很多。采用较深层的网络,致力于提高容量和灵活性来利用语谱图特征,也能捕捉到足够多的空间信息使降噪性能更好。研究的模型在卷积神经网络训练中应用残差学习策略,并引入批规范化,对模型的性能有较大的提升。不管是已见噪声情况还是未见噪声的情况,所提出的语谱图降噪模型都表现出比较好的学习能力和降噪性能,表明了本文的语音增强系统较好的鲁棒性。
刁敏敏[7](2020)在《Φ-OTDR光纤传感系统中振动信号的模式识别研究》文中研究表明相位敏感光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)对于振动信号能够实现高灵敏度的连续分布式测量和多点定位,在周界安防、油气管道泄漏监测等领域具有很高的应用价值。与点式测量相比,Φ-OTDR可以实现分布式远距离测量,具有较高的分辨率和测量灵敏度。基于这些优点,Φ-OTDR光纤传感系统的研究成为目前光纤传感监测系统研究的主要方向之一,主要包括传感信号解调方法研究、扰动事件定位方法研究和振动信号模式识别研究。振动信号的识别技术是监测系统的重要组成部分,可以有效区分干扰事件和有害入侵事件,减少误报和漏报,及时反馈准确的状况信息,有助于监测人员做出应对措施。本文对Φ-OTDR光纤传感系统中振动信号的模式识别问题进行了研究,提出了融合一维信号特征和时空二维图像特征的基于两级特征选择的模式识别算法,分别从一维信号和时空二维图像两个角度对Φ-OTDR光纤传感系统中的振动信号进行处理,并提取融合特征,利用支持向量机(Support Vector Machine,SVM)进行模式识别。在信号预处理方面,对一维信号,首先利用小波包分解的方法去除低频趋势项干扰,然后进行小波包阈值降噪,最后借鉴语音端点检测的双门限法,结合Φ-OTDR光纤传感系统中振动信号的特点,计算每帧信号的短时能量,提取振动信号的有效片段;对时空二维图像,首先对Φ-OTDR光纤传感系统采集到的时空二维信号做短时方差处理,得到短时方差时空二维图像,然后利用二值图像连通域标记的方法提取特征区域,图像处理过程包括灰度变换、闭运算、二值化、连通域标记和去除较小的噪点。在特征提取方面,提取振动信号有效片段的时域、时频域、奇异值、奇异谱特征和时空二维图像特征区域的形态学特征,组成初始特征集。在特征选择方面,采用Fisher准则与遗传算法相结合的两级特征选择方法选出分类准确率高,且特征规模小的特征子集。将选出的特征子集对应的特征向量输入到SVM分类器中进行训练,得到最终的Φ-OTDR振动信号模式识别SVM模型。在实验室环境下获取了铲子挖掘、敲击沙箱、跳跃、橡皮锤敲击和音箱振动5类振动信号作为实验数据,经过验证,算法的平均识别准确率达到99.22%。实验结果表明,对于Φ-OTDR光纤传感系统中振动信号的模式识别,融合一维信号特征和时空二维图像特征的基于两级特征选择的模式识别算法能够降低特征子集规模,并且具有较高的识别准确率。
傅杰[8](2020)在《基于深度学习的多模态情感识别算法研究》文中研究指明情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首先研究了语音情感特征,包括韵律特征、谱相关特征和音质特征。研究并分析了以高级描述因子类型的语音特征为输入的SVM、RF、KNN和DNN的算法模型以及以低级描述因子类型的语音特征为输入的三种LSTM框架的模型。此外还提出了一种以基于门控残差机制的时域卷积和基于注意力机制的LSTM模型相结合的算法来实现语音情感识别的任务。最后通过实验比较分析了多种语音情感识别算法在CASIA、e NTERFACE’05和IEMOCAP数据集上的性能表现,发现了数据归一化对机器学习算法的识别重要性、基于注意力机制的LSTM模型在三种LSTM框架中具有一定的性能优势。同时实验结果显示所提出的结合时域卷积和基于注意力机制的LSTM模型的方法能在e NTERFACE’05数据集上进一步提升语音情感识别的性能。(2)在CK+和FER+人脸表情数据库基础上,研究了基于VGGNet和Mobile Net的卷积神经网络模型的静态人脸表情识别方法,验证了Mobile Net结构的模型能够在减小模型参数数量的同时,保证有效的识别精度,在人脸表情识别任务上具有一定的优势。并在此基础上研究了基于的卷积神经网络与基于注意力机制的长短时记忆神经网络结合的视频序列表情识别方法,并在e NTERFACE’05多模态情感数据集上实验验证了算法的性能。(3)研究了采用语音情感识别模型和人脸表情识别模型或文本情感识别模型提取的高维情感特征的特征融合方法以及基于平均值规则、加权求和规则和乘积规则的决策融合方法,并提出了一种基于关键帧提取和Net VLAD的帧级特征融合方法。研究并分析了特征融合和决策融合两种多模态融合方法在e NTERFACE’05和IEMOCAP多模态情感数据集上的平均识别率和混淆矩阵,并分析比较了单一模态和多模态情方法在数据集上的混淆矩阵。实验结果显示采用高维情感特征的特征融合方法相对决策融合方法具有一定的优势,验证了多模态情感识别方法相对单一模态的情感识别方法具有显着的优势。同时,验证了所提出的利用语音提取情感关键帧并进行帧级特征融合的方法的有效性,该方法在e NTERFACE’05数据集上达到了最高的91.53%的平均识别率。
李伟,李硕[9](2019)在《理解数字声音——基于一般音频/环境声的计算机听觉综述》文中指出声音是人类获取信息的重要来源,对声音内容进行自动分析和理解具有重要意义.本文介绍声音的基本知识,从信号、听觉感受、声音特性等3个角度对声音进行分类,阐明各个分类之间的关系,明确基于一般音频/环境声的计算机听觉技术的研究对象和学科位置.之后,介绍计算机听觉技术的基本概念、原理、研究课题和技术框架.作者全面总结了计算机听觉技术在各个领域中:包括医疗卫生,安全保护,交通运输、仓储,制造业,农、林、牧、渔业,水利、环境和公共设施管理业,建筑业,其他采矿业、日常生活、身份识别、军事等的典型应用.分类总结了各领域计算机听觉应用中现有典型文献的基本原理、技术路线.最后总结计算机听觉领域存在的各方面问题,并展望未来发展趋势.
陈逸灵[10](2019)在《社交媒体中语音维度情感识别方法研究》文中研究指明语音情感识别一直是人工智能领域的研究热点,由于情感本身的多面性以及情感学发展的迟延性,该研究发展程度距离成熟阶段尚有较大差距。结合其现有水平与应用需求,本文从特征融合、识别方法和社交媒体应用场景三个角度展开研究并提出相应改进方法,主要研究内容如下:(1)针对常用语音情感特征梅尔频率倒谱系数(MFCC)存在因分帧处理引起相邻帧谱特征之间相关性被忽略,导致很多有用信息丢失问题,提出从语谱图中提取时间点火序列特征、点火位置信息对MFCC进行补充,将其分别单独用于语音情感识别,根据识别结果从P、A、D维度逐一进行相关性分析得到各特征权重系数,加权融合后获得最终PAD值并将其映射至PAD三维情感空间。实验结果表明增加基于语谱图的特征不仅能探测语音情感状态,而且考虑了相邻频谱间互相关信息,与MFCC形成互补,提升了语音情感识别准确率。(2)针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,提出基于层级上下文与注意力双向长短时记忆网络(BLSTM)的识别模型。识别过程分3个阶段:第1阶段提取特征全集并采用SVM-RFE特征排序算法降维得到最优特征子集;第2阶段将特征子集输入BLSTM网络学习特征层上下文获得最初预测结果;第3阶段利用情感标注值对另一独立BLSTM网络训练学习标签层上下文并据此在最初预测结果基础上完成最终预测。实验结果表明与基线模型相比性能得到较好优化。(3)针对社交媒体应用场景中语音会话情感特点,首先通过导出并剪辑辩论节目语音数据的方式构建训练及测试用语音情感数据库UcanUB-Voice,该数据库情感类型丰富、对话主题繁多、贴近现实生活、符合表达习惯,为本章PAD预测模型训练和测试提供了可靠有效的数据。然后通过整合前文特征融合、识别方法,提出了适合社交媒体场景的语音维度情感PAD预测模型,实验结果表明在不大量损失时间成本前提下,识别准确率得到提升,在社交媒体场景中取得了较好识别效果。
二、基于模糊逻辑二元谱特征的语音检测算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于模糊逻辑二元谱特征的语音检测算法(论文提纲范文)
(1)基于模糊逻辑二元谱特征的语音检测算法(论文提纲范文)
1 引言 |
2 基于模糊逻辑二元谱特征的语音检测原理 |
2.1 谱特征提取 |
2.2 单频干扰剔除 |
2.3 模糊系统匹配及非模糊化判决输出 |
3 计算机模拟 |
4 结束语 |
(2)语音伪造及检测技术研究综述(论文提纲范文)
1 引言 |
2 语音伪造技术 |
2.1 语音合成 |
2.2 语音转换 |
2.3 对抗攻击 |
3 伪造语音检测技术 |
3.1 伪造语音检测系统通用结构 |
3.2 攻击场景和评价指标 |
3.2.1 攻击场景 |
3.2.2 评价指标 |
1)等错误率(EER) |
2)串联检测代价函数(t-DCF) |
3.3 针对语音合成/转换的伪造语音检测技术 |
3.3.1 前端特征提取 |
1)短时功率谱特征 |
2)短时幅度谱特征 |
3)短时相位特征 |
4)基于长时变换的特征 |
5)基于子带变换的特征 |
3.3.2 后端分类模型 |
1)深度神经网络结构 |
2)损失函数 |
3)深度网络训练方法 |
3.4 重放语音检测 |
3.4.1 前端特征提取 |
3.4.2 后端分类模型 |
1)深度神经网络结构 |
2)损失设计 |
3)深度网络训练方法 |
3.4.3 活体检测方法 |
3.5 对抗攻击检测 |
3.5.1 主动防御方法 |
3.5.2 被动防御方法 |
4 相关竞赛 |
4.1 语音伪造竞赛 |
4.2 伪造语音检测竞赛 |
5 相关数据集 |
5.1 ASVspoof 挑战赛数据集 |
5.2 AVspoof 数据集 |
5.3 ReMASC 数据集 |
6 工具资源及相关源代码 |
6.1 伪造语音 |
1)工具资源 |
2)源代码 |
6.2 伪造语音检测 |
1)工具资源 |
2)源代码 |
7 未来研究方向 |
7.1 语音伪造 |
1)少样本伪造 |
2)鲁棒伪造 |
3)自然韵律伪造 |
4)口语风格伪造 |
7.2 伪造语音检测 |
1)高泛化性检测 |
2)少样本检测 |
3)鲁棒检测 |
4)活体特征检测 |
5)多模态检测 |
6)特定说话人风格检测 |
8 结论 |
(3)声音特征提取和识别算法研究及FPGA实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.2 声音特征提取算法 |
1.2.3 声音识别算法 |
1.3 论文的主要结构 |
第二章 声音识别技术 |
2.1 特征提取 |
2.1.1 时域特征 |
2.1.2 感知特征 |
2.2 声音识别 |
2.2.1 动态时间规整 |
2.2.2 高斯混合模型 |
2.2.3 支持向量机 |
2.2.4 卷积神经网络 |
2.3 本章小结 |
第三章 声音识别算法的改进 |
3.1 声音数据集构建 |
3.2 特征提取 |
3.2.1 梅尔谱系数提取算法 |
3.2.2 梅尔谱系数提取参数改进 |
3.3 声音识别 |
3.3.1 卷积神经网络算法 |
3.3.2 卷积神经网络结构改进 |
3.4 定点仿真 |
3.4.1 梅尔谱系数提取算法仿真 |
3.4.2 卷积神经网络算法仿真 |
3.5 本章小结 |
第四章 声音识别算法实现和验证 |
4.1 实现平台 |
4.1.1 声音接收芯片 |
4.1.2 Zynq开发平台 |
4.2 声音识别系统设计 |
4.2.2 系统模块 |
4.2.3 工作流程和数据流 |
4.3 声音输入预处理模块 |
4.3.1 声音输入预处理模块实现 |
4.3.2 声音输入预处理模块验证 |
4.4 声音梅尔谱特征提取模块 |
4.4.1 声音梅尔谱特征提取模块实现 |
4.4.2 声音梅尔谱提取模块验证 |
4.5 卷积神经网络识别模块 |
4.5.1 卷积神经网络识别模块实现 |
4.5.2 卷积神经网络识别模块验证 |
4.6 声音识别系统实时运行结果和应用 |
4.6.1 系统平台 |
4.6.2 系统实现资源使用和功耗 |
4.6.3 系统运行结果和应用 |
4.7 本章小结 |
第五章 全文总结及展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
个人简历及攻读硕士期间的研究成果 |
(4)房间轮廓声学重构与室内声学定位关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
§1.1 课题的研究背景与意义 |
§1.2 室内声学定位 |
§1.3 关键技术及挑战 |
§1.3.1 关键技术 |
§1.3.2 挑战 |
§1.4 国内外研究现状与分析 |
§1.4.1 房间轮廓声学重构 |
§1.4.2 室内声源定位 |
§1.4.3 室内声学指纹定位 |
§1.5 本文主要研究内容及文章结构 |
第二章 房间轮廓声学重构与室内声学定位基础理论与方法 |
§2.1 引言 |
§2.2 房间轮廓声学重构的基础理论与基本方法 |
§2.2.1 房间轮廓声学重构的基础理论 |
§2.2.2 房间轮廓声学重构的基本方法 |
§2.3 室内声学定位的基础理论与基本方法 |
§2.3.1 室内声源定位的基础理论 |
§2.3.2 室内声源定位的基本方法 |
§2.3.3 室内声学指纹定位的基础理论 |
§2.3.4 室内声学指纹定位的基本方法 |
§2.4 本章小结 |
第三章 房间轮廓声学重构与室内说话人连续定位 |
§3.1 引言 |
§3.2 系统概述 |
§3.3 房间轮廓声学重构 |
§3.3.1 基于DSB的一阶镜像声源位置估计 |
§3.3.2 基于EDM秩约束的一阶镜像声源位置估计 |
§3.3.3 基于声学镜像模型的房间轮廓估计 |
§3.4 房间空间剖分与说话人连续定位 |
§3.4.1德罗内三角剖分(Delaunay Triangulation) |
§3.4.2 DTSVR自适应搜索体元生成算法 |
§3.5 实验及结果分析 |
§3.5.1 房间轮廓声学重构结果分析 |
§3.5.2 Delaunay剖分结果分析 |
§3.5.3 说话人连续定位结果分析 |
§3.6 本章小结 |
第四章 基于智能手机多传感融合的室内行人连续自定位方法 |
§4.1 引言 |
§4.2 系统概述 |
§4.3 一阶反射声飞行路程估计 |
§4.4 一阶反射声飞行路程测量 |
§4.4.1 相位变换广义互相关 |
§4.4.2 一阶反射声飞行路程 |
§4.5 声学约束算法 |
§4.5.1 声压级约束 |
§4.5.2 声能约束 |
§4.5.3 声学约束算法 |
§4.6 基于最小二乘的室内行人位置估计 |
§4.7 实验结果与分析 |
§4.7.1 行人步长与转向角估算结果 |
§4.7.2 一阶反射声飞行路程测量 |
§4.7.3 行人定位轨迹与误差分析 |
§4.8 本章小结 |
第五章 基于听觉场景分析的室内LBS用户定位 |
§5.1 引言 |
§5.2 系统概述 |
§5.3 声学指纹构建与匹配定位算法 |
§5.3.1 基于听觉场景分析的声谱特征 |
§5.3.2 房间级定位算法 |
§5.3.3 区域级定位算法 |
§5.4 CRP色彩声图 |
§5.5 实验结果与分析 |
§5.5.1 房间级定位结果 |
§5.5.2 区域级定位结果 |
§5.6 本章小结 |
第六章 总结与展望 |
§6.1 全文工作总结 |
§6.2 研究展望 |
参考文献 |
攻读博士期间发表的论文及其它成果 |
致谢 |
(5)融入生理学和行为学特征的言语情感识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景 |
1.2 课题研究意义 |
1.3 国内外研究现状 |
1.3.1 国内外研究历史回顾 |
1.3.2 口语化文本情感研究现状 |
1.3.3 口语语音情感研究现状 |
1.4 言语情感识别面临的问题与挑战 |
1.5 课题研究内容 |
1.6 本文章节结构 |
第2章 言语情感识别概述 |
2.1 情感描述方法 |
2.2 常用情感数据库 |
2.2.1 离散情感数据库 |
2.2.2 维度情感数据库 |
2.3 言语情感识别特征 |
2.3.1 口语化文本特征 |
2.3.2 言语行为特征 |
2.3.3 声学特征 |
2.3.4 听觉生理特征 |
2.4 言语情感识别模型 |
2.4.1 支持向量机SVM |
2.4.2 卷积神经网络CNN |
2.4.3 循环神经网络RNN |
2.5 评价指标 |
2.5.1 分类模型评价 |
2.5.2 回归模型评价 |
2.6 本章小结 |
第3章 结合言语行为特征的口语化文本情感识别 |
3.1 引言 |
3.2 数据处理与用户行为分析 |
3.2.1 数据处理 |
3.2.2 用户行为分析 |
3.3 抑郁情感词典构建 |
3.3.1 言语特征分析 |
3.3.2 情感词典本体 |
3.3.3 情感词典的建立过程 |
3.4 基于多核SVM的识别模型 |
3.5 实验结果与分析 |
3.6 本章小结 |
第4章 基于听觉生理特征的语音情感识别 |
4.1 引言 |
4.2 基于耳蜗滤波的情感识别 |
4.2.1 情感识别框架 |
4.2.2 段级特征提取 |
4.2.3 语句级特征提取 |
4.2.4 实验结果与分析 |
4.3 基于听觉调制的情感识别 |
4.3.1 听觉调制感知模型 |
4.3.2 三维卷积循环神经网络 |
4.3.3 实验设置 |
4.3.4 实验结果与分析 |
4.4 基于听觉生理情感识别方法比较 |
4.5 本章小结 |
第5章 基于听觉注意机制的语音情感识别 |
5.1 引言 |
5.2 联合谱时特征提取 |
5.2.1 听觉前端信号处理 |
5.2.2 谱时表示 |
5.2.3 3D卷积 |
5.3 基于注意力模型的滑动循环网络 |
5.4 实验结果与分析 |
5.5 注意力行为听辨实验 |
5.6 讨论 |
5.7 本章小结 |
第6章 基于调制耳蜗图特征的维度语音情感识别 |
6.1 引言 |
6.2 基线特征 |
6.2.1 声学基线特征 |
6.2.2 听觉基线特征 |
6.3 多分辨率调制耳蜗图特征 |
6.3.1 MMCG特征 |
6.3.2 MMCG分析 |
6.4 时间序列建模 |
6.4.1 Plain LSTM网络架构 |
6.4.2 Parallel LSTM网络结构 |
6.4.3 损失函数与多任务学习 |
6.5 实验结果与分析 |
6.5.1 实验设置 |
6.5.2 基线特征实验结果 |
6.5.3 MRCG和 MMCG的实验结果与分析 |
6.5.4 SEWA数据库上实验结果与分析 |
6.6 讨论 |
6.7 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(6)基于图像边缘保持滤波技术的语音增强算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 语音增强的研究背景与意义 |
1.2 单通道语音增强的发展历史和研究概况 |
1.2.1 语音增强与语谱图 |
1.2.2 语音增强的分类 |
1.2.3 单通道语音增强的国内外研究现状 |
1.3 本文的研究动机与目的 |
1.4 论文主要工作与结构安排 |
第二章 单通道语音增强技术基础 |
2.1 语音及噪声信号的声学基础特性 |
2.1.1 语音特性 |
2.1.2 噪声特性 |
2.1.3 人耳感知特性 |
2.2 传统语音增强方法介绍 |
2.2.1 谱减法 |
2.2.2 维纳滤波法 |
2.2.3 最小均方误差估计法 |
2.2.4 子空间语音增强算法 |
2.3 噪声估计方法 |
2.3.1 基于平稳环境下的噪声估计 |
2.3.2 基于非平稳环境下的噪声估计 |
2.4 本章小结 |
第三章 基于双边语谱图滤波的OMLSA语音增强算法 |
3.1 引言 |
3.2 改进的OMLSA语音增强算法 |
3.2.1 系统介绍 |
3.2.2 MMSE-LSA算法谱增益 |
3.2.3 改进的OMLSA算法 |
3.3 双边语谱图滤波 |
3.3.1 语谱图预处理 |
3.3.2 双边语谱图滤波 |
3.4 性能评估 |
3.4.1 客观测评 |
3.4.2 时域波形和语谱图 |
3.5 本章小结 |
第四章 基于听觉掩蔽效应的引导语谱图滤波语音增强算法 |
4.1 引言 |
4.2 引导图像滤波 |
4.2.1 局部线性模型 |
4.2.2 引导滤波原理简介 |
4.3 GSF输入获取及语谱图像化处理 |
4.4 基于听觉掩蔽效应的引导语谱图滤波语音增强 |
4.4.1 引导语谱图滤波算法 |
4.4.2 语谱图的增强 |
4.4.3 时域信号的恢复 |
4.5 算法性能评估 |
4.5.1 实验条件 |
4.5.2 参数选取分析 |
4.5.3 客观评价结果及性能分析 |
4.6 本章小结 |
第五章 基于语谱图降噪卷积神经网络的语音增强方法 |
5.1 引言 |
5.2 SDNCNN数学模型 |
5.2.1 SDn CNN模型相关模块原理 |
5.2.2 SDn CNN模型的特征获取 |
5.3 基于SDNCNN模型的语音增强算法 |
5.3.1 系统介绍 |
5.3.2 SDn CNN网络模型 |
5.4 实验和结果分析 |
5.4.1 实验准备 |
5.4.2 模型条件设置 |
5.4.3 实验分析和性能评估 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 工作展望 |
参考文献 |
攻读硕士学位期间个人学术成果 |
致谢 |
(7)Φ-OTDR光纤传感系统中振动信号的模式识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 Φ-OTDR概述 |
1.3 Φ-OTDR相关技术国内外研究现状 |
1.4 选题背景及意义 |
1.5 本论文主要内容 |
第二章 Φ-OTDR系统的基本原理 |
2.1 Φ-OTDR系统的传感原理 |
2.2 Φ-OTDR系统的调制和解调原理 |
2.2.1 调制原理 |
2.2.2 解调原理 |
2.3 本章小结 |
第三章 Φ-OTDR系统的信号预处理 |
3.1 一维信号预处理 |
3.1.1 小波包分解原理 |
3.1.2 去除振动信号趋势项 |
3.1.3 降噪 |
3.1.4 提取振动信号有效片段 |
3.2 时空二维图像预处理 |
3.2.1 获取短时方差图像 |
3.2.2 提取特征区域 |
3.3 本章小结 |
第四章 特征提取与模式识别 |
4.1 特征提取 |
4.1.1 时域特征 |
4.1.2 时频域特征 |
4.1.3 奇异值和奇异谱特征 |
4.1.4 形态学特征 |
4.2 特征选择 |
4.2.1 遗传算法 |
4.2.2 两级特征选择算法 |
4.3 基于SVM分类器的模式识别算法 |
4.3.1 SVM基本原理 |
4.3.2 多分类SVM |
4.3.3 振动信号模式识别算法流程 |
4.4 本章小结 |
第五章 实验及结果分析 |
5.1 实验设置 |
5.2 实验结果 |
5.3 实验结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
(8)基于深度学习的多模态情感识别算法研究(论文提纲范文)
摘要 |
Abstract |
缩略词表 |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 语音情感识别的研究历史与现状 |
1.3 人脸表情识别的研究历史与现状 |
1.3.1 人脸检测 |
1.3.2 人脸情感特征 |
1.3.3 人脸表情识别算法 |
1.4 多模态情感识别的研究历史与现状 |
1.5 本文的主要研究内容以及章节结构 |
第二章 语音情感特征与语音情感识别算法 |
2.1 语音情感识别语料库 |
2.1.1 CASIA数据集 |
2.1.2 eNTERFACE’05 数据集 |
2.1.3 IEMOCAP数据集 |
2.2 语音预处理和特征提取与分析 |
2.2.1 语音预处理 |
2.2.2 韵律特征 |
2.2.3 谱相关特征 |
2.2.4 音质特征 |
2.3 语音情感识别算法 |
2.3.1 K近邻算法 |
2.3.2 随机森林算法 |
2.3.3 支持向量机 |
2.3.4 长短时记忆神经网络 |
2.3.5 卷积神经网络 |
2.4 基于门控残差机制的时域卷积和LSTM-Attention的算法 |
2.4.1 门控机制的卷积神经网络 |
2.4.2 门控残差机制的时域特征提取模块 |
2.4.3 基于门控残差机制的时域卷积和LSTM-Attention的算法框架 |
2.5 实验设置及分析 |
2.5.1 数据集划分与数据预处理 |
2.5.2 实验设置 |
2.5.3 实验结果分析 |
2.6 本章小结 |
第三章 基于卷积神经网络的人脸表情识别算法 |
3.1 人脸表情识别数据库 |
3.2 静态表情识别CNN模型 |
3.2.1 VGGNet |
3.2.2 MobileNet |
3.3 视频序列表情识别模型 |
3.4 实验设置及分析 |
3.4.1 数据集划分与数据预处理 |
3.4.2 实验设置 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
第四章 基于关键帧提取和深度学习融合方法的多模态情感识别 |
4.1 特征融合 |
4.2 基于关键帧提取和NetVLAD的帧级特征融合 |
4.2.1 NetVLAD |
4.2.2 关键帧的提取与帧级特征融合 |
4.3 决策融合 |
4.3.1 加权求和规则 |
4.3.2 乘积规则 |
4.4 实验设置与分析 |
4.4.1 数据集划分与数据预处理 |
4.4.2 实验设置 |
4.4.3 实验结果与分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间发表的论文 |
(9)理解数字声音——基于一般音频/环境声的计算机听觉综述(论文提纲范文)
1 声音概述 |
2 计算机听觉简介 |
3 计算机听觉通用技术框架及典型算法 |
3.1 音频事件检测 |
3.2 音频场景识别 |
4 各领域基于一般音频/环境声的计算机听觉算法概述 |
4.1 医疗卫生 |
4.1.1 呼吸系统疾病 |
4.1.2 心脏系统疾病 |
4.1.3 其他相关医疗 |
4.2 安全保护 |
4.3 交通运输、仓储 |
4.3.1 铁路运输业 |
4.3.2 道路运输业 |
4.3.2. 1 车型及车距识别 |
4.3.2. 2 交通事故识别 |
4.3.2. 3 交通流量检测 |
4.3.2. 4 道路质量检测 |
4.3.3 水上运输业 |
4.3.4 航空运输业 |
4.3.4. 1 航空飞行器识别 |
4.3.4. 2 航空飞行数据分析 |
4.3.5 管道运输业 |
4.3.6 仓储业 |
4.4 制造业 |
4.4.1 铁路、船舶、航空航天和其他运输设备制造业 |
4.4.2 通用设备制造业 |
4.4.2. 1 发动机 |
4.4.2. 2 金属加工机械制造 |
4.4.2. 3 轴承、齿轮和传动部件制造 |
4.4.2. 4 包装专用设备制造 |
4.4.3 电气机械和器材制造业 |
4.4.4 纺织业 |
4.4.5 黑色及有色金属冶炼和压延加工业 |
4.4.6 非金属矿物制品业 |
4.4.7 汽车制造业 |
4.4.8 农副食品加工业 |
4.4.9 机器人制造 |
4.5 农、林、牧、渔业 |
4.5.1 农业 |
4.5.2 林业 |
4.5.3 畜牧业 |
4.6 水利、环境和公共设施管理业 |
4.6.1 水利管理业 |
4.6.2 生态保护和环境治理业 |
4.7 建筑业 |
4.7.1 土木工程建筑业 |
4.7.2 房屋建筑业 |
4.8 采矿业、日常生活、身份识别、军事等 |
4.8.1 采矿业 |
4.8.2 日常生活 |
4.8.3 身份识别 |
4.8.4 军事 |
4.8.4. 1 目标识别 |
4.8.4. 2 其他应用 |
5 总结与展望 |
(10)社交媒体中语音维度情感识别方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 语音情感描述模型研究现状 |
1.2.2 特征提取研究现状 |
1.2.3 识别方法研究现状 |
1.3 语音情感识别存在的问题 |
1.4 本文主要研究内容 |
第2章 基于特征融合的语音维度情感识别 |
2.1 PAD三维情感模型特点 |
2.2 语音情感特征提取 |
2.2.1 梅尔频率倒谱系数存在的问题 |
2.2.2 基于语谱图的语音情感特征分析 |
2.2.3 多特征提取 |
2.3 基于特征融合的语音维度情感识别 |
2.3.1 多特征与PAD维度相关性分析 |
2.3.2 多特征加权融合 |
2.4 实验结果与分析 |
2.4.1 实验数据集 |
2.4.2 参数选择 |
2.4.3 实验结果及比较 |
2.5 本章小结 |
第3章 基于层级上下文与注意力BLSTM的语音维度情感识别 |
3.1 基于上下文语音维度情感识别方法存在的问题 |
3.2 注意力BLSTM网络模型研究 |
3.2.1 语音维度情感识别中注意力权值的计算 |
3.2.2 基础循环神经网络的局限 |
3.2.3 结合过去与未来信息的双向循环神经网络 |
3.2.4 组件加强的长短时记忆网络 |
3.2.5 双向长短时记忆网络分析 |
3.3 基于层级上下文与注意力BLSTM的语音维度情感识别 |
3.3.1 子集层特征选择 |
3.3.2 特征层上下文学习 |
3.3.3 标签层上下文学习 |
3.4 实验结果与分析 |
3.4.1 实验数据集 |
3.4.2 参数选择 |
3.4.3 实验结果及比较 |
3.5 本章小结 |
第4章 社交媒体中的语音维度情感PAD预测模型 |
4.1 UcanUB-Voice语音情感数据库的建立 |
4.1.1 初期语音情感数据库的建立 |
4.1.2 语音综合模糊评价模型的建立 |
4.2 PAD三维情感空间中的量化标注 |
4.2.1 PAD情感量表与自我评定模型关键点分析 |
4.2.2 改进并简化PAD情感量表 |
4.2.3 UcanUB-Voice语音情感量化标注及有效性验证 |
4.3 社交媒体中的语音维度情感PAD预测方法流程分析 |
4.4 实验结果与分析 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 本文总结 |
5.2 研究展望 |
致谢 |
参考文献 |
攻读学位期间获得与学位论文相关的科研成果目录 |
四、基于模糊逻辑二元谱特征的语音检测算法(论文参考文献)
- [1]基于模糊逻辑二元谱特征的语音检测算法[J]. 吴启晖,莫永成. 移动通信, 2003(S2)
- [2]语音伪造及检测技术研究综述[J]. 任延珍,刘晨雨,刘武洋,王丽娜. 信号处理, 2021
- [3]声音特征提取和识别算法研究及FPGA实现[D]. 柴进. 电子科技大学, 2021(01)
- [4]房间轮廓声学重构与室内声学定位关键技术研究[D]. 宋浠瑜. 桂林电子科技大学, 2020
- [5]融入生理学和行为学特征的言语情感识别研究[D]. 彭智朝. 天津大学, 2020(01)
- [6]基于图像边缘保持滤波技术的语音增强算法研究[D]. 颜霖煌. 广州大学, 2020(02)
- [7]Φ-OTDR光纤传感系统中振动信号的模式识别研究[D]. 刁敏敏. 南京大学, 2020(02)
- [8]基于深度学习的多模态情感识别算法研究[D]. 傅杰. 东南大学, 2020(01)
- [9]理解数字声音——基于一般音频/环境声的计算机听觉综述[J]. 李伟,李硕. 复旦学报(自然科学版), 2019(03)
- [10]社交媒体中语音维度情感识别方法研究[D]. 陈逸灵. 武汉理工大学, 2019(07)