一、一种噪声环境下的实时语音端点检测算法(论文文献综述)
马小平,李博华,蔡蔓利,韩正化,陈泽彭[1](2021)在《基于谱熵梅尔积和改进VMD的轴承故障预警》文中研究表明针对传统轴承故障预警实时性较差、故障特征提取准确性影响预警效果的问题,将语音端点识别思想进行迁移,采用谱熵梅尔积特征的双门限法实时追踪故障起始点.为克服变分模态分解(variational mode decomposition, VMD)参数选取不当和端点效应对提取效果造成的影响,提出能量差网格搜索法对VMD进行参数寻优,并用支持向量回归机对端点效应进行抑制,结合多尺度加权排列熵在检测振动信号随机性方面的优势,充分发挥VMD对信号的重构能力,对起始点后的故障段进行特征捕捉.通过实际轴承故障信号的实验及数据分析,验证了该方法在轴承故障预警中的有效性.
蒋学仕[2](2021)在《基于噪声估计的改进能量熵语音端点检测算法》文中提出针对传统能量熵的短时能量与子带谱熵容易受噪声环境影响,低信噪比下端点检测性能下降的问题,提出一种基于噪声估计的改进能量熵语音端点检测算法。首先对语音进行噪声估计并以此计算语音存在概率;然后利用估计的噪声能量修正短时能量,用语音存在概率作为加权系数优化子带谱熵,并将两者结合生成改进的能量熵;最后给出基于噪声估计的动态门限以及实时的端点检测策略。实验结果表明,在信噪比5 dB、0 dB的多种噪声环境中,基于噪声估计的改进能量熵端点检测算法相比传统能量熵算法与改进子带能谱比算法,检测正确率平均提升7%。
聂勤,周妙琪,李军成[3](2021)在《声源定位中双门限语音端点检测算法的改进》文中研究指明语音端点检测是声源定位中一个非常重要的环节。在高信噪比环境下,双门限法语音端点检测具有很好的效果,但在低信噪比环境下双门限语音端点检测性能迅速降低,端点检测无法达到预期效果。为此,将传统的双门限法中的短时能量和短时平均过零率分别替换成短时Teager能量和频谱质心特征,提出了一种改进的双门限语音端点检测算法。该法首先对分帧加窗后的每一帧带噪语音进行经验模态分解求其短时Teager能量,然后对语音信号进行短时傅里叶变换求其每一帧语音的频谱质心,最后对特征曲线进行中值滤波平滑处理后再选取合适的门限值。仿真实验表明,所提出的改进算法在低信噪比环境下比传统的双门限法具有更好的端点检测效果。
罗思洋,龙华,邵玉斌,杜庆治[4](2021)在《噪声环境下多特征融合的语音端点检测方法》文中认为针对传统语音端点检测方法在噪声环境下鲁棒性较差以及对语音段检测效果不佳的问题,提出一种多特征融合的语音端点检测方法.首先,提取带噪语音信号的子带谱熵特征和基于Mel频率倒谱系数(Mel Frequency Cepstral Coefficient, MFCC)的投影特征,并将Gammatone频率倒谱系数的第一维系数GFCC0特征应用到语音端点检测任务中;然后,对3类特征进行自适应加权融合,得到适用于端点检测的融合特征;最后,采用模糊C均值聚类自适应估计门限阈值,再通过双门限法得到端点检测的结果.所提方法和已有传统方法相比,在7种噪声环境下均取得了更好的端点检测结果,提升了语音端点检测的准确率,特别是在volvo噪声环境下的端点检测准确率可以达到94.5%以上.
熊梓奥[5](2021)在《育肥猪舍中的咳嗽声监测系统设计》文中研究表明
张楠楠[6](2021)在《声场合成中的多通道回声消除技术研究》文中提出
陈爱华,张石清[7](2021)在《基于深度神经网络和多特征融合的语音端点检测》文中提出针对当前单一的语音端点检测算法检测率低、鲁棒性较差的问题,提出一种基于深度神经网络和多特征融合的语音端点检测算法。该算法首先分别采用Gammatone滤波、Gabor滤波和LTSV滤波算法提取音频文件的耳蜗特征、短时特征以及长时变化特征;接着对三种特征做均一化处理,并在融合后将其作为深度神经网络的输入信号;然后采用事先训练好的深度神经网络模型,计算语音片段中属于语音/非语音的概率,进而确定语音片段的属性;最后采用中值滤波去掉误检测点,完成语音端点检测。为了验证算法的有效性,选取多个环境下采集的语音信号进行仿真实验。实验结果表明,该算法可以在噪声强度较高的环境下实现语音端点检测,并具有较好的准确性和鲁棒性。
罗思洋[8](2021)在《噪声环境下的语音端点检测方法研究》文中指出语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone Frequency Cepstral Coefficient,GFCC)的第一维系数GFCC0引入到语音端点检测任务中,结合多窗谱减法实现语音信号的端点检测。在babble和volvo等四种噪声环境下使用GFCC0特征法可以取得比谱熵法和对数频谱距离法更高的检测准确率,结合多窗谱减法虽然会增加检测时长,但可以进一步提升GFCC0特征法在低信噪比babble噪声和volvo噪声环境下的检测准确率。二、针对基于多特征融合的语音端点检测方法在复杂噪声环境下端点检测性能不足的问题,本文提出一种结合Gammatone频率倒谱系数与Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的融合特征,通过将语音信号的GFCC0与MFCC0特征相乘构造第一类融合特征。第一类融合特征可以实现对语音段的有效追踪,但在部分噪声环境下对语音段中清音的追踪能力略有不足。三、针对第一类融合特征对清音段追踪能力不足的问题,本文提出了一种自适应加权融合方法,利用清音追踪能力较强的投影特征和浊音追踪能力较强的子带谱熵特征分别提升GFCC0特征对清、浊音的追踪能力,构造兼顾语音段中清、浊音追踪能力的第二类融合特征。四、针对固定阈值的端点识别方法影响端点检测性能的问题,本文在提取两类融合特征的基础上,利用自适应估计的双门限法作为端点识别方法,分别基于两类融合特征实现带噪语音信号的端点检测。在pink和volvo等七种噪声环境下的实验结果表明,第一类融合特征可以在其中五种噪声环境下有效提升端点检测的准确率,而第二类融合特征在七种噪声环境下均取得了比对比算法更好的检测结果,特别是在volvo噪声环境下的检测准确率可以达到94.5%以上。
许天娇[9](2020)在《基于深度学习的语音端点检测》文中认为语音是人与人、人与机器之间交互最自然的媒介,噪声的干扰不仅会降低语音交互的质量,还会严重影响如语音识别和说话人识别等系统的性能。语音端点检测是让机器在嘈杂的环境中检测语音在某一时刻是否出现的技术,是很多语音信号系统的预处理步骤,具有十分重要的意义。本文介绍了现有端点检测方法的基本原理,对基于深度学习的方法进行了分析和实验,针对其中的问题提出了三个方面的改进:1.提出了基于深度卷积长短时记忆网络的两阶段训练方法。深度卷积长短时记忆网络是端点检测最新的深度学习模型,本文分析其结构特点,将训练过程分为非时序和时序两个阶段,提高了数据的利用率。2.提出了一种以语音增强的自编码为辅助特征的端点检测联合算法。通过分析语音端点检测和语音增强三类联合算法的交互特点,提出一种自编码辅助特征的联合模型,扩展了联合形式,提高了端点检测的性能,并实现了超参数权重的自动调整。3.提出了基于似然比检验的语音端点检测方法的改进算法。对似然比检验算法的基本原理进行了研究,针对参数估计不准和阈值需要人为设定这两个缺陷,设计了融合统计信号处理和深度学习的算法,利用时频掩蔽估计参数,然后利用全局平均池化计算阈值。与传统信号处理的基线方法对比显示,本方法的两个部分能分别提升基线系统的性能;与端到端的深度学习方法对比,在模型规模相当的情况下,该方法具有明显优势。
陈松[10](2019)在《基于VQ的室内说话人识别及FPGA实现研究》文中研究表明语音控制作为一种自然、高效的控制方式,随着智能家居的发展而受到的重视程度越来越高。在智能家居的应用中,说话人识别是关键的技术难题,直接影响人身和财物的安全性。目前,说话人识别系统的研究大多是基于电脑平台实现的,时效性较低,在实际应用中受到限制。本文利用FPGA高性能和低功耗的特点,研究了室内说话人识别算法和说话人识别的硬件实现。室内说话人识别由语音端点检测和矢量量化识别这两部分组成。语音端点检测是系统实现的基础,采用能量统计复杂度算法来实现,针对该算法不适合直接应用于硬件这个问题,在语音信号FFT变换后,本文只根据前半帧数据的谱线能量与其对数值即可计算出一帧数据的信息熵,省略了概率密度的计算过程,然后根据信息熵算出统计复杂度值,最后结合语音能量获得能量统计复杂度值。改进后的能量统计复杂度算法能够一帧一帧地对语音信号进行流水线操作,计算量减少,数据处理效率得到提高,更适合应用在硬件平台上。矢量量化识别的硬件实现过程由特征参数提取、欧氏距离计算、最小失真计算构成。特征参数选择24维梅尔频率倒谱系数,Mel滤波和离散余弦变换均通过查表法参与运算。计算每帧的特征参数与码本中各个码矢的欧氏距离平方误差值,通过时序控制将原本所需要的24个平方运算模块缩减到6个,节约了硬件资源。从每帧的欧氏距离平方误差中选出最小值,与上一帧的最小误差值叠加,在语音结束时用叠加的最小误差值除以有效帧数,获得语音的最小失真,将最小失真与预先设置的阈值比较,最终实现说话人识别。本文以ALTERA公司的EP4CE55F23C8芯片为核心,采用流水线技术在硬件平台上实现说话人识别,实验结果表明:系统的语音端点检测在高信噪比与低信噪比的环境中均有较好的检测效果,测出的有效语音帧数准确,系统响应时间96ms;在实验室环境中,对文本相关的指定说话人识别时,其正确识别率可达到94%;与只设置说话人识别的上限阈值相比,同时设置上限阈值和下限阈值后,可有效降低指定人对自己其他语音的误识率。系统具有效率高、响应快、适用性强的优点,在智能家居领域具有良好的应用前景。图[56]表[9]参[63]
二、一种噪声环境下的实时语音端点检测算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种噪声环境下的实时语音端点检测算法(论文提纲范文)
(1)基于谱熵梅尔积和改进VMD的轴承故障预警(论文提纲范文)
1 基于MFPH的故障起始点检测 |
1.1 MFPH原理 |
1.2 双门限MFPH故障起始点检测 |
2 VMD的原理与改进 |
2.1 VMD原理 |
2.2 VMD改进 |
2.3 改进效果分析 |
3 多尺度加权排列熵原理 |
3.1 加权排列熵 |
3.2 尺度加权排列熵 |
3.3 基于MFPH和改进VMD故障预警 |
4 实验分析 |
4.1 MFPH故障点检测 |
4.2 VMD参数选择 |
4.3 改进VMD和MWPE的特征提取 |
4.4 故障预警效果分析 |
5 结 论 |
(2)基于噪声估计的改进能量熵语音端点检测算法(论文提纲范文)
0 引 言 |
1 传统能量熵端点检测算法 |
1.1 短时能量 |
1.2 子带谱熵 |
2 改进能量熵算法 |
2.1 噪声对短时能量与子带谱熵的影响 |
2.2 噪声估计修正的短时能量 |
2.2.1 噪声能量初估计 |
2.2.2 根据门限判决更新噪声能量 |
2.2.3 修正短时能量 |
2.3 语音存在概率加权的子带谱熵 |
2.3.1 求解先验信噪比 |
2.3.2 求解语音存在概率 |
2.3.3 语音存在概率加权的子带谱熵 |
2.4 改进的能量熵 |
2.5 自适应动态门限 |
3 实时的端点检测策略与算法复杂度分析 |
3.1 实时的端点检测策略 |
3.2 算法复杂度分析 |
4 性能仿真与分析 |
4.1 特征值区分度比较 |
4.2 动态门限鲁棒性 |
4.3 检测准确度对比 |
5 结束语 |
(3)声源定位中双门限语音端点检测算法的改进(论文提纲范文)
0 引言 |
1 传统的双门限语音端点检测算法简介 |
1.1 短时能量和短时平均过零率特征 |
1.2 传统双门限检测法的基本原理 |
2 改进的双门限语音端点检测算法 |
2.1 短时Teager能量 |
2.2 频谱质心特征 |
2.3 中值滤波平滑处理 |
2.4 改进双门限语音端点检测算法的基本原理 |
3 仿真实验结果与分析 |
4 结语 |
(7)基于深度神经网络和多特征融合的语音端点检测(论文提纲范文)
0 引言 |
1 语音信号特征提取 |
1.1 Gammatone滤波 |
1.2 Gabor滤波 |
1.3 LTSV滤波 |
2 基于深度神经网络和多特征融合的算法框架 |
2.1 深度神经网络 |
2.2 算法整体框架 |
3 仿真结果及分析 |
3.1 理想环境下的语音端点检测 |
3.2 噪声环境下的语音端点检测 |
4 结语 |
(8)噪声环境下的语音端点检测方法研究(论文提纲范文)
摘要 |
Abstract |
主要符号对照表 |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究进展 |
1.3 本文主要研究内容及创新点 |
1.3.1 主要研究内容 |
1.3.2 创新点 |
1.4 论文结构安排 |
第二章 语音端点检测关键技术分析 |
2.1 语音端点检测的基本框架 |
2.2 带噪语音信号 |
2.3 语音信号的预处理 |
2.3.1 预加重 |
2.3.2 分帧 |
2.3.3 加窗 |
2.4 传统语音端点检测特征 |
2.4.1 时域特征 |
2.4.2 频域特征 |
2.5 常用语音端点识别方法 |
2.5.1 阈值判决法 |
2.5.2 模式匹配法 |
2.6 语音端点检测的评价指标 |
第三章 基于特征的语音端点检测常用方法 |
3.1 基于对数谱距离的语音端点检测方法 |
3.1.1 算法原理 |
3.1.2 算法实现与分析 |
3.2 基于谱熵的语音端点检测方法 |
3.2.1 算法原理 |
3.2.2 算法实现与分析 |
3.3 基于能零比的语音端点检测方法 |
3.3.1 算法原理 |
3.3.2 算法实现与分析 |
3.4 基于能熵比的语音端点检测方法 |
3.4.1 算法原理 |
3.4.2 算法实现与分析 |
3.5 本章小结 |
第四章 基于单特征的语音端点检测方法研究 |
4.1 引言 |
4.2 特征提取 |
4.2.1 GFCC特征提取 |
4.2.2 特征预处理 |
4.3 多窗谱减法 |
4.4 实验设计与分析 |
4.4.1 实验设计 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第五章 基于多特征融合的语音端点检测方法研究 |
5.1 引言 |
5.2 联合MFCC和 GFCC的融合特征 |
5.2.1 特征融合目标分析 |
5.2.2 MFCC特征提取 |
5.2.3 MFCC_0和GFCC_0特征融合方法 |
5.3 兼顾清浊音段追踪的融合特征 |
5.3.1 特征融合目标分析 |
5.3.2 特征提取 |
5.3.3 多特征融合方法 |
5.4 自适应门限估计方法 |
5.5 实验设计与分析 |
5.5.1 实验设计 |
5.5.2 基于PMGFCC特征的检测结果 |
5.5.3 基于FBPG特征的检测结果 |
5.5.4 实验结果分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
附录 A 攻读硕士期间发表的论文及其他成果 |
(9)基于深度学习的语音端点检测(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 研究背景及意义 |
1.2 语音端点检测概述 |
1.2.1 基于声学特征的语音端点检测方法 |
1.2.2 无监督的语音端点检测方法 |
1.2.3 有监督的语音端点检测方法 |
1.3 论文的主要内容 |
第二章 基于深度学习的语音端点检测算法 |
2.1 深度学习语音端点检测系统原理 |
2.1.1 深度学习语音端点检测系统框架 |
2.1.2 训练数据 |
2.1.3 训练目标 |
2.1.4 常见的模型 |
2.1.5 性能评估 |
2.2 改进深度卷积长短时记忆网络的语音端点检测算法 |
2.2.1 基于深度卷积长短时记忆网络的语音端点检测算法 |
2.2.2 改进深度卷积长短时记忆网络的语音端点检测算法 |
2.3实验 |
2.3.1 实验数据与训练目标生成 |
2.3.2 特征提取 |
2.3.3 模型参数 |
2.3.4 实验结果及分析 |
2.4 本章小结 |
第三章 语音端点检测和语音增强联合算法 |
3.1 多任务联合学习概述 |
3.1.1 顺序联合算法 |
3.1.2 共享底层特征的多目标联合算法 |
3.1.3 自编码辅助特征的联合算法 |
3.2 改进自编码辅助特征的联合算法 |
3.2.1 基于卷积循环网络的语音增强算法 |
3.2.2 改进自编码辅助特征的联合算法 |
3.3实验 |
3.3.1 实验数据与训练目标生成 |
3.3.2 模型参数 |
3.3.3 实验结果及分析 |
3.4 本章小结 |
第四章 基于似然比检验的语音端点检测方法 |
4.1 基于似然比检验的语音端点检测算法 |
4.2 改进似然比检验的语音端点检测算法 |
4.3实验 |
4.3.1 实验数据与训练目标生成 |
4.3.2 模型参数 |
4.3.3 实验结果及分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 全文工作总结 |
5.2 后续工作展望 |
参考文献 |
致谢 |
攻读硕士期间发表的学术论文 |
(10)基于VQ的室内说话人识别及FPGA实现研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究意义 |
1.2 国内外发展状况 |
1.3 关键技术研究 |
1.3.1 特征参数提取 |
1.3.2 训练与识别算法 |
1.4 存在的问题 |
1.5 本文主要研究内容 |
2 说话人识别基础框架设计 |
2.1 说话人识别的框架设计 |
2.2 语音信号预处理 |
2.2.1 语音信号预加重 |
2.2.2 语音分帧 |
2.2.3 语音加窗 |
2.2.4 语音的短时能量 |
2.3 语音端点检测算法 |
2.4 说话人识别算法 |
2.5 研究平台和工具 |
2.6 基于FPGA的语音控制电路 |
2.7 室内环境信噪比分析 |
2.8 本章小结 |
3 基于ESC算法的语音端点检测 |
3.1 能量统计复杂度算法 |
3.2 ESC算法的改进 |
3.2.1 FFT性质 |
3.2.2 信息熵计算的改进 |
3.2.3 广延量计算的改进 |
3.2.4 改进的ESC算法 |
3.3 单参数双门限端点检测 |
3.4 本章小结 |
4 基于VQ的说话人识别研究 |
4.1 MFCC参数 |
4.1.1 Mel滤波能量 |
4.1.2 离散余弦变换 |
4.1.3 MFCC特征参数提取 |
4.2 VQ算法在语音中的研究应用 |
4.2.1 矢量量化原理 |
4.2.2 语音矢量量化 |
4.2.3 失真测度 |
4.2.4 矢量量化器和LGB算法 |
4.3 室内说话人识别设计 |
4.3.1 码本确定 |
4.3.2 判决依据 |
4.4 本章小结 |
5 基于FPGA的说话人识别实现 |
5.1 语音端点检测的实现 |
5.1.1 FFT变换 |
5.1.2 数据运算的实现 |
5.1.3 改进ESC算法的实现 |
5.1.4 端点检测的实现 |
5.1.5 基于FPGA的 VAD仿真 |
5.2 MFCC模块实现 |
5.2.1 Mel滤波的实现 |
5.2.2 DCT的实现 |
5.2.3 MFCC参数的实现 |
5.3 码本设计的实现 |
5.4 VQ识别模块的实现 |
5.4.1 欧氏距离的实现 |
5.4.2 最小失真计算的实现 |
5.5 系统仿真结果 |
5.6 系统的实验分析 |
5.7 本章总结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
四、一种噪声环境下的实时语音端点检测算法(论文参考文献)
- [1]基于谱熵梅尔积和改进VMD的轴承故障预警[J]. 马小平,李博华,蔡蔓利,韩正化,陈泽彭. 北京理工大学学报, 2021
- [2]基于噪声估计的改进能量熵语音端点检测算法[J]. 蒋学仕. 电讯技术, 2021(08)
- [3]声源定位中双门限语音端点检测算法的改进[J]. 聂勤,周妙琪,李军成. 电子测试, 2021(15)
- [4]噪声环境下多特征融合的语音端点检测方法[J]. 罗思洋,龙华,邵玉斌,杜庆治. 云南大学学报(自然科学版), 2021(04)
- [5]育肥猪舍中的咳嗽声监测系统设计[D]. 熊梓奥. 哈尔滨工程大学, 2021
- [6]声场合成中的多通道回声消除技术研究[D]. 张楠楠. 重庆邮电大学, 2021
- [7]基于深度神经网络和多特征融合的语音端点检测[J]. 陈爱华,张石清. 台州学院学报, 2021(03)
- [8]噪声环境下的语音端点检测方法研究[D]. 罗思洋. 昆明理工大学, 2021(01)
- [9]基于深度学习的语音端点检测[D]. 许天娇. 内蒙古大学, 2020(01)
- [10]基于VQ的室内说话人识别及FPGA实现研究[D]. 陈松. 安徽理工大学, 2019(01)