PESQ


   



   PESQ(Perceptual evaluation of speech quality)
ITU-T P.862建议书提供的客观MOS值评价方法


原理[编辑本段]如图PESQ的结构。开始时两个信号都通过电平调整,再用输入滤波器模拟标准电话听筒进行滤波(FFT)。这两个信号要在时间上对准,并通过听觉变换。这个变换包括对系统中线性滤波和增益变化的补偿和均衡。提取出两个失真参数,在频率和时间上总和起来,映射到对主观平均意见分的预测。

计算PESQ的得分[编辑本段]为了训练PESQ,要在三个平均阶段通过使用很多的p值计算很大数量的不同的对称和非对称的参数。先使用参数的线性组合来预测主观MOS分,进一步对每次主观测试进行回归分析说明、解决不同的题目的前后关系和选择的偏好,如第3部分中所讨论的;这一步还用到了线性映射。对所有的候选参数集都进行了选择。这样找到了最优的组合,能给出最好的平均相关系数。这样可以在几百个候选参数中找到最好的。
举例来说,PESQ中用到部分补偿,在增益调制的均衡中,就要避免使用大量的参数来预测质量。只用到两个参数的组合— 一个对称干扰(dSYM)和一个非对称干扰(dASYM),在预测精度和概括能力上有很好的平衡。然而,由于低维数的模型依靠早先的阶段组合出复杂的感知作用,要求有几个迭代设计。听觉变换中的系数和干扰处理经过优化,找到了最优的参数,然后重复处理过程。下面给出PESQ中映射的分:
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
对于正规的主观测试,得分在1.0和4.5之间。在失真情况严重时,得分可能会低于1.0,但这种情况很少见。

范围和应用[编辑本段]ITU-T相关的资料已证明PESQ是能够给出精确的预测值的,包括以下编解码和误码失真,波形编码(如G.711,G.726),CELP/高于4kbit/s的混合编解码(如G.728),移动编解码/系统(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA);各种编解码的代码转换,随机的、突发的、包丢失误差。PESQ能够用于编解码或系统评估、选择和优化。
这样PESQ可以广泛的用于现场和模拟网络中端到端测量。背景(环境)噪声和噪声处理,可以通过用PESQ比较干净的、未处理的信号和编码的、经噪声干扰失真的信号评估得到。
用静默来取代语音,也是一种失真,给所有的感知模型在预测MOS分时带来困难。一般前端和后端的50ms的削波(话音激活检测)不会给主观印象带来很大的影响。然而,在话音期间削波,比如包丢失后用静默代替,将严重影响主观感受---每50ms的丢失,MOS分下降一分。PESQ的情况在这两种之间,每50ms的削波通常引起0.5分左右的下降,而不管处于什么位置。对于前端暂时的削波,特别是未察觉的丢失了单词时,PESQ是很敏感的。相反的,PESQ对经常的、短时的削波不很敏感(短时间内语音被静默取代)。在这两种情况下,PESQ与主观MOS分之间的相关性会减弱。
作为一个有固定假设听觉级的只听模型,PESQ一般不应用来评估收听级、侧音/说话人回音,或对话延迟的影响,而且,它也不是供非入侵性测度使用的。其他一些应用的特性还没有得到证明,或者需要部分改变模型。包括:音乐音质;宽带话音;所谓“媒体音频质量”;接受端回声;低于4kbit/s的低比特率编解码器;声学的和电话机参考当量测试。


   

自定义分类:
通信
 
贡献者:
飞一般的人
Copyright © 1999-2024 C114 All Rights Reserved | 联系我们 | 沪ICP备12002291号-4