视觉信号保真度

视觉信号保真度（VIF）是一种评估影像品质的方法，为基于自然场景统计和由人类视觉系统（英语：Human_visual_system_model）提取影像信号的概念的图像质量评估参数。它由Hamid R Sheikh和Alan Bovik于2006年在德克萨斯大学奥斯汀分校图像和视频工程实验室（LIVE）开发，结果显示它与人类对影像质量的判断非常相近。VIF部署在Netflix VMAF的视频质量监控系统中，该系统控制Netflix传输的所有编码视频的影像质量。这占美国所有带宽消耗的35％，并且在全球视频流量中也不断增加。

概述

三维视觉环境的图像和视频都来自于自然场景（natural scene）。自然场景在所有可能的信号空间形成一个微小的子空间，科学家发明了复杂的模型来描述这些统计数据。但是大多数真实世界都会造成这些统计数据的失真，并使图像或视频信号不自然。VIF假设测试和参考图像之间的共享讯息与视觉品质高度相关，并采用自然场景统计（NSS）模型结合失真（通道）模型来量化这种共享讯息。与基于人类视觉系统（HVS）错误敏感度和结构测量的先前方法相比，VIF在消息理论中被使用，且不需要任何HVS或其他观察几何参数，就能产生完全参考（FR）质量评估（QA）方法；VIF也不需要任何需要优化的常数，就能与现有的QA方法相竞争。

具体来说，参考图像被建模后通过HVS通道，接着由大脑处理的随机“自然”源输出。参考图像的资讯被量化为HVS频道的输入和输出之间的相互资讯（mutual information），这是大脑可以从HVS输出中提取的最理想资讯。然后让相同的参考图像通过失真通道，并对测量进行量化。将这两个讯息组合，形成视觉质量与相对图像信息相关联的视觉信息保真度。

模型

来源模型(source model)

图像的的小波系数可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模，以下针对特定子带进行多尺度多方位分解的模型，其他子带可以进行相似的模型。设给定子带中的小波系数为 ${\mathcal {C}}=\{{\bar {\mathit {C_{i}}}}:{\mathit {i}}\in {\mathcal {I}}\}$ ， ${\mathcal {I}}$ 表示整个子带和每个子带的空间索引集合，子带被分割成M块不重叠的区域，每块对应到一个M维的向量 ${\bar {\mathit {C_{i}}}}$ 。

根据GSM模型

${\mathcal {C}}={\mathcal {S}}\cdot {\mathcal {U}}=\{{\mathit {S_{i}}}{\mathit {\bar {U_{i}}}}:{\mathit {i}}\in {\mathcal {I}}\}$

其中 ${\mathit {S_{i}}}$ 是一个正数， ${\mathit {\bar {U_{i}}}}$ 是一个平均为0且协方差为 $\mathrm {C_{U}}$ 的高斯向量。我们假设这M块区域彼此独立，且随机场 ${\mathcal {S}}$ 和 ${\mathcal {U}}$ 相互独立。

失真模型(distortion model)

我们利用小波域中的信号衰减和加性噪声来对失真过程进行建模。以数学式表示，如果 ${\mathcal {D}}=\{{\bar {D_{i}}}:i\in {\mathcal {I}}\}$ 表示来自失真图像的特定子带的随机场， ${\mathcal {G}}=\{{\bar {g_{i}}}:i\in {\mathcal {I}}\}$ 是一个确定的常量场且 ${\mathcal {V}}=\{{\bar {v_{i}}}:i\in {\mathcal {I}}\}$ ， ${\bar {V_{i}}}$ 是一个平均为0且协方差为 $\mathrm {C_{V}}$ 的高斯向量，其中 $\mathrm {C_{V}} =\sigma _{v}^{2}\mathrm {I}$ ，那么

${\mathcal {D}}={\mathcal {GC}}+{\mathcal {V}}$

此外， ${\mathcal {V}}$ 独立于 ${\mathcal {S}}$ 和 ${\mathcal {U}}$ 。

人类视觉系统模型(HVS model)

基于视觉信号感知中的不确定性，限制了可以从来源和失真图像中提取的讯息量，HVS对此进行了额外的建模。这种不确定性的来源可以模拟为HVS模型中的视觉噪声，小波分解特定子带中的HVS噪声更进一步被建模为加性高斯白噪声。假设 ${\mathcal {N}}=\{{\bar {N_{i}}}:i\in {\mathcal {I}}\}$ 和 ${\mathcal {N^{'}}}=\{{\bar {N_{i}^{'}}}:i\in {\mathcal {I}}\}$ 是随机场， ${\bar {N_{i}}}$ 和 ${\bar {N_{i}^{'}}}$ 是平均为0且协方差为 $\mathrm {C_{N}}$ 和 $\mathrm {C_{N}^{'}}$ 的高斯向量。 ${\mathcal {\varepsilon }}={\mathcal {C}}+{\mathcal {N}}$ 和 ${\mathcal {F}}={\mathcal {D}}+{\mathcal {N^{'}}}$ 表示HVS输出端的视觉信号。在数学上，E=C+N且F=D+N’。其中N和N’是随机的且独立于 ${\mathcal {S}}$ ， ${\mathcal {U}}$ 和 ${\mathcal {V}}$ 。

定义

将 ${\bar {C}}^{N}=({\bar {C_{1}}},{\bar {C_{1}}},...,{\bar {C_{N}}})$ 定义为特定子带中所有区块的向量，同理定义 ${S}^{N}$ , ${\bar {D}}^{N}$ , ${\bar {E}}^{N}$ 和 ${\bar {F}}^{N}$ 。 $s^{N}$ 为给定 ${C}^{N}$ 和 $\mathrm {C_{U}}$ 的 $S^{N}$ 中几率最大的数。从参考图像中获取的资讯量为

$I({\bar {C}}^{N};{\bar {E}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}{\Bigl (}{\frac {|s_{i}^{2}{\mathsf {C_{U}}}+\sigma _{n}^{2}{\text{I}}|}{|\sigma _{n}^{2}{\text{I}}|}}{\Bigr )}$

而从测试图像中获取的资讯量为

$I({\bar {C}}^{N};{\bar {F}}^{N}|{\bar {S}}^{N}=s^{N})={\frac {1}{2}}\sum _{i=1}^{N}\log _{2}{\Bigl (}{\frac {|g_{i}^{2}s_{i}^{2}{\mathsf {C_{U}}}+(\sigma _{v}^{2}+\sigma _{n}^{2}){\text{I}}|}{|(\sigma _{v}^{2}+\sigma _{n}^{2}){\text{I}}|}}{\Bigr )}$

VIF定义为

$VIF={\frac {\textstyle \sum _{j\in {subbands}}^{}I({\bar {C}}^{N,j};{\bar {F}}^{N,j}|S^{N,j}=s^{N,j})\displaystyle }{\textstyle \sum _{j\in {subbands}}^{}I({\bar {C}}^{N,j};{\bar {E}}^{N,j}|S^{N,j}=s^{N,j})\displaystyle }}$

性能

评估LIVE图像质量评估数据库中，失真图像的VIF得分，与相应的人类意见得分之间的斯皮尔曼等级排序相关系数（SROCC）为0.96^[1]。这显示该指数与人类对图像质量的感知非常相近，与最佳的FR IQA^[1]算法一致。

参考文献

^ ^1.0 ^1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. （原始内容存档 (PDF)于2018-06-12）. 缺少或|title=为空 (帮助)

[auto-1] 1.0 ^1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. （原始内容存档 (PDF)于2018-06-12）. 缺少或|title=为空 (帮助)

[1]