(2024,SaFaRI,双三上采样和 DFT,空间特征和频率特征)基于扩散模型的图像空间和频率感知恢复方法

news/2025/4/26 12:53:14/

Spatial-and-Frequency-aware Restoration method for Images based on Diffusion Models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 修改数据保真度

3.2 理论分析

3.3 SaFaRI

4. 实验


0. 摘要

扩散模型最近成为图像恢复 (Image Restoration,IR) 的有希望的框架,这归功于其产生高质量重建的能力和与已建立方法的兼容性。现有方法解决 IR 中的噪声逆问题,考虑了逐像素的数据保真度。在本文中,我们提出了 SaFaRI,一种用于 IR 的面向 Gaussian 噪声的空间和频率感知扩散模型(Spatial-and-Frequency-aware Restoration method for Images。我们的模型鼓励图像在空间和频率域中保持数据保真度,从而实现增强的重建质量。我们在各种噪声逆问题上全面评估了我们模型的性能,包括修复、去噪和超分辨率。我们的彻底评估表明,SaFaRI 在 ImageNet 数据集和 FFHQ 数据集上都取得了最先进的性能,在 LPIPS 和 FID 指标方面超越了现有的零样本 IR 方法。

3. 方法

现有逆问题的方法 Chung 等人 [2023],Zhu等人 [2023],Wang等人 [2022],Kawar等人 [2022a],Chung等人 [2022b] 通过最小化基于像素的数据保真度项 ||y − Ax||^2_2 引导生成过程,该过程未考虑图像的感知特征。在本文中,我们提出了一个修改后的数据保真度项,通过上采样和傅里叶变换分别结合空间和频率特征。

3.1 修改数据保真度

为了增强数据保真度项,我们用项 ∥ψ(y) − ψ(Ax_0)∥ 替换了项 ∥y − Ax_0∥,利用了变换 ψ,该变换有效捕捉图像的感知特征。

为了通过这种技术实现令人满意的结果,建议仔细控制可行解的扰动,以实现最小的干扰。幸运的是,在 ψ 是单射的条件下,以下方程的有效性是被充分证实的。

因此,在假设 ψ 具有单射性的前提下,合理地期望方程(7)的可行解将受到较少的干扰。

方程(7)的第一项是数据保真度项,它量化了测量值与生成图像的失真版本之间的像素级差异。而第二项是正则化项。随后,我们引入一个具有单射性的转换 ψ,它有效地提取感知特征。

空间特征。我们提出利用通过插值获得的上采样图像的效果,以不仅包含像素级信息,还包括图像的空间上下文。图像插值使用卷积操作计算新生成像素的值。这些值是通过与相邻像素的复杂交互确定的,有效地捕捉图像的空间上下文。

本质上,新生成像素的值可以解释为包含从周围空间图像块中获得的关键信息。通过这样做,我们旨在丰富图像的整体表示,从而提高各种图像处理任务的性能。在本文中,我们使用标准的插值方法,双三次插值(bicubic interpolation)。我们用 ψ_(s,r) 表示带有比例 r 的双三次上采样。请注意,双三次上采样 ψ_s 是单射的。

频率特征。为了增强测量与人类感知的对齐性,我们将通过 DFT 获得的图像的频域表示纳入其中。利用离散傅里叶变换(DFT)在提取频率信息方面的优势,DFT 使数据保真度项分解为其低频和高频部分,提供了数据更详细的表示。 

记 F 和 F^(−1) 分别为 2D 离散傅里叶变换(DFT)及其逆变换。对于图像 f ∈ R^(M×N×C),离散傅里叶变换 F 通过具有复系数的正交基分解 f 如下:

对于(u,v)∈ R^M × R^N。我们的分析基于 DFT 的逐通道应用,为了简洁起见,以下不考虑通道维度。

我们采用理想高通滤波和理想低通滤波,分别用 H 和 L 表示,如下所示:

现在我们考虑变换

Parseval 定理暗示了 ψ_f 保持2-范数。换句话说,用 d 表示差异 y−Ax0,

成立。因此,ψ_f 将 ∥d∥^2_2分解为高频项 ∥ψH(d)∥^2_2 和低频项 ∥ψL(d)∥^2_2:

请注意,算子 ψ_f 是保范(norm-preserving)算子,因此 ψ_f 是单射的。同时,最小化∥ψH(d)∥^2_2 和 ∥ψL(d)∥^2_2 分别意味着最小化高频特征和低频特征的差异。

因此,通过对分解的保真度项进行自适应加权,我们可以选择性地增强在视觉感知中起关键作用的高频分量。

3.2 理论分析

3.3 SaFaRI

借助前述概念的协同作用,我们提出 SaFaRI:一种面向空间和频率的图像恢复方法(Spatial-and-Frequency-aware Restoration method for Images),这是一种新的方法,将数据保真度项调整到空间和频率域,从而更全面地表示图像的底层感知属性。

为了考虑空间和频率特征,我们考虑对应于

的数据保真度。由于 ψs 和 ψf 都是单射的,ψ 也是单射的。由于其单射性质,ψ 预计对方程(7)的可行解造成最小的干扰。在这种情况下,它表示如下: 

为了增强算法的稳定性,在实际应用中,我们固定 τ 并将 ψs 设置为同分布,用于前 T − τ 次迭代,其中 T 是总迭代次数。此外,为了优化其性能,我们仔细调整了三个数据保真度项的权重:空间感知项 ρ^s_t、高频项 ρ^H_t 和低频项 ρ^L_t。 SaFaRI 的详细算法制定在 Algorithm 1 中呈现。运算符和超参数的选择在附录中。有关 SaFaRI 的视觉表示,请参考图 2。

4. 实验


http://www.ppmy.cn/news/1340603.html

相关文章

R语言学习case9:ggplot基础画图(Scatter Metrics 矩阵散点图)

step1: 导入ggplot2库文件 library(ggplot2)step2&#xff1a;带入自带的iris数据集 iris <- datasets::irisstep3&#xff1a;查看数据信息 dim(iris)维度为 [150,5] head(iris)查看数据前6行的信息 step4&#xff1a;利用ggplot工具包绘图 开发者们在ggplot2的基础…

从微服务到云原生

很多文章介绍云原生概念&#xff0c;说它包含微服务&#xff0c;又包含了其它几个方面的东西&#xff0c;还扯到文化层面、组织层面和技术层面&#xff0c;搞技术的人一听到公司文化问题和组织部门问题&#xff0c;就十分地晕眩&#xff0c;不能让我好好地坐下来写写代码、搞搞…

Error: Projects must list all files or use an ‘include‘ pattern.

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

【硬件产品经理】锂电池充电时间怎么计算?

目录 前言 电池容量 充电器功率 电能转换效率 充电时间计算 作者简介<

面试宝典之深谈JVM

面试宝典之深谈JVM 1.为什么需要JVM&#xff0c;不要JVM可以吗&#xff1f; 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译&#xff0c;到处运行 2.JVM可以运行Class文件 2.JDK&#xff0c;JRE以及JVM的关系 3.我们的编译器到底干了什么事&#xff1f; 仅仅是将我们的 .ja…

[python]批量将一个文件夹里的xls另存为同名的csv格式

[python]批量将一个文件夹里的xls另存为同名的csv格式 可以使用Python中的pandas库来实现这个功能。以下是一个示例代码: import os import pandas as pd# 设置文件夹路径 folder_path = /path/to/folder# 获取文件夹中所有xls文件的路径 xls_files = [os.path.join(folder_p…

计算机毕业设计 基于SpringBoot的城市垃圾分类管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

【webrtc】m98 : vs2019 直接构建webrtc及unitest工程 1

还是换用了vs2019 构建官方的m98代码打开gn生成的sln 工程 随便点击一个工程turnserver 构建,结果会触发全部构建turnserver构建日志 :构建了整个webrtc ts(1665,8): note: result_of<webrtc::TimeDelta ((lambda at ../../video/adaptation/overuse_frame_detector.cc:55…