(2024,SaFaRI,双三上采样和 DFT,空间特征和频率特征)基于扩散模型的图像空间和频率感知恢复方法

news/2024/2/27 21:35:58

Spatial-and-Frequency-aware Restoration method for Images based on Diffusion Models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 修改数据保真度

3.2 理论分析

3.3 SaFaRI

4. 实验


0. 摘要

扩散模型最近成为图像恢复 (Image Restoration,IR) 的有希望的框架,这归功于其产生高质量重建的能力和与已建立方法的兼容性。现有方法解决 IR 中的噪声逆问题,考虑了逐像素的数据保真度。在本文中,我们提出了 SaFaRI,一种用于 IR 的面向 Gaussian 噪声的空间和频率感知扩散模型(Spatial-and-Frequency-aware Restoration method for Images。我们的模型鼓励图像在空间和频率域中保持数据保真度,从而实现增强的重建质量。我们在各种噪声逆问题上全面评估了我们模型的性能,包括修复、去噪和超分辨率。我们的彻底评估表明,SaFaRI 在 ImageNet 数据集和 FFHQ 数据集上都取得了最先进的性能,在 LPIPS 和 FID 指标方面超越了现有的零样本 IR 方法。

3. 方法

现有逆问题的方法 Chung 等人 [2023],Zhu等人 [2023],Wang等人 [2022],Kawar等人 [2022a],Chung等人 [2022b] 通过最小化基于像素的数据保真度项 ||y − Ax||^2_2 引导生成过程,该过程未考虑图像的感知特征。在本文中,我们提出了一个修改后的数据保真度项,通过上采样和傅里叶变换分别结合空间和频率特征。

3.1 修改数据保真度

为了增强数据保真度项,我们用项 ∥ψ(y) − ψ(Ax_0)∥ 替换了项 ∥y − Ax_0∥,利用了变换 ψ,该变换有效捕捉图像的感知特征。

为了通过这种技术实现令人满意的结果,建议仔细控制可行解的扰动,以实现最小的干扰。幸运的是,在 ψ 是单射的条件下,以下方程的有效性是被充分证实的。

因此,在假设 ψ 具有单射性的前提下,合理地期望方程(7)的可行解将受到较少的干扰。

方程(7)的第一项是数据保真度项,它量化了测量值与生成图像的失真版本之间的像素级差异。而第二项是正则化项。随后,我们引入一个具有单射性的转换 ψ,它有效地提取感知特征。

空间特征。我们提出利用通过插值获得的上采样图像的效果,以不仅包含像素级信息,还包括图像的空间上下文。图像插值使用卷积操作计算新生成像素的值。这些值是通过与相邻像素的复杂交互确定的,有效地捕捉图像的空间上下文。

本质上,新生成像素的值可以解释为包含从周围空间图像块中获得的关键信息。通过这样做,我们旨在丰富图像的整体表示,从而提高各种图像处理任务的性能。在本文中,我们使用标准的插值方法,双三次插值(bicubic interpolation)。我们用 ψ_(s,r) 表示带有比例 r 的双三次上采样。请注意,双三次上采样 ψ_s 是单射的。

频率特征。为了增强测量与人类感知的对齐性,我们将通过 DFT 获得的图像的频域表示纳入其中。利用离散傅里叶变换(DFT)在提取频率信息方面的优势,DFT 使数据保真度项分解为其低频和高频部分,提供了数据更详细的表示。 

记 F 和 F^(−1) 分别为 2D 离散傅里叶变换(DFT)及其逆变换。对于图像 f ∈ R^(M×N×C),离散傅里叶变换 F 通过具有复系数的正交基分解 f 如下:

对于(u,v)∈ R^M × R^N。我们的分析基于 DFT 的逐通道应用,为了简洁起见,以下不考虑通道维度。

我们采用理想高通滤波和理想低通滤波,分别用 H 和 L 表示,如下所示:

现在我们考虑变换

Parseval 定理暗示了 ψ_f 保持2-范数。换句话说,用 d 表示差异 y−Ax0,

成立。因此,ψ_f 将 ∥d∥^2_2分解为高频项 ∥ψH(d)∥^2_2 和低频项 ∥ψL(d)∥^2_2:

请注意,算子 ψ_f 是保范(norm-preserving)算子,因此 ψ_f 是单射的。同时,最小化∥ψH(d)∥^2_2 和 ∥ψL(d)∥^2_2 分别意味着最小化高频特征和低频特征的差异。

因此,通过对分解的保真度项进行自适应加权,我们可以选择性地增强在视觉感知中起关键作用的高频分量。

3.2 理论分析

3.3 SaFaRI

借助前述概念的协同作用,我们提出 SaFaRI:一种面向空间和频率的图像恢复方法(Spatial-and-Frequency-aware Restoration method for Images),这是一种新的方法,将数据保真度项调整到空间和频率域,从而更全面地表示图像的底层感知属性。

为了考虑空间和频率特征,我们考虑对应于

的数据保真度。由于 ψs 和 ψf 都是单射的,ψ 也是单射的。由于其单射性质,ψ 预计对方程(7)的可行解造成最小的干扰。在这种情况下,它表示如下: 

为了增强算法的稳定性,在实际应用中,我们固定 τ 并将 ψs 设置为同分布,用于前 T − τ 次迭代,其中 T 是总迭代次数。此外,为了优化其性能,我们仔细调整了三个数据保真度项的权重:空间感知项 ρ^s_t、高频项 ρ^H_t 和低频项 ρ^L_t。 SaFaRI 的详细算法制定在 Algorithm 1 中呈现。运算符和超参数的选择在附录中。有关 SaFaRI 的视觉表示,请参考图 2。

4. 实验


http://www.ppmy.cn/news/1340603.html

相关文章

R语言学习case9:ggplot基础画图(Scatter Metrics 矩阵散点图)

step1: 导入ggplot2库文件 library(ggplot2)step2&#xff1a;带入自带的iris数据集 iris <- datasets::irisstep3&#xff1a;查看数据信息 dim(iris)维度为 [150,5] head(iris)查看数据前6行的信息 step4&#xff1a;利用ggplot工具包绘图 开发者们在ggplot2的基础…

从微服务到云原生

很多文章介绍云原生概念&#xff0c;说它包含微服务&#xff0c;又包含了其它几个方面的东西&#xff0c;还扯到文化层面、组织层面和技术层面&#xff0c;搞技术的人一听到公司文化问题和组织部门问题&#xff0c;就十分地晕眩&#xff0c;不能让我好好地坐下来写写代码、搞搞…

Error: Projects must list all files or use an ‘include‘ pattern.

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

【硬件产品经理】锂电池充电时间怎么计算?

目录 前言 电池容量 充电器功率 电能转换效率 充电时间计算 作者简介<

面试宝典之深谈JVM

面试宝典之深谈JVM 1.为什么需要JVM&#xff0c;不要JVM可以吗&#xff1f; 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译&#xff0c;到处运行 2.JVM可以运行Class文件 2.JDK&#xff0c;JRE以及JVM的关系 3.我们的编译器到底干了什么事&#xff1f; 仅仅是将我们的 .ja…

[python]批量将一个文件夹里的xls另存为同名的csv格式

[python]批量将一个文件夹里的xls另存为同名的csv格式 可以使用Python中的pandas库来实现这个功能。以下是一个示例代码: import os import pandas as pd# 设置文件夹路径 folder_path = /path/to/folder# 获取文件夹中所有xls文件的路径 xls_files = [os.path.join(folder_p…

计算机毕业设计 基于SpringBoot的城市垃圾分类管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

【webrtc】m98 : vs2019 直接构建webrtc及unitest工程 1

还是换用了vs2019 构建官方的m98代码打开gn生成的sln 工程 随便点击一个工程turnserver 构建,结果会触发全部构建turnserver构建日志 :构建了整个webrtc ts(1665,8): note: result_of<webrtc::TimeDelta ((lambda at ../../video/adaptation/overuse_frame_detector.cc:55…

Python 生成图片验证码

图片验证码&#xff08;CAPTCHA&#xff09;是一种区分用户是计算机还是人的公共全自动程序。这种验证码通常以图片的形式出现&#xff0c;其中包含一些扭曲的字符或对象&#xff0c;用户需要识别这些字符或对象并输入正确的答案以通过验证。 通常情况下&#xff0c;图片验证码…

linux使用iptables禁用ip

iptables是什么&#xff1f; iptables 是一个强大的开源软件&#xff0c;它是 Linux 系统内核中 netfilter 包过滤框架的一部分&#xff0c;用来实现防火墙功能。iptables 提供了一种灵活的方式来控制和管理进出以及通过 Linux 计算机的网络流量。 前提 我在云服务器上用doc…

查询、导入导出、统计性能优化的一些总结

目录 1、背景 2、优化实现 2.1查询数据表速度慢 2.2调别人接口速度慢 2.3导入速度慢、 2.4导出速度慢的做出介绍 2.5统计功能速度慢 3、总结 1、背景 系统上线后&#xff0c;被用户反应系统很多功能响应时长很慢。用户页面影响速度有要求&#xff0c;下面针对查询数据表…

Android 8.1 设置--声音中增加通话音量

Android 8.1 设置--声音中增加通话音量 近来收到项目需求&#xff0c;想要在设置--声音中增加一项通话音量调节&#xff0c;具体修改参照如下&#xff1a; /vendor/mediatek/proprietary/packages/apps/MtkSettings/res/values/strings.xml <!-- Sound: Title for the opt…

对商业知识和思维的一些小体会

用途&#xff1a;个人学习笔录&#xff0c;欢迎指正 前言&#xff1a; 小生拙见&#xff0c;我认为商业知识和商业思维的理解对于每一个行业都有潜在的帮助&#xff0c;因为每个人的生活都离不开商业&#xff0c;生意、工作都是交换&#xff0c;用自身提供的价值换取薪酬。因此…

Autonomous_Exploration_Development_Environment的local_planner学习笔记

1.程序下载网址&#xff1a;https://github.com/HongbiaoZ/autonomous_exploration_development_environment 2.相关参考资料&#xff1a; https://blog.csdn.net/lizjiwei/article/details/124437157 Matlab用采样的离散点做前向模拟三次样条生成路径点-CSDN博客 CMU团队开…

Linux系统Shell脚本-----------正则表达式 文本三剑客之---------grep、 sed

一、正则表达式 1.前言 正则表达式(regular expression)描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。在Linux中也就是代表我们定义的模式模板&…

Git解决分支合并冲突的问题:分支合并提交出现了不同分支同一个文件的修改的冲突解决

有些时候我们合并分支的时候&#xff0c;会出现冲突&#xff0c;原因就是我们修改了分支A 的第一行代码&#xff0c;我们还修改了主分支上面同一个文件中的第一行代码&#xff08;分支A已经提交过一次&#xff09;&#xff0c;此时我们在次合并的时候就会出现冲突&#xff0c;需…

Angular组件(二) 分割面板ShrinkSplitter

Angular组件(二) 分割面板ShrinkSplitter 前言 在Angular组件(一) 分割面板ShrinkSplitter文章中我们实现了Splitter组件&#xff0c;后来在业务场景中发现在开关右侧容器和底部容器时&#xff0c;使用起来不方便&#xff0c;ngModel绑定的值始终是左侧容器和顶部容器的大小&…

MySQL原理(一)架构组成之逻辑模块(1)组成

总的来说&#xff0c;MySQL可以看成是二层架构&#xff0c;第一层我们通常叫做SQL Layer&#xff0c;在MySQL数据库系统处理底层数据之前的所有工作都是在这一层完成的&#xff0c;包括权限判断&#xff0c;sql解析&#xff0c;执行计划优化&#xff0c;query cache的处理等等&…

springboot(ssm本庄村果园预售系统 果蔬销售商城系统Java系统

springboot(ssm本庄村果园预售系统 果蔬销售商城系统Java系统 开发语言&#xff1a;Java 框架&#xff1a;springboot&#xff08;可改ssm&#xff09; vue JDK版本&#xff1a;JDK1.8&#xff08;或11&#xff09; 服务器&#xff1a;tomcat 数据库&#xff1a;mysql 5.7…

源码学习:https://github.com/mirror/busybox (未完待续)

简介 https://www.busybox.net/ https://github.com/mirror/busybox BusyBox: 嵌入式 Linux 的瑞士军刀 BusyBox 将许多常见的 UNIX 实用程序的小型版本组合成一个单一的小型可执行文件。它为 GNU fileutils、shellutils 等通常在 GNU 工具集中找到的大多数实用程序提供了替…
最新文章