生成式 AI 背后的共同框架:Stable Diffusion、DALL-E、Imagen

news/2024/4/20 2:21:45/

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


框架

这些生成式 AI 的整体功能为:输入「文字」,返回「图像」,即 Text-to-image Generator:

在这里插入图片描述
生成器的内部框架如下所示:

  • 第一部分:Text Encoder,输出 Text,返回对应的 Embedding(向量);
  • 第二部分:Generation Model,输入为 Text 的 Embedding 与一个随机生成的 Embedding(用于后续的 Diffusion 过程),返回中间产物(可以是图片的压缩版本,也可以是 Latent Representation);
  • 第三部分:Decoder,输入为图片的压缩版本,返回最终的图片。
    在这里插入图片描述

三个模块通常是分开训练,再组合起来,得到 Text-to-image Generator。

上述框架为通用框架,即均包含上述三个模块,例如 Stable Diffusion:
在这里插入图片描述
DALL-E series:
在这里插入图片描述
Imagen:
在这里插入图片描述


文字 Encoder

GPT、Bert 均可当作文字 Encoder,其对最终结果的影响非常大。如下图所示(来自 Imagen 论文实验图):

  • 图(a):曲线越接近框内右下角越好,Encoder 越大效果越好,即 Encoder 见过的数据量越多;
  • 图(b):Generation Model 的大小对结果影响不大。

在这里插入图片描述

FID (Fréchet Inception Distance)

上述结果中的 FID 用于衡量生成图片的好坏,即利用一个 CNN 网络 (Inception Network),得到一系列原始图像 (x) 与其对应生成图像 (g) 的特征表示,并假设该特征表示服从高斯分布,因此可以得到原始图像的高斯分布 N(μx,Σx)\mathcal{N}(\mu_x,\Sigma_x)N(μx,Σx) 与生成图像的高斯分布 N(μg,Σg)\mathcal{N}(\mu_g,\Sigma_g)N(μg,Σg),并将两个分布之间的 Fréchet distance 作为最终的 FID 结果(越小越好),即:
FID(x,g)=∥μx−μg∥22+Tr⁡(Σx+Σg−2(ΣxΣg)12).\text{FID}(x,g)=\|\mu_x-\mu_g\|_2^2 + \operatorname{Tr}\left(\Sigma_x+\Sigma_g-2\left(\Sigma_x \Sigma_g\right)^{\frac{1}{2}}\right). FID(x,g)=μxμg22+Tr(Σx+Σg2(ΣxΣg)21).

上述的 FID-10K 表示采样 10K 张图片后,计算 FID,因此 FID 的计算需要大量图片。

在这里插入图片描述

CLIP (Contrastive Language-Image Pre-Training)

CLIP 是一个使用了 400 million image-text paris 训练得到的模型,该模型可以用于给 (Text, Generated Image) 打分,即将 Text, Image 分别丢进 Text Encoder 和 Image Encoder 中,其产生的 Embedding 越相近,CLIP Score 越高。

在这里插入图片描述


Decoder

Generation Model 的训练需要 (Text, Image) 成对的数据,但 Decoder 的训练不需要文字资料,因此可供其训练的数据是更多的。

如果 Decoder 的输入是图片的压缩版本,即小图(例如 Imagen),则其训练过程为:将任意一张图片降采样得到一张小图,随后使用(小图,原图)的 pair 进行训练,如下所示:

在这里插入图片描述
如果 Decoder 的输入 Latent Representation(例如 Stable Diffusion 与 DALL-E),则训练过程为:训练一个 Auto-encoder,并将其中的 Decoder 作为框架中的模块。

Auto-encoder 的训练过程也非常直接,其 Encoder 负责得到图片的 Latent Representation,Decoder 负责根据 Latent Representation 生成对应图片,训练目标是原始图片与生成的图片越接近越好。

通常来说原图尺寸为 (H, W, 3),Latent Representation 的大小为 (h, w, c),其中 h 与 w 分别小于 H 和 W。

在这里插入图片描述


Generation Model

在 Diffusion Model 中,我们不断地在图片上加噪音,得到一张随机图后,再逐步地去噪,最终训练出去噪的模型,如下所示:

在这里插入图片描述

而在 Generation Model 中,噪声不是加在图片上,而是加在中间产物上,即 Decoder 的输入 Latent Representation 上,如下所示:

在这里插入图片描述

随后训练一个 Noise Predictor,输入为「第 x 步 + 第 x 步对应的加噪结果 + Text Embedding」,输出为第 x 步所加的噪声。

在这里插入图片描述
最后在生成图片时,输入为「Text Embedding + 随机高斯噪声」,每次识别出具体的噪声,再一步一步执行去噪,即可得到最终的 Latent Representation,再输入至 Decoder 即可。

在这里插入图片描述
此处需要注意,去噪的过程是「随机高斯噪音」逐步变成「最终 Latent Representation」的过程,该过程中的每一步的 Embedding,丢进 Decoder 均可得到图片,对应于图片生成时,图片逐步变清晰的过程。


参考资料

  • Hung-yi Lee - 生成式 AI
  • Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
  • DALL-E series: Zero-Shot Text-to-Image Generation
  • DALL-E series: Hierarchical Text-Conditional Image Generation with CLIP Latents
  • Imagen: website
  • Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

http://www.ppmy.cn/news/37390.html

相关文章

[Java Web]Filter | 一文搞懂Web三大组件之一的Filter

⭐作者介绍:大二本科网络工程专业在读,持续学习Java,努力输出优质文章 ⭐作者主页:逐梦苍穹 ⭐所属专栏:Java Web 目录Filter1、概述2、执行流程2.1、简单介绍2.2、过滤器链3、代码实现3.1、实现步骤3.2、&#x1f53a…

STM32单片机WIFI-APP智能温控空调冷热可调红外遥控

STM32单片机WIFI-APP智能温控空调冷热可调红外遥控 实践制作DIY- GC0127-WIFI-APP智能温控空调 一、功能说明: 基于STM32单片机设计-WIFI-APP智能温控空调 二、功能介绍: STM32F103C系列最小系统板LCD1602显示器红外遥控电路DS18B20温度传感器1个继电…

Python轻量级Web框架Flask(3)——Flask路由参数/Flask请求与响应/重定项/异常处理

1、Flask路由参数和methods参数: 路由其实就是一个路径,就是a.route(‘/template_test/’)中的’/template_test/,每一个路由对应的是唯一的一个功能,如果要实现很多个功能,就需要很多个路由 methods参数就是用来设置…

【创作赢红包】<Windows>【技巧No.003】《Edge浏览器使用方法大全》(持续更新......)

《Edge浏览器使用技巧大全》1 插件1.1 插件获取1.2 广告拦截-AdGuard 广告拦截器1.3 自由复制网页文字-Simple Allow Copy1.4 图片另存为JPG/PNG/WebP1.5 标签页-itap新标签页1.6 网盘搜索-网盘资源全网搜索2 Edge自身功能2.1 朗读模式2.2 长截图2.3 下载加速1 插件 1.1 插件获…

java多线程相关知识讲解

一.多线程的基本概念。 进程:每个进程都有独立的代码和数据空间(进程上下文),进程间的切换会有较大的开销,一个进程包含1--n个线程。(进程是资源分配的最小单位) 线程:同一类线程共…

PCB模块化设计04——USB-Type-C PCB布局布线设计规范

目录PCB模块化设计04——USB-Type-C PCB布局布线设计规范USB Type-C功能介绍信号图示Type-C接口引脚定义USB 2.0差分对电源和接地引脚RX和TX引脚CC1和CC2针脚VCONN引脚SBU1和SBU2针脚USB供电PCB设计布线要求PCB模块化设计04——USB-Type-C PCB布局布线设计规范 USB Type-C US…

39岁程序员,失业中,看不到希望很迷茫,不知道路在何方?

39岁程序员,失业中,看不到希望很迷茫,不知道路在何方?第一次看到这个问题时,挺无奈的。39岁这个年纪,照理也应该有10多年工作经验了,工作经验丰富自然不用怀疑,作为老程序员&#xf…

立高转债上市价格预测

立高转债基本信息转债名称:立高转债,评级:AA-,发行规模:9.5亿元。正股名称:立高食品,今日收盘价:102.1元,转股价格:97.02元。当前转股价值 转债面值 / 转股价…

SpringCloud2022.x集成gateway

SpringCloud2022.x集成gateway1、环境依赖2、项目代码2.1、新建springboot项目2.1.1、修改pom.xml2.1.2、修改启动类2.1.3、修改配置文件2.1.4、nacos创建配置2.1.5、新增自定义路由配置类2.1.6、新增打印日志过滤器2.1.7、启动测试文档内容: 整合gateway网关使用Na…

C# 实例详解委托之Func、Action、delegate

委托是.NET编程的精髓之一,在日常编程中经常用到,在C#中实现委托主要有Func、Action、delegate三种方式,这个文章主要就这三种委托的用法通过实例展开讲解。 【Func】:Func是带返回值的委托: 原型函数如下(以下展示的…

2023美赛春季赛F题思路数据代码论文分享

文章目录赛题思路赛题详情参赛建议(个人见解)选择队友及任务分配问题(重要程度:5星)2023美赛春季赛F题思路数据代码【最新】赛题思路 (赛题出来以后第一时间在CSDN分享) 最新进度在文章最下方卡片,加入获取…

数据库:关系数据库标准语言SQL(一)

终于开始实战了,首先我这里是下载的SQL server,因为oracle和SQLserver的部分语法不同,所以本文出现的代码可能在oracle中报错 一、了解SQL语言的特色 SQL的特点 综合统一:SQL语言集数据定义语言DDL、数据操纵语言DML、数据控制语…

C语言 —— 数组

一维数组与二维数组前言一、 一维数组1.1 一维数组定义和使用1.2 例子 :列出0-9的数字1.3 一维数组的初始化1.4 数组名二、二维数组2.1 二维数组的定义2.2 例题:一个学习小组有 5 个人,每个人有 3 门课程的考试成绩,求该小组各科的…

Android车载系统(HVAC) 原理+源码分析(代码示例)

前言 Android车载系统(HVAC)是一种用于控制车内温度、空气质量和湿度的系统,它是一项重要的汽车电子技术。在这种系统中,CarHvacManager控制器是一个重要的组件,它通过与车载传感器和执行器的通信来控制车内环境。 C…

资深工程师带你了解IC工程师级别与薪资

入行IC之后,想必大家更关心的就是工程师薪资和级别,因为入行的大多数也是工程师。 国际的一流企业基本上工程师分为以下几个级别:普通工程师,资深工程师,主管工程师,资深主管,总工, 资深总工&am…

考pmp有什么好处?

PMP证书报名条件要求高,这是众所周知的事,那你通过了PMP考试,就证明你是有一定能力的,重要的是,你已经有了至少半年的项目管理经验,并且在你申请考试的前六年内,累计项目管理达三年。 PMP有什么…

Java学习星球,Java学习路线

目录一、Java学习路线二、学习计划三、为何会有Java学习星球?四、加入星球后,你可以得到什么?五、如何加入Java学习星球?六、打卡挑战大家好,我是哪吒,一个靠着热情攀登至C站巅峰的中年男子,CSD…

有什么适合程序员查资料的网站

当今信息爆炸的时代,程序员每天需要花费大量的时间查找相关技术文档、知识和工具。但是,因为互联网上的内容如此之多,选择合适的网站可以成为一项艰巨的任务。在本文中,我们将介绍几个适合程序员查资料的网站,并详细阐…

Spring应用上下文

学习《极客时间、spring全家桶学习记录贴》Spring application context介绍:Spring applicationcontext包含了业务pojo对象,还有配置的信息,Spring applicationcontext管理了所有的组件的生命周期,比如Inventoryservice、Products…

高效自动化测试框架-优秀实践02-接口

高效自动化测试框架-优秀实践02-接口 高效实践点 编写接口的操作的时候只需要编写接口的url,请求方法,请求体的样例 其他的将接口封装成服务或者关键字的操作,全部使用装饰器来封装,能做到高效的解耦 在表示层编写业务测试用例的时候,可以使用函数式的编程方式,非常易读,还非…