西安网站建设技术外包,黄页88网站关键词怎么做,二级域名如何申请,一级a行做爰片免费网站强烈推荐先看本人的这篇
Stable Diffusion1.5网络结构-超详细原创-CSDN博客
1 Unet
1.1 详细整体结构 1.2 缩小版整体结构
以生成图像1024x1024为例#xff0c;与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D相比#xff0c;SDXL只有2个#xff0c;但SDXL的Cros…强烈推荐先看本人的这篇
Stable Diffusion1.5网络结构-超详细原创-CSDN博客
1 Unet
1.1 详细整体结构 1.2 缩小版整体结构
以生成图像1024x1024为例与SD1.5的3个CrossAttnDownBlock2D和CrossAttnUpBlock2D相比SDXL只有2个但SDXL的CrossAttnDownBlock2D模块有了更多的Transformer模块且只进行了两次下采样具体的往下看 1.2.1 DownBlock2D
1.2.1.1 ResBolck2D
和SD1.5不一样的是多了time_id这个输入表示origin_size, target_size,以及裁剪坐标比如图中的time_id[[1024, 1024, 0, 0, 1024, 1024],[1024, 1024, 0, 0, 1024, 1024]]
有一半是负向提示词以[1024, 1024, 0, 0, 1024, 1024],为例两个[1024, 1024]表示origin_size, target_size[0, 0]是裁剪坐标这是SDXL在训练的时候用了一些trick,把原始输入图像和目标图像的大小以及裁剪坐标也作为条件参与训练 Downsample2D通过步长为2的卷积进行下采样 1.2.2 CrossAttnDownBlock2D
CrossAttnDownBlock2D_1
CrossAttnDownBlock2D_1表示第一个CrossAttnDownBlock2D它的Transformer2DModel有两个BasicTransformerBlock而SD1.5的Transformer2DModel只有一个BasicTransformerBlock CrossAttnDownBlock2D_2
CrossAttnDownBlock2D_2表示第2个CrossAttnDownBlock2D它的Transformer2DModel有10个BasicTransformerBlock 1.2.3 UnetMidBlock2DCrossAttn
其中的Transformer2DModel有10个BasicTransformerBlock 1.2.4 CrossAttnUpBlock2D
CrossAttnUpBlock2D_2
CrossAttnUpBlock2D_2表示第2个CrossAttnUpBlock2D它的Transformer2DModel有10个BasicTransformerBlockUpSample2D和SD1.5结构一致 CrossAttnUpBlock2D_1
CrossAttnUpBlock2D_1表示第21个CrossAttnUpBlock2D它的Transformer2DModel有2个BasicTransformerBlock 未完待续
2 CLIP