在论文Figure7中，关于如何分析不同attention层的作用 #46

333caowei · 2024-05-28T09:43:32Z

在论文Figure7中分析不同attention层的作用的方式，
1、是基于已有的开源ipadapter ckpt，使其在XL的不同attention block分别生效，进行图像生成，从而对比不同block的生成效果
2、在XL模型上，分别针对不同的attention block，分别训练对应的ipadapter（XL有11个attn block所以训练了11个ipadapter），从而对比不同block的生成效果

不知论文中的分析方式，是对应上述两种方式中的哪一种？

haofanwang · 2024-05-28T10:30:28Z

你好，两种方式我们均实验过

基于开源的IPA权重，仅仅在特定层注入。
在开源数据上重新训练，但仅训练特定层。

我们发现结果非常类似，因此未开源自己训练的权重。论文中的插图由第一种方式生成。

333caowei · 2024-05-31T02:39:08Z

你好，两种方式我们均实验过

基于开源的IPA权重，仅仅在特定层注入。

在开源数据上重新训练，但仅训练特定层。

我们发现结果非常类似，因此未开源自己训练的权重。论文中的插图由第一种方式生成。

很有意思的发现，我在dit的模型中，按照相同方式分别只在每个block注入IPA，但就很难有XL的这种风格现象

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在论文Figure7中，关于如何分析不同attention层的作用 #46

在论文Figure7中，关于如何分析不同attention层的作用 #46

333caowei commented May 28, 2024 •

edited

Loading

haofanwang commented May 28, 2024

333caowei commented May 31, 2024 •

edited

Loading

在论文Figure7中，关于如何分析不同attention层的作用 #46

在论文Figure7中，关于如何分析不同attention层的作用 #46

Comments

333caowei commented May 28, 2024 • edited Loading

haofanwang commented May 28, 2024

333caowei commented May 31, 2024 • edited Loading

333caowei commented May 28, 2024 •

edited

Loading

333caowei commented May 31, 2024 •

edited

Loading