Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在论文Figure7中,关于如何分析不同attention层的作用 #46

Open
333caowei opened this issue May 28, 2024 · 2 comments
Open

Comments

@333caowei
Copy link

333caowei commented May 28, 2024

在论文Figure7中分析不同attention层的作用的方式,
1、是基于已有的开源ipadapter ckpt,使其在XL的不同attention block分别生效,进行图像生成,从而对比不同block的生成效果
2、在XL模型上,分别针对不同的attention block,分别训练对应的ipadapter(XL有11个attn block所以训练了11个ipadapter),从而对比不同block的生成效果

不知论文中的分析方式,是对应上述两种方式中的哪一种?

@haofanwang
Copy link
Member

你好,两种方式我们均实验过

  1. 基于开源的IPA权重,仅仅在特定层注入。
  2. 在开源数据上重新训练,但仅训练特定层。

我们发现结果非常类似,因此未开源自己训练的权重。论文中的插图由第一种方式生成。

@333caowei
Copy link
Author

333caowei commented May 31, 2024

你好,两种方式我们均实验过

  1. 基于开源的IPA权重,仅仅在特定层注入。
  2. 在开源数据上重新训练,但仅训练特定层。

我们发现结果非常类似,因此未开源自己训练的权重。论文中的插图由第一种方式生成。

很有意思的发现,我在dit的模型中,按照相同方式分别只在每个block注入IPA,但就很难有XL的这种风格现象

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants