SDXL TextEncoder 1 & 2 #918

caniyabanci76 · 2023-10-31T11:42:08Z

caniyabanci76
Oct 31, 2023

Does TE1 = CLIP G and TE2 = CLIP L ?

Sorry for lacking of the documentation. Text Encoder 1 = ViT-L (768 dims) and Text Encoder 2 = BiG-G (1280 dims).

This is because SDXL state dict has conditioner.embedders.0 keys for ViT-L and conditioner.embedders.1 keys for BiG-G.

kohya-ss · 2023-10-31T13:27:37Z

Sorry for lacking of the documentation. Text Encoder 1 = ViT-L (768 dims) and Text Encoder 2 = BiG-G (1280 dims).

This is because SDXL state dict has conditioner.embedders.0 keys for ViT-L and conditioner.embedders.1 keys for BiG-G.

0 replies