ó
    
3jÍ<  ã            
       ó<  • S SK Jr  S SKrS SKJr  SSKJrJr  SSKJ	r	J
r
Jr  SSKJrJr  SSKJr  SS	KJrJrJr  SS
KJrJrJr  SSKJrJr  SSKJr  SSKJr  SSK J!r!J"r"  \RF                  " \$5      r%\ " S S\RL                  5      5       r' " S S\\\\
\	\5      r(g)é    )ÚAnyNé   )ÚConfigMixinÚregister_to_config)ÚFromOriginalModelMixinÚPeftAdapterMixinÚSD3Transformer2DLoadersMixin)Úapply_lora_scaleÚlogging)Úmaybe_allow_in_graphé   )ÚAttentionMixinÚFeedForwardÚJointTransformerBlock)Ú	AttentionÚFusedJointAttnProcessor2_0ÚJointAttnProcessor2_0)Ú"CombinedTimestepTextProjEmbeddingsÚ
PatchEmbed)ÚTransformer2DModelOutput)Ú
ModelMixin)ÚAdaLayerNormContinuousÚAdaLayerNormZeroc                   ór   ^ • \ rS rSrS\S\S\4U 4S jjrS\R                  S\R                  4S jrS	r	U =r
$ )
ÚSD3SingleTransformerBlocké&   ÚdimÚnum_attention_headsÚattention_head_dimc           
      óÎ   >• [         TU ]  5         [        U5      U l        [	        UUUUS[        5       SS9U l        [        R                  " USSS9U l	        [        XSS9U l        g )NTçíµ ÷Æ°>)Ú	query_dimÚdim_headÚheadsÚout_dimÚbiasÚ	processorÚepsF©Úelementwise_affiner(   zgelu-approximate)r   Údim_outÚactivation_fn)ÚsuperÚ__init__r   Únorm1r   r   ÚattnÚnnÚ	LayerNormÚnorm2r   Úff)Úselfr   r   r   Ú	__class__s       €Úg/home/wildlama/miniconda3/lib/python3.13/site-packages/diffusers/models/transformers/transformer_sd3.pyr.   Ú"SD3SingleTransformerBlock.__init__(   se   ø€ ô 	‰ÑÔä% cÓ*ˆŒ
ÜØØ'Ø%ØØÜ+Ó-Øñ
ˆŒ	ô —\’\ #¸%ÀTÑJˆŒ
Ü #ÐBTÑUˆó    Úhidden_statesÚtembc                 óB  • U R                  XS9u  p4pVnU R                  US S9nUR                  S5      U-  nX-   nU R                  U5      nUSUR                  S5      -   -  UR                  S5      -   nU R	                  U5      n	UR                  S5      U	-  n	X-   nU$ )N)Úemb)r:   Úencoder_hidden_statesé   )r/   r0   Ú	unsqueezer3   r4   )
r5   r:   r;   Únorm_hidden_statesÚgate_msaÚ	shift_mlpÚ	scale_mlpÚgate_mlpÚattn_outputÚ	ff_outputs
             r7   ÚforwardÚ!SD3SingleTransformerBlock.forward>   s¼   € àGKÇzÁzÐR_ÀzÐGjÑDÐ i¸HØ—i‘iÐ.@ÐX\iÐ]ˆØ×(Ñ(¨Ó+¨kÑ9ˆØ%Ñ3ˆð "ŸZ™Z¨Ó6ÐØ/°1°y×7JÑ7JÈ1Ó7MÑ3MÑNÐQZ×QdÑQdÐefÓQgÑgÐØ—G‘GÐ.Ó/ˆ	Ø×&Ñ& qÓ)¨IÑ5ˆ	Ø%Ñ1ˆàÐr9   )r0   r4   r/   r3   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Úintr.   ÚtorchÚTensorrH   Ú__static_attributes__Ú__classcell__©r6   s   @r7   r   r   &   sH   ø† ðVàðVð !ðVð  ÷	Vð, U§\¡\ð ¸¿¹÷ ò r9   r   c                   ó¼  ^ • \ rS rSrSrSrS/rSS/r\             S(S\	S	\	S
\	S\	S\	S\	S\	S\	S\	S\	S\	S\
\	S4   S\S-  4U 4S jjj5       rS)S\	S-  S\	SS4S jjrS rS rS r\" S5             S*S\R&                  S \R&                  S!\R&                  S"\R(                  S#\S\\\4   S-  S$\S%\\	   S-  S\R&                  \-  4S& jj5       rS'rU =r$ )+ÚSD3Transformer2DModeléO   ax  
The Transformer model introduced in [Stable Diffusion 3](https://huggingface.co/papers/2403.03206).

Parameters:
    sample_size (`int`, defaults to `128`):
        The width/height of the latents. This is fixed during training since it is used to learn a number of
        position embeddings.
    patch_size (`int`, defaults to `2`):
        Patch size to turn the input data into small patches.
    in_channels (`int`, defaults to `16`):
        The number of latent channels in the input.
    num_layers (`int`, defaults to `18`):
        The number of layers of transformer blocks to use.
    attention_head_dim (`int`, defaults to `64`):
        The number of channels in each head.
    num_attention_heads (`int`, defaults to `18`):
        The number of heads to use for multi-head attention.
    joint_attention_dim (`int`, defaults to `4096`):
        The embedding dimension to use for joint text-image attention.
    caption_projection_dim (`int`, defaults to `1152`):
        The embedding dimension of caption embeddings.
    pooled_projection_dim (`int`, defaults to `2048`):
        The embedding dimension of pooled text projections.
    out_channels (`int`, defaults to `16`):
        The number of latent channels in the output.
    pos_embed_max_size (`int`, defaults to `96`):
        The maximum latent height/width of positional embeddings.
    dual_attention_layers (`tuple[int, ...]`, defaults to `()`):
        The number of dual-stream transformer blocks to use.
    qk_norm (`str`, *optional*, defaults to `None`):
        The normalization to use for query and key in the attention layer. If `None`, no normalization is used.
Tr   Ú	pos_embedÚnormNÚsample_sizeÚ
patch_sizeÚin_channelsÚ
num_layersr   r   Újoint_attention_dimÚcaption_projection_dimÚpooled_projection_dimÚout_channelsÚpos_embed_max_sizeÚdual_attention_layers.Úqk_normc                 óf  >• [         TU ]  5         U
b  U
OUU l        Xe-  U l        [	        UUUUU R                  US9U l        [        U R                  U	S9U l        [        R                  " Xx5      U l
        [        R                  " [        U5       Vs/ s H'  n[        U R                  UUXäS-
  :H  UXì;   a  SOSS9PM)     sn5      U l        [        U R                  U R                  SSS9U l        [        R                  " U R                  X"-  U R                  -  SS	9U l        SU l        g s  snf )
N)ÚheightÚwidthrZ   r[   Ú	embed_dimra   )Úembedding_dimr_   r?   TF)r   r   r   Úcontext_pre_onlyrc   Úuse_dual_attentionr!   r)   )r&   )r-   r.   r`   Ú	inner_dimr   rW   r   Útime_text_embedr1   ÚLinearÚcontext_embedderÚ
ModuleListÚranger   Útransformer_blocksr   Únorm_outÚproj_outÚgradient_checkpointing)r5   rY   rZ   r[   r\   r   r   r]   r^   r_   r`   ra   rb   rc   Úir6   s                  €r7   r.   ÚSD3Transformer2DModel.__init__w   s+  ø€ ô& 	‰ÑÔØ,8Ñ,D™LÈ+ˆÔØ,ÑAˆŒä#ØØØ!Ø#Ø—n‘nØ1ñ
ˆŒô  BØŸ.™.Ð@Uñ 
ˆÔô !#§	¢	Ð*=Ó VˆÔä"$§-¢-ô ˜zÔ*ó
ò +Aô &ØŸ™Ø(;Ø'9Ø%&°q©.Ñ%8Ø#Ø/0Ó/I¡tÈuôñ +ñ
ó#
ˆÔô /¨t¯~©~¸t¿~¹~ÐbgÐmqÑrˆŒÜŸ	š	 $§.¡.°*Ñ2IÈD×L]ÑL]Ñ2]ÐdhÑiˆŒà&+ˆÕ#ùò!
s   Â.D.Ú
chunk_sizer   Úreturnc                 óà   ^• US;  a  [        SU 35      eU=(       d    SnS[        R                  R                  S[        S[        4U4S jjmU R                  5        H  nT" X1U5        M     g)	a  
Sets the attention processor to use [feed forward
chunking](https://huggingface.co/blog/reformer#2-chunked-feed-forward-layers).

Parameters:
    chunk_size (`int`, *optional*):
        The chunk size of the feed-forward layers. If not specified, will run feed-forward layer individually
        over each tensor of dim=`dim`.
    dim (`int`, *optional*, defaults to `0`):
        The dimension over which the feed-forward computation should be chunked. Choose between dim=0 (batch)
        or dim=1 (sequence length).
)r   r?   z-Make sure to set `dim` to either 0 or 1, not r?   Úmodulerw   r   c                 ó†   >• [        U S5      (       a  U R                  XS9  U R                  5        H  nT" X1U5        M     g ©NÚset_chunk_feed_forward)rw   r   ©Úhasattrr}   Úchildren©rz   rw   r   ÚchildÚfn_recursive_feed_forwards       €r7   rƒ   ÚPSD3Transformer2DModel.enable_forward_chunking.<locals>.fn_recursive_feed_forwardÂ   ó=   ø€ ÜvÐ7×8Ñ8Ø×-Ñ-¸Ð-ÑMàŸ™Ö*Ù)¨%¸SÖAò +r9   N)Ú
ValueErrorrO   r1   ÚModulerN   r€   )r5   rw   r   rz   rƒ   s       @r7   Úenable_forward_chunkingÚ-SD3Transformer2DModel.enable_forward_chunking¯   sn   ø€ ð fÓÜÐLÈSÈEÐRÓSÐSð  —_ 1ˆ
ð	B¬e¯h©h¯o©oð 	BÌ3ð 	BÔUX÷ 	Bð —m‘m–oˆFÙ% f¸#Ö>ò &r9   c                 ó¤   ^• S[         R                  R                  S[        S[        4U4S jjmU R	                  5        H  nT" US S5        M     g )Nrz   rw   r   c                 ó†   >• [        U S5      (       a  U R                  XS9  U R                  5        H  nT" X1U5        M     g r|   r~   r   s       €r7   rƒ   ÚQSD3Transformer2DModel.disable_forward_chunking.<locals>.fn_recursive_feed_forwardÎ   r…   r9   r   )rO   r1   r‡   rN   r€   )r5   rz   rƒ   s     @r7   Údisable_forward_chunkingÚ.SD3Transformer2DModel.disable_forward_chunkingÍ   sH   ø€ ð	B¬e¯h©h¯o©oð 	BÌ3ð 	BÔUX÷ 	Bð —m‘m–oˆFÙ% f¨d°AÖ6ò &r9   c                 ó‚  • SU l         U R                  R                  5        H3  u  pS[        UR                  R
                  5      ;   d  M*  [        S5      e   U R                  U l         U R                  5        H)  n[        U[        5      (       d  M  UR                  SS9  M+     U R                  [        5       5        g)uò   
Enables fused QKV projections. For self-attention modules, all projection matrices (i.e., query, key, value)
are fused. For cross-attention modules, key and value projection matrices are fused.

> [!WARNING] > This API is ðŸ§ª experimental.
NÚAddedzQ`fuse_qkv_projections()` is not supported for models having added KV projections.T)Úfuse)Úoriginal_attn_processorsÚattn_processorsÚitemsÚstrr6   rJ   r†   ÚmodulesÚ
isinstancer   Úfuse_projectionsÚset_attn_processorr   )r5   Ú_Úattn_processorrz   s       r7   Úfuse_qkv_projectionsÚ*SD3Transformer2DModel.fuse_qkv_projectionsÙ   sŸ   € ð )-ˆÔ%à!%×!5Ñ!5×!;Ñ!;Ö!=ÑˆAØœ#˜n×6Ñ6×?Ñ?Ó@Õ@Ü Ð!tÓuÐuñ ">ð )-×(<Ñ(<ˆÔ%à—l‘l–nˆFÜ˜&¤)×,Ó,Ø×'Ñ'¨TÐ'Ó2ñ %ð 	×ÑÔ :Ó <Õ=r9   c                 óV   • U R                   b  U R                  U R                   5        gg)u^   Disables the fused QKV projection if enabled.

> [!WARNING] > This API is ðŸ§ª experimental.

N)r’   r™   )r5   s    r7   Úunfuse_qkv_projectionsÚ,SD3Transformer2DModel.unfuse_qkv_projectionsï   s)   € ð ×(Ñ(Ñ4Ø×#Ñ# D×$AÑ$AÕBð 5r9   Újoint_attention_kwargsr:   r>   Úpooled_projectionsÚtimestepÚblock_controlnet_hidden_statesÚreturn_dictÚskip_layersc	                 ó2  • UR                   SS u  pšU R                  U5      nU R                  XC5      nU R                  U5      nUb9  SU;   a3  UR	                  S5      nU R                  XÄ5      u  pÞUR                  XÞS9  [        U R                  5       H¸  u  nnUb  Xø;   a  SOSn[        R                  " 5       (       a0  U R                  (       a  U(       d  U R                  UUUUU5      u  p!OU(       d  U" UUUUS9u  p!Uc  Ms  UR                  SL d  M„  [        U R                  5      [        U5      -  nX[        UU-  5         -   nMº     U R!                  X5      nU R#                  U5      nU R$                  R&                  nU	U-  n	U
U-  n
UR)                  UR                   S   XšUUU R*                  4S	9n[        R,                  " S
U5      nUR)                  UR                   S   U R*                  U	U-  U
U-  4S	9nU(       d  U4$ [/        US9$ )a  
The [`SD3Transformer2DModel`] forward method.

Args:
    hidden_states (`torch.Tensor` of shape `(batch size, channel, height, width)`):
        Input `hidden_states`.
    encoder_hidden_states (`torch.Tensor` of shape `(batch size, sequence_len, embed_dims)`):
        Conditional embeddings (embeddings computed from the input conditions such as prompts) to use.
    pooled_projections (`torch.Tensor` of shape `(batch_size, projection_dim)`):
        Embeddings projected from the embeddings of input conditions.
    timestep (`torch.LongTensor`):
        Used to indicate denoising step.
    block_controlnet_hidden_states (`list` of `torch.Tensor`):
        A list of tensors that if specified are added to the residuals of transformer blocks.
    joint_attention_kwargs (`dict`, *optional*):
        A kwargs dictionary that if specified is passed along to the `AttentionProcessor` as defined under
        `self.processor` in
        [diffusers.models.attention_processor](https://github.com/huggingface/diffusers/blob/main/src/diffusers/models/attention_processor.py).
    return_dict (`bool`, *optional*, defaults to `True`):
        Whether or not to return a [`~models.transformer_2d.Transformer2DModelOutput`] instead of a plain
        tuple.
    skip_layers (`list` of `int`, *optional*):
        A list of layer indices to skip during the forward pass.

Returns:
    If `return_dict` is True, an [`~models.transformer_2d.Transformer2DModelOutput`] is returned, otherwise a
    `tuple` where the first element is the sample tensor.
éþÿÿÿNÚip_adapter_image_embeds)Úip_hidden_statesr;   TF)r:   r>   r;   r¡   r   )Úshapeznhwpqc->nchpwq)Úsample)r«   rW   rl   rn   ÚpopÚ
image_projÚupdateÚ	enumeraterq   rO   Úis_grad_enabledrt   Ú_gradient_checkpointing_funcri   ÚlenrN   rr   rs   ÚconfigrZ   Úreshaper`   Úeinsumr   )r5   r:   r>   r¢   r£   r¤   r¡   r¥   r¦   re   rf   r;   r©   rª   Úip_tembÚindex_blockÚblockÚis_skipÚinterval_controlrZ   Úoutputs                        r7   rH   ÚSD3Transformer2DModel.forwardø   sE  € ðR &×+Ñ+¨B¨CÐ0‰ˆàŸ™ }Ó5ˆØ×#Ñ# HÓAˆØ $× 5Ñ 5Ð6KÓ LÐà!Ñ-Ð2KÐOeÓ2eØ&<×&@Ñ&@ÐAZÓ&[Ð#Ø(,¯©Ð8OÓ(ZÑ%Ðà"×)Ñ)Ð;KÐ)ÑZä"+¨D×,CÑ,CÖ"DÑˆK˜à)Ñ5¸+Ó:T‘dÐZ_ˆGä×$Ò$×&Ñ&¨4×+F×+FÎwØ7;×7XÑ7XØØ!Ø)ØØ*ó8Ñ4Ð% }ö Ù7<Ø"/Ø*?ØØ+Añ	8Ñ4Ð%ð .Ó9¸e×>TÑ>TÐX]Ô>]Ü#& t×'>Ñ'>Ó#?Ä#ÐFdÓBeÑ#eÐ Ø -ÌsÐS^ÐaqÑSqÓOrÑ0sÑ s’ñ/ #Eð2 Ÿ™ mÓ:ˆØŸ™ mÓ4ˆð —[‘[×+Ñ+ˆ
Ø˜:Ñ%ˆØ˜Ñ#ˆà%×-Ñ-Ø ×&Ñ& qÑ)¨6¸*ÀjÐRV×RcÑRcÐdð .ð 
ˆô ŸšÐ%5°}ÓEˆØ×&Ñ&Ø ×&Ñ& qÑ)¨4×+<Ñ+<¸fÀzÑ>QÐSXÐ[eÑSeÐfð 'ð 
ˆö Ø9Ðä'¨vÑ6Ð6r9   )
rn   rt   rk   rr   r’   r`   rW   rs   rl   rq   )é€   r   é   é   é@   rÀ   i   i€  i   r¿   é`   © N)Nr   )NNNNNTN)rJ   rK   rL   rM   Ú__doc__Ú _supports_gradient_checkpointingÚ_no_split_modulesÚ _skip_layerwise_casting_patternsr   rN   Útupler•   r.   rˆ   r   rœ   rŸ   r
   rO   rP   Ú
LongTensorÚlistÚdictr   Úboolr   rH   rQ   rR   rS   s   @r7   rU   rU   O   sè  ø† ñðB (,Ð$Ø0Ð1ÐØ(3°VÐ'<Ð$àð ØØØØ"$Ø#%Ø#'Ø&*Ø%)ØØ"$ð Ø"ñ!4,àð4,ð ð4,ð ð	4,ð
 ð4,ð  ð4,ð !ð4,ð !ð4,ð !$ð4,ð  #ð4,ð ð4,ð  ð4,ð  %ØˆHñ 
ð4,ð  t‘÷!4,ó ð4,ñn?°#¸±*ð ?È#ð ?ÐVZõ ?ò<	7ò>ò,Cñ Ð.Ó/ð /3Ø+/Ø%)Ø/3Ø8<Ø Ø(,ñ`7à—|‘|ð`7ð  %Ÿ|™|ð`7ð "ŸL™Lð	`7ð
 ×"Ñ"ð`7ð )-ð`7ð !% S¨# X¡°Ñ 5ð`7ð ð`7ð ˜#‘Y Ñ%ð`7ð 
‰Ð0Ñ	0ô`7ó 0ö`7r9   rU   ))Útypingr   rO   Útorch.nnr1   Úconfiguration_utilsr   r   Úloadersr   r   r	   Úutilsr
   r   Úutils.torch_utilsr   Ú	attentionr   r   r   Úattention_processorr   r   r   Ú
embeddingsr   r   Úmodeling_outputsr   Úmodeling_utilsr   Únormalizationr   r   Ú
get_loggerrJ   Úloggerr‡   r   rU   rÃ   r9   r7   Ú<module>rÛ      sŒ   ðõ ã Ý ç Bß ]Ñ ]ß .Ý 5ß JÑ J÷ñ ÷
 HÝ 7Ý 'ß Dð 
×	Ò	˜HÓ	%€ð ô% §	¡	ó %ó ð%ôPJ7Ø Ð-=Ð?UÐWsõJ7r9   