ó
    Z– jøP ã                   óš  • S r SSKrSSKrSSKJr  SSKrSSKJrJr  SSKJ	r	  SSK
Jr  SSKJrJrJr  SS	KJr  SS
KJr  SSKJr  SSKJr  SSKJrJrJr  SSKJr  \R<                  " \5      r S?S jr!S r"S?S jr#S r$\" SS9\ " S S\5      5       5       r%\" SS9\ " S S\5      5       5       r&\" SS9\ " S S\5      5       5       r'\" SS9\ " S S\5      5       5       r(\ " S  S!\5      5       r) " S" S#\RT                  5      r+ " S$ S%\RX                  5      r- " S& S'\RX                  5      r. " S( S)\RX                  5      r/ " S* S+\5      r0 " S, S-\5      r1\" S.S9 " S/ S0\)5      5       r2\" S1S9 " S2 S3\)5      5       r3\ " S4 S5\)5      5       r4\" S6S9 " S7 S8\)\5      5       r5\" S9S9 " S: S;\)\5      5       r6 " S< S=\)5      r7/ S>Qr8g)@zRPyTorch ProphetNet model, ported from ProphetNet repo(fairsequery_states version).é    N)Ú	dataclass)ÚTensorÚnn)Ú	LayerNormé   )ÚACT2FN)ÚCacheÚDynamicCacheÚEncoderDecoderCache)ÚGenerationMixin)ÚGradientCheckpointingLayer)ÚBaseModelOutput)ÚPreTrainedModel)ÚModelOutputÚauto_docstringÚloggingé   )ÚProphetNetConfigc                 óÀ   • U(       a,  [         R                  R                  U R                  5       US9$ [         R                  R                  X[        R
                  S9$ )N©Údim©r   Údtype)r   Ú
functionalÚsoftmaxÚfloatÚtorchÚfloat32)Úhidden_stater   Ú
onnx_traces      Úƒ/root/GenerationalWealth/GenerationalWealth/venv/lib/python3.13/site-packages/transformers/models/prophetnet/modeling_prophetnet.pyr   r   %   sF   € ÞÜ}‰}×$Ñ$ \×%7Ñ%7Ó%9¸sÐ$ÐCÐCä}‰}×$Ñ$ \Ä%Ç-Á-Ð$ÐPÐPó    c                 óh  • [         R                  " XU 4X#S9[         R                  " U5      R                  -  nUR	                  5       R                  5       n[        U5       H,  nXV   R                  SSS9  XF   R                  U* S-   5        M.     SUSS2SS2S4'   [         R                  " XE/SS9$ )	z8
This function computes the bias for the predict stream
)Údevicer   r   F)Úwrapr   Né   r   )
r   ÚonesÚfinfoÚminÚdetachÚcloneÚrangeÚfill_diagonal_Útriu_Úcat)Úsequence_lengthÚngramr$   r   Ú
left_blockÚright_blockÚ
stream_idxs          r!   Úngram_attention_biasr5   ,   s®   € ô
 	
Š
E¨OÐ<ÀVÑYÔ\a×\gÒ\gÐhmÓ\n×\rÑ\rÑrð ð ×#Ñ#Ó%×+Ñ+Ó-€Kä˜E–lˆ
ØÑ×.Ñ.¨q°uÐ.Ñ=ØÑ×$Ñ$ j [°1¡_Ö5ñ #ð €JŠq’!QˆwÑÜ9Š9jÐ.°AÑ6Ð6r"   c                 ó¾  • U* nSnU(       a[  U S-  n U[         R                  " U[         R                  " U5      5      R                  5       U -  -   n[         R                  " U5      nO+[         R
                  " U[         R                  " U5      5      nU S-  n[         R                  " XF5      nU[         R                  " UR                  5       U-  5      [        R                  " X-  5      -  X-
  -  -   n[         R                  " U[         R                  " U5      U S-
  -  5      R                  5       nU[         R                  " XtR                  5       U5      -   nU$ )zg
This function computes individual parts of the relative position buckets. For more detail, see paper.
r   r&   r   )r   ÚltÚ
zeros_likeÚintÚabsÚmaxÚlogr   Úmathr)   Ú	ones_likeÚwhere)	Únum_bucketsÚmax_distanceÚrelative_positionsÚis_bidirectionalÚinv_relative_positionsÚrel_positions_bucketÚ	max_exactÚis_smallÚval_if_larges	            r!   Úcompute_relative_bucketsrI   =   s>  € ð 1Ð0ÐØÐæØ! QÑ&ˆà ÜhŠhÐ-¬u×/?Ò/?Ð@VÓ/WÓX×\Ñ\Ó^ÐalÑlñmð 	ô "'§¢Ð+AÓ!BÑä!&§¢Ð+AÄ5×CSÒCSÐTjÓCkÓ!lÐà˜qÑ €IÜxŠxÐ.Ó:€HØœuŸyšyÐ)?×)EÑ)EÓ)GÈ)Ñ)SÓTÔW[×W_ÒW_ØÑ óXñ  à	Ñ	 ñ "ñ "€Lô —9’9˜\¬5¯?ª?¸<Ó+HÈKÐZ[ÉOÑ+\Ó]×aÑaÓc€LØ/´%·+²+¸h×HbÑHbÓHdÐfrÓ2sÑsÐØÐr"   c                 óx  • UR                  S5      R                  SUR                  S5      S5      nX2R                  S5      -
  n[        R                  " US-
  U4SS9R                  S5      nUR                  SUR                  S5      S5      nXBR                  S5      -
  n[        XUSS9n[        XUSS9nXV4$ )ze
This function computes both main and predict relative position buckets. For more detail, see paper.
r   éÿÿÿÿr   F)rC   )Ú	unsqueezeÚrepeatÚsizer   r/   rI   )r@   rA   Úposition_idsÚmain_stream_relative_positionsÚ$predicting_stream_relative_positionsÚmain_relative_position_bucketsÚ!predict_relative_position_bucketss          r!   Ú#compute_all_stream_relative_bucketsrT   X   sá   € ð
 &2×%;Ñ%;¸AÓ%>×%EÑ%EÀaÈ×IZÑIZÐ[]ÓI^Ð`aÓ%bÐ"Ø%C×F\ÑF\Ð]_ÓF`Ñ%`Ð"ô ,1¯9ª9°lÀQÑ6FÈÐ5UÐ[]Ñ+^×+hÑ+hÐijÓ+kÐ(Ø+O×+VÑ+VÐWXÐZf×ZkÑZkÐlnÓZoÐqrÓ+sÐ(Ø+O×RhÑRhÐikÓRlÑ+lÐ(ô &>ØÐ#AÐTYñ&Ð"ô )AØÐ#GÐZ_ñ)Ð%ð *ÐLÐLr"   zF
    Base class for sequence-to-sequence language models outputs.
    )Úcustom_introc                   ó  • \ rS rSr% SrSr\R                  S-  \S'   Sr	\R                  S-  \S'   Sr
\R                  S-  \S'   Sr\S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S	'   Sr\\R                     S-  \S
'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Sr\R                  S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Srg)ÚProphetNetSeq2SeqLMOutputéo   ar  
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss.
logits (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the main stream language modeling head (scores for each vocabulary token before
    SoftMax).
logits_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the predict stream language modeling head (scores for each vocabulary token before
    SoftMax).
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
decoder_ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
decoder_ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the self-attention heads.
encoder_last_hidden_state (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder of the model.
NÚlossÚlogitsÚlogits_ngramÚpast_key_valuesÚdecoder_hidden_statesÚdecoder_ngram_hidden_statesÚdecoder_attentionsÚdecoder_ngram_attentionsÚcross_attentionsÚencoder_last_hidden_stateÚencoder_hidden_statesÚencoder_attentions© )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__rY   r   ÚFloatTensorÚ__annotations__rZ   r[   r\   r	   r]   Útupler^   r_   r`   ra   rb   rc   rd   Ú__static_attributes__re   r"   r!   rW   rW   o   s)  ‡ ñð< &*€Dˆ%×
Ñ
˜dÑ
"Ó)Ø'+€FˆE×Ñ Ñ$Ó+Ø-1€L%×#Ñ# dÑ*Ó1Ø$(€OU˜T‘\Ó(Ø=AÐ˜5 ×!2Ñ!2Ñ3°dÑ:ÓAØCGÐ  u×'8Ñ'8Ñ!9¸DÑ!@ÓGØ:>Ð˜˜e×/Ñ/Ñ0°4Ñ7Ó>Ø@DÐ˜e E×$5Ñ$5Ñ6¸Ñ=ÓDØ8<Ðe˜E×-Ñ-Ñ.°Ñ5Ó<Ø:>Ð˜u×0Ñ0°4Ñ7Ó>Ø=AÐ˜5 ×!2Ñ!2Ñ3°dÑ:ÓAØ:>Ð˜˜e×/Ñ/Ñ0°4Ñ7Ö>r"   rW   z‹
    Base class for model encoder's outputs that also contains : pre-computed hidden states that can speed up sequential
    decoding.
    c                   óÞ  • \ rS rSr% Sr\R                  \S'   Sr\R                  S-  \S'   Sr	\
S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S	'   Sr\\R                     S-  \S
'   Sr\\R                     S-  \S'   Sr\R                  S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Srg)ÚProphetNetSeq2SeqModelOutputé¢   ad  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, hidden_size)`):
    Sequence of main stream hidden-states at the output of the last layer of the decoder of the model.

    If `past_key_values` is used only the last hidden-state of the sequences of shape `(batch_size, 1,
    hidden_size)` is output.
last_hidden_state_ngram (`torch.FloatTensor` of shape `(batch_size,ngram * decoder_sequence_length, config.vocab_size)`, *optional*):
    Sequence of predict stream hidden-states at the output of the last layer of the decoder of the model.
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
decoder_ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
decoder_ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
encoder_last_hidden_state (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
    Sequence of hidden-states at the output of the last layer of the encoder of the model.
Úlast_hidden_stateNÚlast_hidden_state_ngramr\   r]   r^   r_   r`   ra   rb   rc   rd   re   )rf   rg   rh   ri   rj   r   rk   rl   rs   r\   r	   r]   rm   r^   r_   r`   ra   rb   rc   rd   rn   re   r"   r!   rp   rp   ¢   s  ‡ ñð: ×(Ñ(Ó(Ø8<Ð˜U×.Ñ.°Ñ5Ó<Ø$(€OU˜T‘\Ó(Ø=AÐ˜5 ×!2Ñ!2Ñ3°dÑ:ÓAØCGÐ  u×'8Ñ'8Ñ!9¸DÑ!@ÓGØ:>Ð˜˜e×/Ñ/Ñ0°4Ñ7Ó>Ø@DÐ˜e E×$5Ñ$5Ñ6¸Ñ=ÓDØ8<Ðe˜E×-Ñ-Ñ.°Ñ5Ó<Ø:>Ð˜u×0Ñ0°4Ñ7Ó>Ø=AÐ˜5 ×!2Ñ!2Ñ3°dÑ:ÓAØ:>Ð˜˜e×/Ñ/Ñ0°4Ñ7Ö>r"   rp   zs
    Base class for model's outputs that may also contain a past key/values (to speed up sequential decoding).
    c                   óZ  • \ rS rSr% Sr\R                  \S'   Sr\R                  S-  \S'   Sr	\
S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S	'   Sr\\R                     S-  \S
'   Sr\\R                     S-  \S'   Srg)ÚProphetNetDecoderModelOutputéÔ   as  
last_hidden_state (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, hidden_size)`):
    Sequence of main stream hidden-states at the output of the last layer of the decoder of the model.

    If `past_key_values` is used only the last hidden-state of the sequences of shape `(batch_size, 1,
    hidden_size)` is output.
last_hidden_state_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Sequence of predict stream hidden-states at the output of the last layer of the decoder of the model.
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
hidden_states_ngram (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
rr   Nrs   r\   Úhidden_statesÚhidden_states_ngramÚ
attentionsÚngram_attentionsra   re   )rf   rg   rh   ri   rj   r   rk   rl   rs   r\   r	   rw   rm   rx   ry   rz   ra   rn   re   r"   r!   ru   ru   Ô   s¾   ‡ ñð6 ×(Ñ(Ó(Ø8<Ð˜U×.Ñ.°Ñ5Ó<Ø$(€OU˜T‘\Ó(Ø59€M5˜×*Ñ*Ñ+¨dÑ2Ó9Ø;?Ð˜˜u×0Ñ0Ñ1°DÑ8Ó?Ø26€Je×'Ñ'Ñ(¨4Ñ/Ó6Ø8<Ðe˜E×-Ñ-Ñ.°Ñ5Ó<Ø8<Ðe˜E×-Ñ-Ñ.°Ñ5Ö<r"   ru   c                   óŒ  • \ rS rSr% SrSr\R                  S-  \S'   Sr	\R                  S-  \S'   Sr
\R                  S-  \S'   Sr\S-  \S'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S	'   Sr\\R                     S-  \S
'   Sr\\R                     S-  \S'   Sr\\R                     S-  \S'   Srg)ÚProphetNetDecoderLMOutputé   aF	  
ngram_hidden_states (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
    Language modeling loss.
logits (`torch.FloatTensor` of shape `(batch_size, decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the main stream language modeling head (scores for each vocabulary token before
    SoftMax).
logits_ngram (`torch.FloatTensor` of shape `(batch_size, ngram * decoder_sequence_length, config.vocab_size)`):
    Prediction scores of the predict stream language modeling head (scores for each vocabulary token before
    SoftMax).
past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
    It is a [`~cache_utils.Cache`] instance. For more details, see our [kv cache guide](https://huggingface.co/docs/transformers/en/kv_cache).

    Contains pre-computed hidden-states (key and values in the attention blocks) of the decoder that can be
    used (see `past_key_values` input) to speed up sequential decoding.
hidden_states_ngram (`tuple(torch.FloatTensor)`, *optional*, returned when `output_hidden_states=True` is passed or when `config.output_hidden_states=True`):
    Tuple of `torch.FloatTensor` (one for the output of the embeddings + one for the output of each layer) of
    shape `(batch_size, ngram * decoder_sequence_length, hidden_size)`.

    Hidden-states of the predict stream of the decoder at the output of each layer plus the initial embedding
    outputs.
ngram_attentions (`tuple(torch.FloatTensor)`, *optional*, returned when `output_attentions=True` is passed or when `config.output_attentions=True`):
    Tuple of `torch.FloatTensor` (one for each layer) of shape `(batch_size, num_attn_heads,
    decoder_sequence_length, decoder_sequence_length)`.

    Attentions weights of the predict stream of the decoder, after the attention softmax, used to compute the
    weighted average in the
NrY   rZ   r[   r\   rw   rx   ry   rz   ra   re   )rf   rg   rh   ri   rj   rY   r   rk   rl   rZ   r[   r\   r	   rw   rm   rx   ry   rz   ra   rn   re   r"   r!   r|   r|      sÜ   ‡ ñ ðD &*€Dˆ%×
Ñ
˜dÑ
"Ó)Ø'+€FˆE×Ñ Ñ$Ó+Ø-1€L%×#Ñ# dÑ*Ó1Ø$(€OU˜T‘\Ó(Ø59€M5˜×*Ñ*Ñ+¨dÑ2Ó9Ø;?Ð˜˜u×0Ñ0Ñ1°DÑ8Ó?Ø26€Je×'Ñ'Ñ(¨4Ñ/Ó6Ø8<Ðe˜E×-Ñ-Ñ.°Ñ5Ó<Ø8<Ðe˜E×-Ñ-Ñ.°Ñ5Ö<r"   r|   c                   ó.   • \ rS rSr% \\S'   SrSrS rSr	g)ÚProphetNetPreTrainedModeli4  ÚconfigÚ
prophetnetTc                 ó  • U R                   R                  nU R                   R                  nUc   S5       eUR                  UR                  5      nUSS S24   R                  5       USSS 24'   X$S'   Uc   S5       eUR                  US:H  U5        [        R                  " US:¬  5      R                  5       (       d   S	5       eU$ )
Nz™self.model.config.decoder_start_token_id has to be defined. In ProphetNet it is usually set to the pad_token_id. See ProphetNet docs for more information.rK   r   ).r   z1self.model.config.pad_token_id has to be defined.éœÿÿÿr   z8Verify that `shifted_input_ids` has only positive values)
r€   Údecoder_start_token_idÚpad_token_idÚ	new_zerosÚshaper+   Úmasked_fill_r   ÚallÚitem)ÚselfÚ	input_idsr„   r…   Úshifted_input_idss        r!   Ú_shift_rightÚ&ProphetNetPreTrainedModel._shift_right:  sØ   € Ø!%§¡×!CÑ!CÐØ—{‘{×/Ñ/ˆà%Ñ1ð 	
ðFó	
Ð1ð &×/Ñ/°	·±Ó@ÐØ%.¨s°C°R°C¨xÑ%8×%>Ñ%>Ó%@Ð˜#˜q™r˜'Ñ"Ø$:˜&Ñ!àÑ'Ð\Ð)\Ó\Ð'à×&Ñ&Ð'8¸DÑ'@À,ÔOäyŠyÐ*¨aÑ/Ó0×5Ñ5×7Ñ7ÐsÐ9sÓsÐ7à Ð r"   re   N)
rf   rg   rh   ri   r   rl   Úbase_model_prefixÚsupports_gradient_checkpointingrŽ   rn   re   r"   r!   r   r   4  s   ‡ àÓØ$ÐØ&*Ð#õ!r"   r   c                   óT   ^ • \ rS rSrSrS\SS4U 4S jjrS
U 4S jjrU 4S jrS	r	U =r
$ )ÚProphetNetPositionalEmbeddingsiQ  zý
This module learns positional embeddings up to a fixed maximum size. Padding ids are ignored by either offsetting
based on padding_idx or by setting padding_idx to None and ensuring that the appropriate position ids are passed to
the forward function.
r€   ÚreturnNc                 ó†   >• UR                   U l        [        TU ]  UR                   UR                  UR
                  5        g ©N)Úmax_position_embeddingsÚ
max_lengthÚsuperÚ__init__Úhidden_sizer…   ©r‹   r€   Ú	__class__s     €r!   rš   Ú'ProphetNetPositionalEmbeddings.__init__X  s3   ø€ Ø ×8Ñ8ˆŒÜ‰Ñ˜×7Ñ7¸×9KÑ9KÈV×M`ÑM`Õar"   c                 óD  >• Ub  U R                   b   S5       eUcõ  Ubj  UR                  5       S:w  aV  UR                  5       nUS   U-   n[        R                  " S[        R                  US9[        U R                   U-   5      -  nOˆUc$  [        R                  " U[        R                  US9n[        R                  " USS9R                  U5      U-  R	                  5       U R                   -   nUR                  SU R                  S-
  5      n[        TU ]-  U5      U4$ )NzCIf position_ids is pre-computed then padding_idx should not be set.r   r   )r   r   ©r   r$   r   )Úpadding_idxÚget_seq_lengthr   r'   Úlongr9   ÚcumsumÚtype_asÚclampr˜   r™   Úforward)	r‹   Úinputs_shaper$   Úattention_maskr\   rO   Úprev_num_input_idsÚnum_input_idsr   s	           €r!   r§   Ú&ProphetNetPositionalEmbeddings.forward\  s  ø€ ØÑ$¨$×*:Ñ*:Ñ*Bð 	
ØQó	
ÐCð ÑØÑ*¨×/MÑ/MÓ/OÐSTÓ/Tð &5×%CÑ%CÓ%EÐ"Ø ,¨Q¡Ð2DÑ DÜ$Ÿzšz¨&¼¿
¹
È6ÑRÜ˜×(Ñ(¨=Ñ8Ó9ñ ‘ð "Ñ)Ü%*§Z¢Z°ÄEÇJÁJÐW]Ñ%^Nô —L’L °QÑ7×?Ñ?ÀÓOÐR`Ñ`ß‘$“&˜4×+Ñ+ñ ,ð
  ,×1Ñ1°!°T·_±_ÀqÑ5HÓIä‰w‰˜|Ó,¨lÐ:Ð:r"   c                 ó"   >• [         TU ]  U5      $ r–   )r™   r§   )r‹   rO   r   s     €r!   Ú_forwardÚ'ProphetNetPositionalEmbeddings._forwardx  s   ø€ Ü‰w‰˜|Ó,Ð,r"   )r˜   )NNN)rf   rg   rh   ri   rj   r   rš   r§   r®   rn   Ú__classcell__©r   s   @r!   r“   r“   Q  s.   ø† ñðbÐ/ð b°D÷ b÷;÷8-ó -r"   r“   c                   ó˜   ^ • \ rS rSrSrSS\S\S\S-  4U 4S jjjr    SS\S-  S	\S-  S
\	S-  S\
S-  S\\\S-  4   4
S jjrSrU =r$ )ÚProphetNetAttentioni|  z=Multi-headed attention from 'Attention Is All You Need' paperNr€   Únum_attn_headsÚ	layer_idxc                 ó´  >• [         TU ]  5         UR                  nUR                  U l        UR                  U l        X l        XB-  U l        X0l        U R                  U-  U:X  d   S5       e[        R                  " XD5      U l
        [        R                  " XD5      U l        [        R                  " XD5      U l        [        R                  " XD5      U l        g )Nzw`config.hidden_size` must be divisible by `config.num_encoder_attention_heads` and `config.num_decoder_attention_heads`)r™   rš   r›   Úattention_dropoutÚdropoutr´   Úhead_dimrµ   r   ÚLinearÚkey_projÚ
value_projÚ
query_projÚout_proj)r‹   r€   r´   rµ   r›   r   s        €r!   rš   ÚProphetNetAttention.__init__  s¬   ø€ Ü‰ÑÔØ×(Ñ(ˆà!'×!9Ñ!9ˆÔØ—~‘~ˆŒØ,ÔØ#Ñ5ˆŒØ"Œà}‰}˜~Ñ-°Ó<ð 	
ð4ó	
Ð<ô
 Ÿ	š	 +Ó;ˆŒÜŸ)š) KÓ=ˆŒÜŸ)š) KÓ=ˆŒäŸ	š	 +Ó;ˆr"   Úkey_value_statesr©   r\   Úoutput_attentionsr”   c                 óÌ  • UR                  5       u  pxn	US Ln
[        UR                  5       5      UUU	/:X  d   SXxU	4 SUR                  5        35       eU R                  U5      U R                  S-  -  nSnUb]  [	        U[
        5      (       aF  UR                  R                  U R                  5      nU
(       a  UR                  nOUR                  nOUnU
(       a  UOUnU
(       aQ  UbN  U(       aG  WR                  U R                     R                  nUR                  U R                     R                  nOêU R                  U5      nU R                  U5      nUR!                  USU R"                  U R                  5      R%                  SS5      nUR!                  USU R"                  U R                  5      R%                  SS5      nUbU  WR'                  UUU R                  5      u  nnU
(       a.  [	        U[
        5      (       a  SUR                  U R                  '   UR!                  XxU R"                  U R                  5      R%                  SS5      nUR                  S5      n[(        R*                  " S	X¿R%                  SS
5      5      nXpR"                  UU4nUR                  5       U:w  a  [-        SU SUR                  5        35      eUb  UR/                  5       S:X  a  S nXpR"                  SU4nUb3  UR                  5       U:w  a  [-        SU SUR                  5        35      eUb  UU-   nU(       a  UnOS n[0        R2                  R5                  USS9n[0        R2                  R7                  UU R8                  U R:                  S9n[(        R*                  " S	UU5      nXpR"                  X€R                  4nUR                  5       U:w  a  [-        SU SUR                  5        35      eUR%                  SS5      R=                  XxU	5      nU R?                  U5      n[0        R2                  R7                  UU R6                  U R:                  S9nUU4$ )Nz Size of hidden states should be z	, but is ç      à?FrK   r   r&   Tzbsij,bsjk->bsikr   z#Attention weights should have size r   z Attention mask should have size r   ©ÚpÚtrainingz `attn_output` should have shape ú, but is of shape ) rN   Úlistr½   r¹   Ú
isinstancer   Ú
is_updatedÚgetrµ   Úcross_attention_cacheÚself_attention_cacheÚlayersÚkeysÚvaluesr»   r¼   Úviewr´   Ú	transposeÚupdater   ÚeinsumÚ
ValueErrorr   r   r   r   r¸   r·   rÆ   Úreshaper¾   )r‹   rw   rÀ   r©   r\   rÁ   ÚkwargsÚ
batch_sizeÚtgt_lenr›   Úis_cross_attentionÚquery_statesrÊ   Úcurr_past_key_valuesÚcurrent_statesÚ
key_statesÚvalue_statesÚsrc_lenÚattn_weightsÚexpected_shapeÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                          r!   r§   ÚProphetNetAttention.forward”  s0  € ð ,9×+=Ñ+=Ó+?Ñ(ˆ
˜[ð .°TÐ9ÐÜM×&Ñ&Ó(Ó)ØØØð.
ó 
ð 	pð .¨jÀ;Ð.NÐ-OÈyÐYf×YkÑYkÓYmÐXnÐoó		pð 
ð —‘ }Ó5¸¿¹ÈÑ9KÑLˆàˆ
ØÑ&Ü˜/Ô+>×?Ñ?Ø,×7Ñ7×;Ñ;¸D¿N¹NÓK
Þ%à+:×+PÑ+PÑ(à+:×+OÑ+OÑ(à'6Ð$æ-?Ñ)À]ˆÞ /Ñ"=Æ*à-×4Ñ4°T·^±^ÑD×IÑIˆJØ/×6Ñ6°t·~±~ÑF×MÑM‰LàŸ™ ~Ó6ˆJØŸ?™?¨>Ó:ˆLØ#Ÿ™¨°R¸×9LÑ9LÈdÏmÉmÓ\×fÑfÐghÐjkÓlˆJØ'×,Ñ,¨Z¸¸T×=PÑ=PÐRV×R_ÑR_Ó`×jÑjÐklÐnoÓpˆLàÑ*à+?×+FÑ+FÀzÐS_Ðae×aoÑaoÓ+pÑ(
˜Læ%¬*°_ÔFY×*ZÑ*ZØAEO×.Ñ.¨t¯~©~Ñ>à#×(Ñ(¨¸d×>QÑ>QÐSW×S`ÑS`Óa×kÑkÐlmÐopÓqˆØ—/‘/ !Ó$ˆä—|’|Ð$5°|×EYÑEYÐZ[Ð]^ÓE_Ó`ˆØ$×&9Ñ&9¸7ÀGÐLˆØ×ÑÓ .Ó0ÜÐBÀ>ÐBRÐR[Ð\h×\mÑ\mÓ\oÐ[pÐqÓrÐrð Ñ%¨.×*<Ñ*<Ó*>À!Ó*CØ!ˆNà$×&9Ñ&9¸1¸gÐFˆØÑ%¨.×*=Ñ*=Ó*?À>Ó*QÜÐ?ÀÐ?OÈyÐYg×YlÑYlÓYnÐXoÐpÓqÐqØÑ%Ø'¨.Ñ8ˆLÞØ$0Ñ!à$(Ð!ä—}‘}×,Ñ,¨\¸rÐ,ÐBˆä—]‘]×*Ñ*ØØ×$Ñ$Ø—]‘]ð +ð 
ˆ
ô
 —l’lÐ#4°jÀ,ÓOˆØ$×&9Ñ&9¸7ÇMÁMÐRˆØ×ÑÓ Ó/ÜÐ?ÀÐ?OÐOaÐbm×brÑbrÓbtÐauÐvÓwÐwà!×+Ñ+¨A¨qÓ1×9Ñ9¸*È{Ó[ˆØ—m‘m KÓ0ˆä—m‘m×+Ñ+¨K¸4¿<¹<ÐRV×R_ÑR_Ð+Ð`ˆØÐ1Ð1Ð1r"   )	r·   r¸   r¹   r»   rµ   r´   r¾   r½   r¼   r–   )NNNF)rf   rg   rh   ri   rj   r   r9   rš   r   r	   Úboolrm   r§   rn   r°   r±   s   @r!   r³   r³   |  sœ   ø† ÙGñ<Ð/ð <Àð <ÐQTÐW[ÑQ[÷ <ð <ð0 +/Ø(,Ø(,Ø).ñ[2ð ! 4™-ð[2ð  ™ð	[2ð
  ™ð[2ð   $™;ð[2ð 
ˆvv ‘}Ð$Ñ	%÷[2ó [2r"   r³   c                   ó>   ^ • \ rS rSrSrS\S\4U 4S jjrS rSr	U =r
$ )ÚProphetNetFeedForwardiò  ze
This is the residual two feed-forward layer block based on the original Transformer implementation.
r€   Úffn_dimc                 ó,  >• [         TU ]  5         [        UR                     U l        [
        R                  " UR                  U5      U l        [
        R                  " X!R                  5      U l	        UR                  U l
        UR                  U l        g r–   )r™   rš   r   Úactivation_functionÚactivation_fnr   rº   r›   ÚintermediateÚoutputÚactivation_dropoutr¸   )r‹   r€   rê   r   s      €r!   rš   ÚProphetNetFeedForward.__init__÷  si   ø€ Ü‰ÑÔÜ# F×$>Ñ$>Ñ?ˆÔÜŸIšI f×&8Ñ&8¸'ÓBˆÔÜ—i’i ×);Ñ);Ó<ˆŒØ"(×";Ñ";ˆÔØ—~‘~ˆr"   c                 ó4  • U R                  U5      nU R                  U5      n[        R                  R	                  XR
                  U R                  S9nU R                  U5      n[        R                  R	                  XR                  U R                  S9nU$ )NrÄ   )rî   rí   r   r   r¸   rð   rÆ   rï   )r‹   rw   s     r!   r§   ÚProphetNetFeedForward.forwardÿ  s€   € Ø×)Ñ)¨-Ó8ˆØ×*Ñ*¨=Ó9ˆäŸ™×-Ñ-¨m×?VÑ?VÐae×anÑanÐ-ÐoˆØŸ™ MÓ2ˆÜŸ™×-Ñ-¨m¿|¹|ÐVZ×VcÑVcÐ-ÐdˆØÐr"   )rð   rí   r¸   rî   rï   )rf   rg   rh   ri   rj   r   r9   rš   r§   rn   r°   r±   s   @r!   ré   ré   ò  s&   ø† ñð&Ð/ð &¸#÷ &÷ð r"   ré   c                   óp   ^ • \ rS rSrSS\4U 4S jjjrS rS r      SS\S-  4S jjr	S	 r
S
 rSrU =r$ )ÚProphetNetNgramSelfAttentioni	  Nr€   c                 ó¼  >• [         TU ]  5         UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        UR                  U l        UR                  U R                  -  U l	        UR                  U l
        X l        U R                  U R                  -  UR                  :X  d   S5       e[        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  UR                  5      U l        [        R                  " UR                  U R                  U R                  -  5      U l        SU l        g )Nz6config.hidden_size must be divisible by num_attn_headsF)r™   rš   r›   r@   Úrelative_max_distanceÚnum_decoder_attention_headsr´   r¸   r·   r¹   r1   rµ   r   rº   r»   r¼   r½   r¾   Úrelative_pos_embeddingsr    ©r‹   r€   rµ   r   s      €r!   rš   Ú%ProphetNetNgramSelfAttention.__init__
  sf  ø€ Ü‰ÑÔØ!×-Ñ-ˆÔà!×-Ñ-ˆÔØ%+×%AÑ%AˆÔ"Ø$×@Ñ@ˆÔØ—~‘~ˆŒØ!'×!9Ñ!9ˆÔØ×*Ñ*¨d×.AÑ.AÑAˆŒØ—\‘\ˆŒ
Ø"Œà}‰}˜t×2Ñ2Ñ2°f×6HÑ6HÓHð 	
ØDó	
ÐHô Ÿ	š	 &×"4Ñ"4°f×6HÑ6HÓIˆŒÜŸ)š) F×$6Ñ$6¸×8JÑ8JÓKˆŒÜŸ)š) F×$6Ñ$6¸×8JÑ8JÓKˆŒô Ÿ	š	 &×"4Ñ"4°f×6HÑ6HÓIˆŒô (*§y¢y°×1CÑ1CÀT×EUÑEUÐX\×XkÑXkÑEkÓ'lˆÔ$ð  ˆr"   c                 óŒ   • UR                  X2U R                  U R                  5      R                  SS5      R	                  5       $ ©Nr   r&   )rÑ   r´   r¹   rÒ   Ú
contiguous)r‹   ÚtensorÚseq_lenrØ   s       r!   Ú_shapeÚ#ProphetNetNgramSelfAttention._shape(  s7   € Ø{‰{˜:°×0CÑ0CÀTÇ]Á]ÓS×]Ñ]Ð^_ÐabÓc×nÑnÓpÐpr"   c                 ó   • SU l         g )NT)r    ©r‹   s    r!   Úprepare_for_onnx_export_Ú5ProphetNetNgramSelfAttention.prepare_for_onnx_export_+  s	   € Øˆr"   r\   c           	      ó  • UR                  5       u  pšn[        UR                  5       5      XšU/:X  d   SXšU4 SUR                   35       eU R                  U5      nU R	                  U5      nU R                  U5      nXÀR                  S-  -  nU R                  XÊU	5      nU R                  USU	5      nU R                  USU	5      nXR                  SU R                  4nUR                  " U6 nUR                  " U6 nUR                  " U6 nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUR                  SU R                  -   SS9nUS   USS  nnUS   USS  nnUS   USS  nnUS   USS  nnUbD  [        U[        5      (       a  UR                  nOUnUR                  UUU R                   5      u  nnU
SU R                  -   -  n["        R$                  " S	UUR'                  SS
5      5      nU R)                  UUXu5      nUU-   nUb  UU-   n[+        USU R,                  S9R/                  U5      n [0        R2                  R5                  U U R6                  U R8                  S9n ["        R$                  " S	U U5      n!U!R'                  SS5      R                  U	SUU5      n!U R;                  U!5      n!["        R<                  " US5      R?                  XR                  U R                  UU R                  5      n"["        R<                  " U V#s/ s H  n#["        R@                  " UU#/S5      PM     sn#S5      n$["        R<                  " USS9n%["        R@                  " U V&s/ s H+  n&["        R@                  " UU&/S5      RC                  S5      PM-     sn&S5      n'["        R$                  " SU"U$45      n(U RE                  U%U(Xv5      n)U(U)-   n(Ub5  URG                  SSSS
S5      nURI                  U(RJ                  5      nU(U-   n([+        U(SU R,                  S9R/                  U(5      n*[0        R2                  R5                  U*U R6                  U R8                  S9n*["        R$                  " SU*U'R'                  SS5      45      n+U+R'                  SS
5      n+U+R                  XR                  UU5      n+U R;                  U+5      n+["        R@                  " U!U+/S5      R?                  U	SU5      n,U R?                  XR                  US5      n [0        R2                  R5                  U,U R4                  U R8                  S9n,U,U U*4$ s  sn#f s  sn&f )Nz#`hidden_states` should be of shape rÇ   rÃ   rK   r   r   r&   r   zbntc,bncs->bntsr   )r   r    rÄ   zbnhtc,bnhsc->bnhtsé   zbnhts,bnhsc->bnhtc)&rN   rÈ   r‡   r½   r»   r¼   r¹   r  r´   rÖ   Úchunkr1   rÉ   r   rÍ   rÓ   rµ   r   rÔ   rÒ   Ú get_main_relative_pos_embeddingsr   r    r¥   r   r   r¸   r·   rÆ   r¾   ÚstackrÑ   r/   rL   Ú#get_predict_relative_pos_embeddingsÚpermuteÚtor   )-r‹   rw   r\   r©   Úextended_predict_attention_maskrR   rS   rO   r×   rØ   Úngram_sequence_lengthr›   rÛ   rÞ   rß   Ú
proj_shapeÚhidden_states_listÚquery_states_listÚkey_states_listÚvalue_states_listÚmain_hidden_statesÚhidden_states_predict_listÚmain_query_statesÚpredict_query_states_listÚmain_key_statesÚpredict_key_states_listÚmain_value_statesÚpredict_value_states_listrÜ   r0   Úmain_attn_weightsÚmain_relative_pos_embeddingsÚmain_attn_probsÚmain_attn_outputÚpredict_query_statesÚkeyÚpredict_key_statesÚpredict_hidden_statesÚv_pÚpredict_value_statesÚpredict_attn_weightsÚpredict_relative_pos_embeddingsÚpredict_attn_probsÚpredict_attn_outputrå   s-                                                r!   r§   Ú$ProphetNetNgramSelfAttention.forward.  sö  € ð :G×9KÑ9KÓ9MÑ6ˆ
¨;ÜM×&Ñ&Ó(Ó)¨jÐQ\Ð-]Ó]ð 	
Ø1°*ÐU`Ð2`Ð1að bØ×#Ñ#Ð$ð&ó	
Ð]ð —‘ }Ó5ˆØ—]‘] =Ó1ˆ
Ø—‘ }Ó5ˆð $§}¡}°cÑ'9Ñ:ˆð —{‘{ <È
ÓSˆØ—[‘[ ¨R°Ó<ˆ
Ø—{‘{ <°°ZÓ@ˆØ ×"5Ñ"5°r¸4¿=¹=ÐIˆ
à#×+Ò+¨ZÐ8ˆØ×'Ò'¨Ð4ˆ
Ø#×+Ò+¨ZÐ8ˆð +×0Ñ0°°T·Z±Z±ÀQÐ0ÐGÐØ(×.Ñ.¨q°4·:±:©~À1Ð.ÐEÐØ$×*Ñ*¨1¨t¯z©z©>¸qÐ*ÐAˆØ(×.Ñ.¨q°4·:±:©~À1Ð.ÐEÐà9KÈAÑ9NÐPbÐcdÐceÐPfÐ6ÐØ7HÈÑ7KÐM^Ð_`Ð_aÐMbÐ4ÐØ3BÀ1Ñ3EÀÐWXÐWYÐGZÐ0ˆØ7HÈÑ7KÐM^Ð_`Ð_aÐMbÐ4Ðð Ñ&Ü˜/Ô+>×?Ñ?Ø'6×'KÑ'KÑ$à'6Ð$Ø1E×1LÑ1LØÐ!2°D·N±Nó2Ñ.ˆOÐ.ð
 0°A¸¿
¹
±NÑCˆô "ŸLšLÐ):Ð<MÈ×OhÑOhÐijÐlmÓOnÓoÐð (,×'LÑ'LØÐ 1°<ó(
Ð$ð .Ð0LÑLÐàÑ%Ø 1°NÑ BÐä!ØØØ—‘ñ
÷ ‰'Ð#Ó
$ð	 	ô Ÿ-™-×/Ñ/°À4×CYÑCYÐdh×dqÑdqÐ/Ðrˆô
 !Ÿ<š<Ð(9¸?ÐL]Ó^Ðà+×5Ñ5°a¸Ó;×CÑCÀJÐPQÐSbÐdoÓpÐØŸ=™=Ð)9Ó:Ðô  %Ÿ{š{Ð+DÀaÓH×MÑMØŸ
™
 D×$7Ñ$7¸È$Ï-É-ó 
Ðô
 #Ÿ[š[ÑZqÓ)rÒZqÐSV¬%¯)ª)°_ÀcÐ4JÈAÖ*NÑZqÑ)rÐtuÓvÐô !&§¢Ð,FÈAÑ NÐô  %ŸyšyÙLeÓfÒLeÀSŒUYŠYÐ)¨3Ð/°Ó3×=Ñ=¸aÖ@ÑLeÑfÐhió 
Ðô  %Ÿ|š|Ð,@ÐCWÐYkÐBlÓmÐð +/×*RÑ*RØ!Ð#7¸ó+
Ð'ð
  4Ð6UÑUÐà*Ñ6à.M×.UÑ.UÐVWÐYZÐ\]Ð_`ÐbcÓ.dÐ+Ø.M×.PÑ.PÐQe×QkÑQkÓ.lÐ+Ø#7Ð:YÑ#YÐ ä$Ø ØØ—‘ñ
÷ ‰'Ð&Ó
'ð	 	ô  Ÿ]™]×2Ñ2Ø $×"8Ñ"8À4Ç=Á=ð 3ð 
Ðô $ŸlšlØ Ð#5Ð7K×7UÑ7UÐVWÐYZÓ7[Ð"\ó
Ðð 2×;Ñ;¸A¸qÓAÐØ1×9Ñ9¸*ÇjÁjÐRaÐcnÓoÐØ"Ÿm™mÐ,?Ó@Ðô —i’iÐ!1Ð3FÐ GÈÓK×PÑPÐQ[Ð]_ÐalÓmˆà)×.Ñ.¨z×;NÑ;NÐP_ÐacÓdˆä—m‘m×+Ñ+¨K¸4¿<¹<ÐRV×R_ÑR_Ð+Ð`ˆà˜OÐ-?Ð?Ð?ùò{ *sùò gs   Í
#V Î2Vc                 óü  • UR                   u  pVpxUR                  XVXx5      nUcÄ  UR                   S S u  pY[        R                  " SUR                   S   S-   5      R	                  S5      R	                  S5      R                  XYS5      R                  UR                  5      n
X£R	                  S5      R                  XYS5      -
  n
[        U R                  U R                  U
S5      nU R                  U5      nUR                  UR                   S S U R                  U R                  4-   5      nUR                  SSSS5      nUR                  UR                   S S S-   5      nUR                  SU R                  S5      nUR                  SUR                   S   5      nUR                  5       nUR                  SUR!                  S5      5      n[        R"                  " USUS9nUR                  XVUS5      nU$ )	Nr&   r   rK   r   Fr   )rK   ©r   Úindex)r‡   rÑ   r   ÚarangerL   rM   r  r$   rI   r@   r÷   rù   r´   r  rÖ   r£   rN   Úgather)r‹   rw   rá   rO   rR   rØ   r´   rÙ   rà   r0   rB   Úrel_pos_embeddingsr  s                r!   r
  Ú=ProphetNetNgramSelfAttention.get_main_relative_pos_embeddingsÑ  s  € ð 8D×7IÑ7IÑ4ˆ
 GØ#×(Ñ(¨ÀWÓVˆØ)Ñ1Ø*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJä—’˜Q × 2Ñ 2°2Ñ 6¸Ñ :Ó;ß‘˜1“ß‘˜1“ß‘˜
°QÓ7ß‘L×'Ñ'Ó(ð ð "4×6LÑ6LÈQÓ6O×6VÑ6VÐWaÐtuÓ6vÑ!vÐÜ-EØ× Ñ  $×"<Ñ"<Ð>PÐRWó.Ð*ð
 "×9Ñ9¸-ÓHÐØ/×4Ñ4Ø×$Ñ$ R aÐ(¨D×,<Ñ,<¸d×>QÑ>QÐ+RÑRó
Ðð 0×7Ñ7¸¸1¸aÀÓCÐà/×7Ñ7¸×8JÑ8JÈ2ÈAÐ8NÐQVÑ8VÓWÐà)G×)NÑ)NÈqÐRV×ReÑReÐghÓ)iÐ&à)G×)LÑ)LØÐ.×4Ñ4°RÑ8ó*
Ð&ð *H×)LÑ)LÓ)NÐ&à/×7Ñ7¸Ð<N×<SÑ<SÐTVÓ<WÓXÐä',§|¢|Ð4FÈAÐUsÑ'tÐ$Ø'C×'HÑ'HÈÐelÐnpÓ'qÐ$Ø+Ð+r"   c                 ó   • UR                   SS u  pVUcÈ  UR                   S   nUS   S   US-
  :X  d   S5       e[        R                  " SU5      R                  S5      R                  S5      R	                  XVS5      R                  UR                  5      nXƒR                  S5      R	                  XVS5      -
  n[        U R                  U R                  US5      nUR                  SS5      nU R                  U5      n	U	R                  UR                   S S U R                  U R                  4-   5      n	U	R                  SSSSS5      n	U	R                  SU R                  5      n	UR                  S5      nUR	                  U R                   SU R                  S5      nUR                  SUR#                  S5      5      R%                  5       n[        R&                  " U	SUS	9n
U
R                  XPR                   U R                  US5      n
U
$ )
Nr   r&   rK   r   zb`position_ids` are incorrect. They should be of the format 1 2 3 4 5 ... (key_sequence_length - 1)Fr  r   r.  )r‡   r   r0  rL   rM   r  r$   rI   r@   r÷   rÒ   rù   rÑ   r´   r  rÖ   r1   rN   r£   r1  )r‹   rw   rá   rO   rS   rØ   r0   Úkey_sequence_lengthrB   r2  r)  s              r!   r  Ú@ProphetNetNgramSelfAttention.get_predict_relative_pos_embeddingsþ  s   € ð '4×&9Ñ&9¸!¸AÐ&>Ñ#ˆ
à,Ñ4Ø".×"4Ñ"4°RÑ"8ÐØ ‘? 1Ñ%Ð)<¸qÑ)@Ó@ð ØtóÐ@ô —’˜QÐ 3Ó4ß‘˜1“ß‘˜1“ß‘˜
°QÓ7ß‘L×'Ñ'Ó(ð ð "4×6LÑ6LÈQÓ6O×6VÑ6VÐWaÐtuÓ6vÑ!vÐÜ0HØ× Ñ  $×"<Ñ"<Ð>PÐRWó1Ð-ð
 &×/Ñ/°°1Ó5ˆØ!×9Ñ9¸-ÓHÐð 0×4Ñ4Ø×Ñ  Ð$¨×(8Ñ(8¸$×:MÑ:MÐ'NÑNó
Ðð 0×7Ñ7¸¸1¸aÀÀAÓFÐà/×7Ñ7¸¸D×<LÑ<LÓMÐà,M×,WÑ,WÐXYÓ,ZÐ)Ø,M×,TÑ,TØJ‰J˜˜4×.Ñ.°ó-
Ð)ð -N×,RÑ,RØÐ1×6Ñ6°rÓ:ó-
ç
‰$‹&ð 	*ô +0¯,ª,Ø AÐ-Nñ+
Ð'ð
 +J×*NÑ*NØŸ
™
 D×$7Ñ$7¸È"ó+
Ð'ð /Ð.r"   )r·   r¸   r¹   r›   r»   rµ   r1   r´   r@   r    r¾   r½   r÷   rù   r¼   r–   ©NNNNNN)rf   rg   rh   ri   r   rš   r  r  r	   r§   r
  r  rn   r°   r±   s   @r!   rõ   rõ   	  s\   ø† ñ Ð/÷  ð  ò<qòð )-ØØ(,Ø'+Ø*.Øña@ð  ™õa@òF+,÷Z9/ð 9/r"   rõ   c                   óH   ^ • \ rS rSrSrS\4U 4S jjr SS\4S jjrSr	U =r
$ )	ÚProphetNetEncoderLayeri:  z
Encoder block for Prophetnet
r€   c                 óò   >• [         TU ]  5         [        XR                  5      U l        [        UR                  5      U l        [        XR                  5      U l
        [        UR                  5      U l        g r–   )r™   rš   r³   Únum_encoder_attention_headsÚ	self_attnr   r›   Úself_attn_layer_normré   Úencoder_ffn_dimÚfeed_forwardÚfeed_forward_layer_normrœ   s     €r!   rš   ÚProphetNetEncoderLayer.__init__?  s[   ø€ Ü‰ÑÔä,¨V×5WÑ5WÓXˆŒÜ$-¨f×.@Ñ.@Ó$AˆÔ!ô 2°&×:PÑ:PÓQˆÔÜ'0°×1CÑ1CÓ'DˆÕ$r"   rÁ   c                 ó¸   • U R                  UUUS9u  pEU R                  XA-   5      nU R                  U5      nU R                  Xa-   5      nU4nU(       a  Xu4-  nU$ )N)rw   r©   rÁ   )r<  r=  r?  r@  )r‹   rw   r©   rÁ   Úattention_outputrá   Úfeed_forward_outputÚoutputss           r!   r§   ÚProphetNetEncoderLayer.forwardI  s{   € ð *.¯©Ø'Ø)Ø/ð *8ð *
Ñ&Ðð
 ×1Ñ1Ð2BÑ2RÓSˆð #×/Ñ/°Ó>ÐØ×4Ñ4Ð5HÑ5XÓYˆà Ð"ˆæØÑ&ˆGàˆr"   )r?  r@  r<  r=  ©F©rf   rg   rh   ri   rj   r   rš   rç   r§   rn   r°   r±   s   @r!   r9  r9  :  s0   ø† ñðEÐ/÷ Eð #(ñ	ð  ÷	ó r"   r9  c                   ón   ^ • \ rS rSrSrS
S\4U 4S jjjr          SS\S-  S\S-  4S jjrS	r	U =r
$ )ÚProphetNetDecoderLayeric  z
Decoder block for Prophetnet
Nr€   c                 ób  >• [         TU ]  5         [        XS9U l        [	        UR
                  5      U l        UR                  (       a3  [        XR                  US9U l
        [	        UR
                  5      U l        [        XR                  5      U l        [	        UR
                  5      U l        g )N©rµ   )r™   rš   rõ   r<  r   r›   r=  Úadd_cross_attentionr³   rø   Ú
cross_attnÚcross_attn_layer_normré   Údecoder_ffn_dimr?  r@  rú   s      €r!   rš   ÚProphetNetDecoderLayer.__init__h  sˆ   ø€ Ü‰ÑÔä5°fÑRˆŒÜ$-¨f×.@Ñ.@Ó$AˆÔ!ð ×%×%Ü1°&×:\Ñ:\ÐhqÑrˆDŒOÜ)2°6×3EÑ3EÓ)FˆDÔ&ô 2°&×:PÑ:PÓQˆÔÜ'0°×1CÑ1CÓ'DˆÕ$r"   Ú	use_cacherÁ   c           
      ó&  • U R                  UU	UUUUUS9u  pÞnU R                  X-   5      nS nUb*  U R                  UUUU	US9u  nnU R                  UU-   5      nU R	                  U5      nU R                  UU-   5      nU4nU(       a  UXïU4-  nU$ )N)rw   r\   r©   r  rR   rS   rO   )rw   rÀ   r©   r\   rÁ   )r<  r=  rN  rO  r?  r@  )r‹   rw   r©   rc   Úencoder_attn_maskr  rR   rS   rO   r\   rR  rÁ   r×   Úngram_attention_outputÚself_attn_weightsÚself_attn_weights_ngramÚcross_attn_weightsrC  rD  rE  s                       r!   r§   ÚProphetNetDecoderLayer.forwardw  så   € ð  NRÏ^É^Ø'Ø+Ø)Ø,KØ+IØ.OØ%ð N\ð N
ÑJÐÐ3Jð ×1Ñ1°-Ñ2XÓYˆà!ÐØ Ñ,à37·?±?Ø+Ø!6Ø0Ø /Ø"3ð 4Cð 4Ñ0ÐÐ0ð !×6Ñ6Ð7GÈ-Ñ7WÓXˆMð #×/Ñ/°Ó>ÐØ×4Ñ4Ð5HÈ=Ñ5XÓYˆà Ð"ˆæØÐ)ÐDVÐWÑWˆGàˆr"   )rN  rO  r?  r@  r<  r=  r–   )
NNNNNNNNTFrH  r±   s   @r!   rJ  rJ  c  sc   ø† ññEÐ/÷ Eð Eð$ Ø"ØØ(,Ø'+Ø*.ØØØ!%Ø).ñ0ð ˜$‘;ð0ð   $™;÷0ó 0r"   rJ  z=
    The standalone encoder part of the ProphetNetModel.
    c                   óâ   ^ • \ rS rSrS\4U 4S jjrS rS r\      SS\	R                  S-  S\	R                  S-  S	\	R                  S-  S
\S-  S\S-  S\S-  S\\-  4S jj5       rSrU =r$ )ÚProphetNetEncoderiª  r€   c                 ó²  >• [         TU ]  U5        [        R                  " UR                  UR
                  UR                  S9U l        [        U5      U l	        [        UR
                  5      U l        [        R                  " [        UR                  5       Vs/ s H  n[        U5      PM     sn5      U l        SU l        U R%                  5         g s  snf )N©r¡   F)r™   rš   r   Ú	EmbeddingÚ
vocab_sizer›   r…   Úword_embeddingsr“   Úposition_embeddingsr   Úembeddings_layer_normÚ
ModuleListr,   Únum_encoder_layersr9  rÎ   Úgradient_checkpointingÚ	post_init)r‹   r€   Ú_r   s      €r!   rš   ÚProphetNetEncoder.__init__°  s£   ø€ Ü‰Ñ˜Ô ä!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#AÀ&Ó#IˆÔ Ü%.¨v×/AÑ/AÓ%BˆÔ"ä—m’mÌUÐSY×SlÑSlÔMmÓ$nÒMmÈÔ%;¸FÖ%CÑMmÑ$nÓoˆŒà&+ˆÔ#à‰Õùò	 %os   ÂCc                 ó   • U R                   $ r–   ©r`  r  s    r!   Úget_input_embeddingsÚ&ProphetNetEncoder.get_input_embeddings½  ó   € Ø×#Ñ#Ð#r"   c                 ó   • Xl         g r–   rj  ©r‹   Úvalues     r!   Úset_input_embeddingsÚ&ProphetNetEncoder.set_input_embeddingsÀ  ó   € Ø$Õr"   NrŒ   r©   Úinputs_embedsrÁ   Úoutput_hidden_statesÚreturn_dictr”   c                 ó2  • Ub  UOU R                   R                  nUb  UOU R                   R                  nUb  UOU R                   R                  nUc  Uc  [	        S5      eUb  Ub  [	        S5      eUb  Uc  U R                  U5      nUb}  SUSS2SSSS24   R                  SU R                   R                  SS5      -
  [        R                  " U R                  5      R                  -  nUR                  UR                  5      nOSnU R                  UR                  SS UR                  5      u  pšX9-   nU R!                  U5      n["        R$                  R'                  X°R                   R&                  U R(                  S9nU(       a  SOSnU(       a  SOSn[+        U R,                  5       H0  u  pïU(       a  XË4-   nU" UUUS	9nUS
   nU(       d  M'  UUS   4-   nM2     U(       a  XË4-   nU(       d  [/        S X¼U4 5       5      $ [1        X¼US9$ )a¹  
Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetEncoder
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetEncoder.from_pretrained("patrickvonplaten/prophetnet-large-uncased-standalone")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
```Nz3Either input_ids or inputs_embeds has to be passed.z2Make sure to only pass input_ids or inputs_embeds.ç      ð?r   r&   rÄ   re   )r©   rÁ   r   c              3   ó.   #   • U  H  oc  M  Uv •  M     g 7fr–   re   ©Ú.0Úvs     r!   Ú	<genexpr>Ú,ProphetNetEncoder.forward.<locals>.<genexpr>  s   é € ÐlÒ$Z˜qŸ™Ò$Zùó   ‚Œ	)rr   rw   ry   )r€   rÁ   ru  rv  rÕ   r`  rM   r;  r   r(   r   r)   r  ra  r‡   r$   rb  r   r   r¸   rÆ   Ú	enumeraterÎ   rm   r   )r‹   rŒ   r©   rt  rÁ   ru  rv  r×   Úextended_attention_maskra  rO   rw   rc   Úall_attentionsÚidxÚencoder_layerÚlayer_outputss                    r!   r§   ÚProphetNetEncoder.forwardÃ  s-  € ð4 2CÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆàÑ Ñ!6ÜÐRÓSÐSØÑ" }Ñ'@ÜÐQÓRÐRØÑ" }Ñ'<Ø ×0Ñ0°Ó;ˆMð Ñ%àn¢Q¨¨d²AÐ%5Ñ6×=Ñ=¸aÀÇÁ×AhÑAhÐjkÐmnÓoÑoÜ—’˜DŸJ™JÓ'×+Ñ+ñ',Ð#ð '>×&@Ñ&@À×ATÑATÓ&UÑ#à&*Ð#à,0×,DÑ,DÀ]×EXÑEXÐY[ÐZ[ÐE\Ð^k×^rÑ^rÓ,sÑ)Ðà%Ñ;ˆØ×2Ñ2°=ÓAˆÜŸ™×-Ñ-¨m¿{¹{×?RÑ?RÐ]a×]jÑ]jÐ-Ðkˆæ&:¡ÀÐÞ0™°dˆä"+¨D¯K©KÖ"8ÑˆCÞ#Ø(=Ð@PÑ(PÐ%á)ØØ6Ø"3ñˆMð *¨!Ñ,ˆMç Ð Ø!/°=ÀÑ3CÐ2EÑ!E’ñ #9ö  Ø$9Ð<LÑ$LÐ!æÜÑl ]È>Ñ$ZÓlÓlÐlÜØ+Ð]kñ
ð 	
r"   )rb  re  rÎ   ra  r`  r7  )rf   rg   rh   ri   r   rš   rk  rq  r   r   r   rç   rm   r   r§   rn   r°   r±   s   @r!   r[  r[  ª  s»   ø† ðÐ/÷ ò$ò%ð ð *.Ø.2Ø-1Ø)-Ø,0Ø#'ñN
à—<‘< $Ñ&ðN
ð Ÿ™ tÑ+ðN
ð —|‘| dÑ*ð	N
ð
   $™;ðN
ð # T™kðN
ð ˜D‘[ðN
ð 
Ñ	 ôN
ó öN
r"   r[  z=
    The standalone decoder part of the ProphetNetModel.
    c                   óL  ^ • \ rS rSrS\4U 4S jjrS rS r\          SS\	R                  S-  S\	R                  S-  S	\	R                  S-  S
\	R                  S-  S\S-  S\	R                  S-  S\S-  S\S-  S\S-  S\S-  S\\-  4S jj5       rS rS rS rSrU =r$ )ÚProphetNetDecoderi  r€   c           
      óº  >• [         TU ]  U5        UR                  U l        UR                  U l        UR                  U l        UR
                  U l        UR                  U l        [        R                  " UR                  UR                  UR                  S9U l        [        U5      U l        [        R                  " U R                  UR                  S 5      U l        [        R"                  " [%        UR&                  5       Vs/ s H  n[)        XS9PM     sn5      U l        [-        UR                  5      U l        SU l        U R3                  5         g s  snf )Nr]  rL  F)r™   rš   r1   r@   r÷   r¸   r—   Úmax_target_positionsr   r^  r_  r›   r…   r`  r“   ra  Úngram_embeddingsrc  r,   Únum_decoder_layersrJ  rÎ   r   rb  re  rf  )r‹   r€   Úir   s      €r!   rš   ÚProphetNetDecoder.__init__  s  ø€ Ü‰Ñ˜Ô à—\‘\ˆŒ
Ø!×-Ñ-ˆÔØ%+×%AÑ%AˆÔ"Ø—~‘~ˆŒØ$*×$BÑ$BˆÔ!ä!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ#AÀ&Ó#IˆÔ ä "§¢¨T¯Z©Z¸×9KÑ9KÈTÓ RˆÔÜ—m’mÜBGÈ×HaÑHaÔBbÓcÒBb¸QÔ# FÔ8ÑBbÑcó
ˆŒô &/¨v×/AÑ/AÓ%BˆÔ"à&+ˆÔ#à‰Õùò ds   ÄEc                 ó   • U R                   $ r–   rj  r  s    r!   rk  Ú&ProphetNetDecoder.get_input_embeddings1  rm  r"   c                 ó   • Xl         g r–   rj  ro  s     r!   rq  Ú&ProphetNetDecoder.set_input_embeddings4  rs  r"   NrŒ   r©   rc   Úencoder_attention_maskr\   rt  rR  rÁ   ru  rv  r”   c                 óÄ
  • Ub  UOU R                   R                  nUb  UOU R                   R                  nU	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Uc  Uc  [        S5      eUb  Ub  [        S5      eUb  Uc  U R                  U5      nUR                  SS u  pÍU R                  (       a/  U R                  (       a  U(       a  [        R                  S5        SnU(       ab  Uc_  Uc  U R                   R                  (       a.  [        [        U R                   S9[        U R                   S95      O[        U R                   S9nUb  UR                  5       OSnU R!                  XÍ4UR"                  US	9u  nnUS:w  a  S
u  nnOU R%                  U5      u  nnU R                   R'                  US-   5      nXo-   nU R(                  R*                  nUS:w  a`  UR-                  S5      S:X  d   S5       e[/        U R0                  5       Vs/ s H  nUUS-
     U-   R3                  USS5      PM!     nnSnSnOR[/        U R0                  5       Vs/ s H  nUUS-
     U-   PM     nnU R5                  UU5      nU R7                  UU5      nUb}  SUSS2SSSS24   R3                  SU R                   R8                  SS5      -
  [:        R<                  " U R>                  5      R@                  -  nURC                  UR>                  5      nOSn[:        RD                  " U/U-   S5      nU RF                  (       a  U RG                  U5      n[H        RJ                  RM                  UU RL                  U R                  S9nU	(       a  SOSnU	(       a  U R                   R0                  S:”  a  SOSnU(       a  SOSnU(       a  SOSnU(       a  U R                   RN                  (       a  SOSn[Q        U RR                  5       H›  u  n n!U	(       a8  UUSS2SU24   4-  nU R                   R0                  S:”  a  UUSS2US24   4-  nU!" UUUUUUUUUUUS9n"U"S   nU(       d  Mc  UU"S   4-  nUU"S   4-  nU R                   RN                  (       d  M’  UU"S   4-  nM     U	(       a8  UUSS2SU24   4-  nU R                   R0                  S:”  a  UUSS2US24   4-  nUSS2SU24   n#U R                   R0                  S:”  a  USS2US24   OSn$U
(       d  [U        S U#U$UUUUUU4 5       5      $ [W        U#U$UUUUUUS9$ s  snf s  snf )aÂ  
Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetDecoder
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetDecoder.from_pretrained("microsoft/prophetnet-large-uncased", add_cross_attention=False)
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
```NzGEither `decoder_input_ids` or `decoder_inputs_embeds` has to be passed.zFMake sure to only pass `decoder_input_ids` or `decoder_inputs_embeds`.r&   zZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...F)r€   r   )r$   r\   )NNr   zOAt the moment `use_cache` is only supported for `decoder_input_ids` of length 1rx  rÄ   re   )rT  r  rR   rS   rO   r\   rR  rÁ   r   c              3   ó0   #   • U  H  nUc  M  Uv •  M     g 7fr–   re   rz  s     r!   r}  Ú,ProphetNetDecoder.forward.<locals>.<genexpr>Ú  s"   é € ð ò	Að ÷ ‘ò	ùs   ‚	)rr   rs   r\   rw   rx   ry   rz   ra   ),r€   rR  rÁ   ru  rv  rÕ   r`  r‡   re  rÆ   ÚloggerÚwarning_onceÚis_encoder_decoderr   r
   r¢   ra  r$   Ú!compute_buffered_relative_bucketsr®   r‹  ÚweightrN   r,   r1   rM   Úprepare_attention_maskÚprepare_predict_attention_maskrø   r   r(   r   r)   r  r/   rb  r   r   r¸   rM  r€  rÎ   rm   ru   )%r‹   rŒ   r©   rc   r“  r\   rt  rR  rÁ   ru  rv  r×   rØ   r0   Úpast_key_values_lengthÚmain_stream_pos_embedrO   rR   rS   Úpredicting_stream_pos_embedrw   r‹  r1   Úngram_hidden_statesr  r  Úextended_encoder_attention_maskÚall_main_stream_hidden_statesÚall_ngram_stream_hidden_statesÚall_main_stream_attnsÚall_ngram_stream_attnsÚall_cross_attnsrƒ  Údecoder_layerr…  rr   rs   s%                                        r!   r§   ÚProphetNetDecoder.forward7  sì  € ð: "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆàÑ Ñ!6ÜÐfÓgÐgØÑ" }Ñ'@ÜÐeÓfÐfØÑ" }Ñ'<Ø ×0Ñ0°Ó;ˆMà&3×&9Ñ&9¸"¸1Ð&=Ñ#ˆ
à×&×&¨4¯=¯=ÞÜ×#Ñ#Øpôð "	æ˜Ñ0ð )Ñ4¸¿¹×8V×8Vô $¤L¸¿¹Ñ$DÄlÐZ^×ZeÑZeÑFfÔgä!¨¯©Ñ5ð ð FUÑE` ×!?Ñ!?Ô!AÐfgÐà.2×.FÑ.FØÐ)Ø ×'Ñ'Ø+ð /Gð /
Ñ+Ð˜|ð " QÓ&ØPZÑMÐ*Ñ,Mð
 ×6Ñ6°|ÓDñØ.Ø1à&*×&>Ñ&>×&GÑ&GÈÐWXÑHXÓ&YÐ#ð &Ñ=ˆà×0Ñ0×7Ñ7Ðð " QÓ&Ø ×%Ñ% aÓ(¨AÓ-ð ØaóÐ-ô # 4§:¡:Ô.ó#â.Eð " %¨!¡)Ñ,Ð/JÑJ×RÑRÐS]Ð_`ÐbcÖdÙ.ð  ð #ð '+Ð#Ø.2Ñ+ô Z_Ð_c×_iÑ_iÔYjó#ÚYjÐPUÐ! %¨!¡)Ñ,Ð/JÔJÑYjð  ð #ð '+×&AÑ&AÀ-ÐQ_Ó&`Ð#Ø.2×.QÑ.QÐR_ÐaoÓ.pÐ+ð "Ñ-àÐ,ªQ°°dºAÐ-=Ñ>×EÑEÀaÈÏÉ×IpÑIpÐrsÐuvÓwÑwÜ—’˜DŸJ™JÓ'×+Ñ+ñ/,Ð+ð /N×.PÑ.PÐQ^×QdÑQdÓ.eÑ+à.2Ð+äŸ	š	 = /Ð4GÑ"GÈÓKˆà×%×%Ø ×6Ñ6°}ÓEˆMäŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-Ðdˆö /C©ÈÐ%Þ/CÈÏÉ×HYÑHYÐ\]ÓH]©ÐcgÐ&æ&7¡¸TÐÞ'8¡¸dÐÞ 1°d·k±k×6U×6U™"Ð[_ˆä"+¨D¯K©KÖ"8ÑˆCÞ#à-°-ÂÐCSÀOÐCSÐ@SÑ2TÐ1VÑVÐ-Ø—;‘;×$Ñ$ qÓ(Ø2°}ÂQÈÑHXÐEXÑ7YÐ6[Ñ[Ð2á)ØØ'Ø%Ø"AØ0OØ/MØ2SØ)Ø /Ø#Ø"3ñˆMð *¨!Ñ,ˆMß Ð Ø%¨-¸Ñ*:Ð)<Ñ<Ð%Ø&¨=¸Ñ+;Ð*=Ñ=Ð&à—;‘;×2×2Ñ2Ø#¨°aÑ(8Ð':Ñ:’Oñ7 #9ö:  Ø)¨mºAÐ?OÀÐ?OÐ<OÑ.PÐ-RÑRÐ)Ø{‰{× Ñ  1Ó$Ø.°=ÂÀOÑDTÐATÑ3UÐ2WÑWÐ.ð *ª!Ð-=¨oÐ-=Ð*=Ñ>ÐØHLÏÉ×HYÑHYÐ\]ÓH] -²°?Ñ3CÐ0CÒ"DÐcgÐæÜñ ð &Ø+Ø#Ø1Ø2Ø)Ø*Ø#ñ	óó ð ô ,Ø/Ø$;Ø+Ø7Ø >Ø,Ø3Ø,ñ	
ð 		
ùòu#ùò#s   È%&UÉ)Uc           	      óî  • UR                   u  p#[        R                  " SU R                  5      R	                  UR
                  5      R                  SS5      n[        U R                  U R                  U5      u  pEUS S 2S U2S U24   R                  USS5      n[        R                  " US S 2S U2S U24   US S 2S U2U R                  U R                  U-   24   /S5      R                  USS5      nXE4$ rý   )r‡   r   r0  rŠ  r  r$   rM   rT   r@   r÷   r/   )r‹   rO   rØ   r0   Úmain_relative_bucketsÚpredict_relative_bucketss         r!   rš  Ú3ProphetNetDecoder.compute_buffered_relative_bucketsó  s  € Ø&2×&8Ñ&8Ñ#ˆ
ä—|’| A t×'@Ñ'@ÓA×DÑDÀ\×EXÑEXÓY×`Ñ`ÐabÐdeÓfˆÜ:]Ø×Ñ˜d×8Ñ8¸,ó;
Ñ7Ðð
 !6²aÐ9I¸/Ð9IÐK[ÈOÐK[Ð6[Ñ \× cÑ cÐdnÐpqÐstÓ uÐÜ#(§9¢9à(ªÐ,<¨_Ð,<Ð>N¸Ð>NÐ)NÑOØ(ÚÐ'˜Ð'¨×)BÑ)BÀT×E^ÑE^ÐapÑEpÐ)pÐpñðð ó$
÷ ‰&˜Q Ó
"ð 	!ð %Ð>Ð>r"   c                 óH  • UR                   S S u  p4[        R                  " XD4[        R                  " UR                  5      R
                  UR                  UR                  S9n[        R                  " US5      nUS U2S U24   S S S S 2S S 24   R                  X0R                  R                  4UR                   -   5      nUb@  SUS S 2S S S S 24   -
  [        R                  " U R                  5      R
                  -  nXg-   nOUnUR                  UR                  5      $ )Nr&   r    r   rx  )r‡   r   Úfullr(   r   r)   r$   ÚtriuÚexpandr€   rø   r  )r‹   rw   r©   rØ   Ú
seq_lengthÚcausal_maskÚextended_causal_maskr  s           r!   rœ  Ú(ProphetNetDecoder.prepare_attention_mask	  s  € Ø!.×!4Ñ!4°R°aÐ!8Ñˆ
ô —j’jØÐ$ÜKŠK˜×+Ñ+Ó,×0Ñ0Ø×%Ñ%Ø ×'Ñ'ñ	
ˆô —j’j ¨aÓ0ˆà*¨;¨J¨;¸¸¸Ð+CÑDÀTÈ4ÒQRÒTUÐEUÑV×]Ñ]ØŸ™×@Ñ@ÐAÀK×DUÑDUÑUó 
Ðð
 Ñ%Ø'*¨^ºA¸tÀTÊ1Ð<LÑ-MÑ'MÔQV×Q\ÒQ\Ð]a×]gÑ]gÓQh×QlÑQlÑ&lÐ#Ø&:Ñ&TÑ#à&:Ð#Ø&×)Ñ)¨-×*=Ñ*=Ó>Ð>r"   c           	      ó  • UR                   S S u  p4[        U R                  U R                  UR                  UR
                  5      n[        R                  " US S 2S U2S U24   US S 2S U2U R                  U R                  U-   24   /SS9nUS S S S 2S S 2S S 24   R                  X0R                  R                  4UR                   -   5      nUbž  SUS S 2S S S S S 24   -
  [        R                  " U R
                  5      R                  -  nUR                  X0R                  R                  U R                  XD45      n[        R                  " U[        R                  " U5      /SS9nXg-   nOUnUR                  UR
                  5      $ )Nr&   rK   r   rx  )r‡   r5   rŠ  r1   r$   r   r   r/   r±  r€   rø   r(   r)   r8   r  )	r‹   rw   r©   rØ   r²  Úpredict_causal_maskÚextended_predict_causal_maskr  r  s	            r!   r  Ú0ProphetNetDecoder.prepare_predict_attention_mask!  sž  € Ø!.×!4Ñ!4°R°aÐ!8Ñˆ
ô 3Ø×%Ñ% t§z¡z°=×3GÑ3GÈ×I\ÑI\ó
Ðô $Ÿišià#¢A {¨
 {°K°Z°KÐ$?Ñ@Ø#Ú{˜
{ D×$=Ñ$=À×@YÑ@YÐ\fÑ@fÐ$fÐfñðð ñ
Ðð (;¸4ÀÂqÊ!ÊQÐ;NÑ'O×'VÑ'VØŸ™×@Ñ@ÐAÐDW×D]ÑD]Ñ]ó(
Ð$ð
 Ñ%Ø'*¨^ºA¸tÀTÈ4ÒQRÐ<RÑ-SÑ'SÔW\×WbÒWbÐcg×cmÑcmÓWn×WrÑWrÑ&rÐ#Ø&=×&DÑ&DØŸ[™[×DÑDÀdÇjÁjÐR\Ðió'Ð#ô ',§i¢iØ(¬%×*:Ò*:Ð;RÓ*SÐTÐZ\ñ'Ð#ð /KÑ.dÑ+à.JÐ+Ø.×1Ñ1°-×2EÑ2EÓFÐFr"   )r¸   rb  re  rÎ   rŠ  r1   r‹  r@   ra  r÷   r`  )
NNNNNNNNNN)rf   rg   rh   ri   r   rš   rk  rq  r   r   r   r	   rç   rm   ru   r§   rš  rœ  r  rn   r°   r±   s   @r!   rˆ  rˆ    s%  ø† ðÐ/÷ ò,$ò%ð ð *.Ø.2Ø59Ø6:Ø(,Ø-1Ø!%Ø)-Ø,0Ø#'ñy
à—<‘< $Ñ&ðy
ð Ÿ™ tÑ+ðy
ð  %Ÿ|™|¨dÑ2ð	y
ð
 !&§¡¨tÑ 3ðy
ð  ™ðy
ð —|‘| dÑ*ðy
ð ˜$‘;ðy
ð   $™;ðy
ð # T™kðy
ð ˜D‘[ðy
ð 
Ð-Ñ	-ôy
ó ðy
òv?ò,?÷0!Gð !Gr"   rˆ  c                   óp  ^ • \ rS rSrSSS.rS\4U 4S jjrS rS r\	            SS	\
R                  S-  S
\
R                  S-  S\
R                  S-  S\
R                  S-  S\S-  S\S-  S\
R                  S-  S\
R                  S-  S\S-  S\S-  S\S-  S\S-  S\\-  4S jj5       rSrU =r$ )ÚProphetNetModeliE  úword_embeddings.weight)zencoder.word_embeddings.weightúdecoder.word_embeddings.weightr€   c                 ój  >• [         TU ]  U5        [        R                  " UR                  UR
                  UR                  S9U l        [        R                  " U5      nSUl
        [        U5      U l        [        R                  " U5      nSUl        [        U5      U l        U R!                  5         g )Nr]  FT)r™   rš   r   r^  r_  r›   r…   r`  ÚcopyÚdeepcopyrR  r[  ÚencoderÚ
is_decoderrˆ  Údecoderrf  )r‹   r€   Úencoder_configÚdecoder_configr   s       €r!   rš   ÚProphetNetModel.__init__L  sˆ   ø€ Ü‰Ñ˜Ô Ü!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔäŸš vÓ.ˆØ#(ˆÔ Ü(¨Ó8ˆŒäŸš vÓ.ˆØ$(ˆÔ!Ü(¨Ó8ˆŒð 	‰Õr"   c                 ó   • U R                   $ r–   rj  r  s    r!   rk  Ú$ProphetNetModel.get_input_embeddings[  rm  r"   c                 ó|   • Xl         U R                   U R                  l         U R                   U R                  l         g r–   )r`  rÁ  rÃ  ro  s     r!   rq  Ú$ProphetNetModel.set_input_embeddings^  s,   € Ø$ÔØ'+×';Ñ';ˆ‰Ô$Ø'+×';Ñ';ˆ‰Õ$r"   NrŒ   r©   Údecoder_input_idsÚdecoder_attention_maskÚencoder_outputsr\   rt  Údecoder_inputs_embedsrR  rÁ   ru  rv  r”   c                 óV  • U	b  U	OU R                   R                  n	U
b  U
OU R                   R                  n
Ub  UOU R                   R                  nUb  UOU R                   R                  nUc  U R                  UUUU
UUS9nU R                  UUUS   UUUU
UU	US9
nU(       d  Xå-   $ [        UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  UR                  S9$ )a1  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    ProphetNet uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetModel

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetModel.from_pretrained("microsoft/prophetnet-large-uncased")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)

>>> last_hidden_states = outputs.last_hidden_state  # main stream hidden states
>>> last_hidden_states_ngram = outputs.last_hidden_state_ngram  # predict hidden states
```)rŒ   r©   rt  rÁ   ru  rv  r   )
rŒ   r©   rc   r“  r\   rt  rÁ   ru  rR  rv  )rr   rs   r\   r]   r^   r_   r`   ra   rb   rc   rd   )r€   rR  rÁ   ru  rv  rÁ  rÃ  rp   rr   rs   r\   rw   rx   ry   rz   ra   )r‹   rŒ   r©   rË  rÌ  rÍ  r\   rt  rÎ  rR  rÁ   ru  rv  r×   Údecoder_outputss                  r!   r§   ÚProphetNetModel.forwardc  sI  € ðd "+Ñ!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø1BÑ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ñ$DÑ È$Ï+É+×JjÑJjð 	ð &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆàÑ"Ø"Ÿl™lØ#Ø-Ø+Ø"3Ø%9Ø'ð +ð ˆOð Ÿ,™,Ø'Ø1Ø"1°!Ñ"4Ø#1Ø+Ø/Ø/Ø!5ØØ#ð 'ð 
ˆö Ø"Ñ4Ð4Ü+Ø-×?Ñ?Ø$3×$KÑ$KØ+×;Ñ;Ø"1×"?Ñ"?Ø(7×(KÑ(KØ.×9Ñ9Ø%4×%EÑ%EØ,×=Ñ=Ø&5×&GÑ&GØ"1×"?Ñ"?Ø.×9Ñ9ñ
ð 	
r"   )rÃ  rÁ  r`  )NNNNNNNNNNNN)rf   rg   rh   ri   Ú_tied_weights_keysr   rš   rk  rq  r   r   r   Ú
BoolTensorrm   r	   rç   rp   r§   rn   r°   r±   s   @r!   r»  r»  E  sJ  ø† ð +CØ*BñÐð
Ð/÷ ò$ò<ð
 ð *.Ø.2Ø15Ø:>Ø(,Ø(,Ø-1Ø59Ø!%Ø)-Ø,0Ø#'ñ^
à—<‘< $Ñ&ð^
ð Ÿ™ tÑ+ð^
ð !Ÿ<™<¨$Ñ.ð	^
ð
 !&× 0Ñ 0°4Ñ 7ð^
ð  ™ð^
ð  ™ð^
ð —|‘| dÑ*ð^
ð  %Ÿ|™|¨dÑ2ð^
ð ˜$‘;ð^
ð   $™;ð^
ð # T™kð^
ð ˜D‘[ð^
ð 
Ð-Ñ	-ô^
ó ö^
r"   r»  zh
    The ProphetNet Model with a language modeling head. Can be used for sequence generation tasks.
    c                   óØ  ^ • \ rS rSrSS0rS\4U 4S jjrS r\             SS\	R                  S-  S	\	R                  S-  S
\	R                  S-  S\	R                  S-  S\	R                  S-  S\S-  S\	R                  S-  S\	R                  S-  S\	R                  S-  S\S-  S\S-  S\S-  S\S-  S\\-  4S jj5       rSS jrS\	R                  4S jrSU 4S jjrSrU =r$ )Ú"ProphetNetForConditionalGenerationiÅ  úlm_head.weightú!prophetnet.word_embeddings.weightr€   c                 ó  >• [         TU ]  U5        [        U5      U l        UR                  U l        UR                  U l        [        R                  " UR                  UR                  SS9U l        U R                  5         g )NF©Úbias)r™   rš   r»  r   r…   r¡   Údisable_ngram_lossr   rº   r›   r_  Úlm_headrf  rœ   s     €r!   rš   Ú+ProphetNetForConditionalGeneration.__init__Ï  sd   ø€ Ü‰Ñ˜Ô Ü)¨&Ó1ˆŒØ!×.Ñ.ˆÔØ"(×";Ñ";ˆÔä—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr"   c                 ó.   • U R                   R                  $ r–   )r   r`  r  s    r!   rk  Ú7ProphetNetForConditionalGeneration.get_input_embeddingsÚ  s   € Ø‰×.Ñ.Ð.r"   NrŒ   r©   rË  rÌ  rÍ  r\   rt  rÎ  ÚlabelsrR  rÁ   ru  rv  r”   c                 ór  • Ub  UOU R                   R                  nU	b  Uc  Uc  U R                  U	5      nU R                  UUUUUUUUU
UUUS9nUb  UR                  OUR                  SS u  nnUS   R                  UU R                   R                  US5      nU R                  U5      nUSS2S4   nU R                   R                  S:”  a  USS2SS24   OSnUR                  5       (       d  UR                  5       nSnU	b  U R                  UU	5      nU(       d+  [        S UU4 5       5      nUb  U4U-   USS -   $ UUSS -   $ [        UUUUR                  UR                  UR                  UR                   UR"                  UR$                  UR&                  UR(                  UR*                  S9$ )	a¥  
decoder_input_ids (`torch.LongTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Indices of decoder input sequence tokens in the vocabulary.

    Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.encode`] and
    [`PreTrainedTokenizer.__call__`] for details.

    [What are decoder input IDs?](../glossary#decoder-input-ids)

    ProphetNet uses the `eos_token_id` as the starting token for `decoder_input_ids` generation. If
    `past_key_values` is used, optionally only the last `decoder_input_ids` have to be input (see
    `past_key_values`).
decoder_attention_mask (`torch.BoolTensor` of shape `(batch_size, target_sequence_length)`, *optional*):
    Default behavior: generate a tensor that ignores pad tokens in `decoder_input_ids`. Causal mask will also
    be used by default.
labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
    Labels for computing the sequence classification/regression loss. Indices should be in `[-100, 0, ...,
    config.vocab_size - 1]`. All labels set to `-100` are ignored (masked), the loss is only computed for
    labels in `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetForConditionalGeneration.from_pretrained("microsoft/prophetnet-large-uncased")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)

>>> logits_next_token = outputs.logits  # logits to predict next token as usual
>>> logits_ngram_next_tokens = outputs.logits_ngram  # logits to predict 2nd, 3rd, ... next tokens
```N)rŒ   r©   rË  rÌ  rÍ  r\   rt  rÎ  rR  rÁ   ru  rv  r&   r   rK   r   c              3   ó.   #   • U  H  oc  M  Uv •  M     g 7fr–   re   rz  s     r!   r}  Ú=ProphetNetForConditionalGeneration.forward.<locals>.<genexpr>;  ó   é € ÐRÒ*@ QŸq™qÒ*@ùr  )rY   rZ   r[   r\   r]   r^   r_   r`   ra   rb   rc   rd   )r€   rv  rŽ   r   r‡   rÑ   r1   rÜ  Úis_contiguousrþ   Ú_compute_lossrm   rW   r\   r]   r^   r_   r`   ra   rb   rc   rd   )r‹   rŒ   r©   rË  rÌ  rÍ  r\   rt  rÎ  rà  rR  rÁ   ru  rv  r×   rE  rØ   r0   Úpredicting_streamsÚpredict_logitsrZ   r[   rY   Ú
all_logitss                           r!   r§   Ú*ProphetNetForConditionalGeneration.forwardÝ  só  € ðn &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆàÑÐ"3Ñ";Ð@UÑ@]à $× 1Ñ 1°&Ó 9Ðà—/‘/ØØ)Ø/Ø#9Ø+Ø+Ø'Ø"7ØØ/Ø!5Ø#ð "ð 
ˆð (9Ñ'DÐ×#Ò#ÐJ_×JeÑJeÐfhÐghÐJiñ 	$ˆ
Oð % Q™ZŸ_™_¨Z¸¿¹×9JÑ9JÈOÐ]_Ó`ÐØŸ™Ð&8Ó9ˆà¢ 1 Ñ%ˆØ04·±×0AÑ0AÀAÓ0E~¢a¨© eÒ,È4ˆð ×#Ñ#×%Ñ%Ø×&Ñ&Ó(ˆFàˆØÑØ×%Ñ% n°fÓ=ˆDæÜÑR¨6°<Ñ*@ÓRÓRˆJØ9=Ñ9ID7˜ZÑ'¨'°!°"¨+Ñ5ÐgÈzÐ\cÐdeÐdfÐ\gÑOgÐgä,ØØØ)Ø '× 7Ñ 7Ø&-×&CÑ&CØ,3×,OÑ,OØ#*×#=Ñ#=Ø)0×)IÑ)IØ!(×!9Ñ!9Ø*1×*KÑ*KØ&-×&CÑ&CØ#*×#=Ñ#=ñð r"   c                 óÄ  • UR                  U R                  R                  UR                  S5      UR                  S5      5      R	                  U5      n[        U R                  R                  5       H'  nUS:”  a  U R                  (       a    OX$US S 2S S 24'   M)     UR                  SS5      R                  5       n[        R                  R                  UR                  SUR                  S5      5      S[        R                  S9n[        R                  R                  XdR                  S5      SS9nU R                  R                   S:”  aŽ  UR#                  SSS	9* nUR%                  U5      R                  S5      n	X‰   nUR'                  5       nU R                  R                   UR                  S5      -  n
S
U R                  R                   -
  U-  X¨-  -   nU$ ©Nr   r   rK   r   Úmean)Ú	reductiong        T)r   Úkeepdimrx  ©r†   r€   r1   rN   Úfill_r,   rÛ  rÒ   rþ   r   r   Úlog_softmaxrÑ   r   r   Únll_lossÚepsÚsumÚnerí  ©r‹   rZ   rà  Úignore_indexÚexpend_targetsr  ÚlprobsrY   Úsmooth_lossÚnon_masked_tokensÚeps_is              r!   ræ  Ú0ProphetNetForConditionalGeneration._compute_lossM  óˆ  € Ø×)Ñ)¨$¯+©+×*;Ñ*;¸V¿[¹[È»^ÈVÏ[É[ÐYZË^Ó\×bÑbÐcoÓpˆät—{‘{×(Ñ(Ö)ˆAØ1‹u˜×0×0ÙØ&,˜1ša¢˜7Ó#ñ *ð
 ×!Ñ! ! QÓ'×2Ñ2Ó4ˆÜ—‘×*Ñ*ØK‰K˜˜FŸK™K¨›OÓ,ØÜ—-‘-ð +ð 
ˆô }‰}×%Ñ% f×.AÑ.AÀ"Ó.EÐQWÐ%ÐXˆà;‰;?‰?˜SÓ Ø!Ÿ:™:¨"°d˜:Ð;Ð;ˆKØ .× 1Ñ 1°,Ó ?× DÑ DÀRÓ HÐØ%Ñ8ˆKØ%×*Ñ*Ó,ˆKà—K‘K—O‘O f§k¡k°"£oÑ5ˆEØ˜$Ÿ+™+Ÿ/™/Ñ)¨TÑ1°EÑ4GÑGˆDàˆr"   c                 ó$   • U R                  U5      $ r–   )rŽ   )r‹   rà  s     r!   Ú%prepare_decoder_input_ids_from_labelsÚHProphetNetForConditionalGeneration.prepare_decoder_input_ids_from_labelsi  s   € Ø× Ñ  Ó(Ð(r"   c                 óP   >• Uc  U R                   R                  $ [        TU ]  US9$ )N)Úmodality)r   rÁ  r™   Úget_encoder)r‹   r  r   s     €r!   r  Ú.ProphetNetForConditionalGeneration.get_encoderl  s,   ø€ ØÑØ—?‘?×*Ñ*Ð*ä‘7Ñ&°Ð&Ð9Ð9r"   ©rÛ  rÜ  r¡   r   )NNNNNNNNNNNNN©rƒ   r–   )rf   rg   rh   ri   rÒ  r   rš   rk  r   r   r   rÓ  r	   rç   rm   rW   r§   ræ  r  r  rn   r°   r±   s   @r!   rÕ  rÕ  Å  s€  ø† ð 	Ð=ðÐð	Ð/÷ 	ò/ð ð *.Ø.2Ø15Ø:>Ø/3Ø(,Ø-1Ø59Ø&*Ø!%Ø)-Ø,0Ø#'ñmà—<‘< $Ñ&ðmð Ÿ™ tÑ+ðmð !Ÿ<™<¨$Ñ.ð	mð
 !&× 0Ñ 0°4Ñ 7ðmð Ÿ™¨Ñ,ðmð  ™ðmð —|‘| dÑ*ðmð  %Ÿ|™|¨dÑ2ðmð —‘˜tÑ#ðmð ˜$‘;ðmð   $™;ðmð # T™kðmð ˜D‘[ðmð  
Ð*Ñ	*ô!mó ðmô^ð8)¸E¿L¹Lô )÷:õ :r"   rÕ  zt
    The standalone decoder part of the ProphetNetModel with a lm head on top. The model can be used for causal
    c                   ón  ^ • \ rS rSrSSS.rS\4U 4S jjrS rS r\	           SS	\
R                  S-  S
\
R                  S-  S\
R                  S-  S\
R                  S-  S\S-  S\
R                  S-  S\
R                  S-  S\S-  S\S-  S\S-  S\S-  S\\-  4S jj5       rSS jrSrU =r$ )ÚProphetNetForCausalLMis  r×  )rÖ  z)prophetnet.decoder.word_embeddings.weightr€   c                 óN  >• [         R                  " U5      nSUl        SUl        [        TU ]  U5        [        U5      U l        UR                  U l	        UR                  U l
        [        R                  " UR                  UR                  SS9U l        U R!                  5         g )NTFrÙ  )r¿  rÀ  rÂ  r™  r™   rš   ÚProphetNetDecoderWrapperr   r…   r¡   rÛ  r   rº   r›   r_  rÜ  rf  rœ   s     €r!   rš   ÚProphetNetForCausalLM.__init__~  s‚   ø€ ä—’˜vÓ&ˆØ ˆÔØ$)ˆÔ!Ü‰Ñ˜Ô Ü2°6Ó:ˆŒà!×.Ñ.ˆÔØ"(×";Ñ";ˆÔä—y’y ×!3Ñ!3°V×5FÑ5FÈUÑSˆŒð 	‰Õr"   c                 óB   • U R                   R                  R                  $ r–   ©r   rÃ  r`  r  s    r!   rk  Ú*ProphetNetForCausalLM.get_input_embeddingsŽ  s   € Ø‰×&Ñ&×6Ñ6Ð6r"   c                 ó8   • XR                   R                  l        g r–   r  ro  s     r!   rq  Ú*ProphetNetForCausalLM.set_input_embeddings‘  s   € Ø27‰×ÑÕ/r"   NrŒ   r©   rc   r“  r\   rt  rà  rR  rÁ   ru  rv  r”   c                 ó¾  • Ub  UOU R                   R                  nU R                  R                  UUUUUUUU	U
US9
nUb  UR                  OUR                  SS u  pïUS   R                  XàR                   R                  US5      nU R                  U5      nUSS2S4   nU R                   R                  S:”  a  USS2SS24   OSnSnUb  U R                  UU5      nU(       d+  [        S UU4 5       5      nUb  U4U-   USS -   $ UUSS -   $ [        UUUUR                  UR                  UR                  UR                  UR                  UR                   S9	$ )	aš  
labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
    Labels for computing the left-to-right language modeling loss (next word prediction). Indices should be in
    `[-100, 0, ..., config.vocab_size]` (see `input_ids` docstring) Tokens with indices set to `-100` are
    ignored (masked), the loss is only computed for the tokens with labels n `[0, ..., config.vocab_size]`

Example:

```python
>>> from transformers import AutoTokenizer, ProphetNetForCausalLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = ProphetNetForCausalLM.from_pretrained("microsoft/prophetnet-large-uncased")
>>> assert model.config.is_decoder, f"{model.__class__} has to be configured as a decoder."
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> logits = outputs.logits

>>> # Model can also be used with EncoderDecoder framework
>>> from transformers import BertTokenizer, EncoderDecoderModel, AutoTokenizer
>>> import torch

>>> tokenizer_enc = BertTokenizer.from_pretrained("google-bert/bert-large-uncased")
>>> tokenizer_dec = AutoTokenizer.from_pretrained("microsoft/prophetnet-large-uncased")
>>> model = EncoderDecoderModel.from_encoder_decoder_pretrained(
...     "google-bert/bert-large-uncased", "microsoft/prophetnet-large-uncased"
... )

>>> ARTICLE = (
...     "the us state department said wednesday it had received no "
...     "formal word from bolivia that it was expelling the us ambassador there "
...     "but said the charges made against him are `` baseless ."
... )
>>> input_ids = tokenizer_enc(ARTICLE, return_tensors="pt").input_ids
>>> labels = tokenizer_dec(
...     "us rejects charges against its ambassador in bolivia", return_tensors="pt"
... ).input_ids
>>> outputs = model(input_ids=input_ids, decoder_input_ids=labels[:, :-1], labels=labels[:, 1:])

>>> loss = outputs.loss
```N)
rŒ   r©   rc   r“  r\   rt  rR  rÁ   ru  rv  r&   r   rK   r   c              3   ó.   #   • U  H  oc  M  Uv •  M     g 7fr–   re   rz  s     r!   r}  Ú0ProphetNetForCausalLM.forward.<locals>.<genexpr>ì  rä  r  )	rY   rZ   r[   r\   rw   rx   ry   rz   ra   )r€   rv  r   rÃ  r‡   rÑ   r1   rÜ  ræ  rm   r|   r\   rw   rx   ry   rz   ra   )r‹   rŒ   r©   rc   r“  r\   rt  rà  rR  rÁ   ru  rv  r×   rE  rØ   r0   rç  rè  rZ   r[   rY   ré  s                         r!   r§   ÚProphetNetForCausalLM.forward”  sŽ  € ðv &1Ñ%<‘kÀ$Ç+Á+×BYÑBYˆð —/‘/×)Ñ)ØØ)Ø"7Ø#9Ø+Ø'ØØ/Ø!5Ø#ð *ð 
ˆð :CÑ9N i§o¢oÐTa×TgÑTgÐhjÐijÐTkÑ#ˆ
à$ Q™ZŸ_™_¨Z¿¹×9JÑ9JÈOÐ]_Ó`ÐØŸ™Ð&8Ó9ˆà¢ 1 Ñ%ˆØ04·±×0AÑ0AÀAÓ0E~¢a¨© eÒ,È4ˆàˆØÑØ×%Ñ% n°fÓ=ˆDæÜÑR¨6°<Ñ*@ÓRÓRˆJØ9=Ñ9ID7˜ZÑ'¨'°!°"¨+Ñ5ÐgÈzÐ\cÐdeÐdfÐ\gÑOgÐgä,ØØØ)Ø '× 7Ñ 7Ø%×3Ñ3Ø$+×$?Ñ$?Ø"×-Ñ-Ø!(×!9Ñ!9Ø!(×!9Ñ!9ñ
ð 
r"   c                 óÄ  • UR                  U R                  R                  UR                  S5      UR                  S5      5      R	                  U5      n[        U R                  R                  5       H'  nUS:”  a  U R                  (       a    OX$US S 2S S 24'   M)     UR                  SS5      R                  5       n[        R                  R                  UR                  SUR                  S5      5      S[        R                  S9n[        R                  R                  XdR                  S5      SS9nU R                  R                   S:”  aŽ  UR#                  SSS	9* nUR%                  U5      R                  S5      n	X‰   nUR'                  5       nU R                  R                   UR                  S5      -  n
S
U R                  R                   -
  U-  X¨-  -   nU$ rì  rð  r÷  s              r!   ræ  Ú#ProphetNetForCausalLM._compute_lossû  rÿ  r"   r  )NNNNNNNNNNNr  )rf   rg   rh   ri   rÒ  r   rš   rk  rq  r   r   r   r	   rç   rm   r|   r§   ræ  rn   r°   r±   s   @r!   r
  r
  s  s@  ø† ð >Ø5XñÐð
Ð/÷ ò 7ò8ð ð *.Ø.2Ø59Ø6:Ø(,Ø-1Ø&*Ø!%Ø)-Ø,0Ø#'ñdà—<‘< $Ñ&ðdð Ÿ™ tÑ+ðdð  %Ÿ|™|¨dÑ2ð	dð
 !&§¡¨tÑ 3ðdð  ™ðdð —|‘| dÑ*ðdð —‘˜tÑ#ðdð ˜$‘;ðdð   $™;ðdð # T™kðdð ˜D‘[ðdð 
Ð*Ñ	*ôdó ðd÷Lò r"   r
  c                   óB   ^ • \ rS rSrSrSS0rS\4U 4S jjrS rSr	U =r
$ )	r  i  zx
This is a wrapper class, so that [`ProphetNetForCausalLM`] can correctly be loaded from pretrained prophetnet
classes.
r½  r¼  r€   c                 óÖ   >• [         TU ]  U5        [        R                  " UR                  UR
                  UR                  S9U l        [        U5      U l	        U R                  5         g )Nr]  )r™   rš   r   r^  r_  r›   r…   r`  rˆ  rÃ  rf  rœ   s     €r!   rš   Ú!ProphetNetDecoderWrapper.__init__"  sP   ø€ Ü‰Ñ˜Ô ä!Ÿ|š|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÑsˆÔÜ(¨Ó0ˆŒð 	‰Õr"   c                 ó&   • U R                   " U0 UD6$ r–   )rÃ  )r‹   Úargsr×   s      r!   r§   Ú ProphetNetDecoderWrapper.forward+  s   € Ø|Š|˜TÐ, VÑ,Ð,r"   )rÃ  r`  )rf   rg   rh   ri   rj   rÒ  r   rš   r§   rn   r°   r±   s   @r!   r  r    s/   ø† ñð 	)Ð*BðÐðÐ/÷ ÷-ð -r"   r  )rˆ  r[  r
  rÕ  r»  r   rG  )9rj   r¿  r=   Údataclassesr   r   r   r   Útorch.nnr   Úactivationsr   Úcache_utilsr	   r
   r   Ú
generationr   Úmodeling_layersr   Úmodeling_outputsr   Úmodeling_utilsr   Úutilsr   r   r   Úconfiguration_prophetnetr   Ú
get_loggerrf   r—  r   r5   rI   rT   rW   rp   ru   r|   r   r^  r“   ÚModuler³   ré   rõ   r9  rJ  r[  rˆ  r»  rÕ  r
  r  Ú__all__re   r"   r!   Ú<module>r,     s†  ðñ Yã Û Ý !ã ß Ý å !ß CÑ CÝ )Ý 9Ý /Ý -ß 9Ñ 9Ý 6ð 
×	Ò	˜HÓ	%€ôQò7ô" ò6Mñ. ðñð
 ô*? ó *?ó óð*?ñZ ðñð ô(? ;ó (?ó óð(?ñV ðñð
 ô#= ;ó #=ó óð#=ñL ðñð
 ô+= ó +=ó óð+=ð\ ô! ó !ó ð!ô8(- R§\¡\ô (-ôVs2˜"Ÿ)™)ô s2ôl˜BŸI™Iô ô.n/ 2§9¡9ô n/ôb	&Ð7ô &ôRDÐ7ô DñN ðñô
c
Ð1ó c
óð
c
ñL ðñô
hGÐ1ó hGóð
hGðV	 ô|
Ð/ó |
ó ð|
ñ~ ðñô
f:Ð)BÀOó f:óð
f:ñR ðñô
]Ð5°ó ]óð
]ô@-Ð8ô -ò.r"   