ó Z–jZ<ãó¤•SrSSKrSSKrSSKrSSKJr SSKJrJr SSK J r \ R"\5r SS0r"S S 5r"SS\5rS/rg) z"Tokenization class for model MyT5.éN)Údefaultdicté)Ú AddedTokenÚPreTrainedTokenizer)ÚloggingÚ vocab_filezbyte_maps.jsoncóÞ•\rSrSrSrSrS\\\\4-4SjrS\\\\ \-4S\S\4S jr S\\\4S \\\\ \-44SjrS\ \S S \ \-4SjrSS\ \S \ \4Sjjr Srg )ÚByteRewriteréaB Byte rewriter class for MyT5 tokenizer. This class is used to rewrite bytes using a hash tree. The hash tree is constructed from a set of rewriting rules. Args: rewriting_rules (`str` or `dict[str, str]`): A path to a json file containing the rewriting rules or a dictionary containing the rewriting rules. z[LEAF]Úrewriting_rulescó¬•[U[5(a,[US5n[R"U5nSSS5 O,[U[ 5(d[ S[U535eURU5Ul UR5VVs0sHup4XC_M nnnURU5Ulg!,(df N_=fs snnf)NÚrzDrewriting_rules should be either a path to json file or a dict, got )Ú isinstanceÚstrÚopenÚjsonÚloadÚdictÚ TypeErrorÚtypeÚconstruct_hash_treeÚ hash_treeÚitemsÚreverse_hash_tree)ÚselfrÚfÚkÚvÚreverse_rewriting_ruless Ú{/root/GenerationalWealth/GenerationalWealth/venv/lib/python3.13/site-packages/transformers/models/myt5/tokenization_myt5.pyÚ__init__ÚByteRewriter.__init__,s¶€Üo¤s×+Ñ+Üo sÔ+¨qÜ"&§)¢)¨A£,÷,Ð+ä˜O¬T×2Ñ2ÜØVÔW[Ð\kÓWlÐVmÐnóð ð×1Ñ1°/ÓBˆŒØ4C×4IÑ4IÔ4KÔ"LÒ4K©D¨A 1¢4Ñ4KÐÑ"LØ!%×!9Ñ!9Ð:QÓ!RˆÕ÷,Õ+üó#Ms¢B?ÂCÂ? C rÚbyte_in_sequenceÚbyte_out_sequencecó”•URS5nURS5nUnUHnXv;a0Xg'XgnM XVUR'g)z< Add a leaf with the output byte sequence to the hash tree. Ú N)ÚsplitÚLEAF)rrr#r$Úbyte_in_listÚ byte_out_listÚtree_pointerÚbs r Úadd_leafÚByteRewriter.add_leaf9sU€ð(×-Ñ-¨cÓ2ˆØ)×/Ñ/°Ó4ˆ à ˆÛˆAØÓ$Ø"$‘Ø'™?ŠLñð #0T—Y‘YÒóÚreturncóÐ•[[5nS[S55HnU/X#UR'M UR 5HupEURX$U5 M U$)z5 Construct a hash tree for rewritten byte sequences. c3ó(# •UHoSv• M g7f)Ú02xN©)Ú.0Úxs r Ú Ú3ByteRewriter.construct_hash_tree..Msé€Ð1¢j sG”*¢jùs‚é)rrÚranger(rr-)rrrr,Úin_sequenceÚout_sequences r rÚ ByteRewriter.construct_hash_treeHsb€ô ¤Ó%ˆ Ù1¤e¨C¤jÖ1ˆAØ'( cˆI‰L˜Ÿ™Ó#ñ2ð*9×)>Ñ)>Ö)@Ñ%ˆKØM‰M˜)°,Ö?ñ*AðÐr/Ú byte_sequenceNcó^•URnUHnX2;aX#nM g X R$)zG Search the hash tree and return the rewritten byte sequence if found. N)rr()rr>r+r,s r Úsearch_hash_treeÚByteRewriter.search_hash_treeUs6€ð—~‘~ˆÛˆAØÓ Ø+™’áñ ðŸI™IÑ&Ð&r/Úin_bytescóp•/nSnSnU[U5:a U(dUROURn[U[U55HAnXnX†;aXhnOXt:XaU/n Un O( O&URU;dM1X`Rn UnMC URW 5 US-nU[U5:aM U$)zþ Rewrite a sequence of bytes using the hash tree. Args: in_bytes (`list[str]`): A list of bytes to be rewritten. reverse (`bool`): If True, decoding is performed with the reverse hash tree. Returns: `list[str]`: The rewritten byte sequence. ré)Úlenrrr:r(Úextend) rrBÚreverseÚ out_bytesÚb_startÚb_endr+Újr,Úcur_leafs r Ú rewrite_bytesÚByteRewriter.rewrite_bytesbs¾€ðˆ ØˆØˆàœ˜H› Ó%Þ18˜4Ÿ>š>¸d×>TÑ>TˆLÜ˜7¤C¨£MÖ2Ø‘KØÓ$Ø#/¡?‘LØ“\Ø !˜sHØEÙáØ—9‘9 Õ,Ø+¯I©IÑ6HØ’Eñ3ð ×Ñ˜XÔ&Ø˜a‘iˆGð!œ˜H› Õ%ð$Ðr/)rr)F)Ú__name__Ú __module__Ú__qualname__Ú__firstlineno__Ú__doc__r(rrr!Úlistr-rr@rMÚ__static_attributes__r4r/r r r sÊ†ñð€DðS¨¨d°3¸°8©nÑ(<ôSð 0 $ s¨D°4¸±9Ñ,<Ð'<Ñ"=ð 0ÐQTð 0Ðilô 0ð°4¸¸S¸±>ðÀdÈ3ÐPTÐW[Ð\_ÑW`ÑP`ÐK`ÑFaôð'¨d°3©ið'¸DÀ4ÈÁ9Ñ"`): The end of sequence token. unk_token (`str`, *optional*, defaults to `""`): The unknown token. A token that is not in the vocabulary cannot be converted to an ID and is set to be this token instead. pad_token (`str`, *optional*, defaults to `""`): The token used for padding, for example when batching sequences of different lengths. extra_ids (`int`, *optional*, defaults to 125): Add a number of extra ids added to the end of the vocabulary for use as sentinels. These tokens are accessible as "" where "{%d}" is a number between 0 and extra_ids-1. Extra tokens are indexed from the end of the vocabulary up to beginning ("" is the last token in the vocabulary like in ByT5 preprocessing see [here](https://github.com/google-research/text-to-text-transfer-transformer/blob/9fd7b14a769417be33bc6c850f9598764913c833/t5/data/preprocessors.py#L2117)). additional_special_tokens (`list[str]`, *optional*): Additional special tokens used by the tokenizer. Ú input_idsÚattention_maskNr0c ó >•US:”a#Uc [U5Vs/sH nSUS3PM nnONUS:”aHUbE[U5S:”a6[[[SU555n X•:wa[ SUSUS35e[U[5(a[USSS 9OUn[U[5(a[USSS 9OUn[U[5(a[USSS 9OUnXBUS .Ul[UR5Ul SUl [R"[US55Ul[URS 5Ul[URS5Ul[$T U]L"SUUUSUS.UD6 gs snf)Nrz có0•[S[U5;5$)NÚextra_id)Úboolr)r6s r ÚÚ(MyT5Tokenizer.__init__..²s€´D¸ÄsÈ1ÃvÑ9MÔ4Nr/zBoth extra_ids (z!) and additional_special_tokens (zm) are provided to MyT5Tokenizer. In this case the additional_special_tokens must include the extra_ids tokensT)ÚlstripÚrstrip)rrDér9rÚ decompose_mapÚ merge_map)Ú eos_tokenÚ unk_tokenÚ pad_tokenÚ extra_idsÚadditional_special_tokensr4)r:rEÚsetÚfilterÚ ValueErrorrrrÚ_added_tokens_decoderÚoffsetÚ_utf_vocab_sizerrrÚ byte_mapsr Údecompose_rewriterÚmerge_rewriterÚsuperr!)rrrgrhrirjrkÚkwargsÚiÚextra_tokensÚ __class__s €r r!ÚMyT5Tokenizer.__init__£s™ø€ðq‹=Ð6Ñ>ÜDIÈ)ÔDTÓ(UÒDT¸q¨:°a°S¸Ó):ÑDTÐ%Ð(UÐ%Ø ˜‹]Ð8ÑDÌÐMfÓIgÐjkÓIkäœs¤6Ñ*NÐPiÓ#jÓkÓlˆLØÓ(Ü Ø& y kÐ1RÐSlÐRmðn(ð(óðôHRÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ ÜGQÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ ÜGQÐR[Ô]`×GaÑGa”J˜y°¸dÒCÐgpˆ à)2ÀYÑ%OˆÔ"Ü˜$×4Ñ4Ó5ˆŒØ#ˆÔôŸš¤4¨ °CÓ#8Ó9ˆŒä".¨t¯~©~¸oÑ/NÓ"OˆÔÜ*¨4¯>©>¸+Ñ+FÓGˆÔä ‰Òð ØØØØØ&?ñ ðó ùò3)Vs˜Fcó•UR$©N)rq)rs r Ú vocab_sizeÚMyT5Tokenizer.vocab_sizeÑs€à×#Ñ#Ð#r/cóÈ•[URUR-5Vs0sHoRU5U_M nnUR UR 5 U$s snfr|)r:r}rpÚconvert_ids_to_tokensÚupdateÚadded_tokens_encoder)rrwÚvocabs r Ú get_vocabÚMyT5Tokenizer.get_vocabÖsX€Ü;@ÀÇÁÐSW×S^ÑS^ÑA^Ô;_Ó`Ò;_°a×+Ñ+¨AÓ.°Ò1Ñ;_ˆÐ`Ø ‰T×.Ñ.Ô/Øˆùòas¥AÚtoken_ids_0Útoken_ids_1Úalready_has_special_tokenscó¨>•U(a[TU]XSS9$UcS/[U5-S/-$S/[U5-S/-S/[U5--S/-$)ad Retrieve sequence ids from a token list that has no special tokens added. This method is called when adding special tokens using the tokenizer `prepare_for_model` method. Args: token_ids_0 (`list[int]`): List of IDs. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. already_has_special_tokens (`bool`, *optional*, defaults to `False`): Whether or not the token list is already formatted with special tokens for the model. Returns: `list[int]`: A list of integers in the range [0, 1]: 1 for a special token, 0 for a sequence token. T)r†r‡rˆrrD)ruÚget_special_tokens_maskrE)rr†r‡rˆrys €r rŠÚ%MyT5Tokenizer.get_special_tokens_maskÜswø€ö$&Ü‘7Ñ2Ø'Ð]að3ðð ð ÑØCœ#˜kÓ*Ñ*¨q¨cÑ1Ð1Ø”c˜+Ó&Ñ&¨1¨#Ñ-°!°´s¸;Ó7GÑ1GÑHÈAÈ3ÑNÐNr/Ú token_idscó°•[U5S:”a9USUR:Xa&[R"SURS35 U$XR/-$)z.Do not add eos again if user already added it.réÿÿÿÿzThis sequence already has zQ. In future versions this behavior may lead to duplicated eos tokens being added.)rEÚeos_token_idÚwarningsÚwarnrg)rrŒs r Ú_add_eos_if_not_presentÚ%MyT5Tokenizer._add_eos_if_not_presentøs[€äˆy‹>˜AÓ )¨B¡-°4×3DÑ3DÓ"DÜMŠMØ,¨T¯^©^Ð,<ð=+ð+ô ðÐà× 1Ñ 1Ð2Ñ2Ð2r/cór•UR/nUc[X-5S/-$[X-U-U-5S/-$)ay Create a mask from the two sequences passed to be used in a sequence-pair classification task. MyT5 does not make use of token type ids, therefore a list of zeros is returned. Args: token_ids_0 (`list[int]`): List of IDs. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `list[int]`: List of zeros. r)rrE)rr†r‡Úeoss r Ú$create_token_type_ids_from_sequencesÚ2MyT5Tokenizer.create_token_type_ids_from_sequencessL€ð × Ñ Ð!ˆàÑÜ{Ñ(Ó)¨Q¨CÑ/Ð/Ü;Ñ$ {Ñ2°SÑ8Ó9¸Q¸CÑ?Ð?r/cóX•URU5nUcU$URU5nX-$)a" Build model inputs from a sequence or a pair of sequence for sequence classification tasks by concatenating and adding special tokens. A sequence has the following format: - single sequence: `X ` - pair of sequences: `A B ` Args: token_ids_0 (`list[int]`): List of IDs to which the special tokens will be added. token_ids_1 (`list[int]`, *optional*): Optional second list of IDs for sequence pairs. Returns: `list[int]`: List of [input IDs](../glossary#input-ids) with the appropriate special tokens. )r’)rr†r‡s r Ú build_inputs_with_special_tokensÚ.MyT5Tokenizer.build_inputs_with_special_tokenss9€ð&×2Ñ2°;Ó?ˆØÑØÐà×6Ñ6°{ÓCˆKØÑ,Ð,r/Útextcóv•URS5Vs/sHo3SPM nnURU5nU$s snf)zTake as input a string and return a list of strings (tokens) for words/sub-words. Represents tokens in two character hex formatúutf-8r3)ÚencodeÚmorphological_encode)rr›rvrwÚtokenss r Ú _tokenizeÚMyT5Tokenizer._tokenize4sA€ð'+§k¡k°'Ô&:Ó;Ò&: sG’*Ñ&:ˆÐ;Ø×*Ñ*¨6Ó2ˆØˆ ùòÓ?Ä#Àd×F_ÑF_ÓB`Ñ`ˆ ÛˆEØÓ%Øœ5 ¨Ó0Ñ0’àœ5Ÿ=™=¨Ó/Ñ/’ñ ð —‘ °Ð9ˆØˆ r/Úsave_directoryÚfilename_prefixc óŠ•[RRU5(a6[RRX(aUS-OS[S-5nOU(aUS-OSU-n[USSS9nUR [R"URSSS 95 SSS5 U4$!,(df U4$=f) NÚ-ÚrÚwr)ÚencodingrdF)ÚindentÚensure_ascii) ÚosÚpathÚisdirÚjoinÚVOCAB_FILES_NAMESrÚwriterÚdumpsrr)rrÅrÆrÚwriters r Úsave_vocabularyÚMyT5Tokenizer.save_vocabularyns €Ü 7‰7=‰=˜×(Ñ(ÜŸ™Ÿ™Ø½/ °3Ò!6ÈrÔUfÐgsÑUtÑ tó‰Jö4C˜/¨CÒ/ÈÈnÑ\ˆJÜ *˜c¨GÒ 4¸ØL‰LœŸš D§N¡N¸1È5ÑQÔR÷5àˆ}Ð÷5Ô 4àˆ}ÐúsÁ70B2Â2 C)rorqrrrsrtrp)zzzé}N)r0N)NFr|)rOrPrQrRrSÚmodel_input_namesrÒÚvocab_files_namesr!Úpropertyr}r„rTr¥r_rŠr’r–r™rr¡r¨r¬rŸr´rÃÚtuplerÖrUÚ __classcell__)rys@r rWrW…s²ø†ñð4%Ð&6Ð7ÐØ)Ðð ØØØØ"&ð, ð ÷, ð, ð\ñ$óð$òðpuñOØ ™9ðOØ37¸±9¸tÑ3CðOØhlðOà ˆc‰÷OðOð8 3°°c±ð 3¸tÀC¹yô 3ðGKñ@Ø ™9ð@Ø37¸±9¸tÑ3Cð@à ˆc‰õ@ð0GKñ-Ø ™9ð-Ø37¸±9¸tÑ3Cð-à ˆc‰õ-ð4˜cð°°S± ôòòð ¨D°©Ið¸$¸s¹)ôð¨D°©Ið¸$¸s¹)ôòñ. ¨cð ÀCÈ$ÁJð ÐZ_Ð`cÑZd÷ ó r/rW)rSrrÎrÚcollectionsrÚtokenization_pythonrrÚutilsrÚ get_loggerrOÚloggerrÒr rWÚ__all__r4r/r Úräscðñ)ãÛ ÛÝ#çBÝð × Ò ˜HÓ %€ð"Ð#3Ð4Ð÷cñcôLrÐ'ôrðjÐ r/