-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathtokenizer.pkl
15759 lines (15759 loc) · 92.4 KB
/
tokenizer.pkl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
ccopy_reg
_reconstructor
p0
(ckeras.preprocessing.text
Tokenizer
p1
c__builtin__
object
p2
Ntp3
Rp4
(dp5
S'lower'
p6
I01
sS'word_index'
p7
(dp8
S'raining'
p9
I1192
sS'hats'
p10
I954
sS'yellow'
p11
I54
sS'four'
p12
I126
sS'woods'
p13
I159
sS'asian'
p14
I139
sS'railing'
p15
I307
sS'looking'
p16
I119
sS'feeding'
p17
I794
sS'patches'
p18
I1157
sS'swan'
p19
I1540
sS'bike'
p20
I85
sS'under'
p21
I215
sS'onstage'
p22
I815
sS'fists'
p23
I1455
sS'blanket'
p24
I445
sS'costume'
p25
I244
sS'closeup'
p26
I314
sS'jack'
p27
I721
sS'bringing'
p28
I848
sS'wooded'
p29
I406
sS'wooden'
p30
I219
sS'greenish'
p31
I711
sS'clothes'
p32
I648
sS'bicycle'
p33
I168
sS'quilt'
p34
I1124
sS'hanging'
p35
I742
sS'bannister'
p36
I1018
sS'second'
p37
I1571
sS'street'
p38
I60
sS'colourful'
p39
I713
sS'blue'
p40
I24
sS'cooking'
p41
I1487
sS'while'
p42
I28
sS'lights'
p43
I735
sS'above'
p44
I210
sS'net'
p45
I443
sS'helmets'
p46
I1558
sS'kicked'
p47
I740
sS'men'
p48
I112
sS'protection'
p49
I1566
sS'studio'
p50
I1552
sS'path'
p51
I121
sS'cardboard'
p52
I1438
sS'dry'
p53
I1045
sS'kids'
p54
I277
sS'leaves'
p55
I268
sS'climbed'
p56
I1150
sS'jogging'
p57
I984
sS'smoke'
p58
I463
sS'military'
p59
I874
sS'climber'
p60
I545
sS'golden'
p61
I1253
sS'straw'
p62
I569
sS'punching'
p63
I1136
sS'landscape'
p64
I390
sS'swings'
p65
I330
sS'sweater'
p66
I459
sS'arms'
p67
I274
sS'overhead'
p68
I842
sS'calf'
p69
I1478
sS'paperwork'
p70
I1226
sS'supporters'
p71
I1345
sS'expose'
p72
I768
sS'glass'
p73
I937
sS'adult'
p74
I216
sS'93'
p75
I982
sS'hold'
p76
I414
sS'blocking'
p77
I1256
sS'room'
p78
I319
sS'cyclers'
p79
I1323
sS'cellos'
p80
I896
sS'rollerskating'
p81
I939
sS'roof'
p82
I1032
sS'obstacle'
p83
I337
sS'squirting'
p84
I1398
sS'wand'
p85
I1038
sS'laughs'
p86
I462
sS'ceremony'
p87
I1332
sS'treck'
p88
I1418
sS'returning'
p89
I835
sS'braids'
p90
I1314
sS'machine'
p91
I608
sS'boats'
p92
I1053
sS'beach'
p93
I69
sS'pokes'
p94
I1375
sS'mouths'
p95
I1158
sS'shored'
p96
I1145
sS'after'
p97
I341
sS'lab'
p98
I773
sS'jumping'
p99
I35
sS'lay'
p100
I1117
sS'lap'
p101
I1356
sS'shirt'
p102
I31
sS'colorfully'
p103
I955
sS'third'
p104
I538
sS'cigarettes'
p105
I1495
sS'green'
p106
I56
sS'jungle'
p107
I720
sS'keeps'
p108
I729
sS'backdrop'
p109
I529
sS'wine'
p110
I428
sS'over'
p111
I65
sS'before'
p112
I470
sS'forehead'
p113
I1408
sS'chihuahua'
p114
I1284
sS'hudge'
p115
I1080
sS'writing'
p116
I1309
sS'sprays'
p117
I862
sS'fig'
p118
I1101
sS'them'
p119
I282
sS'school'
p120
I1453
sS'offroad'
p121
I941
sS'band'
p122
I895
sS'sack'
p123
I1205
sS'they'
p124
I286
sS'sidelines'
p125
I1549
sS'rocky'
p126
I435
sS'rocks'
p127
I247
sS'choir'
p128
I1340
sS'clothed'
p129
I1132
sS'each'
p130
I142
sS'side'
p131
I133
sS'train'
p132
I425
sS'bowls'
p133
I1034
sS'navy'
p134
I1416
sS'flock'
p135
I1228
sS'thorugh'
p136
I774
sS'driving'
p137
I336
sS'haired'
p138
I229
sS'cameras'
p139
I1107
sS'sliding'
p140
I1570
sS'splashed'
p141
I1083
sS'turning'
p142
I1547
sS'barrier'
p143
I386
sS'rail'
p144
I516
sS'free'
p145
I920
sS'splashes'
p146
I299
sS'knit'
p147
I537
sS'shrubbery'
p148
I1479
sS'baseman'
p149
I1168
sS'outfits'
p150
I1294
sS'takeout'
p151
I1102
sS'festival'
p152
I1437
sS'leaps'
p153
I324
sS'onto'
p154
I211
sS'hoop'
p155
I504
sS'puck'
p156
I615
sS'spinning'
p157
I903
sS'another'
p158
I43
sS'comic'
p159
I730
sS'toy'
p160
I132
sS'hydrant'
p161
I513
sS'top'
p162
I144
sS'cements'
p163
I1017
sS'attack'
p164
I1468
sS'elevator'
p165
I698
sS'too'
p166
I732
sS'gowns'
p167
I1381
sS'legs'
p168
I909
sS'dogs'
p169
I61
sS'urban'
p170
I1506
sS'bouncing'
p171
I818
sS'begins'
p172
I669
sS'distance'
p173
I595
sS'approachs'
p174
I1072
sS'surrounding'
p175
I1155
sS'hike'
p176
I737
sS'tree'
p177
I109
sS'seated'
p178
I367
sS'africanamericans'
p179
I826
sS'silly'
p180
I803
sS'tackled'
p181
I489
sS'hoodedcoat'
p182
I693
sS'bridge'
p183
I323
sS'dozes'
p184
I1317
sS'runner'
p185
I1169
sS'paddles'
p186
I1268
sS'talking'
p187
I1141
sS'seen'
p188
I594
sS'concrete'
p189
I174
sS'bleachers'
p190
I521
sS'snow'
p191
I57
sS'chest'
p192
I1153
sS'swims'
p193
I461
sS'rides'
p194
I129
sS'rider'
p195
I309
sS'crocs'
p196
I932
sS'object'
p197
I375
sS'mouth'
p198
I73
sS'slides'
p199
I592
sS'streches'
p200
I1199
sS'camp'
p201
I875
sS'metal'
p202
I311
sS'dog'
p203
I8
sS'points'
p204
I772
sS'camo'
p205
I1527
sS'colors'
p206
I756
sS'thirds'
p207
I1315
sS'toast'
p208
I583
sS'foraging'
p209
I893
sS'just'
p210
I950
sS'excercise'
p211
I1532
sS'folded'
p212
I989
sS'bush'
p213
I969
sS'touched'
p214
I1037
sS'goalie'
p215
I1457
sS'scrubbing'
p216
I1509
sS'wearing'
p217
I29
sS'do'
p218
I654
sS'tiles'
p219
I1522
sS'sunglasses'
p220
I206
sS'colorful'
p221
I266
sS'watch'
p222
I236
sS'dc'
p223
I1359
sS'pocket'
p224
I968
sS'watermelon'
p225
I1233
sS'cushion'
p226
I1560
sS'wedding'
p227
I938
sS'knocks'
p228
I718
sS'runs'
p229
I71
sS'bar'
p230
I605
sS'rowing'
p231
I408
sS'bag'
p232
I270
sS'shots'
p233
I702
sS'steal'
p234
I1421
sS'brushland'
p235
I894
sS'ears'
p236
I703
sS'fair'
p237
I502
sS'observes'
p238
I916
sS'fluffy'
p239
I906
sS'observed'
p240
I622
sS'draws'
p241
I1491
sS'away'
p242
I233
sS'artificial'
p243
I1305
sS'wetsuit'
p244
I370
sS'mud'
p245
I427
sS'overgrown'
p246
I712
sS'bracing'
p247
I929
sS'finger'
p248
I368
sS'crosscountry'
p249
I536
sS'wears'
p250
I401
sS'nature'
p251
I1065
sS'wear'
p252
I952
sS'modeling'
p253
I1409
sS'packages'
p254
I900
sS'roller'
p255
I496
sS'kitchen'
p256
I1272
sS'cop'
p257
I945
sS'cow'
p258
I563
sS'steep'
p259
I738
sS'against'
p260
I239
sS'bodysuit'
p261
I923
sS'participating'
p262
I905
sS'players'
p263
I378
sS'brindle'
p264
I645
sS'blonde'
p265
I196
sS'three'
p266
I111
sS'tiny'
p267
I1559
sS'beer'
p268
I522
sS'containers'
p269
I1481
sS'life'
p270
I892
sS'eastern'
p271
I767
sS'turned'
p272
I1249
sS'child'
p273
I33
sS'catch'
p274
I175
sS'tank'
p275
I983
sS'air'
p276
I49
sS'near'
p277
I72
sS'applies'
p278
I1432
sS'is'
p279
I6
sS'it'
p280
I118
sS'player'
p281
I52
sS'cone'
p282
I1081
sS'in'
p283
I3
sS'violin'
p284
I1115
sS'if'
p285
I1511
sS'memorial'
p286
I1357
sS'bottles'
p287
I798
sS'perform'
p288
I1166
sS'make'
p289
I582
sS'beside'
p290
I171
sS'vegetable'
p291
I1186
sS'several'
p292
I1293
sS'couple'
p293
I95
sS'bearded'
p294
I827
sS'peaks'
p295
I696
sS'hang'
p296
I881
sS'rain'
p297
I482
sS'hand'
p298
I201
sS'waterfall'
p299
I430
sS'characters'
p300
I456
sS'kid'
p301
I312
sS'smokes'
p302
I1378
sS'ocean'
p303
I113
sS'practices'
p304
I1368
sS'mother'
p305
I1330
sS'the'
p306
I4
sS'left'
p307
I695
sS'sleeps'
p308
I1280
sS'photo'
p309
I389
sS'goggles'
p310
I355
sS'thumbs'
p311
I1430
sS'human'
p312
I1063
sS'lasso'
p313
I1477
sS'dining'
p314
I736
sS'furry'
p315
I549
sS'hay'
p316
I1029
sS'board'
p317
I373
sS'basketball'
p318
I152
sS'has'
p319
I131
sS'hat'
p320
I63
sS'casting'
p321
I1210
sS'boxer'
p322
I684
sS'background'
p323
I76
sS'forested'
p324
I917
sS'cape'
p325
I1519
sS'poses'
p326
I221
sS'performing'
p327
I265
sS'steps'
p328
I278
sS'night'
p329
I273
sS'right'
p330
I420
sS'petting'
p331
I467
sS'creek'
p332
I1212
sS'crowd'
p333
I75
sS'people'
p334
I27
sS'elderly'
p335
I338
sS'election'