Tokenization is a way to split text into tokens. These tokens could be paragraphs, sentences, or individual words. NLTK provides a number of tokenizers in the tokenize module. Some tokenizer in NLP as
-
TreebankWordTokenizer: Uses regular expressions to tokenize text as in Penn Treebank.
Bảng chú giải tree bank:
Name description N Danh từ Np Danh từ riêng Nc Danh từ chỉ loại Nu Danh từ đơn vị V Động từ A Tính từ P Đại từ L Định từ M Số từ R Phụ từ E Giới từ C Liên từ I Thán từ T Trợ từ, tiểu từ, từ tình thái U Từ đơn lẻ Y Từ viết tắt X Các từ không phân loại được NP (noun phrases) Cụm danh từ VP (verb phrases) Cụm động từ AP (adjective phrases) Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ chỉ số lượng MDP (model phrases) Cụm từ tình thái WHNP (wh-question noun phrases) Cụm danh từ nghi vấn (ai, cái gì, con gì,...) WHAP (wh-question adjective phrases) Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao,...) WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn,... WHPP (wh-question preposition phrases) Cụm giới từ nghi vấn (với ai, bằng cách nào,...) S Câu trần thuật (khẳng định hoặc phủ định) SQ Câu hỏi SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ) SUB Nhãn chức năng chủ ngữ DOB Nhãn chức năng tân ngữ trực tiếp IOB Nhãn chức năng tân ngữ gián tiếp TPC Nhãn chức năng chủ đề PRD Nhãn chức năng vị ngữ không phải cụm động từ LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề) TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt TTL Tít báo hay tiêu đề VOC Thành phần than gọi TMP Nhãn chức năng trạng ngữ chỉ thời gian LOC Nhãn chức năng trạng ngữ chỉ nơi chốn DIR Nhãn chức năng trạng ngữ chỉ hướng MNR Nhãn chức năng trạng ngữ chỉ cách thức PRP Nhãn chức năng trạng ngữ chỉ mục đích hay lý do ADV Nhãn chức năng trạng ngữ nói chung (dùng khi trạng ngữ không thuộc một trong các loại cụ thể trên) -
WordPunctTokenizer: Tokenize a text into a sequence of alphabetic and non-alphabetic characters, using the regexp \w+|[^\w\s]+.
-
PunctWordTokenizer: This tokenizer divides a text into a list of sentences by using an unsupervised algorithm to build a model for abbreviation words, collocations, and words that start sentences. It must be trained on a large collection of plaintext in the target language before it can be used.
-
WhitespaceTokenizer: Tokenize a string on whitespace (space, tab, newline). In general, users should use the string split() method instead.
I show the most popular neural network frameworks and libraries that can be utilized for natural language processing (NLP) in the some programming language.