Tokenization is a way to split text into tokens. These tokens could be paragraphs, sentences, or individual words. NLTK provides a number of tokenizers in the tokenize module. Some tokenizer in NLP as

TreebankWordTokenizer: Uses regular expressions to tokenize text as in Penn Treebank.

Bảng chú giải tree bank:

Name	description
N	Danh từ
Np	Danh từ riêng
Nc	Danh từ chỉ loại
Nu	Danh từ đơn vị
V	Động từ
A	Tính từ
P	Đại từ
L	Định từ
M	Số từ
R	Phụ từ
E	Giới từ
C	Liên từ
I	Thán từ
T	Trợ từ, tiểu từ, từ tình thái
U	Từ đơn lẻ
Y	Từ viết tắt
X	Các từ không phân loại được
NP (noun phrases)	Cụm danh từ
VP (verb phrases)	Cụm động từ
AP (adjective phrases)	Cụm tính từ
RP	Cụm phụ từ
PP	Cụm giới từ
QP	Cụm từ chỉ số lượng
MDP (model phrases)	Cụm từ tình thái
WHNP (wh-question noun phrases)	Cụm danh từ nghi vấn (ai, cái gì, con gì,...)
WHAP (wh-question adjective phrases)	Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao,...)
WHRP	Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn,...
WHPP (wh-question preposition phrases)	Cụm giới từ nghi vấn (với ai, bằng cách nào,...)
S	Câu trần thuật (khẳng định hoặc phủ định)
SQ	Câu hỏi
SBAR	Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ)
SUB	Nhãn chức năng chủ ngữ
DOB	Nhãn chức năng tân ngữ trực tiếp
IOB	Nhãn chức năng tân ngữ gián tiếp
TPC	Nhãn chức năng chủ đề
PRD	Nhãn chức năng vị ngữ không phải cụm động từ
LGS	Nhãn chức năng chủ ngữ logic của câu ở thể bị động
EXT	Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động
H	Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề)
TC, CMD, EXC, SPL	Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt
TTL	Tít báo hay tiêu đề
VOC	Thành phần than gọi
TMP	Nhãn chức năng trạng ngữ chỉ thời gian
LOC	Nhãn chức năng trạng ngữ chỉ nơi chốn
DIR	Nhãn chức năng trạng ngữ chỉ hướng
MNR	Nhãn chức năng trạng ngữ chỉ cách thức
PRP	Nhãn chức năng trạng ngữ chỉ mục đích hay lý do
ADV	Nhãn chức năng trạng ngữ nói chung (dùng khi trạng ngữ không thuộc một trong các loại cụ thể trên)

WordPunctTokenizer: Tokenize a text into a sequence of alphabetic and non-alphabetic characters, using the regexp \w+|[^\w\s]+.
PunctWordTokenizer: This tokenizer divides a text into a list of sentences by using an unsupervised algorithm to build a model for abbreviation words, collocations, and words that start sentences. It must be trained on a large collection of plaintext in the target language before it can be used.
WhitespaceTokenizer: Tokenize a string on whitespace (space, tab, newline). In general, users should use the string split() method instead.

I show the most popular neural network frameworks and libraries that can be utilized for natural language processing (NLP) in the some programming language.

Parsing in English
Parsing in Dutch
Parsing in French
Parsing in Spanish
Parsing in Italian
Stanford CoreNLP
Natural language toolkit (NLTK)
Apache OpenNLP
Gate NLP library
scikit-learn, dataset

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NLP Framework.md

NLP Framework.md

Files

NLP Framework.md

Latest commit

History

NLP Framework.md

File metadata and controls