Các bước tiền xử lý dữ liệu văn bản
-
Chuẩn hóa unicode (unicode tổ hợp và dựng sẵn)
-
Chuẩn hóa ký tự
-
Chuẩn hóa dấu
-
Loại bỏ các ký tự đặc biệt (thẻ html, ...)
-
File Loading
-
Tách từ
-
Vocab
-
Numericalize/Indexify
-
Word Vector
-
Batching
-
Embedding Lookup
Tham khảo