Professional Documents
Culture Documents
LAB 4 - Thuc Hanh Data Preparation & Pre-Processing - Phan 3
LAB 4 - Thuc Hanh Data Preparation & Pre-Processing - Phan 3
LAB 4
Sử dụng kết quả bài tập Lab 3, bổ sung các nội dung như gợi ý sao cho phù hợp với Data
được chọn gồm:
Rời rạc hóa dữ liệu bằng phương pháp binning/ phân lớp/gom cụm
Chuyển dữ liệu dạng danh mục sang dữ liệu dạng số
Giảm dữ liệu: chọn một phương pháp phù hợp (Wavelet/PCA/…) và thử nghiệm, tìm
hiểu các phương pháp hiện đại gần đây và thử nghiệm
Rút trích đặc trưng: tìm hiểu xem bài toán mình đang nghiên cứu (trên dữ liệu đã chọn)
thuộc lĩnh vực nào, các công trình nghiên cứu liên quan tiếp cận giải bài toán tương tự ra
sao, đặc biệt là các công trình gần đây nhất, có những phương pháp trích chọn đặc trưng
nào tiên tiến, thử nghiệm
Lưu thành 1 file STT.ipynb (đối với tất cả các tập dữ liệu) và nộp lại trong thời hạn 2
ngày. STT là số thứ tự SV xem trong group zalo.
--HẾT LAB 4--
Dataset tham khảo:
1| Common Crawl Corpus
Common Crawl is a corpus of web crawl data composed of over 25 billion web pages. For all
crawls since 2013, the data has been stored in the WARC file format and also contains metadata
(WAT) and text data (WET) extracts. The dataset can be used in natural language processing
(NLP) projects.
5| Iris Species
The Iris Species is the Iris Plant Database, which contains three classes of 50 instances each,
where each class refers to a type of iris plant. One class is linearly separable from the other two,
and the latter are not linearly separable from each other. The columns of this dataset include Id,
Sepallength, PetalLength, etc.
7| Slogan Dataset
The Slogan dataset can be used to analyse slogans of various organisations. It includes a list of
slogans in the form of company_name, company_slogan. The data has been acquired from
slogan-list.com, which contains more than 1000 pairs of “company, slogan” spread across 10+
categories.