Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

HƯỚNG DẪN LÀM BÀI TẬP CUỐI KỲ MÔN PHÂN TÍCH DỮ LIỆU LỚN

HKI 2022 - 2023


Ngày nộp: 9h tối T6 (26/05/2023)
Ngày báo cáo: 27/05/2023

Mỗi nhóm (2-4 SV) thực hiện các chức năng sau:
1. Apache Sqoop, Mahout (tối đa 4 nhóm)
- Tìm hiểu lý thuyết Sqoop, Mahout
- Cài đặt Sqoop, Mahout
- Demo sử dụng Sqoop, Mahout
2. Apache Pig + Spark (tối đa 2 nhóm)
- Tìm hiểu và demo thêm các tính năng nâng cao của Apache Pig, không làm lại bài
giữa kỳ
- Chạy các demo Pig trên Hadoop MapReduce kết hợp Spark.
3. Apache Hive + Spark (tối đa 3 nhóm)
- Tìm hiểu và demo thêm các tính năng nâng cao của Apache Hive, không làm lại
bài giữa kỳ
- Chạy các demo Hive trên Hadoop MapReduce kết hợp Spark.
Lưu ý:
- Các nhóm nộp báo cáo đúng hạn, nhóm nào không nộp không được báo cáo cuối kỳ.
- Các nhóm phân chia công việc đồng đều, các thành viên đều phải tham gia quá trình
demo.
- Báo cáo gồm có:
o File word (.docx) ghi chi tiết các công việc đã tìm hiểu và demo. File báo cáo
có chứa Bảng phân công công việc của các thành viên và Tài liệu tham
khảo.
o Các tập dữ liệu đã sử dụng cho demo.
o Project (nếu có)
Nguồn tham khảo (SV có thể tìm thêm các nguồn tham khảo khác trên Google):
[1] https://www.tutorialspoint.com/apache_pig/apache_pig_cogroup_operator.htm
[2] https://www.tutorialspoint.com/hive/hive_partitioning.htm
[3] https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm
[4] https://www.tutorialspoint.com/sqoop/sqoop_eval.htm
[5] https://www.tutorialspoint.com/mahout/mahout_introduction.htm
[6] https://bigdata-madesimple.com/20-essential-hadoop-tools-for-crunching-big-data/
[7] https://www.kaggle.com/datasets
[8] https://hadoopilluminated.com/hadoop_illuminated/Public_Bigdata_Sets.html
[9] https://www.dataquest.io/blog/free-datasets-for-projects/

You might also like