Download as pdf or txt
Download as pdf or txt
You are on page 1of 3

BIGDATA - MINI PROJECT (MAPREDUCE + HIVE)

Mục tiêu của project này là thực hiện phân tích cảm xúc trên tập dữ liệu
Twitter và tìm các tweet tích cực, tiêu cực và trung tính. Sử dụng Hive và
MapReduce cùng với danh sách AFINN-111 để thực hiện phân tích.

Các bước:
Phân tích tập dữ liệu ở định dạng JSON và xóa tất cả các ký hiệu đặc
biệt, siêu liên kết khỏi các tweet.
Tính giá trị cảm xúc của tweet
Đầu ra: Id , Tweet được xử lý và giá trị cảm xúc của tweet đó.
Tải dữ liệu đã xử lý vào Hive và thực hiện phân tích cảm xúc.

Hướng dẫn này sẽ được chia làm 2 phần. Đây là hướng file hướng dẫn phần 1 của Project
PHẦN 1 - MAPREDUCE
Toàn bộ dữ liêu và source code có tại link Github trong phần mô tả: https://github.com/nv-thang/BigDataTraining

Download
PHẦN 1 - MAPREDUCE

Các bước thực hiện trong phần 1:


1. Tải xuống thư mục trong link github
2. Thêm các file JAR trong thư mục APIs đã download ở bước 1 vào trong thư mục: usr/lib/hadoop/lib
3. Tạo project java: thêm các file thư viện JAR như các bài tập trước + 2 file thư viện JAR ở bước 2
4. Thêm các file code java trong thư mục code đã tải xuống ở bước 1 vào trong project
5. Sửa các lỗi nếu có sau khi thêm các file code
6. Sửa dòng 40 trong file Drive.java như hình bên phải
7. Export project ra file JAR giống như các bài tập trước
8. Đẩy file AFINN-111.txt và file FlumeData.txt (trong thư mục dataset) đã download ở bước 1 lên HDFS
9. Chạy chương trình với file JAR ở bước 6 và dữ liệu input ở bước 7 theo cú pháp:
hadoop ‘đường_dẫn_file_JAR_bước7' Driver ‘đường_dẫn_file_FlumeData.txt_bước_8' ‘đường_dẫn_lưu_kết_quả’
10. Đọc kết quả đầu ra:

You might also like