Bigdata - Mini Project (Mapreduce - Hive)

Uploaded by

Tuấn Nguyễn

0% found this document useful (0 votes)

2 views3 pages

bigdata

Original Title

bigdata - mini project (Mapreduce _ Hive)

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

bigdata

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

2 views3 pages

Bigdata - Mini Project (Mapreduce - Hive)

Uploaded by

Tuấn Nguyễn

bigdata

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 3

Search inside document

BIGDATA - MINI PROJECT (MAPREDUCE + HIVE)

Mục tiêu của project này là thực hiện phân tích cảm xúc trên tập dữ liệu
Twitter và tìm các tweet tích cực, tiêu cực và trung tính. Sử dụng Hive và
MapReduce cùng với danh sách AFINN-111 để thực hiện phân tích.

Các bước:
Phân tích tập dữ liệu ở định dạng JSON và xóa tất cả các ký hiệu đặc
biệt, siêu liên kết khỏi các tweet.
Tính giá trị cảm xúc của tweet
Đầu ra: Id , Tweet được xử lý và giá trị cảm xúc của tweet đó.
Tải dữ liệu đã xử lý vào Hive và thực hiện phân tích cảm xúc.

Hướng dẫn này sẽ được chia làm 2 phần. Đây là hướng file hướng dẫn phần 1 của Project
PHẦN 1 - MAPREDUCE
Toàn bộ dữ liêu và source code có tại link Github trong phần mô tả: https://github.com/nv-thang/BigDataTraining

Download
PHẦN 1 - MAPREDUCE

Các bước thực hiện trong phần 1:

1. Tải xuống thư mục trong link github
2. Thêm các file JAR trong thư mục APIs đã download ở bước 1 vào trong thư mục: usr/lib/hadoop/lib
3. Tạo project java: thêm các file thư viện JAR như các bài tập trước + 2 file thư viện JAR ở bước 2
4. Thêm các file code java trong thư mục code đã tải xuống ở bước 1 vào trong project
5. Sửa các lỗi nếu có sau khi thêm các file code
6. Sửa dòng 40 trong file Drive.java như hình bên phải
7. Export project ra file JAR giống như các bài tập trước
8. Đẩy file AFINN-111.txt và file FlumeData.txt (trong thư mục dataset) đã download ở bước 1 lên HDFS
9. Chạy chương trình với file JAR ở bước 6 và dữ liệu input ở bước 7 theo cú pháp:
hadoop ‘đường_dẫn_file_JAR_bước7' Driver ‘đường_dẫn_file_FlumeData.txt_bước_8' ‘đường_dẫn_lưu_kết_quả’
10. Đọc kết quả đầu ra:

Lab2 PhatTrienUngDungBlinkTask
Document2 pages
Lab2 PhatTrienUngDungBlinkTask
LongBongCot
No ratings yet
Phân Tích Tĩnh Adware
Document9 pages
Phân Tích Tĩnh Adware
cuong215c
No ratings yet
Bai TH2 - Lap Trinh Web
Document3 pages
Bai TH2 - Lap Trinh Web
hai duong
No ratings yet
Báo Cáo BTL
Document12 pages
Báo Cáo BTL
nguyendacphuc2112003
No ratings yet
SS004 - Git - 1
Document2 pages
SS004 - Git - 1
23521788
No ratings yet
Huong Dan Nop Cac San Pham Do An Mon Hoc
Document7 pages
Huong Dan Nop Cac San Pham Do An Mon Hoc
Nguyễn Minh Phát
No ratings yet
Heroku
Document12 pages
Heroku
Lâm Minh
No ratings yet
BaoCao Nhom7
Document58 pages
BaoCao Nhom7
Hoàng Tuyến
No ratings yet
LAB3
Document28 pages
LAB3
Thành Nam Thái
No ratings yet
Guidemap
Document1 page
Guidemap
trungthuan998
No ratings yet
GVHD
Document8 pages
GVHD
HAWKING STEPHEN
No ratings yet
Huong Dan Nop Cac San Pham Do An Mon Hoc
Document7 pages
Huong Dan Nop Cac San Pham Do An Mon Hoc
An Bùi Ngọc Mỹ
No ratings yet
Thực hành hệ điều hành 1
Document61 pages
Thực hành hệ điều hành 1
Nguyễn Văn A
No ratings yet
HD Hs Lap Trinh Ung Dung Hoc Tap Bang Ai2 Cho TBDD - Hung 213201816 PDF
Document11 pages
HD Hs Lap Trinh Ung Dung Hoc Tap Bang Ai2 Cho TBDD - Hung 213201816 PDF
Trần Chiến
No ratings yet
báo cáo thực tập hè 2022
Document8 pages
báo cáo thực tập hè 2022
Hien Nguyen Tat
No ratings yet
Lab1 CaiDatTinyOS 1603
Document12 pages
Lab1 CaiDatTinyOS 1603
LongBongCot
No ratings yet
Cách Đẩy Source Code Lên Github
Document6 pages
Cách Đẩy Source Code Lên Github
tiemgiay2you
No ratings yet
Hướng dẫn Get Link Folder trong trang Mediafire bằng Mediafire Getter
Document15 pages
Hướng dẫn Get Link Folder trong trang Mediafire bằng Mediafire Getter
vothanhchuong
No ratings yet
Board Support Package (BSP)
Document17 pages
Board Support Package (BSP)
Do Le
No ratings yet
LAB 02 - LUỒNG NHẬP XUẤT
Document8 pages
LAB 02 - LUỒNG NHẬP XUẤT
Thái Tài Phạm
No ratings yet
Làm Quen React Js
Document5 pages
Làm Quen React Js
tinhdk2002
No ratings yet
Lập Trình NIOS II Trên Hệ Thống SoPC Sử Dụng Kit De
Document22 pages
Lập Trình NIOS II Trên Hệ Thống SoPC Sử Dụng Kit De
phan_vinh_20
No ratings yet
TT ATBM
Document7 pages
TT ATBM
B18DCCN476 - Nông Nguyễn Nguyên Phương
No ratings yet
Điều Khiển Thiết Bị Điện Thông Qua Trợ Lý Ảo Google Assistant
Document121 pages
Điều Khiển Thiết Bị Điện Thông Qua Trợ Lý Ảo Google Assistant
Thi Nguyen
No ratings yet
Nhóm 7 Báo cáo tuần 8
Document3 pages
Nhóm 7 Báo cáo tuần 8
ducngubeo
No ratings yet
Trình bày hiểu biết của mình về khung quy trình và mô hình phân tầng phát triển phần mềm
Document15 pages
Trình bày hiểu biết của mình về khung quy trình và mô hình phân tầng phát triển phần mềm
Nguyễn Thành Nam
No ratings yet
De Cuong On Thi Hoc Ki 1 Lop 8
Document7 pages
De Cuong On Thi Hoc Ki 1 Lop 8
nguyenduykhoa1410
No ratings yet
Backend Part1
Document8 pages
Backend Part1
hạnh
No ratings yet
19522067-Bai Thu Hoach
Document13 pages
19522067-Bai Thu Hoach
Gia Phương
No ratings yet
Tìm hiểu GitHub
Document6 pages
Tìm hiểu GitHub
nguyen vinh
No ratings yet
Bao Cao Nhom 5
Document22 pages
Bao Cao Nhom 5
ductungpho1005
No ratings yet
Lab5 KTPM
Document25 pages
Lab5 KTPM
duy trinh
No ratings yet
Flutter - VNCODE Copy 4
Document9 pages
Flutter - VNCODE Copy 4
Tom Vu
No ratings yet
Chuong1 - 20180279 - POUTH LYHEANG
Document12 pages
Chuong1 - 20180279 - POUTH LYHEANG
ពិភពរឿង និយាយខ្មែរ
No ratings yet
TTDATN-Le Dong Hung
Document16 pages
TTDATN-Le Dong Hung
PHùng Trần
No ratings yet
Assignments 2023 HK231
Document5 pages
Assignments 2023 HK231
LỄ DƯƠNG TRỌNG
No ratings yet
Câu Hỏi Công Nghệ Phần Mềm
Document18 pages
Câu Hỏi Công Nghệ Phần Mềm
Đạt Pro
No ratings yet
Lab 01
Document5 pages
Lab 01
Gilgamesh Elish
No ratings yet
Lab 7 V
Document50 pages
Lab 7 V
Thịnh Ngọc
No ratings yet
Cài đặt Android plugin cho NetBean IDE
Document8 pages
Cài đặt Android plugin cho NetBean IDE
donhave2006
No ratings yet
PHẦN 2
Document13 pages
PHẦN 2
Hiển Huỳnh
No ratings yet
Kiến trúc của APK và AAB
Document8 pages
Kiến trúc của APK và AAB
Trang Lưu
No ratings yet
Lab04 Botnet
Document4 pages
Lab04 Botnet
va
No ratings yet
TUẤN
Document33 pages
TUẤN
Hoàng Văn Thanh
No ratings yet
DotNetBar 9
Document4 pages
DotNetBar 9
task279
No ratings yet
Lab 3
Document11 pages
Lab 3
loitrian
No ratings yet
Danh Gia Cac Nhom
Document2 pages
Danh Gia Cac Nhom
Tu Thanh Thoai
No ratings yet
LTHT Lab03 Boomlab
Document30 pages
LTHT Lab03 Boomlab
vutung
33% (3)
Giáo Án, Lê Đăng Anh Tú 21spt
Document8 pages
Giáo Án, Lê Đăng Anh Tú 21spt
yumi Tiki
No ratings yet
Ttdatn Pham Quang Linh 7921
Document20 pages
Ttdatn Pham Quang Linh 7921
dat tran
No ratings yet
CV-Nguyễn Duy Huân
Document2 pages
CV-Nguyễn Duy Huân
Huân Nguyễn Duy
No ratings yet
Câu hỏi phỏng vấn Devops
Document9 pages
Câu hỏi phỏng vấn Devops
Hải Nguyễn Phúc
No ratings yet
Nhom9 Lab2 BaocaothuchanhSOC
Document8 pages
Nhom9 Lab2 BaocaothuchanhSOC
Tuân Trần Duy
No ratings yet
Báo Cáo Labview2
Document16 pages
Báo Cáo Labview2
Trương Nhung
No ratings yet
BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU DHCNTT21
Document2 pages
BÀI TẬP LỚN MÔN KHAI PHÁ DỮ LIỆU DHCNTT21
tranthinhungoc.1603
No ratings yet
Chapter 4 - Github
Document2 pages
Chapter 4 - Github
danhdat2609
No ratings yet
HDSD Raci
Document14 pages
HDSD Raci
Đài OMC KHA
0% (1)
Lab1
Document7 pages
Lab1
Cường Trần
No ratings yet