Answers

You might also like

Download as txt, pdf, or txt
Download as txt, pdf, or txt
You are on page 1of 1

1.

- Không có gì khó hiểu về code của WordCount.


- Câu lệnh :
"Hdfs dfs -cat output-3/* | rg -I "^better"

2.
- Chạy lệnh "-D mapreduce.job.reduces=3?" sẽ cho ra 3 files output: "part-r-00000",
"part-r-00001", "part-r-00002".
- Câu lệnh :
"hadoop com.sun.tools.javac.Main WordCount.java
jar cf WC.jar WordCount*.class
yarn jar WC.jar WordCount -D mapreduce.job.reduces=3 lab3 output-4"
- Nếu với tệp output lớn thì việc phân tán đầu ra ra thành nhiều files ra nhỏ sẽ
giúp đạt được hiệu quả tối ưu hơn. Bên cạnh đó cũng nên căn cứ tuỳ vào độ lớn của
file mà điều chỉnh số lượng reducers để đạt hiệu quả tốt nhất.
- Nhóm cũng đã thử chạy với tệp output nhỏ và nhận thấy việc chạy như thế sẽ tốn
thời gian hơn mà lại không tận dụng được hết lợi thế của hệ thống phân tán.
3.
- Sử dụng câu lệnh "-D mapreduce.job.reduces=0?" sẽ cho ra 4 files output: "part-m-
00000", "part-m-00001", "part-m-00002", "part-m-00003".
- Đây là vì khi không có reducer nào được chạy nên map output trở thành là đầu ra
output luôn. Tên tệp cũng đổi thành "m" thay vì "r" vì không có reducer.
Câu lệnh :
"hadoop com.sun.tools.javac.Main WordCount.java
jar cf WC.jar WordCount*.class
yarn jar WC.jar WordCount -D mapreduce.job.reduces=0 lab3 output-5"
4.
- Nhóm note lại thời gian chạy của RedditAverage được như sau:
"no combine
launch time: 16:35:22
finish time: 16:36:25

combine
launch time: 19:00:53
finish time: 19:01:59"
- Thời gian chênh lệch là không đáng kể có thể do phiên bản của nhóm đang chạy.
- Tuy nhiên với các instances khác thì việc sử dụng thêm bộ tối ưu hoá chắc chắn sẽ
giảm đáng kể thời gian chạy cho reduces.
- Câu lệnh
No combiner
"javac LongPairWritable.java RedditAverage.java
jar cvf wc.jar *.class
yarn jar wc.jar RedditAverage reddit output"

With combiner
"javac LongPairWritable.java RedditAverageCombiner.java
jar cvf wc.jar *.class
yarn jar wc.jar RedditAverageCombiner reddit combiner"

You might also like