Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

Giới thiệu về Hadoop và kinh nghiệm triển khai

Nguyễn Viết Tuấn Duy

UET, April 2023

(UET-VNU) About Hadoop & Share Exp April 2023 1 / 25


Mục lục

1 Giới thiệu về Hadoop

2 Kinh nghiệm triển khai dự án về Hadoop

3 Dịch vụ, công cụ tương tự Hadoop

(UET-VNU) About Hadoop & Share Exp April 2023 2 / 25


Dữ liệu lớn

(UET-VNU) About Hadoop & Share Exp April 2023 3 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

Ví dụ về nhà hàng và bài toán xử lý dữ liệu lớn

(UET-VNU) About Hadoop & Share Exp April 2023 4 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

(UET-VNU) About Hadoop & Share Exp April 2023 5 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

(UET-VNU) About Hadoop & Share Exp April 2023 6 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

(UET-VNU) About Hadoop & Share Exp April 2023 7 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

(UET-VNU) About Hadoop & Share Exp April 2023 8 / 25


Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng

(UET-VNU) About Hadoop & Share Exp April 2023 9 / 25


Hadoop là gì ?

Là một framework mã nguồn mở


Được cấp phép theo giấy phép Apache v2
Dùng để lưu trữ và xử lý dữ liệu lớn
Phát triển dựa trên bài báo của Google về MapReduce
Được viết bằng ngôn ngữ lập trình Java
Được phát triển bởi Doug Cutting và Michael J. Cafarella

(UET-VNU) About Hadoop & Share Exp April 2023 10 / 25


Tại sao sử dụng Hadoop ?

Hadoop như một giải pháp


1 Vấn đề đầu tiên là lưu trữ lượng dữ liệu khổng lồ.
2 Vấn đề tiếp theo là lưu trữ nhiều loại dữ liệu.
3 Và vấn đề về xử lý dữ liệu nhanh hơn.

(UET-VNU) About Hadoop & Share Exp April 2023 11 / 25


Tại sao sử dụng Hadoop ?

(UET-VNU) About Hadoop & Share Exp April 2023 12 / 25


Thành phần chính Hadoop

HDFS ( Hadoop Distributed File System )


Namenode
Datanode
YARN ( Yet Another Resource Negotiator )
ResourceManager
NodeManager
MapReduce
Map
Reduce

(UET-VNU) About Hadoop & Share Exp April 2023 13 / 25


Thành phần chính Hadoop

HDFS Storage Daemon’s

(UET-VNU) About Hadoop & Share Exp April 2023 14 / 25


HDFS

Hadoop Distributed File Systems

(UET-VNU) About Hadoop & Share Exp April 2023 15 / 25


HDFS

(UET-VNU) About Hadoop & Share Exp April 2023 16 / 25


YARN

(UET-VNU) About Hadoop & Share Exp April 2023 17 / 25


MapReduce

MapReduce là gì ?

(UET-VNU) About Hadoop & Share Exp April 2023 18 / 25


MapReduce

Ví dụ MapReduce

(UET-VNU) About Hadoop & Share Exp April 2023 19 / 25


Hệ sinh thái Hadoop

(UET-VNU) About Hadoop & Share Exp April 2023 20 / 25


Kinh nghiệm triển khai dự án về Hadoop

Yêu cầu tối thiểu phần cứng cài đặt Hadoop


1 Nodes: Tối thiểu ba máy vật lý hoặc máy ảo để thiết lập cụm Hadoop.
2 CPU: Mỗi node tối thiểu một CPU lõi kép với xung nhịp từ 2,0 GHz.
3 Memory: Nên sử dụng tối thiểu 8 GB RAM mỗi node.
4 Disk Space: Mỗi node tối thiểu 100 GB dung lượng ổ đĩa.
5 Network: Các node nên kết nối với nhau băng thông từ 1 Gbps trở lên.
6 Operating System: CentOS, Ubuntu hoặc Red Hat Enterprise Linux

(UET-VNU) About Hadoop & Share Exp April 2023 21 / 25


Hortonwork data platform - Quản lý cụm Hadoop

(UET-VNU) About Hadoop & Share Exp April 2023 22 / 25


Dịch vụ xử lý dữ liệu lớn tương tự Hadoop

(UET-VNU) About Hadoop & Share Exp April 2023 23 / 25


Amazon Web Services

(UET-VNU) About Hadoop & Share Exp April 2023 24 / 25


Lời cảm ơn

(UET-VNU) About Hadoop & Share Exp April 2023 25 / 25

You might also like