(UET-VNU) About Hadoop & Share Exp April 2023 1 / 25
Mục lục
1 Giới thiệu về Hadoop
2 Kinh nghiệm triển khai dự án về Hadoop
3 Dịch vụ, công cụ tương tự Hadoop
(UET-VNU) About Hadoop & Share Exp April 2023 2 / 25
Dữ liệu lớn
(UET-VNU) About Hadoop & Share Exp April 2023 3 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
Ví dụ về nhà hàng và bài toán xử lý dữ liệu lớn
(UET-VNU) About Hadoop & Share Exp April 2023 4 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
(UET-VNU) About Hadoop & Share Exp April 2023 5 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
(UET-VNU) About Hadoop & Share Exp April 2023 6 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
(UET-VNU) About Hadoop & Share Exp April 2023 7 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
(UET-VNU) About Hadoop & Share Exp April 2023 8 / 25
Bài toán phân tích dữ liệu lớn và ví dụ nhà hàng
(UET-VNU) About Hadoop & Share Exp April 2023 9 / 25
Hadoop là gì ?
Là một framework mã nguồn mở
Được cấp phép theo giấy phép Apache v2 Dùng để lưu trữ và xử lý dữ liệu lớn Phát triển dựa trên bài báo của Google về MapReduce Được viết bằng ngôn ngữ lập trình Java Được phát triển bởi Doug Cutting và Michael J. Cafarella
(UET-VNU) About Hadoop & Share Exp April 2023 10 / 25
Tại sao sử dụng Hadoop ?
Hadoop như một giải pháp
1 Vấn đề đầu tiên là lưu trữ lượng dữ liệu khổng lồ. 2 Vấn đề tiếp theo là lưu trữ nhiều loại dữ liệu. 3 Và vấn đề về xử lý dữ liệu nhanh hơn.
(UET-VNU) About Hadoop & Share Exp April 2023 11 / 25
Tại sao sử dụng Hadoop ?
(UET-VNU) About Hadoop & Share Exp April 2023 12 / 25
(UET-VNU) About Hadoop & Share Exp April 2023 13 / 25
Thành phần chính Hadoop
HDFS Storage Daemon’s
(UET-VNU) About Hadoop & Share Exp April 2023 14 / 25
HDFS
Hadoop Distributed File Systems
(UET-VNU) About Hadoop & Share Exp April 2023 15 / 25
HDFS
(UET-VNU) About Hadoop & Share Exp April 2023 16 / 25
YARN
(UET-VNU) About Hadoop & Share Exp April 2023 17 / 25
MapReduce
MapReduce là gì ?
(UET-VNU) About Hadoop & Share Exp April 2023 18 / 25
MapReduce
Ví dụ MapReduce
(UET-VNU) About Hadoop & Share Exp April 2023 19 / 25
Hệ sinh thái Hadoop
(UET-VNU) About Hadoop & Share Exp April 2023 20 / 25
Kinh nghiệm triển khai dự án về Hadoop
Yêu cầu tối thiểu phần cứng cài đặt Hadoop
1 Nodes: Tối thiểu ba máy vật lý hoặc máy ảo để thiết lập cụm Hadoop. 2 CPU: Mỗi node tối thiểu một CPU lõi kép với xung nhịp từ 2,0 GHz. 3 Memory: Nên sử dụng tối thiểu 8 GB RAM mỗi node. 4 Disk Space: Mỗi node tối thiểu 100 GB dung lượng ổ đĩa. 5 Network: Các node nên kết nối với nhau băng thông từ 1 Gbps trở lên. 6 Operating System: CentOS, Ubuntu hoặc Red Hat Enterprise Linux
(UET-VNU) About Hadoop & Share Exp April 2023 21 / 25
Hortonwork data platform - Quản lý cụm Hadoop
(UET-VNU) About Hadoop & Share Exp April 2023 22 / 25
Dịch vụ xử lý dữ liệu lớn tương tự Hadoop
(UET-VNU) About Hadoop & Share Exp April 2023 23 / 25
Amazon Web Services
(UET-VNU) About Hadoop & Share Exp April 2023 24 / 25
Lời cảm ơn
(UET-VNU) About Hadoop & Share Exp April 2023 25 / 25