Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 80

ĐẠI HỌC CẦN THƠ

TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG


KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG
---------------------------------

NIÊN LUẬN CƠ SỞ NGÀNH MẠNG MÁY TÍNH


VÀ TRUYỀN THÔNG DỮ LIỆU

TÌM HIỂU VỀ DỮ LIỆU LỚN BIG – DATA

Giảng viên hướng dẫn Nhóm sinh viên thực hiện


Nguyễn Trọng Nghĩa 1. Nguyễn Thị Kim Ngân
Mssv : B2013486 K46
2. Nguyễn Như Thể
Mssv : B2013564 K46
i Hc Cn Th 2023-2024

ĐẠI HỌC CẦN THƠ


TRƯỜNG CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG
---------------------------------

NIÊN LUẬN CƠ SỞ NGÀNH MẠNG MÁY TÍNH


VÀ TRUYỀN THÔNG DỮ LIỆU

TÌM HIỂU VỀ DỮ LIỆU LỚN BIG – DATA

Giảng viên hướng dẫn Nhóm sinh viên thực hiện


Nguyễn Trọng Nghĩa 1. Nguyễn Thị Kim Ngân
Mssv : B2013486 K46
2. Nguyễn Như Thể
Mssv : B2013564 K46

2
i Hc Cn Th 2023-2024

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến GVHD : Nguyễn Trọng Nghĩa.
Trong quá trình học tập và tìm hiểu bộ môn Niên luận cơ sở Mạng máy tính và
truyền thông dữ liệu, em đã nhận được sự quan tâm giúp đỡ, hướng dẫn tận tình,
chi tiết của Thầy.

Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức,
trong bài báo cáo này chắc chắn sẽ không thoát khỏi những thiếu sót. Rất mong
nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía Thầy để bài Báo cáo của
em được hoàn thiện hơn.

Lời cuối cùng, em xin kính chúc Thầy có nhiều sức khỏe, thành công và hạnh
phúc.

3
i Hc Cn Th 2023-2024

NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN

………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

Mục Lục

4
i Hc Cn Th 2023-2024

I . PHẦN GIỚI THIỆU...............................................................................................5


1. Mục tiêu của niên luận cơ sở.............................................................................5
II . PHẦN NỘI DUNG...............................................................................................6
CHƯƠNG 1. GIỚI THIỆU VỀ BIG DATA...........................................................6
1. Khái niệm tổng quan về Big Data..................................................................6
2. Sự phát triển của dữ liệu lớn..........................................................................8
3. 3V của Big Data.............................................................................................9
4. Phân loại Big Data.......................................................................................14
5. Nguồn của dữ liệu lớn..................................................................................15
6. Những hạn chế của dữ liệu truyền thống so với dữ liệu lớn........................16
7. So sánh Big Data và Data mining................................................................17
8. Cơ sở hạ tầng của dữ liệu lớn.......................................................................18
9. Cách thức hoạt động.....................................................................................19
10. Lĩnh vực sử dụng BigData........................................................................20
CHƯƠNG 2 : DỮ LIỆU LỚN VÀ ĐIỆN TOÁN ĐÁM MÂY.............................24
1. Điện toán đám mây......................................................................................24
2. Các loại điện toán đám mây.........................................................................25
3. Mô hình dịch vụ Điện toán đám mây...........................................................27
4. So sánh các loại hình dịch vụ của điện toán đám mây.................................41
5. Mối quan hệ của Điện toán đám mây và Big Data......................................46
6. Kiến trúc đám mây.......................................................................................48
7. CLOUD Challenges.....................................................................................50
CHƯƠNG 3 : LƯU TRỮ VÀ TÍNH TOÁN DỮ LIỆU LỚN TRONG HADOOP
...............................................................................................................................51
1. APACHE HADOOP....................................................................................51
2. Kiến trúc của Apache Hadoop.....................................................................52
3. Tổng quan về các thành phần trong hệ sinh thái Hadoop............................54
4. Lưu trữ trong Hadoop..................................................................................54

5
i Hc Cn Th 2023-2024

CHƯƠNG 4 : ỨNG DỤNG CỦA BIG DATA VÀO TRONG LĨNH VỰC CÔNG
NGHỆ THÔNG TIN..............................................................................................66
VÀ MẠNG MÁY TÍNH.......................................................................................66
1. Cơ sở hạ tầng IT để hỗ trợ Big Data............................................................66
2. Các công nghệ đặc biệt dành cho Big Data :...............................................66
3. Ứng dụng của Big Data vào lĩnh vực Mạng Máy Tính................................68
4. Trang web và ứng dụng liên quan đến Big Data..........................................69
III. DEMO ỨNG DỤNG PRTG NETWORK MONITOR......................................71
CHƯƠNG 1 : GIỚI THIỆU DEMO......................................................................71
1. Mô tả app PRTG Network Monitor............................................................71
2. Mục tiêu của Demo......................................................................................72
3. Cài đặt app PRTG Network Monitor...........................................................72

6
i Hc Cn Th 2023-2024

I . PHẦN GIỚI THIỆU


1. Mục tiêu của niên luận cơ sở

Niên Luận cơ sở này sẽ đề cập đến việc giới thiệu về dữ liệu lớn, xác định dữ liệu
lớn thật ra có nghĩa như thế nào. Những hạn chế của cơ sở dữ liệu truyền thống,
dẫn đến sự phát triển của Dữ Liệu Lớn, sẽ được giải thích, cung cấp và đưa ra cái
nhìn sâu sắc về những ý chính của dữ liệu lớn. Một nghiên cứu so sánh đã được
thực hiện giữa dữ liệu lớn và cơ sở dữ truyền thống đưa ra một hình ảnh rõ ràng về
những bất lợi của cơ sở dữ liệu truyền thống và những thuận lợi của dữ liệu lớn. 3
từ V của dữ liệu lớn (khối lượng - volume, tốc độ - velocity, và đa dạng - variety)
được phân biệt từ những giải thích của cơ sở dữ liệu truyền thống. Với sự phát
triển của dữ liệu lớn, chúng ta không còn giới hạn lâu hơn trong dữ liệu có cấu
trúc. Những loại dữ liệu khác nhau của con người và máy móc đã được tạo ra-
nghĩa là, dữ liệu có cấu trúc, bán cấu trúc, và phi cấu trúc-có thể được xử lý bằng
những giải thích của dữ liệu lớn. Những nguồn khác nhau đóng góp đến khối
lượng dữ liệu lớn này đã được cung cấp bằng một hình ảnh rõ ràng. Chương này sẽ
mở rộng để cho thấy những giai đoạn khác nhau của vòng đời dữ liệu lớn bắt đầu
từ tạo dữ liệu, thu thập, xử lý, tích hợp, làm sạch, chuyển đổi, phân tích, và trực
quan hóa để đưa ra những quyết định kinh doanh. Và sẽ sẽ làm sáng tỏ những thử
thách khác nhau của dữ liệu lớn do tính không đồng nhất của nó, khối lượng, tốc
độ, v.v…

7
i Hc Cn Th 2023-2024

II . PHẦN NỘI DUNG


CHƯƠNG 1. GIỚI THIỆU VỀ BIG DATA
1. Khái niệm tổng quan về Big Data
Với tốc độ tăng trưởng nhanh chóng của người dùng Internet, có một sự gia tăng
nhanh chóng theo cấp số nhân trong dữ liệu được tạo ra. Dữ liệu được tạo ra từ
hàng triệu tin nhắn và được gửi qua WhatsApp, Facebook hoặc Twitter từ hàng
nghìn tỷ những bức ảnh được chụp, và hàng giờ những video được tải lên
YouTube trong mỗi phút. Theo một cuộc khảo sát gần đây với 2.5 triệu tỷ (2 500
000 000 000 000 000, hay 2,5 X 〖10〗^18) byte dữ liệu được tạo ra mỗi ngày.
Lượng dữ liệu khổng lồ này được tạo ra được gọi là dữ liệu lớn (Big Data). Dữ liệu
lớn không chỉ có nghĩa là một tập dữ liệu quá lớn, nó là một thuật ngữ chung cho
dữ liệu có kích thước quá lớn, có tính chất phức tạp, mà có thể có cấu trúc hoặc phi
cấu trúc, và đạt được với tốc độ cao. Theo dữ liệu hiện có cho thấy, có 80% dữ liệu
đã được tạo ra trong vài năm gần đây. Sự phát triển của dữ liệu lớn thực tế đã được
thúc đẩy bởi nhiều dữ liệu được tạo ra cần phải được thu thập ở nhiều nơi trên thế
giới.
Việc nắm bắt được dữ liệu khổng lồ này dù chỉ mang lại giá trị nhỏ trừ khi giá trị
của công nghệ thông tin chuyển hóa thành giá trị kinh doanh. Quản lý dữ liệu và và
phân tích chúng luôn luôn mang lợi ích cho tổ chức; bên cạnh đó, việc chuyển đổi
dữ liệu này thành những hiểu biết về kinh doanh luôn là thách thức lớn nhất. Các
nhà khoa học dữ liệu đang đấu tranh để tìm các kỹ thuật thiết thực để phân tích dữ
liệu thu thập được. Dữ liệu phải được quản lý ở tốc độ và thời gian phù hợp để thu
được những thông tin có giá trị sâu sắc từ dữ liệu đó. Những dữ liệu này rất phức
tạp đến mức khó có thể xử lý nó bằng cách sử dụng những hệ thống quản lý cơ sở
dữ liệu truyền thống, điều này đã kích động đến sự phát triển của kỷ nguyên dữ

8
i Hc Cn Th 2023-2024

liệu lớn. Ngoài ra, có những hạn chế về lượng dữ liệu mà cơ sở dữ liệu truyền
thống có thể xử lý. Với sự gia tăng kích thước dữ liệu sẽ có sự giảm sút về hiệu
suất hay độ trễ tăng hoặc sẽ rất tốn kém nếu bổ sung vào các đơn vị bộ nhớ. Tất cả
những hạn chế này đã được khắc phục với sự phát triển của công nghệ dữ liệu lớn
điều đó cho phép chúng ta thu thập, lưu trữ, xử lý và phân tích dữ liệu trong mỗi
môi trường phân tán. Ví dụ về các công nghệ Dữ liệu Lớn đó chính là Hadoop, một
khuôn khổ cho tất cả tiến trình của dữ liệu lớn, Hệ thống file phân tán, lưu trữ dữ
liệu khổng lồ được sử dụng bởi Hadoop - Hadoop Distributed File System (HDFS)
để lưu trữ hệ thống phân tán và mô hình được thiết kế độc quyền bởi Google, có
khả năng lập trình xử lý các tập dữ liệu lớn song song và phân tán thuật toán trên
một cụm máy tính (MapReduce) để xử lý.

Hình 1.1 : Tổng quan về BigData

9
i Hc Cn Th 2023-2024

2. Sự phát triển của dữ liệu lớn

Sự xuất hiện tài liệu đầu tiên của dữ liệu lớn đó là một bài báo vào năm 1997 bởi
các nhà khoa học của NASA đã nói lên những vấn đề phải đối mặt trong việc trực
quan hóa các tập dữ liệu lớn, đó là một thách thức hấp dẫn đến với các nhà khoa
học dữ liệu, Các tập dữ liệu đủ lớn, gây mệt mỏi cho nhiều tài nguyên bộ nhớ. Vấn
đề này được gọi là dữ liệu lớn. Dữ liệu lớn, khái niệm rộng hơn, lần đầu tiên được
đưa ra bởi một nhà tư vấn: McKinsey. Ba chiều hướng của dữ liệu lớn, cụ thể là,
khối lượng, tốc độ và sự đa dạng, được nhà phân tích Doug Laney xác định. Vòng
đời xử lý của dữ liệu lớn có thể được phân loại vào việc thu thập, xử lý, lưu trữ và
quản lý, quyền riêng tư và bảo mật, phân tích và trực quan hóa.

Thuật ngữ rộng hơn của dữ liệu lớn bao gồm tất cả mọi thứ mọi thứ như dữ liệu
web, chẳng hạn như dữ liệu từ luồng nhấp chuột, dữ liệu sức khỏe của bệnh nhân,
dữ liệu gen từ việc nghiên cứu sinh học, v.v…

Hình 1.1 cho thấy sự phát triển của dữ liệu lớn. Sự tăng trưởng về dữ liệu là rất lớn
trong những năm qua. Nó chỉ có 600MB vào những năm 1950 nhưng vào năm
2010 đã tăng lên 100PB, tương đương với 100 000 000 000 MB.

10
i Hc Cn Th 2023-2024

Hình 1.2 : Sự phát triển của dữ liệu lớn

3. 3V của Big Data

Dữ liệu lớn được phân biệt bởi các những đặc điểm đặc biệt của nó với những khía
cạnh khác nhau. Hình 1.2 minh họa các khía cạnh khác nhau của dữ liệu lớn. Khía
cạnh đầu tiên của nó là khối lượng của dữ liệu. Khối lượng dữ liệu tăng một phần
do lưu trữ theo cụm (cluster storage) với phần cứng thương mại đã làm tiết kiệm về
chi phí có hiệu quả. Phần cứng thương mại là một phần cứng có chi phí thấp, hiệu
suất thấp, thông số kỹ thuật thấp và không có chức năng đặc biệt. Điều này được
gọi bằng thuật ngữ “khối lượng” trong công nghệ dữ liệu lớn. Khía cạnh thứ hai đó
là sự đa dạng, mô tả tính không đồng nhất để nó chấp nhận các loại dữ liệu, có cấu
trúc, phi cấu trúc hoặc cả hai. Khía cạnh thứ ba là tốc độ, liên quan đến tốc độ dữ
liệu được tạo ra và xử lý để lấy giá trị mong muốn từ dữ liệu thô chưa được xử lý.

11
i Hc Cn Th 2023-2024

Hình 1.3: 3V của dữ liệu lớn.

Sự phức tạp của dữ liệu đã đặt ra một cơ hội mới cũng như là một thách thức mới
cho thời đại công nghệ thông tin thời nay.

 Volume (Tổng dung lượng lưu trữ) :

Dữ liệu được tạo và xử lý bởi dữ liệu lớn đang không ngừng phát triển. Khối lượng
tăng theo cấp số nhân do thực tế là các doanh nghiệp kinh doanh đang liên tục thu
thập dữ liệu để tạo ra các giải pháp kinh doanh tốt hơn và lớn hơn. Khối lượng của
dữ liệu lớn được đo từ terabyte đến zettabyte (1024GB = 1 terabyte; 1024 TB = 1
petabyte; 1024 PB = 1 exabyte; 1024EB =1 zettabyte; 1024ZB = 1 yottabyte). Nắm
bắt dữ liệu khổng lồ này đã được cho là một cơ hội đặc biệt để có được dịch vụ
khách hàng tốt hơn và lợi thế kinh doanh tốt hơn. Khối lượng dữ liệu này ngày

12
i Hc Cn Th 2023-2024

càng tăng, đòi hỏi khả năng mở rộng phải càng cao và lưu trữ phải tin cậy. Những
nguồn chính đóng góp cho sự tăng trưởng này là phương tiện truyền thông mạng
xã hội, điểm giao dịch bán hàng, ngân hàng điện tử, cảm biến GPS, cảm biến ô tô.
Facebook tạo ra khoảng 500 terabyte dữ liệu mỗi ngày. Mỗi khi nhấp vào một liên
kết trên một trang web, mua trực tuyến một mặt hàng, một video được đăng tải lên
YouTube, dữ liệu đều sẽ được tạo ra.

 Velocity (Khả năng xử lý tốc độ cao ):

Với sự gia tăng đáng kể của khối lượng dữ liệu, tốc độ tạo nên dữ liệu cũng tăng
lên. Thuật ngữ “tốc độ” ngoài việc đề cập đến tốc độ và dữ liệu được tạo ra, mà
còn đề cập đến tốc độ

Hình 1.4: Bộ dữ liệu tốc độ cao được tạo ra trực tuyến trong 60 giây.

13
i Hc Cn Th 2023-2024

dữ liệu đã được xử lý và phân tích. Trong kỷ nguyên của dữ liệu lớn, một lượng
lớn dữ liệu được tạo ra ở tốc độ cao, và đôi khi dữ liệu này đến quá nhanh khiến
việc nắm bắt dữ liệu trở nên khó khăn, nhưng nó vẫn cần phải được phân tích.
Hình 1.3 đã minh họa việc dữ liệu được tạo ra trong 60 giây: 3.3 triệu bài đăng
trên Facebook, 450 nghìn lượt tweet, 400 giờ video được đăng tải và 3.1 triệu
lượt tìm kiếm trên Google.

 Varieti (Đa dạng kiểu dữ liệu ):

Sự đa dạng của dữ liệu lớn được đề cập đến định dạng dữ liệu được hỗ trợ bởi dữ
liệu lớn. Dữ liệu đến ở định dạng có cấu trúc, bán cấu trúc và phi cấu trúc. Dữ liệu
có cấu trúc đề cập đến dữ liệu được xử lý bởi các hệ thống quản lý cơ sở dữ liệu
truyền thống, nơi dữ liệu được tổ chức trong các bảng, như chi tiết về nhân viên,
chi tiết về khách hàng của ngân hàng. Dữ liệu bán cấu trúc là sự kết hợp của dữ
liệu có cấu trúc và phi cấu trúc, chẳng hạn như XML. Dữ liệu XML là bán cấu trúc
do nó không phù hợp với mô hình dữ liệu chính thức (bảng) được liên kết với cơ
sở dữ liệu truyền thống, đúng hơn, nó chứa các thẻ để tổ chức các trường trong dữ
liệu. Dữ liệu phi cấu trúc đề cập đến dữ liệu không có cấu trúc xác định, như tin
nhắn email, ảnh và trang web. Dữ liệu đến từ nguồn cấp dữ liệu Facebook cũng
như Twitter, cảm biến vận tốc và hộp đen của máy bay đều không có cấu trúc, mà
cơ sở dữ liệu truyền thống không thể xử lý, và đây là lúc dữ liệu lớn xuất hiện.

Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều tiêu chí
khác xác định đặc trưng của Big data, bao gồm: Veracity (Xác thực), Value (Giá
trị), Relationality (Mối quan hệ),...

14
i Hc Cn Th 2023-2024

Hình 1.5 : 5V của BigData

 Variability (Độ chính xác) Vì đa dạng về các kiểu dữ liệu, nên sự không thống
nhất của tập dữ liệu có thể cản trở các quy trình để xử lý và quản lý nó. Do đó, độ
chính xác của công nghệ này có thể đảm bảo giúp cho việc giảm bớt sự sai lệch
đáng tiếc có thể xảy ra.
 Value (Mức độ giá trị của thông tin) Chất lượng dữ liệu của những dữ liệu lấy
được có thể thay đổi rất nhiều, điều này sẽ ảnh hưởng rất mạnh đến việc phân
tích chính xác những đấy. Ta có thể xem đây là tính chất cũng là khái niệm mà
những doanh nghiệp hay nhà nghiên cứu muốn sử dụng và khai thác Big Data
phải nắm giữ và am hiểu nó đầu tiên.

4. Phân loại Big Data

Big data thường được phân loại dựa trên 3 yếu tố dữ liệu phổ biến: Dữ liệu có cấu
trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.

15
i Hc Cn Th 2023-2024

 Dữ liệu có cấu trúc : Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để
quản lý và tìm kiếm. Nó là những dữ liệu có thể truy cập, lưu trữ và xử lý ở định
dạng cố định. Các thành phần của dữ liệu có cấu trúc được phân loại dễ dàng,
cho phép các nhà thiết kế và quản trị viên cơ sở dữ liệu xác định các thuật toán
đơn giản để tìm kiếm và phân tích.
 Dữ liệu phi cấu trúc : Dữ liệu phi cấu trúc là bất kỳ tập hợp dữ liệu nào không
được tổ chức hoặc xác định rõ ràng. Loại dữ liệu này hỗn loạn, khó xử lý, khó
hiểu và đánh giá. Nó không có cấu trúc cố định và có thể thay đổi vào những
thời điểm khác nhau. Dữ liệu phi cấu trúc bao gồm các nhận xét, tweet, lượt chia
sẻ, bài đăng trên mạng xã hội, video trên YouTube mà người dùng xem,...
 Dữ liệu bán cấu trúc : Dữ liệu bán cấu trúc là sự kết hợp giữa dữ liệu có cấu
trúc và dữ liệu phi cấu trúc. Email là một ví dụ điển hình vì chúng bao gồm dữ
liệu phi cấu trúc trong nội dung thư, cũng như nhiều thuộc tính tổ chức khác như
người gửi, người nhận, chủ đề và ngày tháng. Các thiết bị sử dụng gắn thẻ địa lý,
thời gian cũng có thể cung cấp dữ liệu có cấu trúc bên cạnh nội dung phi cấu
trúc. ấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.
5. Nguồn của dữ liệu lớn

Nhiều nguồn dữ liệu khác nhau chịu trách nhiệm cho sự gia tăng đáng kể về khối
lượng của dữ liệu lớn. Phần lớn sự gia tăng dữ liệu có thể là do số hóa hầu hết tất
cả và mọi thứ trên toàn cầu. Thanh toán hóa đơn điện tử, mua sắm trực tuyến, giao
tiếp thông qua phương tiện truyền thông mạng xã hội, giao dịch thư điện tử trong
các tổ chức khác nhau, biểu diễn kỹ thuật số của tổ chức dữ liệu, v.v… là một số ví
dụ về số hóa dữ liệu trên toàn cầu.

Cảm biến: Các cảm biến đóng góp vào khối lượng của dữ liệu lớn được liệt kê bên
dưới.

16
i Hc Cn Th 2023-2024

- Cảm biến gia tốc được cài đặt trong thiết bị di động để cảm nhận rung động và
các chuyển động khác.

- Cảm biến tiệm cận được sử dụng ở những nơi công cộng để phát hiện sự hiện
diện của vật thể mà không cần tiếp xúc vật lý với vật thể.
- Cảm biến trong xe và thiết bị y tế.

Chăm sóc sức khỏe: Các nguồn chính của dữ liệu lớn trong chăm sóc sức khỏe là

- Hồ sơ sức khỏe điện tử (Electronic Health Records - EHRs) thu thập và hiển thị
thông tin bệnh nhân chẳng hạn như tiền sử bệnh, đơn thuốc của bác sĩ và kết quả
xét nghiệm trong phòng thí nghiệm.

- Cổng thông tin bệnh nhân cho phép bệnh nhân truy cập hồ sơ y tế cá nhân của
họ đã lưu trong hồ sơ sức khỏe điện tử.

- Kho lưu trữ dữ liệu lâm sàng tổng hợp các hồ sơ bệnh nhân riêng lẻ từ nhiều
nguồn lâm sàng khác nhau và hợp nhất chúng để đưa ra một cái nhìn thống nhất
về lịch sử bệnh nhân.

Hộp đen: Dữ liệu được tạo ra bởi hộp đen trong máy bay, máy bay trực thăng và
máy bay phản lực. Hộp đen sẽ ghi lại hoạt động của chuyến bay, thông báo của phi
hành đoàn, tổ bay, và thông tin hiệu suất máy bay.

17
i Hc Cn Th 2023-2024

Hình 1.6 : Nguồn của dữ liệu lớn


6. Những hạn chế của dữ liệu truyền thống so với dữ liệu lớn
Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS - The Relational Database Management
Systems) là phương tiện lưu trữ dữ liệu phổ biến nhất cho đến gần đây để lưu trữ
dữ liệu bởi các tổ chức tạo ra. Một số lượng lớn nhà cung cấp đã cung cấp những
hệ thống cơ sở dữ liệu. Các RDBMS này đã được tạo ra để lưu trữ các dữ liệu khi
đã vượt quá khả năng lưu trữ của một máy tính. Sự ra đời của một công nghệ mới
luôn do những hạn chế của các công nghệ cũ và đây cũng là sự cần thiết để vượt
qua chúng. Dưới đây là những hạn chế của cơ sở dữ liệu truyền thống trong việc
xử lý dữ liệu lớn.
Khối lượng dữ liệu tăng theo cấp số nhân, có quy mô tính bằng terabyte và
petabyte, đã trở thành một thách thức đối với RDBMS trong việc xử lý khối lượng
dữ liệu khổng lồ như vậy.
Để giải quyết vấn đề này, RDBMS đã tăng số lượng bộ xử lý và thêm nhiều đơn vị
bộ nhớ, do đó đã làm tăng chi phí.

18
i Hc Cn Th 2023-2024

Gần 80% dữ liệu được lấy có định dạng cấu trúc là phi cấu trúc mà RDBMS không
thể xử lý được.
RDBMS không thể nắm bắt dữ liệu đến với tốc độ cao.

7. So sánh Big Data và Data mining

Big Data và Data Mining đều là những công nghệ và phương pháp xử lý dữ liệu
quan trọng trong thế giới kỹ thuật số hiện nay. Tuy nhiên, chúng có mục đích, quy
mô và ứng dụng khác nhau và được sử dụng trong các lĩnh vực khác nhau.

Yếu tố so sánh Big Data Data Mining


Là khối lượng dữ liệu lớn và Là quá trình khai thác tri thức
phức tạp, đòi hỏi các công từ dữ liệu, bao gồm việc
nghệ và phương pháp xử lý phân tích dữ liệu để khám
Định nghĩa
đặc biệt để tìm kiếm thông tin phá các mối quan hệ tiềm ẩn,
hữu ích và triển khai các ứng mô hình hóa, dự đoán và tìm
dụng. kiếm các mẫu.
Giúp tổng hợp và phân tích dữ Tập trung vào phát hiện các
Mục đích chính liệu lớn để tìm ra thông tin mối quan hệ, kiến thức mới
cần thiết và tạo ra giá trị. và dự đoán trong dữ liệu.
Thường nhỏ hơn so với Big
Lớn, có thể đến hàng tỷ hoặc
Quy mô dữ liệu Data, thường chỉ vài GB đến
triệu GB.
vài TB.
Phân tích dữ liệu, mô hình
Hadoop, Spark, NoSQL,
Công nghệ chính hóa, khai thác dữ liệu, phân
HBase, Cassandra, Kafka, …
loại, gom cụm, …
Bảng 1.2 So sánh Big Data và Data Mining

19
i Hc Cn Th 2023-2024

8. Cơ sở hạ tầng của dữ liệu lớn

Các thành phần cốt lõi của công nghệ dữ liệu lớn là các công cụ và công nghệ cung
cấp khả năng lưu trữ, xử lý và phân tích dữ liệu. Phương pháp lưu trữ dữ liệu trong
các bảng không còn hỗ trợ cho sự phát triển của dữ liệu với 3V, cụ thể là khối
lượng, tốc độ và sự đa dạng. RDBMS chuẩn mạnh không còn hiệu quả về chi phí.
Việc mở rộng RDBMS để lưu trữ và xử lý lượng dữ liệu khổng lồ trở nên đắt đỏ.
Điều này dẫn đến sự xuất hiện của công nghệ mới, có khả năng mở rộng cao với
chi phí cực thấp.

Ba công nghệ chính là :

Hadoop – Apache Hadoop, được viết bằng ngôn ngữ Java, là khung nguồn mở hỗ
trợ xử lý các tập dữ liệu lớn. Nó có thể lưu trữ một lượng lớn dữ liệu có cấu trúc,
bán cấu trúc và phi cấu trúc trong một hệ thống tệp phân tán và xử lý song song. Nó
là một nền tảng lưu trữ có khả năng mở rộng cao và tiết kiệm chi phí. Khả năng mở
rộng của Hadoop đề cập đến khả năng duy trì của nó để ngay cả khi tải tăng cao
bằng cách thêm nhiều nút hơn. Các tệp Hadoop được viết một lần và được đọc
nhiều lần. Nội dung của các tập tin không thể thay đổi. Một số lượng lớn các máy
tính được kết nối với nhau làm việc cùng nhau như một hệ thống duy nhất được gọi
là một cụm. Các cụm Hadoop được thiết kế để lưu trữ và phân tích lượng dữ liệu
khổng lồ khác nhau trong môi trường điện toán phân tán theo cách tiết kiệm chi phí.

Hadoop Distributed File system – HDFS được thiết kế để lưu trữ các tập dữ liệu
lớn với mẫu truy cập trực tuyến chạy trên phần cứng thương mại giá rẻ. Nó không
yêu cầu độ tin cậy cao, phần cứng đắt tiền. Tập dữ liệu được tạo từ nhiều nguồn,
được lưu trữ trong hệ thống tệp HDFS trong một lần ghi, mô hình đọc nhiều lần và
các phân tích được thực hiện trên tập dữ liệu để trích xuất kiến thức từ nó.

20
i Hc Cn Th 2023-2024

MapReduce – MapReduce là mô hình lập trình xử lý hàng loạt cho khung


Hadoop, áp dụng nguyên tắc chia để trị. Nó có khả năng mở rộng cao, đáng tin cậy
và chịu lỗi, có khả năng xử lý dữ liệu đầu vào với bất kỳ định dạng nào trong môi
trường điện toán song song và phân tán chỉ hỗ trợ khối lượng công việc hàng loạt.
Hiệu suất của nó giúp giảm đáng kể thời gian xử lý so với mô hình xử lý hàng loạt
truyền thống, vì cách tiếp cận truyền thống là di chuyển dữ liệu từ nền tảng lưu trữ
sang nền tảng xử lý, trong khi mô hình xử lý MapReduce nằm trong khung nơi dữ
liệu thực sự nằm trong đó.

9. Cách thức hoạt động


 Tích hợp : Big data có thể tích hợp dữ liệu từ các nguồn, ứng dụng, công cụ khác
nhau. Với cơ chế tích hợp dữ liệu truyền thống như trích xuất, biến đổi và tải
(ETL) không còn phù hợp với nhiệm vụ mới. Do đó, cần có công nghệ và chiến
lược mới để phân tích các tập cơ sở dữ liệu Big data ở quy mô khổng lồ, như
terabyte, thậm chí là petabyte. Trong quá trình tích hợp, cần đảm bảo dữ liệu được
định dạng và luôn có sẵn để các nhà phân tích kinh doanh xử lý và đưa ra kết luận
chính xác dựa trên nguồn dữ liệu đó.
 Quản lý : Khối lượng dữ liệu lớn cũng đồng nghĩa cần một kho lưu trữ lớn, đó có
thể là Cloud (Đám mây điện tử), lưu trữ tại chỗ, cũng có thể là cả hai. Cho dù
quản lý ở hình thức nào, chỉ cần đưa ra yêu cầu xử lý thì các công cụ đó sẽ hỗ trợ
một cách linh hoạt.
 Phân tích : Để có được kết quả phù hợp từ việc phân tích Big data, các nhà khoa
học dữ liệu và phân tích dữ liệu phải hiểu chi tiết về các dữ liệu có sẵn cùng
những điều mà họ đang tìm kiếm ở đó. Việc chuẩn bị dữ liệu như lập hồ sơ, xác
nhận, chuyển đổi các tập dữ liệu là những bước đầu tiên trong quá trình phân tích.

21
i Hc Cn Th 2023-2024

10. Lĩnh vực sử dụng BigData


 Ngân hàng : Khi thu thập được một khối lượng lớn dữ liệu từ các nguồn, ngân
hàng phải tìm ra những phương pháp mới để quản lý Big data. Bên cạnh việc hiểu
và làm hài lòng khách hàng, các ngân hàng cũng phải giảm thiểu rủi ro và chống
gian lận mà vẫn tuân thủ quy định của pháp luật.

Ứng dụng Big data vào hoạt động giúp các ngân hàng đưa ra quyết định quan
trọng, chẳng hạn:
- Hệ thống phân tích có thể xác định các địa điểm xây dựng chi nhánh mới - nơi
tập trung các khách hàng tiềm năng.
- Dự đoán số lượng tiền mặt cần thiết để cung ứng tại một địa điểm giao dịch cụ
thể.
- Đặc biệt là các ngân hàng số, dữ liệu chính là xương sống của họ.
- Học máy, AI được sử dụng để phát hiện các hành vi gian lận và kịp thời báo cáo
cho các chuyên viên làm nhiệm vụ.
 Giáo dục : Trong ngành giáo dục, việc xử lý các dữ liệu bảo mật, thông tin về học
sinh, sinh viên, giảng viên, tài liệu,... đều phải được xử lý nhanh gọn. Do đó, Big
data ứng dụng vào giáo dục mang lại nhiều chức năng hữu ích, bao gồm:
- Phân tích, lưu trữ, quản lý các bộ dữ liệu lớn bao gồm hồ sơ của sinh viên, học
sinh.
- Sử dụng hệ thống quản lý Big data có khả năng trích xuất phân cấp để duy trì
tính bảo mật.
- Cung cấp các dữ liệu cần thiết về các hoạt động trong lớp và giúp đưa ra quyết
định cho giáo viên, người tham gia giảng dạy.
- Giúp các bộ đề kiểm tra không thể bị lộ.

22
i Hc Cn Th 2023-2024

 Nghành bán lẻ : Trong ngành bán lẻ, một khối lượng dữ liệu lớn luôn cần được xử
lý, những dữ liệu này được các doanh nghiệp bán lẻ thu thập để đưa ra chiến lược
phát triển sản phẩm, các chiến dịch Marketing,...
Ứng dụng Big data trong ngành bán lẻ bao gồm những chức năng như sau:
- Giúp nhà quản lý xây dựng mô hình chi tiêu của mỗi khách hàng
- Với các phân tích dự đoán, có thể nắm bắt và so sánh được tỷ lệ cung - cầu,
đồng thời tránh các sản phẩm không phù hợp với nhu cầu thị trường
- Xác định được vị trí bày trí các sản phẩm lên kệ dựa vào thói quen và nhu cầu
mua sắm của khách hàng
- Kết hợp phân tích các dữ liệu về thời điểm, truyền thông xã hội, giao dịch,... để
xác định các sản phẩm phù hợp nhằm cung ứng cho khách hàng.
 Y tế : Một hệ thống kém hiệu quả có thể kìm hãm những lợi ích chăm sóc sức khỏe
tốt hơn. Điều này xảy ra khi dữ liệu điện tử không đủ hoặc không có sẵn. Big data
sẽ đóng góp nhiều chức năng hữu ích trong ngành Y tế. Tại Việt Nam, ngành Y tế
đang sử dụng các dữ liệu thu thập được từ ứng dụng điện thoại về những bệnh
nhân bị Covid để quản lý và đưa ra những thông tin kịp thời.

Hoặc tại một số bệnh viện hiện nay sử dụng Big data để thu thập dữ liệu thông tin
người khám bệnh, đặt lịch hẹn với bác sĩ thông qua ứng dụng điện thoại. Một số
chức năng của Big data trong ngành Y tế bao gồm:
- Cho phép người quản lý ca biết được bác sĩ cụ thể vào những thời điểm khác
nhau.
- Dựa vào hồ sơ sức khỏe điện tử để theo dõi tình trạng của bệnh nhân
- Đánh giá tình trạng bệnh thông qua các triệu chứng và xác định một số bệnh ở
giai đoạn đầu.

23
i Hc Cn Th 2023-2024

- Sử dụng các thiết bị kỹ thuật số như vòng đeo tay thông minh, hệ thống Big data
có thể dựa vào đó để theo dõi tình trạng bệnh và gửi báo cáo cho bác sĩ.
- Lưu trữ những hồ sơ nhạy cảm, có tính bảo mật cao một cách hiệu quả
- Ứng dụng Big data cũng có thể báo các khu vực có nguy cơ bùng phát dịch như
sốt rét, sốt xuất huyết, Covid-19,...
 Truyền thông và giải trí : Các công ty truyền thông và giải trí cần đẩy mạnh chuyển
đổi số để phân phối sản phẩm và nội dung nhanh nhất đến thị trường.

Big data có nhiều ứng dụng hữu ích như:

- Xác định thiết bị và thời gian có hiệu quả nhất thông qua việc phân tích các dữ
liệu
- Các công ty truyền thông, nghệ sĩ hoặc người phụ trách truyền thông có thể chọn
địa điểm tần suất phân phối.
- Xem xét mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân
phối các sản phẩm, nội dung của mình.
 Digital Marketing : Giờ đây, dường như bất kỳ doanh nghiệp nào cũng cần đến
Digital Marketing để đưa sản phẩm/ dịch vụ của mình đến gần và rộng hơn với
người tiêu dùng.

Big data đã góp một phần lớn cho Digital Marketing phát triển mạnh mẽ như hiện
tại, ví dụ:

- Phân tích thị trường và các đối thủ cạnh tranh. Đồng thời đánh giá mục tiêu kinh
doanh của doanh nghiệp, xác định đâu là cơ hội, đâu là thách thức để tiếp tục tiến
hành các kế hoạch kinh doanh khác.

24
i Hc Cn Th 2023-2024

- Xác định người dùng trên các phương tiện truyền thông xã hội, dựa vào nhân
khẩu học như giới tính, tuổi tác, sở thích, thu nhập,... để xác định khách hàng mục
tiêu.
- Xác định các chủ đề, nội dung được người dùng tìm kiếm nhiều để xây dựng
chiến lược nội dung SEO trên công cụ tìm kiếm.
- Tạo các đối tượng tương tự thông qua việc sử dụng các cơ sở dữ liệu đối tượng
hiện có để nhắm mục tiêu đến các khách hàng tương tự, từ đó kiếm được lợi
nhuận.
 Giao thông vận tải : Ứng dụng Big data vào ngành giao thông vận tải cũng mang
lại nhiều chức năng như:
- Kiểm soát các tuyến đường xe buýt để cung cấp thông tin cho người dùng,
bắt tuyến xe đúng điểm dừng và đúng thời gian.
- Các công ty vận tải tư nhân có thể ứng dụng Big data vào quản lý tài sản,
kiểm tra và cải tiến công cụ, tối ưu hóa quy trình vận hành,...
-
- Ứng dụng Big data vào lập kế hoạch lộ trình, sắp xếp các phương tiện đi lại, di
chuyển tới các điểm điểm khác nhau khi đi du lịch,...
 Dịch vụ khách hàng : Ngoài chất lượng sản phẩm, dịch vụ tốt là điều mà khách
hàng kỳ vọng nhiều nhất. Trong giai đoạn mới tham gia vào thị trường, Big data
sẽ giúp chủ doanh nghiệp tìm ra những giải pháp và những đề xuất tối ưu để hiểu
được khách hàng và tìm ra lợi thế cạnh tranh.

Cách thức ứng dụng Big Data vào dịch vụ khách hàng
- Xác định yêu cầu khách hàng, tập trung thực hiện các nhu cầu và kỳ vọng để
làm hài lòng họ.
- Phân tích hành vi, sự quan tâm của khách hàng để tạo ra các sản phẩm/ dịch
vụ khách hàng phù hợp, đồng thời thiết kế mô hình tiếp thị tối ưu.
- Nắm được sự tương đồng giữa khách hàng và nhu cầu, kỳ vọng của họ, từ đó có
thể xây dựng các chiến dịch quảng cáo chính xác và mang lại hiệu quả cao.

25
i Hc Cn Th 2023-2024

CHƯƠNG 2 : DỮ LIỆU LỚN VÀ ĐIỆN TOÁN ĐÁM MÂY


1. Điện toán đám mây

Điện toán đám mây (Cloud Computing), còn gọi là điện toán máy chủ ảo, là mô
hình điện toán sử dụng công nghệ máy tính và phát triển dựa vào mạng Internet.
Thuật ngữ "đám mây" ở đây là lối nói ẩn dụ chỉ mạng Internet (dựa vào cách được
bố trí của nó trong sơ đồ mạng máy tính) và như sự liên tưởng về độ phức tạp của
các cơ sở hạ tầng chứa trong nó. Ở mô hình điện toán này, mọi khả năng liên quan
đến công nghệ thông tin đều được cung cấp dưới dạng các "dịch vụ", cho phép
người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp nào đó "trong
đám mây" mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó,
cũng như không cần quan tâm đến các cơ sở hạ tầng phục vụ công nghệ đó. Theo
tổ chức IEEE: "Nó là hình mẫu trong đó thông tin được lưu trữ thường trực tại các
máy chủ trên Internet và chỉ được lưu trữ tạm thời ở các máy khách, bao gồm máy
tính cá nhân, trung tâm giải trí, máy tính trong doanh nghiệp, các phương tiện máy
tính cầm tay,...". Điện toán đám mây là khái niệm tổng thể bao gồm cả các khái
niệm như phần mềm dịch vụ, Web 2.0 và các vấn đề khác xuất hiện gần đây, các
xu hướng công nghệ nổi bật, trong đó đề tài chủ yếu của nó là vấn đề dựa vào
Internet để đáp ứng những nhu cầu điện toán của người dùng. Ví dụ, dịch
vụ Google AppEngine cung cấp những ứng dụng kinh doanh trực tuyến thông
thường, có thể truy nhập từ một trình duyệt web, còn các phần mềm và dữ
liệu đều được lưu trữ trên các máy chủ.Điện toán đám mây là mô hình cung cấp
tài nguyên máy tính cho người dùng tùy theo mục đích sử dụng thông qua kết nối
Internet. Nguồn tài nguyên này bao gồm rất nhiều thứ liên quan đến điện toán và
máy tính, ví dụ như: phần mềm, dịch vụ, phần cứng,… và sẽ nằm tại các máy chủ
ảo (đám mây) trên mạng. Người dùng có thể truy cập vào bất cứ tài nguyên nào

26
i Hc Cn Th 2023-2024

trên đám mây. Vào bất kỳ thời điểm nào và ở bất kỳ đâu, chỉ cần kết nối với hệ
thống internet.

2. Các loại điện toán đám mây

Điện toán đám mây làm cho việc chia sẻ tài nguyên đơn giản hơn đáng kể. Với sự
phát triển của công nghệ điện toán đám mây, các tài nguyên được kết nối thông
qua các mạng công cộng hoặc tư nhân để cung cấp cơ sở hạ tầng có khả năng mở
rộng cao để lưu trữ và các ứng dụng khác. Client chọn dịch vụ đám mây không
cần phải lo lắng về việc cập nhật phiên bản phần mềm mới nhất, sẽ được các nhà
cung cấp dịch vụ đám mây chăm sóc. Công nghệ điện toán đám mây được phân
loại thành ba loại dựa trên cơ sở hạ tầng của nó:

Đám mây công khai: Trong một đám mây công khai, các dịch vụ được cung cấp
qua internet bởi các nhà cung cấp thứ ba. Các tài nguyên như lưu trữ được cung cấp
cho Client thông qua Internet. Client được phép sử dụng các dịch vụ trên mô hình
trả tiền, giúp giảm đáng kể chi phí. Trong một mô hình trả tiền, Client được yêu
cầu chỉ trả tiền cho các tài nguyên được tiêu thụ. Ưu điểm của đám mây công khai
là tính khả dụng, giảm đầu tư và giảm bảo trì vì tất cả các hoạt động bảo trì bao
gồm phần cứng và phần mềm được thực hiện bởi các nhà cung cấp dịch vụ đám
mây. Các Client được cung cấp các phiên bản cập nhật của phần mềm và bất kỳ sự
gia tăng không lường trước nào trong các yêu cầu về năng lực phần cứng được xử
lý bởi các nhà cung cấp dịch vụ. Dịch vụ đám mây công khai có quy mô lớn hơn,
cung cấp theo yêu cầu

Khả năng mở rộng cho Client của mình. Một vài ví dụ về đám mây công khai là
IBM Blue Cloud, Amazon, Cloud và Windows Azure Services nền tảng. Mây
công khai có thể không phải là một lựa chọn đúng đắn cho tất cả các tổ chức vì

27
i Hc Cn Th 2023-2024

những hạn chế về cấu hình và bảo mật vì các yếu tố này được quản lý hoàn toàn
bởi các nhà cung cấp dịch vụ. Lưu tài liệu vào iCloud, Google Drive và phát nhạc
từ Amazon Cloud Cloud Player đều là những dịch vụ đám mây công khai.

Đám mây riêng: Một đám mây riêng còn được gọi là đám mây công ty hoặc đám
mây nội bộ. Chúng được sở hữu độc quyền bởi một công ty duy nhất có quyền
kiểm soát duy trì trung tâm dữ liệu của riêng mình. Mục đích chính của một đám
mây riêng là không bán dịch vụ cho Client bên ngoài mà là để có được những lợi
ích của kiến trúc đám mây. Mây tư nhân tương đối đắt hơn so với các đám mây
công khai. Mặc dù chi phí gia tăng và bảo trì đám mây riêng, các công ty thích một
đám mây riêng để giải quyết mối quan tâm liên quan đến bảo mật của dữ liệu và
giữ tài sản trong tường lửa, thiếu một đám mây riêng. Mây tư nhân không phù hợp
nhất cho doanh nghiệp vừa và nhỏ, nhưng chúng phù hợp hơn cho các doanh
nghiệp lớn hơn. Hai biến thể của một đám mây riêng là đám mây riêng trên cơ sở
và đám mây riêng được lưu trữ bên ngoài. Đám mây riêng tại chỗ là đám mây nội
bộ được lưu trữ trong trung tâm dữ liệu của một tổ chức. Nó cung cấp nhiều bảo
mật hơn nhưng thường có giới hạn về kích thước và khả năng mở rộng của nó. Đây
là những điều phù hợp nhất cho các doanh nghiệp yêu cầu kiểm soát hoàn toàn bảo
mật. Một đám mây riêng được lưu trữ bên ngoài được lưu trữ bởi các nhà cung cấp
dịch vụ đám mây bên ngoài với sự đảm bảo đầy đủ về quyền riêng tư. Trong một
đám mây riêng được lưu trữ bên ngoài, các máy khách được cung cấp một môi
trường đám mây độc quyền. Kiểu kiến trúc đám mây này được ưa thích bởi các tổ
chức không quan tâm đến việc sử dụng đám mây công khai vì các vấn đề bảo mật
và rủi ro liên quan đến việc chia sẻ tài nguyên.

Đám mây lai: Mây lai là sự kết hợp giữa các đám mây công khai và riêng tư trong
đó lợi thế của cả hai loại môi trường đám mây. Một đám mây lai sử dụng các nhà

28
i Hc Cn Th 2023-2024

cung cấp dịch vụ đám mây của bên thứ ba hoặc một phần. Một đám mây lai có ít
nhất một đám mây công khai và một đám mây riêng. Do đó, một số tài nguyên
được quản lý trong nhà và một số tài nguyên được mua từ các nguồn bên ngoài.
Nó đặc biệt có lợi trong các cửa sổ bảo trì theo lịch trình. Nó đã tăng tính linh hoạt
của điện toán và cũng có khả năng cung cấp khả năng mở rộng theo yêu cầu.

3. Mô hình dịch vụ Điện toán đám mây

Mô hình dịch vụ điện toán đám mây chủ yếu đề cập đến cách thức phân phối các
tài nguyên công nghệ thông tin (cả phần mềm và phần cứng) qua mạng internet tới
người dùng.

Các mô hình dịch vụ điện toán đám mây đều được xây dựng dựa trên cấu trúc cơ
bản của điện toán đám mây: Chúng cung cấp tài nguyên công nghệ thông tin qua
internet, có thể miễn phí hoặc thu phí người dùng dựa theo mức sử dụng. Ngoài ra,
khách hàng có thể yêu cầu ngừng sử dụng dịch vụ bất cứ khi nào họ muốn.

Tuy nhiên mỗi mô hình lại khác nhau ở thiết kế, mức độ linh hoạt, khả năng mở
rộng, kiểm soát và quản lý. Hiện nay có 3 mô hình dịch vụ điện toán đám mây chủ
yếu là SaaS, PaaS và IaaS. Mỗi mô hình đáp ứng nhu cầu của những đối tượng
người dùng khác nhau.

29
i Hc Cn Th 2023-2024

Hình 1.7 : Mô phỏng mức độ cung cấp tài nguyên CNTT của SaaS, PaaS và IaaS.

 SaaS – Phần mềm dưới dạng dịch vụ : Trong các loại dịch vụ điện toán
đám mây, mô hình SaaS chính là mô hình phổ biến nhất hiện nay, có thể sử
dụng rộng rãi cho mọi đối tượng.

SaaS là viết tắt của thuật ngữ “Software as a Service”, là mô hình dịch vụ cung
cấp cho người dùng quyền truy cập vào một ứng dụng hoặc phần mềm được xây
dựng hoàn chỉnh. Chúng có đầy đủ chức năng và tác vụ đáp ứng các nhu cầu của
người dùng (phần lớn là người dùng cuối) và giúp họ giải quyết các vấn đề cụ
thể.

Các ứng dụng SaaS được cung cấp tới người dùng dựa trên nền tảng điện toán
đám mây theo một trong các dạng: ứng dụng trên máy tính ,ứng dụng cho thiết
bị di động ,tiện ích trên trình duyệt web.

- Đặc điểm của mô hình dịch vụ điện toán đám mây SaaS: SaaS là giải pháp
giúp người sử dụng tiết kiệm chi phí, năng lượng, nguồn lực CNTT nhờ những
đặc điểm nổi bật.

30
i Hc Cn Th 2023-2024

Triển khai nhanh chóng, dễ sử dụng: Khi đăng ký mua một sản phẩm theo mô
hình SaaS, người dùng sẽ nhận về một giải pháp hoàn thiện và sẵn sàng để truy
cập, sử dụng. Họ không cần đầu tư nhiều cơ sở hạ tầng, tài nguyên điện toán để
thiết lập, cấu hình và vận hành ứng dụng; cũng không cần phải nâng cấp phần mềm
hay bảo trì máy chủ và hệ điều hành mà ứng dụng đang chạy, những việc này
thuộc về trách nhiệm của nhà cung cấp.

Tuy nhiên điều này cũng đồng nghĩa với việc người dùng khó có thể tùy chỉnh
phần mềm để đáp ứng tối đa mọi nhu cầu của mình bởi đây là ứng dụng được thiết
kế sẵn.

Hình 1.8 : Mô hình SaaS

Nhà cung cấp SaaS lưu trữ và duy trì các máy chủ, cơ sở dữ liệu, mã code cấu
thành ứng dụng. Người dùng chỉ cần đăng ký và sử dụng.

31
i Hc Cn Th 2023-2024

Khả năng truy cập dễ dàng: Người dùng có thể truy cập ứng dụng SaaS từ mọi
nơi, trên mọi thiết bị có kết nối internet.

Tuy nhiên, chính vì mô hình dịch vụ SaaS hoạt động dựa trên internet, vì vậy khi
kết nối mạng không ổn định hoặc bị lỗi thì có thể sinh ra thời gian chết, người
dùng sẽ không thể truy cập vào ứng dụng và các dữ liệu đã được lưu trên đám mây.

Có thể tích hợp với các nền tảng và dịch vụ khác: Để đáp ứng tốt hơn nhu cầu
của người dùng, một ứng dụng SaaS có thể sử dụng giao thức API để tích hợp với
các ứng dụng hoặc nền tảng khác. Từ đó giúp người dùng tùy chỉnh các tính năng
của ứng dụng một cách dễ dàng và tiết kiệm chi phí.

Chi phí phải trả dựa theo nhu cầu hoặc mức sử dụng (Pay-as-you-go): Chi phí
sử dụng SaaS (nếu có) được thanh toán định kỳ hàng tháng hoặc hàng năm. Các
nhà cung cấp SaaS thường đưa ra nhiều lựa chọn đăng ký gói cước, các gói được
thiết kế dựa trên nhu cầu sử dụng ít hay nhiều của người dùng và được định giá từ
cao tới thấp.

- SaaS phù hợp cho ứng dụng nào : Mô hình SaaS được sử dụng phổ biến cho mục
đích hợp tác hoặc làm việc nhóm, điều phối quy trình làm việc cho một tổ
chức/doanh nghiệp. Các ứng dụng phổ biến nhất của SaaS có thể kể đến:

Hệ thống CRM quản lý quan hệ khách hàng.

Hệ thống ERP hoạch định nguồn lực của doanh nghiệp.

Quản lý nội dung web.

Phục vụ các chiến dịch email marketing (tiếp thị qua email).

32
i Hc Cn Th 2023-2024

Phục vụ ngành bán lẻ và thương mại điện tử.

Các phần mềm thanh toán và lập hóa đơn, phần mềm kế toán, phần mềm bán hàng,
phần mềm nhân sự, phần mềm bảo mật, hệ thống quản lý tài sản,…

Phần mềm phục vụ hội họp, trò chuyện qua cuộc gọi video,…

Phần mềm quản lý dự án.

Hình 1.9 : Các sản phẩm SaaS

Các sản phẩm SaaS cực kỳ đa dạng và có thể đáp ứng rất nhiều yêu cầu của người
dùng.

Ví dụ về SaaS : Một số dịch vụ điện toán đám mây triển khai dựa trên mô hình
SaaS nổi tiếng hiện nay là Microsoft 365, Google Workspace, Salesforce, Slack,
VNPT Invoice, VNPT eContract,…

33
i Hc Cn Th 2023-2024

 PaaS – Nền tảng dưới dạng dịch vụ : Trong khi SaaS cung cấp một giải pháp
phần mềm ứng dụng hoàn chỉnh, thì PaaS mang lại các công cụ để xây dựng, phát
triển các phần mềm, ứng dụng đó mà không cần phải lo về tài nguyên máy tính.

PaaS là viết tắt của thuật ngữ “Platform as a Service” – “Nền tảng dưới dạng dịch
vụ”. Trong khi SaaS là sản phẩm hoàn chỉnh giúp giải quyết trực tiếp các vấn đề
của người dùng, thì PaaS chính là một hệ sinh thái, cung cấp môi trường hoàn
chỉnh để người dùng tự thiết kế, tạo dựng, phát triển, thử nghiệm, triển khai và lưu
trữ các sản phẩm đó.

Với mô hình PaaS, người dùng được nhà cung cấp trao quyền truy cập và sử dụng
một “bộ kit” bao gồm:

Quyền truy cập máy chủ và bộ lưu trữ.

Cơ sở dữ liệu.

Công cụ phát triển: Trình chỉnh sửa mã nguồn, trình gỡ lỗi, trình biên dịch, các
công cụ hỗ trợ viết/ triển khai/ gỡ lỗi/ quản lý mã…

Hệ điều hành, API trung gian,…

34
i Hc Cn Th 2023-2024

Hình 1.10 : Kiến trúc của PaaS

Có thể hiểu kiến trúc của PaaS tương tự như một mô hình điện toán đám mây không
có máy chủ.

- Đặc điểm của mô hình dịch vụ điện toán đám mây PaaS : Khi sử dụng PaaS, mọi
quy trình xây dựng, kiểm thử, triển khai và điều chỉnh ứng dụng được thực hiện
nhanh chóng và tiết kiệm chi phí hơn. Đó là nhờ một số đặc điểm nổi bật của mô
hình PaaS gồm:

Chạy vòng đời ứng dụng hiệu quả: Chỉ với một môi trường tích hợp duy nhất,
PaaS cung cấp danh mục nền tảng đa dạng để người dùng chạy mọi giai đoạn trong
vòng đời ứng dụng, bao gồm: phát triển, thử nghiệm, triển khai, quản lý và cập
nhật.

Không yêu cầu mức độ quản lý cao: Người dùng PaaS không cần đầu tư phần
cứng đắt tiền mà chỉ cần tập trung vào xây dựng, thử nghiệm và quản lý ứng dụng.

35
i Hc Cn Th 2023-2024

Mọi tài nguyên gồm máy chủ, hệ điều hành, công cụ phát triển đều được nhà cung
cấp cấp sẵn dưới dạng “bộ kit”.

Người dùng PaaS sẽ được cấp quyền truy cập ngay vào môi trường phát triển phần
mềm này, sử dụng các công nghệ có sẵn giúp rút ngắn quá trình viết mã ứng dụng,
góp phần nhanh chóng đưa sản phẩm ra mắt thị trường.

Ngoài ra, người dùng cũng không cần thực hiện các công việc như bảo trì, vá lỗi hệ
điều hành, cài đặt cập nhật bảo mật,… Đây là trách nhiệm do nhà cung cấp thực
hiện để duy trì nền tảng PaaS luôn ổn định.

Khả năng tiếp cận rộng rãi: Sử dụng PaaS, các nhà lập trình có thể tạo ứng dụng
cho nhiều nền tảng và thiết bị khác nhau. Ngoài ra, PaaS có thể truy cập trực tuyến
từ mọi vị trí, dễ dàng phục vụ cho các hoạt động cộng tác nhóm.

Tính linh hoạt cao, khả năng mở rộng hiệu quả: PaaS cung cấp rất nhiều công cụ
sẵn có để lên ý tưởng, thiết kế và phát triển ứng dụng phần mềm theo ý riêng của
người dùng, không cần bất kỳ sự phụ thuộc nào vào bên bán sản phẩm như SaaS.

Bên cạnh đó, mô hình PaaS cũng có thể mở rộng quy mô tài nguyên điện toán
đám mây khi có nhu cầu, và hủy sử dụng tài nguyên khi không cần thiết.

Trả tiền theo mức sử dụng: Mô hình dịch vụ điện toán đám mây PaaS được cung
cấp tới người dùng theo nguyên tắc trả tiền theo nhu cầu sử dụng. Một dịch vụ
PaaS sẽ đưa ra nhiều lựa chọn gói cước được định giá theo khả năng tính toán hệ
thống, dung lượng lưu trữ và các tài nguyên mạng. Nhờ đó, người dùng có thể phát
triển các ứng dụng mới và được giảm bớt gánh nặng về chi phí lẫn trách nhiệm.

36
i Hc Cn Th 2023-2024

Hình 1.11 : Môi trường PaaS

PaaS cung cấp môi trường và đầy đủ bộ công cụ để người dùng phát triển ứng
dụng trong toàn bộ vòng đời.

- PaaS phù hợp cho ứng dụng nào?

PaaS được sử dụng phổ biến cho những trường hợp:

Triển khai ứng dụng web.

Các đơn vị chuyên cho thuê phần mềm quản trị cơ sở dữ liệu, các phần mềm quản
lý tin tức.

37
i Hc Cn Th 2023-2024

Xây dựng các API để kiểm soát, chia sẻ dữ liệu giữa các thiết bị và ứng dụng; API
thông báo đẩy…

Bộ dịch vụ di động (Mobile services).

Học máy (Machine learning).

- Ví dụ về PaaS : Các dịch vụ đám mây dựa theo mô hình PaaS phổ biến có thể kể
tới: AWS Elastic Beanstalk, Microsoft Azure App Service, Google App Engine,
VMware Cloud Foundry.

 IaaS – Cơ sở hạ tầng dưới dạng dịch vụ

Trong khi SaaS là mô hình dễ sử dụng nhất, thì IaaS là phương án tốt nhất để
người dùng kiểm soát tối đa môi trường công nghệ và tự tạo sản phẩm riêng với
mức chi phí tiết kiệm hơn phần mềm tại chỗ truyền thống.

IaaS là viết tắt của thuật ngữ “Infrastructure as a Service”, là mô hình dịch vụ
tạo nền tảng để triển khai công nghệ điện toán đám mây. Thông qua nhà cung
cấp IaaS, người dùng có quyền truy cập qua internet để vào các tài nguyên
CNTT phần cứng và cốt lõi gồm:

Máy chủ ảo hoặc máy chủ chuyên dụng chạy trên nền máy tính vật lý.

Các dịch vụ kết nối mạng.

Trung tâm lưu trữ dữ liệu (Data center).

38
i Hc Cn Th 2023-2024

Hình 1.12 : Cơ sở hạ tầng dưới dạng dịch vụ (IAAS)

Với IaaS, người dùng có toàn quyền kiểm soát toàn bộ cơ sở hạ tầng được cung
cấp.

 Đặc điểm của mô hình dịch vụ điện toán đám mây IaaS : Trong các loại
dịch vụ điện toán đám mây, IaaS là mô hình có đặc điểm linh hoạt cao nhất.

- Người dùng có quyền kiểm soát và tùy chỉnh cao nhất: Khi sử dụng mô hình
IaaS, người dùng có toàn quyền cấu hình các tài nguyên cần thiết để triển khai
nền tảng và xây dựng các phần mềm/ứng dụng riêng. Đi cùng với đó là trách

39
i Hc Cn Th 2023-2024

nhiệm vận hành, bảo trì, sao lưu, nâng cấp, hỗ trợ khắc phục sự cố đối với nền
tảng và sản phẩm đã tạo nhờ IaaS.

- Yêu cầu kiến thức chuyên môn để xử lý: Như đã đề cập ở trên, quá trình cấu
hình và bảo trì các sản phẩm IaaS phụ thuộc vào người dùng. Điều này cũng
có nghĩa là để sử dụng IaaS, doanh nghiệp phải có một đội ngũ chuyên gia
CNTT có trình độ chuyên môn tốt để có thể đảm nhiệm những đầu việc trên.

- Khả năng mở rộng quy mô dễ dàng và cực kỳ nhanh chóng: Các nhà cung
cấp IaaS thường có máy chủ, lưu trữ và công nghệ mạng được nâng cấp mạnh
mẽ nhất để đáp ứng nhu cầu của khách hàng. Qua đó, người dùng có thể dễ
dàng tăng hoặc giảm quy mô điện toán đám mây bất cứ lúc nào có nhu cầu.

Ví dụ: Một ứng dụng phát trận đấu thể thao phải đón lưu lượng truy cập nhiều
gấp bội lần vào mùa giải World Cup. Nếu đơn vị thiết kế ứng dụng không dựa
trên IaaS mà đi theo giải pháp phần mềm tại chỗ truyền thống, thì lúc này, để
đáp ứng lượng truy cập tăng đột biến và đảm bảo chất lượng phát trực tiếp tốt
nhất, họ phải mua thêm máy chủ bổ sung. Thế nhưng vào những thời điểm còn
lại trong năm, các máy chủ này trở nên dư thừa vì không dùng đến.

Với các doanh nghiệp đang mở rộng hoạt động nhanh chóng nhưng lại thiếu
nguồn lực đầu tư vào cơ sở hạ tầng phần cứng, thì IaaS là lựa chọn lý tưởng.

- Mức độ linh hoạt cao: IaaS là mô hình có tính tùy chỉnh cao nhất khi so với
SaaS và PaaS. Người dùng có thể cài đặt bất kỳ hệ điều hành nào, cũng như dễ
dàng kiểm soát các tài nguyên khác như bộ nhớ, RAM, CPU hoặc loại ổ đĩa sao
cho phù hợp với nhu cầu.

40
i Hc Cn Th 2023-2024

- Tăng cường hỗ trợ kỹ thuật, hiệu suất và bảo mật cho cơ sở hạ tầng: Nhà cung
cấp mô hình dịch vụ điện toán đám mây IaaS luôn phải đầu tư các biện pháp bảo
mật chuyên sâu (mã hóa đầu cuối, mã hóa dữ liệu, tường lửa,…) cho các cơ sở hạ
tầng CNTT, từ đó đảm bảo an toàn cho đám mây ảo mà họ cung cấp. Nhờ vậy,
người dùng có thể an tâm về độ bảo mật cao hơn so với việc tự lưu trữ cơ sở hạ
tầng tại chỗ.

- Khả năng khắc phục thảm họa: Mô hình IaaS được thiết kế sẵn các biện pháp
sao lưu dự phòng, khôi phục dữ liệu cùng cơ sở hạ tầng khắc phục thảm họa. Điều
này làm giảm thiểu nguy cơ mất dữ liệu và gián đoạn công việc do các sự kiện bất
khả kháng gây ra như: mất điện cục bộ, các cuộc tấn công mạng, thiên tai,…

Bên cạnh đó, các tài nguyên có thể trải rộng trên nhiều máy chủ và trung tâm dữ
liệu, giúp IaaS có thể hoạt động ngay cả khi một máy chủ gặp sự cố.

- Thanh toán chi phí dựa trên nhu cầu sử dụng: Với đặc trưng là khả năng mở
rộng hoặc thu hẹp quy mô linh hoạt, mô hình IaaS cũng cho phép người dùng chỉ
trả tiền cho những tài nguyên mà họ có nhu cầu sử dụng trong một thời gian nhất
định. Nhờ đó, các doanh nghiệp có thể tiết kiệm được mức tiền vốn đầu tư hàng
tháng.

Ví dụ: Người dùng có thể sử dụng IaaS để hỗ trợ các trang web thương mại điện
tử vào giờ cao điểm, hoặc các dự án phát triển và thử nghiệm ngắn hạn.

 IaaS phù hợp cho ứng dụng nào?

Nhờ tính linh hoạt cao, IaaS là sự lựa chọn lý tưởng để xây dựng các dự án công
nghệ cần xử lý lượng dữ liệu lớn và phức tạp như:

41
i Hc Cn Th 2023-2024

Điện toán đám mây ảo (Xử lý dữ liệu, thử nghiệm phần mềm, lưu trữ ứng dụng,
…).

Web Hosting (lưu trữ web).

Quản lý lưu trữ và sao lưu dữ liệu.

Lưu trữ dữ liệu lâu dài (Cloud Data Archiving).

Dịch vụ mạng ảo để truyền dữ liệu nội bộ, không cần internet công cộng.

Thiết lập và chạy quy trình làm việc, quy trình kinh doanh.

 Ví dụ về IaaS : Hiện nay có nhiều nhà cung cấp dịch vụ IaaS rất phổ biến
như: Amazon Web Services (AWS), Microsoft Azure, Google Compute
Engine, VNPT Cloud…

Hình 1.13 : Dịch vụ VNPT CLOUD

VNPT Cloud là một trong những giải pháp theo mô hình IaaS nổi bật hiện nay.

42
i Hc Cn Th 2023-2024

4. So sánh các loại hình dịch vụ của điện toán đám mây

Việc so sánh và nắm bắt sự khác biệt của ba loại mô hình SaaS, PaaS và IaaS sẽ
giúp khách hàng lựa chọn được bộ dịch vụ phù hợp nhất. Đặc biệt là với các cơ
quan, doanh nghiệp, vì mỗi đơn vị đều có quy mô, định hướng, nguồn lực, thế
mạnh và đối mặt với những vấn đề thách thức khác nhau, vì vậy việc áp dụng mô
hình đám mây phù hợp là điều rất quan trọng.

Sự khác biệt lớn nhất giữa IaaS, PaaS và SaaS là mức độ trách nhiệm của nhà cung
cấp là nhiều hay ít.

 Giải thích theo cách dễ hiểu nhất, IaaS tương tự như việc thuê một căn hộ trống
nội thất, chỉ có các tiện ích đi kèm với khu dân cư đó là có sẵn.

 Trong khi đó, PaaS tương tự như việc thuê một căn hộ có nội thất cơ bản, nhưng
người thuê vẫn phải sắm sửa các đồ gia dụng và đồ dùng sinh hoạt hàng ngày.

 Và cuối cùng, việc sử dụng SaaS có thể hiểu như việc thuê một căn hộ đầy đủ mọi
tiện nghi.

43
i Hc Cn Th 2023-2024

Hình 1.14 : Sự phân chia trách nhiệm quản lý của các loại mô hình dịch vụ điện
toán đám mây so với mô hình tại chỗ.

Để có sự nhìn nhận cụ thể hơn, mời bạn đọc tham khảo bảng so sánh ba loại hình
dịch vụ của điện toán đám mây dưới đây:

IaaS PaaS Saas


Cung cấp Tài nguyên phần cứng cơ Một giải pháp đóng gói gồm Ứng dụng hoàn chỉnh,
bản công cụ phần cứng và phần sẵn sàng để sử dụng
mềm kết hợp
Mục đích Tạo nền tảng để triển Phát triển ứng dụng Đáp ứng những nhu
khai công nghệ tương tự cầu và tác vụ cụ thể
như điện toán đám mây
Truy cập Thông qua API hoặc Thông qua web Thông qua một trình
dashboard duyệt hoặc ứng dụng

44
i Hc Cn Th 2023-2024

Đối Kỹ sư cơ sở hạ tầng và Nhà lập trình ứng dụng Người dùng cuối
tượng sử mạng
dụng
Trách Phần mềm giám sát máy Thời gian chạy, Phần mềm Cung cấp, bảo trì và
nhiệm ảo (Hypervisor), Máy trung gian, Hệ điều hành, nâng cấp ứng dụng –
quản lý chủ, Lưu trữ, Mạng vật lý Mạng ảo, Hypervisor, Máy bao gồm cả cơ sở hạ
của nhà chủ, Lưu trữ, Mạng vật lý tầng cơ bản: Ứng
cung cấp dụng, Thời gian chạy,
Phần mềm trung gian,
Hệ điều hành, Mạng
ảo, Hypervisor, Máy
chủ, Lưu trữ, Mạng
vật lý
Trách Dữ liệu, Ứng dụng, Thời Trách nhiệm quản lý của X
nhiệm gian chạy, Phần mềm người dùng
quản lý trung gian, Hệ điều hành,
của Mạng ảo(Không cần
người quản lý và bảo trì cơ sở
dùng hạ tầng phần cứng cơ
bản)

Độ linh Mức độ linh hoạt cao. Mức độ linh hoạt tương đối. Tính tùy chỉnh không
hoạt Quyền kiểm soát hệ điều cao.
Khả năng kiểm soát gần hành ít hơn IaaS nhưng lại dễ Phụ thuộc vào việc
như trực tiếp đối với cơ vận hành hơn. vận hành, quản lý và
sở hạ tầng CNTT. bảo trì của nhà cung
cấp.

Tính bảo Tự xây dựng chính sách Người dùng thiếu một số Người dùng phụ thuộc
mật bảo mật riêng, không phụ quyền kiểm soát đối với giải hầu hết vào các chính
thuộc nhiều vào chính pháp PaaS, phải phụ thuộc sách và điều khoản
sách của bên cung cấp. vào chính sách của nhà cung sẵn có của nhà cung
cấp. cấp.
Có thể xảy ra các rủi
Mọi dữ liệu ứng dụng được ro về bảo mật nếu
lưu trữ trên cơ sở dữ liệu đám không chọn ứng dụng
mây của nhà cung cấp PaaS. của nhà cung cấp uy
Vì vậy có thể xảy ra rủi ro về tín.
quyền riêng tư và dữ liệu
người dùng nếu không chọn
nhà cung cấp đáng tin cậy.

45
i Hc Cn Th 2023-2024

Hình Thị trường mục tiêu: Thị trường mục tiêu: B2B. Thị trường mục tiêu:
thức kinh B2B. Phù hợp cho doanh nghiệp Cả B2B và B2C.
doanh Phù hợp cho cả công ty vừa và nhỏ; hoặc các doanh Phù hợp cho cả doanh
nên áp mới thành lập, doanh nghiệp lớn triển khai đám nghiệp lớn, doanh
dụng nghiệp nhỏ, các tập đoàn mây riêng tư (Private cloud). nghiệp SME, người
lớn, các tổ chức đang mở dùng cá nhân
rộng quy mô nhanh
chóng.

Lợi ích Tiết kiệm chi phí đầu tư Tạo và triển khai ứng dụng Chi phí rẻ nhất, rủi ro
mà vẫn được tiếp cận hạ với chi phí thấp hoặc miễn đầu tư thấp, chỉ cần
tầng máy chủ, bộ lưu trữ phí. Không cần chi phí vận mất một khoản phí
và thiết bị mạng tốt nhất. hành cơ sở hạ tầng như IaaS. đăng ký rất nhỏ.

Không tốn thời gian thiết Tiết kiệm thời gian định cấu Ứng dụng sẵn có, triển
lập cơ sở hạ tầng CNTT, hình hệ thống, giảm số lượng khai nhanh chóng, dễ
nhờ đó mà đẩy nhanh mã code tạo ứng dụng. Có thể hiểu, dễ vận hành.
tiến độ công việc, giảm tạo ứng dụng đa nền tảng rất Không cần kiến thức
thời gian đưa sản phẩm nhanh chóng. kỹ thuật.
tiếp cận thị trường.
Không cần bảo trì liên tục. Dễ dàng mở rộng quy
Mức độ linh hoạt cao Quá trình bảo trì cũng dễ mô hoặc tích hợp với
nhất, có thể thêm dung dàng hơn so với mô hình các dịch vụ SaaS
lượng nhanh chóng vào IaaS. khác.
thời gian cao điểm và
giảm quy mô khi cần. Bản nâng cấp PaaS do nhà Luôn tự động bảo trì,
cung cấp quản lý và thực cải tiến, cập nhật các
Hỗ trợ khắc phục sau hiện, người dùng không cần phiên bản mới nhất,
thảm họa. Giảm thời gian can thiệp. đảm bảo theo kịp xu
chết. IaaS có thể chạy hướng phát triển công
ngay cả khi máy chủ gặp Dễ dàng cộng tác nhóm. Có nghệ trên thế giới.
sự cố. thể truy cập và làm việc trên
PaaS từ mọi nơi. Dễ dàng làm việc
Có thể làm việc trên một nhóm. Có thể sử dụng
phần cứng duy nhất ở cho mọi bộ
mọi nơi và mọi lúc. phận/phòng ban trong
doanh nghiệp.

Bảng 1.3 : Bảng so sánh ba loại hình dịch vụ của điện toán đám mây

46
i Hc Cn Th 2023-2024

Tùy theo nhu cầu và mục tiêu phát triển, trong một tổ chức có thể sử dụng kết hợp
từ hai hoặc cả ba mô hình dịch vụ điện toán đám mây. Tuy nhiên trước khi xem xét
triển khai các loại mô hình này, người dùng cần cân nhắc một số điều quan trọng:

- IaaS :

 Người dùng phải xác định mình cần bao nhiêu dung lượng lưu trữ.

 Xem xét mọi chính sách và thỏa thuận của nhà cung cấp liên quan đến tính bảo
mật.

 Phải có chuyên viên CNTT có trình độ và khả năng xử lý khối lượng công việc
với IaaS.

 Đề phòng những cuộc tấn công hệ thống mạng diễn ra từ trong nội bộ như hành vi
nghe trộm, đánh cắp hoặc hủy hoại dữ liệu…

- PaaS:

 Người dùng cần biết về chính sách và các biện pháp bảo mật của nhà cung cấp để
đảm bảo hệ thống và dữ liệu không bị tấn công.

 Trao đổi với nhà cung cấp để nắm rõ khả năng tương thích với các mô hình khác.

 Nắm rõ quy trình đồng bộ hóa thông tin từ cơ sở lưu trữ tại chỗ sang bộ lưu trữ
của PaaS.

 Một khi đã chọn dịch vụ Paas của một nhà cung cấp, sẽ rất khó để thay đổi nhà
cung cấp khác và khó kết nối với các nền tảng PaaS khác.

47
i Hc Cn Th 2023-2024

- PaaS:

Chọn sản phẩm SaaS từ nhà cung cấp uy tín để tránh nguy cơ bị lộ thông tin, bị đánh
cắp dữ liệu trái phép. Ngoài ra, luôn phải có biện pháp tự bảo vệ dữ liệu.

Nhìn chung, các mô hình dịch vụ điện toán đám mây SaaS, PaaS và IaaS đều mang
lại những lợi thế riêng cho người dùng và có các trường hợp sử dụng phù hợp. Dù
lựa chọn mô hình nào thì điều quan trọng là cần tìm nhà cung cấp dịch vụ uy tín cho
người dùng.

Tại Việt Nam, tập đoàn VNPT là một trong những đơn vị cung cấp hệ sinh thái
chuyển đổi số uy tín, bao gồm các giải pháp IaaS cho hạ tầng mạng ảo, và các sản
phẩm SaaS hỗ trợ giao dịch điện tử, quản trị doanh nghiệp và phục vụ chuyên môn.

Bằng việc đầu tư cơ sở hạ tầng hiện đại và các trung tâm lưu trữ dữ liệu đạt tiêu
chuẩn quốc tế cao nhất, VNPT đảm bảo hỗ trợ khách hàng xây dựng môi trường làm
việc linh hoạt, hợp lý hóa quy trình, nâng cao năng suất, hiệu quả công việc và đặc
biệt an toàn, bảo mật.

5. Mối quan hệ của Điện toán đám mây và Big Data

Big data lấy xuất phát điểm từ đám mây. Apache Hadoop, một trong những công
nghệ big data phổ biến nhất hiện nay, được xây dựng trên cơ sở nghiên cứu từ phía
Google và triển khai lần đầu tại Yahoo. Ban đầu, Google sáng tạo ra công nghệ
này bởi việc biên soạn lập chỉ mục các trang Web là bất khả thi với hệ thống sẵn có
lúc bấy giờ. Giờ đây các công ty sử dụng Hadoop đang đưa kiến trúc đám mây vào
các trung tâm dữ liệu của họ.

48
i Hc Cn Th 2023-2024

Hình 1.15 : Sự kết hợp giữa Dữ liệu lớn và Điện toán đám mây

Sự trỗi dậy đồng thời của cả đám mây và big data không hẳn là trùng hợp. Trên
thực tế, chúng yểm trợ và hoàn thiện lẫn nhau. Sự mở rộng của đám mây không
ngừng thúc đẩy khởi tạo và vận hành những công nghệ big data mới thông qua việc
tiết kiệm và đơn giản hóa truy cập hệ thống lưu trữ và tài nguyên máy tính. Các
kiến trúc big data cũng đóng một vai trò quan trọng trong xu thế này. Một ví dụ cụ
thể có thể kể đến những cải tiến gần đây của hệ sinh thái Apache Hadoop đã cho
phép một lượng lớn công việc được chia sẻ và thực thi trên cùng một cluster.
Người dùng sẽ có thể chạy nhiều dạng thức kiến trúc trên cùng một Hadoop
cluster, còn cluster này sẽ được khởi chạy trên một kiến trúc đám mây. Trong hoàn
cảnh các kiến trúc big data đang dần trở nên tương đồng hơn, kiến trúc đám mây sẽ
bổ sung được nhiều dịch vụ chuyên dụng cho lưu trữ, xử lý và phân tích dữ liệu.

Việc kết hợp giữa big data, điện toán đám mây và các thuật toán, kỹ thuật mới
trong biểu thị thông tin làm cho hoạt động phân tích hội tụ – tiến hành phân tích

49
i Hc Cn Th 2023-2024

trên dữ liệu từ nhiều nguồn khác nhau trở nên khả thi. Những kỹ thuật mới hỗ trợ
vận chuyển và quản lý dữ liệu này cũng cho phép phát triển Analytics as a service
(AaaS) dựa trên nền tảng đám mây.

Từ mô hình bảo mật và riêng tư tới mô hình định giá, sự kết hợp giữa big data và
điện toán đám mây còn tác động không nhỏ tới những khía cạnh ngoài công nghệ
của cuộc sống. Tồn tại một sự mâu thuẫn giữa mong muốn phân tích hội tụ và điện
toán đám mây, bởi cloud thiên nhiều hơn về chia sẻ nhiều dữ liệu và tài nguyên
máy tính đa dạng hơn về người truy cập, và nhu cầu kiểm soát bảo mật cá nhân và
bảo mật dữ liệu dữ liệu chặt chẽ hơn. Mô hình định giá dựa trên thói quen sử dụng
đang hướng chúng ta đến suy nghĩ khác về cách sản xuất và sử dụng công nghệ.
Các nghiên cứu trong tương lai sẽ xem xét những ứng dụng trên các lĩnh vực kinh
tế và chính trị được phát triển từ những bước tiến hiện đại trong công nghệ này.

Không chỉ thế, nghiên cứu tới đây sẽ kiểm nghiệm cách thức con người vận dụng
kết hợp những xu thế này với nhau, sự phát triển của big data trên nền tảng đám
mây, và cách mà chúng ta đang dùng data để cải tiến tối ưu đám mây.

6. Kiến trúc đám mây

Kiến trúc đám mây (Cloud Architecture) là bộ khung thiết kế và tổ chức các thành
phần cơ bản, phần mềm, dịch vụ và quy trình để xây dựng và vận hành một môi
trường điện toán đám mây. Nó bao gồm các yếu tố về cơ sở hạ tầng, dịch vụ, quản
lý, an ninh và triển khai ứng dụng và tài nguyên IT trong môi trường đám mây.

50
i Hc Cn Th 2023-2024

Các thành phần cơ bản của kiến trúc đám mây bao gồm:

 Cơ sở hạ tầng hệ thống: Đây là phần cung cấp tài nguyên vật lý và ảo, bao gồm
máy chủ, mạng, lưu trữ và các nguồn tài nguyên tính toán để hỗ trợ các dịch vụ
và ứng dụng đám mây.

 Dịch vụ điện toán: Bao gồm các dịch vụ cung cấp tính toán, lưu trữ, mạng,
quản lý, dữ liệu và nhiều dịch vụ khác, được triển khai trên môi trường đám mây
và cung cấp cho người dùng.

 Phần mềm và ứng dụng: Các ứng dụng và phần mềm được phát triển và triển
khai trên môi trường đám mây, bao gồm ứng dụng web, mobile, dịch vụ thông
tin, trí tuệ nhân tạo, machine learning, IoT và nhiều loại ứng dụng khác.

 Quản lý tài nguyên và tự động hóa: Các công cụ và quy trình để quản lý và tự
động hóa việc triển khai, giám sát, và quản lý tài nguyên trong môi trường đám
mây, bao gồm cả quản lý mật khẩu, quản lý người dùng và quản lý quyền.

 Bảo mật và Tuân thủ Quy định: Đảm bảo an toàn và bảo mật cho dữ liệu, hệ
thống và tài nguyên thông tin, đồng thời tuân thủ các chuẩn mạng, quy định
pháp luật và các tiêu chuẩn bảo mật.

Kiến trúc đám mây thường đa dạng và có thể linh hoạt, có thể được triển khai dưới
nhiều hình thức khác nhau như đám mây công cộng, riêng tư, hybrid và multi-
cloud, phụ thuộc vào nhu cầu và yêu cầu cụ thể của tổ chức hoặc doanh nghiệp.
Mục tiêu chính của kiến trúc này là tạo ra một môi trường ổn định, linh hoạt và an
toàn để triển khai và vận hành các dịch vụ và ứng dụng trên môi trường đám mây.

51
i Hc Cn Th 2023-2024

7. CLOUD Challenges

Điện toán đám mây được đặt ra với nhiều thách thức trong xử lý dữ liệu và thông
tin. Một số thách thức là:

- Bảo mật và Quyền riêng tư: Bảo mật luôn là một vấn đề lớn khi dữ liệu được lưu
trữ và xử lý trên đám mây. Lo ngại về việc dữ liệu có thể bị hack, lộ thông tin,
hoặc vi phạm quyền riêng tư của người dùng đều là những thách thức đáng kể.

- Độ tin cậy và sẵn sàng của dịch vụ: Điện toán đám mây đang phải đối mặt với
thách thức về độ tin cậy và sẵn sàng của dịch vụ. Sự cố kỹ thuật hoặc gián đoạn
trong mạng có thể gây ra nguy cơ mất dữ liệu hoặc làm gián đoạn các dịch vụ
quan trọng.

- Quản lý dữ liệu: Quản lý dữ liệu trên môi trường đám mây, đặc biệt là khi có
lượng dữ liệu lớn, có thể trở nên phức tạp. Việc sao lưu, đồng bộ và quản lý dữ
liệu một cách hiệu quả đòi hỏi sự chú ý đặc biệt.

- Tuân thủ quy định và pháp luật: Các nhà cung cấp dịch vụ đám mây cần tuân
thủ nhiều quy định pháp luật về bảo vệ dữ liệu, quyền riêng tư và an ninh thông
tin. Điều này đặt ra nhiều thách thức trong việc duy trì sự tuân thủ đầy đủ và
đáp ứng yêu cầu pháp lý đa dạng.

- Hiệu suất và Tốc độ: Đôi khi, việc truy cập dữ liệu và ứng dụng từ môi trường
đám mây có thể chậm hơn so với việc sử dụng cơ sở hạ tầng nội bộ. Điều này
có thể ảnh hưởng đến hiệu suất và trải nghiệm người dùng.

52
i Hc Cn Th 2023-2024

- Chi phí và Tính linh hoạt: Mặc dù điện toán đám mây có thể tiết kiệm chi phí
so với việc xây dựng cơ sở hạ tầng riêng, nhưng việc dự đoán chi phí có thể trở
thành một thách thức. Đôi khi, việc tính toán chi phí và quản lý ngân sách
trong môi trường đám mây có thể phức tạp.

CHƯƠNG 3 : LƯU TRỮ VÀ TÍNH TOÁN DỮ LIỆU


LỚN TRONG HADOOP

1. APACHE HADOOP

Hadoop là một dạng framework, cụ thể là Apache. Apache Hadoop là một mã


nguồn mở cho phép sử dụng các distributed processing (ứng dụng phân tán) để
quản lý và lưu trữ những tệp dữ liệu lớn. Hadoop áp dụng mô hình MapReduce
trong hoạt động xử lý Big Data.

Vậy MapReduce là gì? MapReduce vốn là một nền tảng được Google tạo ra để
quản lý dữ liệu của họ. Nhiệm vụ của MapReduce là tiếp nhận một khối lượng
dữ liệu lớn. Sau đó sẽ tiến hành tách các dữ liệu này ra thành những phần nhỏ
theo một tiêu chuẩn nào đó. Từ đó sẽ sắp xếp, trích xuất các tệp dữ liệu con
mới phù hợp với yêu cầu của người dùng. Đây cũng là cách mà thanh tìm kiếm
của Google hoạt động trong khi chúng ta sử dụng hằng ngày.

53
i Hc Cn Th 2023-2024

Còn bản thân Hadoop cũng là một dạng công cụ mẫu giúp phân tán dữ liệu
theo mô hình như vậy. Cho nên MapReduce được sử dụng như một nền tảng lý
tưởng của Hadoop. Về cơ bản, Hadoop sẽ giúp người dùng tổng hợp và xử lý
một lượng thông tin lớn trong thời gian ngắn bằng MapReduce.

Còn với chức năng lưu trữ, Hadoop sẽ dùng HDFS. HDFS là gì? Nó được biết
đến như một kho thông tin có độ truy cập nhạy và chi phí thấp.

Hadoop được phát triển nên từ ngôn ngữ Java. Tuy nhiên nó vẫn hỗ trợ một số
ngôn ngữ lập trình khác như C++, Python hay Pearl nhờ cơ chế streaming.

2. Kiến trúc của Apache Hadoop

Hadoop có một cấu trúc liên kết master-slave. Trong cấu trúc này, chúng ta có
một node master và nhiều node slave . Chức năng của node master là gán một
tác vụ cho các node slave khác nhau và quản lý tài nguyên. Các node slave là
máy tính thực tế có thể không mạnh lắm. Các node slave lưu trữ dữ liệu thực
trong khi trên master chúng ta có metadata.

Kiến trúc của Hadoop bao gồm các thành phần chính sau:

 Hadoop Common: Đây là tập hợp các thư viện và các công cụ hỗ trợ cho
các thành phần khác của Hadoop. Bao gồm các thư viện và công cụ cần thiết
để hỗ trợ xử lý dữ liệu trong hệ thống đám mây.

 Hadoop Distributed File System (HDFS): HDFS là hệ thống tập tin phân
tán của Hadoop, được thiết kế để lưu trữ dữ liệu trên các nút khác nhau trong
một cụm. Nó chia nhỏ dữ liệu thành các khối và phân phối chúng trên nhiều
nút để đảm bảo tính sẵn sàng và an toàn của dữ liệu.

54
i Hc Cn Th 2023-2024

 YARN (Yet Another Resource Negotiator): YARN là một framework quản


lý tài nguyên trong Hadoop. Nó giúp quản lý và phân phối tài nguyên tính
toán (CPU, bộ nhớ) trên các nút trong cụm Hadoop để chạy các ứng dụng
MapReduce hoặc các framework khác.

 MapReduce: MapReduce là mô hình lập trình và framework cho xử lý dữ


liệu song song trong Hadoop. Nó chia nhỏ các tác vụ xử lý thành các phần
nhỏ được thực hiện trên nhiều nút trong cụm, sau đó tổng hợp kết quả từ các
phần nhỏ này để tạo ra kết quả cuối cùng.

 Hadoop Ecosystem: Ngoài các thành phần cơ bản, Hadoop có một hệ sinh
thái phong phú với các thành phần khác nhau như Hive (truy vấn dữ liệu có
cấu trúc), Pig (xử lý dữ liệu), HBase (cơ sở dữ liệu phân tán), Spark
(framework xử lý dữ liệu nhanh), và nhiều công cụ khác. Các thành phần này
mở rộng khả năng và tính linh hoạt của Hadoop cho nhiều mục đích xử lý dữ
liệu khác nhau.

55
i Hc Cn Th 2023-2024

Hình 1.17 : 3 lớp chính của kiến trúc Hadoop

3. Tổng quan về các thành phần trong hệ sinh thái Hadoop

Hệ sinh thái Hadoop gồm 4 lớp khác nhau:

 Lớp lưu trữ dữ liệu: gồm HDFS và HBase, Trong HDFS dữ liệu được lưu
trữ trong môi trường phân tán, HBase là cơ sở dữ liệu hướng cột lưu trữ dữ liệu
có cấu trúc.

 Lớp xử lý dữ liệu: bao gồm MapReduce và YARN. Quá trình xử lý công


việc được thực hiện bởi Reduce Map, việc phân bổ tài nguyên, lập lịch và giám
sát công việc được thực hiện bởi YARN.

56
i Hc Cn Th 2023-2024

 Lớp truy cập dữ liệu: bao gồm Hive, Pig, Mahout, Avro và SQOOP. Hive
là một ngôn ngữ truy vấn dùng để truy cập vào dữ liệu trong HDFS, Pig là một
ngôn ngữ kịch bản phân tích dữ liệu cấp cao. Mahout là nền tảng máy học.
Avro là một thư viện tuần tự hóa dữ liệu, SQOOP là một công cụ chuyển đổi
dữ liệu từ cơ sở dữ liệu truyền thống sang HDFS và ngược lại.

 Lớp quản lý dữ liệu tương tác với người dùng cuối bao gồm Oozie,
Chukwa, Flume, và Zookeeper. Oozie là một công cụ lập lịch trình công việc,
Chukwa được sử dụng để thu thập và giám sát dữ liệu, Flume sử dụng để định
hướng luồng dữ liệu từ nguồn vào HDFS.

4. Lưu trữ trong Hadoop

- HDFS (Hadoop Distributes File System): HDFS là từ viết tắt của Hadoop
Distributes File System, là một hệ thống lưu trữ dữ liệu phân tán được thiết kế
chạy trên phần cứng thông thường để lưu trữ các tệp dữ liệu có kích thước lớn
trên nhiều nút máy tính trong một mạng Hadoop. HDFS cũng tương tự như
những hệ thống file phân tán khác. Tuy nhiên, sự khác biệt ở đây là HDFS có
khả năng chịu lỗi cao (fault-tolerant) và được thiết kế để deploy trên các phần
cứng rẻ tiền. HDFS cũng cung cấp khả năng truy cập high throughput từ ứng
dụng và thích hợp với các ứng dụng có tập dữ liệu lớn. HDFS là một phần của
nền tảng Hadoop và là một phần quan trọng của việc xử lý dữ liệu lớn.

57
i Hc Cn Th 2023-2024

HDFS được thiết kế để chịu được sự cố và có thể xử lý các tệp dữ liệu có kích
thước rất lớn. HDFS lưu trữ dữ liệu dưới dạng các khối, mỗi khối có kích thước
mặc định là 128MB, nhưng có thể tùy chỉnh kích thước theo nhu cầu sử dụng. Dữ
liệu được phân tán trên nhiều nút máy tính trong một mạng Hadoop, giúp tăng
tốc độ truy xuất dữ liệu và giảm thời gian xử lý.

58
i Hc Cn Th 2023-2024

HDFS sử dụng kiến trúc Master/Slave, bao gồm hai thành phần chính là
NameNode và DataNode. NameNode là trung tâm điều khiển của HDFS và lưu
trữ thông tin về vị trí và trạng thái các khối dữ liệu. DataNode là các nút lưu trữ
dữ liệu thực sự và phân tán dữ liệu trên các nút khác nhau.

Một cụm HDFS bao gồm hai loại nút (Node) hoạt động theo mô hình nút chủ
(Master) - nút thợ (Worker):

 Một cụm HDFS có 1 NameNode (Master).

 Một cụm HDFS có một hoặc nhiều các DataNode (Worker).

NameNode quản lý các Namespace Filesystem. Nó quản lý một Filesystem Tree


và các metadata cho tất cả file và thư mục trên tree. Thông tin này được lưu trữ
trên đĩa vật lý dưới dạng không gian tên ảnh và nhật ký (edit log). NameNode
còn quản lý thông tin các khối (block) của một tập tin được lưu trên những
DataNodes nào.

59
i Hc Cn Th 2023-2024

HDFS đưa ra một không gian tên cho phép dữ liệu được lưu trên tập tin. Trong đó
một tập tin được chia ra thanh một hay nhiều khối (block) và các block được lưu
trên một tập các DataNode. NameNode thực thi các hoạt động trên hệ thống quản
trị không gian tên tập tin như mở, đóng đổi tên tập tin và thư mục. Các DataNode
có tính năng xử lý các yêu cầu về đọc ghi từ máy khách. Ngoài ra các DataNode
còn thực hiện việc tạo, xóa, lặp các khối theo sự hướng dẫn của DataNode.

HDFS đưa ra một không gian tên cho phép dữ liệu được lưu trên tập tin. Trong đó
một tập tin được chia ra thanh một hay nhiều khối (block) và các block được lưu
trên một tập các DataNode. NameNode thực thi các hoạt động trên hệ thống quản
trị không gian tên tập tin như mở, đóng đổi tên tập tin và thư mục. Các DataNode
có tính năng xử lý các yêu cầu về đọc ghi từ máy khách. Ngoài ra các DataNode
còn thực hiện việc tạo, xóa, lặp các khối theo sự hướng dẫn của DataNode.

HDFS cũng cung cấp các cơ chế tối ưu hóa hiệu suất để cải thiện hiệu suất của hệ
thống. Nó cung cấp các tính năng như tối ưu hóa băng thông, cơ chế lưu trữ đa cấp,
cơ chế lưu trữ đệm, đồng bộ hóa dữ liệu và các cơ chế lưu trữ lớn. HDFS cũng cung
cấp các cơ chế quản lý bảo mật, bảo vệ dữ liệu và các cơ chế phân tán để bảo vệ dữ

60
i Hc Cn Th 2023-2024

liệu trước các cuộc tấn công bên ngoài. Ngoài ra, HDFS cũng cung cấp các cơ chế
để tối ưu hóa và bảo trì hệ thống, bao gồm các cơ chế như tự động phân phối dữ
liệu, cấu trúc dữ liệu và các cơ chế lưu trữ lớn.

HDFS cung cấp các tính năng như sao lưu dữ liệu, phục hồi dữ liệu, xử lý song
song và truy vấn dữ liệu từ xa. HDFS cũng cung cấp các API để cho các ứng dụng
khác truy cập vào xử lý dữ liệu trên HDFS. HDFS cũng cung cấp các cơ chế để
quản lý dữ liệu, bao gồm các cơ chế như tự động phân phối dữ liệu, cấu trúc dữ liệu
và các cơ chế lưu trữ lớn.

 Đọc dữ liệu trên HDFS:

Với khối dữ liệu (block) ID và địa chỉ IP đích máy chủ (host) của Datanode, máy
khách (client) có thể liên lạc với các DataNode còn lại để đọc các khối (block) cần
thiết. Quá trình này lặp lại cho đến khi tất cả các khối trong file được đọc và máy
khách đóng luồng đọc file trực tuyến.

61
i Hc Cn Th 2023-2024

 Ghi dữ liệu trên HDFS:


Việc ghi dữ liệu sẽ phức tạp hơn việc đọc dữ liệu đối với hệ thống HDFS. Trong bên
dưới, ban đầu, máy khách gửi yêu cầu đến tạo một file bằng việc sử dụng Hadoop
FileSystem APIs. Một yêu cầu được gửi đến NameNode để tạo tập tin metadata nếu
user có quyền tạo. Thông tin metadata cho tập tin mới đã được tạo; tuy nhiên lúc này
chưa có một block nào liên kết với tập tin này. Một tiến trình trả về kết quả được gửi
lại cho máy khách xác nhận yêu cầu tạo file đã hoàn thành và bắt dầu có thể ghi dữ
liệu. Ở mức API, một đối tượng JAVA là stream sẽ trả về. Dữ liệu của máy khách sẽ
ghi vào luồng này và được chia ra thành các gói, lưu trong queue của bộ nhớ. Một tiến
trình riêng biệt sẽ liên hệ với NameNode để yêu câu một tập DataNode phục vụ cho
việc sao lưu dữ liệu vào các khối (block). Máy khách sẽ tạo ra một kết nối trực tiếp
đến DataNode đầu tiên trong danh sách. DataNode đầu tiên đó sẽ kết nối lần lượt đến
các DataNode khác. Các gói dữ liệu được ghi dần vào các DataNode. Mỗi DataNode
sẽ phản hồi dữ liệu ghi thành công hay không. Quá trình này kết thúc khi toàn bộ các
gói dữ liệu đã được lưu tại các khối (block) của DataNode.

Tuy nhiên, HDFS cũng có một số hạn chế. Vì mỗi tệp dữ liệu được chia thành các
khối dữ liệu và lưu trữ trên các nút khác nhau, việc truy xuất dữ liệu trở nên chậm hơn
so với việc truy xuất dữ trên đĩa cục bộ. Hơn nữa, HDFS không phù hợp cho các tác
vụ yêu cầu truy xuất một phần của tệp dữ liệu, vì việc truy xuất phải được thực hiện
trên toàn bộ khối dữ liệu.

62
i Hc Cn Th 2023-2024

Tóm lại, Hadoop Distributes FileSystem (HDFS) là một hệ thống lưu trữ dữ liệu phân
tán được thiết kế lưu trữ và quản lý các tệp dữ liệu lớn trên các cụm máy tính phân
tán trong một mạng Hadoop. Nó sử dụng kiến trúc Master/Slave, Với các tính năng
như sao lưu dữ liệu, phục hồi dữ liệu, xử lý song song và truy cập dữ liệu từ xa,
HDFS là một phần quan trọng của việc xử lý dữ liệu của Hadoop.

- MapReduce :

MapReduce là một khung làm việc xử lý dữ liệu phân tán được sử dụng để xử lý dữ
liệu lớn trên Hadoop. MapReduce được phát triển bởi Google và sau đó được Apache
Software Foundation phát triển và phát hành dưới dạng một phần của hệ sinh thái
Hadoop.

63
i Hc Cn Th 2023-2024

MapReduce thực hiện xử lý dữ liệu bằng cách phân tách dữ liệu thành các phần nhỏ
hơn và xử lý chúng song song trên các nút máy tính khác nhau trong cùng một mạng
Hadoop. Khung làm việc MapReduce được thiết kế để hoạt động trên các phần dữ
liệu độc lập, do đó, các phần dữ liệu có thể được xử lý độc lập và đồng thời tăng tốc
độ xử lý.

MapReduce bao gồm hai pha chính là pha Map và pha Reduce. Trong pha Map, dữ
liệu được xử lý và phân tích bằng các hàm Map để tạo ra các cặp key-value. Key-
value này sau đó được chuyển đến pha Reduce để được tổng hợp và xử lý tiếp theo.
Trong pha Reduce, các cặp key-value được tổng hợp và xử lý bằng các hàm Reduce
để tạo ra kết quả cuối cùng.

Trong quá trình "Map", các giá trị đầu vào được chia thành các phần nhỏ hơn và
được xử lý song song trên các nút trong cụm máy tính phân tán. Mỗi nút xử lý một
phần nhỏ của dữ liệu đầu vào và tạo ra các cặp key-value. Sau khi các cặp key-value
được tạo ra, chúng được sắp xếp và gom nhóm lại theo khóa và truyền đến các tác vụ
"Reduce".

64
i Hc Cn Th 2023-2024

Trong quá trình "Reduce", các cặp key-value được xử lý để tạo ra kết quả cuối cùng.
Tác vụ "Reduce" sẽ nhận các cặp key-value được gom nhóm theo khóa và xử lý
chúng để tạo ra các kết quả cuối cùng. Kết quả này có thể được lưu trữ lại hoặc
truyền đến các ứng dụng khác để tiếp tục xử lý.

MapReduce có thể xử lý nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh,
âm thanh và video. Nó cũng hỗ trợ các tính năng xử lý lỗi, sao lưu và khôi phục dữ
liệu.

MapReduce là một công nghệ quan trọng trong việc xử lý dữ liệu lớn và được sử
dụng rộng rãi trong nhiều lĩnh vực khác nhau.

MapReduce đã trở thành một phần quan trọng của nền tảng Hadoop và được sử dụng
rộng rãi trong các dự án xử lý dữ liệu lớn và phân tích dữ liệu trên thế giới.

MapReduce cung cấp khả năng mở rộng linh hoạt và độ tin cậy cao, làm cho nó trở
thành một công nghệ không thể thiếu trong các hệ thống xử lý dữ liệu lớn. Nó cho
phép xử lý dữ liệu lớn trên các cụm máy tính phân tán và có thể mở rộng lên đến
hàng nghìn nút. Nó cũng cung cấp tính năng phân tán và song song, giúp tăng tốc độ
xử lý dữ liệu và giảm thời gian xử lý.

Tuy nhiên, MapReduce cũng có một số hạn chế. Việc xử lý dữ liệu trong MapReduce
có thể trở nên chậm nếu dữ liệu không được chia đều giữa các nút trong cụm máy
tính phân tán. Ngoài ra, MapReduce cũng không phù hợp cho các tác vụ xử lý dữ liệu
phức tạp và phân tích thời gian thực.

65
i Hc Cn Th 2023-2024

MapReduce là một kỹ thuật xử lý dữ liệu phân tán được sử dụng trong Hadoop để
phân tích và xử lý các tập dữ liệu lớn. Kỹ thuật này hoạt động bằng cách phân tách
các tác vụ xử lý thành các công việc nhỏ hơn được thực hiện trên các nút trong một
cụm Hadoop. Dưới đây là một số thông tin về MapReduce và cách nó hoạt động
trong Hadoop.

 Các bước của MapReduce

Bước Map: Dữ liệu vào được chia thành các phần nhỏ hơn và được xử lý độc lập trên
từng nút trong cụm Hadoop.

Bước Shuffle: Dữ liệu đầu ra từ bước Map được sắp xếp và gom nhóm để chuẩn bị
cho bước Reduce.

Bước Reduce: Dữ liệu được xử lý lại trên các nút trong cụm Hadoop và kết quả cuối
cùng được trả về.

 Lợi ích của MapReduce:

66
i Hc Cn Th 2023-2024

Có thể xử lý các tập dữ liệu lớn và phức tạp trên nhiều máy chủ trong một cụm.

Đạt được hiệu suất và tốc độ xử lý cao bằng cách phân tách các tác vụ xử lý thành các
công việc nhỏ hơn và thực hiện trên nhiều máy chủ đồng thời.

Đảm bảo tính độc lập và bất biến của các công việc xử lý, do đó giảm thiểu tác động
của lỗi trong quá trình xử lý dữ liệu.

Có thể mở rộng hệ thống để xử lý tập dữ liệu lớn hơn hoặc tăng tốc độ xử lý bằng
cách thêm nhiều máy chủ vào cụm Hadoop.

 Cách sử dụng MapReduce trong Hadoop:

Viết mã Java hoặc các ngôn ngữ lập trình khác để thực hiện các bước MapReduce.

Sử dụng các công cụ và kỹ thuật liên quan đến Hadoop để thiết lập và quản lý một
cụm Hadoop để xử lý dữ liệu.

Sử dụng các công cụ và kỹ thuật phân tích dữ liệu, chẳng hạn như Hive, Pig, Spark, ...
để thực hiện các tác vụ phân tích dữ liệu và truy vấn dữ liệu trên nền tảng Hadoop.

Trong quá trình sử dụng MapReduce, người dùng cần phải nắm được các kiến thức
liên quan đến lập trình và xử lý dữ liệu trên Hadoop, cũng như hiểu rõ về cấu trúc và
hoạt động của một cụm Hadoop. Ngoài ra, cần phải tối ưu hóa các tác vụ MapReduce
để đạt được hiệu suất tốt nhất trong quá trình xử lý dữ liệu. Việc tìm hiểu và áp dụng
MapReduce trong Hadoop sẽ giúp người dùng có thể xử lý các tập dữ liệu lớn và phức
tạp một cách hiệu quả và đáng tin cậy.

Tóm lại, MapReduce là một khung làm việc xử lý dữ liệu phân tán được sử dụng để
xử lý dữ liệu lớn trên Hadoop. Với khả năng xử lý dữ liệu độc lập và song song trên

67
i Hc Cn Th 2023-2024

nhiều máy tính khác nhau, MapReduce là một công nghệ quan trọng trong việc xử lý
dữ liệu lớn và được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau. .

CHƯƠNG 4 : ỨNG DỤNG CỦA BIG DATA VÀO TRONG


LĨNH VỰC CÔNG NGHỆ THÔNG TIN
VÀ MẠNG MÁY TÍNH
1. Cơ sở hạ tầng IT để hỗ trợ Big Data

Cơ sở hạ tầng IT để hỗ trợ Big Data đóng vai trò quan trọng để xử lý và quản lý các
dữ liệu lớn, phức tạp và đa dạng:

- Hệ thống lưu trữ phân tán: Bao gồm các máy chủ và hệ thống lưu trữ được kết
nối với nhau thông qua mạng. Các hệ thống này giúp lưu trữ và quản lý dữ liệu lớn
của Big Data.
- Cụm máy chủ (Cluster): Sử dụng cụm máy chủ làm nơi lưu trữ và xử lý dữ liệu.
Cụm máy chủ cho phép mở rộng và mở rộng khả năng xử lý để đáp ứng yêu cầu
của Big Data.

68
i Hc Cn Th 2023-2024

- Công nghệ ảo hóa (Virtualization): Công nghệ ảo hóa giúp tối ưu hóa sử dụng
tài nguyên máy chủ và hỗ trợ trong việc triển khai các ứng dụng Big Data.
- Mạng lưới (Networking): Hỗ trợ kết nối giữa các thành phần hệ thống, mạng
lưới chất lượng cao giúp truyền tải dữ liệu hiệu quả trong môi trường Big Data.
- Bảo mật và an ninh: Cơ sở hạ tầng Big Data cần có các biện pháp bảo mật và
an ninh để đảm bảo tính toàn vẹn, riêng tư và an toàn của dữ liệu.
- Khả năng mở rộng: Cơ sở hạ tầng IT cần thiết phải có khả năng mở rộng linh
hoạt để đáp ứng nhu cầu gia tăng của dữ liệu Big Data theo thời gian.
2. Các công nghệ đặc biệt dành cho Big Data :
Là hệ sinh thái được xem là phổ biến và có sự liên quan mật thiết với Big data.
Apache Hadoop là dự án phát triển phần mềm mã nguồn mở dành cho máy tính, có
khả năng mở rộng và phân tán.
- Thư viện phần mềm Hadoop - nơi cho phép xử lý khối lượng dữ liệu lớn trên
các nhóm máy tính sử dụng mô hình lập trình đơn giản. Công nghệ này giúp mở
rộng từ một máy chủ sang hàng ngàn máy khác, mỗi máy lưu trữ cục bộ và cung
cấp tính toán. Dự án này bao gồm nhiều phần:
Hadoop Common: Các tiện ích và thư viện phổ biến hỗ trợ các mô đun Hadoop
khác

Hadoop Distributed File System: Cung cấp khả năng truy cập những dữ liệu ứng
dụng cao.

Hadoop YARN: Khuôn mẫu để lên kế hoạch làm việc và quản lý các tài nguyên
cụm.
Hadoop MapReduce: Hệ thống dựa trên YARN nhằm xử lý song song các tập dữ
liệu lớn
- Apache Spark : Apache Spark thuộc một phần trong hệ sinh thái Hadoop, đây là
khuôn mẫu tính toán cụm nguồn mở được sử dụng nhằm xử lý Big data trong
Hadoop. Apache Spark hiện đã trở thành một trong những khuôn mẫu xử lý Big
data phổ biến và quan trọng, có thể được triển khai theo nhiều cách khác nhau.

69
i Hc Cn Th 2023-2024

- Data lakes: Data Lakes là nơi chứa một khối lượng dữ liệu thô cực kỳ lớn ở định
dạng gốc. Sự phát triển của IoT và phong trào chuyển đổi số đã giúp Data lakes
tăng trưởng mạnh mẽ. Công nghệ này được thiết kế giúp người dùng dễ dàng truy
cập vào một lượng lớn dữ liệu bất cứ khi nào họ có nhu cầu.
- NoSQL Databases: Công nghệ này là hệ thống quản lý dữ liệu không yêu cầu
một sơ đồ cố định, được xem là lựa chọn hoàn hảo đối với những dữ liệu lớn, thô
và phi cấu trúc. NoSQL có nghĩa là “không chỉ SQL”, các cơ sở dữ liệu này có thể
xử lý nhiều mô hình dữ liệu khác nhau một cách linh hoạt.
- In-memory databases : In-memory databases (IMDB - Cơ sở dữ liệu trong bộ
nhớ) là hệ thống quản lý cơ sở dữ liệu thường dựa vào Ram thay vì HDD để lưu
trữ dữ liệu. Cơ sở dữ liệu trong đĩa không thể nhanh bằng cơ sở dữ liệu trong bộ
nhớ, do đó, đây là một điểm quan trọng để phân tích Big data và tạo ra các siêu dữ
liệu, kho dữ liệu khổng lồ.
3. Ứng dụng của Big Data vào lĩnh vực Mạng Máy Tính
Big data có thể được áp dụng trong nhiều lĩnh vực của mạng máy tính để cải thiện
quản lý, hiệu suất và an ninh. Dưới đây là một số ứng dụng cụ thể của big data
trong lĩnh vực này:
 Giám sát Mạng: Sử dụng big data để thu thập và phân tích dữ liệu từ các thiết bị
mạng, bao gồm routers, switches, firewalls, và các thiết bị khác. Việc này giúp
nhận biết các vấn đề trong mạng, dự đoán sự cố, và cải thiện hiệu suất.
 An Ninh Mạng: Phân tích dữ liệu lớn từ các log và dữ liệu mạng để phát hiện và
ngăn chặn các mối đe dọa an ninh mạng. Big data có thể giúp xác định các mô
hình không bình thường, nhận biết tấn công, và cung cấp cơ sở để phòng ngừa.
 Quản Lý Tài Nguyên Mạng: Big data có thể được sử dụng để tối ưu hóa việc sử
dụng tài nguyên mạng như băng thông, CPU, hoặc lưu trữ. Phân tích dữ liệu lớn

70
i Hc Cn Th 2023-2024

giúp đưa ra quyết định thông minh về việc cấp phát tài nguyên và tối ưu hóa
mạng.
 Tối Ưu Hóa Cơ Sở Hạ Tầng Mạng: Sử dụng big data để dự đoán nhu cầu và tải
làm việc trên cơ sở hạ tầng mạng. Điều này có thể giúp trong việc mở rộng, nâng
cấp, hoặc tái cấu trúc mạng để đáp ứng yêu cầu người dùng một cách hiệu quả.
 Phân Tích Tập Trung và Tự Động Hóa: Tích hợp dữ liệu từ nhiều nguồn khác
nhau và sử dụng công nghệ big data để tạo ra các báo cáo tổng hợp, đánh giá hiệu
suất, và hỗ trợ quyết định trong việc quản lý mạng.
 Phục Vụ Người Dùng: Phân tích big data có thể giúp hiểu rõ hơn về các mô hình
sử dụng của người dùng và cung cấp dịch vụ mạng phù hợp hơn, dựa trên việc
hiểu rõ hành vi và yêu cầu của họ.
Những ứng dụng này minh họa khả năng của big data trong việc cải thiện quản lý,
hiệu suất và an ninh trong lĩnh vực mạng máy tính, giúp tạo ra môi trường mạng ổn
định và hiệu quả hơn.

4. Trang web và ứng dụng liên quan đến Big Data

Dưới đây là một số trang web và ứng dụng có liên quan đến big data và được sử
dụng trong lĩnh vực mạng máy tính:

 Splunk: https://www.splunk.com/

Splunk là một nền tảng phân tích dựa trên big data chuyên về giám sát và quản lý
dữ liệu log từ hệ thống và ứng dụng mạng. Nó giúp theo dõi, phân tích và bảo mật
mạng máy tính.

 Wireshark: https://www.wireshark.org/

71
i Hc Cn Th 2023-2024

Wireshark là một công cụ phân tích gói tin mạng miễn phí. Nó cho phép bạn kiểm
tra và phân tích dữ liệu truyền qua mạng để tìm hiểu về vấn đề và sự cố trong
mạng máy tính.

 Nagios: https://www.nagios.org/

Nagios là một hệ thống giám sát mạng mã nguồn mở giúp theo dõi và báo cáo về
tình trạng và hiệu suất của các thiết bị và dịch vụ trong mạng.

 Elasticsearch: https://www.elastic.co/

Elasticsearch là một hệ thống tìm kiếm và phân tích dữ liệu mã nguồn mở. Nó có
thể được sử dụng để lưu trữ, tìm kiếm và phân tích log mạng lớn.

 Logstash: https://www.elastic.co/logstash

Logstash là một công cụ thu thập và xử lý dữ liệu log mạng. Nó thường được kết
hợp với Elasticsearch và Kibana để tạo thành "ELK Stack" cho việc quản lý dữ
liệu log.

 PRTG Network Monitor: https://www.paessler.com/prtg

PRTG là một công cụ giám sát mạng cho phép bạn theo dõi và kiểm tra tình trạng
của các thiết bị và dịch vụ trong mạng máy tính.0

 Zabbix: https://www.zabbix.com/

Zabbix là một hệ thống giám sát mạng mã nguồn mở giúp theo dõi hiệu suất và tình
trạng của các phần tử mạng, và cung cấp thông báo về các sự cố.

Nhớ rằng, các công cụ này thường được sử dụng để giám sát, phân tích và quản lý
dữ liệu log và dữ liệu mạng trong môi trường mạng máy tính. Chúng cung cấp các

72
i Hc Cn Th 2023-2024

công cụ mạnh mẽ để phân tích và quản lý dữ liệu lớn trong mạng máy tính và hỗ
trợ trong việc đảm bảo hiệu suất và bảo mật của hệ thống mạng.

III. DEMO ỨNG DỤNG PRTG NETWORK MONITOR


CHƯƠNG 1 : GIỚI THIỆU DEMO
1. Mô tả app PRTG Network Monitor
PRTG Network Monitor là một công cụ giám sát mạng được sử dụng rộng rãi để
theo dõi và quản lý hệ thống mạng. Được phát triển bởi Paessler AG, PRTG
cung cấp các tính năng mạnh mẽ cho việc giám sát mạng, máy chủ, thiết bị, và
ứng dụng trong môi trường IT.

Điểm mạnh của PRTG Network Monitor bao gồm:

 Giám sát Đa dạng: Nó cung cấp khả năng giám sát đa dạng với hơn 200 loại cảm
biến (sensors) khác nhau, từ kiểm tra kết nối mạng, băng thông, tình trạng của

73
i Hc Cn Th 2023-2024

máy chủ đến theo dõi thông số của các thiết bị và ứng dụng.
 Giao diện Dễ sử dụng: Giao diện người dùng thân thiện và dễ sử dụng cho phép
người quản trị mạng dễ dàng cấu hình, theo dõi và quản lý hệ thống mạng.
 Báo cáo và Thông báo: PRTG cung cấp tính năng báo cáo linh hoạt và thông báo
trực tuyến hoặc qua email khi có sự cố xảy ra hoặc khi các chỉ số vượt quá
ngưỡng được xác định.
 Tích hợp và Mở rộng: Có khả năng tích hợp với nhiều loại thiết bị và ứng dụng
khác nhau. Nó cũng hỗ trợ API để mở rộng tính năng hoặc tích hợp với các hệ
thống tự động hóa khác.
 Đa nền tảng: Có khả năng giám sát trên nhiều nền tảng như Windows, Linux,
VMware, và các thiết bị mạng từ nhiều nhà sản xuất khác nhau.

Với khả năng giám sát toàn diện và dễ sử dụng, PRTG Network Monitor đã trở
thành một công cụ quan trọng trong việc duy trì và quản lý hệ thống mạng và
máy chủ trong nhiều tổ chức và doanh nghiệp.

2. Mục tiêu của Demo


Hiểu được cách cài đặt và sử dụng app PRTG Network Monitor để giám sát
mạng , theo dõi và quản lý hệ thống mạng.

3. Cài đặt app PRTG Network Monitor

Bước 1 : Tải app PRTG Network Monitor tại đây

74
i Hc Cn Th 2023-2024

Bước 2: Sau khi download về thì tạo tài khoản. Xong đăng nhập vào hệ thống

75
i Hc Cn Th 2023-2024

Bước 3: Vào trang chủ của hệ thống

Bước 4: Nơi thăm dò các thiết bị vào (Có thể tạo mới để thêm nhóm thiết bị vào):

76
i Hc Cn Th 2023-2024

Bước 5: Kiểm traSSL bảo mật

Bước 6: Giám sát theo bản đồ và bảng điều khiển Dashboard

77
i Hc Cn Th 2023-2024

Trực quan hóa mạng bằng bản đồ thời gian thực với trạng thái thông tin trực tiếp.
Tạo bảng điều khiển với trình thiết kế bản đồ PRTG và tích hợp tất cả các thành
phần mạng của bạn với hơn 300 đối tượng bản đồ khác nhau – từ biểu tượng thiết bị
và trạng thái đến biểu đồ lưu lượng truy cập và top lists. Cá nhân hóa bản đồ của
bạn bằng tùy chỉnh HTML.
Chia sẻ bản đồ chỉ cung cấp URL duy nhất trên bảng điều khiển trong mạng LAN
của công ty hoặc bên ngoài công ty của bạn.

78
i Hc Cn Th 2023-2024

Phầm mềm PRTG Network Monitor

Một giải pháp cho mọi thứ


Xem toàn bộ mạng, hệ thống và ứng dụng của bạn trong một giải pháp toàn diện,
duy nhất.
 Hiệu suất và tính sẵn sàng

 Phần cứng và ứng dụng

 Môi trường ảo, email, web, lưu trữ, máy in, v.v.

 Giám sát nhiều vị trí với một cài đặt duy nhất

- Cấp phép hợp lý và đơn giản


PRTG có cấu trúc cấp phép rõ ràng, đơn giản và giá cả hợp lý cho các mạng
thuộc mọi quy mô.
 Mỗi tính năng được bao gồm trong mỗi giấy phép

 Bao gồm giám sát đa vị trí và cụm chuyển đổi dự phòng

 Mô hình nâng cấp hợp lý – chỉ cần trả chênh lệch giá

- Dễ dàng tùy chỉnh giám sát


Dễ dàng điều chỉnh PRTG Network Monitor theo yêu cầu cá nhân của bạn.

79
i Hc Cn Th 2023-2024

 API tùy chọn và cảm biến tùy chỉnh để tích hợp dễ dàng các thiết bị và ứng dụng
tùy chỉnh
 Tạo bảng điều khiển tùy chỉnh nhiều lớp
 Giao diện web có thể tùy chỉnh, báo cáo, thông báo, v.v.
 Chọn từ nhiều GUI: trình duyệt, ứng dụng PRTG Desktop cho Windows và
macOS hoặc ứng dụng di động cho iOS và Android
- Giám sát thông minh
Sẵn sàng khởi chạy chỉ trong vài phút, không cấu hình phức tạp, rườm rà.
 Thiết lập thông minh và tự động phát hiện để khởi chạy nhanh
 Cảm biến / kiểm tra được xác định trước cho hầu hết các thiết bị phổ biến
 Thông tin và cảnh báo toàn diện & thân thiện với người dùng
 Bảng điều khiển / bản đồ tùy chỉnh cho giám sát cấp cao

80

You might also like