Download as pdf or txt
Download as pdf or txt
You are on page 1of 72

CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM

Số 165/23/5 Thái Hà, Đống Đa, Hà Nội


0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

MỤC LỤC
CAM KẾT BẢO MẬT THÔNG TIN ...................... Error! Bookmark not defined.
MỤC LỤC ................................................................................................................. 1
A. CHỦ ĐỀ XÁC SUẤT VÀ THỐNG KÊ ............................................................ 4
I. Xác suất ........................................................................................................... 4
II. Thống kê ...................................................................................................... 6
1. Biến định lượng / Biến định tính ................................................................. 6
2. Biến phụ thuộc và biến độc lập ................................................................... 7
3. Tổng thể, mẫu .............................................................................................. 7
4. Trung bình (mean), trung vị (median), mode............................................. 8
5. Phương sai, độ lệch chuẩn ........................................................................... 9
6. Hiệp phương sai và tương quan (Covariance and Correlation) .............. 11
7. Phân phối (Distribution) ........................................................................... 13
8. Kiểm định giả thuyết ................................................................................. 14
9. Sai lầm loại I & sai lầm loại lI (Type I & Type II Errors) ....................... 15
10. Khoảng tin cậy........................................................................................ 16
B. PHÂN TÍCH DỮ LIỆU ................................................................................... 18
1. Các loại phân tích dữ liệu:............................................................................ 18
a) Phân tích mô tả (descriptive analysis) ...................................................... 18
b) Phân tích chẩn đoán (Diagnostic Analysis) .............................................. 19
c) Phân tích dự đoán (Predictive Analysis) .................................................. 20
d) Phân tích đề xuất (Prescriptive Analysis) ................................................. 21
2. Các bước phân tích dữ liệu........................................................................... 21
a) Xác định mục tiêu: Đặt câu hỏi................................................................. 21
b) Thu thập dữ liệu: Biết những gì bạn cần. ................................................. 22
c) Làm sạch dữ liệu: Hãy chắc chắn rằng mọi thứ đã sẵn sàng. ................. 22
d) Phân tích dữ liệu: Trả lời các câu hỏi. ...................................................... 24
e) Đưa ra quyết định dựa trên insights ......................................................... 24
C. HỌC MÁY (MACHINE LEARNING) ........................................................... 25
1. Học có giám sát (Supervised learning)......................................................... 26
2. Học không giám sát (Unsupervised learning) .............................................. 28

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

1
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

D. NGHỆ THUẬT KỂ CHUYỆN BẰNG DỮ LIỆU ........................................... 31


1. Data Storytelling: Kể chuyện bằng dữ liệu .................................................. 33
2. Data Storytelling, kỹ năng thiết yếu trong thời đại 4.0 ............................... 35
3. Tại sao Data Storytelling lại quan trọng? .................................................... 35
4. Bốn cấp độ Data Storytelling........................................................................ 36
5. Kỹ năng cốt lõi của nghệ thuật kể chuyện bằng dữ liệu.............................. 36
6. Nghệ thuật kể chuyện bằng dữ liệu là một kỹ năng của một vị trí chuyên
môn nào đó hay là một vị trí chuyên môn riêng biệt? ....................................... 39
7. Các bước kể chuyện từ dữ liệu ..................................................................... 40
8. Những điều cần lưu ý khi kể chuyện bằng dữ liệu ...................................... 42
E. TRỰC QUAN HOÁ DỮ LIỆU ........................................................................ 43
1. Trực quan hoá dữ liệu là gì ? ....................................................................... 43
2. Tầm quan trọng của việc trực quan hoá dữ liệu ......................................... 44
3. Sáu cách trực quan hoá dữ liệu để gây ấn tượng ........................................ 45
4. Tổng quan về biểu đồ.................................................................................... 47
5. Màu sắc trên biểu đồ .................................................................................... 49
6. Những lưu ý khi xây dựng biểu đồ ............................................................... 54
7. Một số công cụ phổ biến cho trực quan hoá dữ liệu .................................... 55
F. DATABASE ..................................................................................................... 57
1. Thông tin, dữ liệu là gì? ................................................................................ 57
2. Database là gì? .............................................................................................. 57
3. Ưu điểm của Database? ................................................................................ 58
4. Hệ quản trị cơ sở dữ liệu là gì? .................................................................... 58
5. Cơ sở dữ liệu quan hệ là gì? ......................................................................... 59
6. Database được phân loại như thế nào? ........................................................ 59
7. Vai trò và tầm quan trọng của database...................................................... 60
8. Tại sao cần sử dụng hệ thống database........................................................ 61
9. Các hệ quản trị database phổ biến hiện nay................................................ 63
10. Các đối tượng sử dụng cơ sở dữ liệu......................................................... 63
11. Các ngôn ngữ giao tiếp cơ sở dữ liệu ........................................................ 64
12. Các mô hình dữ liệu................................................................................... 65

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

2
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

13. Các loại hình dữ liệu .................................................................................. 68


TÀI LIỆU THAM KHẢO ...................................................................................... 71

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

3
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

A. CHỦ ĐỀ XÁC SUẤT VÀ THỐNG KÊ


I. Xác suất

a) Định nghĩa
Xác suất là khả năng một sự kiện xảy ra. Xác suất được tính bằng tỷ lệ số kết
quả chúng ta mong muốn xảy ra và tổng tất cả các kết quả có thể xảy ra.

Xác suất nằm trong khoảng từ 0 đến 1. Xác suất bằng 0 tức là kết quả đó không
thể xảy ra và bằng 1 là kết quả đó chắc chắc xảy ra.

Kí hiệu:
𝑛(𝐴)
𝑃(𝐴) =
𝑁

P(A): Xác suất xảy ra sự kiện(biến cố) A


n(A): Số lần mà biến cố A xảy ra
N: Tổng tất cả các khả năng có thể xảy ra
Ví dụ:
1
Xác suất để tung được mặt 1 (hoặc bất kỳ) của một con xúc xắc 6 mặt là .
6
Giả sử một tháng có 4 tuần với 8 ngày trong tuần. Chọn ngẫu nhiên một ngày. Xác
8
suất của ngày được chọn là một ngày cuối tuần là
28

b) Monty Hall Problem

Bạn là thí sinh trong một gameshow. Bạn có cơ hội lựa chọn một trong ba cánh
cửa khác nhau. Đằng sau một trong những cánh cửa là một chiếc xe mới. Đằng sau hai
cánh cửa còn lại là dê.

Lúc này một trong hai cánh cửa không được chọn và không có ô tô được mở ra.
Người dẫn chương trình cho bạn hai lựa chọn. Một là giữi sự lựa chọn của bạn hoặc
chuyển sang cánh cửa còn. Có vẻ như xác suất lúc này là bất kể bạn chọn gắn bó hay
chuyển đổi, nhưng nó không. Nếu bạn thay đổi, cơ hội chiến thắng của bạn là 2 trong 3
thay vì một phần ba.

Chúng ta hãy xem xét một phiên bản khác của vấn đề này. Bạn có thể chọn 1
trong 100 cửa. Người dẫn chương trình mở 98 cánh cửa không chứa ô tô. Bây giờ, bạn

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

4
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

có thay đổi quyết định không? Hãy nhớ rằng, tỷ lệ mở trúng của bạn vẫn là 1 trên 100
Bởi vì bạn đã chọn cánh cửa đó trong 100 cái và việc mở các cánh khác cửa không thay
đổi tỷ lệ này. Hơn nữa, người dẫn chương trình loại bỏ 98 cánh cửa và cho bạn cánh
cửa tốt nhất trong 99 cái. Một điều lưu ý nữa là người dẫn chương trình chỉ mở cửa với
những con dê phía sau.

Trở lại vấn đề ban đầu của chúng ta, biểu đồ dưới đây sẽ giúp bạn có cái nhìn rõ
ràng hơn về tất cả các kết quả có thể xảy ra.

Tất cả các khả năng có thể xảy ra

Nhìn vào tất cả các kết quả của việc chuyển sang cánh cửa khác (switch), cơ hội
chiến thắng một chiếc xe của bạn là 2 trên 3 và là 1 trên 3 nếu bạn giữ nguyên (stick).
Bằng việc gạt cảm xúc sang một bên và sử dụng xác suất, khả ăng cao bạn có
được cho mình một chiếc xe hoàn toàn mới.

c) Xác suất giao nhau:

Xác suất của hai hoặc nhiều sự kiện độc lập xảy ra cùng nhau

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴, 𝐵)

𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) =
𝑃(𝐵)

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

5
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

VD: Có 10 sinh viên. 6 sinh viên được đăng kí vào một lớp sinh học và 5 sinh
viên được đăng kí vào một lớp toán học. Trong đó, có 2 học sinh đăng kí sinh học và
toán học.
Xác suất mà học sinh tham gia lớp Sinh học cho rằng học sinh đang học Toán là
gì?

Sinh học Sinh học Sinh học Sinh học Sinh học &
Toán
Sinh học Sinh học Sinh học Sinh học &
Toán

5
𝑃(𝑇𝑜á𝑛) =
10
2
2
𝑃(𝑆𝑖𝑛ℎ ℎọ𝑐|𝑇𝑜á𝑛) = 10 =
5 5
10

II. Thống kê
Là một nhánh của toán học ứng dụng bao gồm thu thập, mô tả, phân tích và rút
ra kết luận từ dữ liệu

1. Biến định lượng / Biến định tính


Biến định lượng là biến có thể được đo trên thang đo số. Nó thường trả lời các
câu hỏi "Bao nhiêu, bao nhiêu".
Ngược lại, một biến định tính, còn được gọi là biến phân loại, thường trả lời các
câu hỏi "cái gì, tại sao, như thế nào".
Ví dụ:
Chiều cao, cân nặng và điểm thi là các biến định lượng vì chúng được hiển thị
và đo bằng các con số
Màu mắt, thành phố và thương hiệu quần áo là những biến số định tính vì giá trị
của chúng không phải là số.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

6
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

2. Biến phụ thuộc và biến độc lập

Biến phụ thuộc là biến bạn muốn đo lường hoặc kiểm tra hoặc thử nghiệm. Giá
trị của biến phụ thuộc vào các yếu tố khác, và đó là các biến độc lập.
Biến độc lập là biến ảnh hưởng trực tiếp đến biến phụ thuộc và giá trị của nó
không phụ thuộc vào các biến khác
Ví dụ:
Bạn muốn kiểm tra xem những thay đổi trong thời gian học tập và số lượng bạn
bè chung trường đại học mà bạn có ảnh hưởng đến điểm kiểm tra toán hay không.
Điểm kiểm tra là một biến phụ thuộc vì nó là biến bạn cố gắng đo lường.
Thời gian dành cho việc học và số lượng bạn bè là những biến số độc lập. Bạn sẽ
thay đổi 2 biến này để xem những thay đổi ảnh hưởng thế nào đến điểm kiểm tra.

3. Tổng thể, mẫu

a) Khái niệm
Tổng thể là một tập hợp đầy đủ các yếu tố, mục hoặc đối tượng với một đặc điểm
chung mà bạn muốn tìm hiểu.
Mẫu là một phần của tổng thể, đó thường sẽ là một đại diện của tổng thể.
Trong thực tế, sẽ rất tốn thời gian, tiền bạc hoặc đôi khi không thể khi chúng ta
muốn tính trên tổng thể. Ví dụ dưới đây sẽ giúp bạn hiểu tại sao trong hầu hết trường
hợp, chúng ta sẽ thường làm việc với mẫu

Ví dụ
Bạn muốn tính toán sự khác biệt trung bình giữa chiều cao của học sinh nam và
nữ tại trường của bạn. Để làm điều đó, bạn phải đo lường tất cả mọi người ở trường, đó
là tổng thể. Và rõ ràng, sẽ mất vài tuần, thậm chí vài tháng để hoàn thành nhiệm vụ,
chưa kể đến việc không phải ai cũng vui vẻ cho phép bạn đo. Trong trường hợp này,
bạn có một lựa chọn khác. Bạn thu thập dữ liệu từ một mẫu, có nghĩa là chọn ngẫu nhiên
một nhóm sinh viên và bắt đầu đo lường và tính toán sự khác biệt chiều cao của họ. Bây
giờ bạn sẽ sử dụng kết quả của nhóm đó để kết luận về toàn bộ trường học.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

7
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Từ ví dụ, chúng ta có thể thấy rằng lấy mẫu có một số lợi ích:
1. Tiết kiệm thời gian: Đôi khi không đơn giản để tiến hành nghiên cứu trên
toàn bộ tổng thể do quy mô và khả năng tiếp cận của nó
2. Hiệu quả tài nguyên: Lấy mẫu có thể tiết kiệm hàng tấn tiền khi có ít người
tham gia và thiết bị hơn
3. Tiết kiệm lưu trữ: Lưu trữ và phân tích một bộ dữ liệu nhỏ hơn nên nhanh
hơn và đơn giản hơn

Hạn chế:
Thiên lệch khi lấy mẫu (biased): xảy ra khi một số giá trị trong tổng thể có nhiều
cơ hội được chọn hơn những giá trị khác. Ví dụ, nếu bạn chỉ đo chiều cao của những
sinh viên sẵn sàng vui lòng cho bạn đo, như vậy thì bạn đã bỏ qua những người không
muốn đăng ký. Vì vậy, mẫu của bạn rất có thể có những người tự tin vào chiều cao của
họ và khả năng cao họ là những người cao, mặc dù mục đích ban đầu của bạn là tiến
hành nghiên cứu về tất cả mọi người trong trường.

4. Trung bình (mean), trung vị (median), mode

a) Định nghĩa
Trung bình (mean) bằng tổng của các giá trị chia cho số lượng giá trị. Nghe có
vẻ giống trung bình với tiếng anh là average, phải không? Mean và average có cùng ý
nghĩa, nhưng trong thống kê, chúng ta sử dụng các từ khác nhau vì có nhiều loại trung
bình (mean) khác nhau.

Kí hiệu:

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

8
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Trung bình tổng thể: 𝜇


Trung bình mẫu: 𝑥

Mode chỉ đơn giản là giá trị phổ biến nhất trong một tập hợp hay đơn giản là giá
trị xuất hiện nhiều nhất.

Trung vị (median) là giá trị nằm giữa trong một tập hợp đã được sắp xếp. Để tính
trung vị, hãy sắp xếp dữ liệu theo thứ tự tăng dần và tìm giá trị trung tâm.

Ví dụ:
Ta có dãy số như sau:

𝑆𝑢𝑚 𝑜𝑓 𝑣𝑎𝑙𝑢𝑒𝑠 2+3+1+2+4+5


Trung bình = =
𝑎𝑚𝑜𝑢𝑛𝑡 𝑜𝑓 𝑛𝑢𝑚𝑏𝑒𝑟𝑠 6

Mode = giá trị xuất hiện nhiều nhất = 2


Để tìm trung vị, ta xếp từ nhỏ đến lớn như sau

Khi dataset có số lượng phần tử là số chẵn, chúng ta lấy trung bình của 2 số ở
giữa
2+3
Median = = 2.5
2

5. Phương sai, độ lệch chuẩn

Phương sai đo lường khoảng cách các điểm dữ liệu với trung bình của tập dữ
liệu. Phương sai được tính bằng cách lấy trung bình của bình phương khoảng cách từ
điểm dữ liệu đến trung bình. Độ lệch chuẩn là căn bậc hai của phương sai.

Phương sai của tổng thể


2
∑𝑁
𝑖=1 (𝑋𝑖 − 𝜇)2
𝜎 =
𝑁
Độ lệch chuẩn của mẫu

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

9
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

∑𝑁 (𝑋𝑖 −𝜇)2
𝜎=√ 𝑖=1
𝑁
Phương sai của mẫu
2
∑𝑁
𝑖=1 (𝑥𝑖 − 𝑥)2
𝑆 =
𝑛−1
Độ lệch chuẩn của mẫu
∑𝑁
𝑖=1 (𝑥𝑖 − 𝑥)2
𝑆 = √
𝑛−1

𝜇: trung bình tổng thể


N: Số lượng quan sát trong tổng thể
X: giá trị của từng quan sát trong tổng thể
𝑥: Trung bình mẫu
n: Số lượng quan sát trong mẫu
𝑥 : các giá trị riêng lẻ trong mẫu

Giả sử một mẫu có 4 người với chiều cao tương ứng là 165, 170, 160 và 155
Assume that a sample has 4 people with their heights respectively are 165, 170,
160, and 155. Chúng ta sẽ tìm phương sai và độ lệch chuẩn.

Đầu tiên, tính trung bình:


165 + 170 + 160 +155
𝑥= = 162.5
4

Phương sai và độ lệch chuẩn:


∑𝑁 (𝑥𝑖 −𝑥)2 (165−162.5)2 + (170 −162.5)2 + (160 −162.5)2 + (155−162.5)2
𝑆2 = 𝑖=1
= = 41.67
𝑛−1 4−1

𝑆 = √𝑆 2= 6.45

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

10
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

6. Hiệp phương sai và tương quan (Covariance and Correlation)

Hiệp phương sai và tương quan đều đo lường mối quan hệ và sự phụ thuộc giữa
hai biến. Hiệp phương sai cho biết hướng của mối quan hệ trong khi mối tương quan
cho chúng ta biết cả mức độ và hướng.

Hiệp phương sai của tổng thể:


∑𝑁
𝑖=1 (𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
Cov(x, y) =
𝑁

Hiệp phương sai mẫu:


∑𝑁
𝑖=1 (𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
Cov(x, y) =
𝑁−1

Tương quan:
𝐶𝑜𝑣(𝑥,𝑦)
Cor(x, y) =
𝜎𝑥 𝜎𝑦

𝑥𝑖 = giá trị của x


𝑦𝑖 = giá trị của y
𝑥 = trung bình của x
𝑦 = trung bình của y

𝑁 = số lượng quan sát


𝜎𝑥 = độ lệch chuẩn của x
𝜎𝑦 = độ lệch chuẩn của y..

Tương quan lấy giá trị giữa -1 và 1. Dấu cho thấy hướng của mối quan hệ trong
khi. Giá trị gần với -1 hoặc 1 cho thấy mức độ.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

11
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

12
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Khi chúng ta có nhiều biến, bản đồ nhiệt được sử dụng để xem các mối tương quan.

7. Phân phối (Distribution)

Phân phối trong thống kê là một hàm cho biết xác suất của các kết quả khác nhau
cho một biến. Ngoài ra, phân phối có thể được giải thích đơn giản rằng đó là một mô
hình mà các giá trị dữ liệu sẽ tuân theo. .

Phân phối được biết đến nhiều nhất nhất là phân phối chuẩn (normal distribution)
vì hầu hết các loại biến trong tự nhiên thường là phân phối chuẩn

Phân phối chuẩn, còn được gọi là Phân phố Gaussian hoặc Đường cong Chuông,
là một phân bố xác suất có:
Trung bình = Trung bình = Mode
Đối xứng với trung bình

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

13
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Ví dụ về những biến có phân phối chuẩn: chiều cao, huyết áp, cân nặng khi sinh

Standard normal distribution là phân phối chuẩn với giá trị của trung bình bằng
0 và độ lệch chuẩn bằng 1

8. Kiểm định giả thuyết

Giả thuyết trong thống kê là một khẳng định hoặc một kết luận mà chúng ta muốn
kiểm tra hoặc điều tra. Kiểm định giả thuyết về cơ bản là kiểm tra xem kết luận của một
thử nghiệm có xảy ra một cách ngẫu nhiên hay không. Nếu kết luận của bạn chỉ là kết
quả của một sự trùng hợp ngẫu nhiên, thì nó sẽ không có nhiều ý nghĩa.

Giả thuyết không và giả thuyết thay thế (Null hypothesis and alternative
hypothesis)
Giả thuyết không (𝐻0 ) thường giả định rằng không có mối quan hệ giữa các biến
được chọn hoặc mối quan hệ đó xảy ra là do ngẫu nhiên. Giả thuyết không là giả thuyết
trái ngược với giả thuyết thay thế.

Giả thuyết thay thế (𝐻1 ) là kết luận bạn muốn xem xét.

Có hai kết quả có thể xảy ra từ kiểm định giả thuyết:


Bác bỏ giả thuyết không và chưa bác bỏ giả thuyết không. Lưu ý rằng chúng ta sẽ không
nói là chấp nhận giả thuyết không bởi vì một cái gì đó không thể được chứng minh là
nó sai thì không có nghĩa là nó đúng, và ngược lại.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

14
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Chúng tôi đang đi qua các bước Kiểm định giả thuyết với một ví dụ dưới đây.
Một giảng viên nghĩ rằng nếu sinh viên đi học nhiều hơn 4 ngày một tuần thì
điểm trung bình của họ sẽ cao hơn. Điểm trung bình hiện nay là 2,7.

Bước 1: Tìm ra các giả thuyết.


Chúng ta muốn tìm hiểu về giả thuyết "Điểm trung bình lớn hơn 2,7" vì vậy đó
là giả thuyết thay thế của chúng tôi.
Giả thuyết không (𝐻0 ): 𝜇 ≤ 2.7
Giả thuyết thay thế (𝐻1 ): 𝜇 > 2.7

Bước 2: Tìm miền bác bỏ.


Mức ý nghĩa hoặc mức alpha, thường là 0,05. Với mức ý nghĩa, chúng ta sẽ tìm
được mình bác bỏ từ bảng thống kê. Ví dụ, đó là 1,645 z-score với alpha = 0,05.

Bước 3: Giá trị tới hạn.


Sử dụng công thức tương ứng với các loại thống kê Z-test, t-test,...
Ví dụ: t-test:
𝑥 − 𝜇
𝑡=
𝑠/√𝑛
Ngoài ra còn có một cách tiếp cận khác trong bước này được gọi là p-value

Bước 4: Kết luận và giải thích kết quả


Nếu như giá trị của tham số thống kê rơi vào miền bác bỏ, chúng ta kết luận rằng
mức alpha = 0,05, bác bỏ giả thuyết null. Nhưng nếu giá trị của tham số thống kê không
rơi vào miền bác bỏ, chúng ta kết luận rằng không có đủ lập luận để bác bỏ giả thuyết
không.

9. Sai lầm loại I & sai lầm loại lI (Type I & Type II Errors)

Sai lầm loại I, còn được gọi là dương tính giả (false positive), xảy ra khi bạn
cho rằng một kết luận là sai trong khi đó là đúng. Trong kiểm định giả thuyết, điều đó
có nghĩa là bạn kết luận kết quả có ý nghĩa thống kê (có nghĩa là nó đã không xảy ra
một cách ngẫu nhiên) nhưng thực sự không phải vậy.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

15
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Sai lầm loại lI, còn được gọi là âm tính giả (false negative), xảy ra khi bạn cho
rằng một kết luận là đúng trong khi đó là sai. Trong kiểm định giả thuyết, điều đó có
nghĩa là bạn kết luận kết quả không có ý nghĩa thống kê (có nghĩa là nó đã xảy ra một
cách ngẫu nhiên) nhưng thực sự không phải vậy.

Ví dụ:
Bạn có các triệu chứng của COVID 19. Bạn quyết định làm xét nghiệm nhanh:
Lỗi loại I (false positive): kết quả xét nghiệm cho biết dương tính, nhưng bạn
thực sự không mắc COVID.
Lỗi loại II (false negative): kết quả xét nghiệm cho biết âm tính, nhưng bạn thực
sự bị NHIỄM COVID.

Actual: Positive Actual: Negative

Predicted: Positive True Positive Type I error/False


Positive

Predicted: Negative Type II error/False True Negative


Negative

Confusion Matrix
Lỗi loại I & II cũng là khái niệm quan trọng trong học máy. Đó là những sai lầm
trong phân loại. Bảng trên là một ma trận nhầm lẫn (Confusion Matrix) được sử dụng
để đo lường hiệu suất của các mô hình học máy khi phân loại.

10. Khoảng tin cậy

Khoảng tin cậy (CI) là một khoảng mà giá trị tổng thể có thể rơi vào.
Khoảng tin cậy có các công thức khác nhau để tính trung bình và tỷ lệ. Nó cũng
có các công thức khác nhau cho hai loại đó khi chúng ta biết hoặc không biết độ lệch
chuẩn của tổng thể.

Nhưng nhìn chung thì:


CI = ước lượng điểm ± Biên độ sai số

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

16
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Ví dụ, chúng tôi muốn ước tính trung bình của tổng thể 𝜇
Giá trị thấp hơn của CI < trung bình của tổng thể < Giá trị trên của CI

Một khoảng tin cậy với mức độ tin cậy là 95%, bạn tự tin rằng 95 trong số 100
lần kết quả bạn cần tính sẽ nằm giữa các giá trị trên và dưới được xác định bởi khoảng
tin cậy.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

17
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

B. PHÂN TÍCH DỮ LIỆU


Phân tích dữ liệu là một quá trình thu thập, chuyển đổi và phân tích để trích xuất
thông tin có nghĩa (insights) để đưa ra quyết định.
1. Các loại phân tích dữ liệu:

a) Phân tích mô tả (descriptive analysis)

Là một kỹ thuật thống kê để mô tả hoặc tóm tắt các biến trong bộ dữ liệu. Nó
cung cấp cho bạn một số thông tin chung về dữ liệu của bạn bao gồm
Trung bình, chế độ, trung vị, phương sai, độ lệch chuẩn, độ lệch chuẩn,...
Có thể trực quan hóa, lọc, tổng hợp thông tin để tìm ra thông tin chi tiết.
Phân tích mô tả trả lời "Điều gì đã xảy ra?" và không đưa ra bất kỳ dự đoán nào
về tương lai. Nó chỉ tạo ra thông tin chi tiết từ dữ liệu hiện tại.

Ví dụ chúng ta có một bộ dữ liệu với ba biến với các giá trị:

date series 1 series 2

2022/05/01 15 15

2022/05/02 25 20

2022/05/03 21 21

2022/05/04 20 27

2022/05/05 40 0

2022/05/06 15 30

2022/05/07 20 20

2022/05/08 15 14

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

18
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Chúng tôi tóm tắt thống kê các biếni để nắm bắt thông tin chung của bộ dữ liệu:

series 1 series 2

Count 8 8

Mean 21.375 18.375

Mode 15 20

Median 20 20

Std 8.331309278 9.179752564

Max 40 30

Min 15 0

Biểu đồ sẽ giúp bạn thấy xu hướng hoặc sự bất thường

b) Phân tích chẩn đoán (Diagnostic Analysis)


Phân tích chẩn đoán có xu hướng trả lời "Tại sao nó xảy ra?" Nó tìm thấy nguyên
nhân của các bất thường hoặc xu hướng đã được tìm thấy trong bộ dữ liệu. Ngoài ra để
tìm ra nguyên nhân gốc rễ, có thể cần các nguồn dữ liệu bên ngoài.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

19
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Phân tích chẩn đoán có thể được sử dụng khi bạn thấy chi phí tăng đột ngột,
tương tác của người dùng giảm,...

Ví dụ: bạn đang phát triển một trò chơi trên nhiều nền tảng. Từ dashboard, bạn
có thể thấy số lần gỡ cài đặt tăng lên trong tuần này trên nền tảng IOS vì vậy bạn cần
tìm ra nguyên nhân từ đâu.

Có một kỹ thuật chẩn đoán được gọi là phân tích nguyên nhân gốc (RCA). RCA
là một quá trình xác định nguyên nhân gốc rễ của các vấn đề và đề xuất các giải pháp
phù hợp.

Chúng ta sẽ liệt kê ra những các nguyên nhân xem cái nào là nguyên nhân gốc
rễ. Trong quá trình gỡ cài đặt, người dùng phải nêu lý do của họ theo hình thức trắc
nghiệm. Từ đó, bạn biết lý do trực tiếp gây ra vấn đề của bạn và khắc phục nó ngay lập
tức. Nhưng bạn nên đi sâu hơn để điều tra những gì đã xảy ra. Hãy tự hỏi mình "Tại sao
nó lại xảy ra?" mỗi khi bạn tìm ra nguyên nhân. Làm điều đó ba đến năm lần, rất có thể
bạn có thể tìm thấy nguyên nhân gốc rễ. Một số kỹ thuật có thể hữu ích ở bước này:
▪ Data drilling: Bạn có thể khoan xuống các khu vực và nhân khẩu học cụ thể
▪ Phân tích tương quan: để xem mối quan hệ giữa các biến khác nhau mạnh
mẽ như thế nào
▪ So sánh giữa các khía cạnh khác nhau của vấn đề cũng có thể cung cấp cho
bạn cái nhìn sâu sắc để tìm ra nguyên nhân.

c) Phân tích dự đoán (Predictive Analysis)


Phân tích dự đoán trả lời "Điều gì có thể xảy ra?" Đây là một kỹ thuật dự đoán
kết quả trong tương lai bằng cách sử dụng mô hình và dữ liệu trong quá khứ. Cách phân
tích có thể được tiến hành thủ công hoặc sử dụng các mô hình dự đoán.

Giả sử bạn đang quản lý một nhà hàng. Bạn hiện đang gặp một vấn đề là đôi khi
có quá nhiều nhân viên phục vụ cùng một lúc và không có đủ công việc cho tất cả mọi
người. Chi phí lao động của bạn cao và nhân viên của bạn có nhiều thời gian rảnh. Điều
này còn được gọi là overstaffing. Nhưng trong lúc khác, nhân viên của bạn bị áp lực với
khối lượng công việc vì thiếu người. Điều này dẫn đến trải nghiệm khách hàng tồi tệ.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

20
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Để khắc phục vấn đề này, bạn quyết định xác định nhu cầu nhân sự vào những
thời điểm cụ thể bằng cách dự đoán số lượng khách. Bạn xem xét một số yếu tố có thể
ảnh hưởng đến số lượng check-in nhà hàng như thời điểm trong một ngày, đó là một
ngày cuối tuần hay không,... Kết hợp với dữ liệu bạn đã có từ quá khứ, bạn có thể thấy
mô hình đó là các mối quan hệ hoặc ảnh hưởng của các yếu tố đó đối với số lượng
khách. Áp dụng nó vào dữ liệu trong tương lai, bạn sẽ đưa ra dự đoán và sẽ có kế hoạch
phù hợp.

d) Phân tích đề xuất (Prescriptive Analysis)


Phân tích đề xuất trả lời "Chúng ta nên làm gì tiếp theo?". Phân tích đề xuất được
đưa ra như để để xác định các giá trị tối ưu trong rất nhiều các kết quả khác nhau. Sự
khác biệt giữa phân tích dự đoán và phân tích đề xuất là phân tích dự đoán sẽ cho biết
những gì có thể xảy ra trong tương lai. Phân tích đề xuất đề xuất các hành động bạn có
thể thực hiện đem lại kết quả tốt nhất.

Tiếp tục với ví dụ trên, giả sử bạn là chủ sở hữu của một nhà hàng và bạn muốn
tối đa hóa lợi nhuận. Phân tích đề xuất có thể giúp bạn điều chỉnh số lượng nhân viên
dựa trên nhiều yếu tố bạn đã liệt kê. Bạn có thể tự hỏi "Mình nên làm gì khi số lượng
khách tối nay tăng 20% so với thời điểm này tuần trước". Những gì bạn làm tiếp theo
phụ thuộc rất nhiều vào mục tiêu của bạn, ví như tối đa hóa lợi nhuận hoặc cải thiện trải
nghiệm của khách hàng.

2. Các bước phân tích dữ liệu


a) Xác định mục tiêu: Đặt câu hỏi.
Trước khi bạn thu thập hoặc phân tích dữ liệu, bạn cần biết kết quả được phân
tích đó có thể giúp bạn giải quyết vấn đề của mình như thế nào. Nếu không, mọi thứ là
vô nghĩa. Hãy dành thời gian để suy nghĩ về vấn đề, chúng ta cần có mục tiêu rõ ràng.
Hơn nữa, một câu hỏi cụ thể, súc tích sẽ đi kèm với các hành động cụ thể. Ngoài ra, bạn
nên hình dung ra được chúng ta sẽ thu được những gì khi sau khi phân tích.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

21
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Các loại phân tích có thể giúp bạn đặt câu hỏi. "Điều gì đã xảy ra?", "Tại sao nó
lại xảy ra?", "Điều gì có thể xảy ra?", "Chúng ta nên làm gì?"

Trong bước này, tư duy logic, kỹ năng mềm và kiến thức kinh doanh (domain
knowledge) là những yếu tố quan mà chúng ta cần có để đặt câu hỏ.

Ví dụ: có sự sụt giảm người dùng đang hoạt động (active user), câu hỏi của bạn
có thể là "Tại sao người dùng đang hoạt động lại giảm mạnh như vậy?". Nhưng câu hỏi
quá chung chung. Một câu hỏi cụ thể hơn có thể là "Yếu tố nào đang có ảnh hưởng xấu
đến trải nghiệm người dùng?" và "Làm thế nào chúng ta có thể tăng sự tương tác của
người dùng trong khi vẫn giảm thiểu được chi phí?"

b) Thu thập dữ liệu: Biết những gì bạn cần.


Sau khi đã biết câu hỏi bạn cần trả lời, bạn cần biết dữ liệu nào sẽ giúp bạn giải
quyết vấn đề. Loại dữ liệu bạn cần có thể là dữ liệu định lượng hoặc định tính.

Bạn nên xem xét các nguồn dữ liệu đã sẵn có hay chưa và xem liệu các nguồn
dữ liệu bên ngoài có cần thiết hay không. Để có được dữ liệu bạn cần, bạn có thể truy
vấn cơ sở dữ liệu, lấy dữ liệu từ các trang web, yêu cầu từ các bộ phận khác hoặc thậm
chí tìm kiếm các nguồn dữ liệu của bên thứ ba.

Mục tiêu quan trọng nhất của việc thu thập dữ liệu là đảm bảo nguồn dữ liệu
đáng tin cậy và có thông tin liên quan để phân tích và quyết định của bạn được chính
xác.

c) Làm sạch dữ liệu: Hãy chắc chắn rằng mọi thứ đã sẵn sàng.
Bây giờ là lúc để tìm lỗi trong dữ liệu, dữ liệu bị thiếu hoặc giá trị ngoại lai
(outliner) và sửa chúng vì dữ liệu thô thường không thể sử dụng để phân tích được.

Có một vài phương pháp để xứ lí dữ liệu bị thiếu và outliners, nhưng có lẽ cách


dễ nhất là loại bỏ chúng ra khỏi tập dữ liệu. Nhưng đôi khi, đó có thể không phải là lựa
chọn tốt nhất vì dữ liệu sau khi loại bỏ các giá trị thiếu có thể sẽ dẫn đến tình trạng thiếu

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

22
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

dữ liệu. Như vậy sẽ rất khó để chúng ta đưa ra một phân tích đáng tin cậy. Do đó, trước
khi loại bỏ, bạn phải xem xét tác động của những yếu tố này đối với bộ dữ liệu.

Ngoại lai là các giá trị nổi bật hoặc khác biệt rất nhiều so với các các giá trị trong
một bộ dữ liệu. Với một công cụ thống kê, bạn có thể dễ dàng phát hiện ra chúng

Một outlier (giá trị ngoại lai) của Boxplot

Các lỗi khác trong bộ dữ liệu có thể là lỗi chính tả, thừa dấu cách, trùng lặp,...
mỗi loại lỗi đòi hỏi một phương pháp cụ thể để khắc phục.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

23
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Làm sạch dữ liệu là một việc quan trọng và chiếm rất nhiều thời gian trong quá
trình phân tích nhưng luôn luôn phải đảm bảo cho dữ liệu nhất quán và đáng tin cậy.

Một số ngôn ngữ lập trình như Python và R với các thư viện sẽ giúp bạn làm
sạch dữ liệu có kich thước lớn.

d) Phân tích dữ liệu: Trả lời các câu hỏi.


Bây giờ bạn sẽ phân tích dữ liệu bạn đã làm sạch .

Bạn sẽ đi qua các kỹ thuật phân tích dữ liệu mà bạn đã lên kế hoạch dựa trên các
câu hỏi ngay từ đầu, để tìm ra ínisghts có ý nghĩa. Loại kỹ thuật bạn sử dụng chủ yếu
phụ thuộc vào mục tiêu của bạn từ ban đầu. Bạn sẽ tìm ra các mối quan hệ hoặc patterns
hay bất cứ điều gì giúp bạn trả lời câu hỏi của mình.

Cùng với các kỹ thuật phân tích, trực quan hóa dữ liệu cũng là một điều bạn nên
quan tâm. Biểu đồ sẽ giúp bạn tìm thấy thông tin chi tiết nhanh hơn. Bạn có thể tự hỏi
những câu hỏi này để giúp mình chọn một biểu đồ:

Đó có phải là một sự so sánh hoặc mối quan hệ giữa các biến?

Nó có giúp bạn nhanh chóng phát hiện các xu hướng, patterns và bất thường
không?

Đó có phải là con số quan trọng (metrics) mà bạn muốn theo dõi?

e) Đưa ra quyết định dựa trên insights


Cuối cùng, những insights bạn đã rút ra từ phân tích và những đồ thị của bạn sẽ
là vô nghĩa nếu bạn không làm gì với chúng.. Dựa trên những phát hiện của bạn, bạn đề
xuất cho các bên liên quan về cách giải quyết các vấn đề kinh doanh và thuyết phục họ
rằng các giải pháp của bạn sẽ giúp họ đưa ra quyết định tốt nhất.

Bạn có thể chia sẻ những phát hiện của mình với một dashboard với biểu đồ và
hình ảnh vì như vậy có thể giúp mọi người hiểu những phân tích một cách dễ dàng. Kể
chuyện bằng dữ liệu (data storytelling) là một cách khá tốt để thuyết phục mọi người

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

24
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

mà bạn nên xem xét, có nghĩa là biến dữ liệu và thông tin chi tiết từ phân tích thành một
câu chuyện

C. HỌC MÁY (MACHINE LEARNING)

Học máy là một tập hợp các công cụ và mô hình dùng để đưa ra dự đoán và suy
luận từ dữ liệu. Nó có thể học hỏi từ dữ liệu quá khứ và có thể được áp dụng cho dữ
liệu mới. Do đó, nó có thể được sử dụng để dự đoán các sự kiện trong tương lai và khám
phá nguyên nhân.

Lưu ý rằng học máy là một lĩnh vực phụ của Trí tuệ nhân tạo

Sử dụng các phương pháp truyền thống để xử lý vấn đề

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

25
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Sử dụng Machine learning để giải quyết vấn

Có ba loại máy học chính. Học có giám sát, học tập không giám sát và học tăng
cường. Trong tài liệu này, chúng ta sẽ tập trung vào hai cái đầu tiên.

1. Học có giám sát (Supervised learning)

Học có giám sát là một cách tiếp cận để tạo ra một mô hình với dữ liệu đầu vào
có dán nhãn, có nghĩa là bộ dữ liệu có đi kèm với đầu ra. Mô hình này sẽ phát hiện
patterns và áp dụng nó vào dữ liệu mới mà không có đầu ra để dự đoán kết quả.

Có hai nhiệm vụ chính trong học tập có giám sát.

1. Phân loại là nhiệm vụ dự đoán các giá trị rời rạc.


2. Hồi quy là nhiệm vụ dự đoán các giá trị liên tục.

Hồi quy tuyến tính

Hồi quy tuyến tính là mô hình học máy đơn giản nhất, mà bạn thậm chí có thể
đã học ở trường trung học cơ sở.

𝑦 = 𝑎𝑥 + 𝑏 (1)

Đây chỉ đơn giản là vẽ một đường thẳng sao cho khoảng cách giữa các điểm dữ
liệu và đường đó là nhỏ nhất. Điều đó có nghĩa là trong phương trình (1), bạn sẽ tìm a
và b với y là giá trị đầu ra mà bạn dự đoán và x là giá trị đầu vào bạn muốn sử dụng để
dự đoán

Ví dụ:

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

26
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Bạn muốn dự đoán điểm thi (y) dựa trên số giờ học trong một tuần(x) tại trường
của bạn. Vì vậy, bạn đi ra ngoài, thu thập thông tin và hình dung dữ liệu.

Nhưng làm thế nào để bạn vẽ một đường thẳng đó, đường thẳng đó chính là mô
hình hồi quy tuyến tính, để phù hợp với dữ liệu một cách tốt nhất? Trong học máy,
"máy" sẽ bắt đầu với một đường thẳng ngẫu nhiên và sau đó nó sẽ có thể sử dụng một
thuật toán tối ưu gọi là Gradient descent và tính toán hàm mất mát là Mean squared
error để cố gắng tìm đường thẳng tốt nhất. Về cơ bản, thuật toán và hàm cho “máy” biết
đường nào sẽ nghiêng như nào và di chuyển theo hướng nào. Thuật toán tối ưu hóa và
hàm mất mát cũng là những khái niệm quan trọng trong học sâu Deep learning.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

27
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Sau khi bạn có mô hình, bạn có thể dự đoán điểm thi dựa trên số giờ học. Ví dụ,
nếu bạn học 12 giờ một tuần, bạn sẽ nhận được điểm 9 trong điểm kiểm tra cuối cùng
của bạn.

2. Học không giám sát (Unsupervised learning)

Học không giám sát là một kỹ thuật học máy cho phép các mô hình tìm thấy các
patterns trên các bộ dữ liệu không được dán nhãn. Vì vậy, đó là lý do tại sao các phương
pháp học máy không giám sát không thể được áp dụng trực tiếp cho regression hoặc
classification bởi vì điều này đòi hỏi một bộ dữ liệu có đầu ra để đào tạo. Mô hình học
không giám sát sẽ khám phá ra sự tương đồng và khác biệt giữa các giá trị trong bộ dữ
liệu. Nó rất hữu ích cho các chiến lược bán chéo và phân khúc khách hàng,...

Phân cụm K-means

Phân cụm K-means là một trong những thuật toán học máy không giám sát đơn
giản và phổ biến nhất.

Phân cụm là nhiệm vụ chia dữ liệu thành một số nhóm. Các điểm dữ liệu trong
cùng một nhóm sẽ có những đặc điểm giống nhau hơn và khác với các điểm ở nhóm
khác.
Một cụm là một nhóm các điểm dữ liệu cần một centroid để đại diện. Vì vậy, khi
chúng ta đưa vào một điểm dữ liệu mới, nó sẽ thuộc về nhóm có centroid gần hơn.

Bạn sẽ xác định một số k centroid hoặc số nhóm bạn cần phân loại.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

28
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Ví dụ: chúng tôi có một bộ dữ liệu khách hàng với các giá trị đã được vẽ dưới
đây

1. Bạn chọn K = 2 và khởi tạo 2 centroid ngẫu nhiên

2. Đối với mỗi điểm dữ liệu, nó sẽ tìm kiếm centroid gần nhất và sẽ thuộc về nhóm
của centroid đó.

3. Đối với mỗi centroid, nó sẽ di chuyển đến điểm trung bình của các điểm thuộc
về centroid đó.

4. Lặp lại bước 2 và 3 cho đến khi vị trí centroid không còn thay đổi.

5. Bạn đã phân loại thành công các điểm dữ liệu và mô hình của bạn đã sẵn sàng
để sử dụng

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

29
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Giả sử bạn có một điểm dữ liệu mới, đó là một ngôi sao trong đồ thị dưới đây.

Sử dụng khoảng cách Euclide, bạn tính khoảng cách giữa điểm mới của bạn và
2 cụm. Trong ví dụ này, nó thuộc về cụm có centroid tam giác.

Bây giờ bạn biết rằng khách hàng mới sẽ thuộc nhóm nào và bạn có thể có những
tư vấn và chính sách phù hợp dựa trên đặc điểm của nhóm đó

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

30
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

D. NGHỆ THUẬT KỂ CHUYỆN BẰNG DỮ LIỆU

Như với bất kỳ câu chuyện nào, một câu chuyện bằng số liệu thì cũng cần phần
mở bài, chuyên viên phân tích (Analytics Professional) hiện nay vẫn đang học hỏi không
ngừng để có thể thành thạo nghệ thuật kể chuyện đỉnh cao này. Đây là kỹ năng của
tương lai để bạn vươn tới cấp bậc cao hơn của Business Analyst (BA) hay Data Analyst
(DA) đó là Analytics Manager (AnM) hay còn được biết tới trong các tập đoàn công
nghệ lớn với chức danh là Chief Analytics Officer (CAO).

Thông thường một dữ liệu (data) sẽ có 3 giai đoạn “tiến hóa” :

▪ Giai đoạn 1: Dữ liệu chỉ ở dạng đơn lẻ mang tính tư liệu tham khảo thông
thường

▪ Giai đoạn 2: Khi dữ liệu ở giai đoạn 1 được tập hợp và kết nối, chúng có thể
mang đến thông tin có ý nghĩa

▪ Giai đoạn 3: Trên cơ sở những thông tin này, chúng ta có thể tìm ra thêm
những insight mới

Vô số tổ chức kinh doanh hiện đang thực hành phân tích dữ liệu không ngừng
nghỉ nhằm chuyển đổi dữ liệu kinh doanh thành các thông tin hỗ trợ ra quyết định và
các kế hoạch đề xuất thực thi. Tuy nhiên, rất nhiều báo cáo và biểu đồ bao gồm Report,
Scorecard, Dashboard đang không truyền tải được thông điệp ẩn chứa quan trọng tới
người xem. Đôi lúc, người xem cảm thấy quá choáng ngợp bởi quá nhiều thông tin được
nén vào chỉ trong 1 trang gồm nhiều biểu đồ, hay nói cách khác đó là trang biểu đồ được
thiết kế quá phức tạp. Trong những tình huống khác, vấn đề lại có thể nằm ở việc trình
bày ngẫu hứng không tuân theo một bộ chuẩn thực hành (best practice) cũng như không
nắm được cách thức dẫn dắt để truyền tải thông điệp muốn nói tới người xem. Về bản
chất, mỗi biểu đồ được tạo ra cần phải được gắn kết một cách rõ ràng với chỉ một thông
điệp cốt lõi và nhiều biểu đồ đặt cạnh nhau phải tạo ra được bối cảnh của câu chuyện
để hỗ trợ cho thông điệp chung của trang biểu đồ đó. Nếu có 2 thông điệp cốt lõi, hãy
tách làm 2 biểu đồ hoặc thậm chí tạo 2 trang biểu đồ để xây dựng bối cảnh tương ứng.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

31
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Nhu cầu sử dụng dữ liệu để tìm ra insight có ích cho business là xu hướng chung của
nhiều doanh nghiệp hiện nay, đặc biệt là ở các startup. Tuy nhiên, sau cả quá trình dài
phân tích và làm việc với cả loạt những con số khô khan, mà các nhân viên lại không
biết cách diễn giải, truyền đạt những thông tin quan trọng tới sếp và đồng nghiệp thì
việc phân tích cũng không còn nhiều ý nghĩa.

Nghệ thuật kể chuyện bằng số liệu (Data Storytelling) là một kỹ năng nổi lên bởi
nhu cầu thực tiễn tại nhiều tổ chức trên toàn cầu và tiến trình phát triển tự nhiên trong
bối cảnh kinh doanh 4.0 và kỷ nguyên dữ liệu lớn (Big Data). Mặc dù chúng ta có thể
nghe được rất nhiều những định nghĩa khác nhau xoay quanh khái niệm Data
Storytelling, chung quy lại, hầu hết các chuyên gia và các tài liệu chính thống từ các
trường đại học uy tín trên toàn cầu đều chỉ ra một điểm chung khi nói đến khái niệm
này. Nghệ thuật kể chuyện bằng số liệu là “Khả năng trình bày, thể hiện, diễn tả, hay
truyền tải dữ liệu theo các cách thức để đạt được mục tiêu sau cùng đó là người xem
phải có thể thấu hiểu và hấp thụ được hoàn toàn chứ không chỉ dừng lại ở mức một con
số hay một loại biểu đồ cụ thể nào.

Tương tự như khi chúng ta nói đến một câu chuyện hay, một câu chuyện kể bằng
số liệu cũng cần phần mở bài, thân bài và kết bài. Câu chuyện này cần được trình bày
một cách khách quan không thiên vị (Decision Bias) trong một bối cảnh phù hợp để
người xem (thường là các cấp quản lý và người ra quyết định) có thể dễ dàng hiểu, hấp
thu, và đưa ra những quyết định sáng suốt hơn từ kết quả của phân tích.

Để bắt đầu phân tích dữ liệu đúng hướng, cần phải xác định: việc phân tích dữ
liệu là công việc mang tính nghiên cứu (research) hay mang tính điều tra (investigation).
Mục đích trọng tâm của Research là việc thấu hiểu một tình huống và miêu tả lại tình
huống đó. Còn Investigation đặt mục tiêu chính ở việc giải quyết vấn đề. Trọng tâm của
Investigation không phải là việc miêu tả lại tình huống (problem description) mà là giải
quyết vấn đề (problem solution).

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

32
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

1. Data Storytelling: Kể chuyện bằng dữ liệu

Data Storytelling là một phương pháp để truyền đạt thông tin, được điều chỉnh
cho phù hợp với một đối tượng cụ thể, với một câu chuyện hấp dẫn. Nhiệm vụ chính
của data storytelling chính là truyền tải từ data đến insight một cách có hiệu quả.

Những dữ liệu độc lập, bản thân nó không hề mang bất kỳ ý nghĩa hay thông tin
nào. Dữ liệu phải được kết nối với dữ liệu thì mới có thể tạo ra được ý nghĩa. Do đó,
phần tinh túy của data storytelling chính là việc móc nối các điểm mấu chốt của dữ liệu
với nhau, tạo nên một câu chuyện tường thuật (narrative) chúng một cách mạch lạc và
minh hoạ bằng hình ảnh (visualize) để dễ hình dung.

3 yếu tố cốt lõi trong cấu trúc của một data story là:

▪ Why: Mục đích và mục tiêu của phân tích data này là gì?
▪ Who & What & How: Nhân vật chính và sự kiện cốt cán của câu chuyện này
là gì?
▪ So What? - Aha Point: Ý tưởng nào sẽ khiến câu chuyện trở nên hấp dẫn,
hứng thú và tạo nên giá trị cho nó?

Mục tiêu: “Tại sao chúng ta phải phân tích dữ liệu này?”

Mục đích: “Những dữ liệu này sẽ truyền tải được điều gì?”

Cách duy nhất để truyền tải câu chuyện một cách hấp dẫn chính là việc xác định
rõ mục tiêu của việc phân tích cùng thông điệp mà nó truyền tải.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

33
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Trọng tâm của Data Story chính là “câu chuyện này là của ai?” Nhà phân tích
phải là người chỉ đường để có thể mang lại kết quả yêu cầu bằng cách lấy nhân vật chính
làm trọng tâm, kết nối câu chuyện của nhân vật chính, nhân vật khác và liên kết nhiều
câu chuyện khác.

Aha Point có thể nói là chứng cứ mang tính quyết định. Cách trình bày/cách kể chuyện
ngoài dự đoán có thể tạo nên điểm nhấn cho toàn bộ câu chuyện.

* Aha Point: khoảnh khắc/ điểm khiến khách hàng/ người dùng nhận ra giá trị
của sản phẩm (khoảnh điểm khiến khán giả của data storytelling ấn tượng với câu
chuyện)

Khi xây dựng câu chuyện dữ liệu, đừng nhầm lẫn giữa Data Stories (Câu chuyện
dữ liệu) và Data Visualization (Trực quan hoá dữ liệu). Dù hai khái niệm này có sự liên
kết nhưng cũng có nhiều khác biệt.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

34
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

2. Data Storytelling, kỹ năng thiết yếu trong thời đại 4.0

Chúng ta đang sống trong thời đại của dữ liệu. Phân tích dữ liệu là yêu cầu bắt
buộc trước khi doanh nghiệp đưa ra các quyết định kinh doanh. Hàng loạt những công
nghệ tinh vi xoay quanh nguồn tài nguyên then chốt này đã ra đời như dữ liệu lớn (big
data), dữ liệu nhỏ (small data), học sâu (deep learning), trí thông minh nhân tạo (AI)…
Tuy nhiên, các phương pháp phân tích dù tinh vi đến đâu thì đầu ra của nó cũng chỉ là
những con số. Và như Daniel Kahneman đã phát biểu: “Con người không ra quyết định
chỉ bởi vì các con số. Họ cần một câu chuyện”. Data Storytelling là chìa khóa để doanh
nghiệp giải quyết bài toán này. Một báo cáo gần đây của LinkedIn cho thấy nhu cầu
tuyển dụng Data Storytellers đang tăng vọt.

3. Tại sao Data Storytelling lại quan trọng?

Thông tin dễ nhớ, dễ hiểu và dễ hình dung hơn: Bộ não của chúng ta hoạt
động mạnh để xử lý hình ảnh nhanh hơn ngôn ngữ. Việc có thể “nhìn thấy” dữ liệu
giúp người nghe, người xem dễ hiểu hơn nhiều. Cùng với bối cảnh và ngôn ngữ kể
chuyện, họ còn có thể ghi nhớ lâu hơn, cảm thấy nội dung được trình bày hấp dẫn,
thuyết phục hơn.

Giúp cho việc đưa ra quyết định dựa trên số liệu nhanh, dễ dàng và chính
xác hơn: Theo nghiên cứu từ các nhà thần kinh học, quyết định của con người dựa vào
cảm xúc chứ không hoàn toàn theo logic nào đó như chúng ta vẫn nghĩ. Khi insight
được tổng hợp thành một câu chuyện lôi cuốn, tự khắc sẽ có một sợi dây gắn kết giữ dữ
liệu và phần cảm xúc của não bộ. Đặc biệt, khi con người tập trung lắng nghe câu
chuyện, chúng ta dễ bị cuốn theo diễn biến, muốn xem điều gì sẽ diễn ra tiếp tục trong
câu chuyện.

Data storytelling là một trong những kỹ năng được săn đón nhiều nhất trong
thời đại số: Chief Economist của Google, trong một cuộc phỏng vấn vào năm 2009
khẳng định rằng một trong những kỹ năng không thể không có trong những thập kỷ sắp

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

35
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

tới là khả năng làm việc với những con số. Không chỉ cần hiểu dữ liệu “nói gì” mà còn
phải làm sao rút ra giá trị thực tế từ nó, sau cùng là trực quan hoá và kể câu chuyện sao
cho thật lôi cuốn và ý nghĩa.

4. Bốn cấp độ Data Storytelling


▪ Cấp độ 0: Khám phá (Explore).
▪ Cấp độ 1: Trình bày (Explain) giúp người nghe Understand.
▪ Cấp độ 2: Khai sáng (Enlightent) giúp người nghe Greater Understand.
▪ Cấp độ 3: Truyền cảm hứng (Inspire) giúp người nghe Action.

Cấp độ đầu tiên là cấp độ khám phá hay gọi là cấp độ 0. Khám phá là hành động
phân tích để tìm ra những điểm thú vị (Insight of data) của dữ liệu. Khám phá sử dụng
tới 80% nguồn lực của 1 dự án nghiên cứu dữ liệu. Thế nhưng, các phương pháp phân
tích dù tinh vi đến đâu cũng vô dụng nếu ta không gửi đúng thông tin đến đúng người
theo đúng định dạng để họ có thể ra quyết định đúng. Thật tiếc là 80% các dự án nghiên
cứu dữ liệu hiện nay đều đang dừng ở mức Khám phá này. Sau khi hoàn thành nghiên
cứu, mọi người khao khát được trình bày tất cả để minh chứng cho công sức họ đã bỏ
ra. Nhưng điều này có thực sự mang lại giá trị? Câu trả lời là không. Để dự án của mình
thực sự có giá trị, cần đạt được 3 cấp độ sau:
✓ Cấp độ trình bày giúp người nghe hiểu dữ liệu.
✓ Cấp độ khai sáng giúp người nghe hiểu thấu dữ liệu.
✓ Cấp độ truyền cảm hứng giúp người nghe hành động sau khi đã hiểu dữ liệu.

5. Kỹ năng cốt lõi của nghệ thuật kể chuyện bằng dữ liệu

Liệu rằng người kể chuyện bằng số liệu có thể được đào tạo bài bản cách thức
để có thể dự đoán trước những câu hỏi tiềm năng từ người nghe liên quan tới một phân
tích nào đó? Khi học bài bản, bạn sẽ học cách để lên kế hoạch trình bày nhắm tới những
nhu cầu của một đối tượng người nghe cụ thể cho dù đó là cấp trên, đồng nghiệp hay là
khách hàng của bạn. Từ việc trình bày, họ sẽ có khả năng tiếp thu đúng thông tin để đưa
ra các sáng kiến mới. Điều này gần như không thể đạt được với những trang biểu đồ

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

36
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

phân tích thông thường khi mà các biểu đồ này chỉ đơn giản là đưa ra cảnh báo đối với
người xem về một biến động cụ thể nào đó mà hoàn toàn không cung cấp thêm các
thông tin cần thiết về ngữ cảnh (ví dụ như một điểm giảm đột biến về doanh số nhưng
không kèm theo các thông tin về bối cảnh sự kiện xảy ra xung quanh giai đoạn đó). Về
mặt bản chất, sẽ rất khó để bản thân một Dashboard nào đó có thể tự giải thích tại sao
điều này đang xảy ra.

Kỹ năng cốt lõi thứ 1: Giao tiếp cùng với bối cảnh

Năm nay, Glassdoor xếp hạng các nhà khoa học dữ liệu (Data Scientist, DS) ở
vị trí thứ 3 trong danh sách các công việc mong ước tại Mỹ, nghĩa là rất nhiều người
muốn tham gia vào mảng này. Tuy nhiên, cho dù bạn có bằng tiến sĩ về thống kê, mô
hình toán học hay bạn là một chuyên gia lập trình sử dụng ngôn ngữ R hay Python, bạn
chỉ mới đáp ứng được 1 phần yêu cầu công việc của một người làm phân tích dữ liệu
chuyên nghiệp. 1 yêu cầu cốt lõi khác của công việc này đó là giao tiếp kết quả phân
tích một cách hiệu quả và hiểu rõ góc nhìn cũng như khả năng của người xem. Trong
thực tế, chúng ta cần phải hiểu rõ rằng, người xem của chúng ta có khi không nghĩ giống
như chúng ta nghĩ khi họ nhìn thấy điều mà chúng ta trình bày hay người xem gần như
không quen thuộc với việc đọc biểu đồ một tí nào. Họ có thể chưa từng ở trong điều
kiện phải ra quyết định bằng cách xem một biểu đồ.

Một sự thật khá phổ biến hiện nay đó là hầu hết những người làm công việc phân
tích dữ liệu thường có kỹ năng làm việc với dữ liệu rất tốt nhưng thiếu kỹ năng kể
chuyện. Nói cách khác, BA, DA hay DS có khả năng thực hiện phân tích khi được yêu
cầu nhưng họ thường không thể giải thích được tại sao họ đang làm cái việc mà họ đang
làm.

Kỹ năng cốt lõi thứ 2: Không để cảm xúc chi phối

Thành thạo nghệ thuật kể chuyện bằng dữ liệu có nghĩa là có khả năng trình bày
thông tin một cách khách quan mà không để cảm xúc chi phối và có khả năng nhận diện
điều gì quan trọng và điều gì không quan trọng để có thể giữ mọi thứ đơn giản. Điều

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

37
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

này đòi hỏi người kể chuyện là một người thẳng thắng để có thể tránh được việc điều
chỉnh dữ liệu chỉ nhằm thỏa mãn người xem.

Nghệ thuật kể chuyện bằng dữ liệu là loại bỏ những thông tin nhiễu và hướng sự
chú ý của mọi người vào các thông tin kinh doanh cốt lõi (key insights). Một phần của
kỹ năng này là xây dựng mạch chuyện để có thể trình bày dữ liệu theo một trật tự phù
hợp trước rồi mới tính tới vấn đề sử dụng loại biểu đồ tương ứng.

Một chuyên gia thực sự về nghệ thuật kể chuyện bằng dữ liệu không chỉ có khả
năng trình bày dữ liệu bằng đúng biểu đồ một cách tinh tế mà còn có khả năng chuyển
tất cả các kết quả phân tích vào trong một bộ các biểu đồ đơn giản cốt lõi mà có thể
truyền tải thông điệp đó một cách trực tiếp và súc tích.

Có lẽ kỹ năng khó thành thạo nhất khi nói về nghệ thuật kể chuyện bằng dữ liệu
là sự thấu cảm. Cụ thể là hiểu rõ người xem muốn đi về đâu, làm gì và các phân tích dữ
liệu nào sẽ cần thiết cho họ để giúp họ đạt được điều đó.

Ví dụ, một giám đốc kinh doanh và một giám đốc công nghệ sẽ thường có hai
góc nhìn hoàn toàn trái ngược nhau. Chính vì thế, khi được chia sẻ cùng một kết quả
phân tích, khả năng cao đó là họ sẽ có những phản ứng khác nhau. Một trong những
khả năng quan trọng nhất mà bất kỳ ai làm công việc phân tích dữ liệu cần phải có chính
là khả năng diễn đạt kết quả theo những góc nhìn khác nhau và cung cấp tài liệu tương
ứng cho từng góc nhìn. Bạn cần chú ý rằng góc nhìn khác nhau không phải là người này
đúng, người kia sai. Hiểu đơn giản nó chỉ là dịch từ ngôn ngữ của người này qua ngôn
ngữ của người khác.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

38
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

6. Nghệ thuật kể chuyện bằng dữ liệu là một kỹ năng của một vị trí
chuyên môn nào đó hay là một vị trí chuyên môn riêng biệt?

Như vậy, chúng ta biết rằng, các BA hay DA hay DS thường thiếu kỹ năng này,
liệu tổ chức có nên tạo ra vị trí chuyên kể chuyện bằng dữ liệu hay nâng cấp kỹ năng
của toàn bộ đội ngũ để mọi cá nhân đều có khả năng đọc hiểu, làm việc và phân tích
với dữ liệu. Thực tế là tổ chức cần tiến hành song song cả 2 việc này và nghệ thuật kể
chuyện bằng dữ liệu là kỹ năng thiết yếu cần có ở mỗi cá nhân trong tổ chức để có thể
đạt được thành công trong “đoạn cuối của quá trình phân tích”. Nói đơn giản là mọi cá
nhân đều có thể tham gia vào thực hiện phân tích dữ liệu và ra quyết định. Có khả năng
làm việc với dữ liệu và kể câu chuyện đúc kết từ dữ liệu đó cũng quan trọng như có khả
năng đọc, viết và nói một cách rõ ràng và súc tích. Đây là kỹ năng cốt lõi áp dụng cho
mọi bộ phận chức năng trong công ty chứ không chỉ là một vị trí nghề nghiệp.

Tương tự như khả năng giao tiếp, một vài vị trí chuyên môn sẽ cần mức độ thành
thạo chuyên sâu hơn, nhưng chắc chắn một điều rằng, bất kỳ ai ở vị trí công việc của
người đó mà luôn cần nhận được báo cáo và phân tích thì chắc chắn sẽ cần phải có khả
năng đọc hiểu và giải thích kết quả phân tích cho một người khác. Ví dụ đơn giản nhất
đó là, nếu bạn là một giám đốc vận hành, bạn luôn nhận được báo cáo và phân tích vận
hành, và bạn chắc chắn sẽ phải báo cáo kết quả cho hội đồng quản trị. Như vậy, bạn vẫn
cần có khả năng đọc hiểu dữ liệu và phân tích. Tương tự cho các vị trí ở các cấp quản
lý thấp hơn và các cấp thực thi.

Tuy nhiên, theo nhận định của nhiều cá nhân làm công việc quản lý bảo mật dữ
liệu doanh nghiệp, họ đồng ý rằng kỹ năng kể chuyện bằng dữ liệu là thực sự cần thiết
cho tổ chức, nhưng họ mong muốn là chỉ có một số vị trí đặc thù thực hiện vai trò này
để đảm bảo việc tổ chức quản lý dữ liệu và báo cáo vẫn được tối ưu. Họ có nhận định
rằng, việc tất cả mọi người (ngoài những BA/DA/DS) học về cách thức làm việc với dữ
liệu tới một mức độ thành thạo cần thiết để có thể tạo ra kết quả khả quan thì rất khó
khăn cho mọi người và đòi hỏi một khoảng thời gian dài cũng như sự huấn luyện đặc
biệt theo cách thức mà mọi người có thể tiếp cận được. Thay vì vậy, nếu tổ chức tuyển

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

39
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

được một cá nhân có nghệ thuật kể chuyện bằng dữ liệu tốt thì sẽ đơn giản và nhanh
hơn rất nhiều.

7. Các bước kể chuyện từ dữ liệu

Bước 1: Xác định câu chuyện

Có thể bắt đầu bằng cách đặt câu hỏi hoặc hình thành giả thuyết, sau đó tổng hợp
và đào sâu vào dữ liệu có liên quan để tìm câu trả lời.

▪ Bạn đang cố gắng giải thích điều gì từ dữ liệu?


▪ Mục tiêu cụ thể cụ thể của bạn khi kể câu chuyện dữ liệu này là gì?
▪ Bạn muốn đề xuất giải pháp gì từ những phân tích này?

Tìm kiếm các mối tương quan: Thấy các dữ liệu có liên quan gì với nhau? Có
điểm dữ liệu bất thường nào giữa chúng không? Những mối tương quan này có thể cung
cấp nền tảng vững chắc cho câu chuyện về sau.

Xác định xu hướng: Có thể nhìn vào dữ liệu và phát hiện ra rằng những ngày
hoặc thời gian nhất định có xu hướng có khối lượng cao hơn hoặc thấp hơn. Việc xác
định các xu hướng mới hoặc đang phát triển trong doanh nghiệp của bạn sẽ giúp doanh
nghiệp hình dung rõ “nước cờ” tiếp theo họ phải đi để chuẩn bị và thích nghi với những
thay đổi đó.

Rút ra so sánh: Việc so sánh dữ liệu với nhau sẽ giúp khám phá ra những mối
tương quan và tại sao lại có mối liên quan như vậy.

Tìm kiếm những điểm khác biệt: Đây là những điểm dữ liệu khác biệt hẳn so
với chuỗi dữ liệu cùng thời gian, có thể phát hiện những điều thú vị khác. Hãy tự đặt
những câu hỏi tại sao, đào sâu vào nguyên nhân vấn đề và xem xét cả những tác động
bên ngoài để đào sâu câu chuyện hơn.

Chú ý đến dữ liệu phản trực giác: Khi bạn đánh giá xu hướng hoặc so sánh dữ
liệu, có bất kỳ kết quả nào mà không mong đợi không? Khi dữ liệu biểu thị kết quả
ngược lại so với suy tính ban đầu, điều đó có nghĩa là gì? ĐIều gì có thể gây ra những

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

40
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

kết quả đó? Nguyên nhân ẩn sau đó đôi khi sẽ giúp câu chuyện có những “plot twist”
hấp dẫn.

Bước 2: Xác định rõ đối tượng

Khi xây dựng câu chuyện, hãy tự đặt ra những câu hỏi:

▪ Ai là người cần nghe câu chuyện này?


▪ Người đọc, người xem đã biết đến câu chuyện kiểu như vậy lần nào trước đó
chưa?
▪ Câu chuyện này liệu có thực sự giúp người nghe giải quyết được vấn đề cốt lõi
mà họ quan tâm và rút ra được bất kỳ insight nào quan trọng?

Độ tuổi, nhân khẩu học, công việc và kiến thức chuyên môn của người xem sẽ
ảnh hưởng đến cách họ hiểu và phản hồi lại câu chuyện. Hãy tùy chỉnh câu chuyện và
cách kể chuyện từ các góc độ khác nhau tuỳ thuộc vào đối tượng tiếp nhận câu chuyện.

Bước 3: Xây dựng câu chuyện chi tiết

Một câu chuyện thu hút không chỉ phải giải thích rõ ràng dữ liệu, mà cần có trình
tự logic hợp lý. Để làm được như vậy, câu chuyện dữ liệu cần bám sát theo những điểm
sau:

▪ Bối cảnh: Tình huống đặt ra ở đây là gì? Tại sao bạn lại phải kể câu chuyện này?
Hãy tìm bằng được một điểm hấp dẫn đặc biệt từ dữ liệu để thu hút và giữ được
sự tương tác nhất định với khán giả.
▪ Nhân vật: Ai sẽ là người tham gia vào câu chuyện này?
▪ Giải pháp: Vấn đề nêu ra ban đầu có thể được giải quyết như thế nào thông qua
câu chuyện này?

Bước 4: Trình bày dữ liệu bằng các bảng biểu, hình ảnh

Hình ảnh là một cách hiệu quả để thu hút khán giả và cải thiện tỷ lệ giữ chân
người xem - đặc biệt là khi khán giả không phải là người có chuyên môn sâu về dữ liệu
hoặc lĩnh vực đang được đề cập trong câu chuyện.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

41
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Nhờ trực quan hoá dữ liệu, thông tin được trình bày một cách đơn giản, ngắn
gọn, dữ liệu quan trọng và các điểm đáng lưu ý được làm nổi bật, dễ dàng theo dõi.

Một số phương thức thường được sử dụng trong trực quan hoá dữ liệu:

▪ Biểu đồ cột (Bar graphs)


▪ Biểu đồ tán xạ (Scatter plot)
▪ Biểu đồ bong bóng (Bubble chart)
▪ Biểu đồ tròn (Pie charts)
▪ Bản đồ nhiệt (Heat map)
▪ Sơ đồ khung (Frame diagram)
▪ …
8. Những điều cần lưu ý khi kể chuyện bằng dữ liệu

Kể chuyện bằng dữ liệu là một phương pháp hữu ích để truyền đạt insights từ
data đúng, đủ và hấp dẫn. Tuy nhiên, nếu không được thực hiện chính xác, câu chuyện
từ dữ liệu lại có tác dụng phụ, khiến các thông tin và kết luận không đầy đủ, sai lệch.
Dưới đây là một số điều không nên làm khi xây dựng câu chuyện dữ liệu và trực quan
hoá dữ liệu:

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

42
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

▪ Không nên chọn các giá trị tùy ý để làm cơ sở cho thang đo và đơn vị cho các
biểu đồ. Giá trị được chọn phải có tính đại diện và giúp người xem thấy được
toàn cảnh vấn đề
▪ Không nên chỉ thể hiện những dữ liệu chứng minh cho luận điểm được đưa ra,
bạn cần cho khán giả thấy bức tranh tổng quát mọi vấn đề
▪ Không nên thay đổi màu sắc, nhãn và quy ước giữa các hình ảnh. Sự không nhất
quán giữa hình ảnh và ngôn ngữ có thể gây nhầm lẫn và khiến khán giả khó theo
dõi và hiểu chính xác dữ liệu.

E. TRỰC QUAN HOÁ DỮ LIỆU

1. Trực quan hoá dữ liệu là gì ?

Trực quan hóa dữ liệu là quá trình giao tiếp và dịch dữ liệu, thông tin trong ngữ
cảnh trực quan, thường sử dụng đồ thị, biểu đồ, thanh hoặc các phương tiện hỗ trợ trực
quan khác. Trực quan hóa dữ liệu cũng sử dụng hình ảnh để truyền đạt các mối quan hệ
giữa các bộ dữ liệu khác nhau.

Trực quan hóa dữ liệu còn được gọi là trực quan hóa thông tin, đồ họa thông tin
và đồ họa thống kê. Đây là một bước trong quá trình khoa học dữ liệu, cho chúng ta biết
sau khi tất cả dữ liệu đã được thu thập, xử lý và mô hình hóa, thông tin phải được trực
quan hóa để người dùng có thể sử dụng nó để đưa ra kết luận.

Ngoài ra, trực quan hóa dữ liệu là một phần của Data Presentation Architecture
(DPA), với mục đích là xác định, tìm, thao tác, định dạng và cung cấp dữ liệu theo cách
tốt nhất có thể.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

43
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

2. Tầm quan trọng của việc trực quan hoá dữ liệu

Thông tin chi tiết trực quan hóa dữ liệu thu được từ dữ liệu cung cấp phương tiện
để mọi người xem và hiểu các mẫu dữ liệu, xu hướng và ngoại lệ. Trực quan hóa dữ
liệu sẽ cụ thể, hình ảnh hóa và trình bày các sự kiện, số liệu một cách rõ ràng, hấp dẫn.

Các lợi ích của trực quan hóa dữ liệu bao gồm:

▪ Cung cấp cho người đọc phương tiện để nhanh chóng tiếp thu thông tin, cải thiện
hiểu biết sâu sắc và đưa ra quyết định nhanh hơn
▪ Cung cấp một phương tiện dễ dàng để phân phối thông tin, mang đến cho người
dùng nhiều cơ hội hơn để chia sẻ những hiểu biết của họ với mọi người tham gia
vào dự án
▪ Tăng cường hiểu biết về các bước mà một tổ chức phải thực hiện để cải thiện
chính mình
▪ Cung cấp khả năng thu hút và duy trì sự quan tâm của khán giả bằng cách cung
cấp cho họ thông tin mà họ có thể hiểu được
▪ Cung cấp cho những người ra quyết định phương tiện để nhanh chóng hành động
theo các phát hiện, mang lại kết quả thành công nhanh hơn và ít sai sót hơn

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

44
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

▪ Loại bỏ nhu cầu phụ thuộc quá mức vào các nhà khoa học dữ liệu vì nó dễ tiếp
cận và dễ hiểu hơn

3. Sáu cách trực quan hoá dữ liệu để gây ấn tượng


1) Thiết lập mục chính

Cần trả lời 3 câu hỏi:

▪ Bạn muốn đạt được điều gì thông qua trực quan hóa dữ liệu?
▪ Đối tượng đọc báo cáo của bạn là ai (sếp, khách hàng hay nhân viên)?
▪ Thông điệp then chốt cần những dữ liệu nào dẫn chứng?

Mục đích là bạn cần giữ cho việc trực quan hóa dữ liệu tập trung vào một mục
tiêu cụ thể thay vì bạn biến nó thành bữa ăn buffet mà không phải bữa ăn gồm những
món chính - phụ đúng GU với người ngồi ăn.

Bạn đã biết câu chuyện của mình cần có nguyên liệu gì, bây giờ bạn sẽ chọn hình
ảnh bổ trợ cho những dữ liệu trên để truyền đạt thông tin đó theo cách liền mạch và dễ
hiểu nhất.

2) Chọn đúng hình ảnh cho trực quan hoá dữ liệu

Thông điệp của câu chuyện khi có mục đích cụ thể thì việc chọn đúng hình ảnh
và nhất quán là việc bạn cần làm để giúp người đọc dễ hiểu hơn. Có 4 loại hình ảnh trực
quan hoá phổ biến là:

▪ Infographics: cung cấp một cái nhìn tổng quan về một chủ đề
▪ Biểu đồ: để so sánh, hiển thị sự thay đổi và thể hiện các mối tương quan
▪ Sơ đồ: vẽ ra quy trình, kết nối các ý tưởng và xác định nguyên nhân gốc rễ
▪ Bản đồ: để hiển thị dữ liệu định vị địa lý
3) Chèn ngữ cảnh vào hình ảnh

Trực quan hóa dữ liệu mà bạn tạo cần hoạt động trong ngữ cảnh của nó. Nó cần
củng cố câu chuyện của bạn và cung cấp ý nghĩa cho dữ liệu bạn trình bày.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

45
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Đây là lý do tại sao bắt buộc phải trực quan hóa dữ liệu của bạn theo ngữ cảnh.
Điều này sẽ làm rõ ràng hơn, cho phép người đọc nhận ra giá trị từ nó và hiểu nó tốt
hơn.
05 cách để chèn ngữ cảnh vào hình ảnh thêm tính thuyết phục:
▪ Cung cấp các phím màu hoặc chú giải đồ thị
▪ Gắn nhãn các trục
▪ Sử dụng chú thích để đánh dấu những điểm quan trọng
▪ Thêm tiêu đề cho bảng dữ liệu
▪ Sử dụng màu sắc một cách hài hoà
4) Kết hợp màu sắc và phông chữ đậm
Sử dụng màu sắc một cách chiến lược có thể giúp:
▪ Nhấn mạnh các điểm
▪ Minh họa sự tiến triển
▪ Phân loại thông tin
▪ Phân biệt giữa các điểm dữ liệu quan trọng
Chọn một màu sắc đồng bộ (với các biến thể gradient) để hiển thị dữ liệu liền
mạch và các màu tương phản khi bạn thực hiện so sánh giữa các số liệu với nhau. Bạn
cũng có thể sử dụng màu đậm để làm nổi bật một số điểm dữ liệu cụ thể.
Tương tự, bạn sử dụng phông chữ đậm để nhấn mạnh văn bản trên hình ảnh trực
quan dễ đọc. Lưu ý nhỏ: Nên dùng tối đa 3 phông chữ trong một hình ảnh vì nếu không
người đọc sẽ mất tập trung khi đọc.
5) Đơn giản hoá cho việc trực quan hoá dữ liệu
Bạn thường dính vào bẫy “cố làm đẹp” hình ảnh trực quan dữ liệu của mình.
Trước khi bạn chèn bất kỳ yếu tố thiết kế nào, hãy tự hỏi xem nó có thêm bất kỳ giá trị
nào không?
Vì vậy, tránh sử dụng quá nhiều màu sắc, phông chữ trang trí, các biểu tượng
không liên quan và bất kỳ yếu tố nào khác có xu hướng khiến người đọc mất tập trung.
Cuối cùng, ý tưởng là làm cho việc trực quan hóa dữ liệu của bạn càng đơn giản và dễ
đọc càng tốt.
6) Tránh bóp méo dữ liệu

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

46
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Trong lúc bạn thiết kế một hình ảnh trực quan dữ liệu, điều quan trọng là đảm
bảo bạn không bóp méo dữ liệu và trình bày sai sự thật.

Từ các loại biểu đồ và kích thước cho đến màu sắc và hình dạng mà bạn sử dụng
- mọi khía cạnh cần được cân nhắc kỹ lưỡng để trình bày dữ liệu của bạn một cách chính
xác.
Ví du: Biểu đồ thanh 3D trên đây làm người đọc khó kết nối hình ảnh với các
giá trị, nó cũng che khuất một số mục dữ liệu theo đúng nghĩa đen.
Một số cách để tránh bóp méo dữ liệu:
▪ Thêm nhãn để có sự rõ ràng
▪ Sàng lọc dữ liệu và giữ cho việc hiển thị dữ liệu đơn giản hoá
▪ Sử dụng trình tạo biểu đồ phù hợp cho dữ liệu
▪ Bắt đầu trục tung ở 0
▪ Không thao tác trục x và trục y
Tuân theo các quy ước về hình ảnh hóa (ví dụ: sử dụng màu sáng cho mật độ nhẹ
hơn và màu tối cho mật độ cao hơn, v.v.)
4. Tổng quan về biểu đồ
Hầu hết các ấn phẩm, đề tài, báo cáo nghiên cứu khoa học hay các tin tức hàng
ngày đều ít nhiều sử dụng biểu đồ để diễn giải thông tin, giúp người đọc dễ hiểu hơn.
Mỗi dạng biểu đồ được sử dụng để biểu diễn thông tin mà nó mang lại. Với các loại dữ
liệu khác nhau thì biểu đồ thể hiện cũng sẽ khác nhau. Một số dạng biểu đồ thường gặp
như: biểu đồ thanh (bar chart), biểu đồ đường (line chart), biểu đồ tròn (pie chart), biểu
đồ bong bóng (bubble chart), biểu đồ đám mây chữ (wordcloud), biểu đồ nhiệt (heat
map), …

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

47
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Tính thẩm mỹ trong biểu đồ


Trong hình trên, có thể thấy bên cạnh kiểu biểu đồ, phần dữ liệu trong mỗi biểu
đồ được biểu diễn qua màu sắc và hình dạng. Wike (2019) đã mô tả những hình ảnh
trực quan hóa dữ liệu này bằng từ Aesthetics (tính thẩm mỹ) trong tài liệu Fundamentals
of Data Visualization (Các nguyên tắc cơ bản về trực quan hóa dữ liệu). Aesthetics mô
tả mọi khía cạnh của một phần tử đồ họa nhất định, thường được sử dụng trong trực
quan hóa dữ liệu nhằm thể hiện vị trí (position), hình dạng (shape), kích thước (size),
màu sắc (color), độ rộng đường (line width), kiểu đường (line type)

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

48
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

5. Màu sắc trên biểu đồ


Theo tài liệu Các nguyên tắc cơ bản về trực quan hóa dữ liệu, có 3 trường hợp
cơ bản khi sử dụng màu sắc cho trực quan dữ liệu là: thể hiện sự phân nhóm dữ liệu
định danh, thể hiện giá trị của dữ liệu và thể hiện sự nổi bật của dữ liệu.
Màu sắc thể hiện sự phân nhóm dữ liệu định danh
Màu sắc theo thang định tính (qualitative color scale) được dùng để thể hiện sự
phân biệt các nhóm rời rạc không có trật tự nội tại, chẳng hạn như các quốc gia khác
nhau hoặc các nhà sản xuất khác nhau của một sản phẩm nhất định. Theo nguyên tắc,
thang đo này là một tập hợp hữu hạn các màu cụ thể được chọn; màu sắc vừa phải thể
hiện rõ sự khác biệt với nhau và vừa đồng thời tương đương nhau; không có một màu
nào phải nổi bật so với các màu khác; các màu không được theo một thứ tự như chuỗi
các màu nhạt dần hay đậm dần

Ví dụ trong dưới cho thấy màu sắc được sử dụng để phân biệt theo khu vực địa
lý về mức tăng trưởng dân số từ năm 2000 đến năm 2010 ở các tiểu bang của Hoa Kỳ.
Màu sắc cho thấy, các bang ở cùng khu vực có mức tăng dân số tương tự nhau. Các
bang ở miền Tây (West) và miền Nam (South) có mức tăng dân số lớn nhất, trong khi
các bang ở miền Trung Tây (Midwest) và Đông Bắc (Northeast) tăng ít hơn nhiều.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

49
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Màu sắc thể hiện giá trị của dữ liệu


Thang màu tuần tự (sequential color scale) được sử dụng để biểu diễn các giá trị
dữ liệu định lượng, chẳng hạn như thu nhập, nhiệt độ hoặc tốc độ,… Thang đo này chứa
một chuỗi các màu theo sắc độ (ví dụ, từ đỏ đậm đến vàng nhạt) hoặc có thể dựa trên
một màu duy nhất cho biết rõ ràng giá trị nào lớn hơn hoặc nhỏ hơn giá trị nào khác và
khoảng cách giữa hai giá trị cụ thể với nhau

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

50
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Biểu diễn các giá trị dữ liệu dưới dạng màu sắc theo thang tuần tự đặc biệt hữu
ích khi sử dụng với dữ liệu địa lý. Trong trường hợp này, ta có thể vẽ bản đồ các vùng
địa lý và tô màu chúng theo các giá trị dữ liệu. Những bản đồ như vậy được gọi là
choropleth. Hình dưới thể hiện phổ màu theo nhiệt độ trung bình tại Việt Nam từ năm
1991-2020. Mặc dù phổ màu chung biến đổi từ xanh dương (-50oC) đến tím (50oC),
nhưng do thuộc vùng khí hậu nhiệt đới nên phổ màu nhiệt độ trung bình tại Việt Nam
chỉ nằm trong khoảng từ cam nhạt đến cam đậm (~20oC - 30oC)

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

51
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Màu sắc thể hiện sự nổi bật của dữ liệu


Màu sắc cũng là một công cụ hữu hiệu để làm nổi bật các yếu tố cụ thể trong dữ
liệu. Một số danh mục hoặc giá trị trong tập dữ liệu mang thông tin chính về nội dung
cần trình bày. Khi đó, cần một màu hoặc một tập hợp các màu làm nổi bật thông tin đó
hơn so với phần dữ liệu còn lại. Hiệu ứng này có thể đạt được với thang màu nhấn
(accent color scale), là những thang màu chứa cả tập hợp các màu dịu và tập hợp các
màu mạnh hơn, tối hơn hoặc bão hòa hơn

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

52
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Khi sử dụng thang màu nhấn, cần chú ý không để các màu cơ bản gây sự chú ý.
Một trong những cách hiệu quả nhất để vừa làm nổi bật thông tin cần gây chú ý, vừa
giúp làm giảm sự tập trung vào các dữ liệu phụ, là loại bỏ tất cả màu khỏi các phần tử
trong hình, ngoại trừ danh mục hoặc điểm dữ liệu cần nổi bật. Hình dưới biểu diễn dữ
liệu cân nặng và chiều cao của các vận động viên theo các môn thể thao phổ biến. Có
thể thấy, vận động viên điền kinh thuộc nhóm lùn và gầy nhất trong số các vận động
viên chuyên nghiệp tham gia các môn thể thao phổ biến.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

53
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

6. Những lưu ý khi xây dựng biểu đồ


Mặc dù không có quy chuẩn đối với việc xây dựng các biểu đồ trực quan, tuy
nhiên, để người xem có thể hiểu rõ thông tin, cần lưu ý đến tính thẩm mỹ, màu sắc, cũng
như thông tin số liệu hiển thị trên các biểu đồ. Theo Wike (2019), có 3 kiểu thiết kế biểu
đồ cần tránh:
▪ Xấu (Ugly): rõ ràng, đủ thông tin nhưng thiếu tính thẩm mỹ
▪ Tệ (Bad): đạt tính thẩm mỹ nhưng nhận thức không đúng, cấu trúc biểu đồ không
rõ ràng, gây khó hiểu cho người xem
▪ Sai (Wrong): đạt tính thẩm mỹ nhưng thiếu thông tin số liệu hoặc sai về mặt
toán học

Hình trên biểu diễn 3 biểu đồ hiển thị 3 giá trị (A = 3, B = 5 và C = 4). Hình a
mặc dù đầy đủ các thông tin nhưng biểu đồ không được đẹp mắt về mặt thẩm mỹ, màu
sắc quá sáng và không hữu ích, lưới nền quá nổi bật và văn bản được hiển thị bằng ba
phông chữ khác nhau với ba kích cỡ khác nhau Hình b mặc dù tốt về mặt thẩm mỹ
nhưng mỗi thanh được hiển thị với tỷ lệ trục y của riêng nó, làm cho con số bị sai lệch,
dễ khiến người xem lầm tưởng ba giá trị gần nhau hơn so với thực tế. Hình c không có
tỷ lệ trục y rõ ràng và không thể xác định chắc chắn các con số được đại diện bởi các
thanh. Hình dưới cho thấy phiên bản phù hợp hơn so với Hình trên, một biểu đồ cơ bản
thể hiện đầy đủ thông tin và tính thẩm mỹ.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

54
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

7. Một số công cụ phổ biến cho trực quan hoá dữ liệu


Hiện nay, để thuận tiện cho người dùng trong việc trực quan dữ liệu phân tích,
các công cụ hầu hết đều đã tối ưu tính năng thiết kế biểu đồ theo hệ trục tọa độ và các
bộ màu mặc định. Người dùng chỉ cần thao tác thêm để biểu đồ hiển thị đầy đủ hơn theo
các nội dung phân tích. Một số công cụ phổ biến cho trực quan hóa dữ liệu hiện nay
như:
▪ Microsoft Excel: một công cụ văn phòng rất phổ biến của Microsoft, có thể quản
lý dữ liệu và trực quan hóa bằng biểu đồ. Tuy nhiên, Excel phù hợp với các phân
tích ngắn và không sử dụng quá nhiều biểu đồ. Việc trực quan hóa dữ liệu thành
các bảng tổng quan (Dashboard) bằng Excel sẽ khó khăn hơn, không được tối ưu
như các phần mềm chuyên dụng khác.
▪ Microsoft Power BI: là một công cụ trực quan dữ liệu nâng cao của Excel Pivot
Table. Công cụ này có thể kết nối với rất nhiều nguồn dữ liệu như: Excel, Google
Analytics, SQL server,… và tổng hợp thành các bảng tổng quan (Dashboard).
Ngoài các biểu đồ mặc định cơ bản cho trước, người dùng cũng có thể tải các
dạng biểu đồ đặc biệt từ PowerBI visuals sử dụng cho các phân tích nâng cao
hơn. Microsoft Power BI có giao diện thân thiện và dễ sử dụng cho người dùng
phổ thông và có thể sử dụng phiên bản miễn phí, hoặc có phí từ 10 USD/tháng.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

55
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

▪ Tableau: một công cụ có những tính năng tương tự như Microsoft Power BI
nhưng không giới hạn phạm vi kết nối các nguồn dữ liệu và có tính năng tối ưu
hơn (khả năng phân tích, xử lý và trực quan mạnh mẽ) đối với các nguồn dữ liệu
lớn. Công cụ này đòi hỏi trình độ người phân tích và xử lý dữ liệu cao hơn và
chi phí sử dụng đến 70 USD/tháng/người dùng. Do đó, Tableau ít được người
dùng phổ thông sử dụng, mà thường là lựa chọn của các doanh nghiệp lớn.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

56
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

F. DATABASE

1. Thông tin, dữ liệu là gì?

Thông tin: Nó là một trong những khái niệm tương đối trừng tượng và được
hiểu là những trao đổi, các thông báo và sự giải thích về những đối tượng nào đó. Nó
thường được thể hiện dưới dạng số, âm thành hoặc chữ viết. Theo cách tổng quát thì
bạn có thể hiểu thông tin là những sự hiểu biết của con người với 1 thực thể nào đó và
nó có thể lưu trữ, thu thập cũng như xử lý được.

Dữ liệu: Là các thông tin của đối tượng (người, vật, một khái niệm, sự việc…)
được lưu trữ trên máy tính. Đây là thông tin đã được đưa ra để đưa vào máy tính. Các
dữ liệu sau khi được tổng hợp lại và tiến hành xử lý cho cho ta thông tin. Thì ở đây, dữ
liệu chính là thông tin đã được mã hóa trong máy tính. Dữ liệu được mô tả dưới nhiều
dạng khác nhau (các ký tự, ký số, hình ảnh, ký hiệu, âm thanh…). Mỗi cách mô tả gắn
với một ngữ nghĩa nào đó.Dữ liệu về đối tượng có thể khác nhau, tùy thuộc vào ngữ
cảnh.

Ví dụ: dữ liệu về đối tượng sinh viên có thể khác nhau tùy vào mục đích quản
lý:

Quản lý điểm: Tên, mã sinh viên, điểm môn 1, điểm môn 2, điểm môn 3. Trong
khi đó quản lý nhân thân: Tên, địa chỉ, ngày sinh, quê quán, lớp

2. Database là gì?

Database thường được mọi người biết đến với tên gọi là cơ sở dữ liệu. Đây là
một tập hợp có tổ chức của các thông tin có cấu trúc hoặc dữ liệu được lưu trữ trong
một hệ thống máy tính. Một cơ sở dữ liệu được kiểm soát bởi hệ thống quản lý có sở
dữ liệu.

Khái niệm cơ sở dữ liệu là gì là còn được định nghĩa là tập hợp những dữ liệu
liên quan với nhau, được kiểm soát qua hệ thống quản lý cơ sở dữ liệu. Database được
xây dựng mới mục đích là quản lý, truy cập, sửa đổi, kiểm soát và tổ chức dữ liệu.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

57
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Nói đến Database thì sẽ liên tưởng đến hệ quản lý dữ liệu ( Database
Management System – DBMS): Nó được xem là một trong những phần mềm được
tương tác với người dùng cuối (bao gồm ứng dụng, chính cơ sở dữ liệu và phân tích dữ
liệu). Phần mềm DBMS đã bao gồm nhiều tiện ích sẽ được cung cấp cho việc quản trị
cơ sở dữ liệu. Thường thì những dữ liệu có liên quan sẽ được gọi với cái tên là “hệ thống
cơ sở dữ liệu”.

Và thông thường, thì thuật ngữ này vẫn được hay sử dụng để nhắc đến DBMS
bất kỳ có liên quan. Bởi vì mối quan hệ này mà thuật ngữ “cơ sở dữ liệu” được sử dụng
thường xuyên để chỉ cả DBMS và cơ sở dữ liệu sử dụng và truy vấn.

3. Ưu điểm của Database?

Đối với một hệ thống CSDL database thì việc để có thể lưu trữ thông tin sao cho
không bị trùng lặp mà còn đảm bảo được tính nhất toán cũng như toàn vẹn là điều rất
dễ dàng. Khi loại bỏ được các trùng lặp sẽ hỗ trợ cho người dùng tiết kiệm được tối đa
thời gian cho việc xử lý dữ liệu sao cho không bị sai sót.

Từ đó, các dữ liệu được lưu trữ trên database sẽ được truy xuất theo nhiều cách
khác nhau hơn theo nhu cầu từ phía người sử dụng. Ngoài ra, CSDL database có khả
năng lưu trữ được nhiều bản ghi, dữ liệu, trường sở hữu các mới quan hệ với nhau cho
nên chúng rất dễ truy cập, cập nhật cũng như quản lý.

4. Hệ quản trị cơ sở dữ liệu là gì?

Hệ quản trị dữ liệu có tên viết tắt là DBMS (Database Management System).
Đây là phần mềm được sử dụng để lưu trữ cơ sở dữ liệu database một cách dễ dàng và
bảo mật cao. DBMS còn giúp đảm bảo được cấu trúc trong cơ sở dữ liệu, hỗ trợ việc
sửa, thêm, xóa dữ liệu.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

58
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Theo wikipedia, khái niệm hệ cơ sở dữ liệu còn được hiểu là phần mềm tương
tác với người dùng cuối, ứng dụng và chính cơ sở dữ liệu phân tích và thu thập. Phần
mềm DBMS sẽ bao gồm các tiện ích cốt lõi được cung cấp để quản trị cơ sở dữ liệu.

Ví dụ: SQL Server, Microsoft Access, Oracle là các hệ quản trị CSDL điển hình
cho mô hình quan hệ. IMS của IBM là hệ quản trị CSDL cho mô hình phân cấp. IDMS
là hệ quản trị CSDL cho mô hình mạng

5. Cơ sở dữ liệu quan hệ là gì?

Cơ sở dữ liệu quan hệ có tên gọi trong tiếng anh là relational database. Là cơ sở


dữ liệu số được xây dựng dựa trên mô hình quan hệ dữ liệu. Một hệ thống phần mềm
được sử dụng để duy trì cơ sở dữ liệu quan hệ thì sẽ được gọi là một hệ quản trị cơ sở
dữ liệu quan hệ. Nhiều hệ thống cơ sở dữ liệu quan hệ sẽ có tùy chọn sử dụng SQL, tiêu
chuẩn để truy vấn và duy trì cơ sở dữ liệu.

6. Database được phân loại như thế nào?

Phân loại database theo mục đích sử dụng

▪ Database dạng file: tập hợp các dữ liệu được lưu trữ dưới dạng file (như *.mdb
Foxpro, *.dbf, ascii…)
▪ Database quan hệ: là các dạng dữ liệu (được gọi là thực thể) lưu trữ trong các
bảng dữ liệu, giữa các thực thể có mối liên hệ với nhau gọi là quan hệ. Các hệ
quản trị cơ sở dữ liệu quan hệ phổ biến hiện có như MS SQL server, Oracle,...
▪ Database hướng đối tượng: là bảng dữ liệu thuần được bổ sung thêm các tính
năng hướng đến đối tượng như lưu trữ hành vi của đối tượng. Trong đó, mỗi
bảng xem như một lớp dữ liệu, một dòng dữ liệu trong bảng là một đối tượng.
Dữ liệu được quản trị bằng các hệ như MS SQL server, Oracle, PostgreSQL…
▪ Database bán cấu trúc: cho phép lưu trữ nhiều loại dữ liệu khác nhau dưới dạng
XML. Các thông tin mô tả dữ liệu, đối tượng được trình bày trong các thẻ tag.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

59
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Phân loại database theo hệ điều hành

▪ Database sử dụng hệ điều hành Linux như MySQL, MariaDB, PostgreSQL…


▪ Database sử dụng hệ điều hành Windows như SQL Server - MSSQL
7. Vai trò và tầm quan trọng của database

Sống trong thời đại kỷ nguyên số, mọi hoạt động của con người đều liên quan
tới công nghệ và Database chiếm một vị trí quan trọng trở thành một cánh tay hỗ trợ
đắc lực cho hoạt động lưu trữ, truy cập và xuất thông tin. Database và quá trình xây
dựng cơ sở dữ liệu đóng vai trò quan trọng với mỗi tổ chức/doanh nghiệp.

Quản trị các CSDL và cung cấp giao diện truy cập để che dấu các đặc tính phức
tạp về mặt cấu trúc tổ chức dữ liệu vật lý Hỗ trợ các ngôn ngữ giao tiếp. Ví dụ: Ngôn
ngữ mô tả, định nghĩa dữ liệu – DDL. Ngôn ngữ thao tác dữ liệu – DML. Ngôn ngữ
truy vấn dữ liệu có cấu trúc – SQL Có cơ chế an toàn, bảo mật cao. Đặc biệt Database
phát huy công dụng hữu ích nhất trong hoạt động kinh doanh của các doanh nghiệp với
vai trò:

▪ Lưu trữ thông tin có hệ thống

Xây dựng cơ sở dữ liệu giúp dữ liệu được lưu trữ một cách có hệ thống
và có tính nhất quán cao. Từ đó, người dùng dễ dàng quản lý, tạo lập, lưu trữ,
tìm kiếm và sử dụng một cách chính xác, nhanh chóng.

▪ Nâng cao tính bảo mật dữ liệu

Với đặc tính này Database có tính ưu việt nhất so với các dữ liệu thông
thường khác. Trong kinh doanh mối nguy hại về việc thông tin dữ liệu bị đánh
cắp sẽ hoàn toàn được xoá đi nhờ sự giúp sức của Database. Đây là vai trò cực
kỳ quan trọng hàng đầu trong công tác lưu trữ dữ liệu và database xứng đáng
nhận “điểm 10” về khả năng giữ an toàn tuyệt đối dữ liệu.

▪ Khả năng truy xuất đồng thời

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

60
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Các người dùng có thể dùng database cùng lúc mà không cần đi qua các
khâu rườm rà mà phức tạp bởi các vấn đề truy xuất khác nhau. Chính vì vậy, bạn
sẽ trở nên thuận lợi hơn khi sử dụng, truy cập cũng như quản lý dữ liệu. Người
sử dụng có thể thay đổi linh hoạt về độ phức tạp cũng như kích cỡ cho một
database.Hình thức lưu trữ của database đa dạng nên bạn có thể lưu trữ dữ liệu
dưới nhiều dạng khác nhau sao cho tiện lợi hơn như: ổ cứng, USB hay đĩa CD.

▪ Thay đổi dung lượng linh hoạt theo nhu cầu sử dụng của người dùng

Có những mục đích sử dụng database chỉ để lưu trữ ít thông tin nên chỉ
cần vài trăm bản ghi nhưng có những trường hợp cần tới database có dung lượng
rất lớn chẳng hạn để quản lý hàng hoá của một hệ thống cửa hàng, siêu thị. Bên
cạnh đó, hình thức lưu trữ thông tin cũng khá đa dạng tạo thuận lợi cho người
dùng chia sẻ thông tin dễ dàng. Database có thể được lưu trong ổ cứng, trong
dung lượng bộ nhớ của USB hay trên đĩa CD.

▪ Quản lý dữ liệu dễ dàng hơn

Database được xây dựng để việc tạo lập, cập nhật và khai thác thông tin
dễ dàng hơn, trong đó quá trình cập nhật dữ liệu diễn ra thường xuyên và không
trùng lặp. Ứng dụng database giúp tối ưu hệ thống, tạo ra các sản phẩm chuyên
nghiệp hơn, dữ liệu được lưu trữ một cách hệ thống và hoạt động quản lý trở nên
đơn giản. Do đó, database ngày càng được sử dụng phổ biến.

8. Tại sao cần sử dụng hệ thống database

Database cho phép người sử dụng nhập, truy cập, tìm kiếm thông tin dữ liệu
nhanh chóng, dễ dàng. Và chắc chắn mỗi chúng ta ai cũng từng là khách hàng sử dụng
dịch vụ trong khách sạn, mua hàng trong cửa hàng quần áo hay bất cứ cửa hàng bán
món đồ nào đều được nhân viên xin thông tin và nhập chúng vào máy tính hoặc nhân
viên dùng máy tính để kiểm tra xem mặt hàng này còn hay hết trong kho, đó chính là
những thao tác thực tế với cơ sở dữ liệu để lưu chúng vào máy tính, tìm kiếm chúng
trên máy tính.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

61
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Trước đây khi công nghệ thông tin chưa phát triển mạnh, thông tin được lưu trên
máy tính dưới dạng tệp tin gây nhiều khó khăn cho người sử dụng khi phải mày mò
thông tin bằng cách mở từng tệp. Nhận ra tính bất tiện này các chuyên gia ngành công
nghệ thông tin đã cho ra đời các phần mềm hệ thống cơ sở dữ liệu khắc phục những hạn
chế mà khi dữ liệu được lưu dưới dạng tập tin mắc phải, đó là:

▪ Giúp thông tin lưu trữ giảm được trùng lặp ở mức thấp nhất, tối thiểu thông tin
cần tìm kiếm
▪ Dữ liệu được truy xuất từ nhiều cách khác nhau, nhiều người khác nhau và từ
nhiều ứng dụng khác nhau
▪ Tăng khả năng chia sẻ thông tin cho người dùng không gặp rào cản về khoảng
cách. Một hệ thống dữ liệu được đặt tại Việt Nam nhưng nếu người dùng tại Mỹ,
Pháp, Đức,... muôn truy cập, đọc tin chỉ cần có mật khẩu
▪ Bảo mật thông tin tối đa nếu không được chia sẻ từ người dùng chính

Bên cạnh đó, hệ thống cơ sở dữ liệu vẫn còn vướng phải một số hạn chế chưa
thể khắc phục:

▪ Có khả năng chia sẻ cao bởi vậy người dùng phải đảm bảo chủ quyền của dữ liệu
▪ Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra
▪ Khi gặp các trục trặc sự cố thì phải đảm bảo vấn đề an toàn dữ liệu, không bị mất
dữ liệu

Nhưng nhìn chung tính hữu ích mà hệ thống cơ sở đem lại cho người dùng không
thể phủ nhận. Nó cung cấp một bộ các tiện ích cho các mục đích có thể cần thiết để
quản trị cơ sở dữ liệu một cách hiệu quả, bao gồm các chức năng cho phép nhập, xuất,
giám sát, phân mảnh và phân tích. Hiện nay có nhiều phần mềm hệ thống cơ sở dữ liệu
được phát triển hỗ trợ tối đa công tác lưu trữ dữ liệu của doanh nghiệp.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

62
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

9. Các hệ quản trị database phổ biến hiện nay

Ngày nay, có nhiều hệ quản trị cơ sở dữ liệu được tạo ra để cải thiện khả năng
xử lý dữ liệu của các phần mềm, ứng dụng, website… Có thể kể đến một số hệ quản trị
database nổi bật hiện có như:

1) MySQL là hệ quản trị cơ sở dữ liệu được ưa chuộng hàng đầu. Hệ sử dụng mã


nguồn mở nên các lập trình viên dễ dàng trong quá trình phát triển web và ứng
dụng. MySQL cho tốc độ truy cập nhanh và tính bảo mật cao.
2) Oracle ra mắt cách đây hơn 50 năm và trở thành một trong những hệ quản trị cơ
sở dữ liệu phổ biến nhất. Hiện nay, ngoài sản phẩm Oracle Database Server,
Oracle tiếp tục phát hành nhiều sản phẩm khác.
3) SQlite được viết bằng ngôn ngữ lập trình C và sử dụng nhiều trong ứng dụng
của hệ điều hành Android. SQlite có ưu điểm là hệ thống cơ sở dữ liệu có quan
hệ nhỏ gọn, hoàn chỉnh và có thể cài đặt trong nhiều ứng dụng nhỏ.
4) Microsoft SQL server là hệ quản trị cơ sở dữ liệu quan hệ được phát triển bởi
Microsoft với mục đích lưu trữ dữ liệu dựa trên chuẩn RDBMS. Bạn được cung
cấp đầy đủ các công cụ từ giao diện GUI cho đến sử dụng ngôn ngữ truy vấn
SQL để quản lý. Nhờ lợi thế từ nhà Microsoft mà MS SQL có thể kết hợp hoàn
hảo với nhiều nền tảng như ASP.NET, C#.

10. Các đối tượng sử dụng cơ sở dữ liệu

Người dùng cuối: Đây là đối tượng cuối cùng sử dụng hệ thống CSDL, đối
tượng này không có kiến thức về quản trị hệ thống, nghĩa là không chuyên về lĩnh vực
này nên họ cần một công cụ giúp quản trị, khai thác dữ liệu khi cần. Thông thường khi
làm dự án thì khách hàng chính là đối tượng người dùng cuối.

Chuyên viên tin học: Chuyên xây dựng các công cụ, ứng dụng nhằm giúp người
dùng cuối sử dụng khai thác cơ sở dữ liệu, đối tượng này ta gọi là Application User.
Nếu bạn muốn sau này bạn sẽ là một coder chuyên xây dựng các ứng dụng website thì
bạn chính là chuyên viên tin học.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

63
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

Quản trị CSDL: Đối tượng này cần có kiến thức chuyên sâu về hệ quản trị cơ
sở dữ liệu, biết ngôn ngữ cấu trúc truy vấn (T-SQL) ở mức rạch ròi. Công việc của đối
tượng này là tổ chức hệ thống CSDL, bảo mật, phân quyền hay cấp quyền cho các đối
tượng khác, backup phục hồi dữ liệu và bảo đảm an toàn dữ liệu. Nếu bạn muốn trở
thành đối tượng này thì bạn phải nghiên cứu sâu các mô hình CSDL, các hệ quản trị
CSDL và cần có kinh nghiệm thực tế rất cao.

Các mức biểu diễn cơ sở dữ liệu:

Mức trong (Mức vật lý - Physical): Ở mức này thông thường ta sẽ trả lời những
câu hỏi ( CSDL cần giải quyết vấn đề gì? dữ liệu là gì? lưu trữ như thế nào? lưu trữ ở
đâu? đánh chỉ mục như thế nào? truy vấn tuần tự hay ngẫu nhiên? ). Với mức này thì
dành cho người chuyên môn về cơ sở dữ liệu (đối tượng quản trị CSDL).

Mức quan niệm (Conception hay Logical): trả lời các câu hỏi cần phải lưu trữ
bao nhiêu loại dữ liệu, kiểu dữ liệu là gì và các mối liên hệ dữ liệu

Mức ngoài: đây là mức cao nhất dành cho người dùng cuối sử dụng và dành cho
các nhà phát triển phần mềm viết các chương trình ứng dụng nhằm quản lý CSDL.

11. Các ngôn ngữ giao tiếp cơ sở dữ liệu

Ngôn ngữ lập trình dựa vào những mã lệnh để giao tiếp với máy, hệ quản trị cơ
sở dữ liệu cũng vậy, sẽ sử dụng những cú pháp mà nó có thể biên dịch được để giao tiếp
xử lý các vấn đề liên quan đến quản lý cơ sở dữ liệu:

▪ Ngôn ngữ mô tả dữ liệu (DDL – Data Definition Language): Cho phép khai báo
cấu trúc CSDL, các mối liên hệ dữ liệu, cấu trúc ràng buộc dữ liệu.
▪ Ngôn ngữ thao tác dữ liệu (DML – Data Manipulation Language): cho phép thực
hiện thao tác thêm, xóa, sửa dữ liệu.
▪ Ngôn ngữ truy vấn có cấu trúc (SQL – Structured Query Language): cho phép
người khai thác sử dụng để truy vấn thông tin cần thiết.
▪ Ngôn ngữ quản lý dữ liệu (DCL – Data Control Language) cho phép thay đổi
cấu trúc bảng, khai báo bảo mật, cấp quyền cho người sử dụng.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

64
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

12. Các mô hình dữ liệu


▪ Mô hình dữ liệu file: Database dạng file: Đây là dữ liệu được lưu trữ dưới dạng
các file. Loại Database dạng file hay được sử dụng nhất đó *.mdb Foxpro, ngoài
ra còn có *.dbf, ascii,…

Customer Company Contact Contact Job Title City State


ID Name First Name Last Name

6 Company Francisco Pérez- Purchasing Milwau WI


F Olaeta Manager kee

26 Company Run Liu Accountin Miami FL


Z g Assistant

▪ Mô hình dữ liệu phân cấp: Tổ chức theo hình cây, mỗi nút biểu diễn một thực
thể dữ liệu. Liên hệ dữ liệu thể hiện trên liên hệ giữa nút cha và nút con. Mỗi nút
cha có thể có một hoặc nhiều nút con, nhưng mỗi nút con chỉ có thể có một nút
cha.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

65
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

▪ Mô hình dữ liệu mạng: Các file riêng biệt trong hệ thống file phẳng được gọi là
các bản ghi . Tập hợp bản ghi cùng kiểu tạo thành một kiểu thực thể dữ liệu. Các
kiểu thực thể kết nối với nhau thông qua mối quan hệ cha-con. Mô hình dữ liệu
mạng biểu diễn bởi một đồ thị có hướng, và các mũi tên chỉ từ kiểu thực thể cha
sang kiểu thực thể con.

▪ Mô hình dữ liệu quan hệ: Chúng là các dữ liệu khác nhau được lưu trữ trong các
bảng dữ liệu nhưng giữa chúng lại có mối liên hệ với nhau. Vì vậy, chúng mới
có tên gọi là “database quan hệ”. Một số hệ quản trị hỗ trợ database quan hệ hiện
rất được ưa chuộng bao gồm: MySQL, MS SQL server, Oracle,…

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

66
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

▪ Mô hình dữ liệu hướng đối tượng: Điểm giống nhau giữa database hướng đối
tượng và database quan hệ chính là chúng đều được lưu trữ trong bảng dữ liệu.
Còn điểm khác biệt các bảng của database hướng đối tượng có thêm các tính
năng hướng đối tượng, ví dụ như lưu trữ thêm 1 số hành vi để thể hiện rõ hơn
hành vi của đối tượng. Nhắc đến tên các hệ quản trị hỗ trợ database hướng đối
tượng, người ta sẽ nhớ ngay đến những cái tên nổi bật như: MS SQL server,
Postgres SQL, Oracle,…

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

67
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

13. Các loại hình dữ liệu


Khi một cuộc hội thoại được chuyển qua phân tích hay nhập vào mô hình dữ liệu
lớn, các thuật ngữ như dữ liệu Có cấu trúc, Bán cấu trúc hoặc Không cấu trúc thường
hay được nhắc đến. Đây là những loại hình dữ liệu quan trọng cần biết trong thời đại
mà dữ liệu Bán cấu trúc và Không cấu trúc đang gia tăng với tốc độ chóng mặt, đồng
thời những công cụ để quản lý và phân tích các loại dữ liệu này cũng đang dần trở nên
phổ biến.
a) Dữ liệu Có cấu trúc
Đây là loại dữ liệu dễ dàng tìm kiếm và sắp xếp nhất, vì nó thường được hàm
chứa trong các cột và hàng, và các thành phần của chúng có thể được liên kết bằng
những trường được định sẵn từ trước. Hãy nghĩ về những dữ liệu bạn có thể lưu trữ
trong một tệp Excel và chúng ta sẽ thấy ngay được ví dụ về dữ liệu có cấu trúc. Dữ liệu
có cấu trúc có thể bám theo một mô hình dữ liệu mà người thiết kế cơ sở dữ liệu (CSDL)
tạo ra — ví dụ như các bản thống kê bán hàng theo vùng miền, xếp theo loại mặt hàng
hoặc theo khách hàng. Đối với dữ liệu có cấu trúc, các hạng mục có thể được nhóm lại

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

68
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

để tạo thành các mối liên hệ với nhau (các ‘khách hàng’ cùng có phản hồi ‘thỏa mãn’
về dịch vụ chẳng hạn). Những điều này sẽ giúp dữ liệu có cấu trúc dễ dàng được lưu
trữ, phân tích, tìm kiếm, và trở thành loại dữ liệu dễ sử dụng nhất cho doanh nghiệp
trong thời gian gần đây. Ngày nay, phần lớn những loại dữ liệu được cho là có cấu trúc
chỉ chiếm ít hơn 20% tổng số dữ liệu thu được.
Thông thường, dữ liệu có cấu trúc được quản lý bằng Ngôn ngữ Truy vấn Có cấu
trúc (Structured Query Language — SQL) — một loại ngôn ngữ lập trình được phát
triển bởi IBM từ những năm 1970 dành cho các CSDL có liên hệ.
Dữ liệu có cấu trúc được tạo ra bởi máy móc và con người. Các ví dụ của dữ
liệu có cấu trúc bao gồm dữ liệu tài chính như các giao dịch, chi tiết địa chỉ, thông
tin nhân khẩu, đánh giá của người dùng, các bản ghi chú của máy, dữ liệu địa điểm
từ các thiết bị thông minh, …
b) Dữ liệu không cấu trúc
Một phần rất lớn của tất cả dữ liệu trên thế giới này là dữ liệu Không cấu trúc.
Loại dữ liệu này là loại không thể chứa trong CSDL dạng hàng và cột, và nó cũng không
có mô hình dữ liệu nào liên quan. Ví dụ như một đoạn chữ trong một email chẳng hạn.
Sự thiếu hụt về cấu trúc đã khiến dữ liệu Không cấu trúc trở nên khó tìm kiếm, quản lý
và phân tích, cũng là lý do vì sao các công ty đều bỏ qua dạng dữ liệu này; cho đến gần
đây khi sự ra đời của trí tuệ nhân tạo và các thuật toán máy tự học khiến cho quá trình
này trở nên dễ hơn đôi chút.
Các ví dụ khác của dữ liệu Không cấu trúc gồm có hình ảnh, phim và các tệp âm
thanh, các tệp chứa chữ cái, các nội dung từ mạng xã hội, hình ảnh từ vệ tinh, các bài
thuyết trình, tệp PDF, các câu trả lời từ bản khảo sát câu hỏi mở, các trang web và bản
thu từ các cuộc gọi hỗ trợ khách hàng.
Thay vì sử dụng Excel hay CSDL quan hệ, dạng dữ liệu Không cấu trúc thường
được lưu trữ trong các hầm dữ liệu, cơ sở dữ liệu NoSQL, các ứng dụng và kho chứa
dữ liệu khác. Sự màu mỡ của thông tin trong các khối dữ liệu Không cấu trúc giờ đây
đã có thể được khai thác và được tự động xử lý bởi các thuật toán và trí tuệ nhân tạo
trong thời đại ngày nay. Công nghệ này đã nâng tầm dữ liệu Không cấu trúc lên thành
nguồn tài nguyên cực kỳ giá trị đối với các tổ chức.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

69
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

c) Dữ liệu bán cấu trúc


Ngoài dữ liệu Có cấu trúc và Không cấu trúc, có một loại dữ liệu khác nữa, cơ
bản là dựa trên sự pha trộn của 2 loại trên. Loại dữ liệu này có một số tính chất đồng
nhất có thể xác định được, nhưng lại không hình thành một cấu trúc rõ ràng và phù hợp
với CSDL quan hệ. Vì vậy, một số thuộc tính có tổ chức được gán cho nó như các nhãn
về ngữ nghĩa (semantic tag) hay các siêu dữ liệu (metadata) với mục đích dễ dàng sắp
xếp hơn, nhưng vẫn sẽ có những lỗ hổng trong việc này.
Email là một ví dụ điển hình. Nội dung thực chất của email thuộc dạng Không
cấu trúc, nhưng nó lại mang các dữ liệu Có cấu trúc như tên, địa chỉ của người gửi và
người nhận, thời gian gửi, … Một ví dụ khác là ảnh kỹ thuật số. Bản thân hình ảnh đó
là Không cấu trúc, nhưng nếu bức ảnh đó được chụp từ điện thoại, thì nó sẽ được gắn
ngày tháng và thời gian, nhãn về địa lý, và có khi còn có ID của thiết bị. Một khi được
lưu trữ, bức ảnh đó cũng có thể được gắn nhãn như ‘chó’ hay ‘mèo’.
Rất nhiều thứ khác mà mọi người thường xếp vào dạng dữ liệu Không cấu trúc
nhưng thực ra lại là Bán cấu trúc, bởi vì nó mang trong mình những tính chất có thể
phân loại được.
d) Sự khác nhau giữa Dữ liệu Có cấu trúc, Bán cấu trúc, Không cấu trúc
Để hiểu một cách dễ nhất sự khác nhau giữa các loại hình dữ liệu, hãy thử dùng
phép loại suy này. Khi đi phỏng vấn việc làm, tưởng tượng rằng ta có 3 dạng phỏng vấn
khác nhau: Có cấu trúc, Bán cấu trúc và Không cấu trúc.
Đối với loại phỏng vấn Có cấu trúc, người phỏng vấn sẽ theo sát một kịch bản
có sẵn được viết bởi phòng Nhân sự và áp dụng với tất cả các ứng viên. Đối với hình
thức phỏng vấn Không cấu trúc, cuộc phỏng vấn sẽ phụ thuộc hoàn toàn vào người
phỏng vấn quyết định xem câu hỏi sẽ là gì, và cả thứ tự của những câu hỏi đó đối với
từng ứng viên nữa. Còn hình thức phỏng vấn Bán cấu trúc sẽ lấy các yếu tố từ cả cuộc
phỏng vấn Có và Không cấu trúc. Nó sẽ có tính chất nhất quán và các nhân tố định
lượng giống như khi phỏng vấn Có cấu trúc, và sẽ gồm cả sự thoải mái để tùy biến câu
hỏi dựa trên tình hình thực tế.

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

70
CÔNG TY CỔ PHẦN TƯ VẤN MCI VIỆT NAM
Số 165/23/5 Thái Hà, Đống Đa, Hà Nội
0982.521.378 | cskh@mcivietnam.com | https://mcivietnam.com

TÀI LIỆU THAM KHẢO

Chủ đề toán

1. Nguyễn Cao Văn, Ngô Văn Thứ (2012). Giáo trình Lý thuyết xác suất và Thống kê
toán, NXB ĐHKTQD.

2. Dr. Michael J. Garbade (2018), Understanding K-means Clustering in Machine


Learning, https://towardsdatascience.com/understanding-k-means-clustering-in-
machine-learning-6a6e67336aa1

3. Stephanie Glen. "Monty Hall Problem: Solution Explained Simply" From


StatisticsHowTo.com: Elementary Statistics for the rest of us!
https://www.statisticshowto.com/probability-and-statistics/monty-hall-problem/

4. Catherine Cote (2021), 4 TYPES OF DATA ANALYTICS TO IMPROVE DECISION-


MAKING, https://online.hbs.edu/blog/post/types-of-data-analysis

Chủ đề storytelling

1. Storytelling with Data: A Data Visualization Guide for Business Professionals by


Cole Nussbaumer Knaflic (Author)
2. Trực quan hóa dữ liệu – Phần 1: Tổng quan về biểu đồ, trích từ Hệ thống thông tin
thống kê http://thongke.cesti.gov.vn
3. Trực quan hóa dữ liệu – Phần 3: Một số dạng biểu đồ thể hiện độ lớn của dữ liệu,
trích từ Hệ thống thông tin thống kê http://thongke.cesti.gov.vn
4. Trực quan hóa dữ liệu – Phần 4: Một số dạng biểu đồ thể hiện tỷ lệ của dữ liệu

Chủ đề database

1. Cơ sở dữ liệu, https://vi.wikipedia.org/wiki/Cơ sở dữ liệu


2. Trần Nguyên Phong (2004). Giáo trình SQL, ĐHKHHUE – Khoa CNTT

MCI CONSULTING & ANALYTICS LÀ LỰA CHỌN HÀNG ĐẦU TRONG LĨNH VỰC ĐÀO TẠO VÀ TRIỂN KHAI DỰ ÁN DỮ LIỆU LỚN VÀ CHUYỂN ĐỔI SỐ

71

You might also like