Thống kê trong kinh doanh và kinh tế

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 75

Tổng quan về trực quan hóa dữ liệu

Tổ chức và trực quan hóa dữ liệu định tính


Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Thống kê trong kinh doanh và kinh tế


Bài 2: Trực quan hóa dữ liệu

Nguyễn Thị Phương Thảo

08/2023

Nguyễn Thị Phương Thảo Thống kê trong kinh doanh và kinh tế


Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Tại sao cần trực quan hóa dữ liệu

Trực quan hóa dữ liệu là một thành phần quan trọng của phân tích dữ
liệu vì chúng có khả năng tóm tắt hiệu quả một lượng lớn dữ liệu
thông qua định dạng đồ họa.

2 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Làm thế nào để lựa chọn loại biểu đồ phù hợp?

Để lựa chọn 1 biểu đồ tốt, hãy ghi nhớ 3 điểm sau:


1 Biểu đồ sẽ thực hiện vai trò hoặc phân tích nào?
2 Bạn đang có loại dữ liệu nào - định tính hay định lượng và bạn sẽ
cần vẽ biểu đồ cho bao nhiêu biến?
3 Sau khi vẽ biểu đồ, nó có truyền đạt thông tin hữu ích không? Nếu
không, hãy thử một loại biểu đồ khác hoặc một cách khác để mã
hóa các biến. Bạn có thể cần một loại biểu đồ không phổ biến hoặc
nâng cao hơn, hoặc cần sử dụng nhiều biểu đồ để giải thích cho vấn
đề của mình.

3 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Biểu đồ sẽ giữa vai trò hoặc thực hiện phân tích nào?

Các vai trò phổ biến:


Thể hiện sự thay đổi theo thời gian
Thể hiện thành phần, kết cấu
Xem xét cách dữ liệu được phân phối
So sánh giá trị giữa các nhóm
Quan sát quan hệ giữa các biến
Mô tả các luồng và quy trình
Xem xét dữ liệu theo địa lý

4 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Bạn có loại dữ liệu nào?

Định tính
Định lượng
Cả định tính lẫn định lượng

5 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Bạn có thể vẽ biểu đồ kết hợp các loại biến nào?

1 biến định tính


1 biến định lượng
Định tính - định tính
Định tính - định lượng
Định lượng - định lượng

6 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Bạn nên vẽ biểu đồ cho bao nhiêu biến?

Mỗi biểu đồ chỉ nên thể hiện từ 1-3 biến


Một số biểu đồ có thể thể hiện từ 1-5 biến (biểu đồ đường)
Bạn có thể vẽ nhiều hơn 3 hoặc 5 biến không? Có thể, nhưng phân
tích phức tạp.

7 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Các loại đồ thị phổ biến

Dữ liệu thô
Khi bạn chỉ có một số, tốt nhất là chỉ báo cáo nó như nó vốn có. Vẽ đồ
thị một giá trị đơn lẻ (chẳng hạn như với một thanh hoặc điểm) thường
không có ý nghĩa nếu không có các giá trị khác để so sánh.

(a) 1 dữ liệu (b) Dữ liệu và chỉ (c) Bảng


báo

8 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

So sánh sự thay đổi theo thời gian


Một trong những ứng dụng phổ biến nhất của trực quan hóa dữ liệu là
xem sự thay đổi giá trị của 1 chỉ số hoặc tính năng nào đó theo thời
gian.
Các đồ thị này thường có 2 trục:
Trục hoành biểu diễn thời gian tăng dần từ trái sang phải.
Trục tung biểu diễn giá trị của các biến quan tâm.

(d) Đồ thị đường (e) Đồ thị cột (f) Đồ thị Boxplot

9 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Mô tả kết cấu
Đôi khi, chúng ta không chỉ cần biết tổng số mà cả các thành phần cấu
thành tổng số đó.

(g) Đồ thị tròn (h) Đồ thị (i) Đồ thị thanh (j) Đồ thị diện tích
Doughnut chồng chồng

10 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Mô tả phân phối của dữ liệu

Một cách sử dụng quan trọng để trực quan hóa là hiển thị cách phân
phối các giá trị của điểm dữ liệu.
Trong phần này, chúng ta chỉ nói đến phân phối dữ liệu của 1 biến.

(k) Đồ thị cột (l) Đồ thị (m) Đồ thị


histogram boxplot

11 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

So sánh giá trị giữa các nhóm


Một ứng dụng rất phổ biến để trực quan hóa dữ liệu là so sánh các giá
trị giữa các nhóm riêng biệt. Đây là nhóm biểu đồ lớn nhất và thường
được kết hợp với so sánh thay đổi theo thời gian hoặc phân phối của dữ
liệu.

(n) Đồ thị (o) Đồ thị thanh (p) Đồ thị thanh


thanh/cột nhóm nhóm

12 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Mô tả mối quan hệ giữa các biến


Một nhiệm vụ xuất hiện trong khám phá dữ liệu là hiểu mối quan hệ giữa
các tính năng dữ liệu. Các loại biểu đồ dưới đây có thể được sử dụng để
vẽ đồ thị hai hoặc nhiều biến đối lập với nhau để quan sát các xu hướng
và mô hình giữa các biến đó.

(s) Đồ thị phân tán (t) Đồ thị bubble

13 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Các cách kết hợp biến

Định tính
Định lượng
Định tính - Định tính
Định tính - Định lượng
Định lượng - định lượng

14 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Phương pháp so sánh

Có hai phương pháp so sánh:


1 So sánh tĩnh: So sánh các nhóm, đối tượng với nhau mà không xét
đến sự thay đổi theo thời gian. Ví dụ, so sánh tỷ lệ giao dịch của
khách hàng theo khu vực trong năm 2022.
2 So sánh động/ so sánh theo thời gian: So sánh các nhóm, đối
tượng với nhau có xét đến sự thay đổi theo thời gian. Ví dụ, so sánh
tỷ lệ giao dịch của khách hàng theo khu vực qua các tháng trong
năm 2022.

15 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Ví dụ minh họa

Hình 1: Ví dụ về doanh số siêu thị

16 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Yêu cầu: So sánh tỷ lệ khách hàng của 3 khu vực TP Hồ Chí Minh, Hà
Nội, Đà Nẵng.
Vai trò phân tích là gì?
a. Thể hiện sự thay đổi theo thời gian
b. Thể hiện thành phần, kết cấu
c. Xem xét cách các dữ liệu được phân phối
Sử dụng biến nào để phân tích?
1 Loại KH
2 Thành phố
3 Giới tính
Loại đồ thị sử dụng?
1 Đồ thị tròn
2 Đồ thị đường
3 Đồ thị boxplot 17 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Yêu cầu: Sản phẩm nào bán chạy nhất?


Vai trò phân tích là gì?
a. So sánh giá trị giữa các nhóm
b. Quan sát quan hệ giữa các biến
c. Thể hiện sự thay đổi theo thời gian
Sử dụng biến nào để phân tích?
1 Loại KH
2 Sản phẩm
3 Mã HĐ
Loại đồ thị sử dụng?
1 Đồ thị tròn
2 Đồ thị đường
3 Đồ thị cột
18 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Yêu cầu: Sản phẩm nào có doanh thu cao nhất?


Vai trò phân tích là gì?
a. So sánh giá trị giữa các nhóm
b. Quan sát quan hệ giữa các biến
c. Thể hiện sự thay đổi theo thời gian
Sử dụng biến nào để phân tích?
1 Loại KH
2 Sản phẩm
3 Doanh thu
Loại đồ thị sử dụng?
1 Đồ thị tròn
2 Đồ thị đường
3 Đồ thị cột
19 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Ví dụ minh họa
Trong trường hợp bạn có 1 tập dữ liệu, bạn nên trực quan hóa dữ liệu
một cách hệ thống để tránh các thiếu sót trong quá trình phân
tích.

Hình 2: Ví dụ về doanh số siêu thị

20 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Xác định và phân loại biến


1 Biến định tính

2 Biến định lượng

Trong đó các biến nào là biến thời gian? ................

21 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

Hãy liêt kê các kết hợp biến dùng cho phân tích.
1. Biến định tính

22 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

2. Biến định tính - Định tính

23 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

3. Biến định tính - định lượng

24 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

4. Biến định lượng

25 / 75
Tổng quan về trực quan hóa dữ liệu
Vai trò của trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Lựa chọn biểu đồ phù hợp
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Ví dụ minh họa 1
Trực quan hóa dữ liệu định lượng
Ví dụ minh họa 2
Phân tích đa chiều

5. Biến định lượng - định lượng

26 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Trường hợp: 1 biến định tính

Trong trường hợp 1 biến định tính, những cách thức phù hợp nhất để
tổng hợp và trực quan hóa dữ liệu gồm:
Lập bảng tần số
Đồ thị hình cột
Đồ thị hình tròn
Đồ thị thanh (cột) nhóm để so sánh thay đổi theo thời gian

27 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Minh họa
Câu hỏi: Hãy thống kê số giao dịch theo khu vực (thành phố)?

Hình 3: Dữ liệu thô

28 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Bảng tần số

(b) Đồ thị cột (c) Đồ thị tròn

29 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn lập bảng tần số và vẽ đồ thị

Mở file Excel, chọn tab Insert, chọn PivotTable


Chọn Table/Range từ $A$1: $Q$1001
Chọn New worksheet, OK.
Kéo thả biến Thành phố vào khu vực Rows
Để đếm số giao dịch ở mỗi khu vực, tiếp tục kéo thả biến Thành
phố vào ô Values
Để thực hiện thay đổi trường giá trị, tại mục Value, tại "Count of
Thành phố", chọn Value Fiedl Settings. Tại ô Custom name,
đổi "Count of Thành phố" thành "Số giao dịch".

30 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để thêm cột "% số giao dịch", bạn tiếp tục kéo thả biến "Thành
phố" vào ô Value và thực hiện các tùy chỉnh như trên. Tuy nhiên,
có thêm 1 bước nữa là, chọn "Show Value as" và chọn % of
Grand Total
Sau khi đã lập bảng tần số, để vẽ đồ thị, bạn chọn tab Insert, chọn
Pivotchart, sau đó chọn loại đồ thị phù hợp.

31 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn phân tích


Dựa vào đồ thị cột, hãy trả lời câu hỏi sau:
a. Số lượng giao dịch tại mỗi khu vực là bao nhiêu?
b. Số giao dịch ở khu vực nào là cao nhất?
c. Số giao dịch ở khu vực nào là thấp nhấp?
d. Số giao dịch ở các khu vực tương đương nhau?
Dựa vào đồ thị tròn, hãy trả lời câu hỏi sau:
a. Tỷ lệ phần trăm số giao dịch ở mỗi khu vực?
b. Khu vực nào có tỷ lệ giao dịch lớn nhất?
c. Khu vực nào có tỷ lệ giao dịch thấp nhất?
d. Tỷ lệ phần trăm giao dịch giữa các khu vực là chênh lệch hay tương
đương nhau?
32 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Dựa vào đồ thị thay đổi theo thời gian, Số giao dịch ở mỗi khu vực thay
đổi qua mỗi tháng như thế nào?

Có điều gì đáng chú ý ở đây không?

33 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Bài tập nhóm

Hãy vẽ đồ thị của tất cả các biến định tính trong tập dữ liệu nói trên và
phân tích.

34 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH: Định tính - định tính

Trong trường hợp 2 biến định tính, những cách thức phù hợp nhất để
tổng hợp và trực quan hóa dữ liệu gồm:
Bảng tần số
Đồ thị thanh chồng

35 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Câu hỏi: Thống kê số giao dịch theo khu vực và loại khách hàng.

Hình 5: Dữ liệu thô

36 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn thực hành Excel


Mở file Excel, chọn tab Insert, chọn PivotTable
Chọn Table/Range từ $A$1: $Q$1001
Chọn New worksheet, OK.
Kéo thả biến Thành phố vào khu vực Rows
Kéo thả biến "Loại KH" vào khu vực Column
Để đếm số giao dịch theo từng loại khách hàng ở mỗi khu vực, tiếp
tục kéo thả biến Thành phố vào ô Values
Thực hiện các biến đổi phủ hợp cho việc trình bày.
Để chuyển bảng tần số từ giá trị tuyệt đối sang tỷ lệ phần trăm, ta làm
như sau:
Tại mục Value, tại "Count of Thành phố", chọn Value Field
Settings. Chọn "Show Value as" và chọn % of Grand Total
37 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Bảng tần số

(b) Bảng tần số theo tỷ lệ phần trăm

Hình 6: Thống kê số giao dịch theo khách hàng và khu vực

38 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Từ bảng tần số trên, ta vẽ đồ thị như sau:

Hình 7: Tỷ lệ phần trăm giao dịch theo loại khách hàng và khu vực

39 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Thành phố nào có tỷ lệ giao dịch của khách hàng thành viên cao
nhất?
Thành phố nào có tỷ lệ giao dịch của khách hàng thông thường cao
nhất?
Nếu triển khai một chương trình dành cho khách hàng thành viên,
theo bạn, nên triển khai tại khu vực nào thì tỷ lệ khách hàng thành
viên tham gia cao hơn?
Nếu triển khai 1 chương trình dành cho khách hàng thành viên tại
một trong hai khu vực là Hà Nội và TP Hồ Chí Minh, theo bạn nên
triển khai tại khu vực nào thì khả năng khách hàng thành viên tham
gia cao hơn?

40 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Tháng 1 (b) Tháng 2

(c) Tháng 3

Hình 8: Tỷ lệ phần trăm giao dịch theo khu vực và loại khách hàng qua các
tháng 41 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Có điều gì đáng chú ý trong phân tích theo thời gian?


Gợi ý: Hãy nhìn đồ thị tháng 3

Hãy liên hệ với phân tích đầu tiên (phân tích khu vực), cho biết, tại sao
thị phần của TP Hồ Chí Minh lại tăng lên trong tháng 3?

42 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
2 biến định tính
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Bài tập nhóm

Hãy thực hiện phân tích tương tự cho tất cả các biến định tính còn
lại.

43 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH: Định tính - định lượng

Trong trường hợp biến định tính và biến định lượng, những cách thức
phù hợp nhất để tổng hợp và trực quan hóa dữ liệu gồm:
Lập bảng thống kê theo biến định tính
Đồ thị thanh/cột
Đồ thị đường
Đồ thị Pareto
Đồ thị Boxplot
Để so sánh theo thời gian, chúng ta sẽ sử dụng Filter hoặc thêm các
Slicers vào trong đồ thị Pivotchart.

44 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Minh họa

Hình 9: Dữ liệu thô


45 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn thực hành Excel

Hướng dẫn lập bảng thống kê


Mở file Excel, chọn tab Insert, chọn PivotTable
Chọn Table/Range từ $A$1: $Q$1001
Chọn New worksheet, OK.
Kéo thả biến Thành phố vào khu vực Rows
Để tổng hợp doanh thu ở mỗi khu vực, kéo thả biến Doanh thu vào
ô Values. Vì biến Doanh thu là một biến định lượng, do đó, khi kéo
thả biến này vào ô Values, hiển thị mặc định là Sum of Doanh thu.
Để thực hiện thay đổi trường giá trị, tại mục Value, tại "Sum of
Doanh thu", chọn Value Field Settings. Tại ô Custom name, đổi
"Sum of Doanh thu" thành "Tổng doanh thu".

46 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để tính doanh thu trung bình, bạn kéo thả doanh thu vào ô
Values 1 lần nữa, sau đó chọn Value field settings. Tại
Summarize Value by, chọn Average
Tương tự như vậy cho Doanh thu lớn nhất (Max), Doanh thu
nhỏ nhất (Min), Độ lệch chuẩn (stdev)
Để vẽ các đồ thị, ta lựa chọn Pivotchart và chọn đồ thị phù hợp.

47 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hình 10: Bảng thống kê

48 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Tổng doanh thu (b) Doanh thu trung bình theo khu vực

(c) Doanh thu theo khu vực

Hình 11: Thống kê doanh thu theo khu vực


49 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Khu vực nào có tổng doanh thu cao nhất


a. Hà Nội
b. Đà Nẵng
c. TP Hồ Chí Minh
Khu vực nào có doanh thu bình quân trên 1 hóa đơn cao nhất?
a. Hà Nội
b. Đà Nẵng
c. TP Hồ Chí Minh

50 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Đồng thời bạn hãy nhớ lại xem, khu vực nào có số lượng giao dịch thấp
nhất
a. Hà Nội
b. Đà Nẵng
c. TP Hồ Chí Minh
Đồng thời bạn hãy nhớ lại xem, khu vực nào có số lượng giao dịch cao
nhất
a. Hà Nội
b. Đà Nẵng
c. TP Hồ Chí Minh

51 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Doanh thu tại TP Đà Nẵng chủ yếu đến từ nguồn nào?


a. Số lượng giao dịch cao
b. Mức chi bình quân của khách hàng cao

52 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Phân tích theo thời gian

(a) Tổng doanh thu

(b) Doanh thu trung bình 53 / 75


Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng 1 biến định tính - 1 biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hãy so sánh doanh thu trung bình của Đà Nẵng và TP. Hồ Chí
Minh qua các tháng?
Hãy so sánh doanh thu của Đà Nẵng và TP. Hồ Chí Minh qua các
tháng

54 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH: 1 biến định lượng

Trong trường hợp 1 biến định lượng, những cách thức phù hợp nhất để
tổng hợp và trực quan hóa dữ liệu gồm:
Bảng thống kê
Đồ thị boxplot
Đồ thị histogram
Đồ thị Pareto
Để mô tả sự thay đổi theo thời gian, ta dùng
Bảng thống kê
Đồ thị boxplot theo thời gian
Đồ thị historam theo thời gian.

55 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Minh họa

Hình 13: Dữ liệu thô


56 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn thực hành

Hướng dẫn lập bảng thống kê


Mở file Excel, chọn tab Insert, chọn PivotTable
Chọn Table/Range từ $A$1: $Q$1001
Chọn New worksheet, OK.
Kéo thả biến Tháng vào Rows
Kéo thả biến Doanh thu vào ô Values. Vì biến Doanh thu là một
biến định lượng, do đó, khi kéo thả biến này vào ô Values, hiển thị
mặc định là Sum of Doanh thu.
Để thực hiện thay đổi trường giá trị, tại mục Value, tại "Sum of
Doanh thu", chọn Value Field Settings. Tại ô Custom name, đổi
"Sum of Doanh thu" thành "Tổng doanh thu".

57 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để tính doanh thu trung bình, bạn kéo thả doanh thu vào ô
Values 1 lần nữa, sau đó chọn Value field settings. Tại
Summarize Value by, chọn Average
Tương tự như vậy cho Doanh thu lớn nhất (Max), Doanh thu
nhỏ nhất (Min), Độ lệch chuẩn (stdev)

58 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Ta có kết quả như sau:

Hình 14: Bảng thống kê

59 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để vẽ phân phối của biến doanh thu, ta sử dụng đồ thị Histogram và đồ


thị boxplot. Tuy nhiên, 2 đồ thị này không thể được vẽ bằng Pivotchart,
do đó, chúng ta sẽ sử dụng Insert → Charts
Chọn biến doanh thu, từ J2:J1001
Chọn Insert → Charts → Histogram
Trong đồ thị Histogram có hai loại: Histogram và Pareto, bạn có thể
chọn 1 trong hai loại đồ thị này đều được.
Để vẽ đồ thị boxplot, bạn chọn Insert → Charts → Box &
Whisker

60 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Đồ thị Histogram

61 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Nhìn vào đồ thị Histogram:


Đa số các dữ liệu nằm ở phía nào của đồ thị?
a. Bên trái
b. Bên phải
Điều này cho thấy, hầu hết các hóa đơn có giá trị:
a. Nhỏ
b. Lớn
Có bao nhiêu % khách hàng sẽ chi trả dưới 110.7$?
a. Khoảng 20% khách hàng
b. Khoảng 30% khách hàng
80% Khách hàng sẽ chi trả trong khoảng bao nhiêu?
a. Dưới 510$
b. Dưới 610$
62 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Xem đồ thị Boxplot

Mức doanh thu trung bình trên Có bao nhiêu % số hóa đơn nằm
một hóa đơn mua hàng bằng: trong khoảng từ 10$ - 123$

a. 253.85$
a. 25%
b. 20%
b. 322.97$
Có bao nhiêu % số hóa đơn nằm
Có bao nhiêu % số hóa đơn nằm trong khoảng từ 471$ - 952$
trong khoảng 123$ - 471$?
1 50% a. Khoảng 25%
2 75% b. Khoảng 50%

63 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Ta thấy, số dữ liệu phân bố trong các khoảng 10$ - 123$ bằng với số dữ
liệu phân bố trong khoảng từ 471 - 952$, song độ rộng của các khoảng
này khác nhau, cho thấy mật độ phân bố khác nhau.
Ta thấy mật độ phân bổ trong khoảng 10 - 123$ sẽ cao hơn so với mật
độ phân bố trong khoảng 471 - 952$.
Có thể thấy rằng, dữ liệu phân bổ với mật độ dày đặc hơn ở các khoảng
giá trị nhỏ.

64 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Sau khi thực hiện các so sánh tĩnh, bạn cũng nên so sánh theo thời
gian.

Hình 16: Doanh thu theo tháng

65 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Tháng 1 (b) Tháng 2

(c) Tháng 3 (d) Boxplot

Hình 17: Phân phối của doanh thu theo tháng

66 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH: Các biến định lượng

Để mô tả mối quan hệ giữa các biến định lượng, chúng ta có thể sử dụng
một số loại đồ thị sau:
Bảng mô tả tóm tắt
Các đồ thị cột (ví dụ: Tổng doanh thu theo số lượng hàng bán)
Đồ thị Pareto
Ma trận tương quan
Đồ thị phân tán

67 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

(a) Bảng thống kê

(b) Doanh thu theo số lượng (c) Doanh thu theo số lượng theo thời 68 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để vẽ ma trận tương quan giữa các biến trên Excel, chúng ta sử dụng
Data Analysis. Data Analysis đã từng được tính hợp trong Excel 2003.
Tuy nhiên, các phiên bản Excel mới không tích hợp công cụ này mà ẩn
trong phần Add-in.
Làm thế nào để kích hoạt chức năng này?
Chọn File → Options
Vào mục Add-ins → Analysis Toolpak → Go
Sau khi bấm Go thì sẽ hiện ra 1 giao diện cửa sổ Add-Ins. Chọn
Analysis Toolpak → OK

69 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Để thuận tiện cho việc vẽ ma trận tương quan, các bạn có thể lọc các
biến định lượng và để riêng trong 1 sheet riêng.

70 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Hướng dẫn vẽ ma trận tương quan


Data → Data Analysis → Correlation
Tại giao diện Correlation, tại Input range, nhập vùng dữ liệu
$A$1:$H$1001
Tại Grouped By, chọn Columns
Chọn Labels in first row nếu dòng đầu tiên trong tập dữ liệu của bạn
là tiêu đề.
Tại Output options → Output Range → nhập vị trí xuất bảng ma
trận, ví dụ $J$2

71 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Ta có kết quả như sau:

Hình 19: Ma trận tương quan

72 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
1 biến định lượng
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Nhiều biến định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

Ta nhận thấy các cặp biến có tương quan cao như Thuế VAT- Giá
(0.63), Thuế VAT - Sản lượng (0.71), Doanh thu - Giá (0.63), ... Các
cặp biến này có tương quan cao và hệ số tương quan lớn hơn 0 cho thấy
2 biến có xu hướng biến đổi cùng chiều.
Ngược lại, biến đánh giá hầu như có tương quan ngược chiều với hầu hết
các biến còn lại (hệ số tương quan âm), nói cách khác, biến đánh giá có
xu hướng biến động ngược chiều với các biến còn lại. Tuy nhiên, hệ số
tương quan khá thấp, cho thấy mức độ tương quan thấp.
Chúng ta lưu ý rằng, hệ số tương quan chỉ mô tả sự biến thiên cùng
chiều hoặc ngược chiều của dữ liệu, chứ không thể hiện quan hệ nhân
quả giữa các biến đó.

73 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH: 1 biến định tính - 3 biến định lượng

(a) Dữ liệu

74 / 75
Tổng quan về trực quan hóa dữ liệu
Tổ chức và trực quan hóa dữ liệu định tính
Tổ chức và trực quan hóa dữ liệu định tính và định lượng
Trực quan hóa dữ liệu định lượng
Phân tích đa chiều

TH nhiều biến định tính

75 / 75

You might also like