Thống kê mô tả: Trình bày dữ liệu định tính

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

4/6/2020

Trình bày dữ liệu định tính

Thống kê mô tả Tập dữ liệu


STT TÊN KHÁCH HÀNG TUỔI GIỚI TÍNH NGHỀ NGHIỆP
1 HỒ THỊ BẠCH KIM 49 NỮ KINH DOANH
2 VÕ VĂN VIÊN 46 NAM NHÂN VIÊN
3 VŨ THỊ HOÀNG YẾN 33 NỮ CNV
4 NGUYỄN VĂN PHI 41 NAM NHÂN VIÊN
5 NGUYỄN THỊ HỒNG TƯƠI 29 NỮ NHÂN VIÊN
6 NGUYỄN THỊ OANH 36 NỮ TỰ DO
7 GIANG THỊ THÀNH 26 NAM BUÔN BÁN
8 NGUYỄN ĐÌNH TUẤN 43 NAM CNV
9 NGUYỄN THỊ VÂN 30 NỮ CNV
10 TRẦN QUAN TRUNG KIÊN 23 NAM TỰ DO
Chương 2 11 NGUYỄN VAN TRƯỜNG 34 NAM CNV
12 ĐỖ THÀNH HƯNG 21 NAM CNV
13 PHẠM THỊ HƯƠNG 38 NỮ TỰ DO
14 NGUYỄN HOÀNG LONG 46 NAM BUÔN BÁN
15 PHẠM BÁ QUỐC 27 NAM NHÂN VIÊN
16 TRẦN VĂN LÝ 54 NAM NHÂN VIÊN
17 NGUYỄN THUỘC 70 NAM KINH DOANH
18 PHẠM THỊ HƯƠNG 37 NỮ CNV
19 PHẠM THỊ MINH THƠ 38 NỮ CNV
20 TRỊNH THỊ THANH HIỀN 20 NỮ SINH VIÊN
Trần Tuấn Anh 19

Bảng tần số Tần số tương đối


Tần số của biến giới tính
 Tần số tương đối là tỷ số giữa tần số của một nhóm và tổng số
Trong bảng tần số, ta có 2 quan sát.
Giới tính Tần số
cột: cột thứ nhất là các Giới tính Tần số Tần số tương đối
Nam 11 nhóm tách biệt nhau và
Nam 11 0,55
Nữ 9 cột thứ hai là số quan sát
Nữ 9 0,45
tương ứng với mỗi nhóm. Cộng 20
Giới tính Tần số Tần số
tích lũy
Giới tính Tần số Tần số phần trăm
Nam 11 11
Nam 11 55%
Nữ 9 20 Nữ 9 45%
Cộng 20
Cộng 20

20 21
4/6/2020

Biểu đồ thanh Biểu đồ tròn

Biểu đồ thanh là biểu đồ mà trong đó, các nhóm Biểu đồ tròn là biểu đồ mà trong đó, tần số của mỗi
được biểu diễn ở trục ngang. Tần số các nhóm được nhóm tương ứng với 1 phần diện tích của hình tròn.
biểu diễn ở trục đứng. Chiều cao của thanh biểu diễn Người ta thường dùng tần số phần trăm để biểu diễn
tần số của mỗi nhóm. trên biểu đồ tròn.

22 23

Trình bày dữ liệu định lượng Minh họa – Excel

Một lớp học ứng 4 10 5 7 3 Điểm tần số tần số % tần số % tích lũy Điểm tần số tần số tích lũy
dụng thống kê 5 6 7 8 5 1 1 2.22% 2.22% 1 1 1
trong kiểm soát 8 9 3 8 7 2 1 2.22% 4.44%
2 1 1+1=2
quá trình sản xuất 6 2 5 1 6 3 4 8.89% 13.33%
3 4 4+2=6
có kết quả kiểm 4 5 11.11% 24.44%
6 7 7 4 10 5 6 13.33% 37.78% 4 5 11
tra cuối khóa của 8 6 4 8 6 11 24.44% 62.22% 5 6 17
45 học viên như 8 5 9 4 7 7 15.56% 77.78% 6 11 28
sau: 5 6 6 3 8 6 13.33% 91.11% 7 7 35
9 2 4.44% 95.56% 8 6 41
4 3 6 6
10 2 4.44% 100.00% 9 2 43
7 6 6 7 45 100.00%
10 2 45
Yêu cầu: bạn hãy lập bảng tần số cộng 45

24 25
4/6/2020

Trình bày dữ liệu định lượng Các bước lập bảng tần số

Ta có tập dữ liệu về hệ 8 20 15 11 21 18
số P/E của 57 công ty 12 25 17 13 29 23 Các bước lập bảng tần số
trên sàn giao dịch 14 9 20 16 11 11 Bước 1: Sắp dữ liệu theo thứ tự tăng dần
chứng khoán SG. 17 13 25 17 14 14
19 15 11 21 16 16
Bước 2: Xác định số nhóm
Yêu cầu: bạn hãy lập 24 17 13 28 18 19 Bước 3: Xác định độ rộng của mỗi nhóm
bảng tần số 8 20 16 11 22 24 Bước 4: Đặt dữ liệu vào các nhóm tương ứng
12 25 17 14 11 16
14 10 20 16 14 18 Bước 5: Tính tần số tương đối và các giá trị khác
17 13 27

26 27

Các bước lập bảng tần số Biểu đồ thanh (histogram)


Biểu đồ thanh

Công thức Sturges - xác Nhóm Tần số Tần số


định số nhóm tích lũy
8 – 12 10 10
k = 1 + 3,3log(n)
12 – 16 14 24
16 – 20 17 41
20 – 24 8 49
24 – 28 6 55
Xác định độ rộng mỗi 28 – 32 2 57
nhóm Cộng 57
X max  X min
w
k

28 29
4/6/2020

Đa giác tần số & biểu đồ Ogive Biểu đồ nhánh và lá

Nhóm Tần số Tần số Tần số tương đối


Đa giác tần số
tương đối tích lũy Các bước tạo biểu đồ nhánh và lá
8 – 12 10 0,1754 0,1754
12 – 16 14 0,2456 0,4210 Bước 1: Khảo sát tập dữ liệu và chọn đơn vị cho
16 – 20 17 0,2982 0,7193
20 – 24 8 0,1404 0,8596 nhánh và lá. Thông thường, bạn nên chọn sao cho
24 – 28 6 0,1053 0,9649 số nhánh ít hơn 20.
28 – 32 2 0,0351 1,0000
Cộng 57 Bước 2: Đặt các giá trị vào nhánh theo thứ tự từ
nhỏ đến lớn theo chiều từ trên xuống.
Bước 3: Đặt các giá trị vào phần lá, tức là các hàng
tương ứng trong biểu đồ.
Biểu đồ Ogive
(tần số phần Bước 4: Sắp xếp dữ liệu từ nhỏ đến lớn theo chiều
trăm tích lũy) từ trái sang phải cho các lá.

30 31

Biểu đồ nhánh và lá Biểu đồ nhánh và lá


Số liệu thu thập của 31 ngày về số lượt khách hàng Ta có tập dữ liệu chiều dày tấm thép (mm) xuất xưởng
mang máy điện thoại di động đến bảo hành trong 1 ngày trong 1 ca sản xuất như sau:
tại một trung tâm chăm sóc khách hàng. 30,8 30,9 32,0 32,3 32,6 31,7 30,4 31,4 32,7 31,4
37 21 14 33 21 14
0 69 30,1 32,5 30,8 31,2 31,8 31,6 30,3 32,8 30,6 31,9
33 20 14 32 20 12
1 2244456888899
29 19 12 9 19 28 2 001112223889 32,1 31,3 32,0 31,7 32,8 33,3 32,1 31,5 31,4 31,5
6 18 28 18 23 22 3 2337
31,3 32,5 32,4 32,2 31,6 31,0 31,8 31,0 31,5 30,6
18 18 22 22 16 15
21 32,0 30,4 29,8 31,7 32,2 32,4 30,5 31,1 30,6

Yêu cầu: lập biểu đồ nhánh và lá


32 33
4/6/2020

Biểu đồ phân tán Biểu đồ phân tán

Biểu đồ phân tán là biểu Xe Số năm sử Giá bán


đồ biểu diễn các cặp giá trị dụng (US$1000)
1 9 8,1
(x1, y1), (x2, y2),…, (xn, yn)
2 7 6,0
trên 2 trục X,Y. Mỗi cặp giá 3 11 3,6
trị được biểu diễn bằng 1 4 12 4,0
điểm trên biểu đồ. 5 8 5,0
6 7 10,0
7 8 7,6
8 11 8,0
9 10 8,0
10 12 6,0
11 6 8,6
12 6 8,0

34 35

Biểu đồ phân tán Thống kê mô tả

Thống kê mô tả

Khuynh Sự phân Hình dạng


hướng tán của tập dữ
trung tâm liệu

36 37
4/6/2020

Giá trị trung bình Trung bình - Trường hợp dữ liệu phân nhóm

Điểm Số sinh viên k


N
Giá trị trung bình số học của tổng
 xi Xi fi X i fi
thể i 1
1 5
X  i 1
 3 12 k
N 4
5
8
32
f i 1
i

7 18
Giá trị trung bình số học của mẫu n
8 9
x
i 1
i 10 3
x 87
n k
Trọng lượng (gam) Trị số giữa (mi) Số sản phẩm (fi)
484-490 487 5 m i fi
Giá trị trung bình số học có trọng k
490-496 493 10
X  i 1
k
số xw i i
496-502 499 15 f i
i 1
x k 502-508 505 13 i 1

w
i 1
i 508-514 511 7
Cộng 50
38 39

Trung vị Trung vị - Trường hợp dữ liệu phân nhóm

Trung vị là giá trị nằm giữa của một tập dữ liệu được sắp n / 2  S Me 1
thứ tự. Trung vị chia tập dữ liệu ra thành 2 phần bằng nhau. M e  X Me (min)  h Me
f Me
x n 1
Khi n lẻ: Me  Trọng lượng (gam) Số sản phẩm (fi) Tần số tích lũy (Si)
2 484-490 5 5
x n / 2  x ( n / 2  1) 490-496 10 15
Khi n chẵn: M e  496-502 15 30
2 502-508 13 43
508-514 7 50
Cộng n=50
Thí dụ: 12 23 23 25 27 34 41

Thí dụ: 11 12 15 17 21 32
40 41
4/6/2020

Số Mode Số mode – trường hợp dữ liệu phân nhóm

Mode là giá trị dữ liệu xuất hiện nhiều nhất trong tập f Mo  f Mo 1
dữ liệu. M o  X Mo (min)  hMo
( f Mo  f Mo 1 )  ( f Mo  f Mo 1 )

Thí dụ: 91 93 102 106 109 110 117 117 117 119 Trọng lượng (gam) Số sản phẩm (fi)
120 121 124 127 129 129 130 132 133 133 484-490 5
490-496 10
91 93 102 106 109 110 117 117 117 119 496-502 15
Thí dụ: 502-508 13
120 121 124 129 129 129 130 132 133 133
508-514 7
Cộng n=50
91 93 102 106 109 110 115 117 118 119
Thí dụ: 120 121 124 126 128 129 130 132 133 134 M 0  496  6
15  10
 500, 3
(15  10)  (15  13)

42 43

Hình dáng của tập dữ liệu Trung bình hình học

Nghiêng trái: Nghiêng phải: Giá trị trung bình hình học
trung bình < trung vị < mode Mode > trung bình > trung vị G n x1 x 2 ... x n

Tốc độ tăng trưởng trung bình của dãy số thời gian


xn
Trung bình mode GR  n 1 1
Trung vị
x1
mode Trung bình
Trung vị Năm 2006 2007 2008 2009 2010
Doanh số (triệu đồng) 635 998 1265 1701 2363

Trung bình = trung vị = mode


44 45
4/6/2020

Sự phân tán Khoảng biến thiên

Khoảng biến thiên là sự chênh lệch giữa giá trị lớn


nhất và nhỏ nhất trong tập dữ liệu.

Khoảng biến thiên


Tập dữ liệu a
R = xmax – x min

Thí dụ:
91 93 102 106 109 110 115 117 118 119
Tập dữ liệu b
120 121 124 126 128 129 130 132 133 134

46 47

Phương sai & độ lệch chuẩn Phương sai – trường hợp dữ liệu phân nhóm

k
Phương sai tổng thể Độ lệch chuẩn tổng thể  (m i  X )2 f i
N 2 i 1
  )2
S 
2
 (x
i 1
i   2 n 1
 
N Trọng lượng (gam) Trị số giữa (mi) Số sản phẩm (fi)
Phương sai mẫu Độ lệch chuẩn mẫu 484-490 487 5
n 490-496 493 10
 (x  x)2
2 i 1
i
s s2 496-502 499 15
s 
n 1
Phương sai mẫu tính 502-508 505 13
Tính phương sai và độ lệch nhanh 2
chuẩn của tập dữ liệu của  n 
  xi 
508-514 511 7
n
một mẫu như sau: 2
  i 1  Cộng 50
x i
n
40 55 75 95 95 s2  i 1
n 1
48 49
4/6/2020

Hệ số biến thiên,
Độ lệch tuyệt đối trung bình Thí dụ hệ số biến thiên CV

Hệ số biến thiên Cửa hàng Nam: 20, 40, 50, 60, 80 Trong xưởng may, người ta thu được kết quả lỗi phát sinh
trong các phân xưởng 1, 2 và 3 như sau:
s Cửa hàng Bắc: 20, 49, 50, 51, 80
CV  100  Tính độ lệch tuyệt đối trung bình
 Phân xưởng 1: = 134,51 và s=24,94
x của 2 mẫu khảo sát trên.  Phân xưởng 2: = 233,89 và s=280,08
 Phân xưởng 3: = 22,72 và s=14,08

Độ lệch tuyệt đối trung bình Tính CV của 3 phân xưởng trên

x
i 1
i x
MAD 
n
50 51

Định lý Chebyshev Định lý Chebyshev

 Bất đẳng thức: − ≤ ≥1−  Nếu k=2: có ít nhất 75% giá trị nằm trong khoảng
 ± 2
 µ là trung bình và  là độ lệch chuẩn và k là hằng
 Nếu k=3: có ít nhất 88,9% giá trị nằm trong
số lớn hơn 1.
khoảng  ± 3
 Với một tập quan sát bất kỳ (tổng thể hoặc mẫu),
tỷ lệ số giá trị nằm trong khoảng k độ lệch chuẩn
của giá trị trung bình ít nhất là 1 – 1/k2.

52 53
4/6/2020

Quy tắc thực nghiệm Qui tắc thực nghiệm

 Đối với tập dữ liệu có dạng phân phối đối xứng,


tức là phân phối có dạng hình quả chuông thì có
khoảng 68% giá trị quan sát nằm trong khoảng
cộng trừ độ lệch chuẩn từ giá trị trung bình, có
khoảng 95% giá trị quan sát nằm trong khoảng
cộng trừ 2 lần độ lệch chuẩn từ giá trị trung bình
và có khoảng 99,7% giá trị quan sát nằm trong
khoảng cộng trừ 3 lần độ lệch chuẩn từ giá trị
trung bình

54 55

Qui tắc thực nghiệm Tứ phân vị

7 8 8 10 10 10 10 12 13 13 13 13
Tứ phân vị là bộ ba số Q1, Q2, Q3 chia tập dữ liệu ra làm
13 13 13 14 14 14 15 15 15 15 15 16
4 phần bằng nhau. Trong đó, Q2 chính là trung vị. Q1 là
16 16 17 18 18 18 18 19 19 19 19 19 trung vị của dãy dữ liệu từ Xmin đến Q2 và Q3 là trung vị
của dãy dữ liệu từ Q2 đến Xmax.
20 20 20 21 21 21 22 22 23 23 23 24
25 26 26 26 26 27 29 29 30 31 34 36 Vị trí của tứ phân vị

37 40 41 45 48 55 68 91 25 50 75
L1  ( n  1) L 2  ( n  1) L3  ( n  1)
100 100 100
Giá trị dị biệt?

56 57
4/6/2020

Tứ phân vị Biểu đồ hộp


Q1 Q2 Q3
Thí dụ: Xmax
Xmin
2038 1758 1721 1637 2097 2047 2205 1787
2287 1940 2311 2054 2406 1471 1460
Độ trải giữa
7 8 8 10 10 10 10 12 13 13 13 13 Độ trải giữa = Q3 – Q1
13 13 13 14 14 14 15 15 15 15 15 16
16 16 17 18 18 18 18 19 19 19 19 19
20 20 20 21 21 21 22 22 23 23 23 24
25 26 26 26 26 27 29 29 30 31 34 36
37 40 41 45 48 55 68 91 0 20 40 60 80 100

58 59

Tương quan Tương quan

2 biến được coi là có tương quan với nhau nếu sự


biến đổi của chúng có mối liên hệ với nhau.

Hệ số tương quan
n

 (x
i 1
i  x )( y i  y )
r
n n

 (x i  x)2  (y i  y)2
i 1 i 1

60 61
4/6/2020

Tương quan

Giá 2 cổ phiếu A và B:
1 2 3 4 5 6 7 8
A 41,87 47,87 43,26 37,76 45,86 45,22 46,83 46,49
B 9,11 8,07 11,02 13,24 9,14 12,04 6,96 9,27

62

You might also like