Professional Documents
Culture Documents
Chuong 3B
Chuong 3B
Chuong 3B
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 1
or duplicated, or posted to a publicly accessible website, in whole or in part.
Các đại lượng đo lường hình dáng phân phối,
vị trí tương đối, phát hiện các giá trị bất
thường
• Hình dáng phân phối
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 2
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối:
Hệ số bất đối xứng (Skewness)
Một đại lượng số quan trọng đo lường hình dáng của một
phân phối gọi là Hệ số bất đối xứng (Skewness).
Công thức hệ số bất đối xứng cho mẫu:
3
𝑛 𝑥𝑖 − 𝑥lj
Skewness =
(𝑛 − 1)(𝑛 − 2) 𝑠
Hệ số bất đối xứng dễ dàng được tính bằng các phần mềm
thống kê.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 3
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối:
Hệ số bất đối xứng (Skewness)
Đối xứng (không lệch)
• Skewness = 0.
• Trung bình và trung vị bằng nhau
Skewness = 0
0,35
0,30
0,25
Tần suất
0,20
0,15
0,10
0,05
0
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 4
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối:
Hệ số bất đối xứng (Skewness)
• Lệch trái vừa phải
• Skewness là số âm.
• Trung bình thương nhỏ hơn trung vị.
Skewness = - 0,31
0,35
0,30
0,25
Tần suất
0,20
0,15
0,10
0,05
0
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 5
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối:
Hệ số bất đối xứng (Skewness)
• Lệch phải vửa phải
• Skewness là số dương
• Trung bình thường lớn hơn trung vị.
Skewness = 0,31
0,35
0,30
0,25
Tần suất
0,20
0,15
0,10
0,05
0
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 6
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối: Hệ số bất đối xứng (Skewness)
0,20
0,15
0,10
0,05
0
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 7
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối: Hệ số bất đối xứng (Skewness)
70 căn hộ được lấy mẫu ngẫu nhiên tại một làng đại học.
Giá thuê hàng tháng cho các căn hộ được liêt kê như sau
theo thứ tự tăng dần.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 8
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hình dáng phân phối: Hệ số bất đối xứng (Skewness)
0,25
Tần suất
0,20
0,15
0,10
0,05
0
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 9
or duplicated, or posted to a publicly accessible website, in whole or in part.
Giá trị chuẩn hóa z
xi - x
zi =
s
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 10
or duplicated, or posted to a publicly accessible website, in whole or in part.
Giá trị chuẩn hóa z
◼ Giá trị z của một quan sát đo lường vị trí tương đối của
quan sát trong một tập dữ liệu..
◼ Một giá trị dữ liệu nhỏ hơn trung bình mẫu sẽ có giá trị z
nhỏ hơn 0.
◼ Một giá trị dữ liệu lớn hơn trung bình mẫu sẽ có giá trị z
lớn hơn 0.
◼ Một giá trị dữ liệu bằng với trung bình mẫu sẽ có giá trị
z bằng 0.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 11
or duplicated, or posted to a publicly accessible website, in whole or in part.
Giá trị chuẩn hóa z
◼ Ví dụ: Apartment Rents
• Gía trị z của giá trị nhỏ nhất (425)
xi - x 425 - 490,80
z= = = - 1,20
s 54,74
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 12
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Chebyshev
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 13
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Chebyshev
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 14
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Chebyshev
(Thực tế, 86% giá thuê căn hộ nằm trong khoảng 409 và 573.)
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 15
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Thực nghiệm
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 16
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Thực nghiệm
Dữ liệu xấp xỉ phân phối chuẩn:
68,26% giá trị của một biến ngẫu nhiên nằm trong
khoảng +/- 1 độ lệch chuẩn so với trung bình
95.44% giá trị của một biến ngẫu nhiên nằm trong
. khoảng
+/- 2 độ lệch chuẩn so với trung bình
99.72% giá trị của một biến ngẫu nhiên nằm trong
khoảng +/- 3 độ lệch chuẩn so với trung bình
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 17
or duplicated, or posted to a publicly accessible website, in whole or in part.
Quy tắc Thực nghiệm
99,72%
95,44%
68,26%
m
x
m – 3s m – 1s m + 1s m + 3s
m – 2s m + 2s
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 18
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phát hiện các giá trị bất thường
◼ Giá trị bất thường là giá trị nhỏ bất thường hoặc
lớn bất thường trong tập dữ liệu.z
◼ Một giá trị dữ liệu có giá trị z nhỏ hơn -3 hoặc lớn
+3 có thể được xem là giá trị bất thường.
◼ Nó có thể là:
• Được ghi chép không chính xác
• Một giá trị dữ liệu không nằm trong tập dữ liệu.
• Một giá trị dữ liệu bất thường đã được ghi lại
một cách chính xác và thuộc trong tập dữ liệu.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 19
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phát hiện giá trị bất thường
◼ Ví dụ: Apartment Rents
• Giá trị z nhỏ nhất và lớn nhất là -1,20 và 2,27
• Dùng|z| > 3 là tiêu chí cho 1 giá trị bất thường,
không có giá trị bất thường trong tập dữ liệu.
Giá trị chuẩn hóa của giá thuê căn hộ
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 20
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phân tích dữ liệu thăm dò
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 21
or duplicated, or posted to a publicly accessible website, in whole or in part.
Bộ tóm tắt 5 số
3 Trung vị
4 Tứ phân vị thứ ba
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 22
or duplicated, or posted to a publicly accessible website, in whole or in part.
Bộ tóm tắt 5 số
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 23
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
Biểu đô hộp cũng là một cách để phất hiện giá trị bất
thường
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 24
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
◼ Ví dụ: Apartment Rents
• Một hộp được vẽ với 2 cạnh bên là tứ phân vị thứ
nhất và tứ phân vị thứ ba.
• Một đường thẳng đứng được vẽ trong hộp ở vị trí
trung vị (tứ phân vị thứ hai).
400 425 450 475 500 525 550 575 600 625
Q1 = 445 Q3 = 525
Q2 = 475
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 25
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
◼ Giới hạn là vị trí (không được vẽ) bằng việc sử dụng
độ trải giữa (IQR).
◼ Dữ liệu bên ngoài giới hạn này được xem là giá trị
bất thường.
◼ Các điểm của mỗi giá trị bất thường sẽ được hiển thị
một biểu tượng dấu sao * .
Tiếp tục
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 26
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
◼ Ví dụ: Apartment Rents
• Giới hạn dưới là vị trí 1,5 (IQR) dưới Q1.
• Không có giá trị bất thường (giá trị nhỏ hơn 325
hoặc lớn hơn 645) trong dữ liệu giá thuê căn hộ.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 27
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
◼ Ví dụ: Apartment Rents
• Râu (đường đứt nét ) được vẽ từ các cạnh bên của hộp đến giá trị
nhỏ nhất và giá trị lớn nhất trong giới hạn dữ liệu.
400 425 450 475 500 525 550 575 600 625
Giá trị nhỏ nhất trong Giá trị lớn nhất trong
giới hạn= 425 giới hạn = 615
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 28
or duplicated, or posted to a publicly accessible website, in whole or in part.
Biểu đồ hộp
Một kỹ thuật đồ họa tuyệt vời để so sánh giữa hai hay nhiều nhóm.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 29
or duplicated, or posted to a publicly accessible website, in whole or in part.
Các đại lượng đo lường mối liên hệ giữa hai biến
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 30
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hiệp phương sai
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 31
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hiệp phương sai
( xi - x )( yi - y ) Mẫu
sxy =
n -1
( xi - m x )( yi - m y ) Tổng thể
s xy =
N
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 32
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hệ số tương quan
Chỉ cho biết là hai biến có tương quan chặt chẽ hay
không, chứ không có nghĩa một biến là nguyên nhân
của biến còn lại.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 33
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hệ số tương quan
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 34
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hệ số tương quan
Giá trị gần -1 cho biết tương quan tuyến tính nghịch
chặt chẽ
Giá trị gần +1 cho biết tương quan tuyến tính thuận
chặc chẽ.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 35
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hiệp phương sai va hệ số tương quan
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 36
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hiệp phương sai và hệ số tương quan
◼ Ví dụ: Golfing Study
x y ( xi - x ) ( y i - y ) ( xi - x )( yi - y )
277,6 69 10,65 -1,0 -10,65
259,5 71 -7,45 1,0 -7,45
269,1 70 2,15 0 0
267,0 70 0,05 0 0
255,6 71 -11,35 1,0 -11,35
272,9 69 5,95 -1,0 -5,95
Trung bình 267,0 70,0 Total -35,40
Độ lệch chuẩn 8,2192 0,8944
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 37
or duplicated, or posted to a publicly accessible website, in whole or in part.
Hiệp phương sai và hệ số tương quan
sxy =
(x i - x )( y i - y )
=
-35, 40
= - 7, 08
n-1 6-1
• Hệ số tương quan mẫu
sxy -7, 08
rxy = = = -0,9631
sx sy (8, 2192)(0, 8944)
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 38
or duplicated, or posted to a publicly accessible website, in whole or in part.
Trung bình có trọng số và
Làm việc với dữ liệu đã được phân nhóm
◼ Trung bình có trọng số
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 39
or duplicated, or posted to a publicly accessible website, in whole or in part.
Trung bình trọng số
◼ Khi giá trị trung bình được tính bằng cách mỗi giá trị dữ
liệu được gán trọng số phản ánh mức độ quan trọng của nó,
gọi là trung bình trọng số.
◼ Khi giá trị dữ liệu khác nhau về tầm quan trọng, các nhà
phân tích phải chọn trọng số sao cho phản ánh tầm quan trọng
của mỗi giá trị.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 40
or duplicated, or posted to a publicly accessible website, in whole or in part.
Trung bình trọng số
x= wx i i
w i
Với:
xi = giá trị của quan sát i
wi = trọng số của quan sát i
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 41
or duplicated, or posted to a publicly accessible website, in whole or in part.
Dữ liệu đã được phân nhóm
◼ Trung bình có trọng số có thể được dùng để tính
xấp xỉ trung bình, phương sai, độ lệch chuẩn cho dữ
liệu đã được phân nhóm.
◼ Để tính trung bình trọng số, chúng ta phải xem các
giá trị giữa của mỗi nhóm như thể đó là trung bình các
quán sát trong nhóm.
◼ Chúng ta tính trung bình trọng số của một giá trị
giữa của nhóm sử dụng tần số của nhóm làm trọng số.
◼ Tương tự như vậy, trong tính toàn phương sai và
độ lệch chuẩn, tần số các nhóm được dùng làm trọng
số.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 42
or duplicated, or posted to a publicly accessible website, in whole or in part.
Trung bình cho dữ liệu phân nhóm
◼ Dữ liệu mẫu
x= fM i i
m= fM i i
N
Với:
fi = tần số của nhóm i
Mi = giá trị giữa của nhóm i
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 43
or duplicated, or posted to a publicly accessible website, in whole or in part.
Trung bình cho dữ liệu phân nhóm
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 45
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phương sai của dữ liệu phân nhóm
◼ Dữ liệu mẫu
f i ( Mi - x )
2
s =
2
n -1
f ( M - m ) 2
s2 = i i
N
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 46
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phương sai của dữ liệu phân nhóm
◼ Ví dụ: Apartment Rents
Rent ($) fi Mi Mi - x (M i - x )2 f i (M i - x )2
420-439 8 429.5 -63.7 4058.96 32471.71
440-459 17 449.5 -43.7 1910.56 32479.59
460-479 12 469.5 -23.7 562.16 6745.97
480-499 8 489.5 -3.7 13.76 110.11
500-519 7 509.5 16.3 265.36 1857.55
520-539 4 529.5 36.3 1316.96 5267.86
540-559 2 549.5 56.3 3168.56 6337.13
560-579 4 569.5 76.3 5820.16 23280.66
580-599 2 589.5 96.3 9271.76 18543.53
600-619 6 609.5 116.3 13523.36 81140.18
Total 70 208234.29
continued
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 47
or duplicated, or posted to a publicly accessible website, in whole or in part.
Phương sai của dữ liệu phân nhóm
◼ Ví dụ: Apartment Rents
• Độ lệch mẫu
s = 3.017,89 = 54,94
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 48
or duplicated, or posted to a publicly accessible website, in whole or in part.
Kết thúc Chương 3, Phần B
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide 49
or duplicated, or posted to a publicly accessible website, in whole or in part.