Download as pdf or txt
Download as pdf or txt
You are on page 1of 96

TÓM TẮT DỮ LIỆU BẰNG

CÁC ĐẠI LƯỢNG THỐNG KÊ


Các đại lượng thống kê
I. Các đặc trưng đo lường khuynh hướng tập trung:
II. Các đặc trưng đo lường khuynh hướng phân tán:
III. Sự kết hợp giữa khuynh hướng đo lường mức độ tập trung và phân
tán:
I. Các đặc trưng đo lường khuynh hướng
tập trung:
1. Trung bình cộng đơn giản:
2. Trung bình cộng có trọng số:
3. Trung vị:
4. Số yếu vị:
5. Tứ phân vị:
II. Các đặc trưng đo lường khuynh hướng
phân tán:
1. Khoảng biến thiên
2. Độ trải giữa
3. Độ lệch chuẩn tuyệt đối trung bình
4. Phương sai mẫu hiệu chỉnh
5. Độ lệch chuẩn
III. Sự kết hợp giữa khuynh hướng đo
lường tập trung và phân tán
1. Hệ số biến thiên
2. Hình dáng dữ liệu
3. Biểu đồ hộp và râu
4. Phân phối thực nghiệm của dữ liệu
I. Các đặc trưng đo lường khuynh hướng
tập trung:
1. Trung bình cộng đơn giản:
• Khi thu thập dữ liệu chúng ta thường gặp trường hợp các giá trị ở dạng
rời rạc ví dụ như: số tuổi của một người, số năm đi học,...
• Để có thể mô tả một cách đơn giản nhất mức độ tập trung của dữ liệu
chúng ta sẽ quan tâm xem giá trị đại diện tốt nhất cho các giá trị này
đó chính là trung bình cộng.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
1. Trung bình cộng đơn giản:
• Một tổng thể có N quan sát,

å
N
Xi
µ= i =1
N
𝜇: trung bình tổng thể
𝑋! : giá trị quan sát thứ i
N: tổng số quan sát của tổng thể
I. Các đặc trưng đo lường khuynh hướng
tập trung:
1. Trung bình cộng đơn giản:
• Một mẫu có n quan sát,

å
n
X
i =1 i
X=
n
$ trung bình mẫu
𝑋:
𝑋! : giá trị quan sát thứ i
n: tổng số quan sát của tổng thể
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu thể hiện điểm thi của 10 học sinh môn XSTK (theo thang điểm
100)
82, 77, 90, 71, 62, 68, 74, 84, 94, 88
Tính trung bình của mẫu.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu thể hiện điểm thi của 10 học sinh môn XSTK (theo thang điểm
100)
82, 77, 90, 71, 62, 68, 74, 84, 94, 88
Tính trung bình của mẫu.

å
n
X
i =1 i
X= =79
n
I. Các đặc trưng đo lường khuynh hướng
tập trung:
2. Trung bình cộng có trọng số:
• Trung bình có trọng số là trường hợp đặc biệt của trung bình cộng, khi
mỗi giá trị 𝑋! xuất hiện nhiều lần.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
2. Trung bình cộng có trọng số:
• Một mẫu có n quan sát,

å
k
X .fi =1 i i
X=
å f
k
i =1 i

$ trung bình tổng thể


𝑋:
𝑋! : giá trị quan sát thứ i
𝑓! : trọng số thứ i.
Lưu ý: ∑! 𝑓! = 𝑛
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
điểm thi trung bình của nhóm sinh viên này.

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 2 5 7 9 15 23 34 30 20 13 1
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
điểm thi trung bình của nhóm sinh viên này.

Điểm 0 1 2 3 4 5 6 7 8 9 10
Số SV 2 5 7 9 15 23 34 30 20 13 1

å
k
X .f i =1 i i
X=
å f
k
i =1 i
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
• Một mẫu có n quan sát,

å
k
m.f
i =1 i i
X=
å f
k
i =1 i

$ trung bình tổng thể


𝑋:
𝑚! : trị số giữa (điểm giữa) của nhóm thứ i
𝑓! : trọng số thứ i.
Lưu ý: ∑! 𝑓! = 𝑛
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
Dữ liệu sau đây thể hiện số phụ nữ có sinh nhiều con (từ 3 trở lên) trong
năm 2012 có độ tuổi từ 15 đến 55 tuổi. Tính trung bình số tuổi.
Tuổi Số ca
15-20 44
20-25 404
25-30 1204
30-35 1872
35-40 1000
40-45 332
45-50 44
50-55 19
Tuổi Số ca 𝒎𝒊 𝒇𝒊 ∗ 𝒎𝒊
15-20 44
20-25 404
25-30 1204
30-35 1872
35-40 1000
40-45 332
45-50 44
50-55 19
Tổng:
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Chú ý:
Dữ liệu thu thập tiền lương của 7 giáo sư hằng năm
$144,000; $98,000; $204,000; $177,000; $155,000; $316,000; $100,000
Tính số tiền lương trung bình hằng năm của 7 giáo sư.

Dữ liệu thu thập tiền lương của 7 giáo sư hằng năm


$144,000; $98,000; $204,000; $177,000; $155,000; $316,000; $1,000,000
Tính số tiền lương trung bình hằng năm của 7 giáo sư.

Nhận xét:
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Nhận xét:
• Trung bình cộng thường rất nhạy cảm với các giá trị đột biến (giá trị quá
lớn hoặc quá nhỏ), do đó giá trị trung bình sẽ kém tiêu biểu khi dãy số
xuất hiện các giá trị đột biến.
• Trung bình cộng có thể được sử dụng để so sánh hai hay nhiều tổng thể,
như so sánh mức lượng ngày của nhân viên giữa các công ty, so sánh
tuổi thọ một loại sản phẩm giữa các nhãn hiệu.
• Không tính trung bình cộng cho dữ liệu định danh.
• Nên cân nhắc việc tính trung bình cho dữ liệu định lượng đo lường bằng
thang đo khoảng
I. Các đặc trưng đo lường khuynh hướng
tập trung:
3. Trung vị:
• Trung vị là giá trị đứng ở vị trí giữa trong một dãy số đã được sắp xếp
có thứ tự.
• Trung vị chia dãy số ra thành hai phần bằng nhau: trước và sau trị số
trung vị sẽ có 50% quan sát, ký hiệu Med X.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
3. Trung vị:
ü Cách xác định trung vị:
• Trường hợp n lẻ: trước hết giá trị của các quan sát sẽ được sắp xếp
theo thứ tự lớn dần, trung vị sẽ là giá trị ở vị trí thứ
n +1
® Med X = X ( n +1)
2 2
I. Các đặc trưng đo lường khuynh hướng
tập trung:
3. Trung vị:
ü Cách xác định trung vị:
• Trường hợp n chẵn: trường hợp này trung vị rơi vào giữa hai giá trị
𝑋! và 𝑋!"# , được xác định như sau:
" "

X n + Xæ n ö
2 ç ÷ +1
Med X = è2ø

2
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu về số tuổi của 10 nhân công trong một công ty được thể hiện
như sau:
23 45 52 35 34 25 47 54 52 25
Tìm trung vị của số tuổi 10 nhân công này.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu về số tuổi của 10 nhân công trong một công ty được thể hiện
như sau:
23 45 52 35 34 25 47 54 52 25
Tìm trung vị của số tuổi 10 nhân công này.

Sắp xếp: 23 25 25 34 35 45 47 52 52 54
Trung vị: Med X = 40
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu cho biết về mức độ đánh giá (dựa trên thang điểm 100) của 15
khách hàng:
60 68 75 77 80 80 80 85 88 90 95 95 95 95 99
Tìm trung vị.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu cho biết về mức độ đánh giá (dựa trên thang điểm 100) của 15
khách hàng:
60 68 75 77 80 80 80 85 88 90 95 95 95 95 99
Tìm trung vị.

Med X = 85
I. Các đặc trưng đo lường khuynh hướng
tập trung:
üVí dụ
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
trung vị.

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 2 5 7 9 15 23 34 30 20 13 1
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
qCách thực hiện:
• B1. Tính tần số tích luỹ.
• B2. Tìm nhóm chứa trung vị
nhóm có tần số tích luỹ ³
n + 1
2
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
qCách thực hiện: n
- SMe-1
• B3: Áp dụng công thức: Med X = X Me ( min ) + hMe . 2
f Me

trong đó
XMe(Min) là giới hạn dưới của nhóm chứa Me
hMe là khoảng cách của nhóm chứa Me
SMe-1 là tần số tích luỹ của nhóm đứng trước nhóm chứa Me
fMe là tần số của nhóm chứa Me.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
Dữ liệu sau đây thể hiện số phụ nữ có sinh nhiều con (từ 3 trở lên) trong
năm 2012 có độ tuổi từ 15 đến 55 tuổi. Tính trung vị số tuổi.
Tuổi Số ca
15-20 44
20-25 404
25-30 1204
30-35 1872
35-40 1000
40-45 332
45-50 44
50-55 19
Tuổi Số ca Tần số tích luỹ

15-20 44
20-25 404
25-30 1204
30-35 1872
35-40 1000
40-45 332
45-50 44
50-55 19
Tổng:
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Nhận xét:
• Trung vị là trị số duy nhất có thể được xác định trong một dãy số, là đặc
trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá
trị đột biến.
• Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỷ lệ, thang đo
khoảng và thang đo thứ bậc.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
4. Yếu vị:
• Mode là giá trị xuất hiện nhiều nhất trong một dãy số, ký hiệu là Mod X.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
üVí dụ
I. Các đặc trưng đo lường khuynh hướng
tập trung:
üVí dụ
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
yếu vị.

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 2 5 7 9 15 23 34 30 20 13 1
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp phân nhóm có độ dài bằng nhau:
qCách thực hiện:
f Mo - f Mo-1
• Áp dụng công thức: Mod X = X Mo ( min ) + hMo .
( f Mo - f Mo-1 ) + ( f Mo - f Mo+1 )
trong đó
• XMo(Min) là giới hạn dưới của nhóm chứa Mo
• hMo là khoảng cách của nhóm chứa Mo
• fMo-1 là tần số của nhóm đứng trước nhóm chứa Mo
• fMo là tần số của nhóm chứa Mo.
• fMo+1 là tần số của nhóm đứng sau nhóm chứa Mo
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp phân nhóm có độ dài bằng nhau:
Dữ liệu sau đây thể hiện số phụ nữ có sinh nhiều con (từ 3 trở lên) trong
năm 2012 có độ tuổi từ 15 đến 55 tuổi. Tính yếu vị số tuổi. Nêu ý nghĩa.
Tuổi Số ca
15-20 44
20-25 404
25-30 1204
30-35 1872
35-40 1000
40-45 332
45-50 44
50-55 19
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp phân nhóm có độ dài không bằng nhau:
qCách thực hiện:
• Trị số Mode được xác định vẫn theo công thức ở trên, nhưng việc xác
định tổ chứa Mode không căn cứ vào tần số mà căn cứ vào mật độ
phân phối (tỷ số giữa các tần số với khoảng cách tổ tương ứng).
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp phân nhóm có độ dài không bằng nhau:
Có tài liệu về doanh thu của 79 cửa hàng Coop-food tháng 12/2015. Tìm
yếu vị và nêu ý nghĩa.
Doanh thu Cửa hàng Khoảng cách tổ Mật độ phân phối tổ
(triệu đồng) (𝒇𝒊 ) (𝒉𝒊 ) (𝒅𝒊 = 𝒇𝒊 /𝒉𝒊 )
200-400 8
400-500 12
500-600 25
600-800 25
800-1000 9
Tổng 79
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Nhận xét:
• Ưu điểm: không chịu ảnh hưởng của các lượng biến đột xuất.
• Nhược điểm: kém nhạy bén với sự biến thiên của dữ liệu.
• Ứng dụng: nghiên cứu nhu cầu của thị trường về một loại kích cỡ sản
phẩm nào đó như giày dép, nón mũ, quần áo…
• Có thể không xác định được trị số Mode hoặc có thể có nhiều trị số
Mode trong một tập dữ liệu.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
5. Tứ phân vị (Quartiles)
• Trong một dãy số đã sắp xếp có thứ tự, các trị số của tứ phân vị sẽ chia
dãy số thành bốn phần bằng nhau.
• Với mẫu có n quan sát, gọi 𝑄# , 𝑄% , 𝑄& lần lượt là tứ phân vị đầu tiên, tứ
phân vị thứ hai, tứ phân vị thứ ba.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu rời rạc
qCách thực hiện:
'"#
• 𝑄# là giá trị ở vị trí thứ với 𝑄# = 𝑋('"#)/( ;
(
• 𝑄% chính là trung vị với 𝑄% = 𝑀𝑒𝑑 𝑋 = 𝑋('"#)/% ;
&('"#)
• 𝑄& là giá trị ở vị trí thứ (
với 𝑄& = 𝑋&('"#)/( ;
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu về số tuổi của 7 nhân công trong một công ty được thể hiện
như sau:
23 45 52 35 34 25 47
Xác định tứ phân vị.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Ví dụ:
• Dữ liệu về số tuổi của 10 nhân công trong một công ty được thể hiện
như sau:
23 45 52 35 34 25 47 54 52 25
Xác định tứ phân vị.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
qCách thực hiện:
'"#
• 𝑄# chứa trong tổ có tần số tích luỹ là ;
(
• 𝑄% chính là trung vị với 𝑄% = 𝑀𝑒𝑑 𝑋;
&('"#)
• 𝑄& chứa trong tổ có tần số tích luỹ là .
(
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
qCách thực hiện: n
- SQ1 -1
• Tứ phân vị thứ nhất: Q1 = X Q1 ( min ) + hQ1 * 4
fQ1
trong đó
• 𝑋,#(-!') là giới hạn dưới của nhóm chứa 𝑄#
• ℎ,# là trị số khoảng cách của nhóm chứa 𝑄#
• 𝑆,#.# là tần số tích luỹ của nhóm đứng trước nhóm chứa 𝑄#
• 𝑓,# là tần số của nhóm chứa 𝑄# .
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp dữ liệu khoảng
3n
qCách thực hiện: - SQ3 -1
• Tứ phân vị thứ ba: Q3 = X Q3 ( min ) + hQ3 * 4
fQ3

trong đó
• 𝑋,$(-!') là giới hạn dưới của nhóm chứa 𝑄&
• ℎ,$ là trị số khoảng cách của nhóm chứa 𝑄&
• 𝑆,$.# là tần số tích luỹ của nhóm đứng trước nhóm chứa 𝑄&
• 𝑓,$ là tần số của nhóm chứa 𝑄& .
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Trường hợp phân nhóm có độ dài không bằng nhau:
Có tài liệu về doanh thu của 79 cửa hàng Coop-food tháng 12/2015. Tìm
yếu vị và nêu ý nghĩa.
Doanh thu
Cửa hàng Tần số tích luỹ
(triệu đồng)
200-400 8
400-500 12
500-600 25
600-800 25
800-1000 9
Tổng 79
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Thập phân vị:
• Thập phân vị trong thực tế đôi khi người ta cũng có nhu cầu chia các đơn
vị trong dãy số lượng biến thành 10 phần đều nhau và ta có thập phân vị.
n 2* n
- S D1 -1 - S D2 -1
D1 = X D1 ( min ) + hD1 * 10 D2 = X D2 ( min ) + hD2 * 10 …
f D1 f D2
I. Các đặc trưng đo lường khuynh hướng
tập trung:
ü Đồ thị hình hộp
• Đồ thị hình hộp là phương pháp mô tả và tổng hợp các số liệu mẫu
bằng đồ thị, trên đó phản ánh được cùng một lúc cả các đặc trưng về
xu hướng trung tâm cũng như độ phân tán của các giá trị mẫu.
• Để xây dựng đồ thị hình hộp người ta thường sử dụng các thống kê
đặc trưng mẫu là trung vị, các tứ phân vị 𝑄# , 𝑄%, 𝑄& và các giá trị
𝑥-!' , 𝑥-01 của phân phối mẫu.
I. Các đặc trưng đo lường khuynh hướng
tập trung:
Linear Transformations Use the five test scores of 65, 70, 71, 75, and
95 to answer the following questions:
(a) Find the sample mean.
(b) Find the median.
(c) Which measure of central tendency best describes the typical test
score? Why?
(d) Suppose the professor decides to curve the exam by adding 4 points
to each test score. Compute the sample mean based on the adjusted
scores.
(e) Compare the unadjusted test score mean with the curved test score
mean. What effect did adding 4 to each score have on the mean?
II. Các đặc trưng đo lường khuynh hướng
phân tán:
1. Khoảng biến thiên (R):

R = X max - X min
trong đó
• 𝑅 là khoảng biến thiên.
• 𝑋-01 là giá trị lớn nhất.
• 𝑋-!' là giá trị nhỏ nhất.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
ü Nhận xét:
• Ưu điểm: Tính toán dễ.
• Nhược điểm: Chỉ phụ thuộc vào hai giá trị 𝑋-01 và 𝑋-!' .
=> Chưa phản ánh đầy đủ độ phân tán của tất cả các quan sát.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
Ví dụ:
• Dữ liệu về số tuổi của 10 nhân công trong một công ty được thể hiện
như sau:
23 45 52 35 34 25 47 54 52 25
Xác định khoảng biến thiên.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
ü Chú ý:
Dữ liệu thu thập năng suất lao động của 5 công nhân
200, 250, 300, 350, 400
Tính trung bình, khoảng biến thiên.

Dữ liệu thu thập năng suất lao động của 5 công nhân
260, 280, 300, 320, 340
Tính trung bình, khoảng biến thiên.

Nhận xét:
II. Các đặc trưng đo lường khuynh hướng
phân tán:
2. Độ trải giữa:
Độ trải giữa thể hiện độ phân tán của 50% dữ liệu ở giữa của dãy số.

RI = Q3 - Q1
trong đó
• 𝑅2 là độ trải giữa.
• 𝑄& là tứ phân vị thứ ba.
• 𝑄# là tứ phân vị thứ nhất.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
ü Ví dụ:
Có tài liệu về tiền lương của hai tổ công nhân, mỗi tổ có 11 người
được cho như sau (triệu đồng).
Tổ 1: 0.9 1.2 1.5 1.8 2.1 2.4 2.7 3.0 3.3 3.6 3.9
Tổ 2: 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

Tính độ trải giữa của từng tổ.

Nhận xét:
II. Các đặc trưng đo lường khuynh hướng
phân tán:
3. Độ lệch tuyệt đối trung bình (Mean Absolute Deviation)

å
n
xi - x
MAD = i =1
n
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ:
• Tính MAD của mẫu sau: $976, $2035, $918, $1893
II. Các đặc trưng đo lường khuynh hướng
phân tán:
4. Phương sai hiệu chỉnh:
• Phương sai là số trung bình của bình phương các độ lệch giữa các
lượng biến và số trung bình của các lượng biến đó.
• Phương sai mẫu hiệu chỉnh được sử dụng nhiều nhất trong thống kê
suy diễn như ước lượng và kiểm định giả thuyết…
• Lưu ý: Trong môn học này, khi nói đến phương sai mẫu là ta đề cập
đến phương sai mẫu hiệu chỉnh.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
4. Phương sai hiệu chỉnh:
üCông thức biểu diễn:

å (x - x) * f
k 2
åi=1 ( xi - x )
n 2
i i
S =
2 S 2
= i =1

å f -1
k
n -1 i =1 i
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ:
• Tính phương sai của mẫu sau: $976, $2035, $918, $1893
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
phương sai.

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 2 5 7 9 15 23 34 30 20 13 1
II. Các đặc trưng đo lường khuynh hướng
phân tán:
5. Độ lệch chuẩn:
• Độ lệch tiêu chuẩn là căn bậc hai của phương sai, thể hiện độ lệch
trung bình của tất cả các quan sát so với giá trị trung bình. Đặc trưng
này có thể được sử dụng để so sánh độ phân tán của hai hay nhiều tổng
thể, trong trường hợp đơn vị tính là giống nhau hoặc giá trị trung bình
là bằng nhau.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ:
• Tính độ lệch chuẩn của mẫu sau: $976, $2035, $918, $1893
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ
• Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính
độ lệch chuẩn.

Điểm 0 1 2 3 4 5 6 7 8 9 10

Số SV 2 5 7 9 15 23 34 30 20 13 1
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ:
• Which histogram depicts a higher standard deviation? Justify your
answer.
II. Các đặc trưng đo lường khuynh hướng
phân tán:
üVí dụ:
Match the histograms on the following page to the summary statistics
given.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
1. Hệ số biến thiên (Coefficient of Variation):
• Hệ số biến thiên được sử dụng để đo lường mức độ biến động tương
đối của những tập dữ liệu có trị trung bình khác nhau.
• Hệ số biến thiên đo lường độ phân tán của dãy số tính một cách tương
đối, được xác định bằng cách so sánh độ lệch chuẩn với trung bình số
học.
• Trong ngành tài chính, hệ số biến thiên hay được sử dụng để đo mức
độ rủi ro tương đối của các danh mục vốn đầu tư.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
1. Hệ số biến thiên (Coefficient of Variation):
üCông thức biểu diễn:

S
CV = .100%
x
Trong đó,
• S: độ lệch chuẩn của mẫu
• 𝑥:̅ trung bình mẫu
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
1. Hệ số biến thiên (Coefficient of Variation):
ü Ví dụ:
Một nhà kinh doanh trên thị trường chứng khoán xem xét hai danh mục
đầu tư. Danh mục A bao gồm các khoản đầu tư có lợi nhuận trung bình
16% với độ lệch chuẩn là 4%. Danh mục B bao gồm các khoản đầu tư
có lợi nhuận trung bình 9% với độ lệch chuẩn là 3%.
Tính hệ số biến thiên giữa hai danh mục và nêu nhận xét.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
1. Hệ số biến thiên (Coefficient of Variation):
• Chú ý: Hệ số biến thiên chỉ được sử dụng để so sánh dữ liệu dương
với thang đo tỷ lệ. Hệ số biến thiên có ít hoặc không có ý nghĩa đối với
thang đo khoảng.
Bài 3 (Dạng 3) Một học sinh có điểm thi môn Tóan là 8.9 điểm (thang điểm 10) và
môn Anh Văn là 89 ( thang điểm 100). Hỏi học sinh học môn nào tốt hơn hay hai
môn như nhau? Biết với môn Anh văn 𝑋$ = 65, 𝑠 = 17 và môn Toán 𝑋$ = 5.7, 𝑠 =
1.6
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
ØPhương pháp 1. So sánh trung bình và trung vị
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
ØPhương pháp 1. So sánh trung bình và trung vị:
• Đôi khi, người ta chỉ cần so sánh trung bình và trung vị.
• Nếu Mean = MedX thì dữ liệu phân phối đối xứng.
• Nếu Mean < MedX thì dữ liệu lệch trái.
• Nếu Mean > MedX thì dữ liệu lệch phải.
Bài 1 (Dạng 1) Khảo sát một mẫu gồm 5 phần tử người ta thu được kết quả sau:
a) Tính Mean, Med, Mod
b) Tính Range, s2, s, CV
c) Mô tả hình dáng phân phối của tập dữ liệu

7 4 9 8 2
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
ØPhương pháp 2. Tính hệ số lệch Pearson (𝑆3 ):
üCông thức biểu diễn:
3 ( X - Med X )
Sk =
S
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
Chú ý:
• Hệ số lệch Pearson (𝑠3 ) càng có giá trị gần -3 thì phân phối dữ liệu
lệch trái.
• Hệ số lệch Pearson (𝑠3 ) càng có giá trị gần 3 thì phân phối dữ liệu lệch
phải.
• Hệ số lệch Pearson (𝑠3 ) càng có giá trị gần 0 thì phân phối dữ liệu đối
xứng.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
Ví dụ:
Giả sử ta có một phân phối có trung bình là 29, trung vị là 26 và độ lệch
chuẩn là 12.3. Hãy tính hệ số lệch Pearson và nêu nhận xét.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
2. Hình dáng dữ liệu:
Ví dụ:
Coefficient of Skewness Karl Pearson developed a measure that describes the skewness of a
distribution, called the coefficient of skewness. The formula is

The value of this measure generally lies between - 3 and + 3. The closer the value lies to -3, the more
the distribution is skewed left. The closer the value lies to + 3, the more the distribution is skewed
right. A value close to 0 indicates a symmetric distribution. Find the coefficient of skewness of the
following distributions and comment on the skewness.
(a) Mean = 50, median = 40, standard deviation = 10
(b) Mean = 100, median = 100, standard deviation = 15
(c) Mean = 400, median = 500, standard deviation = 120
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
Giá trị trong hộp chiếm 50% của dữ liệu từ 𝑄! đến 𝑄" .
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
ü Cách vẽ biểu đồ hộp và râu:
B1: Xác định Min, 𝑄! , median, 𝑄" , Max
B2: Xác định 5 giá trị lên hình.
B3: Tính điểm ngoại lệ:
• Nhỏ hơn: 𝑄! − 1.5𝑅#
• Lớn hơn: 𝑄" + 1.5𝑅#
B4: Vẽ biểu đồ hoàn chỉnh.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
Ví dụ:
Một nhà hàng ghi lại khoảng cách từ khách hàng đi từ nhà đến nhà hàng như
sau:
10, 10, 11, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25, 27, 27
Vẽ biểu đồ hộp và râu cho mẫu trên và nêu nhận xét.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
So sánh hai phân phối:
• Trong Spacelab Life Sciences 2, do Paul X. Callahan dẫn đầu, 14 con
chuột đực đã được đưa lên vũ trụ. Khối lượng hồng cầu (tính bằng
mililit) của chuột được xác định khi chúng quay trở lại. Một nhóm đối
chứng gồm 14 con chuột đực được giữ trong điều kiện tương tự (ngoại
trừ chuyến bay vào vũ trụ) như những con chuột không gian, và khối
lượng hồng cầu của chúng cũng được đo khi những con chuột không
gian quay trở lại. Khối lượng hồng cầu của chúng được mô phỏng trong
biểu đồ hộp và râu như sau:
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
So sánh hai phân phối:
Nêu nhận xét.
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
3. Biểu đồ hộp và râu (Box and Whisker Plot):
Chú ý:
Mối liên hệ giữa hai đồ thị:
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
4. Phân phối thực nghiệm của dữ liệu (Tuân theo phân phối chuẩn):
• Khoảng 1 lần độ lệch chuẩn hiệu chỉnh chiếm 66,67% dữ liệu
• Khoảng 2 lần độ lệch chuẩn hiệu chỉnh chiếm 95% dữ liệu
• Khoảng 3 lần độ lệch chuẩn hiệu chỉnh chiếm 99% dữ liệu
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
4. Phân phối thực nghiệm của dữ liệu (Tuân theo phân phối chuẩn):
The Empirical Rule The weight, in grams, of the pair of kidneys in
adult males between the ages of 40 and 49 has a bell-shaped distribution
with a mean of 325 grams and a standard deviation of 30 grams.
(a) About 95% of kidney pairs will be between what weights?
(b) What percentage of kidney pairs weighs between 235 grams and
415 grams?
(c) What percentage of kidney pairs weighs less than 235 grams or
more than 415 grams?
(d) What percentage of kidney pairs weighs between 295 grams and
385 grams?
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
5. Quy tắc Chebyshev (Dữ liệu thực nghiệm không theo phân phối
chuẩn):
#
Bất kỳ một tập dữ liệu nào biết 𝜇, 𝜎 thì sẽ có ít nhất 1 − " giá trị
-
quan sát tập trung trong khoảng 𝜇 ± 𝑚𝜎, chẳng hạn như
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
5. Ví dụ:
Chebyshev’s Inequality According to the U.S. Census Bureau, the
mean of the commute time to work for a resident of Boston,
Massachusetts, is 27.3 minutes. Assume that the standard deviation of
the commute time is 8.1 minutes to answer the following:
(a) What minimum percentage of commuters in Boston has a commute
time within 2 standard deviations of the mean?
(b) What minimum percentage of commuters in Boston has a commute
time within 1.5 standard deviations of the mean? What are the commute
times within 1.5 standard deviations of the mean?
(c) What is the minimum percentage of commuters who have commute
times between 3 minutes and 51.6 minutes?
III. Sự kết hợp giữa khuynh hướng đo
lường mức độ tập trung và phân tán:
Ví dụ:
Khảo sát ngẫu nhiên một mẫu 150 SV về kết quả học tập của họ, người ta
tính được các giá trị là 𝑥̅ = 6.5, 𝑠 = 5. Hỏi có bao nhiêu sinh viên có kết quả
học tập
a. Nằm trong khoảng (5, 8)
b. Nằm trong khoảng (3.5, 9.5)
Bài 1.6.2 Số lượng sản phẩm là 560 sản phẩm, trọng lượng trung bình là 120g,
mức độ dao động là 20g. Hỏi có bao nhiêu sản phẩm trong khoảng từ (100;
140g), giả sử trong lượng sản phẩm tuân theo phân phối chuẩn.
Bài 2 (Dạng 2) Một nhà sản xuất muốn so sánh đường kính của 2 loại lốp xe
hiện đang được sử dụng trên cùng 1 loại xe với đường kính nhà sản xuất
mong đợi sẽ là 575 mm trên mỗi loại xe. Số liệu về đường kính của 5 lốp xe
trên mỗi loại thu được như sau:
a) Tính Mean, Med, s của hai loại lốp X, Y
b) Loại lốp nào có chất lượng tốt hơn? Tại sao?
c) Nếu đối với Loại lốp Y giá trị 578 lúc này là 588 thì kết quả ở câu b sẽ
như thế nào? Giải thích

Loại lốp X 568 570 575 578 584

Loại lốp Y 573 574 575 577 578


Bài 1.6.1 Theo như 1 cuộc khảo sát về giá 1 căn hộ mới xây có diện tích
70m2 trên một mẫu gồm 200 người có nhu cầu mua nhà thì Med = 1,1 tỉ
đồng và Mean = 1,2 tỉ đồng.

a) Hãy giải thích giá trị Med.

b) Hãy giải thích giá trị Mean.

c) Mô tả về hình dáng giá bán của 1 căn hộ 70m2

You might also like