SPSS - Chuong 4

CHƯƠNG 4
THỐNG KÊ MÔ TẢ
ThS. Ngô Thị Lan

Thống kê mô tả (Descriptive Statistics) là các
phương pháp sử dụng để tóm tắt hoặc mô tả một
tập hợp dữ liệu, một mẫu nghiên cứu dưới dạng số
hay biểu đồ trực quan.
• Các công cụ số dùng để mô tả thường dùng nhất
là trung bình cộng và độ lệch chuẩn.
• Các công cụ trực quan thường dùng nhất là các
biểu đồ.
Thống kê mô tả trong nghiên cứu: 4 nhóm đại lượng
 Các đại lượng về trung tâm
 Các đại lượng về độ phân tán
 Các đại lượng về hình dáng phân phối
 Các đại lượng về sự tương quan
I. Các đại lượng về trung tâm
Ba thước đo được sử dụng rộng rãi nhằm biểu diễn một

giá trị thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu
được giới thiệu:
• Trung bình (mean – trung tâm về mặt giá trị)
• Trung vị (median – trung tâm về mặt vị trí)
• Yếu vị (mode – trung tâm về mức độ tập trung dữ liệu).
Trung Bình (Mean)

Giá trị trung bình được hiểu là trung bình số học, được
tính bằng tổng các quan sát chia cho số lần quan sát.
Trung vị ( Median)
Trung vị của một dãy số là giá trị ở vị trí chính giữa khi dãy
số đó được sắp xếp theo thứ tự từ nhỏ đến lớn ( hay ngược lại).
VD: Ta có dãy số ( 14, 17, -13, 41, 12)
- Sắp xếp lại theo thứ tự : -13, 12, 14, 17, 41
- Có tất cả 5 số : trung vị là 14
Trung vị ( Median)
 Chú ý:
Một tập hợp số lượng quan sát chẵn không có giá trị
giữa riêng biệt thì trung vị là giá trị trung bình của hai
giá trị giữa.
Ví dụ: tập dữ liệu {1, 2, 3, 4, 5, 6, 8, 9 }
có giá trị trung vị là 4.5 nghĩa là (4 + 5) / 2
Yếu Vị ( Mod )
Yếu vị của một dãy số là giá trị có tần số xuất hiện thường
xuyên nhất ( nhiều lần nhất)
VD: Dãy dữ liệu (4,5,3,2,4,6,8,7,4) thì yếu vị là 4 vì nó xuất
hiện nhiều lần nhất.
Chú ý:
 Một dãy số có thể có nhiều Mode
 Một dãy số có thể không có Mode
VD : Mod được dùng để nghiên cứu nhu cầu thị trường về

kích cỡ sản phẩm.
Cửa hàng giày da trong tháng 9 đã bán được
II. Các đại lượng về độ phân tán
Trong quá trình phân tích, khi các thước đo biểu diễn vị trí/xu
thế “trung tâm” (mean, median, mode) của 2 tập dữ liệu có giá
trị xấp xỉ bằng nhau, ta sẽ gặp khó khăn khi cần đưa ra nhận
xét, đánh giá sự khác biệt của 2 tập dữ liệu. Lúc này, các đại
lượng đo mức độ phân tán của dữ liệu sẽ có ích hơn trong việc
đánh giá.
Vì vậy 6 đại lượng đo mức độ phân tán của tập dữ liệu :

 Bách phân vị (Percentile)
 Tứ phân vị (Quartile)
 Khoảng biến thiên (Range)
 Khoảng trải giữa (InterQuartile Range)
 Phương sai (Variance)
 Độ lệch chuẩn (Standard deviation)
Khoảng biến thiên (Range)

 Khoảng biến thiên (Range): là đại lượng đo mức độ trải
dài của một tập dữ liệu nhất định từ nhỏ nhất đến lớn
nhất.
 Khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá
trị nhỏ nhất.
Công thức tính khoảng biến thiên:
Trong đó: R là khoảng biến thiên, xmax là giá trị lớn

nhất, xmin là giá trị nhỏ nhất
Ví dụ: Cho tập dữ liệu X={2,4,5,6,7,8,9,12,15}.

Ta thấy giá trị lớn nhất của tập X là xmax=15 và giá trị nhỏ
nhất là xmin=2
=>Khoảng biến thiên R là:
Bách phân vị
Bách phân vị (Percentile)
VD1: Tại phân vị thứ 80 của tập dữ liệu X có giá trị là 1m8
có nghĩa là:
 Có 80% số quan sát có giá trị thấp hơn 1m8.
 Và (100-80)=20% số quan sát có giá trị lớn hơn 1m8.
 Bách phân vị là một khoảng giá trị có tần số tăng dần (tần
số tích lũy) sau khi xử lý 1 dãy số liệu có thứ tự tăng dần.
 Bách phân vị được thể hiện qua biểu đồ tần số tích lũy:
 Trục tung: là % (0-100% được quy đổi từ tần số tích lũy)
 Trục hoành: là dãy giá trị của các số hạng được sắp xếp
tăng dần.
VD1: Ta có phân vị thứ p∈[0;100] và giá trị vp tại vị trí p thì:

có ít nhất p% các quan sát có giá trị ≤ vp
có ít nhất (100-p)% các quan sát có giá trị ≥ vp
VD2: Trẻ có cân nặng ở vào bách phân vị thứ 20 có nghĩa

là:
- Bé đó cân nặng lớn hơn 20% những bé khác cũng tuổi
(trong 100 bé: nặng hơn 20 bé và nhẹ hơn 80 bé )
- Một bé có cân nặng ở bách phân vị thứ 5 thì cũng
hoàn toàn bình thường và khỏe mạnh như một bé có
cân nặng ở bách phân vị thứ 80.
Tứ phân vị (Quartile)
 Tứ phân vị (Quartile) là một trường hợp đặc biệt của

bách phân vị.
 Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ
nhì, và thứ ba.
 Ba giá trị này chia một tập hợp dữ liệu đã sắp xếp theo
thứ tự thành 4 phần có số lượng quan sát đều nhau.
Cách xác định:

- Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới,
tương đương với bách phân vị thứ 25.
- Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung
vị, tương đương với bách phân vị thứ 50.
- Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên,
tương đương với bách phân vị thứ 75.
VD :Một tập dữ liệu được cho như sau (1, 2, 5, 6, 7, 8, 12,

13, 14, 15, 200)
Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới,
phần dưới là các số (1, 2, 5, 6, 7), là số 5
Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung vị,
chính là số 8
Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên(12,
13, 14, 15, 200), là số 14
Ví dụ: cho một tập hợp số dữ liệu lẻ (A): 5, 8, 4, 4, 6, 3, 8
Sắp xếp theo thứ tự từ nhỏ đến lớn: 3, 4, 4, 5, 6, 8, 8
Chia tập dữ liệu thành 4 phần bằng nhau:

· Quartile 1 (Q1) = 4
Nếu vị trí cắt ở giữa 2 số thì tứ phân vị là giá trị trung bình của 2
số đó
Ví dụ: dãy số chẵn (B): 1, 8, 3, 7, 5, 6, 6, 4, 3, 8
Sắp xếp theo thứ tự từ nhỏ đến lớn: 1, 3, 3, 4, 5, 6, 6, 7, 8, 8
· Quartile 2 (Q2) = (5+6)/2 = 5.5
Khoảng trải giữa (InterQuartile Range)
 Khoảng trải giữa (InterQuartile Range – IQR) hay còn gọi là
khoảng tứ phân vị của tập dữ liệu.
 Khoảng trải giữa là một con số cho biết mức độ lan truyền của
nửa giữa hoặc 50% phần giữa của tập dữ liệu.
 IQR thường được sử dụng thay cho khoảng biến thiên (Range)
vì nó loại trừ hầu hết giá trị bất thường hay giá trị ngoại lệ
(Outliers) của dữ liệu.
 IQR có thể giúp xác định các giá trị ngoại lệ.
 Một giá trị bị nghi ngờ là một giá trị ngoại lệ nếu nó nhỏ hơn
1,5*IQR dưới phần tư đầu tiên (Q1 - 1,5*IQR) hoặc lớn hơn
(1,5*IQR) trên phần tư thứ ba (Q3 + 1,5*IQR)
Tính IQR chuẩn xác,
Bước 1: sắp xếp tập dữ liệu theo thứ tự tăng dần
Bước 2: Tìm midpoint – điểm ở giữa của tập dữ liệu
Bước 3: Tìm trung vị của nửa trên và nửa dưới trong tập hợp dữ liệu.
Bước 4: Áp dụng công thức IQR = Q3 – Q1 để tìm độ trải giữa

Ví dụ 1: Cho một tập hợp số dữ liệu chẵn (A): 4 7 9 11 12 20.

Khi đó, trung điểm (midpoint) của tập hợp sẽ nằm giữa 9 và 11
như sau:
4 7 9 11 12 20
Từ đó, suy ra:
 Trung vị của nửa dưới = 7 (Q1)
 Trung vị của nửa trên = 12 (Q3)
 Như vậy, độ trải giữa (IQR) của tập hợp sẽ là: 12 – 7 = 5
Ví dụ 2: Cho một tập hợp số dữ liệu lẻ (B): 5 8 10 10 15 18 23.
Khi đó, trung điểm (midpoint) của tập hợp sẽ là 10, thể hiện như sau:
Từ đó, suy ra: 5 8 10 (10) 15 18 23
 (Vì tập Trung vị của nửa dưới = 8 (Q1)

 Trung vị của nửa trên = 18 (Q3)
hợp số dữ liệu lẻ, ta loại bỏ midpoint để tìm được trung vị
tương đối)
Như vậy, độ trải giữa (IQR) của tập hợp này là: 18 – 8 = 10
Phương sai (Variance)
 Phương sai (Variance) là thước đo độ biến thiên của các

giá trị xung quanh giá trị trung bình số học của chúng, nó
cho biết các giá trị đó ở cách giá trị kỳ vọng bao xa.
 Một cách dễ hiểu hơn, phương sai sẽ cho biết mức độ

chênh lệch trong tập dữ liệu.
Phương sai thường được ký hiệu theo tính chất của tập dữ
liệu:
- Đối với dữ liệu là một tổng thể: phương sai ký hiệu là σ2
- Đối với dữ liệu là mẫu từ tổng thể: phương sai ký hiệu s2

 Ứng dụng:Phương sai được sử dụng trong các lĩnh vực

trong công nghiệp, phương sai biểu thị độ chính xác của
sản xuất;
 Trong chăn nuôi, nó biểu thị độ đồng đều của các con
gia súc;
 Trong trồng trọt, nó biểu thị mức độ ổn định của năng
suất…
Lưu ý:
 Phương sai lớn cho thấy có nhiều sự biến động trong các giá
trị của tập dữ liệu và có thể có khoảng cách lớn hơn giữa giá
trị các quan sát với nhau.
 Nếu tất cả các quan sát đứng gần nhau, phương sai sẽ nhỏ.
 Tuy nhiên, việc giải thích giá trị phương sai một cách trực
quan sẽ khó hiểu hơn nhiều so với độ lệch chuẩn.
Độ lệch chuẩn(Standard deviation)
 Độ lệch chuẩn (Standard deviation) là thước đo độ phân

tán của các giá trị trong một tập dữ liệu đã cho từ giá trị
trung bình của chúng.
 Nó cho biết trung bình mỗi giá trị nằm bao xa so với giá
trị trung bình.
Tương tự, độ lệch chuẩn cũng được ký hiệu:

- Đối với dữ liệu là một tổng thể: ký hiệu là σ .
- Đối với dữ liệu là mẫu từ tổng thể: ký hiệu là s .
Ứng dụng:
 Độ lệch chuẩn thường được sử dụng như một thước đo
chính của sự thay đổi của các dữ liệu trong tập dữ liệu.
 Độ lệch chuẩn được sử dụng cho một số lĩnh vực như kiểm
soát chất lượng sản phẩm, dự báo thời tiết, đo lường rủi ro
biến động trên thị trường tài chính.
Lưu ý:
Hạn chế lớn nhất của việc sử dụng độ lệch chuẩn là
nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ và các
giá trị âm.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
 Biểu đồ Histogram là một dạng biểu đồ cột được sử

dụng để mô tả trực quan sự phân bố tần suất cho
tập dữ liệu.
 Theo nguyên tắc, biểu đồ Histogram thường được
dùng cho tập dữ liệu từ 100 giá trị trở lên.
Biểu đồ Histogram có thể cung cấp các thông tin:
 Trung tâm về mặt vị trí của tập dữ liệu.
 Độ phân tán của tập dữ liệu.
 Độ lệch của tập dữ liệu.
 Sự hiện diện của các giá trị ngoại lệ (outliers).
 Sự hiện diện của các yếu vị (mode) trong tập dữ liệu.
 Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích
hợp cho tập dữ liệu.
 Đối với một biến rời rạc, biểu đồ thường có một thanh riêng
biệt cho mỗi giá trị. (VD: điểm của bài kiểm tra)
 Đối với một biến liên tục, cần chia khoảng các giá trị thành các
khoảng nhỏ, với các giá trị được nhóm lại với nhau.
 Ví dụ: Có một danh sách thống kê 756 người theo độ tuổi.
Ta có thể muốn biết có bao nhiêu người theo từng nhóm
tuổi (tức là có bao nhiêu trẻ em, thanh niên, trung niên, cao
niên).
 Sự phân bố độ tuổi của nhóm người này được thực hiện
bằng cách nhóm tất cả vào các biến phân tổ theo độ tuổi và
sau đó đếm số người trong mỗi biến, ví dụ như bảng phân
tổ theo 5 năm, như sau:
Độ lệch (skewness)
Độ lệch (skewness) là thước đo mức độ đối xứng, bất đối xứng của
một phân phối.
Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống
nhau ở bên trái và bên phải điểm trung tâm.
Giá trị trung bình > Giá trị trung vị: được gọi là độ lệch tích cực
 Đuôi bên PHẢI dài hơn đuôi bên trái
 Giá trị LỚN (outliers) đẩy giá trị trung bình về phía CUỐI
(Ví dụ như đo lường thu nhập cá nhân, điều này chỉ ra 1 số ít người thu
nhập quá cao trong tập dữ liệu)
 Giá trị trung bình = Giá trị trung vị = Yếu vị: được gọi là phân phối đối
xứng hay Symetrical distribution
 Giá trị trung bình < Giá trị trung vị: được gọi là độ lệch tiêu cực hay
Negative Skewness):
- Đuôi bên TRÁI dài hơn đuôi bên phải
- Giá trị NHỎ (outliers) đẩy mean về phía ĐẦU
Ứng dụng trong phân tích dữ liệu
 Độ lệch là một đại lượng thống kê mô tả được sử dụng kết hợp
với biểu đồ để mô tả phân phối của tập dữ liệu.
 Nhiều mô hình giả định phân phối chuẩn, có nghĩa là dữ liệu đối
xứng 2 bên.
 Nhưng trong thực tế, các điểm dữ liệu có thể không đối xứng
hoàn toàn. Vì vậy, sự hiểu biết về độ lệch của tập dữ liệu sẽ cho
biết liệu độ lệch so với giá trị trung bình là tích cực hay tiêu cực.
Độ nhọn (kurtosis)
 Độ nhọn (kurtosis) :một đại lượng thống kê mô tả mức độ tập trung
của các quan sát ở phần đuôi hoặc đỉnh của phân phân phối.
 Đỉnh là phần cao nhất của phân phối và đuôi là phần cuối của phân
phối.
 Các tập dữ liệu có hệ số kurtosis cao có xu hướng dữ liệu tập trung về
phần đuôi hoặc phần dữ liệu ngoại lệ.
 Các tập dữ liệu có hệ số kurtosis thấp có xu hướng dữ liệu tập trung
quanh vị trí trung tâm và có thể không có dữ liệu ngoại lệ.
Mesokurtic (Hệ số Kurt = 0): phân phối này có chiều rộng và

đường cong vừa phải với chiều cao đỉnh trung bình, tương ứng với
phân phối chuẩn.
Hệ số Kurt của Mesokurtic không cao cũng không thấp, thay vào
đó nó được coi là đường cơ sở cho hai cách phân loại Platykurtic
và Leptokurtic
 Platykurtic (Hệ số Kurt < 0): "Platy-" có nghĩa là "rộng", phân phối
này là một đường cong có đỉnh phẳng và đuôi mỏng hơn tức nhiều
điểm phân tán hơn. Hệ số Kurt của Platykurtic phẳng hơn khi so
sánh với phân phối chuẩn.
 Leptokurtic (Hệ số Kurt > 0): "Lepto-" có nghĩa là "mảnh mai",
phân phối này có đỉnh cao hơn và đuôi to hơn so với phân phối
chuẩn.
– Ứng dụng trong phân tích dữ liệu

 Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề
nào liên quan đến các giá trị ngoại lệ trong tập dữ liệu hay không.
 Hệ số kurtosis lớn cho thấy tập dữ liệu gặp vấn đề nghiêm trọng
đối với các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn
các phương pháp thống kê thay thế.
Chú thích:
 [1] Dữ liệu ngoại lệ (Outliers) là một điểm dữ liệu có sự khác biệt đáng
kể so với các quan sát khác.
 Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ
dữ liệu thu thập (thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi
tập dữ liệu).
 Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình
phân tích dữ liệu.

SPSS - Chuong 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SPSS - Chuong 4

Uploaded by

Copyright:

Available Formats

CHƯƠNG 4

ThS. Ngô Thị Lan

Ba thước đo được sử dụng rộng rãi nhằm biểu diễn một

Trung Bình (Mean)

VD : Mod được dùng để nghiên cứu nhu cầu thị trường về

Vì vậy 6 đại lượng đo mức độ phân tán của tập dữ liệu :

Khoảng biến thiên (Range)

Công thức tính khoảng biến thiên:

Trong đó: R là khoảng biến thiên, xmax là giá trị lớn

Ví dụ: Cho tập dữ liệu X={2,4,5,6,7,8,9,12,15}.

VD1: Ta có phân vị thứ p∈[0;100] và giá trị vp tại vị trí p thì:

VD2: Trẻ có cân nặng ở vào bách phân vị thứ 20 có nghĩa

 Tứ phân vị (Quartile) là một trường hợp đặc biệt của

Cách xác định:

VD :Một tập dữ liệu được cho như sau (1, 2, 5, 6, 7, 8, 12,

Ví dụ: cho một tập hợp số dữ liệu lẻ (A): 5, 8, 4, 4, 6, 3, 8

Sắp xếp theo thứ tự từ nhỏ đến lớn: 3, 4, 4, 5, 6, 8, 8

Chia tập dữ liệu thành 4 phần bằng nhau:

Bước 1: sắp xếp tập dữ liệu theo thứ tự tăng dần

Bước 2: Tìm midpoint – điểm ở giữa của tập dữ liệu

Bước 4: Áp dụng công thức IQR = Q3 – Q1 để tìm độ trải giữa

Ví dụ 1: Cho một tập hợp số dữ liệu chẵn (A): 4 7 9 11 12 20.

Từ đó, suy ra: 5 8 10 (10) 15 18 23

 (Vì tập Trung vị của nửa dưới = 8 (Q1)

 Phương sai (Variance) là thước đo độ biến thiên của các

 Một cách dễ hiểu hơn, phương sai sẽ cho biết mức độ

- Đối với dữ liệu là mẫu từ tổng thể: phương sai ký hiệu s2

 Ứng dụng:Phương sai được sử dụng trong các lĩnh vực

 Độ lệch chuẩn (Standard deviation) là thước đo độ phân

Tương tự, độ lệch chuẩn cũng được ký hiệu:

 Biểu đồ Histogram là một dạng biểu đồ cột được sử

Mesokurtic (Hệ số Kurt = 0): phân phối này có chiều rộng và

– Ứng dụng trong phân tích dữ liệu

You might also like