Download as pdf or txt
Download as pdf or txt
You are on page 1of 61

CHƯƠNG 4

THỐNG KÊ MÔ TẢ

ThS. Ngô Thị Lan


THỐNG KÊ MÔ TẢ
Thống kê mô tả (Descriptive Statistics) là các
phương pháp sử dụng để tóm tắt hoặc mô tả một
tập hợp dữ liệu, một mẫu nghiên cứu dưới dạng số
hay biểu đồ trực quan.
THỐNG KÊ MÔ TẢ
• Các công cụ số dùng để mô tả thường dùng nhất
là trung bình cộng và độ lệch chuẩn.
• Các công cụ trực quan thường dùng nhất là các
biểu đồ.
THỐNG KÊ MÔ TẢ
Thống kê mô tả trong nghiên cứu: 4 nhóm đại lượng
 Các đại lượng về trung tâm
 Các đại lượng về độ phân tán
 Các đại lượng về hình dáng phân phối
 Các đại lượng về sự tương quan
I. Các đại lượng về trung tâm

Ba thước đo được sử dụng rộng rãi nhằm biểu diễn một


giá trị thể hiện vị trí/xu thế “trung tâm” của tập dữ liệu
được giới thiệu:
• Trung bình (mean – trung tâm về mặt giá trị)
• Trung vị (median – trung tâm về mặt vị trí)
• Yếu vị (mode – trung tâm về mức độ tập trung dữ liệu).
I. Các đại lượng về trung tâm
I. Các đại lượng về trung tâm

Trung Bình (Mean)


Giá trị trung bình được hiểu là trung bình số học, được
tính bằng tổng các quan sát chia cho số lần quan sát.
I. Các đại lượng về trung tâm

Trung vị ( Median)
Trung vị của một dãy số là giá trị ở vị trí chính giữa khi dãy
số đó được sắp xếp theo thứ tự từ nhỏ đến lớn ( hay ngược lại).
VD: Ta có dãy số ( 14, 17, -13, 41, 12)
- Sắp xếp lại theo thứ tự : -13, 12, 14, 17, 41
- Có tất cả 5 số : trung vị là 14
I. Các đại lượng về trung tâm
Trung vị ( Median)

 Chú ý:
Một tập hợp số lượng quan sát chẵn không có giá trị
giữa riêng biệt thì trung vị là giá trị trung bình của hai
giá trị giữa.
Ví dụ: tập dữ liệu {1, 2, 3, 4, 5, 6, 8, 9 }
có giá trị trung vị là 4.5 nghĩa là (4 + 5) / 2
I. Các đại lượng về trung tâm

Yếu Vị ( Mod )
Yếu vị của một dãy số là giá trị có tần số xuất hiện thường
xuyên nhất ( nhiều lần nhất)
VD: Dãy dữ liệu (4,5,3,2,4,6,8,7,4) thì yếu vị là 4 vì nó xuất
hiện nhiều lần nhất.
I. Các đại lượng về trung tâm
Chú ý:
 Một dãy số có thể có nhiều Mode
 Một dãy số có thể không có Mode
I. Các đại lượng về trung tâm

VD : Mod được dùng để nghiên cứu nhu cầu thị trường về


kích cỡ sản phẩm.
Cửa hàng giày da trong tháng 9 đã bán được
II. Các đại lượng về độ phân tán

Trong quá trình phân tích, khi các thước đo biểu diễn vị trí/xu
thế “trung tâm” (mean, median, mode) của 2 tập dữ liệu có giá
trị xấp xỉ bằng nhau, ta sẽ gặp khó khăn khi cần đưa ra nhận
xét, đánh giá sự khác biệt của 2 tập dữ liệu. Lúc này, các đại
lượng đo mức độ phân tán của dữ liệu sẽ có ích hơn trong việc
đánh giá.
II. Các đại lượng về độ phân tán

Vì vậy 6 đại lượng đo mức độ phân tán của tập dữ liệu :


 Bách phân vị (Percentile)
 Tứ phân vị (Quartile)
 Khoảng biến thiên (Range)
 Khoảng trải giữa (InterQuartile Range)
 Phương sai (Variance)
 Độ lệch chuẩn (Standard deviation)
II. Các đại lượng về độ phân tán

Khoảng biến thiên (Range)


 Khoảng biến thiên (Range): là đại lượng đo mức độ trải
dài của một tập dữ liệu nhất định từ nhỏ nhất đến lớn
nhất.
 Khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá
trị nhỏ nhất.
II. Các đại lượng về độ phân tán

Công thức tính khoảng biến thiên:

Trong đó: R là khoảng biến thiên, xmax là giá trị lớn


nhất, xmin là giá trị nhỏ nhất
II. Các đại lượng về độ phân tán

Ví dụ: Cho tập dữ liệu X={2,4,5,6,7,8,9,12,15}.


Ta thấy giá trị lớn nhất của tập X là xmax=15 và giá trị nhỏ
nhất là xmin=2
=>Khoảng biến thiên R là:
II. Các đại lượng về độ phân tán
II. Các đại lượng về độ phân tán
Bách phân vị
II. Các đại lượng về độ phân tán
Bách phân vị (Percentile)

VD1: Tại phân vị thứ 80 của tập dữ liệu X có giá trị là 1m8
có nghĩa là:
 Có 80% số quan sát có giá trị thấp hơn 1m8.
 Và (100-80)=20% số quan sát có giá trị lớn hơn 1m8.
II. Các đại lượng về độ phân tán

 Bách phân vị là một khoảng giá trị có tần số tăng dần (tần
số tích lũy) sau khi xử lý 1 dãy số liệu có thứ tự tăng dần.
 Bách phân vị được thể hiện qua biểu đồ tần số tích lũy:
 Trục tung: là % (0-100% được quy đổi từ tần số tích lũy)
 Trục hoành: là dãy giá trị của các số hạng được sắp xếp
tăng dần.
II. Các đại lượng về độ phân tán
Bách phân vị (Percentile)

VD1: Ta có phân vị thứ p∈[0;100] và giá trị vp tại vị trí p thì:


có ít nhất p% các quan sát có giá trị ≤ vp
có ít nhất (100-p)% các quan sát có giá trị ≥ vp
II. Các đại lượng về độ phân tán
Bách phân vị (Percentile)

VD2: Trẻ có cân nặng ở vào bách phân vị thứ 20 có nghĩa


là:
- Bé đó cân nặng lớn hơn 20% những bé khác cũng tuổi
(trong 100 bé: nặng hơn 20 bé và nhẹ hơn 80 bé )
- Một bé có cân nặng ở bách phân vị thứ 5 thì cũng
hoàn toàn bình thường và khỏe mạnh như một bé có
cân nặng ở bách phân vị thứ 80.
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)

 Tứ phân vị (Quartile) là một trường hợp đặc biệt của


bách phân vị.
 Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ
nhì, và thứ ba.
 Ba giá trị này chia một tập hợp dữ liệu đã sắp xếp theo
thứ tự thành 4 phần có số lượng quan sát đều nhau.
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)

Cách xác định:


- Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới,
tương đương với bách phân vị thứ 25.
- Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung
vị, tương đương với bách phân vị thứ 50.
- Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên,
tương đương với bách phân vị thứ 75.
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)

VD :Một tập dữ liệu được cho như sau (1, 2, 5, 6, 7, 8, 12,


13, 14, 15, 200)
Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới,
phần dưới là các số (1, 2, 5, 6, 7), là số 5
Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung vị,
chính là số 8
Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên(12,
13, 14, 15, 200), là số 14
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)

Ví dụ: cho một tập hợp số dữ liệu lẻ (A): 5, 8, 4, 4, 6, 3, 8

Sắp xếp theo thứ tự từ nhỏ đến lớn: 3, 4, 4, 5, 6, 8, 8

Chia tập dữ liệu thành 4 phần bằng nhau:


· Quartile 1 (Q1) = 4
· Quartile 2 (Q2) = 5
· Quartile 3 (Q3) = 8
II. Các đại lượng về độ phân tán
Tứ phân vị (Quartile)

Nếu vị trí cắt ở giữa 2 số thì tứ phân vị là giá trị trung bình của 2
số đó
Ví dụ: dãy số chẵn (B): 1, 8, 3, 7, 5, 6, 6, 4, 3, 8
Sắp xếp theo thứ tự từ nhỏ đến lớn: 1, 3, 3, 4, 5, 6, 6, 7, 8, 8

· Quartile 1 (Q1) = 3
· Quartile 2 (Q2) = (5+6)/2 = 5.5
· Quartile 3 (Q3) = 7
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
 Khoảng trải giữa (InterQuartile Range – IQR) hay còn gọi là
khoảng tứ phân vị của tập dữ liệu.
 Khoảng trải giữa là một con số cho biết mức độ lan truyền của
nửa giữa hoặc 50% phần giữa của tập dữ liệu.
 IQR thường được sử dụng thay cho khoảng biến thiên (Range)
vì nó loại trừ hầu hết giá trị bất thường hay giá trị ngoại lệ
(Outliers) của dữ liệu.
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)

 IQR có thể giúp xác định các giá trị ngoại lệ.
 Một giá trị bị nghi ngờ là một giá trị ngoại lệ nếu nó nhỏ hơn
1,5*IQR dưới phần tư đầu tiên (Q1 - 1,5*IQR) hoặc lớn hơn
(1,5*IQR) trên phần tư thứ ba (Q3 + 1,5*IQR)
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
Tính IQR chuẩn xác,

Bước 1: sắp xếp tập dữ liệu theo thứ tự tăng dần

Bước 2: Tìm midpoint – điểm ở giữa của tập dữ liệu

Bước 3: Tìm trung vị của nửa trên và nửa dưới trong tập hợp dữ liệu.

Bước 4: Áp dụng công thức IQR = Q3 – Q1 để tìm độ trải giữa


II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)

Ví dụ 1: Cho một tập hợp số dữ liệu chẵn (A): 4 7 9 11 12 20.


Khi đó, trung điểm (midpoint) của tập hợp sẽ nằm giữa 9 và 11
như sau:
4 7 9 11 12 20
Từ đó, suy ra:
 Trung vị của nửa dưới = 7 (Q1)
 Trung vị của nửa trên = 12 (Q3)
 Như vậy, độ trải giữa (IQR) của tập hợp sẽ là: 12 – 7 = 5
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
Ví dụ 2: Cho một tập hợp số dữ liệu lẻ (B): 5 8 10 10 15 18 23.
Khi đó, trung điểm (midpoint) của tập hợp sẽ là 10, thể hiện như sau:

Từ đó, suy ra: 5 8 10 (10) 15 18 23

 (Vì tập Trung vị của nửa dưới = 8 (Q1)


 Trung vị của nửa trên = 18 (Q3)
hợp số dữ liệu lẻ, ta loại bỏ midpoint để tìm được trung vị
tương đối)
Như vậy, độ trải giữa (IQR) của tập hợp này là: 18 – 8 = 10
II. Các đại lượng về độ phân tán
Phương sai (Variance)

 Phương sai (Variance) là thước đo độ biến thiên của các


giá trị xung quanh giá trị trung bình số học của chúng, nó
cho biết các giá trị đó ở cách giá trị kỳ vọng bao xa.

 Một cách dễ hiểu hơn, phương sai sẽ cho biết mức độ


chênh lệch trong tập dữ liệu.
II. Các đại lượng về độ phân tán
Phương sai (Variance)

Phương sai thường được ký hiệu theo tính chất của tập dữ
liệu:
- Đối với dữ liệu là một tổng thể: phương sai ký hiệu là σ2

- Đối với dữ liệu là mẫu từ tổng thể: phương sai ký hiệu s2


II. Các đại lượng về độ phân tán
Phương sai (Variance)

 Ứng dụng:Phương sai được sử dụng trong các lĩnh vực


trong công nghiệp, phương sai biểu thị độ chính xác của
sản xuất;
 Trong chăn nuôi, nó biểu thị độ đồng đều của các con
gia súc;
 Trong trồng trọt, nó biểu thị mức độ ổn định của năng
suất…
II. Các đại lượng về độ phân tán
Phương sai (Variance)

Lưu ý:
 Phương sai lớn cho thấy có nhiều sự biến động trong các giá
trị của tập dữ liệu và có thể có khoảng cách lớn hơn giữa giá
trị các quan sát với nhau.
 Nếu tất cả các quan sát đứng gần nhau, phương sai sẽ nhỏ.
 Tuy nhiên, việc giải thích giá trị phương sai một cách trực
quan sẽ khó hiểu hơn nhiều so với độ lệch chuẩn.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)

 Độ lệch chuẩn (Standard deviation) là thước đo độ phân


tán của các giá trị trong một tập dữ liệu đã cho từ giá trị
trung bình của chúng.

 Nó cho biết trung bình mỗi giá trị nằm bao xa so với giá
trị trung bình.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)

Tương tự, độ lệch chuẩn cũng được ký hiệu:


- Đối với dữ liệu là một tổng thể: ký hiệu là σ .
- Đối với dữ liệu là mẫu từ tổng thể: ký hiệu là s .
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)

Ứng dụng:
 Độ lệch chuẩn thường được sử dụng như một thước đo
chính của sự thay đổi của các dữ liệu trong tập dữ liệu.
 Độ lệch chuẩn được sử dụng cho một số lĩnh vực như kiểm
soát chất lượng sản phẩm, dự báo thời tiết, đo lường rủi ro
biến động trên thị trường tài chính.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)

Lưu ý:
Hạn chế lớn nhất của việc sử dụng độ lệch chuẩn là
nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ và các
giá trị âm.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram

 Biểu đồ Histogram là một dạng biểu đồ cột được sử


dụng để mô tả trực quan sự phân bố tần suất cho
tập dữ liệu.
 Theo nguyên tắc, biểu đồ Histogram thường được
dùng cho tập dữ liệu từ 100 giá trị trở lên.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
Biểu đồ Histogram có thể cung cấp các thông tin:
 Trung tâm về mặt vị trí của tập dữ liệu.
 Độ phân tán của tập dữ liệu.
 Độ lệch của tập dữ liệu.
 Sự hiện diện của các giá trị ngoại lệ (outliers).
 Sự hiện diện của các yếu vị (mode) trong tập dữ liệu.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
 Các yếu tố này cung cấp dấu hiệu về mô hình phân phối thích
hợp cho tập dữ liệu.
 Đối với một biến rời rạc, biểu đồ thường có một thanh riêng
biệt cho mỗi giá trị. (VD: điểm của bài kiểm tra)
 Đối với một biến liên tục, cần chia khoảng các giá trị thành các
khoảng nhỏ, với các giá trị được nhóm lại với nhau.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
 Ví dụ: Có một danh sách thống kê 756 người theo độ tuổi.
Ta có thể muốn biết có bao nhiêu người theo từng nhóm
tuổi (tức là có bao nhiêu trẻ em, thanh niên, trung niên, cao
niên).
 Sự phân bố độ tuổi của nhóm người này được thực hiện
bằng cách nhóm tất cả vào các biến phân tổ theo độ tuổi và
sau đó đếm số người trong mỗi biến, ví dụ như bảng phân
tổ theo 5 năm, như sau:
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)

Độ lệch (skewness) là thước đo mức độ đối xứng, bất đối xứng của
một phân phối.
Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống
nhau ở bên trái và bên phải điểm trung tâm.
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)

Giá trị trung bình > Giá trị trung vị: được gọi là độ lệch tích cực
 Đuôi bên PHẢI dài hơn đuôi bên trái
 Giá trị LỚN (outliers) đẩy giá trị trung bình về phía CUỐI
(Ví dụ như đo lường thu nhập cá nhân, điều này chỉ ra 1 số ít người thu
nhập quá cao trong tập dữ liệu)
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)

 Giá trị trung bình = Giá trị trung vị = Yếu vị: được gọi là phân phối đối
xứng hay Symetrical distribution
 Giá trị trung bình < Giá trị trung vị: được gọi là độ lệch tiêu cực hay
Negative Skewness):
- Đuôi bên TRÁI dài hơn đuôi bên phải
- Giá trị NHỎ (outliers) đẩy mean về phía ĐẦU
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
Ứng dụng trong phân tích dữ liệu
 Độ lệch là một đại lượng thống kê mô tả được sử dụng kết hợp
với biểu đồ để mô tả phân phối của tập dữ liệu.
 Nhiều mô hình giả định phân phối chuẩn, có nghĩa là dữ liệu đối
xứng 2 bên.
 Nhưng trong thực tế, các điểm dữ liệu có thể không đối xứng
hoàn toàn. Vì vậy, sự hiểu biết về độ lệch của tập dữ liệu sẽ cho
biết liệu độ lệch so với giá trị trung bình là tích cực hay tiêu cực.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
 Độ nhọn (kurtosis) :một đại lượng thống kê mô tả mức độ tập trung
của các quan sát ở phần đuôi hoặc đỉnh của phân phân phối.
 Đỉnh là phần cao nhất của phân phối và đuôi là phần cuối của phân
phối.
 Các tập dữ liệu có hệ số kurtosis cao có xu hướng dữ liệu tập trung về
phần đuôi hoặc phần dữ liệu ngoại lệ.
 Các tập dữ liệu có hệ số kurtosis thấp có xu hướng dữ liệu tập trung
quanh vị trí trung tâm và có thể không có dữ liệu ngoại lệ.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)

Mesokurtic (Hệ số Kurt = 0): phân phối này có chiều rộng và


đường cong vừa phải với chiều cao đỉnh trung bình, tương ứng với
phân phối chuẩn.
Hệ số Kurt của Mesokurtic không cao cũng không thấp, thay vào
đó nó được coi là đường cơ sở cho hai cách phân loại Platykurtic
và Leptokurtic
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)

 Platykurtic (Hệ số Kurt < 0): "Platy-" có nghĩa là "rộng", phân phối
này là một đường cong có đỉnh phẳng và đuôi mỏng hơn tức nhiều
điểm phân tán hơn. Hệ số Kurt của Platykurtic phẳng hơn khi so
sánh với phân phối chuẩn.
 Leptokurtic (Hệ số Kurt > 0): "Lepto-" có nghĩa là "mảnh mai",
phân phối này có đỉnh cao hơn và đuôi to hơn so với phân phối
chuẩn.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)

– Ứng dụng trong phân tích dữ liệu


 Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề
nào liên quan đến các giá trị ngoại lệ trong tập dữ liệu hay không.
 Hệ số kurtosis lớn cho thấy tập dữ liệu gặp vấn đề nghiêm trọng
đối với các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn
các phương pháp thống kê thay thế.
III.Các đại lượng về hình dáng phân phối

Chú thích:
 [1] Dữ liệu ngoại lệ (Outliers) là một điểm dữ liệu có sự khác biệt đáng
kể so với các quan sát khác.
 Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ
dữ liệu thu thập (thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi
tập dữ liệu).
 Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình
phân tích dữ liệu.

You might also like