Professional Documents
Culture Documents
SPSS - Chuong 4
SPSS - Chuong 4
THỐNG KÊ MÔ TẢ
Trung vị ( Median)
Trung vị của một dãy số là giá trị ở vị trí chính giữa khi dãy
số đó được sắp xếp theo thứ tự từ nhỏ đến lớn ( hay ngược lại).
VD: Ta có dãy số ( 14, 17, -13, 41, 12)
- Sắp xếp lại theo thứ tự : -13, 12, 14, 17, 41
- Có tất cả 5 số : trung vị là 14
I. Các đại lượng về trung tâm
Trung vị ( Median)
Chú ý:
Một tập hợp số lượng quan sát chẵn không có giá trị
giữa riêng biệt thì trung vị là giá trị trung bình của hai
giá trị giữa.
Ví dụ: tập dữ liệu {1, 2, 3, 4, 5, 6, 8, 9 }
có giá trị trung vị là 4.5 nghĩa là (4 + 5) / 2
I. Các đại lượng về trung tâm
Yếu Vị ( Mod )
Yếu vị của một dãy số là giá trị có tần số xuất hiện thường
xuyên nhất ( nhiều lần nhất)
VD: Dãy dữ liệu (4,5,3,2,4,6,8,7,4) thì yếu vị là 4 vì nó xuất
hiện nhiều lần nhất.
I. Các đại lượng về trung tâm
Chú ý:
Một dãy số có thể có nhiều Mode
Một dãy số có thể không có Mode
I. Các đại lượng về trung tâm
Trong quá trình phân tích, khi các thước đo biểu diễn vị trí/xu
thế “trung tâm” (mean, median, mode) của 2 tập dữ liệu có giá
trị xấp xỉ bằng nhau, ta sẽ gặp khó khăn khi cần đưa ra nhận
xét, đánh giá sự khác biệt của 2 tập dữ liệu. Lúc này, các đại
lượng đo mức độ phân tán của dữ liệu sẽ có ích hơn trong việc
đánh giá.
II. Các đại lượng về độ phân tán
VD1: Tại phân vị thứ 80 của tập dữ liệu X có giá trị là 1m8
có nghĩa là:
Có 80% số quan sát có giá trị thấp hơn 1m8.
Và (100-80)=20% số quan sát có giá trị lớn hơn 1m8.
II. Các đại lượng về độ phân tán
Bách phân vị là một khoảng giá trị có tần số tăng dần (tần
số tích lũy) sau khi xử lý 1 dãy số liệu có thứ tự tăng dần.
Bách phân vị được thể hiện qua biểu đồ tần số tích lũy:
Trục tung: là % (0-100% được quy đổi từ tần số tích lũy)
Trục hoành: là dãy giá trị của các số hạng được sắp xếp
tăng dần.
II. Các đại lượng về độ phân tán
Bách phân vị (Percentile)
Nếu vị trí cắt ở giữa 2 số thì tứ phân vị là giá trị trung bình của 2
số đó
Ví dụ: dãy số chẵn (B): 1, 8, 3, 7, 5, 6, 6, 4, 3, 8
Sắp xếp theo thứ tự từ nhỏ đến lớn: 1, 3, 3, 4, 5, 6, 6, 7, 8, 8
· Quartile 1 (Q1) = 3
· Quartile 2 (Q2) = (5+6)/2 = 5.5
· Quartile 3 (Q3) = 7
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
Khoảng trải giữa (InterQuartile Range – IQR) hay còn gọi là
khoảng tứ phân vị của tập dữ liệu.
Khoảng trải giữa là một con số cho biết mức độ lan truyền của
nửa giữa hoặc 50% phần giữa của tập dữ liệu.
IQR thường được sử dụng thay cho khoảng biến thiên (Range)
vì nó loại trừ hầu hết giá trị bất thường hay giá trị ngoại lệ
(Outliers) của dữ liệu.
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
IQR có thể giúp xác định các giá trị ngoại lệ.
Một giá trị bị nghi ngờ là một giá trị ngoại lệ nếu nó nhỏ hơn
1,5*IQR dưới phần tư đầu tiên (Q1 - 1,5*IQR) hoặc lớn hơn
(1,5*IQR) trên phần tư thứ ba (Q3 + 1,5*IQR)
II. Các đại lượng về độ phân tán
Khoảng trải giữa (InterQuartile Range)
Tính IQR chuẩn xác,
Bước 3: Tìm trung vị của nửa trên và nửa dưới trong tập hợp dữ liệu.
Phương sai thường được ký hiệu theo tính chất của tập dữ
liệu:
- Đối với dữ liệu là một tổng thể: phương sai ký hiệu là σ2
Lưu ý:
Phương sai lớn cho thấy có nhiều sự biến động trong các giá
trị của tập dữ liệu và có thể có khoảng cách lớn hơn giữa giá
trị các quan sát với nhau.
Nếu tất cả các quan sát đứng gần nhau, phương sai sẽ nhỏ.
Tuy nhiên, việc giải thích giá trị phương sai một cách trực
quan sẽ khó hiểu hơn nhiều so với độ lệch chuẩn.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)
Nó cho biết trung bình mỗi giá trị nằm bao xa so với giá
trị trung bình.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)
Ứng dụng:
Độ lệch chuẩn thường được sử dụng như một thước đo
chính của sự thay đổi của các dữ liệu trong tập dữ liệu.
Độ lệch chuẩn được sử dụng cho một số lĩnh vực như kiểm
soát chất lượng sản phẩm, dự báo thời tiết, đo lường rủi ro
biến động trên thị trường tài chính.
II. Các đại lượng về độ phân tán
Độ lệch chuẩn(Standard deviation)
Lưu ý:
Hạn chế lớn nhất của việc sử dụng độ lệch chuẩn là
nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ và các
giá trị âm.
III.Các đại lượng về hình dáng phân phối
Biểu đồ Histogram
Độ lệch (skewness) là thước đo mức độ đối xứng, bất đối xứng của
một phân phối.
Một phân phối, hoặc tập dữ liệu được xem là đối xứng nếu nó giống
nhau ở bên trái và bên phải điểm trung tâm.
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
Giá trị trung bình > Giá trị trung vị: được gọi là độ lệch tích cực
Đuôi bên PHẢI dài hơn đuôi bên trái
Giá trị LỚN (outliers) đẩy giá trị trung bình về phía CUỐI
(Ví dụ như đo lường thu nhập cá nhân, điều này chỉ ra 1 số ít người thu
nhập quá cao trong tập dữ liệu)
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
Giá trị trung bình = Giá trị trung vị = Yếu vị: được gọi là phân phối đối
xứng hay Symetrical distribution
Giá trị trung bình < Giá trị trung vị: được gọi là độ lệch tiêu cực hay
Negative Skewness):
- Đuôi bên TRÁI dài hơn đuôi bên phải
- Giá trị NHỎ (outliers) đẩy mean về phía ĐẦU
III.Các đại lượng về hình dáng phân phối
Độ lệch (skewness)
Ứng dụng trong phân tích dữ liệu
Độ lệch là một đại lượng thống kê mô tả được sử dụng kết hợp
với biểu đồ để mô tả phân phối của tập dữ liệu.
Nhiều mô hình giả định phân phối chuẩn, có nghĩa là dữ liệu đối
xứng 2 bên.
Nhưng trong thực tế, các điểm dữ liệu có thể không đối xứng
hoàn toàn. Vì vậy, sự hiểu biết về độ lệch của tập dữ liệu sẽ cho
biết liệu độ lệch so với giá trị trung bình là tích cực hay tiêu cực.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
Độ nhọn (kurtosis) :một đại lượng thống kê mô tả mức độ tập trung
của các quan sát ở phần đuôi hoặc đỉnh của phân phân phối.
Đỉnh là phần cao nhất của phân phối và đuôi là phần cuối của phân
phối.
Các tập dữ liệu có hệ số kurtosis cao có xu hướng dữ liệu tập trung về
phần đuôi hoặc phần dữ liệu ngoại lệ.
Các tập dữ liệu có hệ số kurtosis thấp có xu hướng dữ liệu tập trung
quanh vị trí trung tâm và có thể không có dữ liệu ngoại lệ.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
Platykurtic (Hệ số Kurt < 0): "Platy-" có nghĩa là "rộng", phân phối
này là một đường cong có đỉnh phẳng và đuôi mỏng hơn tức nhiều
điểm phân tán hơn. Hệ số Kurt của Platykurtic phẳng hơn khi so
sánh với phân phối chuẩn.
Leptokurtic (Hệ số Kurt > 0): "Lepto-" có nghĩa là "mảnh mai",
phân phối này có đỉnh cao hơn và đuôi to hơn so với phân phối
chuẩn.
III.Các đại lượng về hình dáng phân phối
Độ nhọn (kurtosis)
Chú thích:
[1] Dữ liệu ngoại lệ (Outliers) là một điểm dữ liệu có sự khác biệt đáng
kể so với các quan sát khác.
Dữ liệu ngoại lệ có thể xuất hiện do sự thay đổi thang đo hoặc do lỗi từ
dữ liệu thu thập (thông thường dữ liệu ngoại lệ dạng này sẽ bị loại khỏi
tập dữ liệu).
Một giá trị ngoại lệ có thể gây ra vấn đề nghiêm trọng trong quá trình
phân tích dữ liệu.