Professional Documents
Culture Documents
Phân tích đơn biến
Phân tích đơn biến
VD1: Xem ở độ tuổi nào thì đa số kiếm được mức lương cao hơn.
Giải thích:
- Đa số mọi người sẽ bắt đầu làm việc từ năm 20 tuổi trở lên nên phần bên trái sẽ
bị “thiếu”.
- Độ tuổi kiếm được mức lương cao nhất rơi vào khoảng 40-50 tuổi.
- Từ 55-60 tuổi, là độ tuổi nghỉ hưu nên mức lương sẽ giảm dần.
*Giá trị ngoại lai: Đây là dạng phân phối có một phân phối tách biệt với các dữ
liệu còn lại. Hòn đảo nhỏ này được gọi là những giá trị ngoại lai.
- Đối với nam thì trình độ học vấn cao nhất là Bachelors (tốt nghiệp cử nhân từ
một trường đại học hoặc cao đẳng)
- Kế đến chiếm số lượng cao thứ 2 là some-college (đã có kinh nghiệm học tập ở
trường đại học hoặc cao đẳng, nhưng chưa hoàn thành chương trình học để đạt
được bằng cấp).
Giải thích:
- Đối với nữ, trình độ học vấn chiếm số lượng cao nhất là HS-grad (tốt nghiệp
trung học phổ thông ).
- Tuy nhiên, nếu so với với nam thì tỉ lệ nữ có trình độ học vấn cao (Bachelors)
vẫn còn kém xa.
- Tại Nhật Bản, trình độ học vấn Bachelors chiếm tỉ lệ cao nhất.
AGE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 28
Q2 (trung vị) 38
Q3 (tứ phân vị thứ ba) 49
Max (Giá trị lớn nhất) 79
+ Trung vị là 38.
IQR = Q3-Q1=49-28=21.
+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 79 – 18 = 61.
+ Nhận xét: đường trung vị chia chiếc hộp nửa phải lớn hơn (nửa trái) nên
tập dữ liệu bị lệch phải (right-skewed).
*Phân tích Phân tích các giá trị ngoại lai (outliers) và các giá trị bất thường
(anomalies) trong dữ liệu.
Điểm nằm ngoài Q3+1.5*IQR và Q3-1.5*IQR được gọi là giá trị ngoại lai.
VD5: Sự khác biệt về giờ làm việc trung bình của nam và nữ
Giải thích:
MALE
Min (Giá trị nhỏ nhất) 25
Q1 (tứ phân vị thứ nhất) 40
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 44
Max (Giá trị lớn nhất) 61
+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)
IQR = Q3-Q1=44-40=3.
+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 61 – 25 = 36.
FEMALE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 25
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 40
Max (Giá trị lớn nhất) 57
IQR = Q3-Q1=40-25=15.
+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 57 – 18 = 39.
Nhận xét:
- Giờ làm việc trung bình của nam và nữ có sự chênh lệch khá lớn.
- Giờ làm việc trung bình thấp nhất của nam là 25 và đối với nữ là 18.
- Giờ làm việc trung bình cao nhất của nam là 61 và đối với nữ là 57.
- Độ chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất của nữ cao hơn nam (39
>36)
- Khoảng biến thiên số phân tử (IQR) của nữ cao hơn nam (15>3)
*Phân tích Phân tích các giá trị ngoại lai (outliers) và các giá trị bất thường
(anomalies) trong dữ liệu.
Điểm nằm ngoài Q3+1.5*IQR và Q3-1.5*IQR được gọi là giá trị ngoại lai.
Male
Female
VD6: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“capital-gain – thu nhập cá nhân (chơi cổ phiếu, bất động sản,..)”
Giải thích:
- Người có thu nhập cá nhân thấp (dưới 25000) thì sẽ có số giờ trung bình
làm việc cao.
*Giá trị ngoại lai:
- Người có thu nhập cá nhân càng cao thì số giờ trung bình làm việc càng
thấp.
VD7: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“capital-loss – số tiền mất mát từ việc bán tài sản (nhà, cổ phiếu,..)”
Giải thích:
Người có khoảng tiền mất mát lớn càng lớn (1500-3000) thì có số giờ trung bình
làm việc càng cao.
VD8: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“age – tuổi” theo nhóm “sex-giới tính”.
Giải thích:
- Giới tính nữ tập trung nhiều ở mức giờ làm việc trung bình <50.
- Giới tính nam tập trung nhiều ở mức giờ làm việc trung bình >50.
- Độ tuổi nữ làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi.
- Độ tuổi nam làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi (giờ làm
việc trung bình >50) và từ độ tuổi 60 đến dưới 80 (giờ làm việc trung bình <50)