Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 13

2.2.2.

Phân tích đơn biến

VD1: Xem ở độ tuổi nào thì đa số kiếm được mức lương cao hơn.

Giải thích:

- Đa số mọi người sẽ bắt đầu làm việc từ năm 20 tuổi trở lên nên phần bên trái sẽ
bị “thiếu”.

- Độ tuổi kiếm được mức lương cao nhất rơi vào khoảng 40-50 tuổi.
- Từ 55-60 tuổi, là độ tuổi nghỉ hưu nên mức lương sẽ giảm dần.

*Giá trị ngoại lai: Đây là dạng phân phối có một phân phối tách biệt với các dữ
liệu còn lại. Hòn đảo nhỏ này được gọi là những giá trị ngoại lai.

VD2: Biểu đồ phân phối mật độ tuổi


VD3: Giáo dục đại học cho nam giới và phụ nữ
Giải thích:

- Đối với nam thì trình độ học vấn cao nhất là Bachelors (tốt nghiệp cử nhân từ
một trường đại học hoặc cao đẳng)

- Kế đến chiếm số lượng cao thứ 2 là some-college (đã có kinh nghiệm học tập ở
trường đại học hoặc cao đẳng, nhưng chưa hoàn thành chương trình học để đạt
được bằng cấp).
Giải thích:

- Đối với nữ, trình độ học vấn chiếm số lượng cao nhất là HS-grad (tốt nghiệp
trung học phổ thông ).

- Tiếp đến là trình độ Bachelors chiếm tỉ lệ cao thứ 2.

- Tuy nhiên, nếu so với với nam thì tỉ lệ nữ có trình độ học vấn cao (Bachelors)
vẫn còn kém xa.

VD3: Phân bố giáo dục tại Nhật Bản


Giải thích:

- Tại Nhật Bản, trình độ học vấn Bachelors chiếm tỉ lệ cao nhất.

- Đứng vị trí thứ 2 và thứ 3 lần lượt là HS-grad và Some-college.

Biểu đồ Box plot.


VD4: Biểu đồ box plot cho biến “age”.
Giải thích:

AGE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 28
Q2 (trung vị) 38
Q3 (tứ phân vị thứ ba) 49
Max (Giá trị lớn nhất) 79

+ Trung vị là 38.

+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)

IQR = Q3-Q1=49-28=21.

+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 79 – 18 = 61.

+ Nhận xét: đường trung vị chia chiếc hộp nửa phải lớn hơn (nửa trái) nên
tập dữ liệu bị lệch phải (right-skewed).
*Phân tích Phân tích các giá trị ngoại lai (outliers) và các giá trị bất thường
(anomalies) trong dữ liệu.

Điểm nằm ngoài Q3+1.5*IQR và Q3-1.5*IQR được gọi là giá trị ngoại lai.

Q3+1.5*IQR = 49 + 1.5*21 = 80.5

Q3-1.5*IQR = 49 – 1.5*21 = 17.5

VD5: Sự khác biệt về giờ làm việc trung bình của nam và nữ
Giải thích:

MALE
Min (Giá trị nhỏ nhất) 25
Q1 (tứ phân vị thứ nhất) 40
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 44
Max (Giá trị lớn nhất) 61
+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)

IQR = Q3-Q1=44-40=3.

+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 61 – 25 = 36.

FEMALE
Min (Giá trị nhỏ nhất) 18
Q1 (tứ phân vị thứ nhất) 25
Q2 (trung vị)
Q3 (tứ phân vị thứ ba) 40
Max (Giá trị lớn nhất) 57

+ Khoảng biến thiên số phân tử (Interquartile Range - IQR)

IQR = Q3-Q1=40-25=15.

+ Khoảng cách giữa giá trị lớn nhất và nhỏ nhất là 57 – 18 = 39.

Nhận xét:

- Giờ làm việc trung bình của nam và nữ có sự chênh lệch khá lớn.

- Nam có giờ làm việc trung bình cao hơn nữ.

- Giờ làm việc trung bình thấp nhất của nam là 25 và đối với nữ là 18.

- Giờ làm việc trung bình cao nhất của nam là 61 và đối với nữ là 57.

- Độ chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất của nữ cao hơn nam (39
>36)

- Khoảng biến thiên số phân tử (IQR) của nữ cao hơn nam (15>3)
*Phân tích Phân tích các giá trị ngoại lai (outliers) và các giá trị bất thường
(anomalies) trong dữ liệu.

Điểm nằm ngoài Q3+1.5*IQR và Q3-1.5*IQR được gọi là giá trị ngoại lai.

Male

Q3+1.5*IQR = 44 + 1.5*3 = 48.5

Q3-1.5*IQR = 44 – 1.5*3 = 39.5

Female

Q3+1.5*IQR = 40 + 1.5*15 = 62.5

Q3-1.5*IQR = 40 – 1.5*15 = 17.5

VD6: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“capital-gain – thu nhập cá nhân (chơi cổ phiếu, bất động sản,..)”

Giải thích:

- Người có thu nhập cá nhân thấp (dưới 25000) thì sẽ có số giờ trung bình
làm việc cao.
*Giá trị ngoại lai:

- Người có thu nhập cá nhân càng cao thì số giờ trung bình làm việc càng
thấp.

VD7: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“capital-loss – số tiền mất mát từ việc bán tài sản (nhà, cổ phiếu,..)”
Giải thích:

Người có khoảng tiền mất mát lớn càng lớn (1500-3000) thì có số giờ trung bình
làm việc càng cao.

VD8: Mối tương quan giữa “hours-per-week – giờ trung bình làm việc” và
“age – tuổi” theo nhóm “sex-giới tính”.

Giải thích:

- Giới tính nữ tập trung nhiều ở mức giờ làm việc trung bình <50.

- Giới tính nam tập trung nhiều ở mức giờ làm việc trung bình >50.

- Độ tuổi nữ làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi.

- Độ tuổi nam làm việc nhiều rơi vào khoảng 20 đến dưới 60 tuổi (giờ làm
việc trung bình >50) và từ độ tuổi 60 đến dưới 80 (giờ làm việc trung bình <50)

You might also like