Professional Documents
Culture Documents
MAS291 Data Analist Project
MAS291 Data Analist Project
Đề bài:
Dựa vào kết quả cân nặng và chiều cao của hai nhóm sinh viên Group A (Nam) và
Group B (Nữ) được cho trong file data MAS_Assignment.xlsx. Sử dụng dữ liệu này
để tự đặt vấn đề và phân tích đánh giá.
Danh sách thành viên:
+ Lê Quốc Uy - SE172445
+ Phạm Lê Nippon - SE172442
+ Chung Nguyên Chương - SE172402
+ Bùi Hải Quang - SE172365
+ Hoàng Minh Tiến - SE172436
+ Trần Gia Phúc - SE172360
+ Đỗ Hữu Việt Anh - SE172440
Chapter 6
1. Xác định giá trị trung bình (sample mean) và độ lệch tiêu chuẩn
(standard derivation), Median, Mode, Range, Min, Max cho chiều cao và
cân nặng của sinh viên của mỗi nhóm(nam và nữ).
2. Xây dựng phân bố tần số (frequency distribution) và biểu đồ
(histogram) cho dữ liệu chiều cao và cân nặng trung bình của sinh
viên trong 2 nhóm. Sử dụng 10 ô (bins).
a. Men
Height:
- Relative frequency distribution
- Histogram
Weight:
- Relative frequency distribution
- Histogram
b. Women
Height:
- Relative frequency distribution
- Histogram
Weight:
- Relative frequency distribution
- Histogram
Chapter 7
1. Xây dựng các khoảng tin cậy hai phía 95% (95% two-sided
confidence interval) cho chiều cao và cân nặng trung bình của sinh
viên trong 2 nhóm.
Khoảng tin cậy chiều cao nam: 182,3 ± 0,68 (cm)
Khoảng tin cậy chiều cao nữ: 170,7 ± 0,62 (cm)
2. Người ta quan tâm đến số người có chiều cao và cân nặng ở mức
trung bình ở Việt Nam.So sánh ở nam giới giữa cân nặng từ 52.28
đến 70.63kg và chiều cao trung bình là 162.2 cm, ở nữ giới có
chiều cao 156.2cm và có cân nặng từ 45.14 đến 60.99kg.
Chênh lệch chiều cao và cân nặng ở nam giới so với mức trung bình ở Việt Nam
+ Chiều cao: 20,1 cm
+ Cân nặng: 10.91 kg đến 27,18 kg
Chênh lệch chiều cao và cân nặng ở nữ giới so với mức trung bình ở Việt Nam
+ Chiều cao: 8.5 cm
+ Cân nặng: 2.85 kg đến 17,22 kg
Chapter 9
1. Sử dụng α = 0.05 (significance level). Kiểm định giả thiết chiều cao
và cân nặng trung bình của sinh viên nam. (hypothesis tests on
the mean, variance unknown):
a) chiều cao bằng 165 cm và cân nặng bằng 58 kg .
a)
Giá trị tới hạn: t = 1.96 (mức ý nghĩa 0.05 và số bậc tự do là 30)
Vì giá trị thống kê kiểm định nhỏ hơn giá trị tới hạn nên ta chấp nhận giả thuyết null
và kết luận rằng chiều cao trung bình của sinh viên nam bằng 165 cm.
b)
Giá trị tới hạn: t = 1.96 (mức ý nghĩa 0.05 và số bậc tự do là 30)
Vì giá trị thống kê kiểm định lớn hơn giá trị tới hạn nên ta bác bỏ giả thuyết null và
kết luận rằng chiều cao trung bình của sinh viên nam lớn hơn 165 cm và cân nặng
trung bình của sinh viên nam lớn hơn 58 kg.
2. Sử dụng α = 0.01 (significance level). Kiểm định giả thiết chiều cao
và cân nặng trung bình của sinh viên nữ. (hypothesis tests on the
mean)
a) chiều cao bằng 154 cm và cân nặng bằng 45 kg .
Kiểm định giả thuyết chiều cao và cân nặng trung bình của sinh viên nữ
P-value: 0.02
Do p-value < α, nên bác bỏ giả thuyết null và kết luận rằng chiều cao trung bình của
sinh viên nữ khác 154 cm.
Do p-value < α, nên bác bỏ giả thuyết null và kết luận rằng cân nặng trung bình của
sinh viên nữ khác 45 kg.
Kết luận:
Có bằng chứng thống kê cho thấy chiều cao và cân nặng trung bình của sinh viên nữ
khác với 154 cm và 45 kg.
Sử dụng α = 0.01 (significance level). Kiểm định giả thiết sinh viên nam có chiều cao lớn
hơn 165 cm và cân nặng lớn hơn 58 kg bằng 50% (tests on a proportion)
Kiểm định giả thuyết sinh viên nam có chiều cao lớn hơn 165 cm và cân nặng
lớn hơn 58 kg bằng 50%
H0: p = 0.5 (tỷ lệ sinh viên nam có chiều cao lớn hơn 165 cm và cân nặng lớn
hơn 58 kg bằng 50%)
H1: p ≠ 0.5 (tỷ lệ sinh viên nam có chiều cao lớn hơn 165 cm và cân nặng lớn
hơn 58 kg khác 50%)
P-value: 0.02
Do p-value < α, nên bác bỏ giả thuyết null và kết luận rằng tỷ lệ sinh viên nam
có chiều cao lớn hơn 165 cm và cân nặng lớn hơn 58 kg khác 50%.
Kết luận:
Có bằng chứng thống kê cho thấy tỷ lệ sinh viên nam có chiều cao lớn hơn
165 cm và cân nặng lớn hơn 58 kg khác 50%.
Tuy nhiên, điều này không có nghĩa là tất cả sinh viên nam đều có chiều cao
lớn hơn 165 cm và cân nặng lớn hơn 58 kg. Nó chỉ có nghĩa là tỷ lệ sinh viên
nam có chiều cao lớn hơn 165 cm và cân nặng lớn hơn 58 kg khác 50%.
H0: p = 0.45 (tỷ lệ sinh viên nữ có chiều cao lớn hơn 154 cm và cân nặng lớn hơn 45
kg bằng 45%)
H1: p ≠ 0.45 (tỷ lệ sinh viên nữ có chiều cao lớn hơn 154 cm và cân nặng lớn hơn
45 kg khác 45%)
P-value: 0.05
Do p-value > α, nên không bác bỏ giả thuyết null và kết luận rằng tỷ lệ sinh viên nữ có
chiều cao lớn hơn 154 cm và cân nặng lớn hơn 45 kg bằng 45%.
4. Một sinh viên được coi là đạt yêu cầu nếu có chiều cao hơn 165
cm và cân nặng hơn 58 kg. Với dữ liệu trên, có thể kết luận rằng tỷ
lệ đạt yêu cầu của sinh viên nam cao hơn sinh viên nữ không? Sử
dụng α = 0.05.
Xây dựng các khoảng tin cậy một phía 95% (95% two-sided confidence interval) cho
chênh lệch tỷ lệ sinh viên đạt yêu cầu giữa nam nữ p1 — p2 (Tests on The Difference
of Population Proportions).
Kiểm định giả thuyết tỷ lệ sinh viên đạt yêu cầu giữa nam và nữ
H0: p1 = p2 (tỷ lệ sinh viên đạt yêu cầu của nam và nữ bằng nhau)
H1: p1 ≠ p2 (tỷ lệ sinh viên đạt yêu cầu của nam và nữ khác nhau)
P-value: 0.02
Do p-value < α, nên bác bỏ giả thuyết null và kết luận rằng tỷ lệ sinh viên đạt yêu cầu
của nam và nữ khác nhau.
Kết luận:
Có bằng chứng thống kê cho thấy tỷ lệ sinh viên đạt yêu cầu của nam cao hơn sinh
viên nữ.
Khoảng tin cậy một phía 95% cho chênh lệch tỷ lệ sinh viên đạt yêu cầu giữa nam và
nữ là (0.04, 0.16). Điều này có nghĩa là tỷ lệ sinh viên đạt yêu cầu của nam cao hơn tỷ
lệ sinh viên đạt yêu cầu của nữ từ 4% đến 16%.
Chapter 10
Với dữ liệu trên, có thể kết luận rằng chiều cao và cân nặng trung bình
của nam khác nữ không? Sử dụng α = 0.05 (tests on the Difference in
Means of Two Normal Distributions. Variances Unknown).
Xây dựng các khoảng tin cậy hai phía 95% (95% two-sided confidence
interval) cho chênh lệch độ cao và cân nặng trung bình giữa hai nam và
nữ u1 — u2 (Confidence Interval on the Difference in Means. Variances
Unknown).
● Chiều cao
Giả thuyết H0: Chiều cao trung bình của nam và nữ là bằng nhau (u1 = u2).
Giả thuyết H1: Chiều cao trung bình của nam và nữ khác nhau (u1 ≠
u2).
Giả định
Điều này cho phép chúng ta ước lượng rằng chênh lệch trung bình giữa chiều
cao của nam và nữ nằm trong khoảng từ 7,9 đến 14,48.
Với thông số đã tính, chúng ta có đủ bằng chứng để kết luận rằng chiều cao
trung bình giữa nam và nữ khác nhau, và chúng ta có thể ước lượng khoảng tin
cậy cho chênh lệch độ cao trung bình giữa hai nhóm.
● Cân nặng
Giả thuyết H0: Cân nặng trung bình của nam và nữ là bằng nhau (u1 = u2).
Giả thuyết H1: Cân nặng trung bình của nam và nữ khác nhau (u1 ≠
u2).
Giá trị thống kê: T0= 6.12086580711313
P-Value (giá trị p): 2P(T<= -|T0|) = 9,35 *10^-10
Giá trị t-Critical two-tail: 1.984467455.
=> Với mức ý nghĩa α = 0.05, giá trị |T0|> tα/2; n1+n2-2 => reject H0. Do đó,
chúng ta kết luận rằng cân nặng trung bình của nam và nữ khác nhau (H1).
Với thông số đã tính, chúng ta có đủ bằng chứng để kết luận rằng cân nặng
trung bình giữa nam và nữ khác nhau, và chúng ta có thể ước lượng khoảng
tin cậy cho chênh lệch cân nặng trung bình giữa hai nhóm.
Dựa trên tập dữ liệu mẫu trên, chúng ta có thể tiến hành phân tích và đánh giá như
sau:
Chiều cao:
Nhóm A (nam): Trung bình 183 cm, dao động từ 140 cm đến 219 cm.
Nhóm B (nữ): Trung bình 168 cm, dao động từ 165 cm đến 175 cm.
Cân nặng:
Nhóm A (nam): Trung bình 80.51 kg, dao động từ 49 kg đến 218 kg.
Nhóm B (nữ): Trung bình 61.6 kg, dao động từ 58 kg đến 65 kg.
Đánh giá và nhận xét:
Chiều cao trung bình của nam (182.99 cm) cao hơn so với chiều cao trung bình của nữ
(170.75 cm), cho thấy có sự khác biệt về chiều cao giữa hai nhóm trong tập dữ liệu
này.
Cân nặng trung bình của nam (80.51 kg) cao hơn so với cân nặng trung bình của nữ
(63.14 kg), cho thấy sự khác biệt về cân nặng giữa hai nhóm trong tập dữ liệu này.