Báo Cáo Bài Tập Lớn Môn Học: Xác Suất Thống Kê Lớp L10 - Nhóm 07 - HK222

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 59

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


🙞···☼···🙞

BÁO CÁO BÀI TẬP LỚN


MÔN HỌC: XÁC SUẤT THỐNG KÊ
Lớp L10 – Nhóm 07 – HK222
Giảng viên hướng dẫn: thầy Nguyễn Bá Thi
Sinh viên thực hiện: Văn Lê Mỹ Uyên
Mã số sinh viên: 2112634

Danh sách sinh viên nhóm 7


Sinh viên thực hiện Mã số sinh viên
Ngô Triết An 2112736
Nguyễn Ngọc Như Huỳnh 2111377
Bùi Hồng Gia Hy 2113638
Đinh Thiên Phước Lộc 2113954
Văn Lê Mỹ Uyên 2112634
Nguyễn Khánh Vy 2112685

Thành phố Hồ Chí Minh – 2023

1
Lời cảm ơn
Lời đầu tiên, nhóm 7 gửi đến thầy Nguyễn Bá Thi, giảng viên đã hướng dẫn cho
nhóm hoàn thành đề tài này, một lời tri ân sâu sắc. Nhờ có những bài giảng cùng
sự tâm huyết của thầy trên lớp mà chúng em nắm được cơ sở lí thuyết một cách
khoa học, cụ thể nhất để giải quyết bài báo cáo trên theo đúng thời hạn đã giao.
Bên cạnh đó, nhóm 7 cũng xin trân trọng cám ơn những ý kiến đóng góp, giúp
đỡ và chỉ bảo tận tình của thầy cô, bạn bè, đã giúp cho bài báo cáo trở nên hoàn
thiện hơn.
Nhóm 7 xin chân thành cám ơn sự hỗ trợ, tương tác lẫn nhau của từng cá nhân
trong nhóm. Qua quá trình làm việc nhóm đã dần hiểu rõ nhau hơn, đoàn kết hết
trong học tập lẫn công việc.
Tuy nhiên, do chưa có nhiều kinh nghiệm làm việc bằng phần mềm RStudio,
cũng như những hạn chế về mặt kiến thức chắc chắn sẽ không tránh khỏi những
thiếu sót. Chúng em rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình
từ phía thầy để bài báo cáo được hoàn thiện hơn.
Lời cuối cùng, nhóm 7 xin gửi lời cám ơn chân thành nhất tới những người đã
hỗ trợ nhóm trong quá trình làm bài báo cáo!

2
MỤC LỤC
Lời cảm ơn ......................................................................................................... 2
A. PHẦN CHUNG: ......................................................................................... 4
I. Ứng dụng hồi quy tuyến tính bội giải bài tập số 1 của phần chung ......... 4
1. Đọc dữ liệu ......................................................................................... 4
2. Làm rõ dữ liệu..................................................................................... 7
3. Xây dựng các mô hình hồi quy tuyến tính ......................................... 15
4. Dự báo .............................................................................................. 19
II. Ứng dụng Anova giải bài tập số 3 của phần chung ............................... 21
1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định ................... 23
2. Phân tích phương sai một yếu tố (One way ANOVA) ....................... 28
3. Phân tích phương sai hai yếu tố (two way ANOVA) ......................... 36
B. PHẦN RIÊNG .......................................................................................... 38
Ứng dụng hồi quy tuyến tính và ANOVA giải bài tập phần riêng ................. 38
1. Đọc dữ liệu ....................................................................................... 39
2. Làm sạch dữ liệu ............................................................................... 39
3. Làm rõ dữ liệu................................................................................... 40
4. So sánh số vòng của bào ngư ở các nhóm giới tính (M, F, I) ............. 47
5. Xây dựng mô hình hồi quy và đánh giá các nhân tố ảnh hưởng đến số
vòng của bào ngư. .................................................................................... 53
6. Dự báo .............................................................................................. 58
Tài liệu tham khảo ............................................................................................ 59

3
A. PHẦN CHUNG:
I. Ứng dụng hồi quy tuyến tính bội giải bài tập số 1
của phần chung
Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô
la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng
5/2014 đến 5/2015. Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả
chất lượng ngôi nhà. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/harlfoxem/housesalesprediction.
• price: Giá nhà được bán ra.
• sqft_living15: Diện tích trung bình của 15 ngôi nhà gần nhất trong khu dân cư.
• floors: Số tầng của ngôi nhà được phân loại từ 1 − 3.5.
• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.
• sqft_above: Diện tích ngôi nhà.
• sqft_living: Diện tích khuôn viên nhà.
Câu hỏi:

1. Đọc dữ liệu
Input:

Giải thích: Đọc tập tin gianha.csv và lưu dữ liệu với tên gia_nha
Output:

4
1. Làm sạch dữ liệu (Data cleaning)
a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà
taquan tâm như đã trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau,
mọi yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này.
Input:

Giải thích: Trích tất cả tập tin và đánh số thứ tự có trong gia_nha
Output:

Input:

Giải thích: Lập bảng dữ liệu con với tên được đặt là new_DF bao gồm các biến
chọn theo số thứ tự được đánh dấu như trên
Output

5
b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo:
is.na(),which(), apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay
thế cho những dữ liệu bị khuyết này.
Input:

Output

Input:

Giải thích: Tạo ra bảng thống kê số lượng giá trị khuyết trong New_DF
Output:

Input:

Giải thích: Tính tỉ lệ giá trị khuyết tật có trong dữ liệu New_DF

6
Output:
Nhận xét: Dựa trên giá trị tính được như trên và bảng thống kê số lượng giá trị
khuyết ở trên ta thấy rằng các giá trị khuyết tại biến price. Do đó ta xử lí các giá
trị khuyết đó bằng cách thay thế giá trị trung bình của cột vào giá trị bị khuyết
Input:

Output:

2. Làm rõ dữ liệu
a) Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành
log(price), log(sqft_living15), log(sqft_above), và log(sqft_living). Từ đây mọi
sự tính toán với các biến trên được hiểu là đã qua đổi biến dạng log.
Input:

Giải thích: Chuyển đổi các biến price thành log(price), sqft_living15 thành
log(sqft_living15), sqft_above thành log(sqft_above) và biến sqft_living thành
log(sqft_living).

7
Output:

b. Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung
bình,trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới
dạngbảng. (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(),
as.data.frame(), rownames()).
Input:

Giải thích: tính trung bình các biến price, sqft_living15, sqft_above, sqft_living
và lưu vào biến trungbinh
Input:

Giải thích: tính trung vị các biến price, sqft_living15, sqft_above, sqft_living và
lưu vào biến trungvi
Input:

Giải thích: tính độ lệch chuẩn các biến price, sqft_living15, sqft_above,
sqft_living và lưu vào biến dolechchuan
Input:

Giải thích: tính giá trị nhỏ nhất các biến price, sqft_living15, sqft_above,
sqft_living và lưu vào biến giatrinhonhat

Input:

8
Giải thích: tính giá trị lớn nhất các biến price, sqft_living15, sqft_above,
sqft_living và lưu vào biến giatrilonnhat
Input:

Giải thích: Lập bảng thống kê với các biến trungbinh, trungvi, dolechchuan,
giatrilonnhat, giatrinhonhat
Output:

c. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng
loại (Hàm gợi ý: table()).
Input:

Giải thích: Lập bảng thống kê số lượng cho biến floors


Output:

Input:

Giải thích: Lập bảng thống kê số lượng cho từng biến condition
Output:

9
d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price.
Input:

Giải thích: Vẽ biểu đồ histogram biến log.price


Output:

Input:

Giải thích: Vẽ biểu đồ histogram của biến price


Output:

10
Nhận xét: : Khi chuyển về dạng log thì biến price có phân phối chuẩn sẽ có ý
nghĩa hơn trong việc thống kê. Đồng thời việc chuyển về dạng log sẽ làm sai số
hồi quy cũng có phân phối chuẩn, giúp cải thiện chất lượng của mô hình hồi quy
e) Hãy dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại
của biến floors và biến condition.
Input:

Giải thích: Vẽ biểu đồ boxplot của biến price cho nhóm phân loại của biến floors.

11
Output:

Input:

Giải thích: Vẽ biểu đồ boxplot của biến price cho nhóm phân loại của biến
condition.

Nhận xét: Đối với biểu đồ log.price theo floors và condition, ta thấy phân phối
của log(price) khác biệt đối với những ngôi nhà có số tầng khác nhau và có điều
kiện khác nhau. Ta dự đoán floors và condition là hai nhân tố ảnh hưởng đến
log.price.
f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến
sqft_living15 , sqft_above, và sqft_living.
12
Input:

Giải thích: Vẽ phân phối biến price theo biến sqft_living15 và đặt tên cho biểu
đồ là “Phan phoi cua bien price theo sqft_living15”
Output:

Input:

Giải thích: Vẽ phân phối biến price theo biến sqft_living15 và đặt tên cho biểu
đồ là “Phan phoi cua bien price theo sqft_above”

13
Output:

Input:

Giải thích: Vẽ phân phối biến price theo biến sqft_living15 và đặt tên cho biểu
đồ là “Phan phoi cua bien price theo sqft_living”
Output:

14
Nhận xét:
Từ các đồ thị phân tán của biến log.price theo log.sqft_living15, log.sqft_above,
log.sqft_living, ta nhận thấy các biến log.sqft_living15, log.sqft_above,
log.sqft_living có quan hệ tuyến tính với price, nói rõ hơn là quan hệ đồng biến.
Có thể nhận thấy khi các biến log.sqft_living15, log.sqft_above, log.sqft_living
tăng lên thì biế n log.price có xu hướng tăng theo Ngoài ra sau khi chuyển sang
dạng log thì ta thấy rõ mối quan hệ tuyến tính giữa biến price và các biến còn lại.

3. Xây dựng các mô hình hồi quy tuyến tính


a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và
tất cả các biến còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô
hình hồi quy tuyến tính bội.
Input:

Giải thích: Xây dựng mô hình hồi quy tuyến tính m1 và lập bảng thống kê kết
quả tính toán mô hình này.
Output:

15
Nhận xét:, ta thu được hệ số hồi quy của tất cả các biến log.Sqft_living15,
log.floors, log.condition, log.sqft_above, log.sqft_living theo thứ tự từ trên xuống
ở cột Esstimate
log.price = 5.323148 + 0.461387 x log.sqft_living15 + 0.181063 x floors1.5
+0.067516 x floors2 + 0.373359 x floors2.5 + 0.381450 x floors3 +0.496616 x
floors3.5 + log.0.018679 x condition2 + 0.162796 x condition3+ 0.208508 x
condition4 + 0.3322281 x condition5 – 0.141915 x log.sqft_above + 0.669291 x
log.sqft_living. Hệ số R-squared bằng g 0.5094 nghĩa là 50.94% phương sai của
biến price được giải thích bởi các biến floors, sqft_living15, sqft_above,
condition, sqft_living.
b. Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ
loại khỏi mô hình tương ứng với mức ý nghĩa 5%?
- H0: Các hệ số hồi quy không có ý nghĩa thống kê.
- H1: Các hệ số hồi quy có ý nghĩa thống kê.
Do p của biến condition2 lớn hơn mức ý nghĩa alpha, ta chấp nhận giả thuyết H0
=> condition2 không có ý nghĩa thống kê => ta thử loại bỏ biến condition2 ra
khỏi mô hình và xây dựng mô hình m2.
c. Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:
+ Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
+Mô hình M2 là loại bỏ biến condition từ mô hình M1.
Hãy dùng lệnhh anova() để đề xuất mô hình hồi quy hợp lý hơn.
Input:

Giải thích: ta lập mô hình tương tự mô hình nhưng bỏ biến độc lập condition
Output:

16
Nhận xét:
Từ kết quả phân tích, ta thu được hệ số hồi quy của tất cả các biến
log.Sqft_living15, log.floors, log.condition, log.sqft_above, log.sqft_living theo
thứ tự từ trên xuống ở cột Esstimate
Như vậy phương trình đường thẳng hồi quy ước lượng có dạng: log.Price =
5.516768 + 0.450805 x log.sqft_living15 + 0.194509 x floors1.5 + 0.049023 x
floors2 + 0.372668 x floors2.5 + 0.355458 x floors3 + 0.488338 x floors3.5 –
0.164715 x log.sqft_above + 0.702157 log.sqft_living. Hệ số R2 hiệu chỉnh bằng
0.5013 nghĩa là 50.13 % sự biến thiên trong biến Price được giải thích bởi các
biến sqft_living15, floors1.5, floors2, floors2.5, floors3, floors3.5, condition2,
condition3, condition4, condition5, sqft_above, sqft_living.
Input:

Output:

Ta đặt giả thiết


H0: hai mô hình có hiệu quả như nhau
H1: hai mô hình có hiệu quả khác nhau
Nhận xét: Với kết quả thu được trong bảng Annova cho 2 mô hình M1 và M2
như trên ta thu được P value ( Pr(>F) ) =2.2e-16 rất là nhỏ so với mức ý nghĩa 5%,
do đó xác suất quan sát được kết quả như vậy với H0 là rất khó. Do đó ta có thể
bác bỏ H0 và chấp nhận H1. Do đó, ta cần cân nhắc chọn mô hình M1 hay mô
hình M2. Thật vậy ta xét thấy R2 (hệ số xác định) ở mô hình M1 = 0,5049 > M2
= 0,5013 điều đó cho thấy các biến độc lập trong mô hình M1 giải thích biến phụ
thuộc nhiều hơn so với mô hình M2. Do đó ta chọn mô hình M1 sẽ hợp lý hơn.
c) Chọn mô hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên
giá nhà.
Trước hết, ta thấy rằng p − value tương ứng với thống kê F bé hơn 2.2e − 16, có
ý nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý
nghĩa giải thích rất cao đến giá nhà. Để xét ảnh hưởng cụ thể của từng biến độc
lập, ta xét trọng số (hệ số βi) và p − value tương ứng. Ta thấy rằng p − value
tương ứng với các biến đa số đều bé hơn 2e − 16 (ngoài trừ biến condition2 lớn
hơn mức ý nghĩa), điều này nói lên rằng ảnh hưởng của các biến này có ý nghĩa

17
rất cao lên log.price. Mặt khác, hệ số hồi quy βi của một biến dự báo cũng có thể
được xem như ảnh hưởng trung bình lên biến phụ thuộc price khi tăng một đơn
vị của biến dự báo, giả sử rằng các biến dự báo khác không đổi. Cụ thể, β1 =
0.462153 thì khi log của diện tích trung bình của 15 ngôi nhà gần đó của một
ngôi nhà bán ra tăng 1 đơn vị ta có thể kỳ vọng log.price tăng lên 0.462153 về
mặt đơn vị của log.price. Tương tự đối với các biến còn lại. Hệ số R2 hiệu chỉnh
bằng 0.5049 nghĩa là 50.49% sự biến thiên trong log.price được giải thích bởi các
biến độc lập.
d) Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu
thị sai số hồi quy (residuals) và giá trị dự báo (fitted values). Nêu ý nghĩa và nhận
xét đồ thị.
Input:

Giải thích: Vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted
values)
Output:

18
Nhận xét:
Dựa trên đồ thị ta có thể thấy các điểm phần dư phân bố ngẫu nhiên xung quanh
y=0 (ngoại trừ một số giá trị ngoại lai) chứng tỏ phương sai của các sai số là hằng
số hay phương sai đồng nhất. Ngoài ra đường thẳng màu đỏ (đường kiểm tra giả
định về hồi quy tuyến tính với phương sai bằng 0) trên đồ thị là đường cong hơi
cong (lõm ở giữa), do đó mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được xem như là tuyến tính => thỏa mãn giả định tuyến tính của dữ liệu.

4. Dự báo
a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà
tại 2 thuộc tính như sau:
x1:sqft_living15=mean(sqft_living15),sqft_above=mean(sqft_above),sqft_living
= mean(sqft_living), floor = 2, condition = 3
x2: sqft_living15 = max (sqft_living15), sqft_above = max(sqft_above),
sqft_living = max(sqft_living), floor = 2, condition = 3.
So sánh khoảng tin cậy cho 2 giá trị dự báo này.
Input:

Giải thích: Đoạn code này tạo một data frame có tên là X1 với các cột là
sqft_living15, sqft_above, sqft_living, floors và condition. Giá trị của các cột này
được tính bằng cách lấy trung bình của các cột tương ứng trong data frame
new_DF, ngoại trừ floors và condition được gán cố định là 2 và 3.
Output:

Input:

Giải thích: Dự đoán giá trị của biến phụ thuộc cho một data frame X1 dựa trên
mô hình hồi quy M1

19
Output:

Input:

Giải thích: Đoạn code này tạo một data frame có tên là X2 với các cột là
sqft_living15, sqft_above, sqft_living, floors và condition. Giá trị của các cột này
được tính bằng cách lấy giá trị lớn nhất của các cột tương ứng trong data frame
new_DF, ngoại trừ floors và condition được gán cố định là 2 và 3.
Output:

Input:

Giải thích: Dự đoán giá trị của biến phụ thuộc cho một data frame X2 dựa trên
mô hình hồi quy M1
Output:

b) So sánh khoảng tin cậy cho 2 giá trị dự báo này


Input:

Giải thích: Nối bảng predict_X1 và predict_x2 lại và tạo một bảng với tên pred
Output:

20
Input:

Giải thích: Đổi tên dòng thành X1 và X2


Output:

Input:

Giải thích: tạo thêm một cột range với giá trị bằng cột upr trừ đi cột lwr
Output:

II. Ứng dụng Anova giải bài tập số 3 của phần chung
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về mộtthử nghiệm
về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người
trưởng thành. Một người tham gia sẽ được áp dụng một trong ba chếđộ ăn kiêng khác
nhau trong vòng 6 tuần lễ. Cân nặng của người tham gia sẽ đượcghi nhận trước và sau
khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng. Chi tiết về bộ
dữ liệu như sau:

• Tổng số người tham gia: 78.

• Tổng số biến: 7.

• Mô tả các biến:

1. Person = số thứ tự của người tham gia thử nghiệm

21
2. gender = giới tính của người tham gia (1 = nam, 0 = nữ)

3. Age = tuổi (năm)

4. Height = chiều cao (cm)

5. pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)

6. Diet = chế độ ăn kiêng (3 chế độ khác nhau)

7. weight6weeks = cân nặng sau 6 tuần ăn kiêng

Câu hỏi:

1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định:

(a) Đọc dữ liệu vào R và tính toán các giá trị thống kê mô tả cho các biến gender, Age,
Height, pre.weight và weight6weeks theo từng nhóm chế độ ăn kiêng tương ứng.

(b) Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham gia
thứ 25 và 26. Hãy đề xuất một phương pháp để thay thế hai giá trị khuyết này. .

(c) Tạo biến weight.loss = pre.weight − weight6weeks. Hãy vẽ biểu đồ boxplot cho
biến weight.loss tương ứng theo 3 chế độ ăn kiêng. Dựa trên các biểu đồ boxplot vừa
vẽ, đưa ra nhận xét về 3 chế độ ăn kiêng.

(d) Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiểm định t theo
cặp (paired t-test) để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân
nặng?

2. Phân tích phương sai một nhân tố (one way ANOVA):

(a) Trình bày mô hình phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối
thuyết và nêu các giả định của mô hình cần kiểm tra.

(b) Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tính đồng
nhất của các phương sai). Gợi ý: ta có thể sử dụng phân tích thặng dư kết hợp với việc
sử dụng đồ thị QQ-plot, kiểm định Shapiro-Wilk để kiểm tra giả định về phân phối
chuẩn, kiểm định Levene hay Bartlett để kiểm tra giả định về tính đồng nhất của các
phương sai.

22
(c) Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai
trong báo cáo. Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm
cân.

(d) Thực hiện các so sánh bội (multiple comparisons) sau phân tích phương sai. Phương
pháp ăn kiêng nào có hiệu quả tốt nhất trong việc giảm cân?

3. Phân tích phương sai hai nhân tố (two way ANOVA):

(a) Thực hiện phân tích phương sai hai nhân tố để xét xem liệu chế độ ăn kiêng và giới
tính ảnh hưởng như thế nào đến sự giảm cân?

b) Phân tích sự tương tác giữa chế độ ăn kiêng và giới tính đến sự giảm cân.

BÀI LÀM

1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định


a. Đọc dữ liệu vào R và tính toán các giá trị thống kê mô tả cho các biến gender,
Age, Height, pre.weight và weight6weeks theo từng nhóm chế độ ăn kiêng
tương ứng.
Đọc dữ liệu
 Input:

 Output:

Tính toán các giá trị thống kê mô tả


 Input:

23
 Output:

b. Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham
gia thứ 25 và 26. Hãy đề xuất một phương pháp để thay thế hai giá trị khuyết
này.
Tìm dữ liệu khuyết với cú pháp như sau.
 Input:

 Output:

24
Vì chỉ có 2 người trong 78 người không xác định được giới tính (chiếm tỉ lệ
2.56% rất nhỏ) thì ta có thể loại bỏ 2 giá trị khuyết này. Ta sử dụng hàm na.omit():
 Input:

 Output:

c. Tạo biến weight.loss = pre.weight − weight6weeks. Hãy vẽ biểu đồ boxplot cho
biến weight.loss tương ứng theo 3 chế độ ăn kiêng. Dựa trên các biểu đồ
boxplot vừa vẽ, đưa ra nhận xét về 3 chế độ ăn kiêng
Tạo biến weight.loss = pre.weight − weight6weeks.
 Input:

 Output:

25
Vẽ biểu đồ boxplot cho biến weight.loss tương ứng theo 3 chế độ ăn kiêng.
 Input:

 Output:

Tính thống kê mô tả 3 biến weight.loss, pre.weight và weight6weeks bằng lệnh


Summary
 Input:

 Output:

Nhận xét:

26
- Biểu đồ trên là biểu đồ hộp vẽ phân phối của biến weight.loss của theo từng
nhóm chế độ ăn kiêng. Biểu đồ boxplot cho ta các giá trị: min (giá trị nhỏ nhất),
max (giá trị lớn nhất), Q1 (điểm phân vị 1 – điểm 25% dữ liệu ), Q2 (điểm phân
vị 2 - trung vị), Q3 (điểm phân vị 3 - điểm 75% dữ liệu ). Ngoài ra, biểu đồ
boxplot còn cho ta thấy được các giá trị ngoại lai (là những giá trị gây nhiễu bất
thường, nó nằm trong khoảng (Q1-1.5IQR; Q3 + 1.5IQR; IQR = Q3 – Q1), ảnh
hưởng đến trung bình và độ lệch phương sai) từ dữ liệu cần loại bỏ.
- Nhìn chung cân nặng giảm đi ở chế độ 1 và 2 xấp xỉ nhau, chế độ 3 nhiều hơn.
Ta dự đoán chế độ 3 mang lại hiệu quả hơn trong việc giảm cân.
d. Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiểm định
theo cặp (paired t-test) để đánh giá xem liệu chế độ ăn kiêng (nói chung) có
làm giảm cân nặng?
 Input:

 Output:

Ta kiểm định cặp giả thuyết sau:


- Giả thuyết H0: Cân nặng trung bình trước ăn kiêng và sau ăn kiêng 6 tuần bằng
nhau.
- Giả thuyết H1: Cân nặng trung bình trước ăn kiêng cao hơn sau ăn kiêng 6 tuần.
- Dựa vào giá trị p-value bé hơn mức ý nghĩa 0,05 => bác bỏ giả thuyết H0 =>
Vậy cân nặng trung bình trước cao hơn cân nặng trung bình sau 6 tuần thực hiện
ăn kiêng => Vậy việc ăn kiêng mang lại hiệu quả trong việc làm giảm cân nặng.

27
2. Phân tích phương sai một yếu tố (One way ANOVA)
a. Trình bày mô hình phân tích phương sai một yếu tố, phát biểu các giả
thuyết và đối thuyết và nêu các giả định của mô hình cần kiểm tra
Giả thuyết H0: 𝜇1 = 𝜇2 = 𝜇3 – Trọng lượng giảm đi trung bình ở các chế độ
ăn kiêng khác nhau.
Giả thuyết H1: ∃𝜇𝑖 ≠ 𝜇𝑗 – Tồn tại ít nhất 2 chế độ ăn kiêng có trọng lượng
giảm đi trung bình khác nhau.
Ba giả định sau được dùng để tiến hành phân tích ANOVA:
- Các giá trị được lấy ngẫu nhiên và độc lập.
- Cân nặng giảm đi ở các chế độ ăn kiêng có phân phối chuẩn.
- Phương sai cân nặng giảm đi ở các chế độ ăn kiêng phải bằng nhau.
b. Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn,
tính đồng nhất của các phương sai). Gợi ý: ta có thể sử dụng phân tích
thặng dư kết hợp với việc sử dụng đồ thị QQ-plot, kiểm định Shapiro-Wilk
để kiểm tra giả định về phân phối chuẩn, kiểm định Levene hay Bartlett để
kiểm tra giả định về tính đồng nhất của các phương sai

Kiểm tra giả định về phân phối chuẩn: sử dụng hàm subset, lệnh vẽ đồ thị qqnorm
và qqline. Nếu các giá trị quan sát đã được chuẩn hóa nằm xung quang đường kỳ
vọng phân phối chuẩn, kết luận rằng các biến dữ liệu tuân theo phân phối chuẩn.

Chế độ ăn kiêng 1:

 Input:

 Output:

28
Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng
kỳ vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 1 tuân
theo phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:

 Input:

 Output:

Giả thiết H0 : Cân nặng giảm đi ở chế độ ăn kiêng 1 tuân theo phân phối chuẩn.

Giả thiết H1: Cân nặng giảm đi ở chế độ ăn kiêng 1 không tuân theo phân phối
chuẩn.

Vì 𝑃𝑟(> 𝐹) = 0.07749 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả
thiết H0 . Vậy biến weight.loss ở chế độ ăn kiêng 1 tuân theo phân bố chuẩn.

Chế độ ăn kiêng 2:
29
 Input:

 Output:

Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng
kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 2 tuân theo
phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:

 Input:

 Output:

Giả thiết H0 : Cân nặng giảm đi tuân theo phân phối chuẩn.

Giả thiết H1 : Cân nặng giảm đi không tuân theo phân phối chuẩn

30
Vì 𝑃𝑟(> 𝐹) = 0.8722 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả thiết
H0 . Vậy biến weight.loss ở chế độ ăn kiêng 2 tuân theo phân bố chuẩn.

Chế độ ăn kiêng 3:

 Input:

 Output:

Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đườngthẳng
kì vọng của phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 3 tuân theo
phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:

 Input:

 Output:

31
Giả thiết H0: Cân nặng giảm đi tuân theo phân phối chuẩn.

Giả thiết H1: Cân nặng giảm đi không tuân theo phân phối chuẩn.

Vì 𝑃𝑟(> 𝐹) = 0.372 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả thiết
H0. Vậy biến weight.loss ở chế độ ăn kiêng 3 tuân theo phân bố chuẩn.

Kiểm tra giả định tính đồng nhất của các phương sai, ta sử dụng hàm
leveneTest():

Đầu tiên, ta yêu cầu gọi lệnh car để sử dụng hàm leveneTest, trước khi thực hiện
dòng lệnh bên dưới, nhấn Install để chạy chương trình.

 Input:

 Output:

Sau đó, ta thực hiện kiểm định về phương sai

 Input:

 Output:

Nhận xét:

Giả thiết H0: Phương sai cân nặng giảm đi ở các phương pháp ăn kiêng là như
nhau.

32
Giả thiết H1: Có ít nhất 2 phương pháp ăn kiêng có phương sai cân nặng giảm đi
khác nhau.

Vì 𝑃𝑟(> 𝐹) = 0.6313 > 0.05 ( mức ý nghĩa) nên ta chưa bác bỏ được giả
thiết H0. Vậy có thể kết luận rằng phương sai về cân nặng giảm đi ở các chế độ
ăn kiêng là như nhau.

c. Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích
phương sai trong báo cáo. Cho kết luận về hiệu quả của các phương pháp
ăn kiêng đối với việc giảm cân.
 Input:

 Output:

Nhận xét: Dựa trên kết quả ANOVA cho thấy:

+ 𝑆𝑆𝐵 = 60.5, bậc tự do 𝑘 − 1 = 2 (𝑘 = 3)

+ 𝑆𝑆𝑊 = 410.4, bậc tự do 𝑁 − 𝑘 = 76 − 3 = 73 (N là tổng số phần tử


khảo sát ở tất cả các nhóm)
𝑆𝑆𝐵
+ 𝑀𝑆𝐵 = = 30.264
(𝑘 − 1)

𝑆𝑆𝑊
+ 𝑀𝑆𝑊 = = 5.622
(𝑁 − 𝑘)

𝑀𝑆𝐵
+ Tiêu chuẩn kiểm định: 𝐹 = = 5.383
𝑀𝑆𝑊

+ Mức ý nghĩa quan sát: p − value = 0.0066.

Dựa vào p − value = 0.0066 bé hơn mức ý nghĩa α = 5% nên ta bác bỏ được giả
thuyết H0.

33
Ngoài ta, ta có thể dựa vào 𝐹 = 5.383 ∈ 𝑊𝛼 = (𝐹𝛼; 𝑘 − 1; 𝑁 − 𝑘; +∞) =
(𝐹0.05; 2; 73; +∞) = (3.1221; +∞) nên ta cũng đưa ra kết luận là bác bỏ
được giả thuyết H0.

Vậy có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức
mức độ hiệu quả đối với việc giảm cân giữa các chế độ ăn kiêng là khác nhau.

d. Thực hiện các so sánh bội (multiple comparisons) sau phân tích phương
sai. Phương pháp ăn kiêng nào có hiệu quả tốt nhất trong việc giảm cân?

Thực hiện so sánh các bội:

 Input:

 Output:

Để thể hiện sự khác biệt hoặc giống nhau giữa các chế độ ăn kiêng, ta vẽ biểu đồ
bằng lệnh plot():

 Input:

 Output:

34
 So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 2 và
1:

+ Giả thiết H0: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế
độ ăn kiêng 1 bằng nhau.

+ Giả thiết H1: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế
độ ăn kiêng 1 khác nhau.

+ Ta nhận thấy p adj = 0.9987711 > 0.05 ( mức ý nghĩa), nên ta chấp nhận giả
thiết H0.

Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế độ ăn
kiêng 1 bằng nhau.

 So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 3 và
1:

+ Giả thiết H0: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế
độ ăn kiêng 1 bằng nhau.

+ Giả thiết H1: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế
độ ăn kiêng 1 khác nhau.

+ Ta nhận thấy p adj = 0.0188047 < 0.05 ( mức ý nghĩa), nên ta bác bỏ giả thiết
H0, chấp nhận giả thiết H1.
35
Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn
kiêng 1 khác nhau.

Mặt khác ta dựa vào giá trị diff = 1.848148 > 0 nên ta có thể kết luận: Trung bình
trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn
kiêng 1.

 So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 3 và
2:

+ Giả thiết H0: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế
độ ăn kiêng 2 bằng nhau.

+ Giả thiết H1: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế
độ ăn kiêng 2 khác nhau.

+ Ta nhận thấy p adj = 0.0152020 < 0.05 ( mức ý nghĩa), nên ta bác bỏ giả thiết
H0, chấp nhận giả thiết H1.

Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn
kiêng 2 khác nhau. Mặt khác ta dựa vào giá trị diff = 1.880148 > 0 nên ta có thể
kết luận Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 cao hơn so
với nhóm chế độ ăn kiêng 2.

Nhận xét: phương pháp 3 có lượng cân giảm trung bình cao hơn phương pháp 1
và 2. Vậy phương pháp 3 là phương pháp ăn kiêng có hiệu quả nhất trong việc
giảm cân.

3. Phân tích phương sai hai yếu tố (two way ANOVA)


a. Thực hiện phân tích phương sai hai yếu tố để xét xem liệu chế độ ăn kiêng
vàgiới tính ảnh hưởng như thế nào đến sự giảm cân?

Phân tích phương sai hai nhân tố để đánh giá sự ảnh hưởng chế độ ăn kiêng và giới
tính đến sự giảm cân

 Input:

36
 Output:

Giả thiết H0: Cân nặng trung bình giảm đi giữa nam và nữ bằng nhau.

Giả thiết H1: Cân nặng trung bình giảm đi giữa nam và nữ là khác nhau.

Vì Pr(>F)= 0.82062 > 0.05 nên ta chấp nhận H0. Vậy giới tính không ảnh hưởng đến
việc giảm cân.

Giả thiết H0: Cân nặng trung bình giảm đi giữa các phương pháp ăn kiêng bằng nhau.
Giả thiết H1: Tồn tại 2 phương pháp ăn kiêng có cân nặng trung bình giảm đi khác
nhau.

Vì Pr(>F) = 0.00546 < 0.05 nên bác bỏ H0, chấp nhận H1.Vậy chế độ ăn kiêng có
ảnh hưởng đến việc giảm cân.

b) Phân tích phương sai để đánh giá sự tương tác giữa giới tính và phương pháp
ăn kiêng.

Giả thiết H0: Không có sự tương tác giữa giới tính và phương pháp ăn kiêng.

Giả thiết H1: Có sự tương tác giữa giới tính và phương pháp ăn kiêng.

Từ kết quả của phân tích phương sai, ta có Pr(>F) = ) 0,04884< 0,05 (mức ý nghĩa)
nên bác bỏ giả thiết H0. Vậy có sự tương tác giữa giới tính và chế độ ăn kiêng.

Ngoài ra ta có thể vẽ đồ thị để đánh giá sự tương tác:

Ta sử dụng lệnh interaction

 Input:

 Output:

37
Nhận xét: Ta nhận thấy 2 đường thẳng trên đồ thị cắt nhau, tức có sự tương tác giữa
giới tính và phương pháp

B. PHẦN RIÊNG
Ứng dụng hồi quy tuyến tính và ANOVA giải bài tập phần
riêng
Bào ngư là tên gọi chung của bất kỳ nhóm ốc biển nào từ nhỏ đến rất lớn, thường được
tìm thấy dọc theo các bờ biển trên khắp thế giới, và được sử dụng làm món ăn ngon
trong món cusinies và phần vỏ còn sót lại của nó được chế tạo thành đồ trang sức do
nó có độ bóng óng ánh. Do nhu cầu và giá trị kinh tế, nó thường được thu hoạch trong
các trang trại và do đó nhu cầu dự đoán tuổi của bào ngư từ các phép đo vật lý.
Phương pháp truyền thống để xác định tuổi của nó là cắt vỏ qua hình nón, nhuộm màu
và đếm số vòng qua kính hiển vi - một công việc nhàm chán và tốn thời gian.
Tệp tin abalone_original.csv cho ta các thông tin về giới tính, kích cỡ, trọng lượng và
số vòng đo được của bào ngư. Dữ liệu dùng để dự báo số vòng của bào ngư để dự
đoán tuổi của nó.
Các biến chính trong bộ dữ liệu:
 Sex: Giới tính (M / F / I: sơ sinh (không xác định))
 Length: Chiều dài vỏ (mm)
 Diameter: Đường kính vỏ (mm)
 Height: Chiều cao vỏ (mm)
 Whole weight: Trọng lượng toàn bộ (gam)

38
 Shucked weight: Trọng lượng của thit (gam)
 Viscera weight: Trọng lượng ruột (gam)
 Shell weight: Trọng lượng sau khi được sấy khô (gam)
 Rings: Số vòng
Yêu cầu:
 Sử dụng mô hình anova để so sánh số vòng của bào ngư ở các nhóm giới tính
(M,F,I).
 Sử dụng mô hình hồi quy để phân tích các nhân tố ảnh hưởng đến số vòng của
bào ngư.
 Thực hiện dự báo.

1. Đọc dữ liệu

abalone_original <- read.csv("~/Desktop/abalone_original.csv")


head(abalone_original)
## sex length diameter height whole.weight shucked.weight viscera.weight
## 1 M 91 73 19 102.8 44.9 20.2
## 2 M 70 53 18 45.1 19.9 9.7
## 3 F 106 84 27 135.4 51.3 28.3
## 4 M 88 73 25 103.2 43.1 22.8
## 5 I 66 51 16 41.0 17.9 7.9
## 6 I 85 60 19 70.3 28.2 15.5
## shell.weight rings
## 1 30 15
## 2 14 7
## 3 42 9
## 4 31 10
## 5 11 7
## 6 24 8

2. Làm sạch dữ liệu


Kiểm tra dữ liệu khuyết trong tệp tin:

apply(is.na(abalone_original),2,which)

39
## integer(0)

Nhận xét: không có dữ liệu khiếm khuyết

3. Làm rõ dữ liệu
Tính các giá trị thống kê mẫu cho các biến liên tục:

mean<-apply(abalone_original[,2:9],2,mean)
sd<-apply(abalone_original[,2:9],2,sd)
Q1<-apply(abalone_original[,2:9],2,quantile,probs=0.25)
Q2<-apply(abalone_original[,2:9],2,quantile,probs=0.5)
Q3<-apply(abalone_original[,2:9],2,quantile,probs=0.75)
min<-apply(abalone_original[,2:9],2,min)
max<-apply(abalone_original[,2:9],2,max)
t(data.frame(mean,sd,Q1,Q2,Q3,min,max))
## length diameter height whole.weight shucked.weight viscera.weight
## mean 104.79842 81.57625 27.903280 165.7484 71.87350 36.11872
## sd 24.01858 19.84797 8.365411 98.0778 44.39259 21.92285
## Q1 90.00000 70.00000 23.000000 88.3000 37.20000 18.70000
## Q2 109.00000 85.00000 28.000000 159.9000 67.20000 34.20000
## Q3 123.00000 96.00000 33.000000 230.6000 100.40000 50.60000
## min 15.00000 11.00000 0.000000 0.4000 0.20000 0.10000
## max 163.00000 130.00000 226.000000 565.1000 297.60000 152.00000
## shell.weight rings
## mean 47.76617 9.933684
## sd 27.84053 3.224169
## Q1 26.00000 8.000000
## Q2 46.80000 9.000000
## Q3 65.80000 11.000000
## min 0.30000 1.000000
## max 201.00000 29.000000

Vẽ đồ thị phân bố tần số cho biến rings:

40
hist(abalone_original$rings,xlab="rings",main="Histogram of rings",labels=T,ylim=c(
0,1500))

Nhận xét: Đồ thị phân phối của biến rings có hình dạng phân phối chuẩn( đường
cong hình chuông).

Vẽ đồ thị boxplot thể hiện phân phối rings theo sex:

boxplot(rings~sex,data =abalone_original,main="Boxplot of rings for sex")

41
Nhận xét: Nhìn chung, số vòng ở cả 2 giới tính F và M cao hơn I. Điều này cho thấy
yếu tố giới tính có ảnh hưởng tới số vòng.
Vẽ đồ thị phân tán thể hiện phân phối rings theo length, diameter, height,
whole.weight, shucked.weight, viscera.weight, shell.weight :

pairs(rings~length,data=abalone_original,main="Plot of rings for length")

42
pairs(rings~diameter,data=abalone_original,main="Plot of rings for diameter")

43
pairs(rings~height,data=abalone_original,main="Plot of rings for height")

pairs(rings~whole.weight,data=abalone_original,main="Plot of rings for whole.weight


")

44
pairs(rings~shucked.weight,data=abalone_original,main="Plot of rings for shucked.we
ight")

45
pairs(rings~viscera.weight,data=abalone_original,main="Plot of rings for viscera.weig
ht")

pairs(rings~shell.weight,data=abalone_original,main="Plot of rings for shell.weight")

46
Nhận xét: Các đồ thị trên thể hiện rõ được mối quan hệ tuyến tính của hai biến.
Từ các đồ thị phân tán của biến rings theo length, diameter, height,
whole.weight, shucked.weight, viscera.weight, shell.weight , ta nhận thấy các biến
length, diameter, height, whole.weight, shucked.weight, viscera.weight,
shell.weight có quan hệ tuyến tính với rings, nói rõ hơn là quan hệ đồng biến. Có thể
nhận thấy khi các biến này tăng lên thì biến
rings có xu hướng tăng theo.

4. So sánh số vòng của bào ngư ở các nhóm giới tính (M, F, I)
Giả thuyết H 0 : 1  2  3 - Số vòng trung bình của bào ngư ở các giới tính bằng
nhau.
Giả thuyết H 1 : i   j - Có ít nhất 2 giới tính ở bào ngư có số vòng trung bình khác
nhau.
Các giả định cần kiểm tra:
 Giả định về phân phối chuẩn: Số vòng của bào ngư ở các giới tính có phân phối
chuẩn.
 Giả định về tính đồng nhất của phương sai: Số vòng của bào ngư ở các giới tính
có phương sai bằng nhau.
Lọc dữ liệu đối với từng nhóm sex:

47
Kiểm tra giả định về phân phối chuẩn:
Đối với giới tính F:
Giả thuyết H 0 : Số vòng tuân theo phân phối chuẩn.

Giả thuyết H 1 : Số vòng không tuân theo phân phối chuẩn.

Nhận xét: Những giá trị quan sát đa phần không nằm trên đường thẳng kì vọng của
phân phối chuẩn nên biến rings ở giới tính F không tuân theo phân phối chuẩn.
Ngoài ra, dựa vào p-value < 5% (mức ý nghĩa) nên ta bác bỏ giả thuyết H 0 , chấp
nhận giả thuyết H 1 . Vậy ta cũng có thể kết luận rằng biến rings ở giới tính F không tuân
theo phân phối chuẩn.
Đối với giới tính M:
Giả thuyết H 0 : Số vòng tuân theo phân phối chuẩn.

48
Giả thuyết H 1 : Số vòng không tuân theo phân phối chuẩn.

Nhận xét: Những giá trị quan sát đa phần không nằm trên đường thẳng kì vọng của
phân phối chuẩn nên biến rings ở giới tính M không tuân theo phân phối chuẩn.
Ngoài ra, dựa vào p-value < 5% nên ta bác bỏ giả thuyết H 0 , chấp nhận giả thuyết
H 1 . Vậy ta có thể kết luận rằng biến rings ở giới tính M không tuân theo phân phối
chuẩn.
Đối với giới tính I:
Giả thuyết H 0 : Số vòng tuân theo phân phối chuẩn.

Giả thuyết H 1 : Số vòng không tuân theo phân phối chuẩn.

49
Nhận xét: Những giá trị quan sát đa phần không nằm trên đường thẳng kì vọng của
phân phối chuẩn nên biến rings ở giới tính I không tuân theo phân phối chuẩn.
Ngoài ra, dựa vào p-value < 5% nên ta bác bỏ giả thuyết H 0 , chấp nhận giả thuyết
H 1 . Vậy biến rings ở giới tính I không tuân theo phân phối chuẩn.

Kiểm tra giả định tính đồng nhất của phương sai:
Giả thuyết H 0 : số vòng ở các nhóm giới tính bằng nhau.

Giả thuyết H 1 : số vòng ở các nhóm giới tính khác nhau.

50
Nhận xét:
Vì Pr(>F) < mức ý nghĩa 0.05 nên bác bỏ giả thuyết H 0 , chấp nhận giả thuyết H 1 .

Vậy có thể kết luận rằng có ít nhất 2 giới tính có số vòng khác nhau.

Thực hiện kiểm định:

Nhận xét: Dựa trên kết quả ANOVA cho thấy:


Dựa vào p-value bé hơn mức ý nghĩa   5% nên ta bác bỏ được giả thuyết H 0 .
Vậy có ít nhất 2 giới tính có số vòng trung bình khác nhau.
Thực hiện các so sánh bội sau phân tích phương sai.

51
So sánh về sự khác nhau giữa trung bình của nhóm giới tính I và F:
+ Giả thuyết H 0 : Trung bình số vòng ở nhóm giới tính I và giới tính F bằng nhau.

+ Giả thuyết H 1 : Trung bình số vòng ở nhóm giới tính I và giới tính F khác nhau.

+ Ta nhận thấy p adj = 0.0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thuyết H 0 , chấp
nhận giả thuyết H 1 . Vậy trung bình số vòng ở nhóm giới tính I và giới tính F khác nhau.

So sánh về sự khác nhau giữa trung bình của nhóm giới tính M và F:
+ Giả thuyết H 0 : Trung bình số vòng ở nhóm giới tính M và giới tính F bằng nhau.

+ Giả thuyết H 1 : Trung bình số vòng ở nhóm giới tính M và giới tính F khác nhau.

52
+ Ta nhận thấy p adj = 0.0003087 < mức ý nghĩa 5%, nên ta bác bỏ giả thuyết H 0 , chấp
nhận giả thuyết H 1 . Vậy trung bình số vòng ở nhóm giới tính M và giới tính F khác nhau.

Mặt khác ta dựa vào giá trị diff = 0.4238064  0 nên ta có thể kết luận trung bình số
vòng ở nhóm giới tính M thấp hơn so với nhóm giới tính F.
So sánh về sự khác nhau giữa trung bình của nhóm giới tính M và I:
+ Giả thuyết H 0 : Trung bình số vòng ở nhóm giới tính M và giới tính I bằng nhau.

+ Giả thuyết H 1 : Trung bình số vòng ở nhóm giới tính M và giới tính I khác nhau.

+ Ta nhận thấy p adj = 0.0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thuyết H 0 , chấp
nhận giả thuyết H 1 . Vậy trung bình số vòng ở nhóm giới tính M và giới tính I khác nhau.

Mặt khác ta dựa vào giá trị diff = 2.8150354  0 nên ta có thể kết luận trung bình số
vòng ở nhóm giới tính M cao hơn so với nhóm giới tính I.
Kết luận: Giới tính F có trung bình số vòng cao hơn giới tính M và I. Vậy nhóm
giới tính F là giới tính có số vòng cao nhất của bào ngư.

5. Xây dựng mô hình hồi quy và đánh giá các nhân tố ảnh hưởng đến số
vòng của bào ngư.
Biến phụ thuộc: rings.
Biến độc lập: các biến còn lại.

53
Nhận xét:
Kiểm định các hệ số hồi quy:
Giả thuyết H 0 : i  0, i  0,1,...10i  0,1,...10 : Hệ số hồi quy  i không có ý nghĩa thống
kê.
Giả thuyết H 1 : i  0, i  0,1,...10i  0,1,...10 : Hệ số hồi quy  i có ý nghĩa thống kê.

Vì p-value ứng với SexM, Length lớn hơn mức ý nghĩa 5% nên ta chưa bác bỏ được
H 0 . Tức hệ số hồi quy ứng với biến này không có ý nghĩa thống kê.

Xây dựng mô hình 2, loại bỏ biến length từ mô hình 1:

54
Xây dựng mô hình 3, loại bỏ biến sex từ mô hình 2:

55
So sánh hai mô hình 1 và 2:

+ Giả thuyết H 0 : Hai mô hình hiệu quả giống nhau.

+ Giả thuyết H 1 : Hai mô hình hiệu quả khác nhau.

Nhận xét: Vì p-value = 0.8 lớn hơn mức ý nghĩa 5%, nên ta chưa bác bỏ được H 0 .
Vậy hai mô hình hiệu quả giống nhau. Mặt khác R 2 hiệu chỉnh mô hình 2 cao hơn mô
hình 1 nên ta chọn mô hình 2 hiệu quả hơn.
So sánh hai mô hình 2 và 3:

56
+ Giả thuyết H 0 : Hai mô hình hiệu quả giống nhau.

+ Giả thuyết H 1 : Hai mô hình hiệu quả khác nhau.

Nhận xét: Vì p-value nhỏ hơn mức ý nghĩa 5%, nên ta bác bỏ được giả thuyết H 0 ,
chấp nhận giả thuyết H 1 . Điều đó chỉ ra rằng hai mô hình hiệu quả khác nhau. Do đó ta
cân nhắc việc chọn mô hình 2 hay mô hình 3. Mặt khác R 2 hiệu chỉnh mô hình 2 cao
hơn mô hình 3 nên ta chọn mô hình 2 hiệu quả hơn.
Vẽ biểu đồ sai số hồi quy và giá trị dự báo:

Nhận xét:

57
Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng.
+ Đường màu đỏ (đường kiểm định giả định tuyến tính dữ liệu và giả định sai số có
kỳ vọng bằng 0) cong ở phần giữa (không hẳn nằm ngang) tức là mối quan hệ giữa các
biến dự báo X và biến phụ thuộc Y được xem như là không tuyến tính, và đường màu
đỏ không nằm sát đường y = 0 nên giả định các sai số có kỳ vọng bằng 0 chưa thoả mãn.
+ Các giá trị thặng dư (sai số) phân tán thành cụm xung quanh ở phần giữa đường
thẳng y = 0, tức là nó không phân tán ngẫu nhiên dọc theo đường y = 0, chứng tỏ giả
định phương sai của các sai số là hằng số không thoả mãn.

6. Dự báo
X: f = 800, diameter = 73, height = 19, whole,weight = 102.8, shucked.weight = 44.9,
viscera.weight = 20.2, shell.weight = 30.
Tạo thuộc tính X:

Thực hiện dự báo cho X:

Nhận xét:
Số vòng trung bình của bào ngư theo thuộc tính X1 là 1061,632 và với khoảng tin
cậy 95%, cho số vòng trung bình của bào ngư theo thuộc tính (960,2642;1162,999).

58
Tài liệu tham khảo
1. Nguyễn Đình Huy, Đậu Thế Cấp và Lưu Xuân Đại (2019), Giáo trình Xác suất
Thống kê, Nxb. ĐHQG Tp Hồ Chí Minh, Tp Hồ Chí Minh.
2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích
số liệu, 2019
3. Introductory Statistic with R, J Jambers - D.Hand - W.Hardle
4. Applied Statistics with R, 2020
5. Nguyễn Thanh Nga (2021), Mô Hình Hồi Quy Bội,
https://rpubs.com/TKUD/810985
6. Link dữ liệu phần riêng: https://www.kaggle.com/datasets/rodolfomendes/abalone-
dataset

59

You might also like