Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 12

Ứng dụng Anova giải bài tập số 3 của phần B (phần chung)

Đề bài: Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về mộtthử nghiệm về hiệu
quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành. Một người
tham gia sẽ được áp dụng một trong ba chếđộ ăn kiêng khác nhau trong vòng 6 tuần lễ. Cân nặng của
người tham gia sẽ đượcghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng
chế độ ăn kiêng. Chi tiết về bộ dữ liệu như sau:

• Tổng số người tham gia: 78.

• Tổng số biến: 7.

• Mô tả các biến:

1. Person = số thứ tự của người tham gia thử nghiệm

2. gender = giới tính của người tham gia (1 = nam, 0 = nữ)

3. Age = tuổi (năm)

4. Height = chiều cao (cm)

5. pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)

6. Diet = chế độ ăn kiêng (3 chế độ khác nhau)

7. weight6weeks = cân nặng sau 6 tuần ăn kiêng

1. Đọc file dữ liệu, thực hiện thống kê mô tả và kiểm định:


a. Đọc dữ liệu vào R và tính toán các giá trị thống kê mô tả cho các biến gender, Age, Height,
pre.weight và weight6weeks theo từng nhóm chế độ ăn kiêng tương ứng.
Đọc dữ liệu

Tính toán các giá trị thống kê mô tả


b. Biến gender có chứa hai giá trị khuyết (NA = Not Available) của người tham gia thứ 25 và 26. Hãy
đề xuất một phương pháp để thay thế hai giá trị khuyết này.
Tìm dữ liệu khuyết với cú pháp như sau.
Vì chỉ có 2 người trong 78 người không xác định được giới tính (chiếm tỉ lệ2.56% rất nhỏ) thì ta
có thể loại bỏ 2 giá trị khuyết này. Ta sử dụng hàm na.omit():

c. Tạo biến weight.loss = pre.weight − weight6weeks. Hãy vẽ biểu đồ boxplot cho biến weight.loss
tương ứng theo 3 chế độ ăn kiêng. Dựa trên các biểu đồ boxplot vừa vẽ, đưa ra nhận xét về 3
chế độ ăn kiêng
Tạo biến weight.loss = pre.weight − weight6weeks.

vẽ biểu đồ boxplot cho biến weight.loss tương ứng theo 3 chế độ ăn kiêng.
tính thống kê mô tả 3 biến weight.loss, pre.weight và weight6weeks bằng lệnh Summary

Nhận xét:
Biểu đồ trên là biểu đồ hộp vẽ phân phối của biến weight.loss của theo từng nhóm chế độ ăn
kiêng. Biểu đồ boxplot cho ta các giá trị: min (giá trị nhỏ nhất), max (giá trị lớn nhất), Q1 (điểm
phân vị 1 – điểm 25% dữ liệu ), Q2 (điểm phân vị 2 - trung vị), Q3 (điểm phân vị 3 - điểm 75% dữ
liệu ). Ngoài ra, biểu đồ boxplot còn cho ta thấy được các giá trị ngoại lai (là những giá trị gây
nhiễu bất thường, nó nằm trong khoảng (Q1-1.5IQR; Q3 + 1.5IQR; IQR = Q3 – Q1), ảnh hưởng
đến trung bình và độ lệch phương sai) từ dữ liệu cần loại bỏ.
+ ....
d. Dựa trên hai biến pre.weight và weight6weeks, hãy thực hiện một kiểm định theo cặp (paired t-
test) để đánh giá xem liệu chế độ ăn kiêng (nói chung) có làm giảm cân nặng?
Đánh giá:...
2. Phân tích phương sai một yếu tố (One way ANOVA)
a. Trình bày mô hình phân tích phương sai một yếu tố, phát biểu các giả thuyết và đối thuyết
và nêu các giả định của mô hình cần kiểm tra (Lthuyet)
b. Thực hiện kiểm tra các giả định của mô hình (giả định về phân phối chuẩn, tính đồng nhất
của các phương sai). Gợi ý: ta có thể sử dụng phân tích thặng dư kết hợp với việc sử dụng đồ
thị QQ-plot, kiểm định Shapiro-Wilk để kiểm tra giả định về phân phối chuẩn, kiểm định
Levene hay Bartlett để kiểm tra giả định về tính đồng nhất của các phương sai

Kiểm tra giả định về phân phối chuẩn: sử dụng hàm subset, lệnh vẽ đồ thị qqnorm và qqline.
Nếu các giá trị quan sát đã được chuẩn hóa nằm xung quang đường kỳ vọng phân phối chuẩn,
kết luận rằng các biến dữ liệu tuân theo phân phối chuẩn.

Chế độ ăn kiêng 1:
Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng kỳ vọng của
phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 1 tuân theo phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:

Giả thiết 𝐇𝟎 : Cân nặng giảm đi tuân theo phân phối chuẩn.

Giả thiết 𝐇𝟏 : Cân nặng giảm đi không tuân theo phân phối chuẩn.

Vì Pr(>F) = 0.07749 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả thiết H0 . Vậy biến
weight.loss ở chế độ ăn kiêng 1 tuân theo phân bố chuẩn.

Chế độ ăn kiêng 2:

Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đường thẳng kì vọng của
phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 2 tuântheo phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:


Giả thiết 𝐇𝟎 : Cân nặng giảm đi tuân theo phân phối chuẩn.

Giả thiết 𝐇𝟏 : Cân nặng giảm đi không tuân theo phân phối chuẩn

Vì Pr(>F) = 0.8722 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả thiết H0 . Vậy biến
weight.loss ở chế độ ăn kiêng 2 tuân theo phân bố chuẩn.

Chế độ ăn kiêng 3:

Biểu đồ QQ-plot cho ta thấy những giá trị quan sát đa phần nằm trên đườngthẳng kì vọng của
phân phối chuẩn do đó biến weight.loss ở chế độ ăn kiêng 3 tuântheo phân bố chuẩn.

Ngoài ra, ta có thể dùng hàm shapiro.test để kiểm tra:


Giả thiết 𝐇𝟎 : Cân nặng giảm đi tuân theo phân phối chuẩn.

Giả thiết 𝐇𝟏 : Cân nặng giảm đi không tuân theo phân phối chuẩn.

Vì Pr(>F) = 0.372 > 0.05 (mức ý nghĩa) nên ta chưa bác bỏ được giả thiết H0 . Vậy biến
weight.loss ở chế độ ăn kiêng 3 tuân theo phân bố chuẩn.

Kiểm tra giả định tính đồng nhất của các phương sai, ta sử dụng hàm leveneTest():

Đầu tiên, ta yêu cầu gọi lệnh car để sử dụng hàm leveneTest, trước khi thực hiện dòng lệnh bên
dưới, nhấn Install để chạy chương trình

Sau đó, ta thực hiện kiểm định về phương sai

Nhận xét:

Giả thiết 𝐇𝟎: Phương sai cân nặng giảm đi ở các phương pháp ăn kiêng là như nhau.

Giả thiết 𝐇𝟏: Có ít nhất 2 phương pháp ăn kiêng có phương sai cân nặng giảm đi khác nhau.

Vì Pr(>F) = 0.6313 > 0.05 ( mức ý nghĩa) nên ta chưa bác bỏ được giả thiết H0 . Vậy có thể kết
luận rằng phương sai về cân nặng giảm đi ở các chế độ ăn kiêng là như nhau.

c. Thực hiện phân tích ANOVA một nhân tố. Trình bày bảng phân tích phương sai trong báo
cáo. Cho kết luận về hiệu quả của các phương pháp ăn kiêng đối với việc giảm cân.

Nhận xét: Dựa trên kết quả ANOVA cho thấy: + SSB = 60.5, bậc tự do k − 1 = 2(k = 3) + SSW =
410.4, bậc tự do N − k = 76 − 3 = 73 (N là tổng số phần tử khảo sát ở tất cả các nhóm) + MSB =
SSB/(k − 1) = 30.264 + MSW = SSW/(N − k) = 5.622 + Tiêu chuẩn kiểm định: F = MSB/MSW =
5.383 + Mức ý nghĩa quan sát: p − value = 0.0066. Dựa vào p − value = 0.0066 bé hơn mức ý
nghĩa α = 5% nên ta bác bỏ được giả thuyết H0. Ngoài ta, ta có thể dựa vào F = 5.383 ∈ Wα =
(Fα;k−1;N−k; +∞) = (F0.05;2;73; +∞) = (3.1221; +∞) nên ta cũng đưa ra kết luận là bác bỏ được
giả thuyết H0.

Vậy có ít nhất 2 chế độ ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức mức độ hiệu quả
đối với việc giảm cân giữa các chế độ ăn kiêng là khác nhau.

Giả thiết 𝐇𝟎: Cân nặng trung bình giảm đi ở các phương pháp ăn kiêng bằng nhau.

Giả thiết 𝐇𝟏: Tồn tại 2 phương pháp ăn kiêng có cân nặng trung bình giảm đi khác nhau.

Ta có Pr(>F) < 0.05 nên bác bỏ giả thiết H0 , chấp nhận giả thiết H1 .

Vậy tồn tại 2 phương pháp ăn kiêng có cân nặng trung bình giảm đi khác nhau, tức mức độ hiệu
quả đối với việc giảm cân giữa các phương pháp ăn kiêng là khác nhau

d. Thực hiện các so sánh bội (multiple comparisons) sau phân tích phương sai. Phương pháp ăn
kiêng nào có hiệu quả tốt nhất trong việc giảm cân?

Thực hiện so sánh các bội:

Để thể hiện sự khác biệt hoặc giống nhau giữa các chế độ ăn kiêng, ta vẽ biểu đồ bằng lệnh
plot():
So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 2 và 1:

+ Giả thiết 𝐇𝟎: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế độ ăn kiêng 1
bằng nhau. + Giả thiết 𝐇𝟏: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế độ
ăn kiêng 1 khác nhau. + Ta nhận thấy p adj = 0.9987711 > mức ý nghĩa anpha = 5%, nên ta chấp
nhận giả thiết H0 . Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 2 và chế độ ăn
kiêng 1 bằng nhau.

So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 3 và 1: + Giả thiết 𝐇𝟎: Trung
bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn kiêng 1 bằng nhau. + Giả thiết
𝐇𝟏: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn kiêng 1 khác nhau. +
Ta nhận thấy p adj = 0.0188047 < mức ý nghĩa anpha = 5%, nên ta bác bỏ giả thiết H0 , chấp
nhận giả thiết H1 . Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn
kiêng 1 khác nhau. Mặt khác ta dựa vào giá trị diff = 1.848148 > 0 nên ta có thể kết luận Trung
bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ăn kiêng 1.

So sánh về sự khác nhau giữa trung bình của nhóm chế độ ăn kiêng 3 và 2: + Giả thiết 𝐇𝟎: Trung
bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn kiêng 2 bằng nhau. + Giả thiết
𝐇𝟏: Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn kiêng 2 khác nhau. +
Ta nhận thấy p adj = 0.0152020 < mức ý nghĩa anpha = 5%, nên ta bác bỏ giả thiết H0, chấp nhận
giả thiết H1.

Vậy Trung bình trọng lượng giảm đi ở nhóm chế độ ăn kiêng 3 và chế độ ăn kiêng 2 khác nhau.
Mặt khác ta dựa vào giá trị diff = 1.880148 > 0 nên ta có thể kết luận Trung bình trọng lượng
giảm đi ở nhóm chế độ ăn kiêng 3 cao hơn so với nhóm chế độ ănkiêng 2.
Nhận xét: phương pháp 3 có lượng cân giảm trung bình cao hơn phương pháp 1 và 2. Vậy
phương pháp 3 là phương pháp ăn kiêng có hiệu quả nhất trong việc giảm cân.

3. Phân tích phương sai hai yếu tố (two way ANOVA)


a. Thực hiện phân tích phương sai hai yếu tố để xét xem liệu chế độ ăn kiêng vàgiới tính ảnh
hưởng như thế nào đến sự giảm cân?

Phân tích phương sai hai nhân tố để đánh giá sự ảnh hưởng chế độ ăn kiêng và giới tính đến sự giảm
cân

Giả thiết 𝐇𝟎: Cân nặng trung bình giảm đi giữa các giới tính bằng nhau. Giả thiết 𝐇𝟏: Cân nặng trung
bình giảm đi giữa các giới tính là khác nhau. Vì Pr(>F)= 0.82062 > 0.05 nên ta chấp nhận H0 . Vậy giới
tính không ảnh hưởng đến việc giảm cân. Giả thiết 𝐇𝟎: Cân nặng trung bình giảm đi giữa các
phương pháp ăn kiêng bằng nhau. Giả thiết 𝐇𝟏: Tồn tại 2 phương pháp ăn kiêng có cân nặng trung
bình giảm đi khác nhau. Vì Pr(>F) = 0.00546 < 0.05 nên bác bỏ H0 , chấp nhận H1 .Vậy chế độ ăn
kiêng có ảnh hưởng đến việc giảm cân.

b) Phân tích phương sai để đánh giá sự tương tác giữa giới tính và phương pháp ăn kiêng.

Ta sử dụng lệnh interaction


Nhận xét: Ta nhận thấy 2 đường thẳng trên đồ thị cắt nhau, tức có sự tương tác giữa giới tính và
phương pháp

You might also like