2-Đề Cương Toán Thống Kê

PHẦN CÔ CẨM:
PHÂN TÍCH BIỂU ĐỒ THỐNG KÊ:........................................................................................................................................................................................................................... 2

SO SÁNH CẶP:........................................................................................................................................................................................................................................................ 4
SO SÁNH TRUNG BÌNH CỦA HAI MẪU ĐỘC LẬP CÓ PHÂN BỐ CHUẨN ............................................................................................................................................................... 6
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN MANN-WHITNEY.................................................................................................................................................................................. 8
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN WILCOXOM .......................................................................................................................................................................................... 9
KIỂM ĐỊNH RR VÀ OR .......................................................................................................................................................................................................................................... 11
PHÂN TÍCH PHƯƠNG SAI (ANNOVA) ................................................................................................................................................................................................................. 13
PHÂN TÍCH ANOVA 1 NHÂN TỐ ...................................................................................................................................................................................................................... 13
PHÂN TÍCH ANOVA 2 NHÂN TỐ ...................................................................................................................................................................................................................... 14
TƯƠNG QUAN VÀ HỒI QUY ............................................................................................................................................................................................................................... 17
PHẦN THẦY CHIẾN

CHƯƠNG 3: GIẢ ĐỊNH PHƯƠNG SAI.................................................................................................................................................................................................................. 19
CHƯƠNG 5: SO SÁNH NHIỀU MẪU .................................................................................................................................................................................................................... 19
CHƯƠNG 7: HỒI QUY TUYẾN TÍNH GIẢN ĐƠN .................................................................................................................................................................................................. 22
CHƯƠNG 8: CÁC GIẢ ĐỊNH ĐỐI VỚI HỒI QUY TUYẾN TÍNH GIẢN ĐƠN ........................................................................................................................................................... 24
CHƯƠNG 9: TWO-WAY ANOVA ......................................................................................................................................................................................................................... 27
Mô hình không chế phẩm (Mô Hình Rút Gọn) .................................................................................................................................................................................................... 34
Mô hình không có tốc độ (Mô hình rút gọn) ....................................................................................................................................................................................................... 35
1
PHÂN TÍCH BIỂU ĐỒ THỐNG KÊ:
Biểu đồ Histogram Biểu đồ hộp Biểu đồ tán xạ

Thể hiện cái nhìn tương đối về dạng liên hệ
Dùng cho biến định lượng liên tục nhằm biểu diễn của hai biến định lượng.
Diễn tả 5 yếu tố của dữ liệu: Giá trị nhỏ nhất, tứ phân vị
phân phối của tập sữ liệu mà tập dữ liệu được chia Thường được sử dụng để biểu thị và so sánh
thứ nhất, trung vị tứ phân vị thứ 3 và giá trị lớn nhất.
thành các khoảng (lớp) các giá trị số như các dữ liệu khoa học, thống
kê, và kỹ thuật
Cho biết (khi nhận xét cần nêu được các ý này): • Trung vị: thanh ngang đậm • Biểu đồ có hai trục giá trị.
• Giá trị thường xuất hiện nhất (mode) • Tứ phân vị thứ nhất (Q1) – thanh ngang nằm phía • Hiển thị các điểm theo những khoảng
• Mức độ thường xuất hiện của mỗi giá trị dưới của thành trung vị (25% đối tượng có giá trị hoặc cụm không đều
• Hình dạng của phân bố bằng hoặc thấp hơn Q1)
• Mối quan hệ giữa dữ liệu và các giới hạn yêu • Tứ phân vị thứ 3 (Q3) – thanh ngang nàm phía
cầu. trên của thanh trung vị (75% đối tượng có giá trị
bằng hoặc thấp hơn Q3)
• Râu phía dưới: Q1- 1,5 x IQR
• Râu phía trên: Q3 + 1,5 x IQR
Trong đó IQR (khoảng biến thiên tứ phân vị) = Q3 -Q1.
Và các giá trị nằm phía trên của râu trên có thể là giá trị
ngoại vi.
Cách nhìn nhận phân bố chuẩn, phương sai Nhận xét: xem hai yếu tố có quan hệ gì:
+ khi kích thước hình hộp chiếm khoảng 50% đồ thị, vị tương quan thuận (1 thằng tăng, thì thằng
trí của các tứ phân vị phân cách biểu đồ thành tỷ lệ 25% kia cũng tăng) hay là tương quan nghịch (1
- 50% -25%. thằng tăng, 1 thằng giảm)
+ Phương sai giống nhau: khi kích thước hình hộp là gần
bằng nhau, đường trung vị gần hoặc trùng với trung bình.
2
So sánh trung bình 2 mẫu
(đã biết có phân phối chuẩn)
Hai mẫu phụ thuộc Hai mẫu độc lập
So sánh hai mẫu độc

So sánh cặp, T-test
lập, T-test
So sánh 2 mẫu
(Chưa biết hoặc không nhất thiết cóhân
phối chuẩn)
Hai mẫu phụ thuộc Hai mẫu độc lập
Kiểm định phi tham Kiểm định phi tham

số tiêu chuẩn số tiêu chuẩn Mann-
Wilcoxom Whitney
3
SO SÁNH CẶP:
Dùng khi hai mẫu phụ thuộc và đều tuân theo phân phối chuẩn, phương sai giống nhau. Các bước làm:
Bước 1: Tính hiệu giữa hai mẫu.
Hiệu bình
Mẫu 1 Mẫu 2 Hiệu (D)
phương (𝐃𝐢)𝟐
X1 Y1 D1 = X1 -Y1 (𝐃𝟏)𝟐
X2 Y2 D2 = X2 -Y2 (𝐃𝟐)𝟐
Từ đó tính ra Dtrung bình:
X3 Y3 D3 = X3 -Y3 (𝐃𝟑)𝟐 𝒏
𝟐 𝟏
X4 Y4 D4 = X4 -Y4 (𝐃𝟒) 𝑫𝒕𝒓𝒖𝒏𝒈 𝒃ì𝒏𝒉 = ∑ 𝑫𝒊
𝟐 𝒏
X5 Y5 D5 = X5 -Y5 (𝐃𝟓) 𝒊=𝟏
X6 Y6 D6 = X6 -Y6 (𝐃𝟔)𝟐
𝒏 𝒏
Các tổng cần tính chính xác để
∑ 𝑫𝒊 ∑(𝑫𝒊 )𝟐 thay vào công thức ở bước 2
𝒊=𝟏 𝒊=𝟏
Bước 2: Dựa vào cỡ mẫu để chọn công thức làm (1 trong hai công thức sau):
Đặt giả thiết Ho: Dtrung bình và 0 khác nhau không có ý nghĩa thống kê. Tức là chỉ số so sánh giữa hai
mẫu là giống nhau (ví dụ số giờ ngủ giữa hai nhóm là giống nhau)
Nếu cỡ mẫu lớn, n ≥ 30 thì Nếu cỡ mẫu nhỏ, n < 30 thì

Tính phương sai (𝑆𝐷 )2: Tính phương sai (𝑺′𝑫 )𝟐 :
𝒏 𝒏 𝟐 𝒏 𝒏 𝟐
𝟏 𝟏 𝟏 𝟏
(𝑺𝑫 )𝟐 = ∗ [∑(𝑫𝒊)𝟐 − ∗ (∑ 𝑫𝒊) ] (𝑺′𝑫 )𝟐 = ∗ [∑(𝑫𝒊)𝟐 − ∗ (∑ 𝑫𝒊) ]
𝒏 𝒏 𝒏−𝟏 𝒏
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
Tính t(tính): Tính t(tính):

𝐃𝐭𝐫𝐮𝐧𝐠 𝐛ì𝐧𝐡 𝑫𝒕𝒓𝒖𝒏𝒈 𝒃ì𝒏𝒉
𝐭 (𝐭í𝐧𝐡) = 𝒕(𝒕í𝒏𝒉) =
𝐒 𝑺′
( 𝐃) ( 𝑫)
√𝐧 √𝒏
Với độ tin cậy p = 1-α (thường là p= 0,95), Với độ tin cậy p = 1-α (thường là p= 0,95),
tra bảng tìm 𝒕𝜶 rồi so sánh với t(tính): tra bảng tìm 𝒕𝜶,𝒌 (k = n-1), so sánh với t(tính):
𝟐 𝟐
• |𝒕(𝒕í𝒏𝒉) | < 𝒕𝜶 kết luận chấp nhận giả thiết Ho. • |𝒕(𝒕í𝒏𝒉) | < 𝒕𝜶,𝒌 kết luận chấp nhận giả thiết Ho.
𝟐 𝟐
Tức là hai mẫu so sánh là như nhau. Tức là hai mẫu so sánh là như nhau.
• |𝒕(𝒕í𝒏𝒉) | > 𝒕𝜶 kết luận bác bỏ giả thiết Ho và: • |𝒕(𝒕í𝒏𝒉) | > 𝒕𝜶,𝒌 kết luận bác bỏ giả thiết Ho và:
𝟐 𝟐
o 𝒕(𝒕í𝒏𝒉) > 𝒕𝜶 kết luận mẫu X < mẫu Y o 𝒕(𝒕í𝒏𝒉) > 𝒕𝜶,𝒌 kết luận mẫu X < mẫu Y
𝟐 𝟐
4
o 𝒕(𝒕í𝒏𝒉) < −𝒕𝜶 kết luận mẫu X > mẫu Y o 𝒕(𝒕í𝒏𝒉) < − 𝒕𝜶,𝒌 kết luận mẫu X > mẫu Y
𝟐 𝟐
Bài 1
STT Trước khi chiếu Sau khi chiếu d = x'-x d2
1 0.28 0.25 -0.03 0.0009
2 0.30 0.29 -0.01 0.0001
3 0.34 0.28 -0.06 0.0036 d trung
4 0.32 0.26 -0.06 0.0036 bình = -
5 0.3 0.31 0.01 0.0001 0.28/14
6 0.29 0.28 -0.01 0,0001
7 0.33 0.27 -0.06 0.0036
8 0.28 0.27 -0.01 0.0001
9 0.31 0.26 -0.05 0.0025
Tổng -0.28 0.0146
Giả thiết H0: d trung bình và 0 khác nhau ko có ý nghĩa thống kê, số mẫu = 9 < 30 => dùng công thức của
mẫu nhỏ có:
𝟏 𝟏
(𝑺′𝑫 )𝟐 = ∗ [𝟎. 𝟎𝟏𝟒𝟔 − ∗ (−𝟎. 𝟐𝟖)𝟐 ] = 𝟕. 𝟑𝟔 ∗ 𝟏𝟎^ − 𝟒
𝟗−𝟏 𝟗
𝑫𝒕𝒓𝒖𝒏𝒈 𝒃ì𝒏𝒉
𝒕(𝒕í𝒏𝒉) = = −𝟑. 𝟒𝟒
𝑺′𝑫
( )
√𝒏
So sánh 𝒕𝜶,𝟖 = 2.306 khi đó ta có kết luận là bác bỏ giả thuyêt H0, tức là d trung bình khác 0, hay
𝟐
thể trọng trung bình của chuột trước và sau chiếu tia là khác nhau. Thể trọng trung bình của chuột
trước khi chiếu lớn hơn nhóm sau khi chiếu. Kết luận chính xác đến 95%
5
SO SÁNH TRUNG BÌNH CỦA HAI MẪU ĐỘC LẬP CÓ PHÂN BỐ CHUẨN
Thường là so sánh cùng 1 chỉ tiêu (như hàm lượng, chỉ số, ….) của hai mẫu độc lập X và Y (số phần từ
trong mẫu X có thể bằng hoặc khác so với mẫu Y).
Ví dụ: so sánh hàm lượng trung bình của hai lô thuốc: trong đó lô X có n viên, lô Y có m viên được kiểm
tra hàm lượng.
Bước 1: Đặt giả thiết H0 (thường là theo đề bài hỏi gì thì đặt giả thiết như thế)
Ví dụ: hàm lượng trung bình của hai lô thuốc X, Y là giống nhau (khác nhau ko có ý nghĩa thống kê,….)
Bước 2: Tính toán số liệu:
- Tính giá trị trung bình, phương sai của mỗi mẫu, từ đó để tính ttính. (kẻ bảng tính cho đỡ nhầm)
Tần Tần
Mẫu Mẫu
số lặp ni * Xi ni * (𝑿𝒊 )𝟐 số lặp mi * Yi mi * (𝒀)𝟐
X Y
lại lại
X1 n1 n1 * X1 n1 * (𝑋1 )2 Y1 m1 m1 * Y1 m1 * (𝑌)2
m2 *
X2 n2 n2 * X2 n2 * (𝑋2 )2 Y2 m2 m2 * (𝑌2 )2
Y2
X3 n3 n3 * X3 n3 * (𝑋3 )2 Y3 m3 m3 * Y3 m3 * (𝑌3 )2
… …
Xi ni ni * Xi ni * (𝑋𝑖 )2 Yj mj mj * Yj mj * (𝑌𝑗 )2
𝐢 𝐢 𝐣 𝐣
Xtb n ∑(𝐧𝐢 ∗ 𝐗𝐢) ∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) Ytb m ∑(𝐦𝐣 ∗ 𝐘𝐣) ∑(𝐦𝐣 ∗ (𝐘𝐢 )𝟐 )

𝐢=𝟏 𝐢=𝟏 𝐣=𝟏 𝐣=𝟏
- Tính ttính:
Mẫu X với n ≥ 30, Y với m ≥ 30 hoặc hai mẫu

Mẫu X có n ≤ 30 hoặc Y có n ≤ 30
có phân phối chuẩn
Tính phương sai của 2 mẫu (𝑺𝑿 )𝟐 và (𝑺𝒀 )𝟐 theo Tính phương sai của 2 mẫu (𝑺′𝑿 )𝟐 và (𝑺′𝒀 )𝟐 theo
công thức: công thức:
𝐢 𝐢 𝟐 𝐢 𝐢 𝟐
𝟏 𝟏 𝟏 𝟏
(𝐒𝐗 ) = ∗ [∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) − ∗ (∑(𝐧𝐢 ∗ 𝐗𝐢)) ]
𝟐 𝟐
(𝐒′𝐗 ) = ∗ [∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) − ∗ (∑(𝐧𝐢 ∗ 𝐗𝐢)) ]
𝐧 𝐧 𝐧−𝟏 𝐧
𝟏 𝟏 𝟏 𝟏
Sy tính tương tự. S’y tính tương tự.

Tính t tính: Tính (𝐒𝐜𝐡𝐮𝐧𝐠 )𝟐 :
𝐗 𝐭𝐛 − 𝐘𝐭𝐛 (𝐧 − 𝟏)(𝐒′𝐗 )𝟐 + (𝐦 − 𝟏)(𝐒′𝐘 )𝟐
𝐭 𝐭í𝐧𝐡 = (𝐒𝐜𝐡𝐮𝐧𝐠 )𝟐 =
𝟐 𝟐 𝐧+𝐦−𝟐
√(𝐒𝐗 ) − (𝐒𝐘 )
𝐧 𝐦 K = n + m -2
Tính t tính
6
|𝐗 𝐭𝐛 − 𝐘𝐭𝐛 |
𝐭 𝐭í𝐧𝐡 =
𝟐 𝟐
√(𝐒𝐜𝐡𝐮𝐧𝐠 ) − (𝐒𝐜𝐡𝐮𝐧𝐠 )
𝐧 𝐦
Kết luận giống nhau:

- Nếu |𝒕𝒕í𝒏𝒉 | < 𝒕(𝜶,𝑲) thì ta chấp nhận giả thiết H0 ở mức > α.
𝟐
- Nếu |𝒕𝒕í𝒏𝒉 | > 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 ở mức ≤ α. Trong đó:
𝟐
o 𝒕𝒕í𝒏𝒉 > 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 và kết luận 𝐗 𝐭𝐛 < 𝐘𝐭𝐛
𝟐
o 𝒕𝒕í𝒏𝒉 < 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 và kết luận 𝐗 𝐭𝐛 > 𝐘𝐭𝐛
𝟐
7
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN MANN-WHITNEY
Dùng cho hai mẫu ngẫu nhiên độc lập X và Y, phân bố của hai mẫu này chưa biết hoặc không nhất thiết
là phân bố chuẩn.
Mẫu X: (X1, X2, X3,…, Xn) - Mẫu Y: (Y1, Y2, Y3,…, Ym)
Bước 1: Sắp xếp theo chiều tăng dần của số liệu: X1, X2, X3,…, Xn, Y1, Y2, Y3,…, Ym
Bước 2: Tính rank cho tưng số liệu trên.
Nhớ cách tính hạng của 1 phần tử (rank): các bước làm như sau
• Xắp xếp các số liệu thành 1 dãy theo chiều tăng dần.
• Đánh số thứ tự từ 1 cho đến hết.
• Tính rank của từ số liệu theo số thứ tự đã đánh.
• Ví dụ như dưới đây:
Từ số liệu trong 1 bài nào đó, xắp xếp được dãy số liệu như sau:
Số liệu 10 10 11 11 11 12 13 13 14 15 15 16 17
Đánh số
1 2 3 4 5 6 7 8 9 10 11 12 13
thứ tự
Rank 1,5 1,5 4 4 4 6 7,5 7,5 9 10,5 10,5 12 13
Bước 3: Sau khi có rank của từng số liệu, tính tổng rank cho từng mẫu (kẻ bảng theo hai mẫu riêng biệt
cho đỡ nhầm):
Mẫu X Rank mẫu X Mẫu Y Rank mẫu Y

X1 R1 Y1 S1
X2 R2 Y2 S2
X3 R3 Y3 S3
… … … …
Xn R4 Ym S4
Tổng
R =∑ 𝑹𝒊 S =∑ 𝑺𝒊
rank
Bước 4:Đặt giả thiết H0 và Tính toán giá trị U cho từng mẫu:
Mẫu X Mẫu Y
𝒏(𝒏 + 𝟏) 𝒎(𝒎 + 𝟏)
𝑼𝟏 = 𝒏 ∗ 𝒎 + −𝑹 𝑼𝟐 = 𝒏 ∗ 𝒎 + −𝑺
𝟐 𝟐
 Chọn U là giá trị nhỉ nhất trong 2 giá trị U1 và U2.
Bước 5: Tính t theo công thức
|𝑼−𝑬𝑼| 𝒏∗𝒎 𝒏∗𝒎∗(𝒏+𝒎+𝟏)
𝒕= Trong đó: 𝑬𝑼 = và 𝑫𝑼 =
√𝑫𝑼 𝟐 𝟏𝟐
Với giá trị α đã cho, tra bảng tìm 𝒕𝜶 và so sánh với t.

𝟐
8
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN WILCOXOM
Dùng cho hai mẫu ngẫu nhiên phụ thuộc nhau: X và Y, phân bố của hai mẫu này chưa biết hoặc không
nhất thiết là phân bố chuẩn.
Mẫu X: (X1, X2, X3,…, Xn) - Mẫu Y: (Y1, Y2, Y3,…, Yn)
Bước 1: Đặt giả thiết H0.
Bước 2: Tính hiệu giữa hai mẫu (di):
X X1 X2 X3 … Xn
Y Y1 Y2 Y3 … Yn
d=X-Y d1 = X1 – Y1 d2 = X2 – Y2 d3 = X3 – Y3 dn = Xn – Yn
Bước 3:
Bỏ các giá trị di = 0. Lấy giá trị tuyệt đối của các di và xác định rank cho các giá trị này (cũng vẫn sắp xếp
theo chiều tăng dần, đánh số thứ tự, rồi tính giá trị rank giống với tiêu chuẩn Mann-Whitney).
Tính các giá trị T- (tổng rank của các di < 0) và T+ (tổng rank của các di > 0).
𝑻− = ∑ 𝒓𝒂𝒏𝒌(|𝒅𝒊|) 𝒗à 𝑻+ = ∑ 𝒓𝒂𝒏𝒌(|𝒅𝒊|)
𝒊:𝒅𝒊 <𝟎 𝒊:𝒅𝒊 > 𝟎
 Từ đó chọn T là giá trị nhỏ hơn trong hai giá trị T- và T+.
Bước 4:
Sau khi bỏ các di = 0, khi đó tập dữ liệu còn lại n+ giá trị (n+ ≤ n).
Nếu giả thiết H đúng và nếu n+ ≥ 8 thì T có phân phối xấp xỉ chuẩn với:
𝒏+ ∗ (𝒏+ + 𝟏) 𝒏+ ∗ (𝒏+ + 𝟏) ∗ (𝟐𝒏+ + 𝟏)
𝑬𝑻 = 𝒗à 𝑫𝑻 =
𝟒 𝟐𝟒
|𝑻−𝑬𝑻|
Tính ttính theo công thức: 𝒕𝒕í𝒏𝒉 =
√𝑫𝑻
Bước 5:
So sánh ttính với 𝐭 𝛂 . Rồi kết luận nếu ttính lớn hơn thì bác bỏ giả thuyết H0, còn nếu nhỏ hơn thì chấp nhận
𝟐
giả thuyết.
9
Ví dụ đề thi K24
 Đọc đề thấy đây là hai mẫu độc lập, yêu cầu đề bài là dùng kiểm định phi tham số => chọn tiêu
chuẩn mann-whitney.
Bước 1 + 2: Sắp xếp và tính rank số liệu
Dữ 8 9 9 10 11 11 13 14 15 16 18 20 21 22 24 25 27
liệu
Số 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
thứ tự
Rank 1 2.5 2.5 4 5.5 5.5 7 8 9 10 11 12 13 14 15 16 17
Bước 3: Rank của mỗi mẫu:

Nam Rank Nữ Rank
9 2.5 8 1
11 5.5 9 2.5
13 7 10 4
15 9 11 5.5
18 11 14 8
20 12 16 10
22 14 21 13
24 15 27 17
25 16
Tổng 92 Tổng 61
Bước 4+5:
Giả thiết H0: Thời gian nằm viện trung bình của các bệnh nhân nam và nữ trong điều trị bệnh a
khác nhau không có ý nghĩa thống kê.
Mẫu Nam (n=9) Mẫu nữ (m=8)

9(9 + 1) 8(8 + 1)
𝑈1 = 9 ∗ 8 + − 92 = 25 𝑈2 = 9 ∗ 8 + − 61 = 47
2 2
 Chọn U = U1 = 25; ngoài ra có: EU = 36 và DU = 108
|𝑼−𝑬𝑼|
 𝒕𝒕í𝒏𝒉 = = 𝟏. 𝟎𝟓𝟖 < 𝒕𝜶 = 𝟏. 𝟗𝟔 => chấp nhận giả thiết Ho. Tức là thời gian nằm viện
√𝑫𝑼 𝟐
trung bình của nam không khác so với nữ. Kết luận chính xác đến 95%.
10
KIỂM ĐỊNH RR VÀ OR
Lựa chọn kiểm định nào: đọc đề và dựa vào chiều thời gian nghiên cứu, nếu nghiên cứu
xuôi thời gian thì chọn RR, còn ngược thời gian thì chọn OR
Kiểm định RR (Risk ratio) Kiểm định OR (Odds Ratio)
Xác suất xảy ra 1 biến cố bất lợi trong một thời Odds của một biến cố là tỷ số của số lần biến cố
gian nhất định đó xảy ra trên số lần biến cố đó không xảy ra.
X Đối chứng X Đối chứng
Bệnh a b Bệnh a b
Không bệnh Không bệnh

c d c d
Cỡ mẫu n m Cỡ mẫu n m
Tỷ số nguy
Nguy cơ p1 = a/n p2 = b/m O1 = a/c O2 = b/d
cơ
Tỷ số nguy cơ: RR = p1 / p2 Tỷ số giữa 2 Odds: OR = O1 / O2

p1: Nguy cơ nhóm được điều trị. O1: Odds của nhóm được điều trị.
p2: Nguy cơ nhóm đối chứng (nhóm không được O2: Odds của nhóm đối chứng.
điều trị).
Tỷ số này cho ý nghĩa: Tỷ số OR cho ý nghĩa:
• Nếu RR = 1 thì hai nhóm có hiệu quả như • Nếu OR = 1 thì hai nhóm có hiệu quả như
nhau. nhau.
• Nếu RR > 1, thuốc có hại. • Nếu OR > 1, thuốc có hại.
• Nếu RR < 1, thuốc có lợi. • Nếu OR < 1, thuốc có lợi.
• RR, OR đều là số trung bình.

• Nếu lặp lại nghiên cứu thì hai tỷ số này có thể khác.
• Nếu lặp lại 100 lần, về nếu tất cả hoặc 95% RR, OR đều <1 thì đó là chứng cứ khoa học
Cần ước tính phương sai của RR (OR), độ lệch chuẩn và tìm khoảng tin cậy 95%. Tuy nhiên RR (hay
OR) là một tỷ số, do đó khó ước lượng phương sai => chuyển sang dạng ln(RR) sẽ là một hiệu.
11
Các bước làm như sau: Các bước làm như sau:
B1 L = ln(RR) = ln(p1/p2)= ln(p1)-ln(p2) B1 L = ln(OR) = ln(O1/O2)= ln(O1)-ln(O2)

B2 Phương sai của L tính theo công thức: B2 Phương sai của L tính theo công thức:
𝟏 𝟏 𝟏 𝟏 𝟏 𝟏 𝟏 𝟏
S 2 = (𝒂 − 𝒏 ) + ( 𝒃 − 𝒎 ) S2 = (𝒂 + 𝒃) + ( 𝒄 + 𝒅)
Từ đó tính được độ lệch chuẩn: S Từ đó tính được độ lệch chuẩn: S
B3 Khoảng tin cậy 95%: B3 Khoảng tin cậy 95%:
L ± 1,96 x S L ± 1,96 x S
B4 Hoán chuyển sang đơn vị RR ban đầu sẽ B4 Hoán chuyển sang đơn vị RR ban đầu sẽ
có khoảng tin cậy: có khoảng tin cậy:
e(L- 1,96 x S) ; e(L+ 1,96 x S) e(L- 1,96 x S) ; e(L+ 1,96 x S)
• OR là một ước số của RR

• Nếu nguy cơ mắc bệnh thấp hay rất thấp
• Ưu điểm: có đơn vị rõ ràng nên dễ diễn giải
(<1%) thì OR ~ RR.
kết quả.
• Ưu điểm: OR có tính nhất quán
• Nhược điểm: không có tính nhất quán (bất đối
xứng) • Nhược điểm: đơn vị không rõ ràng, nếu nguy
cơ mắc bệnh >10% thì OR >> RR (cao hơn
thực tế)
Tùy mô hình: RR phù hợp với các mô hình xuôi theo thời gian, tỉ lệ lưu hành, tỷ lệ phát sinh bệnh cao
=> khi đó không dùng OR
Ví dụ đề thi K24:
Lựa chọn kiểm định RR vì đây là NC thuần tập, theo dõi theo thời gian và có tỷ lệ mắc bệnh lớn (10% trở
lên ở cả 2 nhóm)
RR=150/450 : 50/500 = 3.333
L=ln(RR)=1,204
1 1 1 1
s=√150 + 50 − 450 − 500 = 0,150
 95%CI của RR là (2,484; 4,472)

 Vậy, có thể kết luận người hút thuốc lá có nguy cơ bị ung thư cao gấp 3,333 lần sao với người
không hút thuốc lá. Sự khác biệt có ý nghĩa thống kê (95%CI lớn hơn 1)
12
PHÂN TÍCH PHƯƠNG SAI (ANNOVA)
Kiểm định > 2 nhóm

(Phân phối chuẩn)
1 yếu tố ảnh hưởng đến phân nhóm 2 yếu tố ảnh hưởng đến phân nhóm
ANOVA 1 nhân tố Không lặp lại thí Lặp lại thí nghiệm
(xem 1.1) nghiệm r lần
ANOVA 2 nhân tố ANOVA 2 nhân tố

không lặp có lặp
(xem 1.2.1) xem (1.2.2)
PHÂN TÍCH ANOVA 1 NHÂN TỐ

a) Đề bài
Cho k nhóm:
Nhóm 1: x1.1; x2.1;…;xn1.1 (n1 số liệu)
Nhóm 2: x1.2; x2.2;…;xn2.2 (n2 số liệu)
…
Nhóm k: x1.k; x2.k;…;xnk.k (nk số liệu)
Kiểm định xem trung bình của các nhóm có khác nhau không.
b) Phương pháp
Giả thuyết H0: Không có sự khác nhau về trung bình giữa các nhóm.
Nhóm (i) 1 2 … k Toàn bộ mẫu
Số liệu x1.1 x1.2 … x1.k
x2.1 x2.2 … x2.k
… … … …
xn1.1 xn2.2 … xnk.k
Cỡ mẫu ni n1 n2 … nk n=n1+n2+…+nk
Tổng số Ti T1 = ∑𝑛1 𝑖=1 𝑥𝑖.1 T2 … Tk T=T1+T2+…Tk
𝑇1 … 𝑇
Trung bình 𝑥̅𝑖 𝑥1 =𝑛
̅̅̅ 𝑥2
̅̅̅ 𝑥𝑘
̅̅̅ 𝑥̅ = 𝑛
1
Lập bảng ANOVA
Nguồn Tổng độ lệch bình Bậc tự do (df) Phương sai (MS) F-tỷ số
phương (SS) MS = SS/df
13
Giữa các nhóm SSB k-1 MSB F
(B) 𝑇12 𝑇𝑘2 𝑇2 𝑆𝑆𝐵 𝑀𝑆𝐵
= + ⋯+ − = 𝑘−1 =𝑀𝑆𝑊
𝑛1 𝑛𝑘 𝑛
Trong các nhóm SSW n-k 𝑆𝑆𝑊
MSW =𝑛−𝑘
(W) =SST - SSB
Tổng số SST n-1
(T) = ∑ (𝑥𝑖.𝑗 − 𝑥̅ )2
𝑻𝟐
= ∑ 𝒙𝟐𝒊.𝒋 - 𝒏
(công thức in đậm là công thức sử dụng để tính toán thuận tiện hơn)
Nếu F ≥ Fk-1;n-k : Bác bỏ giả thuyết H0 => Có ít nhất 1 nhóm có khác biệt với các nhóm khác.
Nếu F < Fk-1;n-k: Chấp nhận giả thuyết H0 => Không có sự khác biệt giữa các nhóm
PHÂN TÍCH ANOVA 2 NHÂN TỐ
1.1.1. Phân tích ANOVA 2 nhân tố không lặp

a) Đề bài
Yếu tố A có n mức: a1; a2;…;an
Yếu tố B có m mức: b1;…;bm
Với mỗi cặp nhân tố (ai;bj), có 1 giá trị xi.j tương ứng.
Hỏi nhân tố A, B có ảnh hướng đến giá trị X hay không
b) Phương pháp
Giả thuyết H0: Không có sự khác nhau giữa các nhóm yếu tố A.
Không có sự khác nhau giữa các nhóm yếu tố B.
B
b1 b2 … bm Tổng mỗi nhóm a Tổng BP mỗi nhóm a
Ti*=∑𝑚
𝑗=1 𝑥𝑖𝑗 Si*= ∑𝑚 2
𝑗=1 𝑥𝑖𝑗
A a1 x11 x12 x1m T1* S1*
a2 x21 x22 x2m T2* S2*
….
an xn1 xn2 xnm Tn* Sn*
Tổng mỗi nhóm b T*1 T*2 T*m T = ∑ 𝑥𝑖𝑗
T*j=∑𝑛𝑖=1 𝑥𝑖𝑗
2
Tổng BP mỗi S*1 S*2 S*m TS = ∑ 𝑥𝑖𝑗
nhóm b
S*j= ∑𝑛𝑖=1 𝑥𝑖𝑗
2
Bảng ANOVA
Nguồn Tổng độ lệch bình phương Bậc tự do (df) Phương sai (MS) F- tỷ số
(SS) MS = SS/df
A 2
∑𝑖 𝑇𝑖∗ 𝑇2 n-1 𝑆𝑆𝐴 𝑀𝑆𝐴
SSA = − MSA=𝑛−1 FA =𝑀𝑆𝑊
𝑚 𝑚.𝑛
B 2
∑𝑗 𝑇∗𝑗 𝑇2 m-1 𝑆𝑆𝐵 𝑀𝑆𝐵
SSB = − MSB = 𝑚−1 FB = 𝑀𝑆𝑊
𝑛 𝑚.𝑛
14
Sai số SSW = SST – SSA - SSB (n-1)(m-1) 𝑆𝑆𝑊
MSW=(𝑚−1)(𝑛−1)
Tổng 𝑇2 mn - 1
SST= TS - 𝑚.𝑛
Nếu FA > Fn-1; (n-1)(m-1);α thì bác bỏ yếu tố giả thuyết H0 với yếu tố A, nghĩa là yếu tố A có ảnh hưởng đến
giá trị X.
Tương tự với FB > Fm-1; (n-1)(m-1); α
1.1.2. Phân tích ANOVA 2 nhân tố có lặp
a) Đề bài
Yếu tố A có n mức: a1; a2;…;an
Yếu tố B có m mức: b1;…;bm
Với mỗi cặp nhân tố (ai;bj), thí nghiệm được lặp r lần, cho r giá trị: xij1;…;xijr
Kiểm định xem nhân tố A có ảnh hưởng đến X hay không, nhân tố B có ảnh hưởng đến X hay không,
nhân tố A và nhân tố B có tương tác với nhau không.
b) Phương pháp
Giả thuyết H0: Không có sự khác nhau giữa các nhóm yếu tố A. Không có sự khác nhau giữa các nhóm
yếu tố B. Không có sự tương tác giữa yếu tố A và yếu tố B
B
b1 b2 … bm Tổng mỗi nhóm a Tổng BP mỗi nhóm a
𝑚 𝑟
Ti**=∑𝑗=1 ∑𝑘=1 𝑥𝑖𝑗𝑘 Si*= ∑𝑚 𝑟 2
𝑗=1 ∑𝑘=1 𝑥𝑖𝑗𝑘
A a1 x111 x121 … x1m1 T1** S1**
… … …
x11r x12r x1mr
a2 x211 x221 … x2m1 T2** S2**
… … …
x21r x22r x2mr
…. … … … …
an xn11 xn21 … xnm1 Tn** Sn**
… … …
xn1r xn2rxnmr
Tổng mỗi nhóm b T*1* T*2* …
T*m* T = ∑ 𝑥𝑖𝑗𝑘
T*j*=∑𝑛𝑖=1 ∑𝑟𝑘=1 𝑥𝑖𝑗𝑘
Tổng BP mỗi nhóm b S*1* S*2* … S*m* 2
TS = ∑ 𝑥𝑖𝑗𝑘
𝑛 𝑟 2
S*j*= ∑𝑖=1 ∑𝑘=1 𝑥𝑖𝑗𝑘
(Cách tính tương tự dạng 2 nhân tố không lặp, chỉ khác là cộng r số hạng thay vì 1 số hạng)
Ngoài ra, tính Tij* là tổng bình phương của r số hạng trong mỗi ô
Bảng ANOVA
Nguồn Tổng độ lệch bình phương Bậc tự do Phương sai (MS) F- tỷ số
(SS) (df) MS = SS/df
A 2
∑𝑖 𝑇𝑖∗∗ 𝑇2 n-1 𝑆𝑆𝐴 𝑀𝑆𝐴
SSA = − MSA=𝑛−1 FA =𝑀𝑆𝑊
𝑚𝑟 𝑚.𝑛.𝑟
B 2
∑𝑗 𝑇∗𝑗∗ 𝑇2 m-1 𝑆𝑆𝐵 𝑀𝑆𝐵
SSB = − MSB = 𝑚−1 FB = 𝑀𝑆𝑊
𝑛𝑟 𝑚.𝑛.𝑟
AB SSAB (n-1)(m-1) MSAB 𝑀𝑆𝐴𝐵
FAB = 𝑀𝑆𝑊
15
2
∑𝑖,𝑗 𝑇𝑖𝑗∗ 2
∑𝑖 𝑇𝑖∗∗
2
∑𝑗 𝑇∗𝑗∗ 𝑆𝑆𝐴𝐵
= − − + = (𝑚−1)(𝑛−1)
𝑟 𝑚𝑟 𝑛𝑟
𝑇2
𝑚.𝑛.𝑟
Sai số SSW mn(r-1) 𝑆𝑆𝑊
MSW=𝑚𝑛(𝑟−1)
= SST – SSA – SSB - SSAB
Tổng 𝑇2 mn - 1
SST= TS - 𝑚.𝑛.𝑟
Nếu FA > Fn-1; mn(r-1);α thì bác bỏ yếu tố giả thuyết H0 với yếu tố A, nghĩa là yếu tố A có ảnh hưởng đến
giá trị X.
Tương tự với FB > Fm-1; mn(r-1); α
FAB > F(n-1)(m-1); mn(r-1); α
16
TƯƠNG QUAN VÀ HỒI QUY
a) Phương pháp
Xét mẫu ngẫu nhiên kích thước n, 2 biến X và Y: (x1;y1);…;(xn;yn)
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )
• Hệ số tương quan: r =
√𝑛 ∑𝑛 2 𝑛 2 𝑛 2 𝑛
𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 ) √𝑛 ∑𝑖=1 𝑦𝑖 − (∑𝑖=1 𝑦𝑖 )
2
- r luôn luôn thuộc khoảng [-1; 1]

- Dấu của r: r > 0 thì X, Y tương quan thuận
r < 0 thì X, Y tương quan nghịch
- Giá trị tuyệt đối: 0 ≤ |r| < 0,3 thì X, Y không có sự tương quan
0,3 ≤ |r| < 0,7 thì X, Y có sự tương quan lỏng lẻo
0,7 ≤ |r| ≤1 thì X, Y có tương quan chặt chẽ
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )
• Phương trình hồi quy y= ax + b: a= 𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 )
2
(∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )− (∑𝑖=1 𝑥𝑖 )(∑𝑛

𝑛 2 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 )
b= ∑𝑛 2 𝑛 2
𝑛 𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 )
• Kiểm định hệ số hồi quy
2
1 (∑𝑛
𝑖=1 𝑥𝑖 )
Một số công thức có thể cần dùng: 𝑠𝑥2 = 𝑛 [∑𝑛𝑖=1 𝑥𝑖2 − ]
𝑛
2
1 (∑𝑛
𝑖=1 𝑦𝑖 ) 𝑛
𝑠𝑦2 = [∑𝑛𝑖=1 𝑦𝑖2 − ] 𝑠 2 = 𝑛−2 (𝑠𝑦2 − 𝑎2 𝑠𝑥2 )
𝑛 𝑛
➢ Kiểm định giả thuyết a=a0

𝒂−𝒂𝟎 𝒂−𝒂𝟎
t= =
𝒔𝟐 𝟐
𝟏 𝒔𝒚
√ 𝒏 𝟐 √ ( 𝟐 −𝒂𝟐 )
∑𝒊=𝟏(𝒙𝒊 −𝒙
̅) 𝒏−𝟐 𝒔𝒙
➢ Kiểm định giả thuyết b=b0

𝒃−𝒃𝟎 𝒃−𝒃𝟎
t= 𝟏
=
𝒔𝟐 . ∑ 𝒏 𝒙𝟐 𝟏 𝒔𝟐
𝒚
√ 𝒏 𝒊=𝟏 𝒊𝟐 √ ( 𝟐−𝒂𝟐 ).(∑𝒏 𝟐
𝒊=𝟏 𝒙𝒊 )
∑𝒏 ̅) 𝒏(𝒏−𝟐) 𝒔𝒙
𝒊=𝟏(𝒙𝒊 −𝒙
Nếu |t| ≥ 𝑡∝;𝑛−2 thì bác bỏ giả thuyết H0

2
• Khoảng tin cậy của hệ số hồi quy

1 𝑠2
Hệ số góc: a ± 𝑡∝;𝑛−2 . √𝑛−2 (𝑠𝑦2 − 𝑎2 )
2 𝑥
1 𝑠2
Hệ số tự do: b ± 𝑡∝;𝑛−2 . √𝑛(𝑛−2) (𝑠𝑦2 − 𝑎2 ) . (∑𝑛𝑖=1 𝑥𝑖2 )
2 𝑥
BÀI TẬP VÍ DỤ
Đề thi CH23 – đề 1
17
xi yi ni ni.xi ni. yi ni.xi.yi ni.xi2 ni.yi2
1 30 15 15 450 450 15 13500
1 40 11 11 440 440 11 17600
1 45 8 8 360 360 8 16200
2 35 18 36 630 1260 72 22050
2 40 10 20 400 800 40 16000
2 45 7 14 315 630 28 14175
3 30 10 30 300 900 90 9000
3 35 17 51 595 1785 153 20825
3 40 4 12 160 480 36 6400
𝑛 𝑛 𝑛 𝑛 𝑛
Tổng n=100
∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖2 ∑ 𝑦𝑖2
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
= 197 = 3650 = 7105 = 453 = 135750
100.7105−197.3650
Hệ số tương quan: r=√100.453−1972 2
= - 0.211
.√100.135750−3650
 Giữa X và Y gần như không có sự tương quan.

100.7105−197.3650
a= = −1,317
100.453−1972
453.3650−197.7105
b= = 39,095
100.453−1972
 y= -1,317x + 39,095
18
CHƯƠNG 3: GIẢ ĐỊNH PHƯƠNG SAI
1, Xét phân bố chuẩn:
- Giả định (1): Phân bố chuẩn: Trung vị = Trung bình
- Giải định (2): Phương sai 2 nhóm (Độ phân tán dữ liệu/ Sai số thí nghiệm) phải giống nhau
- Giả định (3): Mẫu độc lập (xét đối tượng tác động cuối cùng đến kết quả thí nghiệm).
Vi phạm (1), (2): chuyển dạng dữ liệu (sang logarit/ hoặc ln) hoặc lấy thêm dữ liệu.
2, Nhận biết cần chuyển dạng số liệu sang dạng logarit khi phương sai 2 nhóm khác nhau:
- Mức độ phân tán của 2 hình hộp (độ rộng hình hộp) khác nhau đáng kể.
- Nhóm có trung bình lớn hơn có độ phân tán lớn hơn.
Khi chuyển dạng logarit chú giải theo trung vị.
3, So sánh 2 mẫu: mẫu 1 khác mẫu 2 tức là trung bình mẫu 1 khác trung bình mẫu 2:
- Bước 1: Kiểm tra tính độc lập: Mẫu độc lập dùng so sánh 2 mẫu. Mẫu phụ thuộc dùng T-cặp.
- Bước 2: So sánh luôn hoặc chuyển dạng dữ liệu (log, ln, căn bậc 2…)
Kiểm tra giả định phương sai giống nhau (F test) và giả định phân bố chuẩn (box plot) hoặc sử dụng
ANOVA kiểm tra 2 giả định này.
CHƯƠNG 5: SO SÁNH NHIỀU MẪU
Các bước tiến hành:

Yi là trung bình cộng của mẫu tính được
µ là trung bình cộng của quần thể chưa biết.
- Tính giá trị trung bình cộng từng nhóm mẫu Yi

- Tính S1,2..
- Tính độ lệch chuẩn chung Sp
- Tính sai số chuẩn SE: So sánh 2 nhóm trong thí nghiệm có I nhóm:
- Kiểm tra giả thuyết Ho: Trung bình cộng 2 nhóm giống nhau µ1 - µ2 = 0, thay vào tính t-statistic:
19
So sánh với giá trị t α/2, bậc tự do ; lớn hơn thì bác bỏ giả thuyết, nhỏ hơn thì chấp nhận giả thuyết.
- Tính khoảng tin cậy 95%:
- Số dư Ri = Giá trị thực - Giá trị dự đoán của mô hình (=giá trị trung bình) = Yi - Y.
Phương sai Si 2 = ∑(𝑌𝑖 − 𝑌)2

n-1
Nếu Sp = 0 thì Si 2 = 0, số dư = Yi – Y = 0.
- Ví dụ bài chia 6 nhóm:
• Khi so sánh 2 nhóm lựa chọn sử dụng Sp chung của cả 6 nhóm, không nên sử dụng Sp của 2 nhóm do
Sai số chuẩn tính được gần quần thể hơn
• Không tính Sp trung bình cộng của 6 nhóm do mỗi nhóm có bậc tự do khác nhau, cỡ mẫu khác nhau,
số lượng mẫu có thể thay đổi trong quá trình nghiên cứu (ví dụ chuột chết).
Phân tích phương sai 1 chiều:

Nguyên tắc:
• Dùng F-test để kiểm tra có sự khác nhau giữa các trung bình các nhóm hay không? Bản chất là so
sánh 2 mô hình, sử dụng tham số thống kê là phương sai để so sánh.
Giải thiết H1:
• Có ít nhất 1 nhóm khác với 1 trong những nhóm còn lại
Dữ liệu
Nhóm 1 2 3 4 Bậc tự do
Mô hình mỗi nhóm 1
µ1 µ2 µ3 µ4 n–4
trung bình Ha (đầy đủ)
Mô hình trung bình
µ µ µ µ n–1
chung Ho (rút gọn)
Công thức tính:

• Tổng bình phương số dư SS = ∑(𝑌𝑖𝑗 − 𝑌𝑖)2
Áp dụng bài tập:

Bảng ANOVA
Nguồn sai số Tổng bình Bậc tự do Phương sai F statistic p-value
phương (Trung bình
bình phương)
20
Giữa các nhóm SSB k – 1 = Số nhóm – SSB/ (k – 1) SSB
= SSW
1
Trong các nhóm (MH SSW N-k SSW/ (N-k)
mỗi nhóm 1 trung bình) = Số mẫu - số = Sp 2
nhóm
Tổng (MH trung bình SS tổng N - 1 = Số mẫu –
chung) 1
• F statistic > F tra bảng (bậc tự do k-1; N-k):

Bác bỏ giả thuyết: 2 mô hình Ha và Ho khác nhau có ý nghĩa thống kê, tức là có sự khác nhau giữa các
nhóm, có ít nhất 1 nhóm khác với 1 trong các nhóm còn lại.
-> Phải sử dụng mô hình phức tạp hơn là Ha
• F statistic < F tra bảng (bậc tự do k-1; N-k): Chấp nhận giả thuyết:
2 mô hình Ha và Ho không khác nhau có ý nghĩa thống kê -> Sử dụng mô hình đơn giản hơn là Ho
??? Chứng minh Sp 2 chung = SS mô hình đầy đủ???
21
CHƯƠNG 7: HỒI QUY TUYẾN TÍNH GIẢN ĐƠN
Điều kiện để ngoại suy:

- Phải tuân theo phân bố chuẩn
- Mẫu độc lập
- Phương sai giống nhau ở từng thời điểm
- Có tồn tại mối quan hệ tuyến tính giữa 2 biến.
Phương trình hồi quy tuyến tính: Dùng dự đoán tuổi thọ thuốc
Hệ số Giá trị dự đoán SE t-statistic

Điểm cắt βo = (βo dự đoán – βo)/ SE (βo)
Độ dốc β1 = (β1 dự đoán – β1)/ SE (β1)
Bậc tự do mô hình = Cỡ mẫu – số tham số trong mô hình (Số β trong mô hình)
Ví dụ:
22
??? Chứng minh p-value < 0.05 khi khoảng tin cậy không cắt 0.
23
CHƯƠNG 8: CÁC GIẢ ĐỊNH ĐỐI VỚI HỒI QUY TUYẾN TÍNH GIẢN ĐƠN
❖ Mức độ phức tạp của các mô hình tăng dần: MH 1 trung bình chung < MH Hồi quy < MH mỗi
nhóm 1 trung bình
❖ Muốn dùng Mô hình hồi quy để dự đoán tuổi thọ thuốc cần chứng minh nó là mô hình tốt nhất (tốt
hơn mô hình trung bình chung và tốt bằng mô hình mỗi nhóm 1 trung bình)
❖ Kiểm tra giả định tuyến tính: Lack of Fit F Test: Phân tích phương sai để so sánh MH hồi quy đơn
giản và MH mỗi nhóm 1 trung bình
Bảng ANOVA: Dòng cuối là mô hình phức tạp nhất, Dòng thứ 2 từ dưới lên: Chênh lệch giữa 2 mô hình.
Giả thuyết Ho: Mô hình hồi quy không khác với Mô hình mỗi nhóm 1 trung bình
Bảng 8.1: So sánh MH hồi quy với MH 1 trung bình chung:
p<0.05 nên MH hồi quy khác với MH 1 trung bình chung -> Phải sử dụng MH phức tạp hơn là MH hồi quy
Bảng 8.2: So sánh MH mỗi nhóm 1 trung bình với MH 1 trung bình chung:
p<0.05 nên MH mỗi nhóm 1 trung bình khác với MH 1 trung bình chung -> Phải sử dụng MH phức tạp
hơn là MH mỗi nhóm 1 trung bình
Bảng 8.3: So sánh MH hồi quy với MH mỗi nhóm 1 trung bình
24
❖ Đồ thị số dư (Residual Plot): Số dư xếp theo trình tự lớn dần thành đường thẳng thể hiện phân bố
chuẩn
❖ So sánh nhiều mẫu:
Kiểm tra giả định phương sai giống nhau và giả định phân bố chuẩn: dựa vào đồ thị box plot hoặc
ANOVA (dựa vào Residuals plot).
- Nếu được thì so sánh luôn. Nếu thấy p-value <0,05 thì dùng Tukey method để kiểm tra sự
khác nhau từng nhóm.
- Nếu không được thì chuyển dạng dữ liệu (ln, căn bậc 2, mũ…..), thêm tham số giải thích (dùng
phân tích ANOVA hai chiều, hoặc hồi quy tuyến tính đa)
25
26
CHƯƠNG 9: TWO-WAY ANOVA
Bảng giá trị trung bình mỗi nhóm và trung bình chung.
27
Mô hình chế phẩm: Gộp 8 nhóm thành hai nhóm: Mỗi nhóm là tập hợp của 4 nhóm nhỏ cùng chế phẩm
nhưng khác tốc độ. Như vậy 8 nhóm đầu được chia làm 2 nhóm lớn trong mô hình chế phẩm (hay nói một
cách khác cố định tốc độ ; cho yếu tố mô hình thay đổi nhằm đánh giá ảnh hưởng của yếu tố chế phẩm đến
tốc độ giải phóng hoạt chất)
• Nhóm 1: Ứng với chế phẩm Glucotrol = (Nhóm Glucotrol 50 + Nhóm Glucotrol 100 + Nhóm
Glucotrol 150 + Nhóm Glucotro 200)
• Nhóm 2: Ứng với chế phẩm CH20for = ( Nhóm CH20for 50 + Nhóm CH20for 100 + Nhóm
CH20for 150 + Nhóm CH20for 200)
Mô hình tốc độ: Gộp 8 nhóm thành 4 nhóm: ( hay nói một cách khác có định chế phẩm ; cho yếu tố tốc độ
thay đổi nhằm đánh giá ảnh hưởng của yếu tố tốc độ cánh khuấy đến tốc độ giải phóng hoạt chất)
• Nhóm 1: Ứng với tốc độ 50 = ( Nhóm Glucotrol 50 + Nhóm CH20for 50)
28
Mô Hình 1 TB: đại diện cho các giả định:
• Yếu tố A( yếu tố chế phẩm) không ảnh hưởng đến tốc độ giải phóng dược chất
• Yếu tố B( yếu tố tốc độ cánh khuấy) không ảnh hưởng đến tốc độ giải phóng dược chất Không có
sự tương tác giữa hai yếu tố A và B.
Mô hình mỗi nhóm 1 TB: đại diện cho các giả định
• Yếu tố A( yếu tố chế phẩm) có ảnh hưởng đến tốc độ giải phóng dược chất
• Yếu tố B( yếu tố tốc độ cánh khuấy) có ảnh hưởng đến tốc độ giải phóng dược chất có sự tương tác
giữa hai yếu tố A và B.
Để trả lời cho 3 câu hỏi nghiên cứu đặt ra ở trên ta có 2 cách:
• Cách 1: Sử dụng bảng ANOVA
• n là số lựa chọn của yếu tố A

• m là số lựa chọn của yếu tố B
29
• r là số lần lặp lại thí nghiệm
30
ÁP DỤNG CHO VÍ DỤ:
Nhận xét:
F(AB) < F(α; 3;16) => p_value > 0,05 => Không có sự tương tác giữa yếu tố chế phẩm và yếu tố tốc
độ cánh khuấy
F(A) < F(α; 1;16) => p_value > 0,05 => Yếu tố chế phẩm không ảnh hưởng đến tốc độ giải
phóng hoạt chất
F(B) > F(α; 3;16) => p_value < 0,05 => Yếu tố tốc độ cánh khuấy ảnh hưởng đến tốc độ giải
phóng hoạt chất
31
Cách 2: So sánh các mô hình để thử từng giả thiết
Trong số 3 câu hỏi nghiên cứu đặt ra ở trên thì câu hỏi đầu tiên cần giải đáp đó chính là :
Yếu tố A( chế phẩm) và yếu tố B (Tốc độ cánh khuấy) có tương tác với nhau hay không (*)
Để trả lời câu hỏi này ta đi so sánh hai mô hình: “ Mô hình có tương tác” (Mô hình phức tạp) với
“Mô hình không có tương tác” (Mô hình rút gọn)
- Nếu không có sự khác biệt giữa hai mô hình thì ta sử dụng mô hình đơn giản hơn. Tức “Mô
hình không tương tác” Hay nói một cách khác câu trả lời cho (*) chính là không có tương tác
giữa hai yếu tố.
- Ngược lại nếu có sự khác biệt giữa hai mô hình này thì ta sử dụng mô hình phức tạp hơn: “Mô
hình có tương tác”. Hay nói một cách khác câu trả lời cho (*) chính là có tương tác giữa hai yếu
tố.
ÁP DỤNG CHO SỐ LIỆU CỦA NGHIÊN CỨU BAN ĐẦU:

1) Thử Giả thiết hai yếu tố A, B có tương tác với nhau hay không ta đi so sánh hai mô hình có tương
tác và mô hình không có tương tác để rút ra kết luận.
32
- Hai mô hình khác nhau không có ý nghĩa thống kê nên trong Hai mô hình ta dùng mô hình
không tương tác:
- Trong TH chứng minh được có sự tương tác thì ta dùng “Mô hình có tương tác” rồi làm tương tự
như với “Mô hình không có tương tác”
2) Tiếp theo sau khi đã trả lời câu hỏi đầu (*) Ta tiếp tục sử dụng “mô hình đã được lựa chọn” để
trả lời tiếp hai câu hỏi:
- Yếu tố A (Chế phẩm) có ảnh hưởng đến tốc độ giải phóng hoạt chất hay không? (**)
- Yếu tố B (Chế phẩm) có ảnh hưởng đến tốc độ giải phóng hoạt chất hay không? (***)
2.1) Để trả lời (**) Tiến hành thử giả thiết yếu tố chế phẩm:
- Ta so sánh hai mô hình: “Mô hình có chế phẩm” (mô hình đầy đủ lúc này là mô hình không
tương tác vì mô hình tương tác đã bị loại) và “Mô hình không có chế phẩm” (Mô hình rút gọn)
33
Mô hình không chế phẩm (Mô Hình Rút Gọn)
“Mô hình không chế phẩm” thu được bằng cách gộp “Dòng Chế Phẩm” với “Dòng sai số ngẫu
nhiên” của mô hình không tương tác.
- Nhận xét so sánh hai mô hình này ta so sánh hai dòng sai số ngẫu nhiên của mô hình
- Do hai mô hình khác nhau không có ý nghĩa thống kê nên sử dụng mô hình đơn giản hơn hay nói
cách khác chế phẩm không ảnh hưởng đến tốc độ giải phóng hoạt chất.
2.2) Để trả lời (***) Tiến hành thử giả thiết yếu tố tốc độ ta so sánh “Mô hình có tốc độ” (mô hình đầy
đủ: lúc này là mô hình không tương tác trên) và “Mô hình không có tốc độ” (Mô hình rút gọn)
34
Mô hình không có tốc độ (Mô hình rút gọn)
“Mô hình không tốc độ” thu được bằng cách gộp “Dòng Tốc độ” với “Dòng sai số ngẫu
nhiên” của mô hình không tương tác.
- Nhận xét so sánh hai mô hình là ta đi so sánh hai dòng “Sai số ngẫu nhiên giữa hai mô hình”
- Do hai mô hình khác nhau không có ý nghĩa thống kê nên sử dụng mô hình đơn giản hơn hay nói
cách khác chế phẩm không ảnh hưởng đến tốc độ giải phóng hoạt chất.
Nhờ lớp làm giúp câu:
35

2-Đề Cương Toán Thống Kê

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2-Đề Cương Toán Thống Kê

Uploaded by

Copyright:

Available Formats

PHẦN CÔ CẨM:

PHÂN TÍCH BIỂU ĐỒ THỐNG KÊ:........................................................................................................................................................................................................................... 2

PHẦN THẦY CHIẾN

Biểu đồ Histogram Biểu đồ hộp Biểu đồ tán xạ

Hai mẫu phụ thuộc Hai mẫu độc lập

So sánh hai mẫu độc

Hai mẫu phụ thuộc Hai mẫu độc lập

Kiểm định phi tham Kiểm định phi tham

Nếu cỡ mẫu lớn, n ≥ 30 thì Nếu cỡ mẫu nhỏ, n < 30 thì

Tính t(tính): Tính t(tính):

Xtb n ∑(𝐧𝐢 ∗ 𝐗𝐢) ∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) Ytb m ∑(𝐦𝐣 ∗ 𝐘𝐣) ∑(𝐦𝐣 ∗ (𝐘𝐢 )𝟐 )

Mẫu X với n ≥ 30, Y với m ≥ 30 hoặc hai mẫu

Sy tính tương tự. S’y tính tương tự.

Kết luận giống nhau:

Mẫu X Rank mẫu X Mẫu Y Rank mẫu Y

Với giá trị α đã cho, tra bảng tìm 𝒕𝜶 và so sánh với t.

Bước 3: Rank của mỗi mẫu:

Mẫu Nam (n=9) Mẫu nữ (m=8)

Kiểm định RR (Risk ratio) Kiểm định OR (Odds Ratio)

X Đối chứng X Đối chứng

Không bệnh Không bệnh

Tỷ số nguy cơ: RR = p1 / p2 Tỷ số giữa 2 Odds: OR = O1 / O2

• RR, OR đều là số trung bình.

B1 L = ln(RR) = ln(p1/p2)= ln(p1)-ln(p2) B1 L = ln(OR) = ln(O1/O2)= ln(O1)-ln(O2)

e(L- 1,96 x S) ; e(L+ 1,96 x S) e(L- 1,96 x S) ; e(L+ 1,96 x S)

• OR là một ước số của RR

 95%CI của RR là (2,484; 4,472)

Kiểm định > 2 nhóm

ANOVA 2 nhân tố ANOVA 2 nhân tố

PHÂN TÍCH ANOVA 1 NHÂN TỐ

PHÂN TÍCH ANOVA 2 NHÂN TỐ

1.1.1. Phân tích ANOVA 2 nhân tố không lặp

- r luôn luôn thuộc khoảng [-1; 1]

(∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )− (∑𝑖=1 𝑥𝑖 )(∑𝑛

➢ Kiểm định giả thuyết a=a0

➢ Kiểm định giả thuyết b=b0

Nếu |t| ≥ 𝑡∝;𝑛−2 thì bác bỏ giả thuyết H0

• Khoảng tin cậy của hệ số hồi quy

 Giữa X và Y gần như không có sự tương quan.

CHƯƠNG 5: SO SÁNH NHIỀU MẪU

Các bước tiến hành:

- Tính giá trị trung bình cộng từng nhóm mẫu Yi

- Tính độ lệch chuẩn chung Sp

- Tính khoảng tin cậy 95%:

Phương sai Si 2 = ∑(𝑌𝑖 − 𝑌)2

Phân tích phương sai 1 chiều:

Công thức tính:

Áp dụng bài tập:

• F statistic > F tra bảng (bậc tự do k-1; N-k):

??? Chứng minh Sp 2 chung = SS mô hình đầy đủ???

Điều kiện để ngoại suy:

Hệ số Giá trị dự đoán SE t-statistic

Bậc tự do mô hình = Cỡ mẫu – số tham số trong mô hình (Số β trong mô hình)

• n là số lựa chọn của yếu tố A

ÁP DỤNG CHO SỐ LIỆU CỦA NGHIÊN CỨU BAN ĐẦU:

Nhờ lớp làm giúp câu:

You might also like