Professional Documents
Culture Documents
2-Đề Cương Toán Thống Kê
2-Đề Cương Toán Thống Kê
1
PHÂN TÍCH BIỂU ĐỒ THỐNG KÊ:
2
So sánh trung bình 2 mẫu
(đã biết có phân phối chuẩn)
So sánh 2 mẫu
(Chưa biết hoặc không nhất thiết cóhân
phối chuẩn)
3
SO SÁNH CẶP:
Dùng khi hai mẫu phụ thuộc và đều tuân theo phân phối chuẩn, phương sai giống nhau. Các bước làm:
Bước 1: Tính hiệu giữa hai mẫu.
Hiệu bình
Mẫu 1 Mẫu 2 Hiệu (D)
phương (𝐃𝐢)𝟐
X1 Y1 D1 = X1 -Y1 (𝐃𝟏)𝟐
X2 Y2 D2 = X2 -Y2 (𝐃𝟐)𝟐
Từ đó tính ra Dtrung bình:
X3 Y3 D3 = X3 -Y3 (𝐃𝟑)𝟐 𝒏
𝟐 𝟏
X4 Y4 D4 = X4 -Y4 (𝐃𝟒) 𝑫𝒕𝒓𝒖𝒏𝒈 𝒃ì𝒏𝒉 = ∑ 𝑫𝒊
𝟐 𝒏
X5 Y5 D5 = X5 -Y5 (𝐃𝟓) 𝒊=𝟏
X6 Y6 D6 = X6 -Y6 (𝐃𝟔)𝟐
𝒏 𝒏
Các tổng cần tính chính xác để
∑ 𝑫𝒊 ∑(𝑫𝒊 )𝟐 thay vào công thức ở bước 2
𝒊=𝟏 𝒊=𝟏
Bước 2: Dựa vào cỡ mẫu để chọn công thức làm (1 trong hai công thức sau):
Đặt giả thiết Ho: Dtrung bình và 0 khác nhau không có ý nghĩa thống kê. Tức là chỉ số so sánh giữa hai
mẫu là giống nhau (ví dụ số giờ ngủ giữa hai nhóm là giống nhau)
𝒏 𝒏 𝟐 𝒏 𝒏 𝟐
𝟏 𝟏 𝟏 𝟏
(𝑺𝑫 )𝟐 = ∗ [∑(𝑫𝒊)𝟐 − ∗ (∑ 𝑫𝒊) ] (𝑺′𝑫 )𝟐 = ∗ [∑(𝑫𝒊)𝟐 − ∗ (∑ 𝑫𝒊) ]
𝒏 𝒏 𝒏−𝟏 𝒏
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
Với độ tin cậy p = 1-α (thường là p= 0,95), Với độ tin cậy p = 1-α (thường là p= 0,95),
tra bảng tìm 𝒕𝜶 rồi so sánh với t(tính): tra bảng tìm 𝒕𝜶,𝒌 (k = n-1), so sánh với t(tính):
𝟐 𝟐
• |𝒕(𝒕í𝒏𝒉) | < 𝒕𝜶 kết luận chấp nhận giả thiết Ho. • |𝒕(𝒕í𝒏𝒉) | < 𝒕𝜶,𝒌 kết luận chấp nhận giả thiết Ho.
𝟐 𝟐
Tức là hai mẫu so sánh là như nhau. Tức là hai mẫu so sánh là như nhau.
• |𝒕(𝒕í𝒏𝒉) | > 𝒕𝜶 kết luận bác bỏ giả thiết Ho và: • |𝒕(𝒕í𝒏𝒉) | > 𝒕𝜶,𝒌 kết luận bác bỏ giả thiết Ho và:
𝟐 𝟐
o 𝒕(𝒕í𝒏𝒉) > 𝒕𝜶 kết luận mẫu X < mẫu Y o 𝒕(𝒕í𝒏𝒉) > 𝒕𝜶,𝒌 kết luận mẫu X < mẫu Y
𝟐 𝟐
4
o 𝒕(𝒕í𝒏𝒉) < −𝒕𝜶 kết luận mẫu X > mẫu Y o 𝒕(𝒕í𝒏𝒉) < − 𝒕𝜶,𝒌 kết luận mẫu X > mẫu Y
𝟐 𝟐
Bài 1
STT Trước khi chiếu Sau khi chiếu d = x'-x d2
1 0.28 0.25 -0.03 0.0009
2 0.30 0.29 -0.01 0.0001
3 0.34 0.28 -0.06 0.0036 d trung
4 0.32 0.26 -0.06 0.0036 bình = -
5 0.3 0.31 0.01 0.0001 0.28/14
6 0.29 0.28 -0.01 0,0001
7 0.33 0.27 -0.06 0.0036
8 0.28 0.27 -0.01 0.0001
9 0.31 0.26 -0.05 0.0025
Tổng -0.28 0.0146
Giả thiết H0: d trung bình và 0 khác nhau ko có ý nghĩa thống kê, số mẫu = 9 < 30 => dùng công thức của
mẫu nhỏ có:
𝟏 𝟏
(𝑺′𝑫 )𝟐 = ∗ [𝟎. 𝟎𝟏𝟒𝟔 − ∗ (−𝟎. 𝟐𝟖)𝟐 ] = 𝟕. 𝟑𝟔 ∗ 𝟏𝟎^ − 𝟒
𝟗−𝟏 𝟗
𝑫𝒕𝒓𝒖𝒏𝒈 𝒃ì𝒏𝒉
𝒕(𝒕í𝒏𝒉) = = −𝟑. 𝟒𝟒
𝑺′𝑫
( )
√𝒏
So sánh 𝒕𝜶,𝟖 = 2.306 khi đó ta có kết luận là bác bỏ giả thuyêt H0, tức là d trung bình khác 0, hay
𝟐
thể trọng trung bình của chuột trước và sau chiếu tia là khác nhau. Thể trọng trung bình của chuột
trước khi chiếu lớn hơn nhóm sau khi chiếu. Kết luận chính xác đến 95%
5
SO SÁNH TRUNG BÌNH CỦA HAI MẪU ĐỘC LẬP CÓ PHÂN BỐ CHUẨN
Thường là so sánh cùng 1 chỉ tiêu (như hàm lượng, chỉ số, ….) của hai mẫu độc lập X và Y (số phần từ
trong mẫu X có thể bằng hoặc khác so với mẫu Y).
Ví dụ: so sánh hàm lượng trung bình của hai lô thuốc: trong đó lô X có n viên, lô Y có m viên được kiểm
tra hàm lượng.
Bước 1: Đặt giả thiết H0 (thường là theo đề bài hỏi gì thì đặt giả thiết như thế)
Ví dụ: hàm lượng trung bình của hai lô thuốc X, Y là giống nhau (khác nhau ko có ý nghĩa thống kê,….)
Bước 2: Tính toán số liệu:
- Tính giá trị trung bình, phương sai của mỗi mẫu, từ đó để tính ttính. (kẻ bảng tính cho đỡ nhầm)
Tần Tần
Mẫu Mẫu
số lặp ni * Xi ni * (𝑿𝒊 )𝟐 số lặp mi * Yi mi * (𝒀)𝟐
X Y
lại lại
X1 n1 n1 * X1 n1 * (𝑋1 )2 Y1 m1 m1 * Y1 m1 * (𝑌)2
m2 *
X2 n2 n2 * X2 n2 * (𝑋2 )2 Y2 m2 m2 * (𝑌2 )2
Y2
X3 n3 n3 * X3 n3 * (𝑋3 )2 Y3 m3 m3 * Y3 m3 * (𝑌3 )2
… …
Xi ni ni * Xi ni * (𝑋𝑖 )2 Yj mj mj * Yj mj * (𝑌𝑗 )2
𝐢 𝐢 𝐣 𝐣
- Tính ttính:
Tính phương sai của 2 mẫu (𝑺𝑿 )𝟐 và (𝑺𝒀 )𝟐 theo Tính phương sai của 2 mẫu (𝑺′𝑿 )𝟐 và (𝑺′𝒀 )𝟐 theo
công thức: công thức:
𝐢 𝐢 𝟐 𝐢 𝐢 𝟐
𝟏 𝟏 𝟏 𝟏
(𝐒𝐗 ) = ∗ [∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) − ∗ (∑(𝐧𝐢 ∗ 𝐗𝐢)) ]
𝟐 𝟐
(𝐒′𝐗 ) = ∗ [∑(𝐧𝐢 ∗ (𝐗 𝐢 )𝟐 ) − ∗ (∑(𝐧𝐢 ∗ 𝐗𝐢)) ]
𝐧 𝐧 𝐧−𝟏 𝐧
𝟏 𝟏 𝟏 𝟏
6
|𝐗 𝐭𝐛 − 𝐘𝐭𝐛 |
𝐭 𝐭í𝐧𝐡 =
𝟐 𝟐
√(𝐒𝐜𝐡𝐮𝐧𝐠 ) − (𝐒𝐜𝐡𝐮𝐧𝐠 )
𝐧 𝐦
- Nếu |𝒕𝒕í𝒏𝒉 | > 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 ở mức ≤ α. Trong đó:
𝟐
o 𝒕𝒕í𝒏𝒉 > 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 và kết luận 𝐗 𝐭𝐛 < 𝐘𝐭𝐛
𝟐
o 𝒕𝒕í𝒏𝒉 < 𝒕(𝜶,𝑲) thì ta bác bỏ giả thiết H0 và kết luận 𝐗 𝐭𝐛 > 𝐘𝐭𝐛
𝟐
7
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN MANN-WHITNEY
Dùng cho hai mẫu ngẫu nhiên độc lập X và Y, phân bố của hai mẫu này chưa biết hoặc không nhất thiết
là phân bố chuẩn.
Mẫu X: (X1, X2, X3,…, Xn) - Mẫu Y: (Y1, Y2, Y3,…, Ym)
Bước 1: Sắp xếp theo chiều tăng dần của số liệu: X1, X2, X3,…, Xn, Y1, Y2, Y3,…, Ym
Bước 2: Tính rank cho tưng số liệu trên.
Nhớ cách tính hạng của 1 phần tử (rank): các bước làm như sau
• Xắp xếp các số liệu thành 1 dãy theo chiều tăng dần.
• Đánh số thứ tự từ 1 cho đến hết.
• Tính rank của từ số liệu theo số thứ tự đã đánh.
• Ví dụ như dưới đây:
Từ số liệu trong 1 bài nào đó, xắp xếp được dãy số liệu như sau:
Số liệu 10 10 11 11 11 12 13 13 14 15 15 16 17
Đánh số
1 2 3 4 5 6 7 8 9 10 11 12 13
thứ tự
Rank 1,5 1,5 4 4 4 6 7,5 7,5 9 10,5 10,5 12 13
Bước 3: Sau khi có rank của từng số liệu, tính tổng rank cho từng mẫu (kẻ bảng theo hai mẫu riêng biệt
cho đỡ nhầm):
Mẫu X Mẫu Y
𝒏(𝒏 + 𝟏) 𝒎(𝒎 + 𝟏)
𝑼𝟏 = 𝒏 ∗ 𝒎 + −𝑹 𝑼𝟐 = 𝒏 ∗ 𝒎 + −𝑺
𝟐 𝟐
Chọn U là giá trị nhỉ nhất trong 2 giá trị U1 và U2.
Bước 5: Tính t theo công thức
|𝑼−𝑬𝑼| 𝒏∗𝒎 𝒏∗𝒎∗(𝒏+𝒎+𝟏)
𝒕= Trong đó: 𝑬𝑼 = và 𝑫𝑼 =
√𝑫𝑼 𝟐 𝟏𝟐
8
KIỂM ĐỊNH PHI THAM SỐ: TIÊU CHUẨN WILCOXOM
Dùng cho hai mẫu ngẫu nhiên phụ thuộc nhau: X và Y, phân bố của hai mẫu này chưa biết hoặc không
nhất thiết là phân bố chuẩn.
Mẫu X: (X1, X2, X3,…, Xn) - Mẫu Y: (Y1, Y2, Y3,…, Yn)
Bước 1: Đặt giả thiết H0.
Bước 2: Tính hiệu giữa hai mẫu (di):
X X1 X2 X3 … Xn
Y Y1 Y2 Y3 … Yn
d=X-Y d1 = X1 – Y1 d2 = X2 – Y2 d3 = X3 – Y3 dn = Xn – Yn
Bước 3:
Bỏ các giá trị di = 0. Lấy giá trị tuyệt đối của các di và xác định rank cho các giá trị này (cũng vẫn sắp xếp
theo chiều tăng dần, đánh số thứ tự, rồi tính giá trị rank giống với tiêu chuẩn Mann-Whitney).
Tính các giá trị T- (tổng rank của các di < 0) và T+ (tổng rank của các di > 0).
𝑻− = ∑ 𝒓𝒂𝒏𝒌(|𝒅𝒊|) 𝒗à 𝑻+ = ∑ 𝒓𝒂𝒏𝒌(|𝒅𝒊|)
𝒊:𝒅𝒊 <𝟎 𝒊:𝒅𝒊 > 𝟎
Từ đó chọn T là giá trị nhỏ hơn trong hai giá trị T- và T+.
Bước 4:
Sau khi bỏ các di = 0, khi đó tập dữ liệu còn lại n+ giá trị (n+ ≤ n).
Nếu giả thiết H đúng và nếu n+ ≥ 8 thì T có phân phối xấp xỉ chuẩn với:
𝒏+ ∗ (𝒏+ + 𝟏) 𝒏+ ∗ (𝒏+ + 𝟏) ∗ (𝟐𝒏+ + 𝟏)
𝑬𝑻 = 𝒗à 𝑫𝑻 =
𝟒 𝟐𝟒
|𝑻−𝑬𝑻|
Tính ttính theo công thức: 𝒕𝒕í𝒏𝒉 =
√𝑫𝑻
Bước 5:
So sánh ttính với 𝐭 𝛂 . Rồi kết luận nếu ttính lớn hơn thì bác bỏ giả thuyết H0, còn nếu nhỏ hơn thì chấp nhận
𝟐
giả thuyết.
9
Ví dụ đề thi K24
Đọc đề thấy đây là hai mẫu độc lập, yêu cầu đề bài là dùng kiểm định phi tham số => chọn tiêu
chuẩn mann-whitney.
Bước 1 + 2: Sắp xếp và tính rank số liệu
Dữ 8 9 9 10 11 11 13 14 15 16 18 20 21 22 24 25 27
liệu
Số 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
thứ tự
Rank 1 2.5 2.5 4 5.5 5.5 7 8 9 10 11 12 13 14 15 16 17
Xác suất xảy ra 1 biến cố bất lợi trong một thời Odds của một biến cố là tỷ số của số lần biến cố
gian nhất định đó xảy ra trên số lần biến cố đó không xảy ra.
Bệnh a b Bệnh a b
Cỡ mẫu n m Cỡ mẫu n m
Tỷ số nguy
Nguy cơ p1 = a/n p2 = b/m O1 = a/c O2 = b/d
cơ
Cần ước tính phương sai của RR (OR), độ lệch chuẩn và tìm khoảng tin cậy 95%. Tuy nhiên RR (hay
OR) là một tỷ số, do đó khó ước lượng phương sai => chuyển sang dạng ln(RR) sẽ là một hiệu.
11
Các bước làm như sau: Các bước làm như sau:
Tùy mô hình: RR phù hợp với các mô hình xuôi theo thời gian, tỉ lệ lưu hành, tỷ lệ phát sinh bệnh cao
=> khi đó không dùng OR
Ví dụ đề thi K24:
Lựa chọn kiểm định RR vì đây là NC thuần tập, theo dõi theo thời gian và có tỷ lệ mắc bệnh lớn (10% trở
lên ở cả 2 nhóm)
RR=150/450 : 50/500 = 3.333
L=ln(RR)=1,204
1 1 1 1
s=√150 + 50 − 450 − 500 = 0,150
12
PHÂN TÍCH PHƯƠNG SAI (ANNOVA)
1 yếu tố ảnh hưởng đến phân nhóm 2 yếu tố ảnh hưởng đến phân nhóm
ANOVA 1 nhân tố Không lặp lại thí Lặp lại thí nghiệm
(xem 1.1) nghiệm r lần
Bảng ANOVA
Nguồn Tổng độ lệch bình phương Bậc tự do (df) Phương sai (MS) F- tỷ số
(SS) MS = SS/df
A 2
∑𝑖 𝑇𝑖∗ 𝑇2 n-1 𝑆𝑆𝐴 𝑀𝑆𝐴
SSA = − MSA=𝑛−1 FA =𝑀𝑆𝑊
𝑚 𝑚.𝑛
B 2
∑𝑗 𝑇∗𝑗 𝑇2 m-1 𝑆𝑆𝐵 𝑀𝑆𝐵
SSB = − MSB = 𝑚−1 FB = 𝑀𝑆𝑊
𝑛 𝑚.𝑛
14
Sai số SSW = SST – SSA - SSB (n-1)(m-1) 𝑆𝑆𝑊
MSW=(𝑚−1)(𝑛−1)
Tổng 𝑇2 mn - 1
SST= TS - 𝑚.𝑛
Nếu FA > Fn-1; (n-1)(m-1);α thì bác bỏ yếu tố giả thuyết H0 với yếu tố A, nghĩa là yếu tố A có ảnh hưởng đến
giá trị X.
Tương tự với FB > Fm-1; (n-1)(m-1); α
1.1.2. Phân tích ANOVA 2 nhân tố có lặp
a) Đề bài
Yếu tố A có n mức: a1; a2;…;an
Yếu tố B có m mức: b1;…;bm
Với mỗi cặp nhân tố (ai;bj), thí nghiệm được lặp r lần, cho r giá trị: xij1;…;xijr
Kiểm định xem nhân tố A có ảnh hưởng đến X hay không, nhân tố B có ảnh hưởng đến X hay không,
nhân tố A và nhân tố B có tương tác với nhau không.
b) Phương pháp
Giả thuyết H0: Không có sự khác nhau giữa các nhóm yếu tố A. Không có sự khác nhau giữa các nhóm
yếu tố B. Không có sự tương tác giữa yếu tố A và yếu tố B
B
b1 b2 … bm Tổng mỗi nhóm a Tổng BP mỗi nhóm a
𝑚 𝑟
Ti**=∑𝑗=1 ∑𝑘=1 𝑥𝑖𝑗𝑘 Si*= ∑𝑚 𝑟 2
𝑗=1 ∑𝑘=1 𝑥𝑖𝑗𝑘
A a1 x111 x121 … x1m1 T1** S1**
… … …
x11r x12r x1mr
a2 x211 x221 … x2m1 T2** S2**
… … …
x21r x22r x2mr
…. … … … …
an xn11 xn21 … xnm1 Tn** Sn**
… … …
xn1r xn2rxnmr
Tổng mỗi nhóm b T*1* T*2* …
T*m* T = ∑ 𝑥𝑖𝑗𝑘
T*j*=∑𝑛𝑖=1 ∑𝑟𝑘=1 𝑥𝑖𝑗𝑘
Tổng BP mỗi nhóm b S*1* S*2* … S*m* 2
TS = ∑ 𝑥𝑖𝑗𝑘
𝑛 𝑟 2
S*j*= ∑𝑖=1 ∑𝑘=1 𝑥𝑖𝑗𝑘
(Cách tính tương tự dạng 2 nhân tố không lặp, chỉ khác là cộng r số hạng thay vì 1 số hạng)
Ngoài ra, tính Tij* là tổng bình phương của r số hạng trong mỗi ô
Bảng ANOVA
Nguồn Tổng độ lệch bình phương Bậc tự do Phương sai (MS) F- tỷ số
(SS) (df) MS = SS/df
A 2
∑𝑖 𝑇𝑖∗∗ 𝑇2 n-1 𝑆𝑆𝐴 𝑀𝑆𝐴
SSA = − MSA=𝑛−1 FA =𝑀𝑆𝑊
𝑚𝑟 𝑚.𝑛.𝑟
B 2
∑𝑗 𝑇∗𝑗∗ 𝑇2 m-1 𝑆𝑆𝐵 𝑀𝑆𝐵
SSB = − MSB = 𝑚−1 FB = 𝑀𝑆𝑊
𝑛𝑟 𝑚.𝑛.𝑟
AB SSAB (n-1)(m-1) MSAB 𝑀𝑆𝐴𝐵
FAB = 𝑀𝑆𝑊
15
2
∑𝑖,𝑗 𝑇𝑖𝑗∗ 2
∑𝑖 𝑇𝑖∗∗
2
∑𝑗 𝑇∗𝑗∗ 𝑆𝑆𝐴𝐵
= − − + = (𝑚−1)(𝑛−1)
𝑟 𝑚𝑟 𝑛𝑟
𝑇2
𝑚.𝑛.𝑟
Sai số SSW mn(r-1) 𝑆𝑆𝑊
MSW=𝑚𝑛(𝑟−1)
= SST – SSA – SSB - SSAB
Tổng 𝑇2 mn - 1
SST= TS - 𝑚.𝑛.𝑟
Nếu FA > Fn-1; mn(r-1);α thì bác bỏ yếu tố giả thuyết H0 với yếu tố A, nghĩa là yếu tố A có ảnh hưởng đến
giá trị X.
Tương tự với FB > Fm-1; mn(r-1); α
FAB > F(n-1)(m-1); mn(r-1); α
16
TƯƠNG QUAN VÀ HỒI QUY
a) Phương pháp
Xét mẫu ngẫu nhiên kích thước n, 2 biến X và Y: (x1;y1);…;(xn;yn)
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 )
• Hệ số tương quan: r =
√𝑛 ∑𝑛 2 𝑛 2 𝑛 2 𝑛
𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 ) √𝑛 ∑𝑖=1 𝑦𝑖 − (∑𝑖=1 𝑦𝑖 )
2
2
1 (∑𝑛
𝑖=1 𝑦𝑖 ) 𝑛
𝑠𝑦2 = [∑𝑛𝑖=1 𝑦𝑖2 − ] 𝑠 2 = 𝑛−2 (𝑠𝑦2 − 𝑎2 𝑠𝑥2 )
𝑛 𝑛
1 𝑠2
Hệ số tự do: b ± 𝑡∝;𝑛−2 . √𝑛(𝑛−2) (𝑠𝑦2 − 𝑎2 ) . (∑𝑛𝑖=1 𝑥𝑖2 )
2 𝑥
BÀI TẬP VÍ DỤ
Đề thi CH23 – đề 1
17
xi yi ni ni.xi ni. yi ni.xi.yi ni.xi2 ni.yi2
1 30 15 15 450 450 15 13500
1 40 11 11 440 440 11 17600
1 45 8 8 360 360 8 16200
2 35 18 36 630 1260 72 22050
2 40 10 20 400 800 40 16000
2 45 7 14 315 630 28 14175
3 30 10 30 300 900 90 9000
3 35 17 51 595 1785 153 20825
3 40 4 12 160 480 36 6400
𝑛 𝑛 𝑛 𝑛 𝑛
Tổng n=100
∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖2 ∑ 𝑦𝑖2
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
= 197 = 3650 = 7105 = 453 = 135750
100.7105−197.3650
Hệ số tương quan: r=√100.453−1972 2
= - 0.211
.√100.135750−3650
y= -1,317x + 39,095
18
CHƯƠNG 3: GIẢ ĐỊNH PHƯƠNG SAI
1, Xét phân bố chuẩn:
- Giả định (1): Phân bố chuẩn: Trung vị = Trung bình
- Giải định (2): Phương sai 2 nhóm (Độ phân tán dữ liệu/ Sai số thí nghiệm) phải giống nhau
- Giả định (3): Mẫu độc lập (xét đối tượng tác động cuối cùng đến kết quả thí nghiệm).
Vi phạm (1), (2): chuyển dạng dữ liệu (sang logarit/ hoặc ln) hoặc lấy thêm dữ liệu.
2, Nhận biết cần chuyển dạng số liệu sang dạng logarit khi phương sai 2 nhóm khác nhau:
- Mức độ phân tán của 2 hình hộp (độ rộng hình hộp) khác nhau đáng kể.
- Nhóm có trung bình lớn hơn có độ phân tán lớn hơn.
Khi chuyển dạng logarit chú giải theo trung vị.
3, So sánh 2 mẫu: mẫu 1 khác mẫu 2 tức là trung bình mẫu 1 khác trung bình mẫu 2:
- Bước 1: Kiểm tra tính độc lập: Mẫu độc lập dùng so sánh 2 mẫu. Mẫu phụ thuộc dùng T-cặp.
- Bước 2: So sánh luôn hoặc chuyển dạng dữ liệu (log, ln, căn bậc 2…)
Kiểm tra giả định phương sai giống nhau (F test) và giả định phân bố chuẩn (box plot) hoặc sử dụng
ANOVA kiểm tra 2 giả định này.
- Tính sai số chuẩn SE: So sánh 2 nhóm trong thí nghiệm có I nhóm:
- Kiểm tra giả thuyết Ho: Trung bình cộng 2 nhóm giống nhau µ1 - µ2 = 0, thay vào tính t-statistic:
19
So sánh với giá trị t α/2, bậc tự do ; lớn hơn thì bác bỏ giả thuyết, nhỏ hơn thì chấp nhận giả thuyết.
- Số dư Ri = Giá trị thực - Giá trị dự đoán của mô hình (=giá trị trung bình) = Yi - Y.
Nếu Sp = 0 thì Si 2 = 0, số dư = Yi – Y = 0.
- Ví dụ bài chia 6 nhóm:
• Khi so sánh 2 nhóm lựa chọn sử dụng Sp chung của cả 6 nhóm, không nên sử dụng Sp của 2 nhóm do
Sai số chuẩn tính được gần quần thể hơn
• Không tính Sp trung bình cộng của 6 nhóm do mỗi nhóm có bậc tự do khác nhau, cỡ mẫu khác nhau,
số lượng mẫu có thể thay đổi trong quá trình nghiên cứu (ví dụ chuột chết).
20
Giữa các nhóm SSB k – 1 = Số nhóm – SSB/ (k – 1) SSB
= SSW
1
Trong các nhóm (MH SSW N-k SSW/ (N-k)
mỗi nhóm 1 trung bình) = Số mẫu - số = Sp 2
nhóm
Tổng (MH trung bình SS tổng N - 1 = Số mẫu –
chung) 1
21
CHƯƠNG 7: HỒI QUY TUYẾN TÍNH GIẢN ĐƠN
Ví dụ:
22
??? Chứng minh p-value < 0.05 khi khoảng tin cậy không cắt 0.
23
CHƯƠNG 8: CÁC GIẢ ĐỊNH ĐỐI VỚI HỒI QUY TUYẾN TÍNH GIẢN ĐƠN
❖ Mức độ phức tạp của các mô hình tăng dần: MH 1 trung bình chung < MH Hồi quy < MH mỗi
nhóm 1 trung bình
❖ Muốn dùng Mô hình hồi quy để dự đoán tuổi thọ thuốc cần chứng minh nó là mô hình tốt nhất (tốt
hơn mô hình trung bình chung và tốt bằng mô hình mỗi nhóm 1 trung bình)
❖ Kiểm tra giả định tuyến tính: Lack of Fit F Test: Phân tích phương sai để so sánh MH hồi quy đơn
giản và MH mỗi nhóm 1 trung bình
Bảng ANOVA: Dòng cuối là mô hình phức tạp nhất, Dòng thứ 2 từ dưới lên: Chênh lệch giữa 2 mô hình.
Giả thuyết Ho: Mô hình hồi quy không khác với Mô hình mỗi nhóm 1 trung bình
Bảng 8.1: So sánh MH hồi quy với MH 1 trung bình chung:
p<0.05 nên MH hồi quy khác với MH 1 trung bình chung -> Phải sử dụng MH phức tạp hơn là MH hồi quy
Bảng 8.2: So sánh MH mỗi nhóm 1 trung bình với MH 1 trung bình chung:
p<0.05 nên MH mỗi nhóm 1 trung bình khác với MH 1 trung bình chung -> Phải sử dụng MH phức tạp
hơn là MH mỗi nhóm 1 trung bình
Bảng 8.3: So sánh MH hồi quy với MH mỗi nhóm 1 trung bình
24
❖ Đồ thị số dư (Residual Plot): Số dư xếp theo trình tự lớn dần thành đường thẳng thể hiện phân bố
chuẩn
❖ So sánh nhiều mẫu:
Kiểm tra giả định phương sai giống nhau và giả định phân bố chuẩn: dựa vào đồ thị box plot hoặc
ANOVA (dựa vào Residuals plot).
- Nếu được thì so sánh luôn. Nếu thấy p-value <0,05 thì dùng Tukey method để kiểm tra sự
khác nhau từng nhóm.
- Nếu không được thì chuyển dạng dữ liệu (ln, căn bậc 2, mũ…..), thêm tham số giải thích (dùng
phân tích ANOVA hai chiều, hoặc hồi quy tuyến tính đa)
25
26
CHƯƠNG 9: TWO-WAY ANOVA
Bảng giá trị trung bình mỗi nhóm và trung bình chung.
27
Mô hình chế phẩm: Gộp 8 nhóm thành hai nhóm: Mỗi nhóm là tập hợp của 4 nhóm nhỏ cùng chế phẩm
nhưng khác tốc độ. Như vậy 8 nhóm đầu được chia làm 2 nhóm lớn trong mô hình chế phẩm (hay nói một
cách khác cố định tốc độ ; cho yếu tố mô hình thay đổi nhằm đánh giá ảnh hưởng của yếu tố chế phẩm đến
tốc độ giải phóng hoạt chất)
• Nhóm 1: Ứng với chế phẩm Glucotrol = (Nhóm Glucotrol 50 + Nhóm Glucotrol 100 + Nhóm
Glucotrol 150 + Nhóm Glucotro 200)
• Nhóm 2: Ứng với chế phẩm CH20for = ( Nhóm CH20for 50 + Nhóm CH20for 100 + Nhóm
CH20for 150 + Nhóm CH20for 200)
Mô hình tốc độ: Gộp 8 nhóm thành 4 nhóm: ( hay nói một cách khác có định chế phẩm ; cho yếu tố tốc độ
thay đổi nhằm đánh giá ảnh hưởng của yếu tố tốc độ cánh khuấy đến tốc độ giải phóng hoạt chất)
• Nhóm 1: Ứng với tốc độ 50 = ( Nhóm Glucotrol 50 + Nhóm CH20for 50)
• Nhóm 2: Ứng với tốc độ 50 = ( Nhóm Glucotrol 100 + Nhóm CH20for 100)
• Nhóm 3: Ứng với tốc độ 150 = ( Nhóm Glucotrol 150 + Nhóm CH20for 150)
• Nhóm 4: Ứng với tốc độ 200 = ( Nhóm Glucotrol 200 + Nhóm CH20for 200)
28
Mô Hình 1 TB: đại diện cho các giả định:
• Yếu tố A( yếu tố chế phẩm) không ảnh hưởng đến tốc độ giải phóng dược chất
• Yếu tố B( yếu tố tốc độ cánh khuấy) không ảnh hưởng đến tốc độ giải phóng dược chất Không có
sự tương tác giữa hai yếu tố A và B.
Mô hình mỗi nhóm 1 TB: đại diện cho các giả định
• Yếu tố A( yếu tố chế phẩm) có ảnh hưởng đến tốc độ giải phóng dược chất
• Yếu tố B( yếu tố tốc độ cánh khuấy) có ảnh hưởng đến tốc độ giải phóng dược chất có sự tương tác
giữa hai yếu tố A và B.
Để trả lời cho 3 câu hỏi nghiên cứu đặt ra ở trên ta có 2 cách:
• Cách 1: Sử dụng bảng ANOVA
29
• r là số lần lặp lại thí nghiệm
30
ÁP DỤNG CHO VÍ DỤ:
Nhận xét:
F(AB) < F(α; 3;16) => p_value > 0,05 => Không có sự tương tác giữa yếu tố chế phẩm và yếu tố tốc
độ cánh khuấy
F(A) < F(α; 1;16) => p_value > 0,05 => Yếu tố chế phẩm không ảnh hưởng đến tốc độ giải
phóng hoạt chất
F(B) > F(α; 3;16) => p_value < 0,05 => Yếu tố tốc độ cánh khuấy ảnh hưởng đến tốc độ giải
phóng hoạt chất
31
Cách 2: So sánh các mô hình để thử từng giả thiết
Trong số 3 câu hỏi nghiên cứu đặt ra ở trên thì câu hỏi đầu tiên cần giải đáp đó chính là :
Yếu tố A( chế phẩm) và yếu tố B (Tốc độ cánh khuấy) có tương tác với nhau hay không (*)
Để trả lời câu hỏi này ta đi so sánh hai mô hình: “ Mô hình có tương tác” (Mô hình phức tạp) với
“Mô hình không có tương tác” (Mô hình rút gọn)
- Nếu không có sự khác biệt giữa hai mô hình thì ta sử dụng mô hình đơn giản hơn. Tức “Mô
hình không tương tác” Hay nói một cách khác câu trả lời cho (*) chính là không có tương tác
giữa hai yếu tố.
- Ngược lại nếu có sự khác biệt giữa hai mô hình này thì ta sử dụng mô hình phức tạp hơn: “Mô
hình có tương tác”. Hay nói một cách khác câu trả lời cho (*) chính là có tương tác giữa hai yếu
tố.
32
- Hai mô hình khác nhau không có ý nghĩa thống kê nên trong Hai mô hình ta dùng mô hình
không tương tác:
- Trong TH chứng minh được có sự tương tác thì ta dùng “Mô hình có tương tác” rồi làm tương tự
như với “Mô hình không có tương tác”
2) Tiếp theo sau khi đã trả lời câu hỏi đầu (*) Ta tiếp tục sử dụng “mô hình đã được lựa chọn” để
trả lời tiếp hai câu hỏi:
- Yếu tố A (Chế phẩm) có ảnh hưởng đến tốc độ giải phóng hoạt chất hay không? (**)
- Yếu tố B (Chế phẩm) có ảnh hưởng đến tốc độ giải phóng hoạt chất hay không? (***)
2.1) Để trả lời (**) Tiến hành thử giả thiết yếu tố chế phẩm:
- Ta so sánh hai mô hình: “Mô hình có chế phẩm” (mô hình đầy đủ lúc này là mô hình không
tương tác vì mô hình tương tác đã bị loại) và “Mô hình không có chế phẩm” (Mô hình rút gọn)
33
Mô hình không chế phẩm (Mô Hình Rút Gọn)
“Mô hình không chế phẩm” thu được bằng cách gộp “Dòng Chế Phẩm” với “Dòng sai số ngẫu
nhiên” của mô hình không tương tác.
- Nhận xét so sánh hai mô hình này ta so sánh hai dòng sai số ngẫu nhiên của mô hình
- Do hai mô hình khác nhau không có ý nghĩa thống kê nên sử dụng mô hình đơn giản hơn hay nói
cách khác chế phẩm không ảnh hưởng đến tốc độ giải phóng hoạt chất.
2.2) Để trả lời (***) Tiến hành thử giả thiết yếu tố tốc độ ta so sánh “Mô hình có tốc độ” (mô hình đầy
đủ: lúc này là mô hình không tương tác trên) và “Mô hình không có tốc độ” (Mô hình rút gọn)
34
Mô hình không có tốc độ (Mô hình rút gọn)
“Mô hình không tốc độ” thu được bằng cách gộp “Dòng Tốc độ” với “Dòng sai số ngẫu
nhiên” của mô hình không tương tác.
- Nhận xét so sánh hai mô hình là ta đi so sánh hai dòng “Sai số ngẫu nhiên giữa hai mô hình”
- Do hai mô hình khác nhau không có ý nghĩa thống kê nên sử dụng mô hình đơn giản hơn hay nói
cách khác chế phẩm không ảnh hưởng đến tốc độ giải phóng hoạt chất.
35