Professional Documents
Culture Documents
Nguyen Ly Kiem Dinh-Kiem Dinh Thong Ke
Nguyen Ly Kiem Dinh-Kiem Dinh Thong Ke
1
TS. Nguyễn Thị Minh Trang
Bộ môn Thống kê – Khoa Y tế Công cộng
Đại học Y Dược TPHCM
Email: drminhtrang@gmail.com
17/03/2021
NỘI DUNG
17/03/2021 2
➢ GIẢ THUYẾT (GT)
3 1. KHÁI NIỆM
➢ KIỂM ĐỊNH GT
Giả thuyết:
Mệnh đề có thể kiểm định được về việc dự đoán mối liên
quan giữa 2 hoặc nhiều biến số với nhau.
Ví dụ:
Nghiên cứu về mối liên quan giữa mất ngủ và điểm số thi
có giả thuyết là
“Những người mất ngủ sẽ có điểm số thi thấp hơn
những người ngủ đủ giấc”
4
KHÁI NIỆM VỀ GIẢ THUYẾT
Ví dụ:
▪ Nghiên cứu về mối liên quan giữa tiền căn gia đình về
K vú và K vú
……………………………………………………………….
5
KHÁI NIỆM VỀ GIẢ THUYẾT
nào.
17/03/2021 6
KHÁI NIỆM VỀ GIẢ THUYẾT
7
KHÁI NIỆM VỀ GIẢ THUYẾT
Ví dụ:
Nghiên cứu về mối liên quan giữa tiền căn gia đình về
K vú và K vú
▪ Nếu {A=>B không xảy ra} thì {B xảy ra=>A không xảy ra}
Ví dụ:
▪ Nếu {Ho=>T hiếm xảy ra} thì {T xảy ra=>Ho hiếm xảy ra}
17/03/2021 10
QUI TRÌNH KIỂM ĐỊNH GIẢ THUYẾT
tính được
17/03/2021 11
QUI TRÌNH KIỂM ĐỊNH GIẢ THUYẾT
▪ Ví dụ: Nghiên cứu về mối liên quan giữa tiền căn gia đình có
P1=P2 17/03/2021 12
QUI TRÌNH KIỂM ĐỊNH GT
▪ Ví dụ: Nghiên cứu về mối liên quan giữa tiền căn gia
▪ Ví dụ: Nghiên cứu về mối liên quan giữa tiền căn gia
▪ Ví dụ: Nghiên cứu về mối liên quan giữa tiền căn gia
4. Tính xác suất thống kê (giá trị P) từ giá trị thống kê tính
được
5. Kết luận
5. Kết luận
Xác suất này rất thấp nếu Ho đúng. Do đó, có khả năng
Ho không đúng
17/03/2021 17
=> Bác bỏ GT Ho
18 2. KHÁI NIỆM P VALUE
17/03/2021
KHÁI NIỆM VỀ P-VALUE
19
KHÁI NIỆM VỀ P-VALUE
20
KHÁI NIỆM VỀ P-VALUE
Câu hỏi:
Giải thích: Nếu GT Ho đúng (không có mối liên quan giữa tiền
căn gđ và K vú), cơ hội quan sát thấy có từ 5 ca trở lên trong
số 100 phụ nữ có tiền căn gia đình là 1/20.
22
KHÁI NIỆM VỀ P-VALUE
Câu hỏi:
● Con số quan sát (X=5) có giống như con số mong đợi
(X=2) khi Ho đúng?
● Phụ nữ có tiền căn gia đình có cần tầm soát K vú
thường xuyên không?
● Nếu N=200 thay vì 100 và chúng ta lại quan sát thấy tỷ
lệ K vú là 5% ở nhóm phụ nữ có tiền căn, cần đưa ra
khuyến cáo thế nào?
23
KHÁI NIỆM VỀ P-VALUE
Nếu 𝑁 = 200 & 𝑋 = 10 (Tỉ lệ 5%)
Xác suất này rất thấp nếu Ho đúng. Do đó, có khả năng Ho
không đúng => Bác bỏ Ho
25
KHÁI NIỆM P-VALUE
26
KHÁI NIỆM VỀ P-VALUE
27
➢ CÁC LOẠI SAI LẦM
28
4.
➢ SỨC MẠNH THỐNG KÊ
kết quả.
▪ Nhà nghiên cứu có thể mắc 2 loại sai lầm khi kết luận:
17/03/2021 29
SAI LẦM LOẠI 1: TYPE I ERROR
▪ Ký hiệu: α
▪ Qui ước:
17/03/2021 30
SAI LẦM LOẠI 1: TYPE I ERROR
▪ Ví dụ:
Sai lầm α là xác suất cho rằng tiền căn gia đình có liên quan
với K vú (GT Ha) trong khi thực tế không có mối liên quan
(GT Ho). 17/03/2021 31
SAI LẦM LOẠI 1: TYPE I ERROR
K vú (+) K vú (-)
Tiền căn gđ (+) Sai lầm loại I (α)
Tiền căn gđ (-)
Sai lầm loại I (α) là sai lầm cho rằng tiền căn gia đình có
liên quan với K vú (GT Ha) trong khi thực tế không có
mối liên quan (GT Ho).
*Xem tiền căn gia đình như 1 yếu tố nguy cơ, tương tự
1 “test” tầm soát 17/03/2021 32
SAI LẦM LOẠI 2: TYPE II ERROR
▪ Ký hiệu: β
đúng
▪ Qui ước
17/03/2021 33
SAI LẦM LOẠI 2: TYPE II ERROR
▪ Ví dụ:
Sai lầm β là xác suất cho rằng tiền căn gia đình không
có liên quan với K vú (GT Ho) trong khi thực tế có mối
liên quan (GT Ha).
17/03/2021 34
SAI LẦM LOẠI 2: TYPE 2 ERROR
K vú (+) K vú (-)
Tiền căn gđ (+)
Tiền căn gđ (-) Sai lầm loại II (β)
Sai lầm loại II (β) là sai lầm cho rằng tiền căn gia đình
không có liên quan với K vú (GT Ho) trong khi thực tế
có mối liên quan (GT Ha).
17/03/2021 35
SỨC MẠNH THỐNG KÊ: POWER
▪ Power=1-β
▪ Được sử dụng khi tính cỡ mẫu cho mục tiêu kiểm định
giả thuyết.
▪ Qui ước:
K vú (+) K vú (-)
Tiền căn gđ (+) Power
Tiền căn gđ (-) β
▪ Là xác suất cho rằng tiền căn gia đình có liên quan
17/03/2021 37
CÁC SAI LẦM VÀ POWER
NC về tiền căn gđ và K vú
K vú (+) K vú (-)
Tiền căn gđ (+) Dương tính thật Dương tính giả
Độ nhạy (Power) Sai lầm loại I (α)
Tiền căn gđ (-) Âm tính giả Âm tính thật
Sai lầm loại II (β) Độ đặc hiệu
17/03/2021 38
CÁC SAI LẦM VÀ POWER
Trong NC về test chẩn đoán:
K vú (+) K vú (-)
Test chẩn đoán (+) Dương tính thật Dương tính giả
Độ nhạy (Power) Sai lầm loại I (α)
Test chẩn đoán (-) Âm tính giả Âm tính thật
Sai lầm loại II (β) Độ đặc hiệu
17/03/2021 39
40 5. CHỌN LỰA
KIỂM ĐỊNH THỐNG KÊ
17/03/2021
CHỌN KIỂM ĐỊNH THỐNG KÊ
▪ Xác định loại biến kết cuộc (biến phụ thuộc) và biến
o Nhị giá
o Danh định
o Thứ tự
17/03/2021 41
CHỌN KIỂM ĐỊNH THỐNG KÊ
Khi các quan sát độc lập, chọn lưa kiểm định theo bảng sau:
17/03/2021 43
SƠ ĐỒ CHỌN LỰA KIỂM ĐỊNH THEO BIẾN SỐ PHỤ THUỘC
3/17/2021 44
45 KIỂM ĐỊNH
BIẾN KẾT CUỘC ĐỊNH TÍNH
17/03/2021
CHỌN KIỂM ĐỊNH THỐNG KÊ
BIẾN ĐỊNH TÍNH
Khi các quan sát độc lập, chọn lưa kiểm định theo bảng sau:
Biến phụ Biến độc lập
thuộc Nhị giá Danh định Thứ tự Định lượng
Nhị giá Chi2/Fisher Chi2/Fisher Chi2/Fisher Hồi qui Logistic
Danh định Chi2/Fisher Chi2/Fisher Chi2/Fisher Hồi qui Logistic
Danh định
Thứ tự Chi2/Fisher Chi2/Fisher Chi2/Fisher Hồi qui Logistic
Thứ tự
Định lượng T test ANOVA Tương quan Tương quan
(phân phối Pearson/ Hồi qui Pearson/ Hồi qui
bình thường) tuyến tính/ tuyến tính
ANOVA
Định lượng Wilcoxon Kruskal Tương quan Tương quan
(phân phối Rank sum Wallis Spearman Spearman
lệch) (Mann Whitney)
17/03/2021 46
MỤC ĐÍCH
47
VÍ DỤ
Nghiên cứu về các yếu tố liên quan đến tiểu đường típ 2.
Câu hỏi:
Các yếu tố như chủng tộc, béo phì, hút thuốc lá, uống rượu,
ít vận động thể lực có liên quan đến việc mắc phải tiểu
đường típ 2 ở cộng đồng nghiên cứu hay không?
48
VÍ DỤ
Nghiên cứu về các yếu tố liên quan đến tiểu đường típ 2.
▪ R: row_hàng; C: column_cột
50
BẢNG PHÂN PHỐI TẦN SUẤT
Nghiên cứu về các yếu tố liên quan đến tiểu đường típ 2: Giới tính
51
TẦN SỐ KÌ VỌNG (VỌNG TRỊ)
❖ Vọng trị là giá trị kì vọng quan sát được trong các ô
của bảng dự trù khi chưa thu thập dữ liệu thực tế.
Vọng trị của ô (1,1) (ô giao của hàng 1 và cột 1): E(1,1)
E(1,1)=
53
VỌNG TRỊ (EXPECTED)
Vọng trị của ô (1,1) (ô giao của hàng 1 và cột 1): E(1,1)
E(1,1)=(9481x8165)/21686=3570
E(1,2)=(9481x13521)/21686=5911
E(2,1)=(12205x8165)/21686=4595
54
E(2,2)=(12205x13521)/21686=7609
VỌNG TRỊ (EXPECTED)
Vọng trị: số màu đỏ trong ngoặc đơn trông các ô của bảng
dự trù
55
GIẢ ĐỊNH CỦA KIỂM ĐỊNH Χ2
❖Vọng trị trong các ô của bảng phân phối tần suất ≥ 5
56
CÁC BƯỚC HÌNH THÀNH
KIỂM ĐỊNH THỐNG KÊ
1. Αlpha α=0.05
2
(observed - expected)
=
2
expected
60
CÁC BƯỚC TÍNH TOÁN
O E (0-E)2 (0-E)2
E
3487 3570 1.9
5994 5911 1.2
4678 4595 1.5
7527 7609 0.9
Χ2 =
61
KẾT LUẬN
P<0.05
63
KIỂM ĐỊNH FISHER
17/03/2021
KIỂM ĐỊNH THAM SỐ
Khi các quan sát độc lập, chọn lưa kiểm định theo bảng sau:
Phân phối t
0.95
00
−𝑡 −1.96 0 1.96 𝑡
-3-3 33
Tính chất:
● Hình chuông và tập trung tại giá trị 0(giống phân phối chuẩn)
● Biến thiên lớn hơn phân phối chuẩn
● Nếu mẫu càng tăng, phân phối t trở nên gần giống hình dạng
phân phối chuẩn
68
CÁC LOẠI KIỂM ĐỊNH T
69
GIẢ ĐỊNH CỦA KIỂM ĐỊNH T
70
KIỂM ĐỊNH T 1 NHÓM
71
VÍ DỤ
Kiểm tra 1 loại bóng đèn có thể chiếu sáng khoảng 1000
giờ không?
790 𝑁−1
980 SD
3. Sai số chuẩn của mẫu? SE =
820 N
760 4. Giá trị thống kê?
1000 X −
860 tX =
SX 73
TÍNH TOÁN GIÁ TRỊ T 1 NHÓM
4. Mức alpha
0.05, độ tự
do N-1=9, t
theo bảng
2.262.
5. |-4.35| >
|2.262|, bác
bỏ H0.
75
NÊU KẾT LUẬN
6. Kết luận:
1. Tuổi thọ trung bình của bóng đèn?
3. P value?
77
KIỂM ĐỊNH T KHÔNG BẮT CẶP
SD12 SD22
Sai số chuẩn gộp SEdiff = +
N1 N2
X1 − X 2
Giá trị thống kê t t X1 − X 2 =
SEdiff
78
KIỂM ĐỊNH T KHÔNG BẮT CẶP
Ví dụ:
79
KIỂM ĐỊNH T KHÔNG BẮT CẶP
Experimental (Caff) Control (No Caffeine)
12 21
14 18
10 14
8 20
16 11
5 19
3 8
9 12
11 13
15
N1= , M1=, SD1= N2=, M2=, SD2= 80
KIỂM ĐỊNH T KHÔNG BẮT CẶP
Experimental (Caff) Control (No Caffeine)
12 21
14 18
10 14
8 20
16 11
5 19
3 8
9 12
11 13
15
N1=9, M1=9.778, N2=10, M2=15.1,
81
SD1=4.1164 SD2=4.2805
KIỂM ĐỊNH T KHÔNG BẮT CẶP
82
KIỂM ĐỊNH T KHÔNG BẮT CẶP
2 2
SD SD
SEdiff = +
1 2
N1 N2
X1 − X 2
t=
SEdiff
83
KIỂM ĐỊNH T KHÔNG BẮT CẶP
2 2 2 2
SD SD (4.1164) (4.2805)
SEdiff = +
1
= 2
+ = 1.93
N1 N2 9 10
84
KIỂM ĐỊNH T KHÔNG BẮT CẶP
P value?
86
KIỂM ĐỊNH T BẮT CẶP
(PAIRED T TEST)
87
KIỂM ĐỊNH T BẮT CẶP
Ví dụ:
▪ Đo lường lặp lại (dữ liệu được thu thập ở thời điểm
Công thức:
SDD
Sai số chuẩn SEdiff =
n pairs
D
Giá trị thống kê t tXD =
SEdiff
89
KIỂM ĐỊNH T BẮT CẶP
Ví dụ:
Painfree
Differenc
Person (time in Placebo
e
second)
1 60 55 5
2 35 20 15
3 70 60 10
4 50 45 5
5 60 60 0
M 55 48 7
SD 13.23 16.81 5.70 92
KIỂM ĐỊNH T BẮT CẶP
SD D
SEdiff = t=
n pairs SEdiff
93
KIỂM ĐỊNH T BẮT CẶP
SD 5.70
SEdiff = = = 2.55
n pairs 5
D 55 − 48 7
t= = = = 2.75
SEdiff 2.55 2.55
94
KIỂM ĐỊNH T BẮT CẶP
95
KIỂM ĐỊNH T BẮT CẶP
96
97 KIỂM ĐỊNH ANOVA
17/03/2021
ANOVA
(ANALYSIS OF VARIANCE)
Ý tưởng:
Kiểm định sự khác biệt giữa
các trung bình của 2 nhóm trở lên
đối với những biến số định lượng
có phân phối bình thường.
98
PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU
ONE-WAY ANOVA
Các giả định của kiểm định ANOVA
1. Số liệu có phân phối bình thường
99
GIẢ THUYẾT CỦA ONE-WAY ANOVA
H0 : μ1 = μ 2 = μ 3 =
H a : Trung bình các nhóm khác nhau
100
KIỂM ĐỊNH ANOVA
101
CÁC BƯỚC TÍNH TOÁN F
Kí hiệu:
k: số nhóm
j: số thứ tự nhóm
df: độ tự do
102
CÁC BƯỚC TÍNH TOÁN F
Bước 1:Tổng bình phương nội bộ nhóm SSw
Within-group sum of square SSw: df = N – k
SS w = ( N j − 1) s j
2
SSb = N j ( X j − X ) 2
j
103
CÁC BƯỚC TÍNH TOÁN F
SS = SSw + SSb
104
CÁC BƯỚC TÍNH TOÁN F
SSW
MSW =
N −k
Bước 5: Trung bình bình phương giữa các nhóm
Between_group mean squares_MSb
SSb
MSb =
k −1 105
CÁC BƯỚC TÍNH TOÁN F
MSb
F=
MSW
ĐộĐộtự
tự do của F
do của F
F(k-1, N-k)
Ha: Trung bình giữa các nhóm khác nhau, MSb > MSw
106
PHÂN PHỐI CỦA F
Là phân phối xác suất liên tục dựa vào 2 tham số k-1 và N-k
107
PHÂN PHỐI CỦA F
▪ Tỷ số phương sai theo phân phối F:
2
between
~ Fn ,m
2
within
⚫Kiểm định F kiểm tra giả thuyết 2 phương sai bằng nhau.
⚫F gần bằng 1 nếu phương sai giữa các nhóm bằng nhau.
H 0 : between
2
= within
2
H a : between
2
within
2
108
VÍ DỤ
109
Mật độ xương theo điều trị
1.2
1.1
Within group
Between variability
1.0
S
group
P variation
I
N Within group
E
Within group variability
0.9
variability
0.8
0.7
PLACEBO 800mg CALCIUM 1500 mg CALCIUM 110
VÍ DỤ
111
Cỡ mẫu
Dao động giữa Hiệu số giữa
các nhóm trung bình từng
nhóm và trung
KIỂM ĐỊNH F bình chung
(.92 − .97) 2
+ (.94 − .97) 2
+ (1.06 − .97) 2
2
sMS B
between = nsx = 11* (
2
) = .063
3 −1
2
sMS = avg s 2
= 1 (.102
+ .082
+ .112
) = .0095
within
W
3
2MS
sbetweenB
.063
F2,30 = 2 = = 6.6
swithin
MS W .0095
F lớn cho thấy
Dao động trung MSb>MSw
bình nội bộ nhóm Phương sai của từng
nhóm.
112
BẢNG F
113
BẢNG F
3. P<0.05
Lưu ý: Kết quả ở bước phân tích này không cho biết sự
khác biệt cụ thể giữa các cặp so sánh
115
BẢNG ANOVA
Nguồn MS
SS
biến thiên d.f. F p-value
Go to
Giữa k-1 SSb MSb
các MSb Fk-1,N-k
nhóm F=
MSW
Nội bộ N-k SSw MSw
nhóm
Tổng N-1 SS
cộng SS=SSb + SSw 116
ANOVA TÓM TẮT
117
KIỂM ĐỊNH PHI THAM SỐ
Khi các quan sát độc lập, chọn lưa kiểm định theo bảng sau:
17/03/2021 119
PHÂN BIỆT
THAM SỐ VÀ PHI THAM SỐ
❖ Dữ liệu thường phân phối theo 1 dạng nhất định.
✓ Phân phối bình thường
✓ Phân phối nhị thức
✓ Phân phối Poisson
✓ ……
❖ Các phép kiểm dựa trên các phân phối này
❖ Kiểm định tham số cần có một số giả định
3/17/2021 120
PHÂN BIỆT
THAM SỐ VÀ PHI THAM SỐ
Các phương pháp tham số đã học
❖ Kiểm định t
❖ Kiểm định ANOVA
❖ Hệ số tương quan Pearson
❖ Hồi qui tuyến tính
Giả định chung của các phương pháp này
✓ Số liệu có phân phối bình thường (tùy vào độ lớn cỡ
mẫu)
✓ Phương sai giữa các nhóm so sánh bằng nhau
3/17/2021 121
PHƯƠNG PHÁP PHI THAM SỐ
(NON-PARAMETRIC METHODS)
Kĩ thuật thống kê
❖Không cần các giả thuyết về tính phân phối bình
3/17/2021 122
PHƯƠNG PHÁP PHI THAM SỐ
(NON-PARAMETRIC METHODS)
❖ Khuyết điểm
bắt cặp
3/17/2021 125
Số giờ ngủ
Bệnh nhân thuốc placebo hiệu số hạng (bỏ qua dấu)
1 6,1 5,2 0,9 3,5*
2 7,0 7,9 -0,9 3,5*
3 8,2 3,9 4,3 10
4 7,6 4,7 2,9 7
5 6,5 5,3 1,2 5
6 8,4 5,5 3,0 8
7 6,9 4,2 2,7 6
8 6,7 6,1 0,6 2
9 7,4 3,8 3,6 9
10 5,8 6,3 -0,5 1
3/17/2021 126
WILCOXON SIGNED-RANK TEST
Kết luận:
Thời gian ngủ giữa nhóm dùng
thuốc và không dùng thuốc khác
biệt có ý nghĩa thống kê với P <
0,05
3/17/2021 130
WILCOXON RANK SUM TEST
Không hút thuốc Hút thuốc lá nặng
Trọng lượng lúc sinh Hạng Trọng lượng lúc sinh Hạng
3,99 27 3,18 7
3,79 24 2,84 5
3,60* 18 2,90 6
3,73 22 3,27 11
3,21 8 3,85 26
3,60* 18 3,52 14
4,08 28 3,23 9
3,61 20 2,76 4
3,83 25 3,60* 18
3,31 12 3,75 23
4,13 29 3,59 16
3,26 10 3,63 21
3,54 15 2,38 2
3,51 13 2,34 1
2,71 3
Tổng số = 272 Tổng số = 163
3/17/2021 131
WILCOXON RANK SUM TEST
1. Sắp hạng các quan sát trong cả hai nhóm theo thứ tự độ lớn như
trong bảng. Nếu có các giá trị nào bằng nhau thì lấy trung bình của
chúng
Không hút thuốc Hút thuốc lá nặng
Trọng lượng lúc sinh Hạng Trọng lượng lúc sinh Hạng
3,99 27 3,18 7
3,79 24 2,84 5
3,60* 18 2,90 6
3,73 22 3,27 11
3,21 8 3,85 26
3,60* 18 3,52 14
4,08 28 3,23 9
3,61 20 2,76 4
3,83 25 3,60* 18
3,31 12 3,75 23
4,13 29 3,59 16
3,26 10 3,63 21
3,54 15 2,38 2
3,51 13 2,34 1
2,71 3 3/17/2021 132
Tổng số = 272 Tổng số = 163
WILCOXON RANK SUM TEST
Nếu hai nhóm có cỡ mẫu bằng nhau thì lấy nhóm nào
cũng được.
3/17/2021 133
WILCOXON RANK SUM TEST
3. So sánh tổng số này với giá trị quyết định trong bảng
được sắp đặt hơi khác
3/17/2021 134
N1 = 15; N2 = 14; P=0,05
Khoảng giá trị tương ứng của T 164 - 256 3/17/2021 135
T =163
PHÉP KIỂM KRUSKAL WALLIS
≥3)
3/17/2021 136
PHÉP KIỂM KRUSKAL WALLIS
▪ Thang đo:
bình thường
3/17/2021 137
PHÉP KIỂM KRUSKAL WALLIS
Nguyên tắc
3/17/2021 138
PHÉP KIỂM KRUSKAL WALLIS
3/17/2021 140
PHÉP KIỂM KRUSKAL WALLIS
3/17/2021 141
TÀI LIỆU THAM KHẢO
▪ Sách:
1. ARMITAGE, P., BERRY, G. & MATTHEWS, J. N. S. 2008.
Statistical Methods in Medical Research, Chichester:, John
Wiley & Sons, Ltd
2. Ðỗ Văn Dũng. Xác suất và sinh thống kê căn bản. TP Hồ Chí
Minh, Khoa Y tế công cộng, Trường Ðại học Y Dược, 2001
▪ Web:
https://www.graphpad.com/support/faqid/1790/
17/03/2021 142
NỘI DUNG
17/03/2021 143