Download as pdf or txt
Download as pdf or txt
You are on page 1of 225

XÁC SUẤT THỐNG KÊ Y DƯỢC

BIOSTATISTICS
TS. ĐÀO HỒNG NAM

Website: dhnammp.blogspot.com, Fanpage: facebook.com/xstkyd


XÁC SUẤT
I. Thí nghiệm ngẫu nhiên và biến cố
1. Thí nghiệm ngẫu nhiên
Có 2 hiện tượng: Tất nhiên, ngẫu nhiên
Ví dụ 1. Lao là một bệnh truyền nhiễm do vi khuẩn Mycobacterium tuberculosis,
thường gây bệnh ở phổi. Bệnh lan truyền từ người sang người thông qua các giọt
bắn ra từ cổ họng và phổi của người bệnh đang bị bệnh lao phổi giai đoạn tiến triển.
Chỉ khoảng 5-10% những người bị nhiễm Lao sẽ phát triển bệnh lao trong đời.
Triệu chứng của bệnh lao phổi bao gồm ho, đôi khi có đờm, hoặc ho ra máu, đau
ngực, suy nhược, gầy sút, sốt và ra mồ hôi về đêm. Bệnh lao vẫn là 1 trong 10
nguyên nhân gây tử vong trên thế giới.
Bệnh lao có thể điều trị với kết hợp 6 loại thuốc kháng sinh. Tuy nhiên, khoảng 5%
bệnh nhân trong số các bệnh nhân lao có đề kháng với các loại kháng sinh này, do
đó đòi hỏi thời gian điều trị lâu hơn từ 9-24 tháng. Hầu hết bệnh lao có thể được
điều trị khỏi miễn là bệnh nhân tuân thủ đầy đủ liệu trình điều trị.
Nguồn: https://www.who.int/vietnam/vi/health-topics/tuberculosis
XÁC SUẤT
I. Thí nghiệm ngẫu nhiên và biến cố
1. Thí nghiệm ngẫu nhiên
Có 2 hiện tượng: Tất nhiên, ngẫu nhiên
Ví dụ 1. Lao là một bệnh truyền nhiễm do vi khuẩn Mycobacterium tuberculosis,
thường gây bệnh ở phổi. Bệnh lan truyền từ người sang người thông qua các giọt
bắn ra từ cổ họng và phổi của người bệnh đang bị bệnh lao phổi giai đoạn tiến triển.
Chỉ khoảng 5-10% những người bị nhiễm Lao sẽ phát triển bệnh lao trong đời.
Triệu chứng của bệnh lao phổi bao gồm ho, đôi khi có đờm, hoặc ho ra máu, đau
ngực, suy nhược, gầy sút, sốt và ra mồ hôi về đêm. Bệnh lao vẫn là 1 trong 10
nguyên nhân gây tử vong trên thế giới.
Bệnh lao có thể điều trị với kết hợp 6 loại thuốc kháng sinh. Tuy nhiên, khoảng 5%
bệnh nhân trong số các bệnh nhân lao có đề kháng với các loại kháng sinh này, do
đó đòi hỏi thời gian điều trị lâu hơn từ 9-24 tháng. Hầu hết bệnh lao có thể được
điều trị khỏi miễn là bệnh nhân tuân thủ đầy đủ liệu trình điều trị.
Nguồn: https://www.who.int/vietnam/vi/health-topics/tuberculosis
Trong điều trị lao, có thể xảy ra một trong 4 tình huống:
Khỏi bệnh: Tỷ lệ trên 90% trong số bệnh nhân lao mới phát hiện.
(Nguồn: https://hcdc.vn/ truy cập ngày 8/4/2022)
Lao kháng đơn thuốc: Chỉ kháng với một loại thuốc chống lao hàng thứ nhất
Lao kháng đa thuốc: Vi khuẩn lao kháng với ít nhất 2 thuốc chống lao bao gồm
isoniazid và rifampicin, là hai loại thuốc trị lao mạnh nhất
Lao siêu kháng thuốc: Đây là thể vi khuẩn Lao kháng thuốc có thể kháng thêm với
bất cứ loại thuốc nào trong nhóm Fluoroquinolone hoặc một trong 3 thuốc tiêm
hàng hai gồm: Amikacin, Kanamycin, Capreomycin.
2. Biến cố (sự kiện- event)
- Khái niệm biến cố, không gian mẫu:
Ví dụ 2. Sử dụng thuốc kháng sinh M (Amoxicillin, Clarithromycin, Metronidazol,
Levofloxacin) trong điều trị HP. Quan tâm đến kết cục HP kháng thuốc. Gọi A là
biến cố HP bị tiêu diệt, B là biến cố HP kháng thuốc.
Không gian mẫu trong ví dụ: Ω = {A, B}
- Các loại biến cố: B/c không thể, B/c chắc chắn, B/c hiếm, B/c đối:
ҧ 𝐴 ∩ 𝐴 ҧ=∅
B/c 𝐴 được gọi là b/c bù (b/c đối) của A khi và chỉ khi: ቊ
𝐴 ∪ 𝐴ҧ = Ω
II. QUAN HỆ GiỮA CÁC BiẾN CỐ
1. Phép hội (hợp)
A B = C
Ví dụ 3: Khám cho một b/n,
gọi A: “tim đập yếu”, B: “giãn
mạch” thì C = ?

2. Phép giao A B = C
Ví dụ 4: Khám cho 1 b/n. Gọi A: “nhiệt độ
cao”, B: “mệt” thì C = ?

3. Phép hiệu A\ B = C
4. Phép bù
Cho A  B Phần bù của A trong B, ký hiệu là A=B\ A
5. Các khái niệm khác
a. Quan hệ kéo theo
Biến cố A được gọi là kéo theo biến cố B và ký hiệu A ⊂ B hoặc B ⊂ A nếu A xảy
ra thì B xảy ra.
Ví dụ 5. Tình trạng sử dụng kháng sinh tùy tiện đã kéo theo nhiều hệ luỵ. Nguy
hiểm hơn là góp phần làm gia tăng sự kháng thuốc, gây yếu và mất dần đi tác
dụng chữa bệnh của kháng sinh.
b. Hai b/c xung khắc: Hai b/c A và B gọi là xung khắc nếu chúng không cùng
xảy ra trong một phép thử (AB = ∅).
Ví dụ 6: Xét nghiệm vi khuẩn đường ruột cho một bệnh nhân. Gọi A: “Vi khuẩn
Subtilis phát triển”, B: “Vi khuẩn E.coli phát triển”
 A và B xung khắc vì 2 loại VK này thường không hiện diện đồng thời trong
đường ruột.
c. Nhóm biến cố đầy đủ
Xét b/c A và biến cố đối 𝐴.ҧ Ta có 𝐴 ∩ 𝐴ҧ = ∅ và 𝐴 ∪ 𝐴ҧ = Ω. Khi đó 𝐴 và 𝐴ҧ lập
thành nhóm gồm 2 b/c đầy đủ. Khi phép thử xảy ra thì một và chỉ một b/c trong
hai b/c đó xảy ra.
Tổng quát: Nhóm b/c 𝐴1 , 𝐴2 , … , 𝐴𝑛 được gọi là một nhóm b/c đầy đủ nếu và chỉ
nếu 𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛 = Ω và 𝐴𝑖 ∩ 𝐴𝑗 = ∅ với mọi 𝑖, 𝑗 = 1, 𝑛 , 𝑖 ≠ 𝑗
Hệ gồm 5 biến cố đầy đủ Hệ gồm 2 biến cố đầy đủ

d. Sự độc lập của các biến cố


◼ 2 b/c độc lập: A và B độc lập nếu b/c A xảy ra hay không không ảnh hưởng
đến khả năng xảy ra hay không xảy ra của B và ngược lại.
◼ 2 b/c không độc lập gọi là phụ thuộc.

Chú ý:
❑ Độc lập toàn phần → độc lập từng đôi

❑ Không có chiều ngược lại.


Ví dụ 7. Giả sử các loại thuốc có thể được bác sĩ nha khoa kê đơn có thể ảnh
hưởng đến khứu giác hoặc vị giác là ampicillin, benzocaine, codeine,
metronidazole, kem đánh răng sodium lauryle sulfate và tetracycline.
Đ/n các biến cố C = {benzocaine, codeine, metronidazole, tetracycline},
D = {ampicillin, codeine, metronidazole, tetracycline},
và E = {ampicillin}
1. The union of the two events C and D is C ∪ D =

2. The intersection of the two events C and D is C ∩ D =

3. The complementary events of C and D are:


𝐶ҧ =
ഥ=
𝐷
4. The two events C and D are not mutually exclusive, because they have
common outcomes: codeine, metronidazole, and tetracycline. They can both
occur simultaneously.
5. The events C and E are mutually exclusive.
III. XÁC SUẤT
1. Định nghĩa xác suất theo cổ điển
Xét một TN ngẫu nhiên E, có  = {A1, A2, …, An} thỏa điều kiện:
- Hữu hạn phần tử.
- Đồng khả năng, tức là P(A1) = P(A2) = P(An) = 1/n
Định nghĩa 1: Xác suất của b/c A:

Ví dụ 8: Một hộp có 20 lọ thuốc (15 tốt + 5 hỏng). Lấy ngẫu nhiên 3 lọ


để kiểm tra. Tính các XS:
a. Được 3 lọ tốt b. Được 3 lọ hỏng c. Được ít nhất 1 lọ hỏng.
2. Định nghĩa xác suất theo tần suất
Xét thí nghiệm ngẫu nhiên E và b/c A liên quan đến E. Thực hiện E n lần độc
𝑚
lập, thấy b/c A xuất hiện m lần. Khi đó, tỷ số 𝑓𝑛 = được gọi là tần suất của b/c
𝑛
A. Khi n → ∞, fn ≈ c, c được gọi là XS của b/c A.
Định nghĩa: XS của b/c A là giá trị ổn định của tần suất khi số lần thực hiện thí
nghiệm tăng lên vô hạn: 𝑃(𝐴) = lim 𝑓𝑛
𝑛→∞
Ví du 9 Buffon Pearson đă thực hiện thí nghiệm tung một đồng xu cân đối nhiều
lần và có kết quả như sau:
Số lần tung Tần số xuất Tần suất xuất hiện
hiện mặt ngửa mặt ngửa
4040 2048
12000 6019
24000 12012

3. Các tính chất của xác suất


XS của b/c A bất kỳ thỏa măn:
𝑎. 0 ≤ 𝑃 𝐴 ≤ 1 𝑏. 𝑃 Ω = 1; 𝑃 ∅ = 0 𝑐. 𝑃 𝐴 + 𝑃 𝐴ҧ = 1
Tiếp tục dụ 8: Một hộp có 20 lọ thuốc (15 tốt + 5 hỏng). Lấy ngẫu nhiên 3 lọ để
kiểm tra. Tính XS: c. Được ít nhất 1 lọ hỏng.
𝐶51 ×𝐶15
2
+𝐶52 ×𝐶15
1
+𝐶53
Cách 1: Tính trực tiếp theo đ/n: 𝑃(C) = 3 = 0,6
𝐶20
Cách 2: Dùng t/c của XS: 𝑃(C) + 𝑃(𝐶) = 1
Gọi X là số lọ hỏng trong 3 lọ lấy ra, C là b/c lấy được ít nhất 1 lọ hỏng
𝑃(C) = 𝑃(𝑋 ≥ 1) ⇒ 𝑃(𝐶) = 𝑃(𝑋 < 1) = 𝑃(𝑋 = 0) = P( A) = 0,399
𝑃(C) = 1 − 𝑃(𝐶) = 1 − 0,399 = 0,601
Ví dụ 10. Mục tiêu chính của một nghiên cứu của Carter et al. (A-1) là để điều tra
ảnh hưởng của tuổi bắt đầu rối loạn lưỡng cực (bipolar disorder), gọi tắt của rối
loạn cảm xúc lưỡng cực. (Đây là chứng bệnh về tâm thần với đặc trưng là tâm
trạng bị rối loạn theo một chu kỳ, giai đoạn giữa hưng cảm và trầm cảm. Rối loạn
lưỡng cực có thể gặp ở cả nam giới và nữ giới với tỷ lệ mắc bệnh tương đương
nhau) đối với tiến trình của bệnh. Một trong những biến số được điều tra là tiền sử
gia đình bị rối loạn tâm trạng. Bảng dưới đây cho thấy tần suất một gia đình mắc
chứng rối loạn tâm trạng ở hai nhóm quan tâm (Tuổi khởi phát sớm được xác định
là từ 18 tuổi trở xuống và Độ tuổi khởi phát muộn hơn được xác định là muộn hơn
18 tuổi). Chọn ngẫu nhiên một người từ mẫu này. Xác suất để người này đủ 18 tuổi
trở xuống là bao nhiêu?

𝑃 𝐸 =
Xác suất để một người được
chọn ngẫu nhiên từ 318 đối
tượng sẽ thuộc nhóm khởi phát
sớm rối loạn lưỡng cực (E) và
không có tiền sử gia đình về rối
loạn tâm trạng (A) là bao
nhiêu?

𝑃 𝐸∩𝐴 =

4. Nguyên lý xác suất nhỏ - lớn


◼ Nguyên lý XS nhỏ (nguyên lý b/c hiếm): Nếu một b/c có XS rất nhỏ thì thực tế
có thể xem rằng trong một phép thử b/c đó sẽ không xảy ra.
◼ Nguyên lý XS lớn: Nếu một b/c có XS rất gần 1 thì thực tế có thể xem rằng b/c
đó sẽ xảy ra trong một phép thử.
Thông thường:
◼ p  0,05 được coi là đủ nhỏ

◼ p≥ 0,95 được coi là đủ lớn


IV. Số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh
➢ Số mới mắc (incidence) là đại lượng đo lường của sự xuất hiện của bệnh.
➢ Nguy cơ (risk): Là XS mắc bệnh trong thời gian phơi nhiễm nhất định
➢ Tỉ suất mới mắc (incidence rate): nguy cơ mắc bệnh tức thời trong một đơn vị
thời gian.
Ví dụ 11. Tỉ suất mới mắc (tỷ suất) của bệnh mạch vành tim ở người có cholesterol
 245 mg% là 0,02/năm.
nghĩa là trong 100 người có cholesterol  245 mg% và chưa bị bệnh mạch vành
tim, trung bình có hai người bị xuất hiện bệnh mạch vành sau thời gian theo dõi 1
năm.
➢ Số chênh (odds): Là tỷ số giữa xs mắc bệnh và xs không mắc bệnh
➢ Yếu tố nguy cơ: là một yếu tố làm tăng khả năng mắc bệnh của một người. Ví
dụ, hút thuốc lá là một yếu tố nguy cơ của ung thư phổi, và béo phì là một yếu
tố nguy cơ của bệnh tim.
➢ Nguyên nhân (Cause)
Ví dụ 12: Nguyên nhân gây bệnh tả là :
vi khuẩn Vibrio Cholerae
Nguyên nhân ung thư cổ tử cung:
Virus Human papilloma virus (HPV)
1. Nguy cơ tương đối RR (Relative Risk) (sử dụng trong các NC tiền cứu)
Xét 2 yếu tố A và B

Group 1 (with n1 people) k1 people with Disease rate


(Exposed group) B disease p1 = k1/n1

Group 2 (with n2 people) k2 people with Disease rate


(Control group) B disease p0 = k2/n2
𝑝1
𝑅𝑅 =
𝑝0
- Nếu RR> 1 thì A tăng nguy cơ mắc bệnh (YTNC)
- Nếu RR <1 thì A làm giảm khả năng mắc bệnh (yếu tố bảo vệ)
- Nếu RR = 1, không có mối quan hệ giữa A và B
Disease B
Factor A Total
Yes No
Yes a b a+b
No c d c+d
Total a+c b+d n
Khoảng tin cậy 95% (95% CI for RR) Disease B
Bước 1: Tính RR Factor A Total
Yes No
a c Yes a b a+b
p1 = ; p0 = RR =
p1 No c d c+d
a+b c+d p0 Total a+c b+d n
Bước 2: 95% CI for RR

1 1 1 1
ln 𝑅𝑅 ±1.96 + − −
𝑎 𝑐 𝑎+𝑏 𝑐+𝑑
95%CI =𝑒

- Nếu CI cho RR> 1 thì A làm tăng nguy cơ mắc bệnh (YTNC).
- Nếu CI cho RR <1 thì A làm giảm khả năng mắc bệnh (yếu tố bảo vệ)
- Nếu CI cho RR chứa 1 thì không có mối quan hệ nào giữa A và B
Example 1. A study on the fracture Fracture
Group Total
prevention efficacy of zoledronate, Yes No
patients were divided into two groups: Zoledronate 92 970 1062
group 1 was treated with zoledronate, and Placebo 148 917 1065
group 2 took calcium and vitamin D only Total 240 1887 2127
(placebo). After 3 years of follow-up, the
results are as follows.

Conclusion

https://www.medcalc.org/calc/relative_risk.php
Example 2. A study of the effect of DDT on skin diseases was
performed in 2 groups. After a period of follow-up, the results are as
follows:
Group 1: 93 people used DDT, 29 people suffered from skin diseases.
Group 2: 59 people did not use DDT, 23 people suffered from skin
diseases.
Conclusion?

Conclusion
Example 3. A cohort study investigating the association between smoking and
coronary heart disease was conducted on 2 healthy groups over 30 years old. After
10 years of follow-up, the results were as follows:
Smoking group: 4893 people, including 675 people with coronary heart disease.
Non-smokers group: 3847 people, including 367 people with coronary heart
disease.
Conclusion?

Conclusion
Phân tích dữ liệu của công trình nghiên cứu WHI

2,48 2,03
% %
Nhóm dùng Calci & Nhóm dùng giả
vitamin D dược

Nghiên cứu cho thấy phụ nữ dùng bổ sung


Calci và nguy cơ nhồi máu cơ tim tăng được
thực hiện trên 2 nhóm
KẾT QUẢ
KẾT LUẬN
CaD (vitamin D
+Calci) là yếu tố
nguy cơ của
bệnh nhồi máu
cơ tim.
Nghiên cứu hiệu quả thuốc điều trị loãng xương
(strontium ranelate - SR)
KẾT QUẢ
KẾT LUẬN
Strontium ranelate
làm giảm khả năng
mắc bệnh loãng
xương ở phụ nữ sau
mãn kinh.
2. Tỷ số chênh OR (Odds Ratio) (sử dụng trong NC hồi cứu
p
Gọi p là xác suất của bệnh, ta có khái niệm số chênh: odd =
1− p
- Nếu odd > 1: Khả năng mắc bệnh cao hơn khả năng không mắc
bệnh;
- Nếu odd <1: Xác suất mắc bệnh thấp hơn xác suất không mắc bệnh;
- Nếu odd = 1: Xác suất mắc bệnh bằng khả năng không mắc bệnh.

p0
Nhóm 1: odd1 =
p1 Nhóm 2: odd 0 =
1 − p1 1 − p0

OR =
odd1 p 1 − p0 1 − p0
= 1 = RR 
odd 0 p0 1 − p1 1− p 1

- Nếu OR> 1 thì A là yếu tố nguy cơ


- Nếu OR <1 thì A là yếu tố bảo vệ
- Nếu OR = 1 thì A và B không tương quan (độc lập)
a b Disease B
p1 = ;1 − p1 = Factor A Total
a+b a+b Yes No
p Yes a b a+b
a
 odd1 = 1 = No c d c+d
1 − p1 b Total a+c b+d n
c d p0 c
p0 = ;1 − p0 =  odd 0 = =
c+d c+d 1 − p0 d
odd1 ad
OR = =
odd 0 bc

1 1 1 1
ln(OR) 1.96 + + +
a b c d
95%CI = e
Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.
Example 1. A case-control study to Smoking Disease Total
investigate the correlation between
Yes No
“smoking” and the disease factor “chronic
bronchitis” had the following results: Yes 320 200 520
No 180 300 480
Total 500 500 1000

Conclusion

https://www.medcalc.org/calc/odds_ratio.php
Example 2. A study of caffeine's effect on insomnia was conducted in 2 groups
Group 1: 72 people who drank caffeinated beverages, 30 people had insomnia
Group 2: 73 people who took a placebo, had 9 people with insomnia
Q: Does caffeine affect insomnia?

Conclusion
Example 3: Một NC về sự liên quan giữa hút thuốc và ung thư phổi. Số
liệu như sau:
Smoking Lung cancer Total

Yes No

Yes 297 270 567

No 3 30 33

Total 300 300 600

ad 297  30
OR = = = 11
bc 3  270

Conclusion
Exercise Contraceptive Cardiovascular disease Total
1. A retrospective study on the pill Yes No
association of cardiovascular Yes 693 320 1013
disease with contraceptive pills use 307 680 987
No
in over 2000 women had data as
Total 1000 1000 2000
shown in the side table. Is there an
association between contraceptive
pills and cardiovascular disease? Smoke Chronic bronchitis Total
2. Retrospective study on the Yes No
association between smoking and Yes 300 200 500
chronic bronchitis. The data shown No 200 300 500
in the side table. Is there an 500 500 1000
Total
association between smoking and
chronic bronchitis? HPV Cervical cancer Total
3. A retrospective study on the Yes No
association between HPV and
Yes 22 8 30
cervical cancer. The data shown in
the side table. Is there an No 10 50 60
association between HPV and Total 32 58 90
cervical cancer?
Câu hỏi 1
Một nghiên cứu hồi cứu về mối liên
quan của bệnh tim mạch với việc sử
dụng thuốc tránh thai ở hơn 2000
phụ nữ có số liệu như trong bảng
bên.
Kết luận: Thuốc tránh thai là yếu tố
nguy cơ của bệnh tim mạch.

Đúng Sai
GIỎI Đáp án

QUÁ!!

OR > 1, 95%CI > 1


Vậy thuốc tránh thai là yếu tố nguy cơ
của bệnh tim mạch
Câu hỏi 2
Nghiên cứu hồi cứu về mối liên quan
giữa hút thuốc lá và viêm phế quản
mãn tính. Dữ liệu được hiển thị trong
bảng bên.
Kết luận: hút thuốc và viêm phế
quản mãn tính không có mối tương
quan.

Đúng Sai
Đáp án

OR > 1, 95%CI > 1


Vậy hút thuốc là yếu tố nguy cơ của
bệnh viêm phế quản mãn tính
Câu hỏi 3

Một nghiên cứu hồi cứu về mối liên


quan giữa HPV và ung thư cổ tử
cung. Dữ liệu được hiển thị trong
bảng bên.
Kết luận: HPV là nguy cơ của ung
thư cổ tử cung.

Đúng Sai
Đáp án

OR > 1, 95%CI > 1


Vậy HPV là yếu tố nguy cơ của ung thư
cổ tử cung
02

THỬ NGHIỆM VẮC XIN


QUÁ TRÌNH NGHIÊN CỨU
TẠO RA VACCINE

Tạo kháng nguyên Thanh lọc Đóng gói

01 02 03 04 05

Giải phóng và Bổ sung các


phân lập kháng thành phần
nguyên khác
2. Giải phóng và phân lập
1.Tạo kháng nguyên kháng nguyên

o Là bước đầu tiên kích hoạt phản ứng miễn ➢ Mục đích là giải phóng
dịch. Các protein hoặc DNA mầm bệnh nhiều virus
cần được phát triển và thu hoach bằng các
cơ chế sau
➢ Virus được phát triển trên tế bào chính.
➢ Virus được nuôi cấy trong lò phản ứng
➢ Protein tái tổ hợp
5.Đóng gói 3. Thanh
4.Bổ sung
lọc
➢ Vaccine sẽ được ➢ Bổ sung tá ➢ Kháng nguyên
niêm phong bằng dược, giúp cần phải được
nút chặn vô trùng tăng cường tinh chế để tạo
và phải tuân thủ đáp ứng ra sản phẩm
các tiêu chuẩn miễn dịch có chất lượng
được xác định để
sản xuất.
3. Kiểm định hiệu lực của vắc xin
Tiêm vắc xin là một biện pháp phòng bệnh, vắc xin và giả dược được sử dụng
cho người khỏe mạnh chứ không phải người bệnh.
- Hiệu lực vắc xin dùng để đánh giá hiệu quả của vắc xin trong việc ngăn ngừa
sự xuất hiện của bệnh.
𝑝1 𝑇ỷ 𝑙ệ 𝑚ắ𝑐 𝑏ệ𝑛ℎ 𝑡𝑟𝑜𝑛𝑔 𝑛ℎó𝑚 𝑡𝑖ê𝑚 𝑐ℎủ𝑛𝑔
𝑉𝐸 = 1 − 𝑅𝑅 = 1 − =1−
𝑝0 𝑇ỷ 𝑙ệ 𝑚ắ𝑐 𝑏ệ𝑛ℎ 𝑡𝑟𝑜𝑛𝑔 𝑛ℎó𝑚 𝑘ℎô𝑛𝑔 𝑡𝑖ê𝑚 𝑐ℎủ𝑛𝑔

Khoảng tin cậy 95% cho VE


Bước 1: Tìm khoảng tin cậy 95% cho RR

1 1 1 1
ln 𝑅𝑅 ±1.96 + − − =[𝑥;𝑦]
95%CI =𝑒 𝑎 𝑐 𝑎+𝑏 𝑐+𝑑

Bước 2: Tìm khoảng tin cậy 95% cho VE


𝑉𝐸 = [1 − 𝑦; 1 − 𝑥]
Ví dụ 1. Thử nghiệm vaccine cúm, kết quả như sau:
Flu Vaccine Placebo Total
Yes 20 80 100
No 220 140 360
Total 240 220 460

95% CI for RR = [0.1455;0.3611] Conclusion:


95% CI for VE = [0.6389;0.8545] Vaccine effect from:
Ví dụ 2. Thử nghiệm vaccine X trên 2 nhóm chuột
Nhóm tiêm vaccine X gồm 13076 con chuột, 152 con chết.
Nhóm đối chứng gồm 11881 chuột, 255 con chết.
Kết luận?

95% CI for RR = [0.4437;0.6611] Conclusion:


95% CI for VE = [0.3389;0.5563] Vaccine effect from 33.89% to 55.63%
VACCINE CORONA VIRUS
1 1 1 1
ln 𝑅𝑅 ±1.96 + − −
95%CI for RR =𝑒 𝑎 𝑐 𝑎+𝑏 𝑐+𝑑
89% NVX-
CoV2373(Novavax)
70% ChadOx1 nCoV-2019

66% JNJ-78436735

94% mRNA-1273(Moderna)

91% Gam-Covid-Vac (Sputnik


V)
95% BNT162b2 (Pfizer&BioNTech)

50% Coronavac(Sinovac)
WHO giải thích giai đoạn thử nghiệm vaccine COVID-19
Giai đoạn 1 Giai đoạn 2 Giai đoạn 3
▪ Quy mô nhỏ và lần đầu ▪ Số lượng người ▪ Thử nghiệm trên số lượng
tiên một loại vaccine mới người lớn hơn rất nhiều.
tham nhiều hơn
được đánh giá hiệu quả ▪ Trong đó một nhóm người
giai đoạn 1 được tiêm vaccine và một
trên người. Vaccine đã
hoàn thành giai đoạn ▪ Tập trung vào nhóm người khác được sử
phát triển trong phòng nhóm tuổi đích dụng giả dược.
thí nghiệm, được thử mà vaccine ➢ Sau đó so sánh tỉ lệ mắc
nghiệm trên động vật hướng tới. bệnh trên người được tiêm
➢ Thử nghiệm trên hàng ➢ Kiểm tra đáp ứng vaccine và người không
chục hoặc tới 100 người miễn dịch. được tiêm vaccine, qua đó
là để đánh giá liều lượng có thể biết vaccine đó có
➢ Kiểm tra chi tiết
vaccine và tìm ra liều giúp phòng ngừa bệnh
hơn về đáp ứng ➢Tiếp tục tích lũy bằng chứng
lượng chuẩn.
➢ Đánh giá xem vaccine có miễn dịch về sự an toàn của vaccine.
tạo ra phản ứng miễn dịch ➢ Để có cơ sở dữ ➢Để biết vaccine có thật sự
mà chúng ta mong muốn. liệu lớn hơn về bảo vệ con người khỏi căn
➢ Tập hợp dần các dữ liệu sự an toàn của bệnh Covid19
về sự an toàn của vaccine. vaccine.
PHÂN TÍCH SỐ LIỆU
▪ Thử nghiệm lâm sàng phác đồ hai liều của hai loại vaccine Pfizer/Bi
oNTech BNT162b2 và Moderna mRNA-1273
▪ Ở những người từ 18 tuổi trở lên về điều trị bệnh SARS-CoV-2

Vaccine Pfizer/BioNTech BNT162b2 Vaccine Moderna mRNA-1273


RR=0,0494 < 1 RR=0,0595 < 1

VE=95,06% VE=94,05%

Khoảng tin cậy 95% cho Khoảng tin cậy 95% cho
VE từ 90% đến 97,6% VE từ 89,08% đến 96,76%

Kết luận: Làm giảm nguy cơ Kết luận: Làm giảm nguy cơ tương đối
Hiệu lực của Vaccine Moderna
mRNA-1273 từ 89,08% đến 96,76%
PHÂN TÍCH SỐ LIỆU
CÁC CÔNG THỨC TÌNH XÁC SUẤT
1. CÔNG THỨC CỘNG

P(A  B) = P(A) + P(B) – P(AB)

Khi A và B xung khắc thì: P(A  B) = P(A) + P(B)

P(A  B  C) = P(A) + P(B) + P(C) – P(AB) – P(AC) – P(BC) + P(ABC)

Nếu A, B, C xung khắc thì: P(A  B  C) = P(A) + P(B) + P(C)

Nếu A, B, C độc lập thì :


Ví dụ 1. Gọi A, B theo thứ tự là biến cố vi trùng kháng thuốc A, B. Nếu P (A) =
0.20, P (B) = 0.26; khả năng vi trùng kháng thuốc A hoặc thuốc B là 29% thì xác
suất vi trùng kháng cả hai loại thuốc A, B là bao nhiêu?

Solution
To find we use an addition rule:
Ví dụ 2. Trong một dân số phụ nữ có 4% bị K vú, 20% có hút thuốc, 3% có hút
thuốc và bị K vú. Chọn ngẫu nhiên một phụ nữ trong dân số đó, tính XS người
này bị K vú hoặc có hút thuốc hoặc cả hai biến cố.
Solution
To find we use an addition rule:

Ví dụ 3. Tỷ lệ nhóm máu O:A:B:AB trong một dân số theo thứ tự là:


0,42:0,43:0,11:0,04. Chọn ngẫu nhiên một người trong dân số này. Tính XS
người này có nhóm máu O hoặc B?
P(O + B) = P(O) + P(B) – P(OB)
Ví dụ 4 . Let A be the event that a person has normotensive diastolic
bloodpressure (DBP) readings (DBP < 90), and let B be the event that a person
has borderline DBP readings (90 ≤ DBP < 95).
Suppose that P(A) = 0.7, and P(B) = 0.1
Let Z be the event that a person has a DBP < 95. Then 𝑃 𝑍 =?
Solution
𝑃 𝑍 =𝑃 𝐴 +𝑃 𝐵
because the events A and B cannot occur at the same time

Ví dụ 5. Gọi A là biến cố bệnh nhân đánh răng ít nhất một lần mỗi ngày, B là
biến cố bệnh nhân ăn thức ăn giàu carbohydrate và C là biến cố bệnh nhân sử
dụng kem đánh răng có chứa fluor. Giả sử P(A) = 0,76; P(B) = 0,15; P(C) = 0,47;
P(A ∪ B) = 0,84 và P(B ∩ C) = 0,12. Tính các xác suất P(A ∩ B) và P(B ∪ C).

𝑃 𝐴∩𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∪𝐵 =

𝑃 𝐵∪𝐶 =𝑃 𝐵 +𝑃 𝐶 −𝑃 𝐵∩𝐶 =
2. Công thức xác suất có điều kiện
Các xác suất chúng ta đã thảo luận: P(A), P(B), P(E1), P(E2), v.v. được gọi là
xác suất vô điều kiện. Thường thì xác suất có điều kiện được các chuyên gia
chăm sóc sức khỏe quan tâm nhiều hơn xác suất vô điều kiện. Bác sĩ hỏi về lối
sống của bệnh nhân và lịch sử y tế cá nhân và gia đình để xác định xác suất có
điều kiện. Xét các tình huống sau:
• Nếu một bệnh nhân đã ăn một chế độ ăn giàu chất béo và cholesterol trong
phần lớn cuộc đời của mình, thì khả năng anh ta bị nhồi máu cơ tim sẽ lớn
hơn nhiều.
• Nếu một nha sĩ biết rằng cả cha và mẹ của bệnh nhân đều mắc phải chứng
khiếm khuyết cơ tạo xương, họ có thể đưa ra một kế hoạch điều trị khác cho
bệnh nhân, dựa trên thực tế là bệnh nhân có nhiều khả năng mắc chứng
khiếm khuyết tạo xương.
• Nếu một cá nhân được biết là đã tiếp xúc với môi trường bị nhiễm cúm, thì
khả năng phát triển bệnh cúm của người đó cao hơn so với những người
chưa tiếp xúc.
Công thức xác suất có điều kiện

Ví dụ 6. Chấn thương mô mềm do làm răng giả, nhiễm trùng miệng do


bệnh nha chu và sâu răng được biết là có nguy cơ phát triển bệnh hoại tử
xương. Gọi A là trường hợp bệnh nhân bị nhiễm trùng miệng do bệnh nha
chu và sâu răng, và B là trường hợp bệnh nhân bị hoại tử xương. Nếu P
(A) = 0,08, P (B) = 0,06 và P (AB) = 0,03, thì xác suất để một bệnh nhân bị
hoại tử xương là bao nhiêu, khi bệnh nhân bị nhiễm trùng miệng do bệnh
nha chu và sâu răng?
𝑃 𝐵𝐴 𝑃 𝐴𝐵
𝑃(𝐵Τ𝐴) = = =
𝑃 𝐴 𝑃 𝐴
3. Công thức nhân xác suất
P( AB)
P( A / B) =  P( AB) = P( B).P( A / B)
P( B)

P( AB)
P( B / A) =  P( AB) = P( A).P( B / A)
P( A)

 P ( A1 A2 A3 ) = P ( A1 ).P ( A2 / A1 ).P ( A3 / A1 A2 )

- Nếu A, B độc lập thì:


P( AB) = P( A)  P( B)
Nếu A1, A2, A3 độc lập thì

 P ( A1 A2 A3 ) = P ( A1 )  P ( A2 )  P ( A3 )
Ví dụ 7. Giả sử trong một cộng đồng dân số D, nồng độ florua trong nước uống
là 0,7 đến 1,1 ppm. Một nghiên cứu cho thấy rằng một bệnh nhân sống trong một
cộng đồng như vậy có 21% khả năng bị sâu răng. Nghiên cứu cũng chỉ ra rằng sự
kiện các thành viên trong gia đình bị sâu răng là độc lập với nhau.
Gia đình ông bà C trong D có ​hai cậu con trai sinh đôi khoảng 11 tuổi. Khả năng
để cả 4 thành viên trong gia đình này đều bị sâu răng là bao nhiêu?
Giải. Gọi B1, B2, B3 và B4 biểu thị các sự kiện mà mỗi thành viên trong số bốn
thành viên trong gia đình ông bà C bị sâu răng tương ứng.
𝑃 𝐵1 𝐵2 𝐵3 𝐵4 =
4. Công thức xác suất toàn phần
Thực hiện thí nghiệm E. Gọi Ω = {A1, A2, · · · , An } , trong đó A1, …, An là
nhóm biến cố xung khắc và đầy đủ, gọi K là biến cố có liên quan đến E.
Khi đó, xác suất của E được tính theo công thức xác suất toàn phần.
𝑛

𝑃 𝐾 = ෍ 𝑃 𝐴𝑖 𝑃 𝐾ห𝐴𝑖
𝑖=1
Ví dụ 8. Ung thư tuyến tụy hiếm khi có thể chữa khỏi. Nó chỉ chiếm 2% tổng số
ca ung thư mới được chẩn đoán ở Hoa Kỳ mỗi năm, nhưng 5% tổng số ca tử
vong do ung thư. Dữ liệu của Viện Ung thư Quốc gia chỉ ra rằng khả năng sống
sót cao nhất xảy ra nếu khối u thực sự khu trú. Gọi A là trường hợp khối u khu trú
và B là trường hợp bệnh nhân sống sót ít nhất 5 năm. Biết rằng P(A) = 0,20,
P(B|A) = 0,20 và P(B|Ᾱ) = 0,0001. Tỷ lệ sống 5 năm của một bệnh nhân mới
được chẩn đoán mắc bệnh ung thư tuyến tụy là bao nhiêu?
Giải
P(B) = P(A).P(B|A) + P(Ᾱ). P(B|Ᾱ) =
5. Công thức Bayes (Reverend Thomas Bayes)
- Xác suất một người mắc bệnh là bao nhiêu, nếu
kết quả xét nghiệm dương tính?
- Xác suất một người không mắc bệnh là bao
nhiêu, nếu kết quả xét nghiệm là âm tính?
- Nếu bệnh nhân bị viêm nha chu thì khả năng bị
viêm nha chu cấp tính là bao nhiêu?
- Nếu bệnh nhân không có dấu hiệu viêm nha
chu thì khả năng không bị viêm nha chu cấp tính
là bao nhiêu?

P( Ai ).P( K / Ai ) P( A).P( B / A)
P( Ai / K ) = P( A / B) =
P( K ) P( B)
Ví dụ 9. Một người đàn ông 60 tuổi chưa bao giờ hút thuốc lá đến gặp bác sĩ với các
triệu chứng ho mãn tính và thỉnh thoảng khó thở. Bác sĩ yêu cầu bệnh nhân nhập viện
để làm sinh thiết phổi. Giả sử kết quả sinh thiết phổi phù hợp với ung thư phổi hoặc
với bệnh sarcoidosis (một bệnh lý viêm biểu hiện bằng tổn thương u hạt không hoại tử
ở một hoặc nhiều cơ quan và mô; căn nguyên không rõ ràng. Phổi và hệ thống bạch
huyết là cơ quan bị ảnh hưởng nhiều nhất, nhưng sarcoidosis có thể biểu hiện ở bất cứ
cơ quan nào). Gọi A là biến cố “ho mãn tính”. Cho biết:
𝑃 𝐵1 = 0.99; 𝑃 𝐵2 = 0.001; 𝑃 𝐵3 = 0.009;
𝑃 𝐴/𝐵1 = 0.001; 𝑃 𝐴/𝐵2 = 0.9; 𝑃 𝐴/𝐵3 = 0.9
𝑃 𝐴 = 𝑃 𝐵1 . 𝑃 𝐴/𝐵1 + 𝑃 𝐵2 . 𝑃(𝐴/𝐵2) + 𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵1 . 𝑃 𝐴/𝐵1
𝑃 𝐵1/𝐴 = =
𝑃(𝐴)
𝑃 𝐵2 . 𝑃 𝐴/𝐵2
𝑃 𝐵2/𝐴 = =
𝑃(𝐴)
𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵3/𝐴 = =
𝑃(𝐴)
Ví dụ 10. Bây giờ, giả sử bệnh nhân trong Ví dụ 9 hút hai bao thuốc lá mỗi ngày
trong 40 năm. Cho biết: 𝑃 𝐵1 = 0.98, 𝑃 𝐵2 = 0,015, 𝑃 𝐵3 = 0.005
𝑃 𝐴/𝐵1 = 0.001; 𝑃 𝐴/𝐵2 = 0.9; 𝑃 𝐴/𝐵3 = 0.9
Xác suất của ba trạng thái bệnh đối với bệnh nhân này, với những triệu chứng (ho
mãn tính, thỉnh thoảng khó thở) là bao nhiêu?
𝑃 𝐴 = 𝑃 𝐵1 . 𝑃 𝐴/𝐵1 + 𝑃 𝐵2 . 𝑃(𝐴/𝐵2 ) + 𝑃 𝐵3 . 𝑃 𝐴/𝐵3 =
𝑃 𝐵1 . 𝑃 𝐴/𝐵1
𝑃 𝐵1 /𝐴 = =
𝑃(𝐴)
𝑃 𝐵2 . 𝑃 𝐴/𝐵2
𝑃 𝐵2 /𝐴 = =
𝑃(𝐴)
𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵3 /𝐴 = =
𝑃(𝐴)

Do đó, ở loại bệnh nhân này, ung thư phổi là chẩn đoán có khả năng nhất.
BIẾN SỐ NGẪU NHIÊN
1. Định nghĩa
Là kết cục của các TN ngẫu nhiên mà giá trị của nó thuộc tập số
nguyên hoặc số thực.
2. Phân loại: có 2 loại
- Bsnn rời rạc: X có giá trị là số nguyên Z
- Bsnn liên tục: X có giá trị là số thực R.
Ví dụ:
- Nhịp tim, số bc/1mm3,
- Lượng cholesterol, acid uric, huyết áp
3. Hàm mật độ xác suất
a. Nếu X là bsnn rời rạc
- Hàm mđxs thể hiện trong bảng PPXS:



X x1 x2 xk
pi , X = x i
p p1 p2 … pk f ( x) =
0, X  xi
Tính chất của hàm mật độ xác suất
f ( x)  0  f ( x) =  pi =1
b. Nếu X là bnn liên tục: f(x) là hàm mđxs của X nếu f(x) thỏa mãn:
+
f ( x)  0

−
f ( x)dx = 1
f ( x) =
1 − x2 /2
e
2

1 ( x −  )2 /2 2
f ( x) = e
 2
3. Các đặc trưng của biến số ngẫu nhiên
a. Kỳ vọng (trung bình): 𝝁 = 𝑬(𝑿)

෍ 𝑋𝑖 × 𝑝𝑖 ; 𝑋 ∈ 𝑍
𝑖
𝜇 = 𝐸(X) = +∞

න 𝑥𝑓(𝑥)𝑑𝑥; 𝑋 ∈ 𝑅
−∞

• Tính chất của kỳ vọng:


E(c) = c
E(cX) = cE(X)
E(X+Y) = E(X) + E(Y)
E(X.Y) = E(X).E(Y) nếu X và Y độc lập
• Ý nghĩa của kỳ vọng: Phản ánh giá trị trung tâm của PPXS.
Ví dụ 1. Một hộp có 10 bi (7 đỏ và 3 trắng), lấy nn 1 bi. Nếu được bi đỏ
thì phạt 4500 Usd, nếu được bi trắng thì thưởng 10000 Usd. Hỏi có
nên tham gia trò chơi này nhiều lần hay không
Gọi X là số tiền thu được sau mỗi lần chơi:
X = {-4500; 10000}
Ta có bảng PPXS
X -4500 10000
p 0,7 0,3

𝜇 = 𝐸(𝑋) = ෍ 𝑋𝑖 × 𝑝𝑖 = −4500 × 0,7 + 10000 × 0,3


Ví dụ 2. Xét bnn X có PPXS đều như sau:

1+2+3+4
𝜇 = 𝐸(𝑋) =
4
b. Phương sai:
Phản ánh mức độ phân tán của các giá trị quan sát xung quanh giá trị
trung bình, ký hiệu 𝜎 2 = 𝐷(𝑋)

෍(𝑋𝑖 − 𝜇)2 × 𝑝𝑖 ; 𝑋 ∈ 𝑍
𝑖
2 2
𝜎 = 𝐷(X) = 𝐸(𝑋 − 𝜇) = +∞

න (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥; 𝑋 ∈ 𝑅
−∞
➢ Tính chất của phương sai
D(c) = 0
D(cX) = c2D(X)
D(X + Y) = D(X) + D(Y) nếu X, Y độc lập
➢ Độ lệch chuẩn (standard deviation = sd) 𝜎 = 𝜎 2
𝑠
➢ Sai số chuẩn (standard Error = se): 𝑠𝑒 =
𝑛
Ví dụ 3. Cho biết tỷ lệ điều trị khỏi bệnh lao kháng thuốc (MDR-TB: Multi-
drug-resistant tuberculosis) trong dân số D là 80%. Gọi X là số người
không khỏi trong 3 người điều trị MDR-TB được chọn ngẫu nhiên trong
D. Tìm kỳ vọng và phương sai của X.
Ta có X = {0, 1, 2, 3}
Gọi Bi là b/c người thứ i không khỏi bệnh MDR-TB.

• 𝑃(𝑋 = 0) = 𝑃(𝐵1 𝐵2 𝐵3 ) = 𝑃(𝐵1 )𝑃(𝐵2 ). P( 𝐵3 )

• 𝑃(𝑋 = 1) = 𝑃(B1 . 𝐵2 . 𝐵3 ) + 𝑃(𝐵1 . B2 . 𝐵3 ) + 𝑃(𝐵1 𝐵2 . B3 )

• 𝑃(𝑋 = 2) = 𝑃(B1 𝐵2 𝐵3 ) + 𝑃(𝐵1 B2 B3 ) + 𝑃(B1 𝐵2 B3 )

• 𝑃(𝑋 = 3) = 𝑃(B1 𝐵2 B3 )
In order to find the mean (expectation) of the given distribution, we will use the
following formula:

So, first we need to multiply each value of X by each probability P(X), then add
these results together. In this example we have:

In order to find the variance (𝜎 2 ) of the given distribution, we will use the following
formula:

Now we will find the sum:

Putting all together we have:


3. Các đặc trưng khác
a. Trung vị (Median): ký hiệu Med(X)
- Trong XS, trung vị là giá trị c sao cho P(X ≤ c) = P(X ≥ c)
- Trong thống kê, với 1 dãy DL đã sắp tăng dần gồm n phần tử
• Nếu n lẻ thì trung vị là số nằm giữa dãy DL
• Nếu n chẵn thì trung vị là trung bình cộng hai giá trị nằm giữa
tập DL
b. Yếu vị (Mode): ký hiệu Mod(X)
- Trong XS, yếu vị là giá trị có XS lớn nhất
- Trong TK, yếu vị là giá trị có tần suất lớn nhất
Chú ý:
- Một dãy DL có thể không có mod, có 1 mod hoặc có nhiều
mode
- Nếu một dãy DL có Mean ≈ Mode ≈ Med thì dãy DL đó có
phân phối chuẩn.
CÁC PHÂN PHỐI XS THÔNG DỤNG

1. Phân phối nhị thức


◼ Phép thử Bernoulli
Là một phép thử mà kết cục chỉ có 2
khả năng, là 2 b/c đối lập nhau,
xảy ra:
Chẳng hạn “thành công” với XS = p
hoặc “thất bại” với XS = 1- p

(27/12/1654 – 16/8/1705)
◼ Phân phối nhị thức
Thực hiện phép thử Bernoulli B(1,p) n lần độc lập.
Gọi X = “Số lần thành công trong n lần thí nghiệm”
X = 0, 1, 2, …, n.
X có phân phối nhị thức, ký hiệu: X ~ B(n,p).
Hàm mật độ XS của X là

𝑃(𝑋 = 𝑥) = 𝐶𝑛𝑥 × 𝑝 𝑥 × (1 − 𝑝)𝑛−𝑥 𝑥 = 0,1, … , 𝑛

Ví dụ: Khám bệnh: Có bệnh / không có bệnh.


Điều trị bệnh: Khỏi / không khỏi.
Phẫu thuật: thành công / thất bại.
Kiểm tra thuốc: tốt / xấu.
Ví dụ: Tỷ lệ khỏi bệnh B khi điều trị bằng thuốc A là 20%. Điều trị cho 5 người.
Tính XS:
a. Có một người khỏi bệnh B. b. Có ít nhất 1 người khỏi bệnh B
c. Có nhiều nhất 1 người khỏi bệnh B
Giải: Gọi X là số người khỏi bệnh B trong 5 người được điều trị.
Ta có X ~ B(5;0,2). Hàm mật độ XS là: 𝑃(𝑋 = 𝑥) = 𝐶5𝑥 × 0, 2𝑥 × 0, 85−𝑥
𝑎. 𝑃(𝑋 = 1) = 𝐶51 × 0, 21 × 0, 85−1

𝑏. 𝑃(𝑋 = 0) = 𝐶50 × 0, 20 × 0, 85−0


𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0)
c. 𝑃 (X ≤ 1) = 𝑃(𝑋 = 0) + P( X = 1)
Bài tập:
1. Tỷ lệ nhiễm viêm gan B (VGB) trong dân số D là 25%. Khám ngẫu nhiên 3
người trong D. Tính XS:
a. Có 1 người bị nhiễm VGB
b. Có ít nhất 1 người bị nhiễm VGB
c. Có nhiều nhất 1 người bị nhiễm VGB
2. Tỷ lệ hiện mắc đái tháo đường (ĐTĐ) trên toàn quốc ở người trưởng thành
trong dân số VN là 5,5%. Khám ngẫu nhiên 10 người trong dân số. Tính XS có:
a. 2 người mắc bệnh ĐTĐ
b. Nhiều nhất 2 người mắc bệnh ĐTĐ
c. Ít nhất 2 người mắc bệnh ĐTĐ
2. Phân phối chuẩn (Normal distribution)
◼ Biến ngẫu nhiên X có PPC, ký hiệu: X ~ N(, 2)
nếu hàm mật độ XS:
1 𝑥−𝜇 2

𝑓(𝑥) = 𝑒 2𝜎2 𝑥∈𝑅
𝜎 2𝜋

Carl Friedrich Gauss


Phân phối chuẩn f(x)

◼ Dạng như một cái chuông


◼ Đối xứng qua µ: P(X< µ)=P(X> µ)=0,5
σ
◼ Trung bình = Trung vị = Yếu vị
x
◼ Cực đại đạt được tại  μ
◼ Độ phân tán σ Mean= Median = Mode
◼ Xác định từ -  to + 

Ví dụ: X~N(100;102)

1 𝑥−100 2

𝑓(𝑥) = 𝑒 2×102
10 2𝜋

P(X<100) = P(X>100) = 0,5


Ví dụ 1: Huyết áp tâm thu (X, mmHg) của con người trong dân số có
PPC với trung bình 100 mmHg và đlc là 10 mmHg.
1. Tính tỷ lệ những người có huyết áp tâm thu =110 mmHg.
2. P(80≤X≤120)
3. P(X>90)
4. P(X< 85)
X~N(100; 102). Hàm mật độ XS là


( x −100 )
2

1
f ( x) = P( X = x) = e 2102

10 2

1 110−100 2

𝑓(𝑥) = 𝑃(𝑋 = 110) = 𝑒 2×102
10 2𝜋

( x −100 )
2

1
f ( x) = P( X = x) = e 2102

10 2

120
P(80  X  120) = 
80
f ( x)dx = 0,954
100
P (X  90) = 
90
f ( x)dx + 0,5 = 0,841
100
P (X  85) = 0,5 − 
85
f ( x)dx = 0, 067
Ví dụ 2. Cho biết nồng độ [Cl-] trong máu người bình
thường là 100 mEq/l và độ lệch chuẩn là 3 mEq/l. Tìm tỷ lệ
những người trong dân số đó có:
1. Nồng độ [Cl- ] lớn hơn 104
2. Nồng độ [Cl- ] nhỏ hơn 98
3. Nồng độ [Cl- ] từ 98 đến 104
Phân phối chuẩn tắc
Nếu X ~ N(, 2) thì
X −μ
Z= ~ N (0;1)
σ

f(Z)
z2
1 1 −
Z f ( z) = e 2

2
0
Gọi X (mmHg) là huyết áp tâm thu
• X ~ N (100,10ᒾ)
Ví dụ 1: Huyết áp tâm thu (X, mmHg)
của con người trong dân số có PPC
với trung bình 100 mmHg và đlc
là 10 mmHg. Tính tỷ lệ những
người có huyết áp tâm thu nhỏ hơn
120.
Ví dụ 2.
Trọng lượng viên thuốc trong một lô thuốc có PPC với trung bình
252,6 mg và đlc 4,2 mg. Tính tỷ lệ viên thuốc có trọng lượng lớn
hơn 260.
Gọi X là trọng lượng viên thuốc
• X ~ N (252.6;4.2ᒾ)

1 𝑥−252.6 2

𝑓 𝑥 =𝑃 𝑋=𝑥 = 𝑒 2×4.22
4.2 2𝜋
Lời giải:
Gọi X là trọng lượng viên vitamin C
Ví dụ 3: Axit ascorbic là một trong
• X ~ N (450, 15ᒾ)
những thành phần quan trọng có trong
viên
vitamin C. Nó được tìm thấy trong trái
cây tươi và rau quả, chẳng hạn như trái
cây họ cam quýt, cà chua và bắp cải. Sự
thiếu hụt axit ascorbic được biết là dẫn
đến bệnh còi; các dấu hiệu bệnh lý của
bệnh còi, chủ yếu giới hạn ở các mô liên
kết, bao gồm xuất huyết, lung lay răng,
viêm lợi và vết thương kém lành.
Giả sử lượng axit ascorbic có trong viên
nén vitamin C có PPC với giá trị trung
bình là 450mg và SD là 15 mg. Tỷ lệ
viên vitamin C sẽ chứa axit ascorbic từ
425mg đến 475mg là bao nhiêu?
Bài tập: Áp lực tâm trương động mạch phổi (mmHg) là biến ngẫu nhiên
có phân phối chuẩn với trung bình 5,1 mmHg và độ lệch chuẩn 1,7
mmHg.
a) Tính tỷ lệ người có áp lực tâm trương động mạch phổi từ 3,4 mmHg
đến 8,5 mmHg?
b) Tính xác suất để gặp người có áp lực tâm trương động mạch phổi lớn
hơn 8,5 mmHg?
c) Tính xác suất để gặp người có áp lực tâm trương động mạch phổi nhỏ
hơn 1,7 mmHg?
d) Chọn ngẫu nhiên 10 người. Tính xác suất có:
d1) đúng 5 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d2) ít nhất 8 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d3) nhiều nhất 8 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d4) số người có áp lực tâm trương động mạch phổi lớn hơn 8,5 mmHg
nhiều khả năng nhất trong 10 người được chọn?
3. Các phân phối liên quan đến PPC
3.1. Phân phối chi bình phương (Chi-Squared Distribution)
Cho n biến n.n độc lập X1, X2, …, Xn sao cho Xi~N(0;1). Khi đó biến n.n

U = X12 + X 22 + ... + X n2 ~  n2
3.2. Phân phối Fisher (Sir Ronald A. Fisher, F)
Nếu U và V là 2 biến n.n độc lập có PP chi bình phương với n và m
bậc tự do thì
U /n
F= ~ F (n; m)
V /m
3.3. Phân phối Student
Nếu Z~N(0;1) và U ~ χ2(n) là 2 biến n.n độc lập thì
Z
T= ~ t ( n)
U /n
BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ
THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM

Website: dhnammp.blogspot.com, Fanpage: facebook.com/xstkyd


BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ
THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
CHƯƠNG 2. PHÂN TÍCH DỮ LIỆU VÀ THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
2.1. DỮ LIỆU TRONG KHẢO SÁT VÀ THỬ NGHIỆM LÂM SÀNG
Trong hầu hết các trường hợp, dữ liệu y sinh và khoa học sức khỏe bao gồm các
quan sát về các đặc điểm nhất định của từng đối tượng, động vật thí nghiệm, các
hiện tượng hóa học, vi sinh hoặc vật lý trong phòng thí nghiệm hoặc quan sát phản
ứng của bệnh nhân với điều trị. Ví dụ, các đặc điểm điển hình của từng đối tượng
là giới tính, tuổi, huyết áp, tình trạng vệ sinh răng miệng, chỉ số nướu, hàm lượng
thuốc, số viên thuốc trong 1 lô/vỉ thuốc, mức cholesterol, tỷ lệ người nhiễm HIV
dương tính trong cộng đồng.
Bất cứ khi nào một thử nghiệm lâm sàng được tiến hành, các phép đo được thực
hiện, các nhà nghiên cứu sẽ thu thập dữ liệu dưới nhiều hình thức khác nhau. Một
số dữ liệu là số, chẳng hạn như chiều cao, huyết áp tâm thu, mật độ xương,… và
một số không phải là số, chẳng hạn như giới tính (nữ, nam) và mức độ đau của
bệnh nhân (không đau, đau vừa, đau dữ dội). Để thảo luận và mô tả đầy đủ dữ liệu,
chúng ta phải xác định một số thuật ngữ sẽ được sử dụng lặp đi lặp lại trong các
phần tiếp theo.
2.2. Các loại thang đo trong nghiên cứu
Biến số có thể phân làm 2 loại chính là biến định tính và biến định lượng. Các thang
đo dùng để đo lường các biến số này có thể chia thành 4 loại như sơ đồ sau:

Nominal Ordinal Interval Ratio


Biến định tính (The qualitative variable): Mô tả đặc tính của người hoặc đối tượng và
không thể được biểu thị bằng một giá trị số.
•Thang đo danh nghĩa (The nominal measurement scale) đại diện cho loại dữ liệu đơn
giản nhất. NNC thường sử dụng các mã số để qui ước, giữa các con số này không có
quan hệ hơn kém, không có thứ tự và không có ý nghĩa toán học.
Ví dụ 1. Thang đo danh nghĩa
Nhóm máu: 1 = A, 2 = B, 3 = AB, 4 = O
Giới tính: 1 = Nam, 0 = Nữ
•Thang đo thứ bậc (The ordinal measurement scale)
Là thang đo danh nghĩa, tuy nhiên khi mã hóa, các con số được sắp xếp theo một
quy ước tăng dần hoặc giảm dần về sự hơn kém, nhưng ta không biết được chính
xác khoảng cách giữa chúng. Điều này có nghĩa là bất cứ thang đo thứ bậc nào cũng
là thang đo danh nghĩa nhưng điều ngược lại không đúng.
Ví dụ 2. Thang đo thứ bậc
Mức độ đau: 1 = đau nhẹ, 2 = đau vừa, 3 = đau dữ dội, 4 = cực kỳ đau
Mức độ đau đã được sắp tăng dần nhưng không biết người có mức độ đau là 3 thì
đau gấp mấy lần người có mức độ đau là 2.
Thang đo khoảng và thang đo tỷ lệ được ghép chung thành 1 loại thang đo Scale
trong phần mềm SPSS.
Ví dụ 3. Trong bảng khảo sát có câu hỏi “Các yếu tố sau đây có ảnh hưởng đến chất
lượng khám chữa bệnh tại bệnh viện”. Các đáp án là:
1: Rất không đồng ý, 2: Không đồng ý, 3:
STT Yếu tố Không ý kiến, 4: Đồng ý, 5: Rất đồng ý
1 Cơ sở vật chất 1 2 3 4 5
2 Trình độ của bác sĩ 1 2 3 4 5
3 Kinh nghiệm của bác sĩ 1 2 3 4 5
4 Số lượng người đến khám và điều trị 1 2 3 4 5
Ví dụ này sử dụng thang đo Likert. Đây là một dãy các chữ số liên tục từ 1-5, 1-7,
hay 1-10. Dãy số này có 2 cực ở 2 đầu thể hiện trạng thái đối nghịch nhau.
Biến định lượng là đặc tính của người hoặc vật có thể ID Sex Age SBP
được biểu thị một cách tự nhiên dưới dạng giá trị số. Giá 1 M 55 183
trị của biến có thể cân, đong, đo, đếm được bằng các phép 2 F 50 152
3 F 60 178
đo. Các biến định lượng nhận các giá trị số và do đó có thể
4 M 47 157
thực hiện các phép toán số học cơ bản (cộng, chia và tính 5 F 65 194
trung bình) 6 M 50 163
7 M 48 144
8 F 58 114
9 F 61 178
10 F 48 152
11 M 53 118
12 M 58 158

Ví dụ 4. Biến định tính


Bảng bên là huyết áp tâm thu (mm Hg) của 12 bệnh nhân đang điều trị bằng thuốc
điều trị tăng huyết áp.
Biến định lượng
- Tuổi, chiều cao, cân nặng, huyết áp, nồng độ florua trong nước uống, thời gian
thuyên giảm bệnh của bệnh nhân, hàm lượng thuốc,…
- Số viên thuốc trong một lô/vỉ thuốc; nhịp tim, …
2.3. Mô tả dữ liệu
2.2.1 Bảng tần số
Bước đầu tiên trong việc tóm tắt dữ liệu là sắp xếp dữ liệu theo một số cách có ý
nghĩa. Phương pháp thuận tiện và thường được sử dụng nhất là phân phối tần số,
trong đó dữ liệu thô được tổ chức dưới dạng bảng theo lớp và tần suất.
Ví dụ 5. Một cuộc khảo sát đã được thực hiện để đánh giá sự hài lòng của bệnh
nhân khi đến khám chữa bệnh tại Bệnh viện X. Bảng dưới trình bày tập hợp dữ liệu
thứ tự gồm 179 câu trả lời cho một trong những câu hỏi trong bảng câu hỏi khảo sát,
“cơ sở vật chất ảnh hưởng đến chất lượng khám chữa bệnh tại bệnh viện”

Response Category Number of Individuals


Strongly disagree 24
Disagree 43
Neutral 49
Agree 33
Strong gree 30
Response Category Number of Individuals
Strongly disagree 24
Disagree 43
Neutral 49
Agree 33
Strong gree 30
X X
245
Cách đơn giản nhất và ít thông tin nhất để trình bày kết quả thử 251
250 246
nghiệm là liệt kê các quan sát (dữ liệu thô). 253 247
Ví dụ 6. Lấy mẫu 30 viên nang tetracycline trong quá trình sản 249
250
247
248
xuất để đo hàm lượng. Dữ liệu được trình bày ở dạng này tương đối 252 248
vô dụng ngoài việc chỉ cung cấp các kết quả riêng lẻ (cột 1) 247 248
248 249
Sắp xếp kết quả của 30 mẫu theo thứ tự từ nhỏ nhất đến lớn nhất. 254 249
Khi đó ta có thể thấy một số đặc điểm nhất định của dữ liệu: 245 249
250 249
1) hầu hết các giá trị quan sát tập trung gần 250 (mg) 253 250
2) sự phân bố của các kết quả thay đổi từ 245 mg đến 254 mg. 251 250
250 250
Mục đích của thống kê mô tả là tổ chức và tóm tắt thông tin; do đó, 249 250
các bảng và biểu đồ có thể được sử dụng để trình bày dữ liệu này ở 252 250
250
định dạng hữu ích hơn. 251
249 250
246 251
250 251
250 251
254 251
248 251
252 252
251 252
248 252
250 253
247 253
251 254
249 254
Trong quá trình phân tích DL, chúng ta cố gắng giảm dữ liệu thành thông tin dễ
quản lý hơn. Các kết quả về hàm lượng viên nén đại diện cho một biến liên tục
(mg); tuy nhiên, dữ liệu liên tục có thể được nhóm lại với nhau để tạo thành các
danh mục và sau đó được xử lý như một biến rời rạc. Giả sử rằng hàm lượng ghi
trên nhãn của tetracycline là 250 mg mỗi viên. Dữ liệu có thể được tóm tắt để báo
cáo kết quả: 1) tập trung vào những viên nang đáp ứng hoặc vượt quá lượng ghi
trên nhãn

X Tần số Tần số tích lũy Tần suất (%) Tần suất tích lũy (%)
<250 11 11 36.67 36.67
=250 7 18 23.33 60.00
>250 12 30 40.00 100.00
Để trình bày dữ liệu thô dưới dạng phân bố tần số, phải chia phạm vi của các phép
đo trong dữ liệu thành một số khoảng. Các khoảng thường được xây dựng để có
chiều rộng bằng nhau. Điều này sẽ giúp dễ dàng so sánh giữa các khoảng khác nhau.
Lưu ý khi tóm tắt dữ liệu, việc có quá nhiều khoảng sẽ không cải thiện nhiều so với
dữ liệu thô. Nếu có quá ít khoảng, rất nhiều thông tin sẽ bị mất.
Số khoảng và độ rộng khoảng được tính theo quy tắc Sturges.
Số khoảng I = 1 + 3.322𝑙𝑜𝑔10 𝑛
𝑅
Độ rộng khoảng 𝑤 = 𝐼 với 𝑅 = 𝐺𝑇𝐿𝑁 − 𝐺𝑇𝑁𝑁
Trong ví dụ 6: I = 1 + 3.322𝑙𝑜𝑔10 30 = 5.9 ≈ 6; 𝑅 = 254 − 245 = 9 nên độ
𝑅 9
rộng khoảng 𝑤 = 𝐼 = 6 = 1.5
Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
H. A. STURGES, “The Choice of a Class Interval,” Journal of the American Statistical Association, 21
(1926), 65–66.
2.2.2 Tần số, tần suất và tần suất tích lũy
Ví dụ 7. Đo huyết áp tâm thu (mmHg) của 17 bệnh nhân:
150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174
n = 17; R = max-min = 24. Số lớp I = 1 + 3.322 log10(17) = 5.08 ≈ 5
𝑅 24
Độ rộng khoảng = w = = = 4.8 ≈ 5
𝐼 5

X 150 - 155 155 - 160 160 - 165 165 - 170 170-175


n 2 3 6 4 2

X Tần số Tần suất Tần suất tích lũy


150 - 155 2 11.76 11.76
155 - 160 3 17.65 29.41
160 - 165 6 35.29 64.71
165 - 170 4 23.53 88.24
170 - 175 2 11.76 100.00
2.2.3. Biểu đồ
Mặc dù phân bố tần suất là một cách hiệu quả để tổ chức và trình bày dữ liệu,
nhưng biểu đồ có thể truyền tải cùng một thông tin trực tiếp hơn. Do bản chất của
chúng, dữ liệu định tính thường được hiển thị dưới dạng biểu đồ thanh (bar graphs)
và biểu đồ hình tròn (pie charts), dữ liệu định lượng thường được hiển thị dưới
dạng biểu đồ (histograms), biểu đồ hình hộp (box-whisker plots) và biểu đồ thân và
lá (stem and leaf plots).
✓ Biểu đồ hình quạt: Dùng để diễn tả sự phân phối của các thành phần (%) so
với toàn thể
Ví dụ 8. Biểu đồ hình tròn: Số liệu kê đơn cho
các loại statin tại một bệnh viện trong ngày

Tên thuốc Số người


Atorvastatin 60
Fluvastatin 6
Lovastatin 9
Pravastatin 7
Rosuvastatin 7
Simvastatin 18
✓ Biểu đồ hình cột
Dùng để so sánh sự phân phối của các giá trị khảo sát
X X Thân Lá Vị trí lá
251 245 24 5 1
2.4.5 Biểu đồ thân và lá (Stem and Leaf Plots)
250 246 24 6 2
253 247 24 7 3
Biểu đồ thân và lá là một phương pháp tổ chức dữ
249 247 24 7 4 liệu sử dụng một phần dữ liệu làm “thân” và một phần
250 248 24 8 5
252 248 24 8 6 dữ liệu làm “lá” để tạo thành các nhóm.
247 248 24 8 7
248 249 24 9 8 Biểu đồ thân và lá trong ví dụ 6
254 249 24 9 9
245 249 24 9 10
250 249 24 9 11
253 250 25 0 1
251 250 25 0 2
250 250 25 0 3
249 250 25 0 4
252 250 25 0 5
251 250 25 0 6
249 250 25 0 7
246 251 25 1 8
250 251 25 1 9
250 251 25 1 10
254 251 25 1 11
248 251 25 1 12
252 252 25 2 13
251 252 25 2 14
248 252 25 2 15
250 253 25 3 16
247 253 25 3 17
251 254 25 4 18
249 254 25 4 19
Cmax Stem Leaf Leaf Position Ví dụ 9. Nồng độ thuốc tối đa (Cmax), thời điểm đạt nồng
122 12 2 1 độ thuốc tối đa (Tmax), và diện tích dưới đường cong.
127 12 7 2 (AUC).
128 12 8 3
129 12 9 4
129 12 9 5
130 13 0 1
130 13 0 2
130 13 0 3
132 13 2 4
132 13 2 5
133 13 3 6
136 13 6 7
136 13 6 8
138 13 8 9
138 13 8 10
140 14 0 1
141 14 1 2
141 14 1 3
142 14 2 4
145 14 5 5
148 14 8 6
149 14 9 7
150 15 0 1
151 15 1 2
✓ Biểu đồ phân vị (Histogram)
Dùng để diễn tả sự phân phối tần số các đặc tính định lượng liên tục: chiều cao,
cân nặng, huyết áp, mật độ xương, …
Trong Ví dụ 9:
✓ Đường biểu diễn
• Đường biểu diễn đa giác tần số
Khi nối các cột trong biểu đồ hình cột, ta được một đường gấp khúc gọi là đường
biểu diễn đa giác tần số. Đường này cho thấy sự thay đổi của đặc tính cần khảo sát.
Ví dụ 10. Số ca nhiễm mới Covid-19 theo ngày trong tháng 8/2021
• Đường biểu diễn tần số tương đối
Được vẽ dựa vào Histogram và các giá trị trung tâm của lớp.
- Nếu phân phối đối xứng thì DL khảo sát có PPC.
- Nếu phân phối không đối xứng thì DL không có PPC.
• Đường biểu diễn tần số tương đối dồn (tích lũy)
- Dùng để diễn tả sự phân phối các đặc tính định lượng và được vẽ từ
cột tần số tương đối dồn
- Dựa vào đường biểu diễn tần số tương đối dồn có thể tính toán các
bách phân vị của một phân phối.
Có 99 bách phân vị từ bách phân vị thứ 1 (P1) đến bách phân vị thứ 99
(P99). Không có P0 và P100.

Bách phân vị (Percentile) còn được gọi là phân vị phần trăm.


Bách phân vị thứ p (hay phân vị phần trăm thứ p) của một dãy số đã xếp theo thứ
tự tăng dần là một số A có:
• p phần trăm số hạng của dãy số này có giá trị bé hơn hay bằng A,
• (100-p) phần trăm số hạng của dãy số này có giá trị lớn hơn hay bằng A.
Cần lưu ý rằng A có thể thuộc dãy số này hay không.

Cách xác định BPV thứ p của một dãy số có n số hạng đã xếp thứ tự tăng
dần: {X1, X2, ..., Xn} (Thuật toán Tukey)
• tính k=np/100;
• nếu k là số nguyên, A = (Xk + Xk+1)/2
• nếu k không là số nguyên, A = Xm, với m là số nguyên liền kề sau K
Ví dụ 11: Lượng cholesterol của 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170,
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 233.
Tính 𝑃25 , 𝑃50, 𝑃75
Cách 1: Thuật toán Tukey
Tính 𝑃25 : 𝑘 = 𝑛𝑝% = 34 × 0.25 = 8.5 ⇒ 𝑃25 =
Tính 𝑃50 : 𝑘 = 𝑛𝑝% = 34 × 0.5 = 17 ⇒ 𝑃50 =
Tính 𝑃75 : 𝑘 = 𝑛𝑝% = 34 × 0.75 = 25.5 ⇒ 𝑃75 =
Chú ý: 𝑃50 là trung vị của dãy DL ban đầu.
Cách 2: Thuật toán chia đôi (n chẵn)
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 233

Ví dụ 12 (n lẻ): Có dãy DL như sau: 4, 8, 9, 11, 12, 13, 16, 18, 20


Trung vị của dãy DL là 𝑃50 =
Chia DL thành 2 phần
Phần 1 gồm: 4, 8, 9, 11 có trung vị là 𝑃25 =
Phần 2 gồm: 13, 16, 18, 20 có trung vị là 𝑃75 =
Ví dụ: Biểu đồ BPV về cân nặng của
trẻ từ lúc sinh ra đến 2 tuổi theo WHO

Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG

Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛

Ví dụ 1. Axit ascorbic là một trong những thành phần quan trọng có trong viên
vitamin C. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó, giá trị trung bình về hàm lượng Axit ascorbic là:
455 + 450 + ⋯ + 455
𝑋ത = = 450
10
Giả sử đã mắc lỗi trong ghi chép số liệu và hàm lượng Axit ascorbic của viên
Vitamin thứ hai là 650, thay vì 450. Khi đó trung bình mẫu sẽ là 𝑋ത = 470. Như vậy,
hàm lượng Axit ascorbic trung bình đã tăng 450 mg lên 470mg.
Tác động của một giá trị lớn lên giá trị trung bình là khá mạnh. Tương tự, một giá trị
cực kỳ nhỏ có thể làm giảm giá trị trung bình xuống bất thường. Nói cách khác, giá
trị trung bình khá nhạy cảm với các giá trị cực nhỏ hoặc cực lớn.
Đây không phải là một tính năng mong muốn để đo lường vị trí trung tâm. Tuy
nhiên, giá trị trung bình rất đơn giản để tính toán; nó có thể được tính toán cho bất
kỳ tập hợp dữ liệu số nào. Có một và chỉ một giá trị trung bình cho bất kỳ tập dữ
liệu định lượng nào. Tuy nhiên, giá trị trung bình không thích hợp để mô tả vị trí
trung tâm cho dữ liệu danh nghĩa hoặc thứ tự như trong ví dụ 2 sau đây:
Ví dụ 2. Bác sĩ sử dụng thang điểm để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 =
nghiêm trọng và 7 = cực kỳ nghiêm trọng. Điểm trung bình 3,85 cho trạng thái
bệnh là vô nghĩa.
1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực
lớn, chúng ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với
giá trị trung bình số học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ
biến như giá trị trung bình số học, là trung vị. Giả sử có n quan sát trong một tập
dữ liệu. Để tìm trung vị, tất cả n quan sát phải được sắp xếp theo thứ tự tăng dần.
Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1, 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ
tự tăng dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là
giá trị trung bình của hai quan sát ở giữa dãy dữ liệu.
Ví dụ 3. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Sắp DL tăng dần (không giảm): 445, 447, 448, 448, 450, 450, 450, 452, 455, 455
Do 𝑛 = 10 là số chẵn nên trung vị là:
Bây giờ giả sử chỉ đo hàm lượng Axit ascorbic trong 7 viên vitamin C và được dãy
DL (đã sắp tăng dần): 445, 447, 448, 448, 450, 452, 455
Khi đó 𝑛 = 7 là số lẻ nên trung vị là:
Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các
giá trị rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị
ảnh hưởng bởi các giá trị rất nhỏ hoặc rất lớn (giá trị ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá
trị quan sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm
của yếu vị là không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm
các tần số. Yếu vị là thước đo duy nhất về khuynh hướng trung tâm có thể được sử
dụng cho các biến định tính, chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu
của bệnh nhân. Ngay cả đối với các biến định lượng rời rạc, chẳng hạn như quy mô
gia đình, số lần đến phòng khám bệnh và số lần mang thai, yếu vị đôi khi là thước đo
có ý nghĩa hơn về xu hướng trung tâm so với giá trị trung bình hoặc trung vị.
Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô
gia đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần
mang thai. Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu
vị nào nếu không có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 4. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó yếu vị là 540 (mg) vì giá trị này xuất hiện nhiều lần nhất (3 lần)
• Bây giờ giả sử kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) là dãy DL: 455, 450, 452, 448, 446, 456, 447, 453, 449, 445.
Khi đó dãy DL này không có yếu vị.
• Nếu kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) là
dãy DL: 455, 450, 450, 448, 446, 456, 447, 453, 449, 455.
Khi đó dãy DL này có 2 yếu vị là:
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm.
Tuy nhiên, trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng
một cách đối với một phương pháp điều trị nhất định. Sự thay đổi trong tất cả các
khía cạnh của khoa học sức khỏe là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và
điều trị nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và
7 sinh viên ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên
bông, một mẫu mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải
của họ. Sau 24 giờ ủ, các mẫu được quan sát về sự phát triển của khuẩn lạc, được
biểu thị bằng số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình
thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Giá trị trung bình của mỗi tập dữ liệu trên đều là 280. Sẽ hoàn toàn không phù hợp
nếu kết luận rằng tình trạng mảng bám của hai nhóm này là như nhau vì trung bình
là như nhau. Điều này cho thấy thực tế là nếu chỉ sử dụng giá trị trung bình là không
đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530. R =
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330. R =
Phạm vi rất dễ tính toán, nhưng nó chỉ phụ thuộc vào hai giá trị cực đoan, nhỏ nhất và lớn
nhất, bỏ qua tất cả các giá trị trung gian. Vì vậy, phạm vi không phản ánh sự phân tán của các
giá trị giữa hai quan sát cực đoan. Đây là thiếu sót chính của phạm vi. Cả ba trường hợp dưới
đây có cùng phạm vi vì chúng có cùng các giá trị cực đoan, bất kể giá trị giữa chúng là bao
nhiêu.
Trường hợp 1: 30, 150, 250, 280, 310, 410, 530
Trường hợp 2: 30, 30, 30, 30, 30, 30, 530
Trường hợp 3: 30, 530, 530, 530, 530, 530, 530

Phạm vi có những nhược điểm sau:


1. Độ ổn định lấy mẫu (sự thay đổi từ mẫu này sang mẫu tiếp theo) của phạm vi là rất kém.
2. Nó phụ thuộc vào kích thước mẫu. Kích thước mẫu càng lớn, càng có nhiều khả năng quan
sát các giá trị cực đoan hơn. Do đó, phạm vi có thể sẽ lớn hơn khi tăng kích thước mẫu.
3. Nó rất nhạy cảm với hai giá trị cực đoan và bỏ qua phần còn lại của các quan sát.
4. Nó không có ý nghĩa đối với dữ liệu định tính không có thứ tự.
2.2. BÁCH PHÂN VỊ VÀ TỨ PHÂN VỊ
Một thước đo độ biến thiên tốt hơn phạm vi sẽ sử dụng nhiều thông tin hơn từ DL và
sẽ không phụ thuộc vào kích thước mẫu. Bách phân vị và tứ phân vị chia DL
thành 100 phần và 4 phần tương ứng.
Định nghĩa 2. Điểm phân vị là điểm nằm dưới một phần trăm quan sát cụ thể. Phân
vị được ký hiệu là 𝑝% .
Ví dụ 6. DL được cho bởi: 6, 3, 12, 23, 2, 6, 18, 11, 9, 5, 9, 8. Tìm các phân vị thứ
25, 50, 75.
Sắp xếp lại DL theo thứ tự tăng dần: 2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23
Trung vị của dãy DL là phân vị thứ 50: 𝑃50 =
Để tìm các phân vị 𝑃25 , 𝑃75 cần chia DL thành 2 phần:
Phần 1 gồm: 2, 3, 5, 6, 6, 8 có trung vị là 𝑃25 =
Phần 2 gồm: 9, 9, 11, 12, 18, 23 có trung vị là 𝑃75 =
Khoảng tứ phân vị là một thước đo độ phân tán không dễ bị ảnh hưởng bởi một vài
giá trị cực trị đoan như Phạm vi. Phân vị thứ 25, 50 và 75 được gọi là tứ phân vị
thứ 1, thứ 2 và thứ 3, và được ký hiệu là 𝑄1 , 𝑄2 , 𝑄3 . Sử dụng ký hiệu phân vị, 𝑄1 =
𝑃25 , 𝑄2 = 𝑃50, 𝑄3 = 𝑃75
Định nghĩa 3. Khoảng tứ phân vị (interquartile range = IQR) là khoảng cách giữa 𝑄1 và 𝑄3 .
𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Khoảng tứ phân vị chứa khoảng 50% DL. Nếu IQR lớn, thì DL có xu hướng bị phân tán rộng.
Ngược lại, nếu IQR nhỏ, thì DL có xu hướng tập trung xung quanh trung tâm của phân phối.

Đối với dữ liệu trong Ví dụ 6, 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 =


Khi phân tích DL khám phá, ta nên xem xét kỹ lưỡng DL cho các quan sát cực nhỏ hoặc cực
lớn.
Định nghĩa 4. Các giá trị quan sát được gọi là ngoại vi (hay ngoại lai) là các quan sát có giá
trị cực nhỏ và cực lớn so với phần còn lại của các giá trị trong dữ liệu.
Có một số phương pháp tìm và phát hiện các giá trị ngoại lai. Một phương pháp sử dụng IQR
gọi là khoảng giới hạn của tứ phân vị như sau: [𝑄1 − 1,5𝐼𝑄𝑅; 𝑄3 + 1,5𝐼𝑄𝑅]
Nếu giá trị quan sát nào không thuộc khoảng giới hạn của tứ phân vị thì giá trị đó được gọi là
ngoại lai. Phương pháp phát hiện giá trị ngoại lai này còn được gọi là phép thử Tukey.

Ví dụ 7. Trong ví dụ 6, với dữ liệu {2, 3, 5, 6, 6, 8, 9, 9, 11, 12, 18, 23 }, Q1 = 5,5, Q3 = 11,5


và IQR = 6, khoảng giới hạn của tứ phân vị là [………………..]. Quan sát có giá trị 23 không
thuộc khoảng này nên 23 là một giá trị ngoại lai.
Dữ liệu thường chứa các giá trị ngoại lai. Điều này có thể xảy ra do nhiều lý do:
dụng cụ không chính xác, xử lý sai đơn vị thí nghiệm, lỗi đo lường hoặc lỗi ghi chép
như giá trị nhập sai hoặc đặt sai dấu thập phân.
Các quan sát có thể được thực hiện về một đối tượng không đáp ứng các tiêu chí
nghiên cứu; ví dụ, một nghiên cứu nghiên cứu về tăng huyết áp có thể bao gồm một
bệnh nhân bị huyết áp thấp, do sự giám sát của người thí nghiệm. Một giá trị ngoại
lai cũng có thể là một quan sát hợp pháp xảy ra hoàn toàn tình cờ.
Nếu có thể giải thích cách thức và lý do tại sao các giá trị ngoại lai xảy ra, chúng
nên được xóa khỏi dữ liệu. Chẳng hạn, một bác sĩ nha chu đang thu thập dữ liệu về
mức độ bám của nha chu của bệnh nhân bị viêm nha chu cấp tính. Giá trị 75 mm
cho mức đính kèm rõ ràng là một lỗi. Trừ khi chúng ta có thể chắc chắn rằng thiếu
dấu thập phân và giá trị chính xác là 7,5 mm, giá trị này nên được loại bỏ.
2.3. ĐỘ LỆCH
Một số đặc điểm quan trọng của phân bố có thể quan sát được từ biểu đồ, biểu đồ thân và lá,
hoặc biểu đồ hộp là tính đối xứng và hình dạng của phân bố. Dữ liệu được cho là phân phối
đối xứng nếu một nửa của phân phối bên dưới trung vị khớp với phân phối trên trung vị. Nói
cách khác, vị trí tương đối của các điểm dữ liệu ở cả hai phía của đường trung bình sẽ khớp
với nhau.
Định nghĩa 5. Phân phối có
"đuôi" dài ở bên phải được
cho là lệch sang phải hoặc lệch
phải (hoặc lệch dương) và
phân phối có "đuôi" dài ở bên
trái được cho là lệch sang trái ,
hoặc lệch trái (hoặc lệch âm).
Các biểu đồ hộp được thảo luận trước đó có thể cho chúng ta một ý tưởng sơ bộ về độ lệch
của dữ liệu. Ví dụ: nếu râu dưới dài hơn râu trên, thì dữ liệu có thể bị lệch trái. Ngược lại,
nếu râu trên dài hơn râu dưới, thì dữ liệu có khả năng bị lệch phải. Nếu phân phối bị lệch
vừa phải, thì mối quan hệ giữa giá trị trung bình, trung vị và yếu vị như sau:
𝑀𝑒𝑎𝑛 − 𝑀𝑜𝑑𝑒 ≅ 3(𝑀𝑒𝑎𝑛 − 𝑀𝑒𝑑𝑖𝑎𝑛)
Công thức tính độ lệch là:
3
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
𝑆𝐾 = 3
2 2
σ𝑛𝑖=1 𝑋𝑖 − 𝑋

Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch phải (hoặc lệch dương) thì SK > 0; và
nếu nó bị lệch trái (lệch âm) thì SK < 0.
2.3.2. Độ nhọn (Kurtosis)
Công thức tính độ nhọn là:
4
σ𝑛𝑖=1 𝑋𝑖 − 𝑋 Vai Đỉnh Đuôi
𝐾𝑢𝑟𝑡 = 𝑛 ×
2 2 Kurtosis âm Cao và rộng Thấp Ngắn
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
Kurtosis dương Thấp và hẹp Cao Dài
Ví dụ 8. 10 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng
bằng nước súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản
xuất. Biến ngẫu nhiên Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của
người thứ i.
X
15
34
25
10
25
30
35
32
18
26
2.4. BIỂU ĐỒ HỘP VÀ RÂU (Box and whisker plot)
Một loại biểu đồ trình bày trực quan về vị trí, khả năng thay đổi và các giá trị ngoại
lai là biểu đồ hộp và râu, hay được gọi đơn giản là biểu đồ hộp. Biểu đồ hộp về cơ
bản chỉ liên quan đến một số giá trị: giá trị thấp nhất, tứ phân vị thứ nhất (Q1), tứ
phân vị thứ hai (Q2 = giá trị trung vị), tứ phân vị thứ ba (Q3) và giá trị lớn nhất.
Ví dụ 9. Lượng acid uric (mg/dl) của một mẫu gồm 15 người như sau:
2.0 4.0 4.5 6.0 6.2 6.3 6.5 6.6 6.9 7.5 7.8 8.0 9.2 10.5 15.0

Biểu đồ hộp và các giá


trị (min, max, Mean, Q1,
Q2, Q3, outliers) trong
biểu đồ này thể hiện
trong hình
Biểu đồ hộp và râu của DL trong VD6
2.5. PHƯƠNG SAI, ĐỘ LỆCH CHUẨN, SAI SỐ CHUẨN
• Phương sai: Mô tả mức độ phân tán của DL xung quanh giá trị trung bình
σ 2
(𝑥𝑖 − 𝑥)
𝑠2 =
𝑛−1
Trong đó n – 1 gọi là số bậc tự do (degree of freedom = df), df là số nguồn thông
tin (piece of information) về một biến ngẫu nhiên.
• Độ lệch chuẩn (Standard deviation = SD hay s): 𝑆𝐷 = 𝑠 = 𝑠 2
𝑠
• Sai số chuẩn (Standard Error = SE): 𝑆𝐸 = 𝑛
Ví dụ 10. Đo huyết áp tâm thu (mmHg) của 5 người có kết quả như bảng sau:

250
Vậy 𝑠 2 = 4
= 62.5 𝑚𝑚𝐻𝑔 2
Ví dụ 11: Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm, mỗi nhóm 5 b/n.
Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.

Chú ý: Định lý Tchebysheff có thể được sử dụng để tính gần đúng giá trị của S
𝑅
theo R. Theo đó 𝑆 ≈ 4
Trong ví dụ 11:
𝑅𝐴 = 130 − 110 = 20 nên 𝑆 ≈ 5
𝑅𝐵 = 140 − 100 = 40 nên 𝑆 ≈ 10
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)

𝑋
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴= 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thứ chúng ta cần trong
tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
2.7. Z-score
Đôi khi bạn cần biết vị trí của một quan sát so với những quan sát khác trong một
tập dữ liệu. Ví dụ, nếu bạn làm một bài kiểm tra với tổng số điểm là 35, bạn có thể
muốn biết điểm 30 của mình như thế nào so với điểm của các sinh viên khác trong
lớp. Giá trị trung bình và độ lệch chuẩn của điểm có thể được sử dụng để tính z-
score, đo vị trí tương đối của phép đo trong tập dữ liệu.
𝑥 − 𝑥ҧ
𝑧 − 𝑠𝑐𝑜𝑟𝑒 =
𝑠
Z-score đo khoảng cách giữa giá trị quan sát và giá trị trung bình, được đo bằng
đơn vị độ lệch chuẩn. Ví dụ: giả sử rằng trung bình và độ lệch chuẩn của điểm kiểm
tra (dựa trên tổng số 35 điểm) lần lượt là 25 và 4.
Z-score cho điểm 30 của bạn được tính như sau:
𝑥−𝑥ҧ 30−25
𝑧 − 𝑠𝑐𝑜𝑟𝑒 = 𝑠 = 4 = 1.25 (30 = xത + 1.25s)
Tức là điểm 30 nằm ở vị trí trung bình cộng với 1.25 độ lệch chuẩn.
Z-score là một công cụ có giá trị để xác định xem một quan sát cụ thể có khả năng
xảy ra khá thường xuyên hay không hay nó khó xảy ra và có thể được coi là một
giá trị ngoại lai (outlier).
Theo đó, một dãy DL có phân phối chuẩn, nếu một giá trị quan sát của dãy DL nằm
ngoài khoảng ഥ 𝒙 − 𝟑𝒔; ഥ𝒙 + 𝟑𝒔 thì giá trị đó là ngoại lai.
Ví dụ 13: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 14: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180, 170, 180, 180, 190, 180,
190}
X 150 160 170 180 190
n 2 3 6 4 2

Ví dụ 15: Dạng ghép lớp


X = {150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174}

n = 17; R = max-min = 24. Số lớp I = 1 + 3.322 log10(17) = 5.08 nên chọn


số khoảng là I = 5
𝑅 24
Độ rộng khoảng = w = = = 4.8 ≈ 5
𝐼 5

X 150 - 155 155 - 160 160 - 165 165 - 170 170-175

n 2 3 6 4 2
CHƯƠNG 4. ƯỚC LƯỢNG KHOẢNG TIN CẬY
MỘT SỐ KHÁI NIỆM
• QUẦN THỂ VÀ MẪU
- Quần thể (dân số): N
- Mẫu là tập con của quần thể : n
• SAI SỐ CHỌN MẪU
- Là sự khác biệt giữa giá trị thu được từ mẫu và giá trị đặc trưng của quần thể.
- Sai số chọn mẫu không thể tính được một cách chính xác nhưng có thể giảm đến
mức tối thiểu và giới hạn của sai số có thể xác định được.
- Có 2 yếu tố tạo ra sai số chọn mẫu:
• Chọn mẫu không đại diện được cho quần thể, khi đó giới hạn của sai số chọn mẫu
không xác định được.
• Sự biến thiên ngẫu nhiên trong sinh học, khi đó giới hạn của sai số chọn mẫu có
thể xác định được.
Ví dụ 1: Để xác định tỷ lệ lao kháng đa thuốc trong bệnh nhân mới người ta chọn
mẫu ngẫu nhiên từ một bệnh viện chuyên khoa lao ở thành phố X, tính được tỷ lệ
này là 6%. Một khảo sát khác được thực hiện bằng cách chọn mẫu ngẫu nhiên hồ sơ
của tất cả bệnh viện lao trong toàn quốc, tính được KTC cho tỷ lệ này từ 3% -5%.
1. Định nghĩa quần thể nghiên cứu.
2. Tại sao có sự khác biệt giữa 2 mẫu khảo sát. Mẫu khảo sát nào chính xác hơn?
Ví dụ 2. Lấy ngẫu nhiên một số viên nén Erythromycin được tạo trên cùng 1 máy Alpha và
đo hàm lượng (mg) của chúng. Độ chính xác của trung bình mẫu sẽ phụ thuộc vào các giá trị
ngoại lệ (đánh dấu **) xuất hiện trong mỗi mẫu. Vì mẫu 1 nhỏ nên giá trị ngoại lệ đã làm cho
giá trị trung bình mẫu tăng lên đáng kể so với giá trị trung bình tổng thể. Mẫu 2 cũng có một
giá trị ngoại lệ, nhưng nó chỉ là một quan sát trong số 12 quan sát, và do đó, giá trị trung bình
của mẫu vẫn gần với giá trị thực hơn nhiều. Điều này cho thấy mẫu càng lớn thì càng có khả
năng phản ánh tình hình thực tế cơ bản tốt hơn. Tuy nhiên, dù mẫu có lớn đến đâu thì chúng
ta cũng phải luôn lường trước một số sai số lấy mẫu ngẫu nhiên.

Nguồn: Philip Rowe (2016). Liverpool John Moores University, UK


- Khoảng tin cậy Confidence
Interval (CI) biểu diễn xác suất
tham số tổng thể sẽ nằm giữa hai giá
trị trong một khoảng 𝐾 = [𝑎; 𝑏]

- Độ tin cậy (ký hiệu 𝜸) đo lường


mức độ tin cậy trong phương pháp
lấy mẫu. Khoảng tin cậy có thể là
bất kì con số xác suất nào, trong đó
phổ biến nhất là độ tin cậy 95%
hoặc 99%  ĐỘ TIN CẬY
Khi ước lượng X thuộc khoảng giá
trị K nào đó, thì xác suất để X
thuộc khoảng giá trị ấy được gọi
là độ tin cậy của ước lượng. Ký
hiệu: 𝜸 = 𝟏 − 𝜶
Với 𝛼 gọi là mức ý nghĩa.
1. Khoảng tin cậy cho phương sai

- Ước lượng khoảng tin cậy cho phương 𝒏 − 1 𝑺2 𝒏 − 1 𝑺 2

sai là một công cụ giúp nhà nghiên cứu ≤ 𝝈2 ≤


𝒂 𝒃
biết được tính chính xác của phép đo
mức độ phân tán của dữ liệu xung quanh 𝒂 = 𝝌21−𝜸 𝒏 − 1 𝒃 = 𝝌21+𝜸 𝒏 − 1
2 2
giá trị trung bình, cho biết độ ổn định khi
ước lượng một giá trị và độ sai lệch so 2
𝜒1−𝛾 𝑛−1
với ước tính ban đầu 2 là phân phối chi bình
phương với bậc tự do n-1
2
𝜒1+𝛾 𝑛−1
2
𝑛 = 12; 𝛾 = 0,95
2 2
𝑎 = 𝜒1−𝛾 (𝑛 − 1) = 𝜒0,025 (11) = 21,92
2
⇒൞ 2 2
b = 𝜒1+𝛾 (𝑛 − 1) = 𝜒0,975 (11) = 3,816
2
Ví dụ 3. Đo ion 𝑁𝑎 + (đơn vị mEq/lít) trong máu của một số người và ghi nhận
được kết quả như sau: 129; 132; 140; 141; 138; 143; 133; 137; 140; 143; 138; 140.
Ước lượng KTC 95% cho phương sai và độ lệch chuẩn của lượng ion 𝑁𝑎 +
• Tính được: 𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
• KTC 95% cho phương sai là:
n−1 S2 2 n−1 S2
a
≤σ ≤ b
𝑛 = 12; 𝛾 = 0,95
2 2
𝑎 = 𝜒1−𝛾 (𝑛 − 1) = 𝜒0,025 (11) = 21,92
2
⇒൞ 2 2
b = 𝜒1+𝛾 (𝑛 − 1) = 𝜒0,975 (11) = 3,816
2
• KTC 95% cho độ lệch chuẩn là:

Chú ý: Có thể tra các giá trị 𝑎, 𝑏 theo 𝛾 và 𝑛 bất kì trong Excel.
Với ví dụ này (𝛾 = 0.95 và bậc tự do 𝑛 − 1 = 11), nhập vào ô bất kỳ theo cú pháp
sau:
Để tra giá trị 𝑎, nhập =CHIINV(0.025,11). Nhấn Enter có giá trị 𝑎 = 21.92005
Để tra giá trị 𝑏, nhập =CHIINV(0.975,11). Nhấn Enter có giá trị 𝑏 = 3.185748
2.Ước lượng KTC cho trung bình
a. Trường hợp đã biết phương sai σ2
𝜎
𝜇 =𝑥±𝐶× 𝑛
; với 𝐶 = 𝑍1+𝛾
2
• 𝛾 = 0,95 ⇒ 𝐶 = 𝑍1+𝛾 = 𝑍0.975 = 1,96
2
• 𝛾 = 0,99 ⇒ 𝐶 = 𝑍𝛾/2 = 𝑍0,995 = 2,58
b. Trường hợp chưa biết phương sai σ2 (n < 30, DL có PPC)
𝐶. S
𝜇=𝑥± ; 𝑣ớ𝑖 𝐶 = 𝑡1−𝛾 (𝑛 − 1)
𝑛
Chú ý: Có thể tra giá trị ngưỡng C của PPC theo 𝛾 bất kì trong Excel.
Để tra C trong phân phối chuẩn, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.975 . Nhập =NORMSINV(0.975). Nhấn Enter sẽ được giá trị
2
𝐶 = 1.959964 ≈ 𝟏. 𝟗𝟔
• 𝛾 = 0.99 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.995 . Nhập =NORMSINV(0.995). Nhấn Enter sẽ được giá trị
2
𝐶 = 2.575829 ≈ 𝟐. 𝟓𝟖
Để tra C trong phân phối Student, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với 𝑛 = 12
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑡1−𝛾 𝑛 − 1 = 𝑡0.05 11 . Nhập = TINV(0.05,11). Nhấn Enter sẽ được
giá trị 𝐶 = 2.200985 ≈ 𝟐. 𝟐𝟎𝟏
Xác định cỡ mẫu trong nghiên cứu liên quan đến giá trị trung bình.
Câu hỏi: Để sai số ước lượng không vượt quá ε thì cỡ mẫu tối thiểu bằng bao nhiêu ?
𝐶𝜎 𝐶𝜎 𝐶𝜎 2
• Nếu đã biết phương sai thì từ KTC: 𝜇 = 𝑥 ± 𝑛
⇒ 𝑛
≤𝜀⇔ 𝑛≥ 𝜀
(1)
𝐶𝑠 𝐶𝑠 𝐶𝑠 2
• Nếu chưa biết phương sai thì từ KTC: 𝜇 = 𝑥 ± ⇒ ≤𝜀⇔ 𝑛≥ (2)
𝑛 𝑛 𝜀
Chú ý: Trong cả 2 công thức tính cỡ mẫu tối thiểu ở trên thì C là hằng số của PPC
Ví dụ 4. 10 người lớn trong D đã được chọn để nghiên cứu khoảng thời gian X
súc miệng bằng nước súc miệng liên quan đến thời gian súc miệng khuyến 20
34
nghị của nhà sản xuất. Biến ngẫu nhiên 𝑋 biểu thị khoảng thời gian súc miệng
25
(tính bằng giây) của người thứ i.
15
a. Tìm KTC 95% về thời gian súc miệng của người sử dụng trong D. 25
b. Nếu muốn sai số ước lượng về thời gian súc miệng trung bình của người sử 30
dụng trong D không quá 3 (giây) thì cỡ mẫu tối thiểu bằng bao nhiêu? 35
• Tính được: 𝑛 = 10; 𝑋ത = 26; 𝑠 = 6.831 32
𝐶𝑠
a. 𝛾 = 0.95 ⇒ 𝐶 = 𝑡0.05 9 = 2.262. 𝜇 = 𝑥 ± 18
𝑛
26
𝐶.𝑠 2
b. 𝑛 ≥ =
𝜖
Vậy 𝑛𝑚𝑖𝑛 =
Trong Ví dụ 3. Đo ion 𝑁𝑎+ (đơn vị mEq/lít) trong máu
của một số người và ghi nhận được kết quả như sau:
129; 132; 140; 141; 138; 143; 133; 137; 140; 143; 138;
140.
1. Ước lượng KTC 95% trung bình lượng ion 𝑁𝑎+
2. Nếu muốn sai số ước lượng trung bình ion 𝑁𝑎 +
không quá 1 mEq/lít ở độ tin cậy 95% thì phải khảo
sát tối thiểu bao nhiêu người?
𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
1. Khi 𝛾 = 0.95 thì 𝐶 = 𝑡0.05 11 = 2.201
𝐶𝑠
𝜇=𝑥± =
𝑛
=
2. Cỡ mẫu: Khi 𝛾 = 0.95 thì 𝐶 = 1.96

𝐶𝑆 2
𝑛≥ 𝜖
=
Vậy 𝑛𝑚𝑖𝑛 =
Ví dụ 5. Gọi X là lượng lưu huỳnh hữu cơ có trong 500 mg metyl sulfonyl metan
(MSM) viên nén. Lưu huỳnh hữu cơ đóng một vai trò quan trọng trong việc duy trì
sụn khớp. Công thức cho MSM yêu cầu mỗi viên phải chứa 85 mg lưu huỳnh hữu
cơ. Để đánh giá mức độ tuân thủ yêu cầu, 24 viên MSM được chọn ngẫu nhiên. Kết
quả phân tích cho thấy trung bình các viên nén chứa khoảng 80,5 mg lưu huỳnh hữu
cơ. Theo kinh nghiệm, lượng lưu huỳnh hữu cơ tìm thấy trong viên nén MSM có
phân phối chuẩn với σ = 14,2 mg,
1. Tìm khoảng tin cậy 95% cho lượng lưu huỳnh hữu cơ trong viên nén.
2. Muốn sai số ước lượng không quá 5 mg, độ tin cậy 95% thì cỡ mẫu tối thiểu là
bao nhiêu?

𝑥 = 80.5; 𝜎 = 14.2, 𝑛 = 24
1. Khi 𝛾 = 0.95 thì 𝐶 = 1.96 (đã biết 𝜎)
𝐶𝜎
𝜇 = 𝑥ҧ ± =
𝑛

2. Cỡ mẫu: Khi 𝛾 = 0.95 thì 𝐶 = 1.96


𝐶𝜎 2
𝑛≥ 𝜖
=
Vậy 𝑛𝑚𝑖𝑛 =
Ví dụ 6. Nghiên cứu lượng chất A (mg) thay đổi sau khi tiêm thuốc B. Kết quả khảo sát 10
người được chọn ngẫu nhiên trước và sau khi tiêm thuốc B như sau:

Gọi 𝐷𝑖 = 𝑋2 − 𝑋1 là sự khác biệt về lượng chất A trước (𝑋1 ) và sau


(𝑋2 ) khi uống thuốc B. D là biến ngẫu nhiên có PPC. Ước lượng
KTC cho trung bình của D.
• Tính được: 𝑛 = 10; 𝐷 ഥ = 15; 𝑆𝐷 = 38.586
• Khi 𝛾 = 0.95 thì 𝐶 = 𝑡0.05 9 = 2.262
𝐶𝑠
𝜇 = 𝑥ҧ ± =
𝑛
KTC chứa 0 nên không có sự khác biệt lượng chất A.
3. Ước lượng khoảng tin cậy về tỷ lệ (KTC Wald)

𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛

Khi sử dụng KTC Wald cần phải kiểm tra điều kiện:
0.1 < f < 0.9 và nf ≥ 10 và n 1 − f ≥ 10 (*)
Khi thỏa (*) thì phân phối mẫu của f xấp xỉ đường cong chuẩn.
C = 1,96(γ = 0,95); C = 2,58(γ = 0,99)

*Xác định cỡ mẫu : Để sai số ước lượng không vượt quá ε thì:
𝑓(1−𝑓) 𝐶 2
𝐶 ≤𝜀⇔ 𝑛≥ × 𝑓 1 − 𝑓 (1)
𝑛 𝜀
Nếu chưa có mẫu khảo sát thăm dò (chưa biết f) thì:
2 2
2
1 1 1 1 1
𝑓(1 − 𝑓) = (−𝑓 − 𝑓) = − 𝑓 − − = − 𝑓− ≤
2 4 4 2 4
2
𝐶
(1) ⇔ 𝑛 ≥ (2)
2𝜀
Chú ý: Nếu điều kiện (*) không thỏa mãn thì các phương pháp khác, chẳng hạn
như phương pháp Clopper-Pearson hoặc phương pháp Wilson sẽ được sử dụng.
Ví dụ 7. Một khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc.
a. Nếu muốn sai số ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn không quá
0,01 ở độ tin cậy 95% thì cần khảo sát tối thiểu bao nhiêu viên thuốc?
b. Khảo sát ngẫu nhiên 200 viên trong lô thuốc, kết quả có 25 viên không đạt tiêu
chuẩn.
• Ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn của lô thuốc.
• Nếu muốn sai số ước lượng không quá 0,01 ở độ tin cậy 95% thì phải khảo sát
tối thiểu bao nhiêu viên thuốc?
Giải
𝐶 2
a. 𝑛≥ 2𝜖
=
Vậy 𝑛𝑚𝑖𝑛 =
25
b. 𝑓 = 200 = 0.125
Kiểm tra điều kiện 0.1 < f < 0.9 và 𝑛𝑓 ≥ 10 và 𝑛 1 − 𝑓 ≥ 10 thỏa mãn
𝑓(1−𝑓)
• 𝑝=𝑓±𝐶 =
𝑛
𝐶 2
• 𝑛≥ 𝜀
×𝑓 1−𝑓 =
Vậy 𝑛𝑚𝑖𝑛 =
Bài tập. Một lô thuốc có rất nhiều hộp thuốc của xí nghiệp A. Lấy ngẫu nhiên 225 hộp đem
cân, kết quả như sau:
XÁC SUẤT THỐNG KÊ Y DƯỢC
BIOSTATISTICS
CHUYÊN ĐỀ: KIỂM ĐỊNH GIẢ THUYẾT – PHÂN TÍCH
TƯƠNG QUAN – HỒI QUY
TS. ĐÀO HỒNG NAM

Fanpage: facebook.com/xstkyd
REFERENCES
1. Jay S. Kim, Ronald J. Dailey (2008), Biostatistics for Oral Healthcare,
published 2008 by Blackwell Munksgaard, a Blackwell Publishing
Company. USA.
2. Wayne W. Daniel (2009), Biostatistics: a foundation for analysis
in the health sciences. John Wiley & Sons, Inc. USA.
3. James E. De Muth (2014). Basic statistics and pharmaceutical
statistical applications. Taylor & Francis Group, LLC. USA.
4. Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.
5. Philip Rowe. Essential Statistics for the Pharmaceutical Sciences.
John Wiley & Sons, Ltd. UK.
MỞ ĐẦU
Suy luận thống kê là một quá trình tìm kiếm các kết luận liên quan đến một tổng
thể (dân số) dựa trên thông tin hạn chế từ một mẫu được lấy từ tổng thể mà
chúng ta quan tâm. Có nhiều cách tiếp cận khác nhau để đưa ra quyết định về
dân số. Một trong những cách tiếp cận là kiểm định giả thuyết (KĐGT), có
nhiều ứng dụng trong y sinh và khoa học sức khỏe, cũng như các ngành khác.
KĐGT có thể được áp dụng để giải quyết các phỏng đoán như sau:
• Bệnh nhân được điều trị bằng nifedipine có xu hướng phì đại lợi (gingival
enlargement).
• Tỷ lệ sống sót sau 5 năm của bệnh ung thư miệng và họng ở bệnh nhân da
trắng cao hơn bệnh nhân da đen.
• Thuốc tẩy có hiệu quả hơn nhiều so với xà phòng rửa bát trong việc loại bỏ
các vi sinh vật như salmonella, pseudomonas, staphylococcus và candida.
• Điều trị bằng thuốc X làm thay đổi lượng cholesterol.
• Phụ nữ dùng thuốc ngừa thai có liên quan đến bệnh tim mạch
Mục đích của kiểm định giả thuyết là để hỗ trợ nhà nghiên cứu hoặc nhà quản lý
đưa ra kết luận liên quan đến một quần thể bằng cách kiểm định một hoặc một số
mẫu từ quần thể đó.

ĐỊNH NGHĨA: Một giả thuyết là một tuyên bố về một hoặc nhiều quần thể.

Giả thuyết thường liên quan đến các tham số của quần thể mà tuyên bố được đưa
ra. Một nhà quản lý bệnh viện có thể đưa ra giả thuyết rằng thời gian lưu trú trung
bình của những bệnh nhân nhập viện là 5 ngày; một y tá sức khỏe cộng đồng có
thể đưa ra giả thuyết rằng một chương trình giáo dục cụ thể sẽ giúp cải thiện giao
tiếp giữa y tá và bệnh nhân; bác sĩ có thể đưa ra giả thuyết rằng một loại thuốc
nhất định sẽ có hiệu quả trong 90% các trường hợp mà nó được sử dụng. Bằng
cách kiểm định giả thuyết, người ta xác định xem liệu các tuyên bố đó có tương
thích với dữ liệu có sẵn hay không.

ĐỊNH NGHĨA: Giả thuyết thống kê là giả thuyết về tham số, về luật phân phối
hoặc tính chất của biến ngẫu nhiên mà chúng có thể được đánh giá bằng các kỹ
thuật thống kê thích hợp.
Các bước kiểm định giả thuyết
1. Dữ liệu. Bản chất của dữ liệu tạo cơ sở cho các thủ tục KĐ phải được hiểu rõ,
vì điều này xác định KĐ cụ thể sẽ được sử dụng. Dữ liệu bao gồm số đếm hoặc số
đo, phải được xác định.
2. Các giả định. Các giả định thông thường là: PPC của DL, sự đồng nhất của
các phương sai và tính độc lập của các mẫu.

3. Các giả thuyết KĐ


H0: GT vô hiệu, là GT được kiểm định.
HA : GT thay thế khi H0 bị bác bỏ, là một tuyên bố về những gì NNC tin là đúng.

Trong quá trình KĐ, H0 hoặc bị bác bỏ hoặc không bị bác bỏ (chấp nhận).
Nếu H0 không bị bác bỏ, thì có thể nói rằng DL không cung cấp đủ bằng chứng để
từ chối. Ngược lại, nếu H0 bị bác bỏ thì có thể nói rằng DL hiện tại không tương
thích với H0, nhưng hỗ trợ cho GT khác: HA.
Thông thường HA và giả thuyết nghiên cứu là giống nhau, và trên thực tế, hai thuật
ngữ này được sử dụng thay thế cho nhau.
Các quy tắc để nêu giả thuyết thống kê
Tùy theo bản chất của DL, mục đích mong muốn của NNC mà có thể đặt ra các
GT khác nhau.
Ví dụ, Giả thuyết là H0:  = 50; HA:  ≠ 50.
Giả sử chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số lớn hơn 50
hay không. Các giả thuyết là: H0:  ≤ 50; HA:  > 50.
Nếu chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số nhỏ hơn 50
hay không, các giả thuyết là H0:  ≥ 50; HA:  <50.

4. Lựa chọn phép KĐ


Tùy theo bản chất của dữ liệu, các giả định, các phân phối mà dữ liệu tuân theo,
NNC sẽ lựa chọn một trong các phép kiểm phù hợp như: Z, T, F, 2, …

Công thức chung cho một phép kiểm thống kê là:


5. Quy tắc quyết định.
Các giá trị của KĐ tạo thành vùng bác bỏ là những giá trị ít có khả năng xảy ra
nếu H0 là đúng, trong khi các giá trị tạo nên vùng chấp nhận có nhiều khả năng
xảy ra nếu H0 là đúng. Quy tắc quyết định là bác bỏ giả thuyết H0 nếu giá trị của
KĐ là một trong các giá trị trong vùng bác bỏ và ngược lại. Quy tắc này dựa vào
mức ý nghĩa alpha ()
Thuật ngữ mức ý nghĩa phản ánh thực tế là
các kiểm định giả thuyết đôi khi được gọi là
kiểm định ý nghĩa và giá trị tính toán của
KĐ nằm trong vùng bác bỏ được cho là sự
khác biệt có ý nghĩa.
Ngoài ra, trong nghiên cứu, NNC thường sử
dụng p value để quyết định theo quy tắc:
Nếu p < 0,05 thì bác bỏ H0. (GT không phù
hợp với dữ liệu) và ngược lại.

P value là XS thu thập được bộ DL như đã thực hiện với điều kiện H0 là
đúng. P value cũng là giá trị  nhỏ nhất để có thể bác bỏ H0.
Các loại sai lầm trong KĐGT
Sai lầm mắc phải khi H0 đúng bị bác bỏ được gọi là sai lầm loại I (ký hiệu là α). Sai
lầm loại II (ký hiệu là β) là sai lầm mắc phải khi một giả thuyết H0 không bị bác bỏ
nếu nó sai. Nói chung, chúng ta không kiểm soát β, mặc dù chúng ta biết rằng trong
hầu hết các tình huống thực tế, nó lớn hơn α.

6. Tính toán giá trị KĐ. Từ dữ liệu có trong mẫu, chúng ta tính toán giá trị của
KĐ và so sánh nó với các vùng từ chối và không từ chối đã được chỉ định.
7. Quyết định. Quyết định bao gồm việc bác bỏ hoặc không bác bỏ giả thuyết vô
hiệu H0. Nó bị từ chối nếu giá trị được tính toán của KĐ nằm trong vùng bác bỏ và
ngược lại.
8. Kết luận. Nếu H0 bị bác bỏ, ta kết luận rằng HA là đúng. Nếu H0 không bị bác
bỏ, thì kết luận rằng H0 có thể đúng.
Evaluate Review State Select test
data assumptions hypotheses statistics

Determine
Caculate test State distribution
statistics decision rule of test
statistics
Ví dụ 1. Huyết áp tâm thu của 100 người khỏe 98 87 101 92 110
mạnh: 119 80 82 105 96
95 người (95%) có h/a từ 80-120 mmHg 81 81 88 115 94
 có 5 người có h/a bất thường, nếu coi 5 người 115 98 96 116 114
82 116 91 107 81
này có bệnh thì sai sót α= 5% (sai lầm I) 90 84 105 89 102
Ngược lại, trong 100 người có h/a 80-120 mmHg, 81 96 110 103 101
có thể có 6 người đã có bệnh nhưng chẩn đoán 87 93 94 96 102
không bệnh thì sai sót β = 6% (sai lầm II) 119 83 96 84 103
106 100 99 84 119
Ví dụ 2. NC về hiệu quả hạ huyết áp bằng thuốc A
111 92 100 101 90
trên 2 nhóm: 96 102 92 107 97
- Nhóm 1: 83 BN được uống thuốc A 102 112 86 116 80
- Nhóm 2: 77 BN được uống placebo. Theo dõi 89 80 106 114 88
sau 3-6 tháng, đánh giá kết quả bằng các test TK 95 91 110 84 92
108 100 110 97 93
xem thuốc A có hạ được h/a.
88 90 112 98 113
Ho: Thuốc A không có tác dụng hạ h/a. 93 89 109 88 103
Có 4 tình huống xảy ra như sau: 94 96 98 88 95
(1) Ho đúng nhưng bác bỏ Ho: 60 60 130 140 150
(2) Ho đúng và không bác bỏ Ho
(3) Ho sai và bác bỏ Ho
(4) Ho sai nhưng không bác bỏ Ho
PHÉP KIỂM CHI BÌNH PHƯƠNG (CHI SQUARED TEST)
Mục đích:
- Dùng để so sánh hai tỷ lệ, nhiều tỷ lệ
- Kiểm định sự độc lập hay phụ thuộc
- Kiểm định sự phù hợp của dữ liệu với một phân phối
1. Trường hợp số liệu trên một hàng
Ví dụ 1. Thống kê số người đến khám và điều trị RHM tại một số bệnh viện, kết
quả như sau:
Nam Nữ Tổng
580 420 N =1000
Hỏi: Tỷ lệ nam và nữ có như nhau không?
H0: Tỷ lệ nam và nữ như nhau
Nếu H0 đúng thì ta có bảng sau đây, gọi là bảng phân phối tần số LT
Nam (0,5) Nữ (0,5) Tổng r
(ni − ni ') 2
500 500 n = 1000 Q= i =1 ni '
𝑟
(𝑛𝑖 − 𝑛𝑖 ′)2 (580 − 500)2 (420 − 500)2
𝑄=෍ = +
𝑛𝑖 ′ 500 500
𝑖=1
=
Quy tắc quyết định như sau:
- Nếu Q  C thì chấp nhận H0
- Nếu Q > C thì bác bỏ H0.
C là giá trị ngưỡng trong PP Chi bình phương
𝐶 = 𝜒𝛼2 (𝑟 − 1)

α C KQ KL
0,05 3,841 Q>C Bác bỏ Ho
0,01 6,635 Q>C Bác bỏ Ho
0,001 10,828 Q>C Bác bỏ Ho
Chọn α = 0,001 thì C = 10,828  Q > C nên bác bỏ Ho
Kết luận:
Ví dụ 2. Nhóm máu của một mẫu gồm 500 người lấy từ dân số X như
sau:
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng
75 150 15 260 500

Hỏi: Nhóm máu của dân số X có phù hợp với quy luật trên đây không?

Giải: Đặt GT H0:


A (0,18) B (0,28) AB (0,05) O (0,49) Tổng
75 (90) 150 (140) 15 (25) 260 (245) 500
r
(ni − ni ') 2
Q= 
i =1 ni '
Lấy  = 0,05 ta có C = 2(3) = 7,815 < Q nên bác bỏ H0.
Kết luận:
2. Trường hợp số liệu trên bảng dự phòng rc (The Contingency Table)
Sự phân loại theo hai tiêu chí, của một tập hợp các đối tượng có thể được hiển thị
bằng một bảng 𝑟 × 𝑐 trong đó r và c đại diện cho các cấp độ khác nhau của tiêu chí
thứ nhất và thứ hai tương ứng. Chúng ta sẽ quan tâm đến việc kiểm định giả thuyết
H0 rằng trong quần thể, hai tiêu chí phân loại là độc lập. Một mẫu có kích thước n
sẽ được lấy từ tập hợp các đối tượng như Bảng dưới đây:

Ngưỡng C được tính theo phân phối Chi bình phương: 𝑪 = 𝝌𝟐𝜶(𝒓 − 𝟏) × (𝒄 − 𝟏)
a. Bảng 2x2

H0: A và B độc lập

Bệnh B
Yếu tố A Tổng
Có Không
Có a b 𝑎 + 𝑏 = 𝑚1
Không c d 𝑐 + 𝑑 = 𝑚0
Tổng 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 𝑛 =𝑎+𝑏+𝑐+𝑑

𝑎𝑑 − 𝑏𝑐 2 . 𝑛
𝑄=
𝑛1 . 𝑛0 . 𝑚1 . 𝑚0

Nếu 𝑄 > 𝐶 = 𝜒𝛼2 (1) thì bác bỏ 𝐻0


b. Bảng rxc: Tính TSLT 𝑛𝑖′ = t ≤ 10 10 < t ≤ 25 t > 25 Tổng
σ 𝑟𝑖 ×σ𝑐𝑖
𝑛
Nặng 1 42 230 273
Ví dụ 3: Một nghiên cứu về mức độ Vừa 6 114 347 467
bệnh và thời gian chủng ngừa có kết Nhẹ 23 301 510 834
quả như bảng bên. Kết luận? Tổng 30 457 1087 1574
Ho:
t ≤ 10 10 < t ≤ 25 t > 25 Tổng
Nặng 1 (5,203) 42 (79,263) 230 (188,534) 273
Vừa 6 (8,9) 114 (135,590) 347 (322,51) 467
Nhẹ 23 (15,897) 301 (242,147) 510 (575,956) 834
Tổng 30 457 1087 1574
27330/1574
r
(ni − ni ') 2
Q= 
i =1 ni '
Lấy  = 0,05 ⇒ C = 2(4) = 9,488. Vì Q > C nên bác bỏ
H0.
Kết luận:
Ví dụ 4. Quan sát 1500 người về nhóm máu và mức độ bị bệnh X (số liệu như trong
bảng). Có sự phụ thuộc giữa nhóm máu và mức độ bệnh X không?
A B AB O Tổng
Không có 543 211 90 476 1320
Nhẹ 44 22 8 31 105
Nặng 28 9 7 31 75
Tổng 615 242 105 538 1500
Giải: GT H0:
A B AB O Tổng
Không có 543(541,2) 211(212,96) 90 (92,4) 476 (473,44) 1320
Nhẹ 44 (43,05) 22 (16,94) 8 (7,35) 31 (37,66) 105
Nặng 28 (30,75) 9 (12,1) 7 (5,25) 31 (26,9) 75
Tổng 615 242 105 538 1500
r
(ni − ni ') 2 Lấy  = 0,05 ta có C = 2 (6) = 12,592
Q= 
i =1 ni ' Vì Q < C nên chấp nhận H0.
Kết luận:
Ví dụ 5. Sau khi phẫu thuật tại bệnh viện, bệnh nhân được chuyên gia
dinh dưỡng hỗ trợ dinh dưỡng tại nhà như một phần của quá trình theo
dõi. Bảng dưới cho thấy tình trạng dinh dưỡng được đánh giá ba tháng
sau khi xuất viện. Việc cung cấp hỗ trợ ăn kiêng tại nhà có liên quan đến
việc cải thiện tình trạng dinh dưỡng 3 tháng sau khi xuất viện không?

α = 0.05  C = 7.815

𝐻0: Việc cung cấp hỗ trợ ăn kiêng tại nhà không liên quan đến việc cải
thiện tình trạng dinh dưỡng 3 tháng sau khi xuất viện.
Vì Q > C nên bác bỏ 𝐻0.
Kết luận:
Ví dụ 6. Dịch vụ Y tế Công cộng Hoa Kỳ và Trung tâm Kiểm soát và Phòng ngừa
Dịch bệnh khuyến cáo rằng tất cả phụ nữ trong độ tuổi sinh đẻ nên tiêu thụ 400 mg
axit folic mỗi ngày để giảm nguy cơ mang thai bị ảnh hưởng bởi khuyết tật ống
thần kinh như tật nứt đốt sống hoặc dị tật não. Trong một nghiên cứu của
Stepanuk et al. (A-3), 693 phụ nữ mang thai đã gọi cho một dịch vụ thông tin về dị
tật về việc họ sử dụng bổ sung axit folic. Các nhà nghiên cứu muốn xác định xem
việc sử dụng lại axit folic và chủng tộc có liên quan hay không. Dữ liệu như trong
Bảng:
H0:

247.8585 311.1415 559


24.83019 31.16981 56
9.311321 11.68868 21
282 354 636

Chọn  = 0,05 thì C = 2 (2) = 5.991


Q > C, bác bỏ H0.

Kết luận:
Chú ý: Phép kiểm chi bình phương chỉ có hiệu lực tốt khi tần số lý thuyết 𝑛𝑖′ ≥ 5.
Nếu vi phạm điều này cần thiết phải sử dụng các phép hiệu chỉnh hoặc phép kiểm
chính xác Fisher.
❖ Hiệu chỉnh liên tục Yates(1934): sử dụng khi 2 ≤ 𝑛𝑖′ < 5
𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2
𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
❖ Phép kiểm chính xác Fisher (Fisher’s exact test): Sử dụng khi 𝑛𝑖′ < 2
. dụ 7. Số trẻ em từ 13–14 tuổi tiêu thụ trái cây và rau quả đáp ứng các khuyến

nghị, theo giới tính. Đặt GT 𝐻0:

𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2 2
𝑄= = 2,539 < 𝐶 = 𝜒0,05 1 = 3,841. Chấp nhậnH0.
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
Kết luận:
Ví dụ 8. Dùng thuốc X điều trị cho 21 bệnh nhân bị bệnh A, thấy khỏi bệnh 4
người. Dùng thuốc Y điều trị cho 19 bệnh nhân bị bệnh A, thấy khỏi bệnh 1
người. Kết luận?
H0:
Thuốc Khỏi bệnh Không khỏi Tổng Thuốc Khỏi bệnh Không khỏi Tổng
X 4 17 21 X 2,625 18,375 21
Y 1 18 19 Y 2,375 16,625 19
Tổng 5 35 40 Tổng 5 35 40

𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2
𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)

2
Chọn 𝛼 = 0.05 ⇒ 𝐶 = 𝜒0.05 1 = 3.841.
Vì Q < C nên không bác bỏ 𝐻0
Kết luận:
PHÂN BIỆT CÁC THAM SỐ MẪU VÀ DÂN SỐ (QUẦN THỂ)
SO SÁNH HAI TRUNG BÌNH (Two Sample Means Comparisons)
1. So sánh trung bình thực nghiệm và trung bình lý thuyết (0)
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
a. Khi mẫu rút từ dân số có PPC và phương sai 2 đã biết
(nếu 𝒏 ≥ 30 thì 2 = s2) α 0.05 0.01
𝑋 − 𝜇0
𝑍= ~𝑁(0; 1) C 1,96 2,58
𝜎/ 𝑛
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
b. Khi mẫu rút từ dân số có PPC và phương sai 2
chưa biết (n < 30)
𝑋 − 𝜇0
𝑇= ~𝑡𝛼 𝑛 − 1
𝑠/ 𝑛

Quy tắc quyết định


Nếu |T| > C = 𝑡𝛼 𝑛 − 1 thì bác bỏ H0.
Ví dụ: Nếu 𝒏 = 𝟐𝟕
• 𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 26 = 2.056
• 𝛼 = 0.01 ⇒ 𝐶 = 𝑡0.01 26 = 2.779
• 𝛼 = 0.001 ⇒ 𝐶 = 𝑡0.001 26 =3.707
Ví dụ 1. Mức trung bình của prothrombin (một loại protein có trong huyết
tương được chuyển thành thrombin hoạt động trong quá trình đông máu)
trong dân số bình thường là 20 mg/100 ml huyết tương và độ lệch chuẩn
là 4 mg/100 ml. Một mẫu gồm 40 bệnh nhân thiếu vitamin K có mức
prothrombin trung bình là 18,50 mg/100 ml. Có thể kết luận rằng giá trị
trung bình của bệnh nhân thiếu vitamin K giống với mức trung bình của
dân số bình thường không?
𝐻0 : 𝜇 = 20; 𝐻1: 𝜇 ≠ 20
𝑥 − 𝜇0
𝑧= =
𝜎/ 𝑛
𝛼 = 0.05 ⇒ 𝑍 > 𝐶 = 1.96. Bác bỏ H0.
Kết luận:
Ví dụ 2. Nakamura và cộng sự đã nghiên cứu các đối tượng bị rách dây chằng chéo giữa
(MCL) và dây chằng chéo trước (ACL). 17 bệnh nhân liên tiếp bị kết hợp ACL cấp tính
và chấn thương MCL cấp độ III đã được điều trị bởi cùng một bác sĩ tại trung tâm
nghiên cứu. Khoảng thời gian (ngày) từ lúc xảy ra chấn thương và lần chụp cộng hưởng
từ (MRI) đầu tiên được thể hiện trong Bảng. NNC muốn biết số ngày trung bình từ lúc
chấn thương đến khi chụp MRI đầu tiên có phải là 15 ngày hay không?

𝐻0 : 𝜇 = 15; 𝐻1: 𝜇 ≠15


𝑥 − 𝜇0
𝑡= =
𝑠/ 𝑛
𝛼 = 0.05 ⇒ 𝑡 < 𝐶 = 𝑡0.05 16 = 2.119. Không bác bỏ H0.
Kết luận:
Ví dụ 3. Một quy trình chiết xuất dược liệu cho biết 1kg dược liệu chiết xuất được
trung bình 34g cao, độ lệch chuẩn 0,75g. Thay đổi một chi tiết của quy trình và
sản xuất thử 10 lần tính được trung bình là 34,35 g cao/1kg dược liệu. Kết luận?
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
𝑋 − 𝜇0
𝑍= × 𝑛=
𝜎
Lấy  = 0,05  C = 1,96. Vì |Z| < C nên chấp nhận H0
Kết luận:
Ví dụ 4. Một quy trình chiết xuất dược liệu cho biết 1kg dược liệu chiết xuất được
trung bình 34g cao. Thay đổi một chi tiết của quy trình và sản xuất thử 10 lần có
số liệu như sau: 34,3; 34,6; 34; 34,85; 33,6; 34,2; 34,1; 33,4; 34,1; 36,4. Kết luận?
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
𝑋 − 𝜇0
𝑇= × 𝑛=
𝑠
Lấy  = 0,05  C = t0,05(9) = 2,262  |T| < C nên chấp nhận H0
Kết luận:
2. So sánh 2 trung bình thực nghiệm độc lập
Mẫu 1: Cỡ mẫu 𝑛1 rút từ dân số 𝑋1 ~𝑁 𝜇1; 𝜎12
Mẫu 1: Cỡ mẫu 𝑛2 rút từ dân số 𝑋2 ~𝑁 𝜇2 ; 𝜎22
Giả thuyết: 𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2
a. Nếu (12, 22) đã biết
𝑋1 − 𝑋2
𝑍= ~𝑁(0; 1)
𝜎12 𝜎22
+
𝑛1 𝑛2
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
Ví dụ 5. Các nhà nghiên cứu muốn biết liệu dữ liệu họ thu thập có cung cấp đủ bằng
chứng để chỉ ra sự khác biệt về nồng độ axit uric huyết thanh trung bình giữa người
bình thường và người mắc hội chứng Down hay không. Dữ liệu bao gồm các chỉ số
axit uric huyết thanh trên 12 trẻ em mắc hội chứng Down và 15 trẻ bình thường. Dữ
liệu tạo thành hai mẫu ngẫu nhiên độc lập, mỗi mẫu được lấy từ một quần thể phân
bố chuẩn với giá trị trung bình (mg/100ml) và phương sai (mg/100ml)2 tương ứng
là: 4,5 và 1 cho dân số hội chứng Down; 3,4 và 1,5 cho dân số bình thường.
𝐻0 : 𝜇1 = 𝜇2 ; 𝐻1: 𝜇1 ≠ 𝜇2
𝑋1 − 𝑋2
𝑍= =
𝜎12 𝜎22
𝑛1 + 𝑛2
Vì |Z| > C = 1.96 nên bác bỏ H0. (𝛼 =0.05)
Kết luận:
b. Nếu phương sai 12, 22 chưa biết (n1< 30, n2 < 30)
* so sánh hai phương sai 𝐻0: 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22 . Giả sử 𝑠12 > 𝑠22
𝑠12
F = 2 ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑛1 − 1; 𝑛2 − 1)
𝑠2
Nếu 𝐹 > 𝐶 = 𝐹𝛼 (𝑛1 − 1; 𝑛2 − 1) thì bác bỏ 𝐻0

❖ Nếu 12 = 22 ❖ Nếu 12 ≠ 22


2 2
𝑛 1 − 1 𝑠1 + 𝑛2 − 1 𝑠2 𝑥1 − 𝑥2
𝑠𝑝2 = 𝑡= ~𝑡𝛼 (𝑑𝑓)
𝑛1 + 𝑛2 − 2
𝑥ҧ1 − 𝑥ҧ2 𝑠12 𝑠22
𝑡=
1 1
~𝑡𝛼 (𝑑𝑓) 𝑛1 + 𝑛2
𝑠𝑝2 𝑛 + 𝑛
1 2 𝑠𝑒12 + 𝑠𝑒22 2
Với 𝑑𝑓 = 𝑛1 + 𝑛2 − 2 𝑑𝑓 =
𝑠𝑒14 𝑠𝑒24
+
𝑛1 − 1 𝑛2 − 1
𝑠12 𝑠22
Với 𝑠𝑒12 = 𝑛1
; 𝑠𝑒2
2
= 𝑛2

Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑑𝑓) thì bác bỏ H0.
Ví dụ 6. Khảo sát mức tăng cân (g) được đo trong khoảng thời gian Breast 1.6
Bottle
0.6
từ 4 đến 12 tuần ở hai nhóm trẻ sơ sinh tại một vùng dân cư. Một 1.5 0.8
nhóm được bú sữa mẹ và nhóm còn lại bú bình. Kết quả được thể 0.6 0.75
hiện trong Bảng. Có sự khác biệt về tốc độ tăng trưởng giữa hai 1 0.7
nhóm trẻ sơ sinh không? 1.1 1
1.7 1.2
• So sánh hai phương sai:
0.9
𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1: 𝜎12 ≠ 𝜎22 1.5
2
𝑠1 1.4
𝐹= 2= 1.6
𝑠2
Breast Bottle
F < C = F0.05(9;5) = 4.772, không bác bỏ H0. Mean 1.29 0.842
• So sánh hai trung bình: H0: µ1 = µ2 Variance 0.134 0.048
2 2
2
𝑛 1 − 1 𝑠1 + 𝑛2 − 1 𝑠2
Observations 10 6
𝑠𝑝 = = Pooled Variance 0.104
𝑛1 + 𝑛2 − 2 df 14
𝑥ҧ1 − 𝑥ҧ2 t Stat 2.697
𝑡= = P(T<=t) one-tail 0.009
1 1 t Critical one-tail 1.761
𝑠𝑝2 𝑛 + 𝑛 P(T<=t) two-tail 0.017
1 2
t Critical two-tail 2.145
|t| > C = t0.05(14) = 2.145, bác bỏ H0.
Kết luận:
Ví dụ 7. Dernellis và Panaretou đã khảo sát chỉ số độ cứng động mạch chủ trên 15 bệnh
nhân bị tăng huyết áp (nhóm 1) và 30 người khỏe mạnh (nhóm 2). Các phép đo của biến
này được tính toán từ đường kính động mạch chủ được đánh giá bằng siêu âm tim và
huyết áp. Các thông số về chỉ số độ cứng trung bình của động mạch chủ và độ lệch
chuẩn tương ứng của 2 nhóm là: Nhóm 1: 19.16 và 5.29; nhóm 2: 9.53 và 2.69. Các
NNC muốn xác định xem có sự khác nhau về chỉ số độ cứng trung bình của động mạch
chủ trong 2 dân số lấy mẫu bởi 2 nhóm trên hay không.
• So sánh hai phương sai: 𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22
𝑠12
𝐹= 2=
𝑠2
F > C = F0.05(14;29) = 2.05, bác bỏ H0.
• So sánh hai trung bình: H0: µ1 = µ2
2 2 2 2 2
𝑠1 𝑠 2 𝑠𝑒1 + 𝑠𝑒2
𝑠𝑒12 = = 1.865; 𝑠𝑒22 = = 0.241; 𝑑𝑓 = 4 4 =
𝑛1 𝑛2 𝑠𝑒1 𝑠𝑒2
+
𝑛1 − 1 𝑛2 − 1
𝑥1 − 𝑥2
𝑡= =
2 2
𝑠𝑒1 + 𝑠𝑒2
Vì |t| > C = t0.05(16) = 2.119, bác bỏ H0.
Kết luận:
3. So sánh 2 trung bình ghép cặp (PAIRED COMPARISONS)
Một phương pháp thường được sử dụng để đánh giá hiệu quả của một quy trình
điều trị hoặc thử nghiệm là một phương pháp sử dụng các quan sát liên quan thu
được từ các mẫu không độc lập. Một phép kiểm định giả thuyết dựa trên loại dữ
liệu này được gọi là kiểm định so sánh theo cặp.
Ví dụ, NNC muốn so sánh hai loại kem chống nắng. Có ít nhất hai cách để thực
hiện thử nghiệm. Một phương pháp sẽ là chọn một mẫu ngẫu nhiên đối tượng
nhận kem chống nắng A và một mẫu ngẫu nhiên đối tượng nhận kem chống nắng
B. NNC đưa đối tượng ra nắng trong một khoảng thời gian xác định, sau đó đo
lượng ánh nắng mặt trời. Giả sử chúng ta sử dụng phương pháp này, nhưng vô
tình, hầu hết các đối tượng được sử dụng kem chống nắng A có nước da sẫm màu
và ít nhạy cảm hơn với ánh sáng mặt trời. Giả sử rằng sau khi hoàn thành thí
nghiệm, chúng ta thấy rằng các đối tượng sử dụng kem chống nắng A ít bị tổn
thương do ánh nắng mặt trời hơn. Chúng ta sẽ không biết liệu họ có ít bị tổn
thương bởi ánh nắng mặt trời hơn vì kem chống nắng A có khả năng bảo vệ tốt
hơn kem chống nắng B hay vì đối tượng vốn dĩ ít nhạy cảm hơn với ánh nắng mặt
trời.
Cách tốt hơn để thiết kế thử nghiệm là chỉ chọn một mẫu đối tượng ngẫu nhiên và
để mỗi thành viên của mẫu nhận được cả hai loại kem chống nắng.
Ví dụ, chúng ta có thể chỉ định ngẫu nhiên các loại kem chống nắng ở bên trái hoặc
bên phải của lưng mỗi đối tượng với mỗi đối tượng nhận được cả hai loại kem
chống nắng. Sau một khoảng thời gian nhất định tiếp xúc với ánh nắng mặt trời, đo
lượng ánh nắng mặt trời gây ra cho mỗi nửa lưng.
Nếu nửa mặt lưng tiếp nhận kem chống nắng A có xu hướng ít bị hư hại hơn, chúng
ta có thể tự tin gán kết quả đó cho kem chống nắng A, vì trong mỗi trường hợp, cả
hai loại kem chống nắng đều được áp dụng cho làn da có sắc tố như nhau.
Ví dụ: bạn có thể muốn biết chế độ ăn kiêng Time Point
có chỉ số đường huyết thấp có tác động có lợi Subject Baseline 4 weeks
đến mức đường huyết lúc đói hay không. Bạn 1 x1,0 x1,1
sẽ đo đường huyết lúc đói ở mỗi đối tượng 2 x2,0 x2,1
sau một đêm nhịn ăn, vào cùng thời điểm vào 3 x3,0 x3,1
buổi sáng; sau đó cung cấp cho họ chế độ ăn 4 x4,0 x4,1
kiêng có chỉ số đường huyết thấp trong bốn 5 x5,0 X5,1
tuần; và sau đó đo đường huyết lúc đói lần 6 X6,0 X6,1
thứ hai, cũng lúc đói và đồng thời vào buổi 7 X7,0 X7,1
sáng như lần đo đầu tiên. 8 X8,0 X8,1
9 X9,0 X9,1
10 X10,0 X10,1
Thay vì thực hiện phân tích với các quan sát riêng lẻ, chúng ta sử dụng 𝑑𝑖 , sự khác
biệt giữa các cặp quan sát, làm biến quan tâm. Khi n chênh lệch mẫu được tính từ n
cặp phép đo tạo thành một mẫu ngẫu nhiên từ một tập hợp chênh lệch được phân
phối chuẩn, phép kiểm để kiểm tra các giả thuyết về chênh lệch trung bình của tổng
thể là:
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
a. Nếu d2 đã biết (nếu n > = 30 thì d2 = sd2)
𝑑ҧ − 0
𝑍= ~𝑁(0; 1)
𝜎𝑑 / 𝑛
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
b. Nếu d2 chưa biết và n < 30
𝑑ҧ − 0
𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
𝑠𝑑 / 𝑛
Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑛 − 1) thì bác bỏ H0.
Ví dụ 8. Một nghiên cứu được thực hiện trên chuột để đánh giá tác dụng tăng lực
của thuốc A. 6 con chuột được cho chạy và ghi lại thời gian (từ khi bắt đầu chạy
cho đến khi kiệt sức) trước và sau khi uống thuốc A. Các kết quả sau:
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
Trước 34 46 30 24 40 44
𝑑 = 11; 𝑆𝑑 = 7.456 Sau 46 56 28 34 56 64
𝑑 d 12 10 -2 10 16 20
𝑡= 𝑛=
𝑠𝑑
Nếu  = 0.05 thì C = t0.05(5) = 2.571  |t| > C, bác bỏ Ho
Kết luận:
Ví dụ 9. Để kiểm nghiệm thuốc A người ta định phân chất
ID Trước Sau D
Cl2 trong nước tiểu trước và sau khi tiêm thuốc A. Kết
1 3.32 5.29 1.97
quả như sau (đơn vị: mEa/giờ). 2 2.32 8.96 6.64
Sự bài tiết chất 𝐶𝑙2 có ảnh hưởng bởi thuốc A không? 3 1.9 9.83 7.93
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0 4 4.73 5.91 1.18
𝑑 = 4.291; 𝑆𝑑 = 5.69; n = 10 5 4.64 0.59 -4.05
𝑑 6 1.74 7.42 5.68
𝑡= = 7 4.2 9 4.8
𝑠𝑑 / 𝑛 8 0.73 17.71 16.98
Nếu  = 0.05 thì C = t0.05(9) = 2.262  |t| > C, bác bỏ Ho 9 3.08 3.05 -0.03
Kết luận: 10 4.61 6.42 1.81
Ví dụ 10. Trong một nghiên cứu về giáo dục dinh dưỡng, 10 bệnh nhân mắc bệnh
tiểu đường đã được cung cấp chương trình giáo dục sức khỏe theo chương trình
về việc ăn uống lành mạnh. Bệnh nhân được kiểm tra kiến thức của họ trước và
sau khi hướng dẫn. Dữ liệu được hiển thị trong Bảng. Điểm kiến thức ăn uống
lành mạnh trước và sau khi hướng dẫn.
Chúng ta giả định theo H0 rằng nếu chương trình
giáo dục sức khỏe không có tác dụng, thì sự khác
biệt trung bình giữa điểm trước và điểm sau phải
bằng 0, nghĩa là, H0 : μd = 0
𝑑ҧ
𝑡= =
𝑠/ 𝑛
|t| > t0.05 (9) = 2.262). Bác bỏ H0

Kết luận:
PHÂN TÍCH PHƯƠNG SAI
(ANALYSIS OF VARIANCE - ANOVA)
1. PHÂN TÍCH PHƯƠNG SAI 1 YẾU TỐ
Phân tích phương sai (ANOVA) là một kỹ thuật tổng quát của kiểm định t. Điều này
tương đương với phép kiểm t không ghép đôi cho hơn hai nhóm. Giả thiết cơ bản là
các quan sát trong mỗi nhóm được rút ra từ cùng một quần thể. Do đó, kỳ vọng là
không có sự khác biệt giữa các trung bình của nhóm.
Ví dụ: Phân tích sự tăng trưởng ở bốn nhóm chuột được cho ăn khẩu phần có 0%,
0,5%, 1% hoặc 2% axit linoleic (thứ tự tự nhiên).
So sánh nồng độ hemoglobin ở các bà mẹ từ ba làng khác nhau (không theo thứ tự
tự nhiên).
Ngày nhập viện của trẻ nhỏ với ba chế độ ăn khác nhau sau khi đặt nội soi cắt dạ
dày (không thiết lập trật tự tự nhiên). Mục đích trong mỗi trường hợp là để kiểm tra
bằng chứng về sự khác biệt thực sự giữa các trung bình nhóm so với sự khác biệt có
thể phát sinh tình cờ do lỗi lấy mẫu.
Các giả định trong phân tích phương sai một yếu tố
1. Có ba hoặc nhiều nhóm quan sát được rút ra từ cùng một tổng thể
2. Sự phân bố của biến là PPC
3. Các mẫu là ngẫu nhiên và độc lập
4. Không có sự phù hợp giữa các mẫu
5. Sự khác biệt của các mẫu giống nhau

Các giả thuyết.


H0: tất cả trung bình dân số đều bằng nhau
HA: ít nhất một cặp trung bình không bằng nhau.
• Tính tổng bình phương độ lệch
2 2
𝑄𝑇 = σij 𝑋ij − 𝑁𝑋 : TBPĐL chung
2 2
𝑄𝑓 = σij 𝑛𝑗 𝑋𝑗 − 𝑁𝑋 : TBPĐL giữa các mức của yếu tố A
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓 : TBPĐL do ngẫu nhiên
𝑄𝑓 𝑄
• Tính các phương sai: 𝑆𝑓2 = 𝑐−1 ; 𝑆𝑟2 = 𝑁−𝑐
𝑟

𝑆𝑓2
• Tính 𝐹 = ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑐 − 1; 𝑁 − 𝑐)
𝑆𝑟2
Miền bác bỏ H0: F > C = F (c-1; N-c)
Bảng Anova
Ví dụ 1. Số lượng tiểu cầu giảm nhiều trong bệnh sốt xuất huyết (SXH), giảm
trung bình trong sốt dengue (SD) và giảm ít trong nhiễm siêu vi (NSV). Xét
nghiệm tiểu cầu cho 10 bệnh nhân mỗi nhóm có kết quả sau:
Hỏi: Có sự khác biệt về số lượng tiểu cầu (  1000mm ) trong 3 nhóm trên không?
SD SXH NSV 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
150 100 140 𝑋1 = 140; 𝑋2 = 80; 𝑋3 = 170
2
140 130 200 𝑁 = 130; σσ𝑋 = 3900; σσ𝑋 = 599600
2
170 80 210 𝑁𝑋 = 30.1302 = 507000
2
160 70 230 𝑄𝑇 = ෍ 𝑋ij2 − 𝑁𝑋
90 40 100 ij
240 30 120 =
2
2
100 120 220 𝑄𝑓 = ෍ 𝑛𝑗 𝑋𝑗 − 𝑁𝑋
140 130 160 ij
120 20 150 =
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓
90 80 170 =
𝑄𝑓 42000 𝑄𝑟 50600
𝑆𝑓2 = = = 21000; 𝑆𝑟2 = = = 1874,074
𝑐−1 2 𝑁−𝑐 27
𝑆𝑓2
𝐹= 2 =
𝑆𝑟
Lấy  = 0.05  C =F0.05(2;27) = 3.354
Vì F > C nên bác bỏ H0
Kết luận:
Bảng Anova

Nguồn biến động TBPĐL Độ tự do Phương sai F


Giữa các mức của A 42000 2 21000 11,205
Ngẫu nhiên 50600 27 1874,074

Source of Variation SS df MS F P-value F crit


Between Groups 42000 2 21000 11.206 0.0003 3.3541
Within Groups 50600 27 1874.1
Total 92600 29
Ví dụ 2. Trong một nghiên cứu về chế độ
nuôi dưỡng hậu phẫu sau khi đặt nội soi
cắt dạ dày ở trẻ em, thời gian nằm viện
(thời gian xuất viện) là biến số kết quả
được quan tâm. Ngày bắt đầu cho ăn sau
mổ qua ống thông dạ dày là biến số độc
lập. Kết quả cho 17 bệnh nhân trong 3
nhóm được thể hiện trong Bảng. Mặc dù
rõ ràng có một mức độ trùng lặp về thời
gian nằm viện giữa ba nhóm, các giá trị
trung bình cho thấy rằng việc áp dụng chế
độ nuôi dưỡng sớm hơn có liên quan đến
thời gian nằm viện ngắn hơn. Nếu chúng
ta giả định rằng thời gian lưu trú tuân theo
phân phối chuẩn, chúng ta có thể sử dụng
phân tích phương sai để kiểm tra sự khác
biệt có ý nghĩa thống kê giữa ba nhóm.
H0: 1= 2= 3

Kết luận:
Ví dụ 3: Có 4 loại thuốc gây mê A, B, C, D thử A B C D
nghiệm trên 4 lô chuột có cùng thể trạng. Kết quả
0,79 0,48 0,5 0,34
như bảng bên.
Tác dụng của 4 loại thuốc trên có như nhau 0,76 0,45 0,48 0,37
không? 0,74 0,49 0,49 0,39
0,75 0,44 0,51 0,38
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
0,76 0,47

Source of Variation SS df MS F P-value F crit


Between Groups 0.3842 3 0.1281 137.9 1E-10 3.3439
Within Groups 0.013 14 0.0009
Total 0.3972 17

Vì 𝐹 = 137.9 > 3.344 nên Bác bỏ H0


Kết luận:
Ví dụ 4. So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D. Mức độ giảm
đau thể hiện bằng điểm số, tối đa 100 điểm.
So sánh hiệu quả của 4 loại thuốc giảm đau.

A B C D
SUMMARY
82 80 77 65
89 70 69 75
Groups Count Sum Average
77 72 67 67 A 4 320 80
72 90 65 55 B 6 482 80.333
78 63 C 4 278 69.5
92 70 D 6 395 65.833

Source of Variation SS df MS F P-value F crit


Between Groups 864.583 3 288.194 5.232 0.0104 3.238
Within Groups 881.166 16 55.072
Total 1745.75 19
Ví dụ 5: Có 4 loại thuốc gây mê A, B, C, D thử nghiệm trên 4 lô chuột có cùng thể
trạng. Kết quả như sau:
Tác dụng của 4 loại thuốc trên có như nhau không?
A B C D
0,79 0,48 0,5 0,34
Groups Count Sum Average
0,76 0,45 0,48 0,37 A 5 3.8 0.76
B 4 1.86 0.465
0,74 0,49 0,49 0,39 C 4 1.98 0.495
0,75 0,44 0,51 0,38 D 5 1.95 0.39

0,76 0,47

Source of Variation SS df MS F P-value F crit


Between Groups 0.3842 3 0.1281 137.9 1E-10 3.3439
Within Groups 0.013 14 0.0009
Total 0.3972 17
KỸ THUẬT HẬU KIỂM (POST HOC TEST)
Khi việc phân tích phương sai dẫn đến việc bác bỏ giả thuyết H0: không có sự
khác biệt giữa các trung bình tổng thể, sẽ tồn tại ít nhất 1 cặp trung bình khác
nhau. Để xác định những cặp trung bình nào khác nhau cần phải sử dụng các kỹ
thuật hậu kiểm.
Ví dụ, có bốn phương pháp điều trị, chúng ta có thể muốn biết, sau khi bác bỏ thì
nên bác bỏ giả thuyết nào trong sáu giả thuyết riêng lẻ có thể có. Mặc dù xác suất
bác bỏ một giả thuyết rỗng thực sự cho toàn bộ thử nghiệm là nhỏ, nhưng xác
suất bác bỏ ít nhất một giả thuyết đúng khi một số cặp trung bình được kiểm tra
lớn hơn so với một số so sánh nhiều các thủ tục thường dùng trong thực tế. Có rất
nhiều tài liệu về điểm mạnh và điểm yếu của các kỹ thuật hậu kiểm khác nhau có
sẵn trong SPSS. Các thử nghiệm khác nhau trong ứng dụng của chúng tùy theo
kích thước của mẫu, số lượng nhóm, liệu các quan sát có khớp giữa các nhóm hay
không và liệu có một nhóm đối chứng để so sánh hay không.
Với giả định các phương sai bằng nhau, hai trong số các phép kiểm sau được sử
dụng phổ biến nhất là LSD và Tukey’s HSD. LSD thường được coi là quá nhạy –
nghĩa là có sự khác biệt đáng kể về mặt thống kê giữa hai nhóm trong khi thực tế
là không có. HSD đưa ra quan điểm thận trọng hơn và được nhiều người chấp
nhận. Nói chung, HSD là kỹ thuật hậu kiểm tốt nhất để lựa chọn với giả định
các phương sai bằng nhau. Nếu các phương sai không đồng nhất (‘không
bằng nhau’), Dunnett’s T3 là tốt cho các mẫu nhỏ và Dunnett’s C cho các
mẫu lớn.

Một quy trình so sánh nhiều lần do Tukey phát triển thường được sử dụng để kiểm
tra giả thuyết rỗng rằng tất cả các cặp trung bình có thể là như nhau khi tất cả các
mẫu đều có cùng kích thước.
Khi tất cả các mẫu không có cùng kích thước, thì không thể áp dụng thử nghiệm
HSD của Tukey. Tuy nhiên, bản thân Tukey và Kramer đã mở rộng quy trình
Tukey cho trường hợp kích thước mẫu khác nhau. Thủ tục của họ, đôi khi được
gọi là phương pháp Tukey-Kramer.
Example 2
in SPSS
To test Homogeneity of
variance, press the “Options"
button and choose the
following:

Select the variable “Days” in the left


pane and press the arrow to switch to
the independent List box. And select
the variable “Group” in the left pane
and press the arrow to switch to the
Factor box.
To compare groups, press the “Post Hoc" button and choose the following:

Press Continue and OK


II. Phân tích phương sai hai yếu tố
Giả sử có 2 yếu tố A (có h hàng) và B (có c cột) ảnh hưởng đến kết quả quan sát
H0A: Yếu tố A không ảnh hưởng đến kết quả quan sát
H0B : Yếu tố B không ảnh hưởng đến kết quả quan sát
• Tính trung bình từng cột và trung bình từng hàng
• Nhập toàn bộ bảng số liệu vào máy tính để tính 𝑁, 𝑋, ത σσ𝑋, σσ𝑋 2
• Tính tổng bình phương độ lệch:
𝑄𝑇 = σσ𝑋 2 − Nഥ X 2 ; Q A = cσ𝑋ത𝑖2 − 𝑁𝑋ത 2 ;
Q 𝐵 = ℎσ𝑋ത𝑗2 − 𝑁𝑋ത 2 ; 𝑄𝑟 = 𝑄𝑇 − (𝑄𝐴 + 𝑄𝐵 )
𝑄𝐴 𝑄𝐵 𝑄
• Tính phương sai: 𝑆𝐴2 = ; 𝑆𝐵2 = ; 𝑆𝑟2 = 𝑟 với 𝑘 = ℎ − 1 . (𝑐 − 1)
ℎ−1 𝑐−1 𝑘
2 2
𝑆𝐴 𝑆
• Tính F: 𝐹𝐴 = ~𝐹𝛼 ℎ − 1; 𝑘 ; 𝐹𝐵 = 𝐵2 ~𝐹𝛼 𝑐 − 1; 𝑘
𝑆𝑟2 𝑆𝑟
• Kết luận:
Nếu 𝐹𝐴 > 𝐹𝛼 ℎ − 1; 𝑘 thì bác bỏ H0A
Nếu 𝐹𝐵 > 𝐹𝛼 𝑐 − 1; 𝑘 thì bác bỏ H0B
Ví dụ 6. Đo hàm lượng chất X (g) của 12 người bệnh K đã được phân loại theo 4
mức độ của bệnh K (yếu tố B) và 3 môi trường làm việc (yếu tố A) của người
bệnh. Kết quả như bảng dưới đây. Xét sự ảnh hưởng của bệnh K và môi trường
làm việc đến hàm lượng chất X của người bệnh K ( = 0,01).

Trung bình hàng: 𝑋𝑖 = 19.5; 19; 20


Trung bình cột: 𝑋𝑗 = 24; 21; 18; 15
2
σσ𝑋𝑖𝑗 = 4710; 𝑋ത = 19.5; 𝑁 = 12; 𝑐 = 4; ℎ = 3;
2
𝑁𝑋 = 12.19, 52 = 4563
𝑄𝑇 = σσ𝑋 2 − Nഥ X2 =
Q A = cσ𝑋ത𝑖2 − 𝑁𝑋ത 2 =
Q 𝐵 = ℎσ𝑋ത𝑗2 − 𝑁𝑋ത 2 =
𝑄𝑟 = 𝑄𝑇 − 𝑄𝐴 + 𝑄𝐵 =
2 𝑄𝐴 2 2 𝑄𝐵 135 2
𝑄𝑟 10
𝑆𝐴 = = = 1; 𝑆𝐵 = = = 45; 𝑆𝑟 = =
ℎ2 − 1 2 𝑐−1 3 𝑘 6
𝑆
𝐹𝐴 = 𝐴2 = < 𝐹0,05 (2; 6) = 5,143
𝑆𝑟
Chấp nhận H0A 
𝑆𝐵2
𝐹𝐵 = 2 = < 𝐹0,05 (3; 6) = 4,757
𝑆𝑟
Bác bỏ H0B 

Source of Variation SS df MS F P-value F crit


Rows 2 2 1 0.6 0.579 5.143
Columns 135 3 45 27 0.001 4.757
Error 10 6 1.667
HỒI QUY VÀ TƯƠNG QUAN TUYẾN TÍNH
SIMPLE LINEAR REGRESSION AND CORRELATION

Phân tích hồi quy hữu ích trong việc đánh giá các dạng cụ thể của mối quan hệ
giữa các biến và mục tiêu cuối cùng khi phương pháp phân tích này được sử
dụng thường là để dự đoán hoặc ước tính giá trị của một biến tương ứng với một
giá trị nhất định của một biến khác. Các ý tưởng về hồi quy lần đầu tiên được
làm sáng tỏ bởi nhà khoa học người Anh Sir Francis Galton (1822–1911) trong
các báo cáo nghiên cứu của ông về tính di truyền — đầu tiên là ở đậu ngọt và sau
đó là ở tầm vóc con người. Ông mô tả xu hướng của con cái trưởng thành, có bố
mẹ thấp hoặc cao, quay ngược lại với chiều cao trung bình của dân số chung.
Đầu tiên, ông sử dụng từ đảo ngược, và sau đó là hồi quy, để chỉ hiện tượng này.
Mặt khác, phân tích tương quan quan tâm đến việc đo lường mức độ mạnh mẽ
của mối quan hệ giữa các biến. Khi chúng ta tính toán các thước đo về mối tương
quan từ một tập hợp dữ liệu, chúng ta quan tâm đến mức độ tương quan giữa các
biến. Một lần nữa, các khái niệm và thuật ngữ của phân tích tương quan bắt
nguồn từ Galton, người đầu tiên sử dụng từ tương quan vào năm 1888
1. Mô hình hồi quy tuyến tính

Phân tích HQTT là tìm sự liên hệ giữa 2 biến số liên tục X và Y có dạng
Y = aX + b và từ phương trình này ta có thể dự đoán được biến Y.
a và b gọi chung là hệ số hồi quy và được ước lượng theo phương pháp
bình phương bé nhất
a: hệ số góc hoặc độ dốc
b: điểm cắt trên trục tung của đường thẳng Y = aX + b
X: biến độc lập
Y: biến phụ thuộc
Các giả định của mô hình hồi quy tuyến tính
1. Giá trị của biến độc lập X được cho là “cố định”. Điều này có nghĩa là các giá
trị của X được người điều tra chọn trước để khi thu thập dữ liệu, chúng không
được phép thay đổi so với các giá trị đã chọn trước này.
2. Biến X được đo không sai số. Vì không có quy trình đo nào là hoàn hảo, điều
này có nghĩa là độ lớn của sai số đo trong X là không đáng kể.
3. Với mỗi giá trị của X có một tập con của các giá trị Y. Để các quy trình suy
luận thông thường về ước lượng và kiểm tra giả thuyết có hiệu lực, các quần thể
con này phải được phân phối chuẩn.
4. Phương sai của các quần thể con của Y đều bằng nhau và được ký hiệu là σ2.
5. Các giá trị trung bình của quần thể con Y đều nằm trên cùng một đường thẳng.
Đây được gọi là giả định về độ tuyến tính. Giả định này có thể được biểu thị một
cách tượng trưng là y = β0 + β1x + ϵ
6. Các giá trị Y là độc lập về mặt thống kê. Nói cách khác, khi vẽ mẫu, giả định
rằng các giá trị của Y được chọn tại một giá trị của X không phụ thuộc vào các
giá trị của Y được chọn ở một giá trị khác của X.
Chú ý: Một số giáo trình của VN thường
viết PTHQ là 𝒀 = 𝒂𝒙 + 𝒃.
Trong khi các giáo trình nước ngoài thường
viết PTHQ là 𝒀 = 𝒂 + 𝒃𝒙
Mục đích của phương pháp bình phương bé
nhất là xác định a và b sao cho d 2 nhỏ nhất.

𝑎 ෍ 𝑥 2 + 𝑏 ෍ 𝑥 = ෍ 𝑥𝑦
𝑅. 𝑆𝑦
𝑎=
⇔൞ 𝑆𝑥
𝑎 ෍ 𝑥 + 𝑛𝑏 = ෍ 𝑦 𝑏 = 𝑦lj − 𝑎𝑥lj
Ví dụ 1: Cân nặng (Y) của 6 trẻ từ 1 đến 6 tuổi (X) như sau:

X 1 2 3 4 5 6
Y 10 12 14 16 18 20

Nối các cặp (X, Y) này sẽ tạo thành một đường thẳng: Y =
Ví dụ 2: Tuổi (X) và cân nặng (Y) của 6 X 1 2 3 4 5 6
trẻ em khác như sau: Y 11 11 14 16 18 20
Ví dụ 3. Nghiên cứu về sự thải trừ thuốc sau khi uống một thời gian. Gọi
X(giờ) là thời gian khi uống thuốc và Y (g/ml) là nồng độ thuốc khi đó. Quan sát
(X, Y) nhiều lần ta có kết quả sau:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,4

Dự báo hàm lượng thuốc sau khi uống


11 giờ, 12 giờ.
PT hồi quy là Y =
Sau 11g: Y =
Sau 12g: Y =

Câu hỏi: Khi nào thuốc thải trừ hết?


2. Hệ số tương quan
Tương quan đo lường mức độ tương quan giữa các biến (x, y). Nó cũng cho
chúng ta biết chiều hướng tương quan là âm (nghịc) hay dương (thuận).
xem xét mộCho dù t số ví dụ:
1. Lượng cholesterol toàn phần trong huyết thanh có liên quan đến lượng
cholesterol trong chế độ ăn uống hay không?
2. Chiều cao và cân nặng. Bạn càng cao, bạn càng nặng: Tương quan dương.
3. Kết quả điểm danh và thi của lớp. Bạn càng nghỉ học nhiều, kết quả thi của bạn
càng kém: Tương quan âm.
4. Chỉ số khối cơ thể (BMI) và tỷ lệ phần trăm mỡ trong cơ thể. Chỉ số BMI của
bạn càng cao, tỷ lệ phần trăm chất béo trong cơ thể của bạn càng cao.
5. Màu mắt và trí thông minh. Không có bằng chứng thuyết phục nào cho thấy
màu mắt và trí thông minh có liên quan.
Công thức tính hệ số tương quan r:
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)ത σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

𝑟= =
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 . σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑛 − 1 𝑠𝑥 𝑠𝑦
* Ý nghĩa của hệ số tương quan r
r đại diện cho mối tương quan của hai biến x và y. Giá trị của 𝑟 ∈ [−1; 1]
- Nếu r = 1 thì X và Y có tương quan thuận hoàn toàn.
- Nếu r = −1 thì X và Y có mối tương quan âm hoàn toàn
- Nếu r = 0 thì X và Y không tương quan. Điều này có nghĩa là không có
sự liên kết tuyến tính giữa X và Y
Nếu r gần với −1 hoặc +1, có một mối quan hệ tuyến tính mạnh.
Khi r gần bằng 0, tương quan yếu hoặc không tồn tại
Trong ví dụ 2. Tính được 𝑟 = 0,985 > 0 nên X và Y tương quan thuận.
http://www.statstutor.ac.uk/resources/uploaded/spearmans.doc (accessed 24 April 2020).
Statistics in Nutrition and Dietetics, First Edition. Michael Nelson.
© 2020 John Wiley & Sons Ltd. Published 2020 by John Wile
Hệ số xác định r2
Trong thực tế, hệ số tương quan r thường được sử dụng để mô tả mức độ liên kết
tuyến tính giữa hai biến ngẫu nhiên X và Y. Hệ số xác định là một thước đo khác
thường được sử dụng để mô tả mức độ liên kết tuyến tính giữa X và Y. Trong thực
tế, 0 ≤ r2 ≤ 1.
r2 đại diện cho tỷ lệ giảm trong tổng biến động do sử dụng biến độc lập cụ thể Xi
trong mô hình hồi quy. r2 càng lớn thì sự giảm tổng biến phản ứng Yi càng lớn.
Điều này có nghĩa là dự đoán tốt hơn về Yi có thể được thực hiện khi r2 xấp xỉ 1.
Nếu r2 = 1 thì tất cả sự thay đổi trong biến kết quả Yi được giải thích bởi Xi.
Nếu r2 = 0 thì không có liên kết tuyến tính giữa Xi và Yi, và biến độc lập không
làm giảm bất kỳ sự biến đổi nào trong Yi với mô hình hồi quy tuyến tính.
Trong ví dụ 2. Tính được 𝑟 = 0,985 ⇒ 𝑟 2 = 0,97.
Điều này có nghĩa là 97% sự biến động của trọng lượng (Y) là do tuổi (X)
3. PHƯƠNG SAI HỒI QUY (regression variance)
σ 2
2 (𝑌𝑖 − 𝑌𝑒𝑖 ) 𝑛−1
𝑆𝑌.𝑋 = = 1 − 𝑟 2 𝑆𝑌2
𝑛−2 𝑛−2
SY.X gọi là độ lệch chuẩn của phương sai hồi quy
𝑛−1
𝑆𝑌.X = 1 − 𝑟 2 𝑆𝑌2
𝑛−2
Trong ví dụ 2
𝑛 = 6; 𝑋 = 3,5; 𝑌 = 15; 𝑆𝑋 = 1,87; 𝑆𝑌 = 3,687
𝑎 = 1,942; 𝑏 = 8,2; 𝑅 = 0,985
𝑛−1 X 1 2 3 4 5 6
𝑆𝑌.𝑋 = (1 − 𝑅 2 )𝑆𝑌2
𝑛−2 Y 11 11 14 16 18 20
PTHQ: Y =
Giá trị dự đoán: Nếu X = 8 thì Y =
Nếu kết quả đánh giá PTHQ mẫu cho thấy có mối quan hệ giữa hai biến quan tâm,
chúng ta có thể đưa PTHQ vào ứng dụng thực tế. Có hai cách để sử dụng PTHQ. Nó
có thể được sử dụng để dự đoán giá trị nào Y có khả năng giả định với một giá trị cụ
thể của X. Khi các giả định của mô hình hồi quy được đáp ứng, một khoảng dự
đoán cho giá trị dự đoán này của Y có thể được xây dựng. Chúng ta cũng có thể sử
dụng PTHQ để ước tính giá trị trung bình của quần thể con của các giá trị Y được
giả định là tồn tại ở bất kỳ giá trị cụ thể nào của X. Một lần nữa, nếu giả định về các
quần thể phân bố chuẩn là đúng, thì một KTC cho tham số này có thể được xây
dựng. Giá trị dự đoán của Y và ước lượng điểm về giá trị trung bình của dân số con
Y sẽ tương đương về mặt số học đối với bất kỳ giá trị cụ thể nào của X nhưng như
chúng ta thấy, khoảng dự đoán sẽ rộng hơn KTC.
4. Khoảng tin cậy cho dự báo Y và trung bình của dự báo 𝝁𝒀
PTHQ: Y = aX + b. Tại X0 thì Y0 = aX0 + b, với X0 là một giá trị cụ thể của X tại
điểm cần dự báo cho Y và Y.
❑ KTC cho dự báo Y ❑ KTC cho µY
1 𝑋0 − 𝑋ത 2 1 𝑋0 − 𝑋ത 2
𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 1+ + 𝜇𝑌 = 𝑌0 ± 𝐶. 𝑆𝑌.𝑋 +
𝑛 𝑛 − 1 𝑆𝑋2 𝑛 𝑛 − 1 𝑆𝑋2

PTHQ: Y = 1,942X + 8,2. Khi X0 = 8 thì Y0 = 23,736


𝛾 = 0,95 ⇒C = t0.05(4) = 2,776
• KTC 95% cho Y

• KTC 95% cho µY


5. Kiểm định hệ số tương quan
H0: ρ = 0; H1: ρ ≠ 0
𝑟
𝑡= 𝑛 − 2 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡(𝑛 − 2)
1−𝑟 2
Nếu |t| > C = tα(n-2) thì H0 bị bác bỏ.
Khi H0 bị bác bỏ ở một mức ý nghĩa xác định, thì có nghĩa là r khác 0 đáng kể,
tức là nhỏ hơn nhiều hoặc lớn hơn nhiều so với 0. Khi H0 được chấp nhận, nghĩa
là r không khác 0 đáng kể.
Trong ví dụ 3. Có tồn tại mối tương quan giữa hai biến ngẫu nhiên X và Y?
H0: Không có sự tương quan giữa X và Y
𝑅
𝑡= . 𝑛−2
1−𝑅 2
=

𝛼 = 0.05 ⇒ 𝐶 = 𝑡0.05 (4) = 2.776


Vì |t| > C, H0 bị bác bỏ, với mức ý nghĩa α = 0.05.
Kết luận:
Example 4. Scaling and root planing are the most widely used techniques in periodontal
therapy. These procedures are used to remove bacterial plaque and calculus from the
surfaces of teeth. Despite the best efforts of clinicians to thoroughly root plane teeth,
considerable amounts of calculus remain, even though the surface of teeth feel clinically
smooth at the completion of scaling and root-planing procedures. Suppose a periodontist
observed pocket depth and percentage of calculus after scaling was done with 12
patients, as presented in the table below. We may assume both pocket depth and
percentage of calculus are normally distributed.
Perform a test of significance for the correlation coefficient for the data.

We need to test 𝐻0: 𝜌 = 0; 𝐻𝐴 : 𝜌 ≠ 0.


By substituting n = 12 and r = 0.676, we have:
𝑛−2
𝑡 = 𝑟. 2 =
1−𝑟
Since t > 𝐶 = 𝑡0.05 10 = 2.228, 𝐻0 is rejected
at the significance level α = 0.05.
Conclude:

You might also like