Professional Documents
Culture Documents
Bài Giảng XSTKYD (SV Dược) - 1 - Unlocked
Bài Giảng XSTKYD (SV Dược) - 1 - Unlocked
BIOSTATISTICS
TS. ĐÀO HỒNG NAM
2. Phép giao A B = C
Ví dụ 4: Khám cho 1 b/n. Gọi A: “nhiệt độ
cao”, B: “mệt” thì C = ?
3. Phép hiệu A\ B = C
4. Phép bù
Cho A B Phần bù của A trong B, ký hiệu là A=B\ A
5. Các khái niệm khác
a. Quan hệ kéo theo
Biến cố A được gọi là kéo theo biến cố B và ký hiệu A ⊂ B hoặc B ⊂ A nếu A xảy
ra thì B xảy ra.
Ví dụ 5. Tình trạng sử dụng kháng sinh tùy tiện đã kéo theo nhiều hệ luỵ. Nguy
hiểm hơn là góp phần làm gia tăng sự kháng thuốc, gây yếu và mất dần đi tác
dụng chữa bệnh của kháng sinh.
b. Hai b/c xung khắc: Hai b/c A và B gọi là xung khắc nếu chúng không cùng
xảy ra trong một phép thử (AB = ∅).
Ví dụ 6: Xét nghiệm vi khuẩn đường ruột cho một bệnh nhân. Gọi A: “Vi khuẩn
Subtilis phát triển”, B: “Vi khuẩn E.coli phát triển”
A và B xung khắc vì 2 loại VK này thường không hiện diện đồng thời trong
đường ruột.
c. Nhóm biến cố đầy đủ
Xét b/c A và biến cố đối 𝐴.ҧ Ta có 𝐴 ∩ 𝐴ҧ = ∅ và 𝐴 ∪ 𝐴ҧ = Ω. Khi đó 𝐴 và 𝐴ҧ lập
thành nhóm gồm 2 b/c đầy đủ. Khi phép thử xảy ra thì một và chỉ một b/c trong
hai b/c đó xảy ra.
Tổng quát: Nhóm b/c 𝐴1 , 𝐴2 , … , 𝐴𝑛 được gọi là một nhóm b/c đầy đủ nếu và chỉ
nếu 𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛 = Ω và 𝐴𝑖 ∩ 𝐴𝑗 = ∅ với mọi 𝑖, 𝑗 = 1, 𝑛 , 𝑖 ≠ 𝑗
Hệ gồm 5 biến cố đầy đủ Hệ gồm 2 biến cố đầy đủ
Chú ý:
❑ Độc lập toàn phần → độc lập từng đôi
𝑃 𝐸 =
Xác suất để một người được
chọn ngẫu nhiên từ 318 đối
tượng sẽ thuộc nhóm khởi phát
sớm rối loạn lưỡng cực (E) và
không có tiền sử gia đình về rối
loạn tâm trạng (A) là bao
nhiêu?
𝑃 𝐸∩𝐴 =
1 1 1 1
ln 𝑅𝑅 ±1.96 + − −
𝑎 𝑐 𝑎+𝑏 𝑐+𝑑
95%CI =𝑒
- Nếu CI cho RR> 1 thì A làm tăng nguy cơ mắc bệnh (YTNC).
- Nếu CI cho RR <1 thì A làm giảm khả năng mắc bệnh (yếu tố bảo vệ)
- Nếu CI cho RR chứa 1 thì không có mối quan hệ nào giữa A và B
Example 1. A study on the fracture Fracture
Group Total
prevention efficacy of zoledronate, Yes No
patients were divided into two groups: Zoledronate 92 970 1062
group 1 was treated with zoledronate, and Placebo 148 917 1065
group 2 took calcium and vitamin D only Total 240 1887 2127
(placebo). After 3 years of follow-up, the
results are as follows.
Conclusion
https://www.medcalc.org/calc/relative_risk.php
Example 2. A study of the effect of DDT on skin diseases was
performed in 2 groups. After a period of follow-up, the results are as
follows:
Group 1: 93 people used DDT, 29 people suffered from skin diseases.
Group 2: 59 people did not use DDT, 23 people suffered from skin
diseases.
Conclusion?
Conclusion
Example 3. A cohort study investigating the association between smoking and
coronary heart disease was conducted on 2 healthy groups over 30 years old. After
10 years of follow-up, the results were as follows:
Smoking group: 4893 people, including 675 people with coronary heart disease.
Non-smokers group: 3847 people, including 367 people with coronary heart
disease.
Conclusion?
Conclusion
Phân tích dữ liệu của công trình nghiên cứu WHI
2,48 2,03
% %
Nhóm dùng Calci & Nhóm dùng giả
vitamin D dược
p0
Nhóm 1: odd1 =
p1 Nhóm 2: odd 0 =
1 − p1 1 − p0
OR =
odd1 p 1 − p0 1 − p0
= 1 = RR
odd 0 p0 1 − p1 1− p 1
1 1 1 1
ln(OR) 1.96 + + +
a b c d
95%CI = e
Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.
Example 1. A case-control study to Smoking Disease Total
investigate the correlation between
Yes No
“smoking” and the disease factor “chronic
bronchitis” had the following results: Yes 320 200 520
No 180 300 480
Total 500 500 1000
Conclusion
https://www.medcalc.org/calc/odds_ratio.php
Example 2. A study of caffeine's effect on insomnia was conducted in 2 groups
Group 1: 72 people who drank caffeinated beverages, 30 people had insomnia
Group 2: 73 people who took a placebo, had 9 people with insomnia
Q: Does caffeine affect insomnia?
Conclusion
Example 3: Một NC về sự liên quan giữa hút thuốc và ung thư phổi. Số
liệu như sau:
Smoking Lung cancer Total
Yes No
No 3 30 33
ad 297 30
OR = = = 11
bc 3 270
Conclusion
Exercise Contraceptive Cardiovascular disease Total
1. A retrospective study on the pill Yes No
association of cardiovascular Yes 693 320 1013
disease with contraceptive pills use 307 680 987
No
in over 2000 women had data as
Total 1000 1000 2000
shown in the side table. Is there an
association between contraceptive
pills and cardiovascular disease? Smoke Chronic bronchitis Total
2. Retrospective study on the Yes No
association between smoking and Yes 300 200 500
chronic bronchitis. The data shown No 200 300 500
in the side table. Is there an 500 500 1000
Total
association between smoking and
chronic bronchitis? HPV Cervical cancer Total
3. A retrospective study on the Yes No
association between HPV and
Yes 22 8 30
cervical cancer. The data shown in
the side table. Is there an No 10 50 60
association between HPV and Total 32 58 90
cervical cancer?
Câu hỏi 1
Một nghiên cứu hồi cứu về mối liên
quan của bệnh tim mạch với việc sử
dụng thuốc tránh thai ở hơn 2000
phụ nữ có số liệu như trong bảng
bên.
Kết luận: Thuốc tránh thai là yếu tố
nguy cơ của bệnh tim mạch.
Đúng Sai
GIỎI Đáp án
QUÁ!!
Đúng Sai
Đáp án
Đúng Sai
Đáp án
01 02 03 04 05
o Là bước đầu tiên kích hoạt phản ứng miễn ➢ Mục đích là giải phóng
dịch. Các protein hoặc DNA mầm bệnh nhiều virus
cần được phát triển và thu hoach bằng các
cơ chế sau
➢ Virus được phát triển trên tế bào chính.
➢ Virus được nuôi cấy trong lò phản ứng
➢ Protein tái tổ hợp
5.Đóng gói 3. Thanh
4.Bổ sung
lọc
➢ Vaccine sẽ được ➢ Bổ sung tá ➢ Kháng nguyên
niêm phong bằng dược, giúp cần phải được
nút chặn vô trùng tăng cường tinh chế để tạo
và phải tuân thủ đáp ứng ra sản phẩm
các tiêu chuẩn miễn dịch có chất lượng
được xác định để
sản xuất.
3. Kiểm định hiệu lực của vắc xin
Tiêm vắc xin là một biện pháp phòng bệnh, vắc xin và giả dược được sử dụng
cho người khỏe mạnh chứ không phải người bệnh.
- Hiệu lực vắc xin dùng để đánh giá hiệu quả của vắc xin trong việc ngăn ngừa
sự xuất hiện của bệnh.
𝑝1 𝑇ỷ 𝑙ệ 𝑚ắ𝑐 𝑏ệ𝑛ℎ 𝑡𝑟𝑜𝑛𝑔 𝑛ℎó𝑚 𝑡𝑖ê𝑚 𝑐ℎủ𝑛𝑔
𝑉𝐸 = 1 − 𝑅𝑅 = 1 − =1−
𝑝0 𝑇ỷ 𝑙ệ 𝑚ắ𝑐 𝑏ệ𝑛ℎ 𝑡𝑟𝑜𝑛𝑔 𝑛ℎó𝑚 𝑘ℎô𝑛𝑔 𝑡𝑖ê𝑚 𝑐ℎủ𝑛𝑔
1 1 1 1
ln 𝑅𝑅 ±1.96 + − − =[𝑥;𝑦]
95%CI =𝑒 𝑎 𝑐 𝑎+𝑏 𝑐+𝑑
66% JNJ-78436735
94% mRNA-1273(Moderna)
50% Coronavac(Sinovac)
WHO giải thích giai đoạn thử nghiệm vaccine COVID-19
Giai đoạn 1 Giai đoạn 2 Giai đoạn 3
▪ Quy mô nhỏ và lần đầu ▪ Số lượng người ▪ Thử nghiệm trên số lượng
tiên một loại vaccine mới người lớn hơn rất nhiều.
tham nhiều hơn
được đánh giá hiệu quả ▪ Trong đó một nhóm người
giai đoạn 1 được tiêm vaccine và một
trên người. Vaccine đã
hoàn thành giai đoạn ▪ Tập trung vào nhóm người khác được sử
phát triển trong phòng nhóm tuổi đích dụng giả dược.
thí nghiệm, được thử mà vaccine ➢ Sau đó so sánh tỉ lệ mắc
nghiệm trên động vật hướng tới. bệnh trên người được tiêm
➢ Thử nghiệm trên hàng ➢ Kiểm tra đáp ứng vaccine và người không
chục hoặc tới 100 người miễn dịch. được tiêm vaccine, qua đó
là để đánh giá liều lượng có thể biết vaccine đó có
➢ Kiểm tra chi tiết
vaccine và tìm ra liều giúp phòng ngừa bệnh
hơn về đáp ứng ➢Tiếp tục tích lũy bằng chứng
lượng chuẩn.
➢ Đánh giá xem vaccine có miễn dịch về sự an toàn của vaccine.
tạo ra phản ứng miễn dịch ➢ Để có cơ sở dữ ➢Để biết vaccine có thật sự
mà chúng ta mong muốn. liệu lớn hơn về bảo vệ con người khỏi căn
➢ Tập hợp dần các dữ liệu sự an toàn của bệnh Covid19
về sự an toàn của vaccine. vaccine.
PHÂN TÍCH SỐ LIỆU
▪ Thử nghiệm lâm sàng phác đồ hai liều của hai loại vaccine Pfizer/Bi
oNTech BNT162b2 và Moderna mRNA-1273
▪ Ở những người từ 18 tuổi trở lên về điều trị bệnh SARS-CoV-2
VE=95,06% VE=94,05%
Khoảng tin cậy 95% cho Khoảng tin cậy 95% cho
VE từ 90% đến 97,6% VE từ 89,08% đến 96,76%
Kết luận: Làm giảm nguy cơ Kết luận: Làm giảm nguy cơ tương đối
Hiệu lực của Vaccine Moderna
mRNA-1273 từ 89,08% đến 96,76%
PHÂN TÍCH SỐ LIỆU
CÁC CÔNG THỨC TÌNH XÁC SUẤT
1. CÔNG THỨC CỘNG
Solution
To find we use an addition rule:
Ví dụ 2. Trong một dân số phụ nữ có 4% bị K vú, 20% có hút thuốc, 3% có hút
thuốc và bị K vú. Chọn ngẫu nhiên một phụ nữ trong dân số đó, tính XS người
này bị K vú hoặc có hút thuốc hoặc cả hai biến cố.
Solution
To find we use an addition rule:
Ví dụ 5. Gọi A là biến cố bệnh nhân đánh răng ít nhất một lần mỗi ngày, B là
biến cố bệnh nhân ăn thức ăn giàu carbohydrate và C là biến cố bệnh nhân sử
dụng kem đánh răng có chứa fluor. Giả sử P(A) = 0,76; P(B) = 0,15; P(C) = 0,47;
P(A ∪ B) = 0,84 và P(B ∩ C) = 0,12. Tính các xác suất P(A ∩ B) và P(B ∪ C).
𝑃 𝐴∩𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴∪𝐵 =
𝑃 𝐵∪𝐶 =𝑃 𝐵 +𝑃 𝐶 −𝑃 𝐵∩𝐶 =
2. Công thức xác suất có điều kiện
Các xác suất chúng ta đã thảo luận: P(A), P(B), P(E1), P(E2), v.v. được gọi là
xác suất vô điều kiện. Thường thì xác suất có điều kiện được các chuyên gia
chăm sóc sức khỏe quan tâm nhiều hơn xác suất vô điều kiện. Bác sĩ hỏi về lối
sống của bệnh nhân và lịch sử y tế cá nhân và gia đình để xác định xác suất có
điều kiện. Xét các tình huống sau:
• Nếu một bệnh nhân đã ăn một chế độ ăn giàu chất béo và cholesterol trong
phần lớn cuộc đời của mình, thì khả năng anh ta bị nhồi máu cơ tim sẽ lớn
hơn nhiều.
• Nếu một nha sĩ biết rằng cả cha và mẹ của bệnh nhân đều mắc phải chứng
khiếm khuyết cơ tạo xương, họ có thể đưa ra một kế hoạch điều trị khác cho
bệnh nhân, dựa trên thực tế là bệnh nhân có nhiều khả năng mắc chứng
khiếm khuyết tạo xương.
• Nếu một cá nhân được biết là đã tiếp xúc với môi trường bị nhiễm cúm, thì
khả năng phát triển bệnh cúm của người đó cao hơn so với những người
chưa tiếp xúc.
Công thức xác suất có điều kiện
P( AB)
P( B / A) = P( AB) = P( A).P( B / A)
P( A)
P ( A1 A2 A3 ) = P ( A1 ).P ( A2 / A1 ).P ( A3 / A1 A2 )
P ( A1 A2 A3 ) = P ( A1 ) P ( A2 ) P ( A3 )
Ví dụ 7. Giả sử trong một cộng đồng dân số D, nồng độ florua trong nước uống
là 0,7 đến 1,1 ppm. Một nghiên cứu cho thấy rằng một bệnh nhân sống trong một
cộng đồng như vậy có 21% khả năng bị sâu răng. Nghiên cứu cũng chỉ ra rằng sự
kiện các thành viên trong gia đình bị sâu răng là độc lập với nhau.
Gia đình ông bà C trong D có hai cậu con trai sinh đôi khoảng 11 tuổi. Khả năng
để cả 4 thành viên trong gia đình này đều bị sâu răng là bao nhiêu?
Giải. Gọi B1, B2, B3 và B4 biểu thị các sự kiện mà mỗi thành viên trong số bốn
thành viên trong gia đình ông bà C bị sâu răng tương ứng.
𝑃 𝐵1 𝐵2 𝐵3 𝐵4 =
4. Công thức xác suất toàn phần
Thực hiện thí nghiệm E. Gọi Ω = {A1, A2, · · · , An } , trong đó A1, …, An là
nhóm biến cố xung khắc và đầy đủ, gọi K là biến cố có liên quan đến E.
Khi đó, xác suất của E được tính theo công thức xác suất toàn phần.
𝑛
𝑃 𝐾 = 𝑃 𝐴𝑖 𝑃 𝐾ห𝐴𝑖
𝑖=1
Ví dụ 8. Ung thư tuyến tụy hiếm khi có thể chữa khỏi. Nó chỉ chiếm 2% tổng số
ca ung thư mới được chẩn đoán ở Hoa Kỳ mỗi năm, nhưng 5% tổng số ca tử
vong do ung thư. Dữ liệu của Viện Ung thư Quốc gia chỉ ra rằng khả năng sống
sót cao nhất xảy ra nếu khối u thực sự khu trú. Gọi A là trường hợp khối u khu trú
và B là trường hợp bệnh nhân sống sót ít nhất 5 năm. Biết rằng P(A) = 0,20,
P(B|A) = 0,20 và P(B|Ᾱ) = 0,0001. Tỷ lệ sống 5 năm của một bệnh nhân mới
được chẩn đoán mắc bệnh ung thư tuyến tụy là bao nhiêu?
Giải
P(B) = P(A).P(B|A) + P(Ᾱ). P(B|Ᾱ) =
5. Công thức Bayes (Reverend Thomas Bayes)
- Xác suất một người mắc bệnh là bao nhiêu, nếu
kết quả xét nghiệm dương tính?
- Xác suất một người không mắc bệnh là bao
nhiêu, nếu kết quả xét nghiệm là âm tính?
- Nếu bệnh nhân bị viêm nha chu thì khả năng bị
viêm nha chu cấp tính là bao nhiêu?
- Nếu bệnh nhân không có dấu hiệu viêm nha
chu thì khả năng không bị viêm nha chu cấp tính
là bao nhiêu?
P( Ai ).P( K / Ai ) P( A).P( B / A)
P( Ai / K ) = P( A / B) =
P( K ) P( B)
Ví dụ 9. Một người đàn ông 60 tuổi chưa bao giờ hút thuốc lá đến gặp bác sĩ với các
triệu chứng ho mãn tính và thỉnh thoảng khó thở. Bác sĩ yêu cầu bệnh nhân nhập viện
để làm sinh thiết phổi. Giả sử kết quả sinh thiết phổi phù hợp với ung thư phổi hoặc
với bệnh sarcoidosis (một bệnh lý viêm biểu hiện bằng tổn thương u hạt không hoại tử
ở một hoặc nhiều cơ quan và mô; căn nguyên không rõ ràng. Phổi và hệ thống bạch
huyết là cơ quan bị ảnh hưởng nhiều nhất, nhưng sarcoidosis có thể biểu hiện ở bất cứ
cơ quan nào). Gọi A là biến cố “ho mãn tính”. Cho biết:
𝑃 𝐵1 = 0.99; 𝑃 𝐵2 = 0.001; 𝑃 𝐵3 = 0.009;
𝑃 𝐴/𝐵1 = 0.001; 𝑃 𝐴/𝐵2 = 0.9; 𝑃 𝐴/𝐵3 = 0.9
𝑃 𝐴 = 𝑃 𝐵1 . 𝑃 𝐴/𝐵1 + 𝑃 𝐵2 . 𝑃(𝐴/𝐵2) + 𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵1 . 𝑃 𝐴/𝐵1
𝑃 𝐵1/𝐴 = =
𝑃(𝐴)
𝑃 𝐵2 . 𝑃 𝐴/𝐵2
𝑃 𝐵2/𝐴 = =
𝑃(𝐴)
𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵3/𝐴 = =
𝑃(𝐴)
Ví dụ 10. Bây giờ, giả sử bệnh nhân trong Ví dụ 9 hút hai bao thuốc lá mỗi ngày
trong 40 năm. Cho biết: 𝑃 𝐵1 = 0.98, 𝑃 𝐵2 = 0,015, 𝑃 𝐵3 = 0.005
𝑃 𝐴/𝐵1 = 0.001; 𝑃 𝐴/𝐵2 = 0.9; 𝑃 𝐴/𝐵3 = 0.9
Xác suất của ba trạng thái bệnh đối với bệnh nhân này, với những triệu chứng (ho
mãn tính, thỉnh thoảng khó thở) là bao nhiêu?
𝑃 𝐴 = 𝑃 𝐵1 . 𝑃 𝐴/𝐵1 + 𝑃 𝐵2 . 𝑃(𝐴/𝐵2 ) + 𝑃 𝐵3 . 𝑃 𝐴/𝐵3 =
𝑃 𝐵1 . 𝑃 𝐴/𝐵1
𝑃 𝐵1 /𝐴 = =
𝑃(𝐴)
𝑃 𝐵2 . 𝑃 𝐴/𝐵2
𝑃 𝐵2 /𝐴 = =
𝑃(𝐴)
𝑃 𝐵3 . 𝑃 𝐴/𝐵3
𝑃 𝐵3 /𝐴 = =
𝑃(𝐴)
Do đó, ở loại bệnh nhân này, ung thư phổi là chẩn đoán có khả năng nhất.
BIẾN SỐ NGẪU NHIÊN
1. Định nghĩa
Là kết cục của các TN ngẫu nhiên mà giá trị của nó thuộc tập số
nguyên hoặc số thực.
2. Phân loại: có 2 loại
- Bsnn rời rạc: X có giá trị là số nguyên Z
- Bsnn liên tục: X có giá trị là số thực R.
Ví dụ:
- Nhịp tim, số bc/1mm3,
- Lượng cholesterol, acid uric, huyết áp
3. Hàm mật độ xác suất
a. Nếu X là bsnn rời rạc
- Hàm mđxs thể hiện trong bảng PPXS:
…
X x1 x2 xk
pi , X = x i
p p1 p2 … pk f ( x) =
0, X xi
Tính chất của hàm mật độ xác suất
f ( x) 0 f ( x) = pi =1
b. Nếu X là bnn liên tục: f(x) là hàm mđxs của X nếu f(x) thỏa mãn:
+
f ( x) 0
−
f ( x)dx = 1
f ( x) =
1 − x2 /2
e
2
1 ( x − )2 /2 2
f ( x) = e
2
3. Các đặc trưng của biến số ngẫu nhiên
a. Kỳ vọng (trung bình): 𝝁 = 𝑬(𝑿)
𝑋𝑖 × 𝑝𝑖 ; 𝑋 ∈ 𝑍
𝑖
𝜇 = 𝐸(X) = +∞
න 𝑥𝑓(𝑥)𝑑𝑥; 𝑋 ∈ 𝑅
−∞
1+2+3+4
𝜇 = 𝐸(𝑋) =
4
b. Phương sai:
Phản ánh mức độ phân tán của các giá trị quan sát xung quanh giá trị
trung bình, ký hiệu 𝜎 2 = 𝐷(𝑋)
(𝑋𝑖 − 𝜇)2 × 𝑝𝑖 ; 𝑋 ∈ 𝑍
𝑖
2 2
𝜎 = 𝐷(X) = 𝐸(𝑋 − 𝜇) = +∞
න (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥; 𝑋 ∈ 𝑅
−∞
➢ Tính chất của phương sai
D(c) = 0
D(cX) = c2D(X)
D(X + Y) = D(X) + D(Y) nếu X, Y độc lập
➢ Độ lệch chuẩn (standard deviation = sd) 𝜎 = 𝜎 2
𝑠
➢ Sai số chuẩn (standard Error = se): 𝑠𝑒 =
𝑛
Ví dụ 3. Cho biết tỷ lệ điều trị khỏi bệnh lao kháng thuốc (MDR-TB: Multi-
drug-resistant tuberculosis) trong dân số D là 80%. Gọi X là số người
không khỏi trong 3 người điều trị MDR-TB được chọn ngẫu nhiên trong
D. Tìm kỳ vọng và phương sai của X.
Ta có X = {0, 1, 2, 3}
Gọi Bi là b/c người thứ i không khỏi bệnh MDR-TB.
• 𝑃(𝑋 = 3) = 𝑃(B1 𝐵2 B3 )
In order to find the mean (expectation) of the given distribution, we will use the
following formula:
So, first we need to multiply each value of X by each probability P(X), then add
these results together. In this example we have:
In order to find the variance (𝜎 2 ) of the given distribution, we will use the following
formula:
(27/12/1654 – 16/8/1705)
◼ Phân phối nhị thức
Thực hiện phép thử Bernoulli B(1,p) n lần độc lập.
Gọi X = “Số lần thành công trong n lần thí nghiệm”
X = 0, 1, 2, …, n.
X có phân phối nhị thức, ký hiệu: X ~ B(n,p).
Hàm mật độ XS của X là
Ví dụ: X~N(100;102)
1 𝑥−100 2
−
𝑓(𝑥) = 𝑒 2×102
10 2𝜋
−
( x −100 )
2
1
f ( x) = P( X = x) = e 2102
10 2
1 110−100 2
−
𝑓(𝑥) = 𝑃(𝑋 = 110) = 𝑒 2×102
10 2𝜋
−
( x −100 )
2
1
f ( x) = P( X = x) = e 2102
10 2
120
P(80 X 120) =
80
f ( x)dx = 0,954
100
P (X 90) =
90
f ( x)dx + 0,5 = 0,841
100
P (X 85) = 0,5 −
85
f ( x)dx = 0, 067
Ví dụ 2. Cho biết nồng độ [Cl-] trong máu người bình
thường là 100 mEq/l và độ lệch chuẩn là 3 mEq/l. Tìm tỷ lệ
những người trong dân số đó có:
1. Nồng độ [Cl- ] lớn hơn 104
2. Nồng độ [Cl- ] nhỏ hơn 98
3. Nồng độ [Cl- ] từ 98 đến 104
Phân phối chuẩn tắc
Nếu X ~ N(, 2) thì
X −μ
Z= ~ N (0;1)
σ
f(Z)
z2
1 1 −
Z f ( z) = e 2
2
0
Gọi X (mmHg) là huyết áp tâm thu
• X ~ N (100,10ᒾ)
Ví dụ 1: Huyết áp tâm thu (X, mmHg)
của con người trong dân số có PPC
với trung bình 100 mmHg và đlc
là 10 mmHg. Tính tỷ lệ những
người có huyết áp tâm thu nhỏ hơn
120.
Ví dụ 2.
Trọng lượng viên thuốc trong một lô thuốc có PPC với trung bình
252,6 mg và đlc 4,2 mg. Tính tỷ lệ viên thuốc có trọng lượng lớn
hơn 260.
Gọi X là trọng lượng viên thuốc
• X ~ N (252.6;4.2ᒾ)
1 𝑥−252.6 2
−
𝑓 𝑥 =𝑃 𝑋=𝑥 = 𝑒 2×4.22
4.2 2𝜋
Lời giải:
Gọi X là trọng lượng viên vitamin C
Ví dụ 3: Axit ascorbic là một trong
• X ~ N (450, 15ᒾ)
những thành phần quan trọng có trong
viên
vitamin C. Nó được tìm thấy trong trái
cây tươi và rau quả, chẳng hạn như trái
cây họ cam quýt, cà chua và bắp cải. Sự
thiếu hụt axit ascorbic được biết là dẫn
đến bệnh còi; các dấu hiệu bệnh lý của
bệnh còi, chủ yếu giới hạn ở các mô liên
kết, bao gồm xuất huyết, lung lay răng,
viêm lợi và vết thương kém lành.
Giả sử lượng axit ascorbic có trong viên
nén vitamin C có PPC với giá trị trung
bình là 450mg và SD là 15 mg. Tỷ lệ
viên vitamin C sẽ chứa axit ascorbic từ
425mg đến 475mg là bao nhiêu?
Bài tập: Áp lực tâm trương động mạch phổi (mmHg) là biến ngẫu nhiên
có phân phối chuẩn với trung bình 5,1 mmHg và độ lệch chuẩn 1,7
mmHg.
a) Tính tỷ lệ người có áp lực tâm trương động mạch phổi từ 3,4 mmHg
đến 8,5 mmHg?
b) Tính xác suất để gặp người có áp lực tâm trương động mạch phổi lớn
hơn 8,5 mmHg?
c) Tính xác suất để gặp người có áp lực tâm trương động mạch phổi nhỏ
hơn 1,7 mmHg?
d) Chọn ngẫu nhiên 10 người. Tính xác suất có:
d1) đúng 5 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d2) ít nhất 8 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d3) nhiều nhất 8 người có áp lực tâm trương động mạch phổi lớn hơn 8,5
mmHg?
d4) số người có áp lực tâm trương động mạch phổi lớn hơn 8,5 mmHg
nhiều khả năng nhất trong 10 người được chọn?
3. Các phân phối liên quan đến PPC
3.1. Phân phối chi bình phương (Chi-Squared Distribution)
Cho n biến n.n độc lập X1, X2, …, Xn sao cho Xi~N(0;1). Khi đó biến n.n
U = X12 + X 22 + ... + X n2 ~ n2
3.2. Phân phối Fisher (Sir Ronald A. Fisher, F)
Nếu U và V là 2 biến n.n độc lập có PP chi bình phương với n và m
bậc tự do thì
U /n
F= ~ F (n; m)
V /m
3.3. Phân phối Student
Nếu Z~N(0;1) và U ~ χ2(n) là 2 biến n.n độc lập thì
Z
T= ~ t ( n)
U /n
BÀI GIẢNG PHÂN TÍCH DỮ LIỆU VÀ
THỬ NGHIỆM LÂM SÀNG
Summarizing Data and Clinical Trials
TS. ĐÀO HỒNG NAM
X Tần số Tần số tích lũy Tần suất (%) Tần suất tích lũy (%)
<250 11 11 36.67 36.67
=250 7 18 23.33 60.00
>250 12 30 40.00 100.00
Để trình bày dữ liệu thô dưới dạng phân bố tần số, phải chia phạm vi của các phép
đo trong dữ liệu thành một số khoảng. Các khoảng thường được xây dựng để có
chiều rộng bằng nhau. Điều này sẽ giúp dễ dàng so sánh giữa các khoảng khác nhau.
Lưu ý khi tóm tắt dữ liệu, việc có quá nhiều khoảng sẽ không cải thiện nhiều so với
dữ liệu thô. Nếu có quá ít khoảng, rất nhiều thông tin sẽ bị mất.
Số khoảng và độ rộng khoảng được tính theo quy tắc Sturges.
Số khoảng I = 1 + 3.322𝑙𝑜𝑔10 𝑛
𝑅
Độ rộng khoảng 𝑤 = 𝐼 với 𝑅 = 𝐺𝑇𝐿𝑁 − 𝐺𝑇𝑁𝑁
Trong ví dụ 6: I = 1 + 3.322𝑙𝑜𝑔10 30 = 5.9 ≈ 6; 𝑅 = 254 − 245 = 9 nên độ
𝑅 9
rộng khoảng 𝑤 = 𝐼 = 6 = 1.5
Số lớp f % cum.%
245-246.5 2 6.67 6.67
246.5-248 2 6.67 13.33
248-249.5 7 23.33 36.67
249.5-251 7 23.33 60.00
251-252.5 8 26.67 86.67
252.5-254 4 13.33 100.00
Tổng cộng 30 100
H. A. STURGES, “The Choice of a Class Interval,” Journal of the American Statistical Association, 21
(1926), 65–66.
2.2.2 Tần số, tần suất và tần suất tích lũy
Ví dụ 7. Đo huyết áp tâm thu (mmHg) của 17 bệnh nhân:
150, 154, 156, 157, 159, 160, 161, 161, 162, 163, 164, 165, 167, 168, 169, 170,174
n = 17; R = max-min = 24. Số lớp I = 1 + 3.322 log10(17) = 5.08 ≈ 5
𝑅 24
Độ rộng khoảng = w = = = 4.8 ≈ 5
𝐼 5
Cách xác định BPV thứ p của một dãy số có n số hạng đã xếp thứ tự tăng
dần: {X1, X2, ..., Xn} (Thuật toán Tukey)
• tính k=np/100;
• nếu k là số nguyên, A = (Xk + Xk+1)/2
• nếu k không là số nguyên, A = Xm, với m là số nguyên liền kề sau K
Ví dụ 11: Lượng cholesterol của 34 người:
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170,
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 233.
Tính 𝑃25 , 𝑃50, 𝑃75
Cách 1: Thuật toán Tukey
Tính 𝑃25 : 𝑘 = 𝑛𝑝% = 34 × 0.25 = 8.5 ⇒ 𝑃25 =
Tính 𝑃50 : 𝑘 = 𝑛𝑝% = 34 × 0.5 = 17 ⇒ 𝑃50 =
Tính 𝑃75 : 𝑘 = 𝑛𝑝% = 34 × 0.75 = 25.5 ⇒ 𝑃75 =
Chú ý: 𝑃50 là trung vị của dãy DL ban đầu.
Cách 2: Thuật toán chia đôi (n chẵn)
114, 115, 121, 123, 127, 130, 135,137,140,145,146,150,153, 156,160, 166,170
177,180,190, 191, 192, 195,199, 200, 201, 201, 202, 205, 207, 208, 210, 213, 233
Một bé 8 tháng tuổi, nặng 10,5kg => tương ứng BPV thứ 97 => Kết luận: bé này thừa cân!
Khi bé tròn 1 tuổi, cân nặng 11kg => tương ứng BPV thứ 85 => Kết luận: bé “diet” thành công,
không còn thừa cân nữa :3. Rồi đến 18 tháng, bé vẫn 11kg => BPV thứ 50 => KL?
CHƯƠNG 3. CÁC THƯỚC ĐO VỀ XU HƯỚNG TRUNG TÂM,
ĐỘ PHÂN TÁN VÀ ĐỘ NGHIÊNG
Ngoài việc mô tả dữ liệu bằng phân bố tần số và đồ thị để tóm tắt và hiển thị dữ liệu một
cách trực quan, chúng ta mong muốn mô tả thêm một số đặc điểm của dữ liệu bằng cách sử
dụng các biện pháp định lượng.
Thước đo vị trí được sử dụng rộng rãi nhất là giá trị trung bình. Tuy nhiên, một công ty sản
xuất găng tay cao su phẫu thuật sẽ không thể tồn tại lâu nếu chỉ sản xuất găng tay cỡ trung
bình. Các thước đo của xu hướng trung tâm không đủ để mô tả dữ liệu một cách đầy đủ.
Ngoài việc biết giá trị trung bình, chúng ta phải biết dữ liệu được phân tán, hoặc trải rộng
như thế nào. Các thước đo xác định mức độ phân tán được gọi là các thước đo độ phân tán,
hay các thước đo độ biến thiên. Các thước đo tiêu biểu của sự phân tán là phạm vi (range),
phương sai (variance), và độ lệch chuẩn (standard deviation). Các thông số đo độ phân tán
này sẽ được thảo luận trong phần sau của chương. Phần cuối trình bày biểu đồ hộp (box
plot), đây là một kỹ thuật cực kỳ hữu ích để phân tích dữ liệu khám phá và các khái niệm
về hệ số biến thiên và độ lệch.
1. CÁC GIÁ TRỊ TRUNG TÂM
1.1 SỐ TRUNG BÌNH
Thước đo xu hướng trung tâm được sử dụng thường xuyên nhất là trung bình cộng hoặc
đơn giản là trung bình.
Khảo sát đặc tính X trên n đối tượng thu được giá trị của dữ liệu mẫu 𝑋1 , 𝑋2 , … , 𝑋𝑛 .
𝑋1 +𝑋2 +⋯+𝑋𝑛 σ𝑛
𝑖=1 𝑋𝑖
Công thức tính giá trị trung bình là: 𝑋 = hay gọn hơn là: 𝑋 =
𝑛 𝑛
Ví dụ 1. Axit ascorbic là một trong những thành phần quan trọng có trong viên
vitamin C. Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) có kết
quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó, giá trị trung bình về hàm lượng Axit ascorbic là:
455 + 450 + ⋯ + 455
𝑋ത = = 450
10
Giả sử đã mắc lỗi trong ghi chép số liệu và hàm lượng Axit ascorbic của viên
Vitamin thứ hai là 650, thay vì 450. Khi đó trung bình mẫu sẽ là 𝑋ത = 470. Như vậy,
hàm lượng Axit ascorbic trung bình đã tăng 450 mg lên 470mg.
Tác động của một giá trị lớn lên giá trị trung bình là khá mạnh. Tương tự, một giá trị
cực kỳ nhỏ có thể làm giảm giá trị trung bình xuống bất thường. Nói cách khác, giá
trị trung bình khá nhạy cảm với các giá trị cực nhỏ hoặc cực lớn.
Đây không phải là một tính năng mong muốn để đo lường vị trí trung tâm. Tuy
nhiên, giá trị trung bình rất đơn giản để tính toán; nó có thể được tính toán cho bất
kỳ tập hợp dữ liệu số nào. Có một và chỉ một giá trị trung bình cho bất kỳ tập dữ
liệu định lượng nào. Tuy nhiên, giá trị trung bình không thích hợp để mô tả vị trí
trung tâm cho dữ liệu danh nghĩa hoặc thứ tự như trong ví dụ 2 sau đây:
Ví dụ 2. Bác sĩ sử dụng thang điểm để phân loại tình trạng bệnh của bệnh nhân:
1. Không bệnh; 2. Nhẹ; 3. Trung bình; 4. Nghiêm trọng; 5. Cực kỳ nghiêm trọng
Có thể gắn nhãn các danh mục 0 = không bệnh, 1 = nhẹ, 3 = trung bình, 5 =
nghiêm trọng và 7 = cực kỳ nghiêm trọng. Điểm trung bình 3,85 cho trạng thái
bệnh là vô nghĩa.
1.2 TRUNG VỊ
Để tránh khả năng bị ảnh hưởng bởi một vài quan sát có giá trị cực nhỏ hoặc cực
lớn, chúng ta mô tả trung tâm của tập dữ liệu bằng một thước đo thống kê khác với
giá trị trung bình số học. Một biện pháp thay thế cho vị trí trung tâm, gần như phổ
biến như giá trị trung bình số học, là trung vị. Giả sử có n quan sát trong một tập
dữ liệu. Để tìm trung vị, tất cả n quan sát phải được sắp xếp theo thứ tự tăng dần.
Sau đó, trung vị được xác định như sau.
Định nghĩa 1. Gọi 𝑋1, 𝑋2 , … , 𝑋𝑛 là một mẫu gồm n quan sát được sắp xếp theo thứ
tự tăng dần. Trung vị là giá trị quan sát ở giữa nếu n lẻ. Nếu n chẵn, trung vị mẫu là
giá trị trung bình của hai quan sát ở giữa dãy dữ liệu.
Ví dụ 3. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Sắp DL tăng dần (không giảm): 445, 447, 448, 448, 450, 450, 450, 452, 455, 455
Do 𝑛 = 10 là số chẵn nên trung vị là:
Bây giờ giả sử chỉ đo hàm lượng Axit ascorbic trong 7 viên vitamin C và được dãy
DL (đã sắp tăng dần): 445, 447, 448, 448, 450, 452, 455
Khi đó 𝑛 = 7 là số lẻ nên trung vị là:
Chú ý: Vì trung vị là giá trị ở giữa dãy dữ liệu (đã được sắp tăng dần), trong khi các
giá trị rất nhỏ hoặc rất lớn nằm ở hai đầu của một dãy dữ liệu nên trung vị không bị
ảnh hưởng bởi các giá trị rất nhỏ hoặc rất lớn (giá trị ngoại lai)
1.3 YẾU VỊ (MODE)
Một thước đo khác được sử dụng để mô tả trung tâm của tập dữ liệu là yếu vị, là giá
trị quan sát xảy ra thường xuyên nhất và xảy ra nhiều hơn một lần. Một ưu điểm
của yếu vị là không cần tính toán. Nó có thể được xác định đơn giản bằng cách đếm
các tần số. Yếu vị là thước đo duy nhất về khuynh hướng trung tâm có thể được sử
dụng cho các biến định tính, chẳng hạn như loại thuốc gây tê, dân tộc và nhóm máu
của bệnh nhân. Ngay cả đối với các biến định lượng rời rạc, chẳng hạn như quy mô
gia đình, số lần đến phòng khám bệnh và số lần mang thai, yếu vị đôi khi là thước đo
có ý nghĩa hơn về xu hướng trung tâm so với giá trị trung bình hoặc trung vị.
Chẳng hạn, sẽ hợp lý hơn khi nói rằng quy mô gia đình Việt Nam điển hình nhất là 4
người, hoặc phụ nữ Việt Nam điển hình có 2 lần mang thai trong đời, hơn là quy mô
gia đình Việt Nam trung bình là 3,8 hoặc phụ nữ Việt Nam trung bình có 1,9 lần
mang thai. Một bất lợi là một tập dữ liệu có thể có nhiều yếu vị hoặc không có yếu
vị nào nếu không có giá trị nào xuất hiện nhiều hơn một lần.
Ví dụ 4. Trong Ví dụ 1: Đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) có kết quả như sau: 455, 450, 452, 448, 445, 450, 447, 450, 448, 455
Khi đó yếu vị là 540 (mg) vì giá trị này xuất hiện nhiều lần nhất (3 lần)
• Bây giờ giả sử kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn
vị: mg) là dãy DL: 455, 450, 452, 448, 446, 456, 447, 453, 449, 445.
Khi đó dãy DL này không có yếu vị.
• Nếu kết quả đo hàm lượng Axit ascorbic trong 10 viên vitamin C (đơn vị: mg) là
dãy DL: 455, 450, 450, 448, 446, 456, 447, 453, 449, 455.
Khi đó dãy DL này có 2 yếu vị là:
Tóm tắt các tính chất quan trọng của 3 thước đo vị trí trung tâm được sử dụng rộng rãi.
Trung bình:
• Được sử dụng rộng rãi nhất và phụ thuộc vào giá trị của mọi quan sát
• Điểm cân bằng của một phân phối
• Không thích hợp cho dữ liệu định tính
• Nhạy cảm với các giá trị cực đoan
• Không thích hợp cho dữ liệu sai lệch cao (có giá trị ngoại vi)
Trung vị:
• Không nhạy cảm với các giá trị cực đoan
• Nhạy cảm với kích thước mẫu
• Được sử dụng rộng rãi cho các bảng phân phối có độ lệch cao
• Thích hợp cho các biến thứ tự
Yếu vị:
• Giá trị điển hình nhất trong dữ liệu
• Chỉ đo lường thích hợp cho dữ liệu danh nghĩa
• Thích hợp hơn giá trị trung bình hoặc trung vị cho các biến định lượng rời rạc
2. CÁC GIÁ TRỊ PHÂN TÁN
Trong phần trên, chúng ta đã thảo luận về các số đo của khuynh hướng trung tâm.
Tuy nhiên, trong thực tế không có hai bệnh nhân nào đáp ứng chính xác theo cùng
một cách đối với một phương pháp điều trị nhất định. Sự thay đổi trong tất cả các
khía cạnh của khoa học sức khỏe là không thể tránh khỏi.
Ví dụ 5. Để đánh giá việc kiểm soát mảng bám khiến nhiều bệnh nhân sợ khám và
điều trị nha khoa, các nhà điều tra đã chọn ngẫu nhiên 7 sinh viên ngành kỹ thuật và
7 sinh viên ngành y dược. Từ mỗi đối tượng trong số 14 đối tượng, sử dụng một viên
bông, một mẫu mảng bám được lấy từ bề mặt nhẵn của vùng răng hàm trên bên phải
của họ. Sau 24 giờ ủ, các mẫu được quan sát về sự phát triển của khuẩn lạc, được
biểu thị bằng số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình
thành như sau:
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330
Giá trị trung bình của mỗi tập dữ liệu trên đều là 280. Sẽ hoàn toàn không phù hợp
nếu kết luận rằng tình trạng mảng bám của hai nhóm này là như nhau vì trung bình
là như nhau. Điều này cho thấy thực tế là nếu chỉ sử dụng giá trị trung bình là không
đủ để mô tả chính xác dữ liệu.
Các thước đo của xu hướng trung tâm đại diện cho các điểm mà trên đó phân bố có xu
hướng tập trung. Các thước đo của vị trí trung tâm truyền tải thông tin quan trọng về dữ liệu,
nhưng chúng không cho chúng ta biết bất cứ điều gì về sự thay đổi hoặc phân tán của các giá
trị quan sát. Nhiều thước đo về độ biến thiên đã được đề xuất để thể hiện sự phân tán của các
giá trị quan sát xung quanh một số vị trí trung tâm. Các thước đo hữu ích nhất về sự biến
thiên trong khoa học sức khỏe như: phạm vi (range), bách phân vị (percentiles), tứ phân vị
(interquartile range), phương sai (variance), độ lệch chuẩn (standard deviation) và hệ số biến
thiên (coefficient of variation).
2.1. Phạm vi (Range)
Thước đo độ biến thiên đơn giản nhất là phạm vi, là khoảng cách giữa các quan sát lớn nhất
và nhỏ nhất. Cho dãy được ký hiệu là R và 𝑋1 , 𝑋2 , … , 𝑋𝑛 là n quan sát. Khi đó phạm vi được
tính bởi 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛.
Trong ví dụ 5 về số lượng đơn vị khuẩn lạc (colony-forming units = CFU) được hình thành
Sau 24 giờ ủ :
Sinh viên kỹ thuật: 30, 150, 250, 280, 310, 410, 530. R =
Sinh viên y dược: 230, 260, 265, 280, 295, 300, 330. R =
Phạm vi rất dễ tính toán, nhưng nó chỉ phụ thuộc vào hai giá trị cực đoan, nhỏ nhất và lớn
nhất, bỏ qua tất cả các giá trị trung gian. Vì vậy, phạm vi không phản ánh sự phân tán của các
giá trị giữa hai quan sát cực đoan. Đây là thiếu sót chính của phạm vi. Cả ba trường hợp dưới
đây có cùng phạm vi vì chúng có cùng các giá trị cực đoan, bất kể giá trị giữa chúng là bao
nhiêu.
Trường hợp 1: 30, 150, 250, 280, 310, 410, 530
Trường hợp 2: 30, 30, 30, 30, 30, 30, 530
Trường hợp 3: 30, 530, 530, 530, 530, 530, 530
Khoảng tứ phân vị chứa khoảng 50% DL. Nếu IQR lớn, thì DL có xu hướng bị phân tán rộng.
Ngược lại, nếu IQR nhỏ, thì DL có xu hướng tập trung xung quanh trung tâm của phân phối.
Nếu một phân phối là đối xứng, SK = 0; nếu nó lệch phải (hoặc lệch dương) thì SK > 0; và
nếu nó bị lệch trái (lệch âm) thì SK < 0.
2.3.2. Độ nhọn (Kurtosis)
Công thức tính độ nhọn là:
4
σ𝑛𝑖=1 𝑋𝑖 − 𝑋 Vai Đỉnh Đuôi
𝐾𝑢𝑟𝑡 = 𝑛 ×
2 2 Kurtosis âm Cao và rộng Thấp Ngắn
σ𝑛𝑖=1 𝑋𝑖 − 𝑋
Kurtosis dương Thấp và hẹp Cao Dài
Ví dụ 8. 10 người lớn đã được chọn để nghiên cứu khoảng thời gian súc miệng
bằng nước súc miệng liên quan đến thời gian súc miệng khuyến nghị của nhà sản
xuất. Biến ngẫu nhiên Xi biểu thị khoảng thời gian súc miệng (tính bằng giây) của
người thứ i.
X
15
34
25
10
25
30
35
32
18
26
2.4. BIỂU ĐỒ HỘP VÀ RÂU (Box and whisker plot)
Một loại biểu đồ trình bày trực quan về vị trí, khả năng thay đổi và các giá trị ngoại
lai là biểu đồ hộp và râu, hay được gọi đơn giản là biểu đồ hộp. Biểu đồ hộp về cơ
bản chỉ liên quan đến một số giá trị: giá trị thấp nhất, tứ phân vị thứ nhất (Q1), tứ
phân vị thứ hai (Q2 = giá trị trung vị), tứ phân vị thứ ba (Q3) và giá trị lớn nhất.
Ví dụ 9. Lượng acid uric (mg/dl) của một mẫu gồm 15 người như sau:
2.0 4.0 4.5 6.0 6.2 6.3 6.5 6.6 6.9 7.5 7.8 8.0 9.2 10.5 15.0
250
Vậy 𝑠 2 = 4
= 62.5 𝑚𝑚𝐻𝑔 2
Ví dụ 11: Thuốc hạ huyết áp A và B được sử dụng trên 2 nhóm, mỗi nhóm 5 b/n.
Huyết áp tâm thu sau khi dùng thuốc là
A: 110, 115, 120, 125, 130.
B: 100, 110, 120, 130, 140.
Chú ý: Định lý Tchebysheff có thể được sử dụng để tính gần đúng giá trị của S
𝑅
theo R. Theo đó 𝑆 ≈ 4
Trong ví dụ 11:
𝑅𝐴 = 130 − 110 = 20 nên 𝑆 ≈ 5
𝑅𝐵 = 140 − 100 = 40 nên 𝑆 ≈ 10
2.6. HỆ SỐ BIẾN THIÊN
Mặc dù SD là thước đo độ biến thiên được sử dụng rộng rãi nhất, nhưng có một nhược điểm
là nó phụ thuộc vào đơn vị đo lường. Hệ số biến thiên là thước đo dùng để so sánh mức độ
biến thiên giữa hai hay nhiều bộ dữ liệu biểu thị các đại lượng khác nhau với các đơn vị đo
lường khác nhau.
𝑆
𝐶𝑉 = × 100(%)
ത
𝑋
Ví dụ 12. Độ bền của hai loại trụ đúc sẵn, trụ bằng sợi carbon (CFP) và trụ được gia cố bằng
sợi polyethylene (PFRP), trên răng được điều trị nội nha. Giá trị trung bình của mẫu và SD
mẫu đối với CFP là 𝑋𝐴 = 67,57 kg và 𝑆𝐴= 26,57 kg, và đối với PFRP lần lượt là 𝑋𝐵 = 132,55
lbs và 𝑆𝐵 = 36,19 lbs. Sẽ không có nhiều ý nghĩa nếu so sánh trực tiếp hai SD này vì chúng
được báo cáo theo các đơn vị đo lường khác nhau. Hệ số biến thiên là thứ chúng ta cần trong
tình huống này để đo sự biến thiên.
𝑆𝐴
𝐶𝑉𝐴 = ത × 100 % =
𝑋𝐴
𝑆𝐵
𝐶𝑉𝐵 = ത × 100 % =
𝑋𝐵
2.7. Z-score
Đôi khi bạn cần biết vị trí của một quan sát so với những quan sát khác trong một
tập dữ liệu. Ví dụ, nếu bạn làm một bài kiểm tra với tổng số điểm là 35, bạn có thể
muốn biết điểm 30 của mình như thế nào so với điểm của các sinh viên khác trong
lớp. Giá trị trung bình và độ lệch chuẩn của điểm có thể được sử dụng để tính z-
score, đo vị trí tương đối của phép đo trong tập dữ liệu.
𝑥 − 𝑥ҧ
𝑧 − 𝑠𝑐𝑜𝑟𝑒 =
𝑠
Z-score đo khoảng cách giữa giá trị quan sát và giá trị trung bình, được đo bằng
đơn vị độ lệch chuẩn. Ví dụ: giả sử rằng trung bình và độ lệch chuẩn của điểm kiểm
tra (dựa trên tổng số 35 điểm) lần lượt là 25 và 4.
Z-score cho điểm 30 của bạn được tính như sau:
𝑥−𝑥ҧ 30−25
𝑧 − 𝑠𝑐𝑜𝑟𝑒 = 𝑠 = 4 = 1.25 (30 = xത + 1.25s)
Tức là điểm 30 nằm ở vị trí trung bình cộng với 1.25 độ lệch chuẩn.
Z-score là một công cụ có giá trị để xác định xem một quan sát cụ thể có khả năng
xảy ra khá thường xuyên hay không hay nó khó xảy ra và có thể được coi là một
giá trị ngoại lai (outlier).
Theo đó, một dãy DL có phân phối chuẩn, nếu một giá trị quan sát của dãy DL nằm
ngoài khoảng ഥ 𝒙 − 𝟑𝒔; ഥ𝒙 + 𝟑𝒔 thì giá trị đó là ngoại lai.
Ví dụ 13: Dạng Liệt kê: Xét hai tập giá trị
X = {7, 7, 8, 9,11, 12, 12, 14}
Ví dụ 14: Dạng thu gọn
Chiều cao của một số người
X = {150, 150, 160, 160, 160, 170, 170, 170, 170, 170, 180, 170, 180, 180, 190, 180,
190}
X 150 160 170 180 190
n 2 3 6 4 2
n 2 3 6 4 2
CHƯƠNG 4. ƯỚC LƯỢNG KHOẢNG TIN CẬY
MỘT SỐ KHÁI NIỆM
• QUẦN THỂ VÀ MẪU
- Quần thể (dân số): N
- Mẫu là tập con của quần thể : n
• SAI SỐ CHỌN MẪU
- Là sự khác biệt giữa giá trị thu được từ mẫu và giá trị đặc trưng của quần thể.
- Sai số chọn mẫu không thể tính được một cách chính xác nhưng có thể giảm đến
mức tối thiểu và giới hạn của sai số có thể xác định được.
- Có 2 yếu tố tạo ra sai số chọn mẫu:
• Chọn mẫu không đại diện được cho quần thể, khi đó giới hạn của sai số chọn mẫu
không xác định được.
• Sự biến thiên ngẫu nhiên trong sinh học, khi đó giới hạn của sai số chọn mẫu có
thể xác định được.
Ví dụ 1: Để xác định tỷ lệ lao kháng đa thuốc trong bệnh nhân mới người ta chọn
mẫu ngẫu nhiên từ một bệnh viện chuyên khoa lao ở thành phố X, tính được tỷ lệ
này là 6%. Một khảo sát khác được thực hiện bằng cách chọn mẫu ngẫu nhiên hồ sơ
của tất cả bệnh viện lao trong toàn quốc, tính được KTC cho tỷ lệ này từ 3% -5%.
1. Định nghĩa quần thể nghiên cứu.
2. Tại sao có sự khác biệt giữa 2 mẫu khảo sát. Mẫu khảo sát nào chính xác hơn?
Ví dụ 2. Lấy ngẫu nhiên một số viên nén Erythromycin được tạo trên cùng 1 máy Alpha và
đo hàm lượng (mg) của chúng. Độ chính xác của trung bình mẫu sẽ phụ thuộc vào các giá trị
ngoại lệ (đánh dấu **) xuất hiện trong mỗi mẫu. Vì mẫu 1 nhỏ nên giá trị ngoại lệ đã làm cho
giá trị trung bình mẫu tăng lên đáng kể so với giá trị trung bình tổng thể. Mẫu 2 cũng có một
giá trị ngoại lệ, nhưng nó chỉ là một quan sát trong số 12 quan sát, và do đó, giá trị trung bình
của mẫu vẫn gần với giá trị thực hơn nhiều. Điều này cho thấy mẫu càng lớn thì càng có khả
năng phản ánh tình hình thực tế cơ bản tốt hơn. Tuy nhiên, dù mẫu có lớn đến đâu thì chúng
ta cũng phải luôn lường trước một số sai số lấy mẫu ngẫu nhiên.
Chú ý: Có thể tra các giá trị 𝑎, 𝑏 theo 𝛾 và 𝑛 bất kì trong Excel.
Với ví dụ này (𝛾 = 0.95 và bậc tự do 𝑛 − 1 = 11), nhập vào ô bất kỳ theo cú pháp
sau:
Để tra giá trị 𝑎, nhập =CHIINV(0.025,11). Nhấn Enter có giá trị 𝑎 = 21.92005
Để tra giá trị 𝑏, nhập =CHIINV(0.975,11). Nhấn Enter có giá trị 𝑏 = 3.185748
2.Ước lượng KTC cho trung bình
a. Trường hợp đã biết phương sai σ2
𝜎
𝜇 =𝑥±𝐶× 𝑛
; với 𝐶 = 𝑍1+𝛾
2
• 𝛾 = 0,95 ⇒ 𝐶 = 𝑍1+𝛾 = 𝑍0.975 = 1,96
2
• 𝛾 = 0,99 ⇒ 𝐶 = 𝑍𝛾/2 = 𝑍0,995 = 2,58
b. Trường hợp chưa biết phương sai σ2 (n < 30, DL có PPC)
𝐶. S
𝜇=𝑥± ; 𝑣ớ𝑖 𝐶 = 𝑡1−𝛾 (𝑛 − 1)
𝑛
Chú ý: Có thể tra giá trị ngưỡng C của PPC theo 𝛾 bất kì trong Excel.
Để tra C trong phân phối chuẩn, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.975 . Nhập =NORMSINV(0.975). Nhấn Enter sẽ được giá trị
2
𝐶 = 1.959964 ≈ 𝟏. 𝟗𝟔
• 𝛾 = 0.99 ⇒ 𝐶 = 𝑍1+𝛾 = Z0.995 . Nhập =NORMSINV(0.995). Nhấn Enter sẽ được giá trị
2
𝐶 = 2.575829 ≈ 𝟐. 𝟓𝟖
Để tra C trong phân phối Student, nhập vào ô bất kỳ theo cú pháp như sau:
Chẳng hạn với 𝑛 = 12
• 𝛾 = 0.95 ⇒ 𝐶 = 𝑡1−𝛾 𝑛 − 1 = 𝑡0.05 11 . Nhập = TINV(0.05,11). Nhấn Enter sẽ được
giá trị 𝐶 = 2.200985 ≈ 𝟐. 𝟐𝟎𝟏
Xác định cỡ mẫu trong nghiên cứu liên quan đến giá trị trung bình.
Câu hỏi: Để sai số ước lượng không vượt quá ε thì cỡ mẫu tối thiểu bằng bao nhiêu ?
𝐶𝜎 𝐶𝜎 𝐶𝜎 2
• Nếu đã biết phương sai thì từ KTC: 𝜇 = 𝑥 ± 𝑛
⇒ 𝑛
≤𝜀⇔ 𝑛≥ 𝜀
(1)
𝐶𝑠 𝐶𝑠 𝐶𝑠 2
• Nếu chưa biết phương sai thì từ KTC: 𝜇 = 𝑥 ± ⇒ ≤𝜀⇔ 𝑛≥ (2)
𝑛 𝑛 𝜀
Chú ý: Trong cả 2 công thức tính cỡ mẫu tối thiểu ở trên thì C là hằng số của PPC
Ví dụ 4. 10 người lớn trong D đã được chọn để nghiên cứu khoảng thời gian X
súc miệng bằng nước súc miệng liên quan đến thời gian súc miệng khuyến 20
34
nghị của nhà sản xuất. Biến ngẫu nhiên 𝑋 biểu thị khoảng thời gian súc miệng
25
(tính bằng giây) của người thứ i.
15
a. Tìm KTC 95% về thời gian súc miệng của người sử dụng trong D. 25
b. Nếu muốn sai số ước lượng về thời gian súc miệng trung bình của người sử 30
dụng trong D không quá 3 (giây) thì cỡ mẫu tối thiểu bằng bao nhiêu? 35
• Tính được: 𝑛 = 10; 𝑋ത = 26; 𝑠 = 6.831 32
𝐶𝑠
a. 𝛾 = 0.95 ⇒ 𝐶 = 𝑡0.05 9 = 2.262. 𝜇 = 𝑥 ± 18
𝑛
26
𝐶.𝑠 2
b. 𝑛 ≥ =
𝜖
Vậy 𝑛𝑚𝑖𝑛 =
Trong Ví dụ 3. Đo ion 𝑁𝑎+ (đơn vị mEq/lít) trong máu
của một số người và ghi nhận được kết quả như sau:
129; 132; 140; 141; 138; 143; 133; 137; 140; 143; 138;
140.
1. Ước lượng KTC 95% trung bình lượng ion 𝑁𝑎+
2. Nếu muốn sai số ước lượng trung bình ion 𝑁𝑎 +
không quá 1 mEq/lít ở độ tin cậy 95% thì phải khảo
sát tối thiểu bao nhiêu người?
𝑥 = 137,833; 𝑠 = 4,407, 𝑛 = 12
1. Khi 𝛾 = 0.95 thì 𝐶 = 𝑡0.05 11 = 2.201
𝐶𝑠
𝜇=𝑥± =
𝑛
=
2. Cỡ mẫu: Khi 𝛾 = 0.95 thì 𝐶 = 1.96
𝐶𝑆 2
𝑛≥ 𝜖
=
Vậy 𝑛𝑚𝑖𝑛 =
Ví dụ 5. Gọi X là lượng lưu huỳnh hữu cơ có trong 500 mg metyl sulfonyl metan
(MSM) viên nén. Lưu huỳnh hữu cơ đóng một vai trò quan trọng trong việc duy trì
sụn khớp. Công thức cho MSM yêu cầu mỗi viên phải chứa 85 mg lưu huỳnh hữu
cơ. Để đánh giá mức độ tuân thủ yêu cầu, 24 viên MSM được chọn ngẫu nhiên. Kết
quả phân tích cho thấy trung bình các viên nén chứa khoảng 80,5 mg lưu huỳnh hữu
cơ. Theo kinh nghiệm, lượng lưu huỳnh hữu cơ tìm thấy trong viên nén MSM có
phân phối chuẩn với σ = 14,2 mg,
1. Tìm khoảng tin cậy 95% cho lượng lưu huỳnh hữu cơ trong viên nén.
2. Muốn sai số ước lượng không quá 5 mg, độ tin cậy 95% thì cỡ mẫu tối thiểu là
bao nhiêu?
𝑥 = 80.5; 𝜎 = 14.2, 𝑛 = 24
1. Khi 𝛾 = 0.95 thì 𝐶 = 1.96 (đã biết 𝜎)
𝐶𝜎
𝜇 = 𝑥ҧ ± =
𝑛
𝑓(1 − 𝑓)
𝑝=𝑓±𝐶
𝑛
Khi sử dụng KTC Wald cần phải kiểm tra điều kiện:
0.1 < f < 0.9 và nf ≥ 10 và n 1 − f ≥ 10 (*)
Khi thỏa (*) thì phân phối mẫu của f xấp xỉ đường cong chuẩn.
C = 1,96(γ = 0,95); C = 2,58(γ = 0,99)
*Xác định cỡ mẫu : Để sai số ước lượng không vượt quá ε thì:
𝑓(1−𝑓) 𝐶 2
𝐶 ≤𝜀⇔ 𝑛≥ × 𝑓 1 − 𝑓 (1)
𝑛 𝜀
Nếu chưa có mẫu khảo sát thăm dò (chưa biết f) thì:
2 2
2
1 1 1 1 1
𝑓(1 − 𝑓) = (−𝑓 − 𝑓) = − 𝑓 − − = − 𝑓− ≤
2 4 4 2 4
2
𝐶
(1) ⇔ 𝑛 ≥ (2)
2𝜀
Chú ý: Nếu điều kiện (*) không thỏa mãn thì các phương pháp khác, chẳng hạn
như phương pháp Clopper-Pearson hoặc phương pháp Wilson sẽ được sử dụng.
Ví dụ 7. Một khảo sát cần ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn trong
một lô thuốc gồm rất nhiều viên thuốc.
a. Nếu muốn sai số ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn không quá
0,01 ở độ tin cậy 95% thì cần khảo sát tối thiểu bao nhiêu viên thuốc?
b. Khảo sát ngẫu nhiên 200 viên trong lô thuốc, kết quả có 25 viên không đạt tiêu
chuẩn.
• Ước lượng tỷ lệ viên thuốc không đạt tiêu chuẩn của lô thuốc.
• Nếu muốn sai số ước lượng không quá 0,01 ở độ tin cậy 95% thì phải khảo sát
tối thiểu bao nhiêu viên thuốc?
Giải
𝐶 2
a. 𝑛≥ 2𝜖
=
Vậy 𝑛𝑚𝑖𝑛 =
25
b. 𝑓 = 200 = 0.125
Kiểm tra điều kiện 0.1 < f < 0.9 và 𝑛𝑓 ≥ 10 và 𝑛 1 − 𝑓 ≥ 10 thỏa mãn
𝑓(1−𝑓)
• 𝑝=𝑓±𝐶 =
𝑛
𝐶 2
• 𝑛≥ 𝜀
×𝑓 1−𝑓 =
Vậy 𝑛𝑚𝑖𝑛 =
Bài tập. Một lô thuốc có rất nhiều hộp thuốc của xí nghiệp A. Lấy ngẫu nhiên 225 hộp đem
cân, kết quả như sau:
XÁC SUẤT THỐNG KÊ Y DƯỢC
BIOSTATISTICS
CHUYÊN ĐỀ: KIỂM ĐỊNH GIẢ THUYẾT – PHÂN TÍCH
TƯƠNG QUAN – HỒI QUY
TS. ĐÀO HỒNG NAM
Fanpage: facebook.com/xstkyd
REFERENCES
1. Jay S. Kim, Ronald J. Dailey (2008), Biostatistics for Oral Healthcare,
published 2008 by Blackwell Munksgaard, a Blackwell Publishing
Company. USA.
2. Wayne W. Daniel (2009), Biostatistics: a foundation for analysis
in the health sciences. John Wiley & Sons, Inc. USA.
3. James E. De Muth (2014). Basic statistics and pharmaceutical
statistical applications. Taylor & Francis Group, LLC. USA.
4. Altman DG (1991). Practical statistics for medical research. London:
Chapman and Hall.
5. Philip Rowe. Essential Statistics for the Pharmaceutical Sciences.
John Wiley & Sons, Ltd. UK.
MỞ ĐẦU
Suy luận thống kê là một quá trình tìm kiếm các kết luận liên quan đến một tổng
thể (dân số) dựa trên thông tin hạn chế từ một mẫu được lấy từ tổng thể mà
chúng ta quan tâm. Có nhiều cách tiếp cận khác nhau để đưa ra quyết định về
dân số. Một trong những cách tiếp cận là kiểm định giả thuyết (KĐGT), có
nhiều ứng dụng trong y sinh và khoa học sức khỏe, cũng như các ngành khác.
KĐGT có thể được áp dụng để giải quyết các phỏng đoán như sau:
• Bệnh nhân được điều trị bằng nifedipine có xu hướng phì đại lợi (gingival
enlargement).
• Tỷ lệ sống sót sau 5 năm của bệnh ung thư miệng và họng ở bệnh nhân da
trắng cao hơn bệnh nhân da đen.
• Thuốc tẩy có hiệu quả hơn nhiều so với xà phòng rửa bát trong việc loại bỏ
các vi sinh vật như salmonella, pseudomonas, staphylococcus và candida.
• Điều trị bằng thuốc X làm thay đổi lượng cholesterol.
• Phụ nữ dùng thuốc ngừa thai có liên quan đến bệnh tim mạch
Mục đích của kiểm định giả thuyết là để hỗ trợ nhà nghiên cứu hoặc nhà quản lý
đưa ra kết luận liên quan đến một quần thể bằng cách kiểm định một hoặc một số
mẫu từ quần thể đó.
ĐỊNH NGHĨA: Một giả thuyết là một tuyên bố về một hoặc nhiều quần thể.
Giả thuyết thường liên quan đến các tham số của quần thể mà tuyên bố được đưa
ra. Một nhà quản lý bệnh viện có thể đưa ra giả thuyết rằng thời gian lưu trú trung
bình của những bệnh nhân nhập viện là 5 ngày; một y tá sức khỏe cộng đồng có
thể đưa ra giả thuyết rằng một chương trình giáo dục cụ thể sẽ giúp cải thiện giao
tiếp giữa y tá và bệnh nhân; bác sĩ có thể đưa ra giả thuyết rằng một loại thuốc
nhất định sẽ có hiệu quả trong 90% các trường hợp mà nó được sử dụng. Bằng
cách kiểm định giả thuyết, người ta xác định xem liệu các tuyên bố đó có tương
thích với dữ liệu có sẵn hay không.
ĐỊNH NGHĨA: Giả thuyết thống kê là giả thuyết về tham số, về luật phân phối
hoặc tính chất của biến ngẫu nhiên mà chúng có thể được đánh giá bằng các kỹ
thuật thống kê thích hợp.
Các bước kiểm định giả thuyết
1. Dữ liệu. Bản chất của dữ liệu tạo cơ sở cho các thủ tục KĐ phải được hiểu rõ,
vì điều này xác định KĐ cụ thể sẽ được sử dụng. Dữ liệu bao gồm số đếm hoặc số
đo, phải được xác định.
2. Các giả định. Các giả định thông thường là: PPC của DL, sự đồng nhất của
các phương sai và tính độc lập của các mẫu.
Trong quá trình KĐ, H0 hoặc bị bác bỏ hoặc không bị bác bỏ (chấp nhận).
Nếu H0 không bị bác bỏ, thì có thể nói rằng DL không cung cấp đủ bằng chứng để
từ chối. Ngược lại, nếu H0 bị bác bỏ thì có thể nói rằng DL hiện tại không tương
thích với H0, nhưng hỗ trợ cho GT khác: HA.
Thông thường HA và giả thuyết nghiên cứu là giống nhau, và trên thực tế, hai thuật
ngữ này được sử dụng thay thế cho nhau.
Các quy tắc để nêu giả thuyết thống kê
Tùy theo bản chất của DL, mục đích mong muốn của NNC mà có thể đặt ra các
GT khác nhau.
Ví dụ, Giả thuyết là H0: = 50; HA: ≠ 50.
Giả sử chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số lớn hơn 50
hay không. Các giả thuyết là: H0: ≤ 50; HA: > 50.
Nếu chúng ta muốn biết liệu có thể kết luận rằng trung bình dân số nhỏ hơn 50
hay không, các giả thuyết là H0: ≥ 50; HA: <50.
P value là XS thu thập được bộ DL như đã thực hiện với điều kiện H0 là
đúng. P value cũng là giá trị nhỏ nhất để có thể bác bỏ H0.
Các loại sai lầm trong KĐGT
Sai lầm mắc phải khi H0 đúng bị bác bỏ được gọi là sai lầm loại I (ký hiệu là α). Sai
lầm loại II (ký hiệu là β) là sai lầm mắc phải khi một giả thuyết H0 không bị bác bỏ
nếu nó sai. Nói chung, chúng ta không kiểm soát β, mặc dù chúng ta biết rằng trong
hầu hết các tình huống thực tế, nó lớn hơn α.
6. Tính toán giá trị KĐ. Từ dữ liệu có trong mẫu, chúng ta tính toán giá trị của
KĐ và so sánh nó với các vùng từ chối và không từ chối đã được chỉ định.
7. Quyết định. Quyết định bao gồm việc bác bỏ hoặc không bác bỏ giả thuyết vô
hiệu H0. Nó bị từ chối nếu giá trị được tính toán của KĐ nằm trong vùng bác bỏ và
ngược lại.
8. Kết luận. Nếu H0 bị bác bỏ, ta kết luận rằng HA là đúng. Nếu H0 không bị bác
bỏ, thì kết luận rằng H0 có thể đúng.
Evaluate Review State Select test
data assumptions hypotheses statistics
Determine
Caculate test State distribution
statistics decision rule of test
statistics
Ví dụ 1. Huyết áp tâm thu của 100 người khỏe 98 87 101 92 110
mạnh: 119 80 82 105 96
95 người (95%) có h/a từ 80-120 mmHg 81 81 88 115 94
có 5 người có h/a bất thường, nếu coi 5 người 115 98 96 116 114
82 116 91 107 81
này có bệnh thì sai sót α= 5% (sai lầm I) 90 84 105 89 102
Ngược lại, trong 100 người có h/a 80-120 mmHg, 81 96 110 103 101
có thể có 6 người đã có bệnh nhưng chẩn đoán 87 93 94 96 102
không bệnh thì sai sót β = 6% (sai lầm II) 119 83 96 84 103
106 100 99 84 119
Ví dụ 2. NC về hiệu quả hạ huyết áp bằng thuốc A
111 92 100 101 90
trên 2 nhóm: 96 102 92 107 97
- Nhóm 1: 83 BN được uống thuốc A 102 112 86 116 80
- Nhóm 2: 77 BN được uống placebo. Theo dõi 89 80 106 114 88
sau 3-6 tháng, đánh giá kết quả bằng các test TK 95 91 110 84 92
108 100 110 97 93
xem thuốc A có hạ được h/a.
88 90 112 98 113
Ho: Thuốc A không có tác dụng hạ h/a. 93 89 109 88 103
Có 4 tình huống xảy ra như sau: 94 96 98 88 95
(1) Ho đúng nhưng bác bỏ Ho: 60 60 130 140 150
(2) Ho đúng và không bác bỏ Ho
(3) Ho sai và bác bỏ Ho
(4) Ho sai nhưng không bác bỏ Ho
PHÉP KIỂM CHI BÌNH PHƯƠNG (CHI SQUARED TEST)
Mục đích:
- Dùng để so sánh hai tỷ lệ, nhiều tỷ lệ
- Kiểm định sự độc lập hay phụ thuộc
- Kiểm định sự phù hợp của dữ liệu với một phân phối
1. Trường hợp số liệu trên một hàng
Ví dụ 1. Thống kê số người đến khám và điều trị RHM tại một số bệnh viện, kết
quả như sau:
Nam Nữ Tổng
580 420 N =1000
Hỏi: Tỷ lệ nam và nữ có như nhau không?
H0: Tỷ lệ nam và nữ như nhau
Nếu H0 đúng thì ta có bảng sau đây, gọi là bảng phân phối tần số LT
Nam (0,5) Nữ (0,5) Tổng r
(ni − ni ') 2
500 500 n = 1000 Q= i =1 ni '
𝑟
(𝑛𝑖 − 𝑛𝑖 ′)2 (580 − 500)2 (420 − 500)2
𝑄= = +
𝑛𝑖 ′ 500 500
𝑖=1
=
Quy tắc quyết định như sau:
- Nếu Q C thì chấp nhận H0
- Nếu Q > C thì bác bỏ H0.
C là giá trị ngưỡng trong PP Chi bình phương
𝐶 = 𝜒𝛼2 (𝑟 − 1)
α C KQ KL
0,05 3,841 Q>C Bác bỏ Ho
0,01 6,635 Q>C Bác bỏ Ho
0,001 10,828 Q>C Bác bỏ Ho
Chọn α = 0,001 thì C = 10,828 Q > C nên bác bỏ Ho
Kết luận:
Ví dụ 2. Nhóm máu của một mẫu gồm 500 người lấy từ dân số X như
sau:
A (0,18) B (0,28) AB (0,05) O (0,49) Tổng
75 150 15 260 500
Hỏi: Nhóm máu của dân số X có phù hợp với quy luật trên đây không?
Ngưỡng C được tính theo phân phối Chi bình phương: 𝑪 = 𝝌𝟐𝜶(𝒓 − 𝟏) × (𝒄 − 𝟏)
a. Bảng 2x2
Bệnh B
Yếu tố A Tổng
Có Không
Có a b 𝑎 + 𝑏 = 𝑚1
Không c d 𝑐 + 𝑑 = 𝑚0
Tổng 𝑎 + 𝑐 = 𝑛1 𝑏 + 𝑑 = 𝑛0 𝑛 =𝑎+𝑏+𝑐+𝑑
𝑎𝑑 − 𝑏𝑐 2 . 𝑛
𝑄=
𝑛1 . 𝑛0 . 𝑚1 . 𝑚0
α = 0.05 C = 7.815
𝐻0: Việc cung cấp hỗ trợ ăn kiêng tại nhà không liên quan đến việc cải
thiện tình trạng dinh dưỡng 3 tháng sau khi xuất viện.
Vì Q > C nên bác bỏ 𝐻0.
Kết luận:
Ví dụ 6. Dịch vụ Y tế Công cộng Hoa Kỳ và Trung tâm Kiểm soát và Phòng ngừa
Dịch bệnh khuyến cáo rằng tất cả phụ nữ trong độ tuổi sinh đẻ nên tiêu thụ 400 mg
axit folic mỗi ngày để giảm nguy cơ mang thai bị ảnh hưởng bởi khuyết tật ống
thần kinh như tật nứt đốt sống hoặc dị tật não. Trong một nghiên cứu của
Stepanuk et al. (A-3), 693 phụ nữ mang thai đã gọi cho một dịch vụ thông tin về dị
tật về việc họ sử dụng bổ sung axit folic. Các nhà nghiên cứu muốn xác định xem
việc sử dụng lại axit folic và chủng tộc có liên quan hay không. Dữ liệu như trong
Bảng:
H0:
Kết luận:
Chú ý: Phép kiểm chi bình phương chỉ có hiệu lực tốt khi tần số lý thuyết 𝑛𝑖′ ≥ 5.
Nếu vi phạm điều này cần thiết phải sử dụng các phép hiệu chỉnh hoặc phép kiểm
chính xác Fisher.
❖ Hiệu chỉnh liên tục Yates(1934): sử dụng khi 2 ≤ 𝑛𝑖′ < 5
𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2
𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
❖ Phép kiểm chính xác Fisher (Fisher’s exact test): Sử dụng khi 𝑛𝑖′ < 2
. dụ 7. Số trẻ em từ 13–14 tuổi tiêu thụ trái cây và rau quả đáp ứng các khuyến
Ví
nghị, theo giới tính. Đặt GT 𝐻0:
𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2 2
𝑄= = 2,539 < 𝐶 = 𝜒0,05 1 = 3,841. Chấp nhậnH0.
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
Kết luận:
Ví dụ 8. Dùng thuốc X điều trị cho 21 bệnh nhân bị bệnh A, thấy khỏi bệnh 4
người. Dùng thuốc Y điều trị cho 19 bệnh nhân bị bệnh A, thấy khỏi bệnh 1
người. Kết luận?
H0:
Thuốc Khỏi bệnh Không khỏi Tổng Thuốc Khỏi bệnh Không khỏi Tổng
X 4 17 21 X 2,625 18,375 21
Y 1 18 19 Y 2,375 16,625 19
Tổng 5 35 40 Tổng 5 35 40
𝑛 𝑎𝑑 − 𝑏𝑐 − 0.5𝑛 2
𝑄=
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)
2
Chọn 𝛼 = 0.05 ⇒ 𝐶 = 𝜒0.05 1 = 3.841.
Vì Q < C nên không bác bỏ 𝐻0
Kết luận:
PHÂN BIỆT CÁC THAM SỐ MẪU VÀ DÂN SỐ (QUẦN THỂ)
SO SÁNH HAI TRUNG BÌNH (Two Sample Means Comparisons)
1. So sánh trung bình thực nghiệm và trung bình lý thuyết (0)
𝐻0 : 𝜇 = 𝜇0 ; 𝐻1 : 𝜇 ≠ 𝜇0
a. Khi mẫu rút từ dân số có PPC và phương sai 2 đã biết
(nếu 𝒏 ≥ 30 thì 2 = s2) α 0.05 0.01
𝑋 − 𝜇0
𝑍= ~𝑁(0; 1) C 1,96 2,58
𝜎/ 𝑛
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
b. Khi mẫu rút từ dân số có PPC và phương sai 2
chưa biết (n < 30)
𝑋 − 𝜇0
𝑇= ~𝑡𝛼 𝑛 − 1
𝑠/ 𝑛
Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑑𝑓) thì bác bỏ H0.
Ví dụ 6. Khảo sát mức tăng cân (g) được đo trong khoảng thời gian Breast 1.6
Bottle
0.6
từ 4 đến 12 tuần ở hai nhóm trẻ sơ sinh tại một vùng dân cư. Một 1.5 0.8
nhóm được bú sữa mẹ và nhóm còn lại bú bình. Kết quả được thể 0.6 0.75
hiện trong Bảng. Có sự khác biệt về tốc độ tăng trưởng giữa hai 1 0.7
nhóm trẻ sơ sinh không? 1.1 1
1.7 1.2
• So sánh hai phương sai:
0.9
𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1: 𝜎12 ≠ 𝜎22 1.5
2
𝑠1 1.4
𝐹= 2= 1.6
𝑠2
Breast Bottle
F < C = F0.05(9;5) = 4.772, không bác bỏ H0. Mean 1.29 0.842
• So sánh hai trung bình: H0: µ1 = µ2 Variance 0.134 0.048
2 2
2
𝑛 1 − 1 𝑠1 + 𝑛2 − 1 𝑠2
Observations 10 6
𝑠𝑝 = = Pooled Variance 0.104
𝑛1 + 𝑛2 − 2 df 14
𝑥ҧ1 − 𝑥ҧ2 t Stat 2.697
𝑡= = P(T<=t) one-tail 0.009
1 1 t Critical one-tail 1.761
𝑠𝑝2 𝑛 + 𝑛 P(T<=t) two-tail 0.017
1 2
t Critical two-tail 2.145
|t| > C = t0.05(14) = 2.145, bác bỏ H0.
Kết luận:
Ví dụ 7. Dernellis và Panaretou đã khảo sát chỉ số độ cứng động mạch chủ trên 15 bệnh
nhân bị tăng huyết áp (nhóm 1) và 30 người khỏe mạnh (nhóm 2). Các phép đo của biến
này được tính toán từ đường kính động mạch chủ được đánh giá bằng siêu âm tim và
huyết áp. Các thông số về chỉ số độ cứng trung bình của động mạch chủ và độ lệch
chuẩn tương ứng của 2 nhóm là: Nhóm 1: 19.16 và 5.29; nhóm 2: 9.53 và 2.69. Các
NNC muốn xác định xem có sự khác nhau về chỉ số độ cứng trung bình của động mạch
chủ trong 2 dân số lấy mẫu bởi 2 nhóm trên hay không.
• So sánh hai phương sai: 𝐻0 : 𝜎12 = 𝜎22 ; 𝐻1 : 𝜎12 ≠ 𝜎22
𝑠12
𝐹= 2=
𝑠2
F > C = F0.05(14;29) = 2.05, bác bỏ H0.
• So sánh hai trung bình: H0: µ1 = µ2
2 2 2 2 2
𝑠1 𝑠 2 𝑠𝑒1 + 𝑠𝑒2
𝑠𝑒12 = = 1.865; 𝑠𝑒22 = = 0.241; 𝑑𝑓 = 4 4 =
𝑛1 𝑛2 𝑠𝑒1 𝑠𝑒2
+
𝑛1 − 1 𝑛2 − 1
𝑥1 − 𝑥2
𝑡= =
2 2
𝑠𝑒1 + 𝑠𝑒2
Vì |t| > C = t0.05(16) = 2.119, bác bỏ H0.
Kết luận:
3. So sánh 2 trung bình ghép cặp (PAIRED COMPARISONS)
Một phương pháp thường được sử dụng để đánh giá hiệu quả của một quy trình
điều trị hoặc thử nghiệm là một phương pháp sử dụng các quan sát liên quan thu
được từ các mẫu không độc lập. Một phép kiểm định giả thuyết dựa trên loại dữ
liệu này được gọi là kiểm định so sánh theo cặp.
Ví dụ, NNC muốn so sánh hai loại kem chống nắng. Có ít nhất hai cách để thực
hiện thử nghiệm. Một phương pháp sẽ là chọn một mẫu ngẫu nhiên đối tượng
nhận kem chống nắng A và một mẫu ngẫu nhiên đối tượng nhận kem chống nắng
B. NNC đưa đối tượng ra nắng trong một khoảng thời gian xác định, sau đó đo
lượng ánh nắng mặt trời. Giả sử chúng ta sử dụng phương pháp này, nhưng vô
tình, hầu hết các đối tượng được sử dụng kem chống nắng A có nước da sẫm màu
và ít nhạy cảm hơn với ánh sáng mặt trời. Giả sử rằng sau khi hoàn thành thí
nghiệm, chúng ta thấy rằng các đối tượng sử dụng kem chống nắng A ít bị tổn
thương do ánh nắng mặt trời hơn. Chúng ta sẽ không biết liệu họ có ít bị tổn
thương bởi ánh nắng mặt trời hơn vì kem chống nắng A có khả năng bảo vệ tốt
hơn kem chống nắng B hay vì đối tượng vốn dĩ ít nhạy cảm hơn với ánh nắng mặt
trời.
Cách tốt hơn để thiết kế thử nghiệm là chỉ chọn một mẫu đối tượng ngẫu nhiên và
để mỗi thành viên của mẫu nhận được cả hai loại kem chống nắng.
Ví dụ, chúng ta có thể chỉ định ngẫu nhiên các loại kem chống nắng ở bên trái hoặc
bên phải của lưng mỗi đối tượng với mỗi đối tượng nhận được cả hai loại kem
chống nắng. Sau một khoảng thời gian nhất định tiếp xúc với ánh nắng mặt trời, đo
lượng ánh nắng mặt trời gây ra cho mỗi nửa lưng.
Nếu nửa mặt lưng tiếp nhận kem chống nắng A có xu hướng ít bị hư hại hơn, chúng
ta có thể tự tin gán kết quả đó cho kem chống nắng A, vì trong mỗi trường hợp, cả
hai loại kem chống nắng đều được áp dụng cho làn da có sắc tố như nhau.
Ví dụ: bạn có thể muốn biết chế độ ăn kiêng Time Point
có chỉ số đường huyết thấp có tác động có lợi Subject Baseline 4 weeks
đến mức đường huyết lúc đói hay không. Bạn 1 x1,0 x1,1
sẽ đo đường huyết lúc đói ở mỗi đối tượng 2 x2,0 x2,1
sau một đêm nhịn ăn, vào cùng thời điểm vào 3 x3,0 x3,1
buổi sáng; sau đó cung cấp cho họ chế độ ăn 4 x4,0 x4,1
kiêng có chỉ số đường huyết thấp trong bốn 5 x5,0 X5,1
tuần; và sau đó đo đường huyết lúc đói lần 6 X6,0 X6,1
thứ hai, cũng lúc đói và đồng thời vào buổi 7 X7,0 X7,1
sáng như lần đo đầu tiên. 8 X8,0 X8,1
9 X9,0 X9,1
10 X10,0 X10,1
Thay vì thực hiện phân tích với các quan sát riêng lẻ, chúng ta sử dụng 𝑑𝑖 , sự khác
biệt giữa các cặp quan sát, làm biến quan tâm. Khi n chênh lệch mẫu được tính từ n
cặp phép đo tạo thành một mẫu ngẫu nhiên từ một tập hợp chênh lệch được phân
phối chuẩn, phép kiểm để kiểm tra các giả thuyết về chênh lệch trung bình của tổng
thể là:
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
a. Nếu d2 đã biết (nếu n > = 30 thì d2 = sd2)
𝑑ҧ − 0
𝑍= ~𝑁(0; 1)
𝜎𝑑 / 𝑛
Quy tắc quyết định: Nếu |Z| > C thì bác bỏ H0.
b. Nếu d2 chưa biết và n < 30
𝑑ҧ − 0
𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
𝑠𝑑 / 𝑛
Quy tắc quyết định : Nếu |t| > C = 𝑡𝛼 (𝑛 − 1) thì bác bỏ H0.
Ví dụ 8. Một nghiên cứu được thực hiện trên chuột để đánh giá tác dụng tăng lực
của thuốc A. 6 con chuột được cho chạy và ghi lại thời gian (từ khi bắt đầu chạy
cho đến khi kiệt sức) trước và sau khi uống thuốc A. Các kết quả sau:
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0
Trước 34 46 30 24 40 44
𝑑 = 11; 𝑆𝑑 = 7.456 Sau 46 56 28 34 56 64
𝑑 d 12 10 -2 10 16 20
𝑡= 𝑛=
𝑠𝑑
Nếu = 0.05 thì C = t0.05(5) = 2.571 |t| > C, bác bỏ Ho
Kết luận:
Ví dụ 9. Để kiểm nghiệm thuốc A người ta định phân chất
ID Trước Sau D
Cl2 trong nước tiểu trước và sau khi tiêm thuốc A. Kết
1 3.32 5.29 1.97
quả như sau (đơn vị: mEa/giờ). 2 2.32 8.96 6.64
Sự bài tiết chất 𝐶𝑙2 có ảnh hưởng bởi thuốc A không? 3 1.9 9.83 7.93
𝐻0 : 𝜇𝑑 = 0; 𝐻1 : 𝜇𝑑 ≠ 0 4 4.73 5.91 1.18
𝑑 = 4.291; 𝑆𝑑 = 5.69; n = 10 5 4.64 0.59 -4.05
𝑑 6 1.74 7.42 5.68
𝑡= = 7 4.2 9 4.8
𝑠𝑑 / 𝑛 8 0.73 17.71 16.98
Nếu = 0.05 thì C = t0.05(9) = 2.262 |t| > C, bác bỏ Ho 9 3.08 3.05 -0.03
Kết luận: 10 4.61 6.42 1.81
Ví dụ 10. Trong một nghiên cứu về giáo dục dinh dưỡng, 10 bệnh nhân mắc bệnh
tiểu đường đã được cung cấp chương trình giáo dục sức khỏe theo chương trình
về việc ăn uống lành mạnh. Bệnh nhân được kiểm tra kiến thức của họ trước và
sau khi hướng dẫn. Dữ liệu được hiển thị trong Bảng. Điểm kiến thức ăn uống
lành mạnh trước và sau khi hướng dẫn.
Chúng ta giả định theo H0 rằng nếu chương trình
giáo dục sức khỏe không có tác dụng, thì sự khác
biệt trung bình giữa điểm trước và điểm sau phải
bằng 0, nghĩa là, H0 : μd = 0
𝑑ҧ
𝑡= =
𝑠/ 𝑛
|t| > t0.05 (9) = 2.262). Bác bỏ H0
Kết luận:
PHÂN TÍCH PHƯƠNG SAI
(ANALYSIS OF VARIANCE - ANOVA)
1. PHÂN TÍCH PHƯƠNG SAI 1 YẾU TỐ
Phân tích phương sai (ANOVA) là một kỹ thuật tổng quát của kiểm định t. Điều này
tương đương với phép kiểm t không ghép đôi cho hơn hai nhóm. Giả thiết cơ bản là
các quan sát trong mỗi nhóm được rút ra từ cùng một quần thể. Do đó, kỳ vọng là
không có sự khác biệt giữa các trung bình của nhóm.
Ví dụ: Phân tích sự tăng trưởng ở bốn nhóm chuột được cho ăn khẩu phần có 0%,
0,5%, 1% hoặc 2% axit linoleic (thứ tự tự nhiên).
So sánh nồng độ hemoglobin ở các bà mẹ từ ba làng khác nhau (không theo thứ tự
tự nhiên).
Ngày nhập viện của trẻ nhỏ với ba chế độ ăn khác nhau sau khi đặt nội soi cắt dạ
dày (không thiết lập trật tự tự nhiên). Mục đích trong mỗi trường hợp là để kiểm tra
bằng chứng về sự khác biệt thực sự giữa các trung bình nhóm so với sự khác biệt có
thể phát sinh tình cờ do lỗi lấy mẫu.
Các giả định trong phân tích phương sai một yếu tố
1. Có ba hoặc nhiều nhóm quan sát được rút ra từ cùng một tổng thể
2. Sự phân bố của biến là PPC
3. Các mẫu là ngẫu nhiên và độc lập
4. Không có sự phù hợp giữa các mẫu
5. Sự khác biệt của các mẫu giống nhau
𝑆𝑓2
• Tính 𝐹 = ~𝐹𝑖𝑠ℎ𝑒𝑟(𝑐 − 1; 𝑁 − 𝑐)
𝑆𝑟2
Miền bác bỏ H0: F > C = F (c-1; N-c)
Bảng Anova
Ví dụ 1. Số lượng tiểu cầu giảm nhiều trong bệnh sốt xuất huyết (SXH), giảm
trung bình trong sốt dengue (SD) và giảm ít trong nhiễm siêu vi (NSV). Xét
nghiệm tiểu cầu cho 10 bệnh nhân mỗi nhóm có kết quả sau:
Hỏi: Có sự khác biệt về số lượng tiểu cầu ( 1000mm ) trong 3 nhóm trên không?
SD SXH NSV 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3
150 100 140 𝑋1 = 140; 𝑋2 = 80; 𝑋3 = 170
2
140 130 200 𝑁 = 130; σσ𝑋 = 3900; σσ𝑋 = 599600
2
170 80 210 𝑁𝑋 = 30.1302 = 507000
2
160 70 230 𝑄𝑇 = 𝑋ij2 − 𝑁𝑋
90 40 100 ij
240 30 120 =
2
2
100 120 220 𝑄𝑓 = 𝑛𝑗 𝑋𝑗 − 𝑁𝑋
140 130 160 ij
120 20 150 =
𝑄𝑟 = 𝑄𝑇 − 𝑄𝑓
90 80 170 =
𝑄𝑓 42000 𝑄𝑟 50600
𝑆𝑓2 = = = 21000; 𝑆𝑟2 = = = 1874,074
𝑐−1 2 𝑁−𝑐 27
𝑆𝑓2
𝐹= 2 =
𝑆𝑟
Lấy = 0.05 C =F0.05(2;27) = 3.354
Vì F > C nên bác bỏ H0
Kết luận:
Bảng Anova
Kết luận:
Ví dụ 3: Có 4 loại thuốc gây mê A, B, C, D thử A B C D
nghiệm trên 4 lô chuột có cùng thể trạng. Kết quả
0,79 0,48 0,5 0,34
như bảng bên.
Tác dụng của 4 loại thuốc trên có như nhau 0,76 0,45 0,48 0,37
không? 0,74 0,49 0,49 0,39
0,75 0,44 0,51 0,38
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
0,76 0,47
A B C D
SUMMARY
82 80 77 65
89 70 69 75
Groups Count Sum Average
77 72 67 67 A 4 320 80
72 90 65 55 B 6 482 80.333
78 63 C 4 278 69.5
92 70 D 6 395 65.833
0,76 0,47
Một quy trình so sánh nhiều lần do Tukey phát triển thường được sử dụng để kiểm
tra giả thuyết rỗng rằng tất cả các cặp trung bình có thể là như nhau khi tất cả các
mẫu đều có cùng kích thước.
Khi tất cả các mẫu không có cùng kích thước, thì không thể áp dụng thử nghiệm
HSD của Tukey. Tuy nhiên, bản thân Tukey và Kramer đã mở rộng quy trình
Tukey cho trường hợp kích thước mẫu khác nhau. Thủ tục của họ, đôi khi được
gọi là phương pháp Tukey-Kramer.
Example 2
in SPSS
To test Homogeneity of
variance, press the “Options"
button and choose the
following:
Phân tích hồi quy hữu ích trong việc đánh giá các dạng cụ thể của mối quan hệ
giữa các biến và mục tiêu cuối cùng khi phương pháp phân tích này được sử
dụng thường là để dự đoán hoặc ước tính giá trị của một biến tương ứng với một
giá trị nhất định của một biến khác. Các ý tưởng về hồi quy lần đầu tiên được
làm sáng tỏ bởi nhà khoa học người Anh Sir Francis Galton (1822–1911) trong
các báo cáo nghiên cứu của ông về tính di truyền — đầu tiên là ở đậu ngọt và sau
đó là ở tầm vóc con người. Ông mô tả xu hướng của con cái trưởng thành, có bố
mẹ thấp hoặc cao, quay ngược lại với chiều cao trung bình của dân số chung.
Đầu tiên, ông sử dụng từ đảo ngược, và sau đó là hồi quy, để chỉ hiện tượng này.
Mặt khác, phân tích tương quan quan tâm đến việc đo lường mức độ mạnh mẽ
của mối quan hệ giữa các biến. Khi chúng ta tính toán các thước đo về mối tương
quan từ một tập hợp dữ liệu, chúng ta quan tâm đến mức độ tương quan giữa các
biến. Một lần nữa, các khái niệm và thuật ngữ của phân tích tương quan bắt
nguồn từ Galton, người đầu tiên sử dụng từ tương quan vào năm 1888
1. Mô hình hồi quy tuyến tính
Phân tích HQTT là tìm sự liên hệ giữa 2 biến số liên tục X và Y có dạng
Y = aX + b và từ phương trình này ta có thể dự đoán được biến Y.
a và b gọi chung là hệ số hồi quy và được ước lượng theo phương pháp
bình phương bé nhất
a: hệ số góc hoặc độ dốc
b: điểm cắt trên trục tung của đường thẳng Y = aX + b
X: biến độc lập
Y: biến phụ thuộc
Các giả định của mô hình hồi quy tuyến tính
1. Giá trị của biến độc lập X được cho là “cố định”. Điều này có nghĩa là các giá
trị của X được người điều tra chọn trước để khi thu thập dữ liệu, chúng không
được phép thay đổi so với các giá trị đã chọn trước này.
2. Biến X được đo không sai số. Vì không có quy trình đo nào là hoàn hảo, điều
này có nghĩa là độ lớn của sai số đo trong X là không đáng kể.
3. Với mỗi giá trị của X có một tập con của các giá trị Y. Để các quy trình suy
luận thông thường về ước lượng và kiểm tra giả thuyết có hiệu lực, các quần thể
con này phải được phân phối chuẩn.
4. Phương sai của các quần thể con của Y đều bằng nhau và được ký hiệu là σ2.
5. Các giá trị trung bình của quần thể con Y đều nằm trên cùng một đường thẳng.
Đây được gọi là giả định về độ tuyến tính. Giả định này có thể được biểu thị một
cách tượng trưng là y = β0 + β1x + ϵ
6. Các giá trị Y là độc lập về mặt thống kê. Nói cách khác, khi vẽ mẫu, giả định
rằng các giá trị của Y được chọn tại một giá trị của X không phụ thuộc vào các
giá trị của Y được chọn ở một giá trị khác của X.
Chú ý: Một số giáo trình của VN thường
viết PTHQ là 𝒀 = 𝒂𝒙 + 𝒃.
Trong khi các giáo trình nước ngoài thường
viết PTHQ là 𝒀 = 𝒂 + 𝒃𝒙
Mục đích của phương pháp bình phương bé
nhất là xác định a và b sao cho d 2 nhỏ nhất.
𝑎 𝑥 2 + 𝑏 𝑥 = 𝑥𝑦
𝑅. 𝑆𝑦
𝑎=
⇔൞ 𝑆𝑥
𝑎 𝑥 + 𝑛𝑏 = 𝑦 𝑏 = 𝑦lj − 𝑎𝑥lj
Ví dụ 1: Cân nặng (Y) của 6 trẻ từ 1 đến 6 tuổi (X) như sau:
X 1 2 3 4 5 6
Y 10 12 14 16 18 20
Nối các cặp (X, Y) này sẽ tạo thành một đường thẳng: Y =
Ví dụ 2: Tuổi (X) và cân nặng (Y) của 6 X 1 2 3 4 5 6
trẻ em khác như sau: Y 11 11 14 16 18 20
Ví dụ 3. Nghiên cứu về sự thải trừ thuốc sau khi uống một thời gian. Gọi
X(giờ) là thời gian khi uống thuốc và Y (g/ml) là nồng độ thuốc khi đó. Quan sát
(X, Y) nhiều lần ta có kết quả sau:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,4