Professional Documents
Culture Documents
TKYH NguyenLyKiemDinh ThaiThanhTruc Text
TKYH NguyenLyKiemDinh ThaiThanhTruc Text
thì 100 giá trị trung bình chiều cao sẽ có phân phối bình thường và bình quân các giá trị trung
bình của 100 nghiên cứu sẽ bằng với trung bình của dân số đích (tất cả người trưởng thành tại
TP.HCM).
Nếu như giá trị trung bình của dân số là con số thực và đúng đắn thì khi giá trị trung
bình mẫu khác biệt nhiều so với giá trị của dân số sẽ nói lên rằng rất ít khả năng nhà nghiên
cứu có được một mẫu như thế từ dân số đích (nhưng thực tế nhà nghiên cứu đã có). Ví dụ,
chiều cao trung bình của toàn bộ người trưởng thành tại TP.HCM là 160 cm và một nghiên cứu
tiến hành cho kết quả chiều cao trung bình là 180 cm. Sự khác biệt lớn cho thấy khó có khả
năng mẫu này được lấy từ dân số những người trưởng thành tại TP.HCM và/hoặc phải có điều
gì đó đặc biệt trong mẫu nghiên cứu này. (Bật mí: nghiên cứu này tiến hành đo chiều cao trung
bình ở người trưởng thành tại TP.HCM bằng cách lấy mẫu tại một trường thể dục thể thao và
ngẫu nhiên lại trùng vào thời điểm đội tuyển bóng rổ vừa học xong). Trong trường hợp này,
nhà nghiên cứu cần tìm hiểu lại tính hợp lý, đại diện của mẫu nghiên cứu so với dân số đích.
Ngược lại, trong trường hợp trung bình mẫu khác biệt ít so với trung bình dân số thì nhiều khả
năng mẫu mà nhà nghiên cứu đã chọn phù hợp với dân số đích và dĩ nhiên tính suy diễn sẽ tốt
hơn so với trường hợp bên trên.
Hình 3.1 thể hiện chiều cao dân số của người Việt trưởng thành tại TP.HCM. Khi đó,
nếu chiều cao của dân số thật sự là 160 cm thì trong nhiều nghiên cứu trên nhiều mẫu sẽ có
trung bình chiều cao các mẫu có phân phối như hình 3.1 bên dưới. Sử dụng qui luật của phân
phối chuẩn, chúng ta biết rằng có 95% các nghiên cứu lấy mẫu từ dân số này sẽ cho kết quả
trung bình chiều cao nằm trong khoảng hai độ lệch chuẩn quanh giá trị trung bình dân số này.
Sẽ rất ít có khả năng chúng ta lấy mẫu từ dân số này và cho kết quả trung bình chiều cao ngoài
ngưỡng 2 độ lệch chuẩn. Trong trường hợp đó hoặc con số được gọi là trung bình dân số không
chính xác hoặc mẫu nghiên cứu có vấn đề cần xem xét.
Hình 3.1: Dữ liệu của nhiều nghiên cứu trên cùng dân số đích có phân phối bình thường
với trung bình là giá trị thật sự của dân số.
Các con số thống kê mô tả thường dùng để trình bày và tóm tắt dữ liệu để từ đó có thể
đưa ra các quyết định hay kết luận cho một báo cáo khoa học hoặc một khuyến nghị cho các
cơ quan, đối tượng. Tuy nhiên, có khả năng những kết quả hay kết luận đó chỉ là do sự trùng
hợp tình cờ mà không phải là kết quả hay kết luận đại diện thật sự cho dân số. Khả năng này
xảy ra khi một thử nghiệm, nghiên cứu khác hoàn toàn tương tự được lặp lại nhưng kết luận lại
khác đi. Vì vậy, điều cần thiết trong các nghiên cứu là việc sử dụng các phương pháp thống kê
phân tích để đánh giá xem các phát hiện trong nghiên cứu là do ngẫu nhiên và tình cờ trùng
hợp hay thật sự là kết quả phù hợp và đại diện cho quần thể nghiên cứu. Một trong những công
cụ có thể làm được điều này là các kiểm định giả thuyết thống kê dạng suy luận và là nội dung
cơ bản của cái gọi là “giá trị p” hay “p value”.
Theo nghĩa đen, kiểm định giả thuyết hay kiểm định thống kê là quá trình tính toán qua
nhiều bước nhằm chứng minh giả thuyết đúng hay không đúng, phù hợp hay không phù hợp.
Kiểm định giả thuyết ngoài việc có thể cho biết kết quả trong mẫu nghiên cứu có giống hay
khác so với quần thể đích mà còn có thể dùng để so sánh sự giống, khác, lớn hơn, nhỏ hơn của
hai quần thể với nhau và/hoặc hai mẫu với nhau. Quay lại với ví dụ về chiều cao trung bình
của toàn bộ người trưởng thành tại TP.HCM, một nghiên cứu tiến hành chọn ngẫu nhiên 2000
người tại khắp các quận huyện. Khi có dữ liệu, nhà nghiên cứu có thể so sánh với giá trị của
dân số (160 cm) để xem kết quả nghiên cứu của mình có phù hợp hay không. Ngoài ra, nhà
nghiên cứu cũng có thể so sánh chiều cao trung bình giữa nam giới và nữ giới trong số 2000
người đã tham gia nghiên cứu. Ở đây, có thể xem nam giới và nữ giới là hai nhóm dân số hoặc
hai mẫu khác nhau và kiểm định giả thuyết sẽ vẫn có thể ứng dụng trong trường hợp này. Nếu
dùng kết quả nghiên cứu của mình để so sánh với con số của dân số hoặc con số của nghiên
cứu khác thì được gọi là kiểm định giả thuyết một mẫu. Nếu so sánh các nhóm trong nghiên
cứu với nhau và/hoặc các dân số với nhau thì được gọi là kiểm định nhiều mẫu.
con số của dân số là đúng. Một số tác giả gợi ý rất nhiều bước bằng cách chia nhỏ qui trình
thực hiện nhưng về cơ bản để thực hiện một kiểm định thống kê thường cần trải qua 5 bước:
- Xác định giả thuyết thống kê và ngưỡng ý nghĩa
- Chọn lựa kiểm định phù hợp
- Tính chỉ số thống kê tương ứng
- Tính xác xuất
- Kết luận
Năm bước này có “liên đới trách nhiệm” với nhau vì sai sót của một bước sẽ dẫn đến
các sai sót của những bước sau đó. Ví dụ, ứng với một giả thuyết mà lựa chọn con số hoặc
phương pháp thống kê sai sẽ dẫn đến giá trị p bị sai và đưa ra kết luận không phù hợp. Ngày
nay, với sự hỗ trợ của các phần mềm thống kê thì bước thứ 3 (tính chỉ số thống kê) và 4 (tính
xác suất) ít bị sai sót hơn nhưng dễ bị quên hơn. Một số nhà nghiên cứu sẽ chỉ quan tâm đến
giả thuyết, chọn kiểm định, bấm lên phần mềm và kết luận. Vì vậy, chúng ta nên tiến hành cả
năm bước trong giai đoạn làm quen ban đầu có cái nhìn và hiểu biết một cách có hệ thống về
kiểm định giả thuyết thống kê.
Cần lưu ý rằng giả thuyết không (H0) đôi khi khác với giả thuyết nghiên cứu. Ví dụ,
nhà nghiên cứu muốn chứng minh rằng chiều cao của nam hơn nữ hoặc giới tính có liên quan
đến chiều cao. Khi đó giả thuyết nghiên cứu đặt ra ban đầu có thể là: 1) Chiều cao của nam
giới trưởng thành tại TP.HCM hơn nữ giới hoặc 2) Giới tính có mối liên quan với chiều cao ở
người trưởng thành tại TP.HCM. Tuy nhiên, khi đã có dữ liệu và tiến hành kiểm định giả thuyết
này thì giả thuyết thống kê H0 phải là giả thuyết âm tính hoặc trung tính và có thể là: 1) Trung
bình chiều cao của nam giới trưởng thành tại TP.HCM tương đương nữ giới hoặc 2) Trung
bình chiều cao của nam giới trưởng thành tại TP.HCM không khác biệt so với nữ giới hoặc 3)
Không có mối liên quan giữa giới tính và chiều cao ở người trưởng thành tại TP.HCM. Có thể
thấy rằng giả thuyết nghiên cứu là một câu trả lời tạm thời cho câu hỏi nghiên cứu và giả thuyết
thống kê (H0) phải là một phát biểu âm tính hoặc trung tính và là một bước trong quá trình giả
định tính toán.
Để có thể hiểu rõ hơn về giả thuyết nghiên cứu và giả thuyết thống kê, chúng ta hãy
quay lại ví dụ về quan tòa xử án. Khi bắt được thủ phạm của một vụ giết người, tất cả những
người liên quan như người dân, cảnh sát điều tra, kiểm sát viên và kể cả quan tòa đều muốn
đưa thủ phạm ra để “kết án”. Kết án ở đây có nghĩa là mọi người đều biết người này có tội và
việc có tội được xem là một câu trả lời tạm thời trong trường hợp này (giả thuyết nghiên cứu).
Tuy nhiên, khi “thăng đường xử án” thì quan tòa luôn giả định thủ phạm/bị cáo không có tội
(giả thuyết thống kê) và rồi các bằng chứng (trong thống kê thì đó là các con số thống kê) sẽ
giúp quan tòa xem giả định vô tội của mình có chấp nhận được hay không.
Giả thuyết H0 là một phát biểu về tham số của dân số trong đó giả định tham số này là
đúng. Giả thuyết H0 là điểm khởi đầu để từ đó chúng ta quyết định xem khả năng xảy ra nhiều
hay ít và từ đó kết luận đúng hay không. Cần lưu ý rằng lý do duy nhất mà chúng ta tiến hành
kiểm định giả thuyết là bởi vì chúng ta nghĩ giả thuyết có thể bị sai. Trong kiểm định giả thuyết
còn có giả thuyết thay thế (alternative hypothesis), hay còn gọi là giả thuyết H1 (hoặc Ha). H1
(Ha) là một phát biểu ngược lại với giả thuyết H0 trong đó thể hiện tham số thật sự của dân số
thấp hơn, cao hơn hoặc không bằng so với giá trị đã nêu trong giả thuyết H0. Hay nói cách
khác giả thuyết H1 (Ha) là điều mà chúng ta nghĩ giả thuyết H0 bị sai. Nếu giả thuyết H0 thể
hiện chiều cao trung bình của người trưởng thành tại TP.HCM trong nghiên cứu không khác
so với dân số (160 cm) thì giả thuyết H1 (Ha) có thể là 1) chiều cao trung bình của người trưởng
thành tại TP.HCM trong nghiên cứu có khác biệt so với dân số hoặc 2) chiều cao trung bình
của người trưởng thành tại TP.HCM trong nghiên cứu nhỏ hơn so với dân số hoặc 3) chiều
cao trung bình của người trưởng thành tại TP.HCM trong nghiên cứu lớn hơn so với dân số.
Sau khi đã có giả thuyết H0 và giả thuyết H1 (Ha), nhà nghiên cứu cần xác định ngưỡng
ý nghĩa. Việc này cũng giống như đưa ra định nghĩa thế nào là có tội và thế nào là không có tội
trong phiên tòa xét xử. Thông thường ngưỡng ý nghĩa sẽ được thiết lập ở mức 5% đối với hầu
hết các nghiên cứu nhưng một số nghiên cứu vẫn có thể thiết lập ở mức 10%. Khi đó nếu xác
suất có được từ mẫu nhỏ hơn 5% và nếu giả thuyết H0 là đúng thì chúng ta có thể kết luận rằng
mẫu nghiên cứu mà chúng ta đã chọn rất ít có khả năng xảy ra (mà thực tế nó đã xảy ra) và
chúng ta bác bỏ giả thuyết H0. Vì vậy, ngưỡng xác suất còn gọi là ngưỡng ý nghĩa và là giá trị
để đánh giá mà từ đó chúng ta có thể đưa ra quyết định về giá trị đề cập trong giả thuyết H0.
Giá trị này chính là khả năng có được con số thống kê đo lường được trong mẫu nghiên cứu là
đúng nếu như mặc định giá trị của dân số là đúng.
Để hình dung tại sao xác suất nhỏ thì bác bỏ trong khi xác suất lớn thì chấp nhận, chúng
ta hãy quay lại về tình huống xử tội của quan tòa. Một vụ án mạng xảy ra và cảnh sát thu được
tại hiện trường hai mẫu máu. Sau khi xét nghiệm thì xác định một mẫu máu là của nạn nhân và
một mẫu máu còn lại không phải của nạn nhân. Bên phía công tố viên muốn dùng bằng chứng
này để kết nối sự liên hệ của bị cáo và mẫu máu tại hiện trường. Về mặt huyết học thì mỗi mẫu
máu ngoài nhóm A, B, AB, O… còn có nhiều đặc điểm khác và trong mẫu máu thu thập tại
hiện trường có đặc điểm X, Y, Z vốn chỉ có trong khoảng 5% dân số. Xét nghiệm máu của bị
cáo cũng thấy đặc điểm X, Y, Z. Luật sư bào chữa thì cho rằng như vậy có thể là do tình cờ
thôi. Khi kết hợp thêm các bằng chứng khác (là nam giới, thuận tay trái…) mà khả năng xảy
ra chỉ là 10 người có 1 người (khả năng 0,20 # 20%) thì quan tòa sẽ không thể tin vào chứng
cứ và vì vậy tuyên vô tội (chấp nhận H0) và/hoặc có thể cho tiến hành điều tra bổ sung vì nếu
tin như vậy thì có rất nhiều hung thủ chứ không phải bị cáo đứng trong phiên tòa. Tuy nhiên,
nếu khi kết hợp các bằng chứng mà xác suất là 1 triệu trường hợp mới có 1 trường hợp (xác
suất rất nhỏ) phù hợp các chứng cứ buộc tội thì việc này không còn gọi là ngẫu nhiên nữa và
có thể nghĩ rằng chỉ có người này mới là hung thủ và quan tòa nhiều khả năng sẽ buộc tội bị
cáo (bác bỏ H0).
Ngưỡng xác suất còn gọi là ngưỡng ý nghĩa hoặc sai lầm loại 1 hoặc alpha và thể hiện
khả năng giả thuyết H0 đúng nhưng khi tiến hành nghiên cứu thì bác bỏ nó. Nói đơn giản hơn
là “khả năng bác bỏ giả thuyết H0 khi H0 đúng” hoặc “mức độ không phù hợp của dữ liệu mẫu
khi H0 đúng”. Nếu mức độ / khả năng này thấp thì chúng ta bác bỏ giả thuyết H0, ngược lại sẽ
chấp nhận giả thuyết H0. Trong giai đoạn này chúng ta chỉ cần nắm khái niệm rất cơ bản về
ngưỡng ý nghĩa. Để hiểu chi tiết hơn về ngưỡng xác suất thì có thể xem các mục bên dưới về
các sai số.
Như vậy, đến giai đoạn này chúng ta đã có hình dung về giả thuyết thống kê và ngưỡng
ý nghĩa. Có thể tóm gọn trong hình 3.2 bên dưới:
Hình 3.2. (a # Bên trái) sai lầm loại 1 (α) là 5%, phần sọc nằm bên trái hình chuông (b #
Giữa) sai lầm loại 1 (α) là 5%, mỗi phần sọc hai bên hình chuông là 2,5% (c # Bên phải) sai
lầm loại 1 (α) là 5%, phần sọc năm bên phải hình chuông
- Hình (a)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc bên trái (5%)
+ H0: không khác biệt
+ H1 (Ha): mẫu nhỏ hơn dân số
+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0
- Hình (b)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc hai bên (2,5%
mỗi bên)
+ H0: không khác biệt
+ H1 (Ha): mẫu khác dân số
+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0
- Hình (c)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc bên phải (5%)
+ H0: không khác biệt
+ H1 (Ha): mẫu lớn hơn dân số
+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0
Có thể thấy rằng chính giả thuyết H1 (Ha) đã góp phần xác lập giá trị ngưỡng ý nghĩa.
Hãy nhớ, trung bình tất cả giá trị của nhiều mẫu nghiên cứu sẽ bằng giá trị dân số nếu giá trị
dân số là đúng. Tất cả các giá trị có thể xảy ra của các mẫu nghiên cứu có phân phối bình
thường theo lý thuyết giới hạn trung tâm. Qui tắc này cho chúng ta thấy có ít nhất 95% tất cả
các giá trị của các mẫu nghiên cứu nằm trong phạm vi 2 lần độ lệch chuẩn quanh giá trị trung
bình dân số. Điều này có nghĩa là chỉ có 5% khả năng có được một mẫu mà con số thống kê
nằm ngoài phạm vi 2 lần độ lệch chuẩn này. Vì vậy, khi kết quả tính toán xác suất nhỏ hơn 5%
thì sẽ bác bỏ giả thuyết H0 và ngược lại thì chấp nhận giả thuyết H0. Hình 3.2 cũng gợi ý về
phương pháp tính xác suất trong đó hình (a) và (c) gọi là kiểm định 1 đuôi (one-tailed test) và
hình (b) gọi là kiểm định 2 đuôi (two-tailed test). Thông thường thì hầu hết các nhà nghiên cứu
sẽ lựa chọn kiểm định hai đuôi, tuy nhiên cũng có thể tính các kiểm định một đuôi. Ưu và
khuyết điểm của kiểm định 1 đuôi và 2 đuôi được thể hiện trong mục Sai lầm loại 1, loại 2 và
sức mạnh thống kê bên dưới.
tuổi của đối tượng là một đại lượng có đơn vị là năm (tuổi) và trong nghiên cứu có thể khác
nhau theo thời gian hoặc khác nhau giữa các đối tượng tham gia nghiên cứu. Giới tính là đặc
tính của đối tượng và có thể khác nhau giữa những người tham gia nghiên cứu. Về mặt loại dữ
liệu thì có hai nhóm biến số cơ bản trong thống kê gồm biến định tính (qualitative variable) và
biến định lượng (quantitative variable). Biến định lượng được thể hiện bằng một con số trong
khi biến định tính có thể bao gồm biến nhị giá, biến thứ tự và biến danh định. Biến nhị giá chỉ
bao gồm hai giá trị (nhóm), ví dụ giới tính (nam và nữ), bệnh ung thư (có và không). Biến thứ
tự bao gồm trên hai giá trị (nhóm), được thể hiện bằng tên gọi và giữa các giá trị có quan hệ
thứ bậc, ví dụ nhóm trình độ học vấn (cấp 1, cấp 2, cấp 3 và trên cấp 3), phân nhóm chỉ số khối
cơ thể (gầy, thiếu cân, bình thường, thừa cân, béo phì). Biến danh định bao gồm trên hai giá
trị (nhóm), được thể hiện bằng tên gọi nhưng giữa các giá trị không có quan hệ thứ bậc, ví dụ
nhóm dân tộc (Kinh, Hoa, Mường), tình trạng hôn nhân (độc thân, có gia đình, ly thân/ly dị,
góa). Ngoài ra, tùy vào phương pháp thống kê, có thể có dạng khác hoặc cách gọi tên khác như
biến sống còn (survival variable) trong phân tích sống còn, biến ẩn (latent variable) trong phân
tích nhân tố, biến số đếm, biến tỉ số. Trong nội dung bài này chỉ đề cập các dạng cơ bản bao
gồm các biến định tính và định lượng nêu trên.
Với kiểm định một mẫu, có thể dùng kiểm định t một mẫu hoặc kiểm định Z một mẫu
cho kết cuộc định lượng và dùng kiểm định so sánh tỉ lệ một mẫu đối với kết cuộc nhị giá. Về
cơ bản kiểm định t một mẫu và kiểm định Z một mẫu là giống nhau về cách tính toán ngoại trừ
trong kiểm định Z một mẫu thì cần biết độ lệch chuẩn của dân số trong khi kiểm định t một
mẫu thì có thể sử dụng độ lệch chuẩn của mẫu. Khi cỡ mẫu đủ lớn thì kết quả kiểm định Z và
t là như nhau. Với kiểm định hai mẫu có thể tra bảng sau:
Chi tiết của từng loại kiểm định bao gồm cách áp dụng, tính toán, lý giải sẽ được trình
bày trong các chương sau. Chúng ta hãy quay lại ví dụ về nghiên cứu chiều cao trung bình của
người trưởng thành tại TP.HCM. Nghiên cứu trên 50 người và cho kết quả trung bình chiều
cao là 156 cm và độ lệch chuẩn là 12 cm. Nhà nghiên cứu muốn biết kết quả này có phù hợp
với giá trị chiều cao trung bình của dân số mà chúng ta đã biết hay không (160 cm). Trong
trường hợp này, kết cuộc là biến định lượng và thuộc loại kiểm định một mẫu nên có thể dùng
kiểm định t một mẫu. Nếu muốn so sánh chiều cao ở nam và nữ hay xét mối liên quan của giới
tính đến chiều cao thì có thể dựa vào bảng 3.1 bên trên trong đó giới tính là biến nhị giá và
chiều cao là biến định lượng. Trong trường hợp này, nếu cẩn thận thì chúng ta sẽ kiểm tra xem
chiều cao có phân phối bình thường hay không hoặc cỡ mẫu đủ lớn để xem là bình thường hay
không để có thể dùng kiểm định t. Khi dữ liệu có phân phối không bình thường hoặc cỡ mẫu
không đủ lớn để xem như xấp xỉ bình thường thì có thể dùng kiểm định phi tham số Wilcoxon
tổng xếp hạn để thay thế.
kê và công thức để tính toán tương ứng, ví dụ kiểm định Chi bình phương sẽ cần tính toán con
số thống kê Chi bình phương, kiểm định t cần tính thống kê t hoặc kiểm định phân tích phương
sai (ANOVA # Analysis of variance) cần tính thống kê F. Với ví dụ nêu trên trong đó có chiều
cao trung bình trên 50 người tham gia nghiên cứu là 156 cm và độ lệch chuẩn là 12 cm. Tiến
hành kiểm định so sánh với giá trị của dân số là 160 cm bằng kiểm định t một mẫu sẽ cần tính
chỉ số thống kê t như sau:
𝑋̅ − 𝜇 156 − 160
𝑡= 𝑠 = = −2,357
⁄ 𝑛 12⁄
√ √50
Nếu chỉ sử dụng con số thống kê t như trên thì sẽ không thể tính được giá trị xác suất
(giá trị p # p value) trong bước kế tiếp mà còn cần con số khác kèm theo, đó là độ tự do (degree
of freedom # df). Độ tự do có thể hiểu là số thông tin có thể biến thiên tự do để có được kết
cuộc như dữ liệu quan sát được trong nghiên cứu. Ví dụ nếu chúng ta có 3 quan sát với giá trị
lần lượt là 2, 4, 9 thì có thể tính được trung bình bằng (2 + 4 + 9) / 3 = 5. Để có được một bộ
gồm 3 quan sát và có trung bình là 5 thì có rất nhiều cách, ví dụ (1, 6, 8) hoặc (3, 4, 8). Tuy
nhiên, nếu vẫn muốn có trung bình là 5 trong một bộ gồm 3 số thì chúng ta có thể thoải mái
chọn 2 số đầu nhưng số còn lại (số thứ 3) không còn được thoải mái chọn nữa mà chỉ có duy
nhất một cách. Ví dụ để có trung bình là 5 và biết trong bộ 3 số gồm (2, 4, X) thì con số thứ ba
X chỉ có thể là 9 mới có được bộ dữ liệu có thể tính ra trung bình là 5. Trong trường hợp này
chúng ta nói rằng dữ liệu có hai độ tự do (sẽ có hai số thay đổi thoải mái, tự do nhưng số còn
lại không được tự do nữa). Điều này có thể suy rộng ra cho bộ dữ liệu gồm nhiều thành phần.
Ví dụ bộ dữ liệu gồm 4 con số và có trung bình là 7 thì có thể chọn tự do 3 số đầu nhưng số
thứ 4 chỉ có một cách duy nhất và không còn được tự do. Trong trường hợp này dữ liệu có 3
độ tự do. Quay lại tình huống nghiên cứu, nếu trong nghiên cứu như bên trên trong 50 người
và có trung bình là 156 cm thì để có được bộ dữ liệu tương đương có trung bình là 156 thì có
thể chọn 49 người thoải mái nhưng người cuối cùng chỉ có duy nhất một lựa chọn. Vì vậy độ
tự do là 49. Tổng quát hơn, có thể tính độ tự do trong trường hợp này là df = N – 1.
Tuy nhiên, không phải phương pháp thống kê nào cũng tính dựa vào công thức này (lấy
số quan sát trừ một đơn vị) mà mỗi phương pháp thống kê cũng có cách tính độ tự do khác
nhau nhưng cùng dựa trên nguyên tắc về số thông tin có thể biến thiên tự do để có được kết
quả như quan sát. Ví dụ, với kiểm định Chi bình phương thì độ tự do sẽ là df = (số hàng – 1) x
(số cột – 1) và đối với bảng 2 x 2 (2 hàng và 2 cột) thì độ tự do sẽ là 1. Điều này là phù hợp
với nguyên tắc nêu trên vì khi đã biết tổng số quan sát hàng và tổng số quan sát của cột thì chỉ
cần biết số quan sát của 1 ô (trong tổng số 4 ô của bảng 2 x 2) sẽ có thể tính được số quan sát
của các ô còn lại và chỉ có duy nhất một kết quả. Hoặc, với phân tích nhân tố thì độ tự do sẽ
được tính dựa vào số phương sai, hiệp phương sai, số lượng hệ số tải nhân tố, số nhân tố và
hiệp phương sai giữa các nhân tố. Đôi khi không chỉ cần một độ tự do mà có thể phải có nhiều
độ tự do, ví dụ kiểm định phân tích phương sai (ANOVA) cần hai độ tự do là độ tự do giữa các
nhóm và độ tự do nội bộ nhóm.
Quay trở lại với ví dụ đo chiều cao trung bình của 50 người, chúng ta có được thống kê
t = - 2,357 và độ tự do là 49 nên có thể tra bảng thống kê hoặc tính bằng các phần mềm sẽ có
được giá trị p là 0,023. Tuy nhiên, con số p = 0,023 là xác suất ứng với H1 (Ha) là trung bình
mẫu khác trung bình dân số (160 cm), là giá trị p của kiểm định hai đuôi. Trong trường hợp giả
thuyết H1 (Ha) là dạng một đuôi, ví dụ trung bình mẫu lớn hơn trung bình dân số (160 cm) thì
giá trị p là 0,989. Nếu giá thuyết H1 (Ha) là trung bình mẫu nhỏ hơn trung bình dân số thì giá
trị p là 0,011. Nói cách khác giá trị p một đuôi là Pr (X > 160) = 0,989 đối với đuôi bên phải
và Pr (X < 160) = 0,011 đối với đuôi bên trái. Trong khi đó giá trị p hai đuôi là giá trị nhỏ nhất
của hai giá trị một đuôi và nhân hai. Vì vậy trong trường hợp này là Pr (X ≠ 160) = 0,011 x 2
= 0,022 (khác với số 0,023 là do sai số làm tròn). Tương tự ví dụ trong hình 3.2 nhưng hình
3.2 là ngưỡng 5% nên chỉ có thể gợi ý p > 0,05 hay p ≤ 0,05 mà không có con số cụ thể như
trong trường hợp này.
tỏ vấn đề. Lưu ý rằng khi giá trị p càng nhỏ thì càng thể hiện xác suất chống lại H0 chứ không
thể hiện ước lượng của hai mẫu khác biệt lớn, ví dụ p < 0,05, p < 0,01, p <0,001 không thể cho
thấy rằng giá trị của các nhóm khác biệt lớn đến như thế nào. Khi giá trị p > 0,05 thì chúng ta
đã thất bại trong việc bác bỏ giả thuyết H0. Có thể hiểu về các ngưỡng giá trị p thường dùng
trong nghiên cứu như sau:
- p > 0,100: không có bằng chứng chống lại giả thuyết H0. Dữ liệu trong nghiên cứu đồng
nhất với giả thuyết H0.
- 0,050 < p < 0,100: bằng chứng yếu ớt trong việc chống lại giả thuyết H0 và có thể giả
thuyết thay thế phù hợp hơn.
- 0,010 < p < 0,050: bằng chứng vừa đủ mạnh trong việc chống lại giả thuyết H0 và có
thể giả thuyết thay thế phù hợp hơn.
- 0,001 < p < 0,010: bằng chứng mạnh mẽ trong việc chống lại giả thuyết H0 và giả
thuyết thay thế có thể phù hợp hơn.
- p < 0,001: bằng chứng rất mạnh mẽ trong việc chống lại giả thuyết H0 và giả thuyết
thay thế có thể phù hợp hơn.
Với nghiên cứu chiều cao trung bình trên 50 người như trên, giá trị p = 0,023 ≤ 0,05 nên
bác bỏ giả thuyết H0 và có thể kết luận rằng chiều cao trung bình thu được từ nghiên cứu trên
50 người này có sự khác biệt có ý nghĩa thống kê so với giá trị của dân số (160 cm).
Đối với các nhà toán học hoặc thống kê y học, sai lầm thứ nhất có thể gặp là giả thuyết
H0 đúng nhưng sau khi tính toán, chứng minh bằng số liệu thì lại bác bỏ giả thuyết H0. Sai số
này gọi là sai số loại 1 (Type 1 error) hay còn gọi là alpha hay ngưỡng ý nghĩa mà chúng ta đã
đề cập bên trên. Sai lầm loại một này cũng có thể hiểu là tỉ lệ dương tính giả (False Positive).
Sai lầm thứ hai có thể có là giả thuyết H0 sai nhưng sau khi tính toán, chứng minh thì lại chấp
nhận giả thuyết H0. Sai số này gọi là sai số loại 2 (Type 2 error) hay còn gọi là beta và cũng
có thể hiểu là tỉ lệ âm tính giả. Khi biết được sai số loại 2 (beta) thì có thể biết được sức mạnh
thống kê (Power) hay có thể hiểu là tỉ lệ dương tính thật.
Bảng 3.2. Các loại sai lầm dưới góc nhìn của nhà thống kê, toán học
H0 đúng H0 sai
Bác bỏ đúng
Bác bỏ H0 Sai lầm loại 1
Dương tính thật
(p ≤ 0,05) Dương tính giả
Sức mạnh thống kê
Chấp nhận H0 Chấp nhận đúng Sai lầm loại 2
(p>0,05) Âm tính thật Âm tính giả
Đối với nhà lâm sàng, sai lầm chỉ xoay quanh việc chẩn đoán có bệnh và không có bệnh
trong đó sai lầm loại 1 và loại 2 nói trên chính là khả năng chẩn đoán sai. Ở người không có
bệnh (giống giả thuyết H0 là không có liên quan, không có khác biệt) nhưng kết quả chẩn đoán,
xét nghiệm lại dương tính, thể hiện có bệnh. Đây chính là sai lầm loại 1 và trong lâm sàng cũng
gọi là dương tính giả (dương tính nhưng thật sự không có bệnh). Trong khi đó, nếu có bệnh
thật sự nhưng khi chẩn đoán, xét nghiệm lại âm tính, thể hiện không có bệnh thì chính là sai
lầm loại 2. Trong lâm sàng cũng hiểu sai lầm loại 2 là âm tính giả (có bệnh nhưng lại âm tính).
Đối với các xét nghiệm thì sai lầm loại 1 chính là 1 – độ đặc hiệu và sai lầm loại 2 là 1 – độ
nhạy. Khi xét nghiệm có độ nhạy và độ đặc hiệu cao thì sai lầm loại 1 và loại 2 sẽ thấp và
ngược lại.
Bảng 3.3. Các loại sai lầm dưới góc nhìn của nhà lâm sàng
Không có bệnh Có bệnh
Chấn đoán đúng
Xét nghiệm Sai lầm loại 1
Dương tính thật
dương tính Dương tính giả
Sức mạnh thống kê
Xét nghiệm âm Chẩn đoán đúng Sai lầm loại 2
tính Âm tính thật Âm tính giả
Đối với nhà nghiên cứu khoa học, sai lầm chỉ xoay quanh kết luận có liên quan hay
không liên quan, có phù hợp hay không phù hợp, có khác biệt hay không khác biệt, có ý nghĩa
thống kê hay không có ý nghĩa thống kê. Sai lầm loại 1 trong trường hợp này là khi trong dân
số đích hai yếu tố thật sự không có liên quan nhưng khi tiến hành nghiên cứu thì kết luận là có
liên quan. Trong khi đó, nếu giữa hai yếu tố thật sự có liên quan trong dân số đích mà nghiên
cứu tiến hành và kết luận không liên quan thì đã phạm vào sai lầm loại 2. Sức mạnh thống kê
thể hiện rằng khi trong dân số đích hai yếu tố thật sự có liên quan và khi tiến hành nghiên cứu
cũng kết luận có liên quan.
Bảng 3.4. Các loại sai lầm dưới góc nhìn của nhà nghiên cứu khoa học
Trong dân số đích
Không liên quan Có liên quan
Kết luận có liên
Trong nghiên
Nhà lâm sàng Không bệnh nhưng Có bệnh nhưng chẩn Có bệnh và chẩn
chẩn đoán có bệnh đoán không bệnh đoán có bệnh
Nhà nghiên cứu Không liên quan Có liên quan nhưng Có liên quan và kết
khoa học nhưng kết luận có kết luận không luận có
Như vậy, có thể thấy rằng mặc dù đã tính toán các con số thống kê, thu được giá trị p
và chọn ngưỡng để kết luận nhưng kết luận này thường không chính xác 100% mà có thể tiềm
ẩn những sai lầm. Nếu kết luận là có liên quan thì có khả năng phạm phải sai lầm loại 1 nhưng
nếu kết luận là không liên quan thì có thể lại phạm sai lầm loại 2. Sai lầm loại 1 thường được
mặc định chấp nhận ở ngưỡng là 5% trong khi sai lầm loại 2 là 20% (và vì vậy sức mạnh thống
kê là 1 – 0,2 = 0,8 # 80%). Các nghiên cứu thường không sử dụng sai lầm loại 1 và loại 2 lớn
hơn nếu không có bằng chứng hỗ trợ cho việc lựa chọn của mình. Sai lầm loại 1 là 5% có nghĩa
là nếu hai yếu tố thật sự không liên quan thì trong số 100 nghiên cứu giống nhau được tiến
hành sẽ có 5 nghiên cứu kết luận có liên quan và 95 nghiên cứu kết luận không liên quan. Sai
lầm loại 2 là 20% có nghĩa là nếu hai yếu tố thật sự có liên quan thì trong số 100 nghiên cứu
tiến hành tương tự nhau sẽ có 20 nghiên cứu kết luận không liên quan và 80 nghiên cứu kết
luận có liên quan.
Đối với một nghiên cứu, khi kết luận giữa hai yếu tố có liên quan thì sẽ có khả năng
vào khoảng 5% hai yếu tố đó không liên quan. Trong khi đó nếu kết luận rằng giữa hai yếu tố
không có liên quan thì có khả năng 20% hai yếu tố đó thật sự có liên quan. Vì vậy, tùy vào mục
tiêu ứng dụng của nghiên cứu mà nhà nghiên cứu có thể hiệu chỉnh sai lầm loại 1 và loại 2 để
từ đó nâng cao tính giá trị trong những kết luận từ nghiên cứu. Ví dụ, các hãng dược vì muốn
chứng minh rằng nghiên cứu của mình có tác dụng, có hiệu quả (giả thuyết H0 là không hiệu
quả) nên sẽ có thể sử dụng sai lầm loại 1 ở ngưỡng 1%, thấp hơn mức 5% thông thường. Điều
này là nhằm giảm sai lầm loại 1 đến thấp nhất có thể khi họ kết luận thuốc có tác dụng, có hiệu
quả. Có nghĩa là, khi họ kết luận thuốc có hiệu quả thì chỉ có khả năng 1% thuốc đó không hiệu
quả.
Ngoài sai lầm loại 1 và loại 2 vốn phổ biến trong nghiên cứu còn có sai lầm loại 3. Vì
sai lầm loại 3 chỉ có trong kiểm định một đuôi vốn rất ít dùng trong thực tế nên thường cũng
không được nhắc đến. Sai lầm loại 3 xảy ra trong kiểm định một đuôi trong đó nhà nghiên cứu
quyết định giữ lại giả thuyết H0 bởi vì vùng bác bỏ (xem hình 3.2, các phần sọc) bị đặt ở đuôi
khác. Ví dụ giả thuyết là trung bình mẫu < 160 cm thì phải đánh giá dựa vào hình (a) trong
biểu đồ 3.2 nhưng nhà nghiên cứu lại dựa vào hình (c) trong biểu đồ 3.2 và chấp nhận giả
thuyết H0 (mà đáng lý ra phải bác bỏ giả thuyết H0 nếu dùng đúng đuôi).
Điều mong muốn của hầu hết các nhà nghiên cứu là làm sao để kết luận của nghiên cứu
có tính giá trị cao và chỉ số thường nghĩ đến nhất là sức mạnh thống kê. Sức mạnh thống kê là
xác suất chọn ngẫu nhiên được một mẫu mà mẫu đó cho thấy giả thuyết H0 là sai khi mà giả
thuyết H0 thật sự sai. Để có thể hình dùng mối liên hệ giữa chỉ số này và các sai lầm như đã đề
cập bên trên cũng như các phương pháp giúp gia tăng sức mạnh thống kê, chúng ta có thể xem
các biểu đồ bên dưới:
Biểu đổ 3.3: Sự khác nhau về sức mạnh thống kê khi gia tăng sai lầm loại 1
Biểu đồ 3.4. Sự khác nhau về sức mạnh thống kê khi khác biệt về cỡ tác động
Biểu đồ 3.5. Sự khác nhau về sức mạnh thống kê giữa kiểm định 1 đuôi và 2 đuôi
Biểu đồ 3.6. Sự khác nhau về sức mạnh thống kê giữa cỡ mẫu nhỏ và cỡ mẫu lớn
Biểu đồ 3.3 cho thấy giữa sai lầm loại 1 và sức mạnh thống kê có mối liên hệ mật thiết
với nhau trong đó nếu gia tăng sai lầm loại 1 (chấp nhận sai số loại 1 cao hơn) thì sẽ có sức
mạnh thống kê cao hơn. Biểu đổ 3.4 thì lại cho thấy nếu như khác biệt của hai quần thể là đáng
kể thì sẽ có sức mạnh thống kê cao hơn so với hai quần thể không khác biệt. Có nghĩa là, nếu
có khác biệt giữa hai quần thể thì kết luận về sự khác biệt trong nghiên cứu nhiều khả năng
đúng hơn. Biểu đồ 3.5 gợi ý rằng các kiểm định 1 đuôi sẽ cho sức mạnh thống kê cao hơn các
kiểm định thống kê hai đuôi với giả định nhà nghiên cứu chọn đuôi bên trái hoặc bên phải cho
phù hợp. Biểu đồ 3.6 cho thấy nghiên cứu với cỡ mẫu lớn hơn sẽ giúp gia tăng sức mạnh thống
kê thông quan việc giảm sai số chuẩn.
Thực tế cho thấy rất nhiều nhà nghiên cứu yêu chuộng giá trị p, đặc biệt là các giá trị p
< 0,005. Tuy nhiên, việc sử dụng giá trị p để đưa ra kết luận trong nghiên cứu khoa học có thể
ẩn chứa những sai lầm và dẫn dắt người đọc theo một hướng khác. Vì vậy, khi sử dụng giá trị
p trong nghiên cứu cần đặc biệt lưu ý một số đặc điểm sau đây. Thứ nhất, đôi khi giá trị p <
0,05 thể hiện có khác biệt hoặc có hiệu quả nhưng mức độ của sự khác biệt đó có thể không có
ý nghĩa trên lâm sàng. Ví dụ, đã từng có những kết luận như “khi tuổi gia tăng một đơn vị có ý
nghĩa tiên lượng tử vong ở người bệnh tim mạch > 60 tuổi” bởi vì nhà nghiên cứu thấy rằng
giá trị p của biến số tuổi p < 0,05. Tuy nhiên, thực tế hai bệnh nhân khác biệt nhau 1 tuổi không
phải là một vấn đề trầm trọng trên lâm sàng. Trong trường hợp này, sẽ phù hợp hơn nếu tác giả
thể hiện sự khác biệt, tác động giữa hai bệnh nhân hơn kém nhau 5 hoặc 10 tuổi. Như vậy,
không thể phủ nhận vai trò của thống kê nhưng ý nghĩa trên lâm sàng đôi khi quan trọng hơn
ý nghĩa thống kê. Chính vì vậy, nhà nghiên cứu có kinh nghiệm sẽ không bao giờ trình bày giá
trị p đơn lẽ mà thường báo cáo thêm các chỉ số khác để cho thấy sự khác biệt, ví dụ khoảng tin
cậy 95% của khác biệt, hoặc cỡ tác động, hoặc các chỉ số dịch tễ học như tỉ số số chênh, tỉ số
nguy cơ hay tỉ số tỉ lệ hiện mắc, tỉ số nguy hại... Thứ hai, về lý thuyết xác suất thì trong 100
nghiên cứu sẽ có khoảng 5 nghiên cứu có p < 0,05 hoặc trong 20 nghiên cứu như nhau thì có
khoảng 1 nghiên cứu có p < 0,05. Cho nên, một lần nữa cần cân nhắc về ý nghĩa lâm sàng, tính
phù hợp với ý văn trước khi có những kết luận. Thứ ba, ứng với cỡ mẫu lớn thì chỉ cần khác
biệt rất nhỏ cũng có thể cho ra giá trị p < 0,05. Ngược lại thì với cỡ mẫu nhỏ thì khác biệt phải
rất lớn mới cho ra giá trị p < 0,05. Đây là hạn chế của giá trị p mà nhà nghiên cứu đã lợi dụng,
đặc biệt trong những nghiên cứu can thiệp, so sánh giữa các nhóm. Ví dụ, nhiều nhà lâm sàng
thường truyền miệng nhau rằng chỉ cần cỡ mẫu 30 là đủ lớn để tiến hành nghiên cứu và tính
toán thống kê và thường chọn 30 người ở nhóm can thiệp và 30 người nhóm đối chứng. Về
nguyên tắc thì hai nhóm can thiệp và đối chứng phải giống nhau về nhiều đặc điểm ở đầu vào
nghiên cứu thì kết quả so sánh can thiệp mới có tính giá trị. Và vì cỡ mẫu nhỏ nên ngay từ bảng
đầu tiên khi so sánh tính tương đồng của hai nhóm can thiệp thì tác giả đã cho thấy p > 0,05,
có nghĩa là không khác biệt, cũng đồng nghĩa rằng hai nhóm tương đồng. Tuy nhiên, việc
không khác biệt này thường là do cỡ mẫu nhỏ và nếu tính sức mạnh thống kê cho các trường
hợp đó thì sức mạnh thống kê thường rất thấp, thậm chí chỉ 30 – 40%.
- Biến thiên của dân số đã biết và hằng định (ví dụ độ lệch chuẩn): các mẫu nghiên cứu khác
nhau sẽ có các cá nhân khác so với dân số đích một hằng số và vì vậy con số của dân số có thể
khác biệt khi gộp trung bình của nhiều ước lượng từ nhiều mẫu nghiên cứu. Tuy nhiên, việc
khác nhau theo một con số hằng định sẽ không ảnh hưởng đến độ lệch chuẩn của dân số. Ví dụ
nếu chiều cao trung bình của dân số là 160 cm và những người chơi thể thao có trung bình cao
hơn khoảng 2 cm. Có nghĩa là các cá nhân trong nghiên cứu những người chơi thể theo có khác
biệt khoảng 2 cm so với dân số và trung bình của mẫu này cũng ảnh hưởng đến dân số đích khi
cộng gộp. Tuy nhiên, độ lệch chuẩn không bị ảnh hưởng bởi sự khác biệt 2 cm này. Tuy nhiên,
do điều này khó kiểm tra và đối chiếu nên thường không được đề cập đến trong hầu hết các
nghiên cứu.