Download as pdf or txt
Download as pdf or txt
You are on page 1of 21

TKYH: Nguyên lý kiểm định Thái Thanh Trúc 1

BÀI 3: NGUYÊN LÝ KIỂM ĐỊNH

Mục tiêu học tập


Sau khi hoàn thành bài học này, học viên có thể:
- Trình bày được khái niệm về kiểm định giả thuyết
- Trình bày được qui trình thực hiện kiểm định giả thuyết
- Trình bày được khái niệm sai lầm loại 1, loại 2, sức mạnh thống kê
- Chọn lựa được kiểm định thống kê tương ứng với giả thuyết thống kê
- Lý giải được giá trị p trong kiểm định giả thuyết

1. Khái niệm kiểm định giả thuyết


Nghiên cứu khoa học là một quá trình thu thập, phân tích và lý giải dữ liệu để trả lời
một hoặc nhiều câu hỏi, giả thuyết đặt ra ban đầu xuất phát từ tính tò mò và nhu cầu về kiến
thức và sự tự cảm nhận. Một nghiên cứu sẽ thu được kết quả và kết luận hoàn toàn chính xác
nếu như nhà nghiên cứu có thể lấy được dữ liệu của toàn bộ quần thể đối tượng đích (hay còn
gọi là dân số). Tuy nhiên, vì tính khả thi và nguồn lực thường bị hạn chế nên trong thực tế nhà
nghiên cứu không thể nào tiến hành nghiên cứu trên toàn bộ quần thể đích mà chỉ có thể tiến
hành trên một nhóm nhỏ hơn, gọi là mẫu nghiên cứu. Từ mẫu nghiên cứu và những kết quả
phân tích dữ liệu trên mẫu, nhà nghiên cứu ngoài mong muốn trả lời thắc mắc trước nghiên
cứu còn mong muốn suy diễn rộng hơn để biết được nhiều hơn về con số thật sự trong dân số,
bao gồm cả những người đã tham gia hoặc không tham gia vào nghiên cứu. Hay nói cách khác,
nhà nghiên cứu sử dụng con số của mẫu để mô tả con số thật sự của dân số.
Theo thuyết giới hạn trung tâm (Central Limit Theorem) thì nếu chúng ta tiến hành
nghiên cứu nhiều lần và nhiều lần chọn mẫu trên dân số đích, thì các con số ước lượng (ví dụ:
trung bình, tỉ lệ…) của các mẫu sẽ có phân phối bình thường. Chẳng hạn, vì không thể nào đo
chiều cao của khoảng 8 triệu người trưởng thành tại Thành phố Hồ Chí Minh (TP.HCM) để trả
lời câu hỏi về chiều cao trung bình của nhóm người này là bao nhiêu, nên có nhiều nghiên cứu
được tiến hành trên các mẫu nhỏ hơn với sự tham gia từ vài trăm cho đến vài ngàn người. Ứng
với mỗi nghiên cứu đó, nhà nghiên cứu sẽ có được trung bình chiều cao trên mẫu nghiên cứu
của họ. Trong trường hợp này, các giá trị trung bình báo cáo từ các nghiên cứu (cùng trên quần
thể là người trưởng thành tại TP.HCM) sẽ có phân phối bình thường. Nếu có 100 nghiên cứu

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 2

thì 100 giá trị trung bình chiều cao sẽ có phân phối bình thường và bình quân các giá trị trung
bình của 100 nghiên cứu sẽ bằng với trung bình của dân số đích (tất cả người trưởng thành tại
TP.HCM).
Nếu như giá trị trung bình của dân số là con số thực và đúng đắn thì khi giá trị trung
bình mẫu khác biệt nhiều so với giá trị của dân số sẽ nói lên rằng rất ít khả năng nhà nghiên
cứu có được một mẫu như thế từ dân số đích (nhưng thực tế nhà nghiên cứu đã có). Ví dụ,
chiều cao trung bình của toàn bộ người trưởng thành tại TP.HCM là 160 cm và một nghiên cứu
tiến hành cho kết quả chiều cao trung bình là 180 cm. Sự khác biệt lớn cho thấy khó có khả
năng mẫu này được lấy từ dân số những người trưởng thành tại TP.HCM và/hoặc phải có điều
gì đó đặc biệt trong mẫu nghiên cứu này. (Bật mí: nghiên cứu này tiến hành đo chiều cao trung
bình ở người trưởng thành tại TP.HCM bằng cách lấy mẫu tại một trường thể dục thể thao và
ngẫu nhiên lại trùng vào thời điểm đội tuyển bóng rổ vừa học xong). Trong trường hợp này,
nhà nghiên cứu cần tìm hiểu lại tính hợp lý, đại diện của mẫu nghiên cứu so với dân số đích.
Ngược lại, trong trường hợp trung bình mẫu khác biệt ít so với trung bình dân số thì nhiều khả
năng mẫu mà nhà nghiên cứu đã chọn phù hợp với dân số đích và dĩ nhiên tính suy diễn sẽ tốt
hơn so với trường hợp bên trên.
Hình 3.1 thể hiện chiều cao dân số của người Việt trưởng thành tại TP.HCM. Khi đó,
nếu chiều cao của dân số thật sự là 160 cm thì trong nhiều nghiên cứu trên nhiều mẫu sẽ có
trung bình chiều cao các mẫu có phân phối như hình 3.1 bên dưới. Sử dụng qui luật của phân
phối chuẩn, chúng ta biết rằng có 95% các nghiên cứu lấy mẫu từ dân số này sẽ cho kết quả
trung bình chiều cao nằm trong khoảng hai độ lệch chuẩn quanh giá trị trung bình dân số này.
Sẽ rất ít có khả năng chúng ta lấy mẫu từ dân số này và cho kết quả trung bình chiều cao ngoài
ngưỡng 2 độ lệch chuẩn. Trong trường hợp đó hoặc con số được gọi là trung bình dân số không
chính xác hoặc mẫu nghiên cứu có vấn đề cần xem xét.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 3

Hình 3.1: Dữ liệu của nhiều nghiên cứu trên cùng dân số đích có phân phối bình thường
với trung bình là giá trị thật sự của dân số.

Các con số thống kê mô tả thường dùng để trình bày và tóm tắt dữ liệu để từ đó có thể
đưa ra các quyết định hay kết luận cho một báo cáo khoa học hoặc một khuyến nghị cho các
cơ quan, đối tượng. Tuy nhiên, có khả năng những kết quả hay kết luận đó chỉ là do sự trùng
hợp tình cờ mà không phải là kết quả hay kết luận đại diện thật sự cho dân số. Khả năng này
xảy ra khi một thử nghiệm, nghiên cứu khác hoàn toàn tương tự được lặp lại nhưng kết luận lại
khác đi. Vì vậy, điều cần thiết trong các nghiên cứu là việc sử dụng các phương pháp thống kê
phân tích để đánh giá xem các phát hiện trong nghiên cứu là do ngẫu nhiên và tình cờ trùng
hợp hay thật sự là kết quả phù hợp và đại diện cho quần thể nghiên cứu. Một trong những công
cụ có thể làm được điều này là các kiểm định giả thuyết thống kê dạng suy luận và là nội dung
cơ bản của cái gọi là “giá trị p” hay “p value”.
Theo nghĩa đen, kiểm định giả thuyết hay kiểm định thống kê là quá trình tính toán qua
nhiều bước nhằm chứng minh giả thuyết đúng hay không đúng, phù hợp hay không phù hợp.
Kiểm định giả thuyết ngoài việc có thể cho biết kết quả trong mẫu nghiên cứu có giống hay
khác so với quần thể đích mà còn có thể dùng để so sánh sự giống, khác, lớn hơn, nhỏ hơn của
hai quần thể với nhau và/hoặc hai mẫu với nhau. Quay lại với ví dụ về chiều cao trung bình
của toàn bộ người trưởng thành tại TP.HCM, một nghiên cứu tiến hành chọn ngẫu nhiên 2000
người tại khắp các quận huyện. Khi có dữ liệu, nhà nghiên cứu có thể so sánh với giá trị của
dân số (160 cm) để xem kết quả nghiên cứu của mình có phù hợp hay không. Ngoài ra, nhà
nghiên cứu cũng có thể so sánh chiều cao trung bình giữa nam giới và nữ giới trong số 2000
người đã tham gia nghiên cứu. Ở đây, có thể xem nam giới và nữ giới là hai nhóm dân số hoặc
hai mẫu khác nhau và kiểm định giả thuyết sẽ vẫn có thể ứng dụng trong trường hợp này. Nếu
dùng kết quả nghiên cứu của mình để so sánh với con số của dân số hoặc con số của nghiên
cứu khác thì được gọi là kiểm định giả thuyết một mẫu. Nếu so sánh các nhóm trong nghiên
cứu với nhau và/hoặc các dân số với nhau thì được gọi là kiểm định nhiều mẫu.

2. Qui trình thực hiện kiểm định thống kê


Kiểm định giả thuyết giúp suy luận độ phù hợp của mẫu so với dân số hoặc độ phù hợp
giữa các mẫu/dân số và là một qui trình trong đó bao gồm một loạt các bước có liên hệ chặt
chẽ với nhau. Trong phương pháp này, chúng ta sẽ kiểm định giả thuyết bằng cách xác định độ
khả dĩ (nói nôm na là khả năng) con số thống kê của mẫu có thể xảy ra nếu như giả thuyết về

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 4

con số của dân số là đúng. Một số tác giả gợi ý rất nhiều bước bằng cách chia nhỏ qui trình
thực hiện nhưng về cơ bản để thực hiện một kiểm định thống kê thường cần trải qua 5 bước:
- Xác định giả thuyết thống kê và ngưỡng ý nghĩa
- Chọn lựa kiểm định phù hợp
- Tính chỉ số thống kê tương ứng
- Tính xác xuất
- Kết luận
Năm bước này có “liên đới trách nhiệm” với nhau vì sai sót của một bước sẽ dẫn đến
các sai sót của những bước sau đó. Ví dụ, ứng với một giả thuyết mà lựa chọn con số hoặc
phương pháp thống kê sai sẽ dẫn đến giá trị p bị sai và đưa ra kết luận không phù hợp. Ngày
nay, với sự hỗ trợ của các phần mềm thống kê thì bước thứ 3 (tính chỉ số thống kê) và 4 (tính
xác suất) ít bị sai sót hơn nhưng dễ bị quên hơn. Một số nhà nghiên cứu sẽ chỉ quan tâm đến
giả thuyết, chọn kiểm định, bấm lên phần mềm và kết luận. Vì vậy, chúng ta nên tiến hành cả
năm bước trong giai đoạn làm quen ban đầu có cái nhìn và hiểu biết một cách có hệ thống về
kiểm định giả thuyết thống kê.

2.1. Xác định giả thuyết thống kê và ngưỡng ý nghĩa


Giả thuyết thống kê hay còn gọi là giả thuyết không (null hypothesis, ký hiệu là H0)
trong đó giả định thường đặt ra là giá trị của dân số là đúng và con số của mẫu tương đồng với
con số của dân số. Nếu là kiểm định giả thuyết trên hai mẫu/dân số thì giả thuyết H0 giả định
rằng giá trị của hai mẫu/dân số là tương đồng. Hay nói cách khác, giả thuyết H0 là một giả
thuyết âm tính hoặc trung tính, xem như không khác biệt, không liên quan, không tương quan.
Giả thuyết H0 trong thống kê cũng tương tự việc giả định vô tội trong các phiên tòa xét xử mà
khi đó quan tòa phải mặc định ban đầu rằng bị cáo là người vô tội rồi sau đó mới chứng minh
điều này là đúng hay sai. Công tố viên của viện kiểm sát và luật sư bào chữa cho bị cáo có vai
trò giống nhà nghiên cứu và/hoặc nhà phân tích thống kê. Thông thường, nếu không có bằng
chứng vững chắc thì quan tòa sẽ phóng thích bị cáo hơn là cho một người vô tội đi tù (đặc biệt
là thời gian gần đây luật bồi thường phát huy tác dụng). Chính vì vậy, nhà nghiên cứu khi
không có bằng chứng chắc chắn sẽ cần phải chấp nhận những kiến thức, thông tin được cho là
đúng trước đây để làm giả thuyết hơn là sử dụng một giả thuyết sai. Vì lý do này, chúng ta cần
mặc định rằng giả thuyết H0 là đúng và đi chứng minh khả năng nó đúng hay không đúng.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 5

Cần lưu ý rằng giả thuyết không (H0) đôi khi khác với giả thuyết nghiên cứu. Ví dụ,
nhà nghiên cứu muốn chứng minh rằng chiều cao của nam hơn nữ hoặc giới tính có liên quan
đến chiều cao. Khi đó giả thuyết nghiên cứu đặt ra ban đầu có thể là: 1) Chiều cao của nam
giới trưởng thành tại TP.HCM hơn nữ giới hoặc 2) Giới tính có mối liên quan với chiều cao ở
người trưởng thành tại TP.HCM. Tuy nhiên, khi đã có dữ liệu và tiến hành kiểm định giả thuyết
này thì giả thuyết thống kê H0 phải là giả thuyết âm tính hoặc trung tính và có thể là: 1) Trung
bình chiều cao của nam giới trưởng thành tại TP.HCM tương đương nữ giới hoặc 2) Trung
bình chiều cao của nam giới trưởng thành tại TP.HCM không khác biệt so với nữ giới hoặc 3)
Không có mối liên quan giữa giới tính và chiều cao ở người trưởng thành tại TP.HCM. Có thể
thấy rằng giả thuyết nghiên cứu là một câu trả lời tạm thời cho câu hỏi nghiên cứu và giả thuyết
thống kê (H0) phải là một phát biểu âm tính hoặc trung tính và là một bước trong quá trình giả
định tính toán.
Để có thể hiểu rõ hơn về giả thuyết nghiên cứu và giả thuyết thống kê, chúng ta hãy
quay lại ví dụ về quan tòa xử án. Khi bắt được thủ phạm của một vụ giết người, tất cả những
người liên quan như người dân, cảnh sát điều tra, kiểm sát viên và kể cả quan tòa đều muốn
đưa thủ phạm ra để “kết án”. Kết án ở đây có nghĩa là mọi người đều biết người này có tội và
việc có tội được xem là một câu trả lời tạm thời trong trường hợp này (giả thuyết nghiên cứu).
Tuy nhiên, khi “thăng đường xử án” thì quan tòa luôn giả định thủ phạm/bị cáo không có tội
(giả thuyết thống kê) và rồi các bằng chứng (trong thống kê thì đó là các con số thống kê) sẽ
giúp quan tòa xem giả định vô tội của mình có chấp nhận được hay không.
Giả thuyết H0 là một phát biểu về tham số của dân số trong đó giả định tham số này là
đúng. Giả thuyết H0 là điểm khởi đầu để từ đó chúng ta quyết định xem khả năng xảy ra nhiều
hay ít và từ đó kết luận đúng hay không. Cần lưu ý rằng lý do duy nhất mà chúng ta tiến hành
kiểm định giả thuyết là bởi vì chúng ta nghĩ giả thuyết có thể bị sai. Trong kiểm định giả thuyết
còn có giả thuyết thay thế (alternative hypothesis), hay còn gọi là giả thuyết H1 (hoặc Ha). H1
(Ha) là một phát biểu ngược lại với giả thuyết H0 trong đó thể hiện tham số thật sự của dân số
thấp hơn, cao hơn hoặc không bằng so với giá trị đã nêu trong giả thuyết H0. Hay nói cách
khác giả thuyết H1 (Ha) là điều mà chúng ta nghĩ giả thuyết H0 bị sai. Nếu giả thuyết H0 thể
hiện chiều cao trung bình của người trưởng thành tại TP.HCM trong nghiên cứu không khác
so với dân số (160 cm) thì giả thuyết H1 (Ha) có thể là 1) chiều cao trung bình của người trưởng
thành tại TP.HCM trong nghiên cứu có khác biệt so với dân số hoặc 2) chiều cao trung bình
của người trưởng thành tại TP.HCM trong nghiên cứu nhỏ hơn so với dân số hoặc 3) chiều
cao trung bình của người trưởng thành tại TP.HCM trong nghiên cứu lớn hơn so với dân số.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 6

Sau khi đã có giả thuyết H0 và giả thuyết H1 (Ha), nhà nghiên cứu cần xác định ngưỡng
ý nghĩa. Việc này cũng giống như đưa ra định nghĩa thế nào là có tội và thế nào là không có tội
trong phiên tòa xét xử. Thông thường ngưỡng ý nghĩa sẽ được thiết lập ở mức 5% đối với hầu
hết các nghiên cứu nhưng một số nghiên cứu vẫn có thể thiết lập ở mức 10%. Khi đó nếu xác
suất có được từ mẫu nhỏ hơn 5% và nếu giả thuyết H0 là đúng thì chúng ta có thể kết luận rằng
mẫu nghiên cứu mà chúng ta đã chọn rất ít có khả năng xảy ra (mà thực tế nó đã xảy ra) và
chúng ta bác bỏ giả thuyết H0. Vì vậy, ngưỡng xác suất còn gọi là ngưỡng ý nghĩa và là giá trị
để đánh giá mà từ đó chúng ta có thể đưa ra quyết định về giá trị đề cập trong giả thuyết H0.
Giá trị này chính là khả năng có được con số thống kê đo lường được trong mẫu nghiên cứu là
đúng nếu như mặc định giá trị của dân số là đúng.
Để hình dung tại sao xác suất nhỏ thì bác bỏ trong khi xác suất lớn thì chấp nhận, chúng
ta hãy quay lại về tình huống xử tội của quan tòa. Một vụ án mạng xảy ra và cảnh sát thu được
tại hiện trường hai mẫu máu. Sau khi xét nghiệm thì xác định một mẫu máu là của nạn nhân và
một mẫu máu còn lại không phải của nạn nhân. Bên phía công tố viên muốn dùng bằng chứng
này để kết nối sự liên hệ của bị cáo và mẫu máu tại hiện trường. Về mặt huyết học thì mỗi mẫu
máu ngoài nhóm A, B, AB, O… còn có nhiều đặc điểm khác và trong mẫu máu thu thập tại
hiện trường có đặc điểm X, Y, Z vốn chỉ có trong khoảng 5% dân số. Xét nghiệm máu của bị
cáo cũng thấy đặc điểm X, Y, Z. Luật sư bào chữa thì cho rằng như vậy có thể là do tình cờ
thôi. Khi kết hợp thêm các bằng chứng khác (là nam giới, thuận tay trái…) mà khả năng xảy
ra chỉ là 10 người có 1 người (khả năng 0,20 # 20%) thì quan tòa sẽ không thể tin vào chứng
cứ và vì vậy tuyên vô tội (chấp nhận H0) và/hoặc có thể cho tiến hành điều tra bổ sung vì nếu
tin như vậy thì có rất nhiều hung thủ chứ không phải bị cáo đứng trong phiên tòa. Tuy nhiên,
nếu khi kết hợp các bằng chứng mà xác suất là 1 triệu trường hợp mới có 1 trường hợp (xác
suất rất nhỏ) phù hợp các chứng cứ buộc tội thì việc này không còn gọi là ngẫu nhiên nữa và
có thể nghĩ rằng chỉ có người này mới là hung thủ và quan tòa nhiều khả năng sẽ buộc tội bị
cáo (bác bỏ H0).
Ngưỡng xác suất còn gọi là ngưỡng ý nghĩa hoặc sai lầm loại 1 hoặc alpha và thể hiện
khả năng giả thuyết H0 đúng nhưng khi tiến hành nghiên cứu thì bác bỏ nó. Nói đơn giản hơn
là “khả năng bác bỏ giả thuyết H0 khi H0 đúng” hoặc “mức độ không phù hợp của dữ liệu mẫu
khi H0 đúng”. Nếu mức độ / khả năng này thấp thì chúng ta bác bỏ giả thuyết H0, ngược lại sẽ
chấp nhận giả thuyết H0. Trong giai đoạn này chúng ta chỉ cần nắm khái niệm rất cơ bản về
ngưỡng ý nghĩa. Để hiểu chi tiết hơn về ngưỡng xác suất thì có thể xem các mục bên dưới về
các sai số.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 7

Như vậy, đến giai đoạn này chúng ta đã có hình dung về giả thuyết thống kê và ngưỡng
ý nghĩa. Có thể tóm gọn trong hình 3.2 bên dưới:

µ = 160 cm µ = 160 cm µ = 160 cm

Hình 3.2. (a # Bên trái) sai lầm loại 1 (α) là 5%, phần sọc nằm bên trái hình chuông (b #
Giữa) sai lầm loại 1 (α) là 5%, mỗi phần sọc hai bên hình chuông là 2,5% (c # Bên phải) sai
lầm loại 1 (α) là 5%, phần sọc năm bên phải hình chuông

- Hình (a)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc bên trái (5%)
+ H0: không khác biệt
+ H1 (Ha): mẫu nhỏ hơn dân số
+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0

- Hình (b)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc hai bên (2,5%
mỗi bên)
+ H0: không khác biệt
+ H1 (Ha): mẫu khác dân số
+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0

- Hình (c)
+ Sai lầm loại 1: 0,05 (5%), xác suất kết quả mẫu nằm trong phần sọc bên phải (5%)
+ H0: không khác biệt
+ H1 (Ha): mẫu lớn hơn dân số

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 8

+ Nếu giá trị thống kê nằm trong phần sọc thì xác suất nhỏ hơn 5% nên sẽ bác bỏ H0,
ngược lại thì chấp nhận H0

Có thể thấy rằng chính giả thuyết H1 (Ha) đã góp phần xác lập giá trị ngưỡng ý nghĩa.
Hãy nhớ, trung bình tất cả giá trị của nhiều mẫu nghiên cứu sẽ bằng giá trị dân số nếu giá trị
dân số là đúng. Tất cả các giá trị có thể xảy ra của các mẫu nghiên cứu có phân phối bình
thường theo lý thuyết giới hạn trung tâm. Qui tắc này cho chúng ta thấy có ít nhất 95% tất cả
các giá trị của các mẫu nghiên cứu nằm trong phạm vi 2 lần độ lệch chuẩn quanh giá trị trung
bình dân số. Điều này có nghĩa là chỉ có 5% khả năng có được một mẫu mà con số thống kê
nằm ngoài phạm vi 2 lần độ lệch chuẩn này. Vì vậy, khi kết quả tính toán xác suất nhỏ hơn 5%
thì sẽ bác bỏ giả thuyết H0 và ngược lại thì chấp nhận giả thuyết H0. Hình 3.2 cũng gợi ý về
phương pháp tính xác suất trong đó hình (a) và (c) gọi là kiểm định 1 đuôi (one-tailed test) và
hình (b) gọi là kiểm định 2 đuôi (two-tailed test). Thông thường thì hầu hết các nhà nghiên cứu
sẽ lựa chọn kiểm định hai đuôi, tuy nhiên cũng có thể tính các kiểm định một đuôi. Ưu và
khuyết điểm của kiểm định 1 đuôi và 2 đuôi được thể hiện trong mục Sai lầm loại 1, loại 2 và
sức mạnh thống kê bên dưới.

2.2. Chọn lựa kiểm định


Tương ứng với một giả thuyết thống kê sẽ có một phương pháp kiểm định phù hợp.
Việc lựa chọn kiểm định, nếu không đúng có thể dẫn đến những kết luận hoàn toàn sai lầm.
Đặc biệt là trong thời buổi công nghệ hiện đại khi mà chỉ cần đưa dữ liệu vào thì máy tính sẽ
cho ra con số kết quả mà không quan tâm đến việc con số đó có đúng ý đồ kiểm định của nhà
nghiên cứu hay không. Về cơ bản, đối với kiểm định một mẫu (so sánh kết quả nghiên cứu với
giá trị của dân số) muốn chọn lựa được kiểm định phù hợp thì cần quan tâm đến loại dữ liệu
của kết cuộc nghiên cứu. Đối với kiểm định hai mẫu trở lên thì ngoài loại dữ liệu của kết cuộc
còn phải biết về loại dữ liệu của yếu tố phân nhóm hay còn gọi là yếu tố giải thích, yếu tố tiên
lượng. Về mặt thống kê thì yếu tố kết cuộc còn được gọi là biến phụ thuộc và biến giải thích
hay yếu tố tiên lượng gọi là biến độc lập. Ví dụ, nếu quan tâm đến ảnh hưởng của giới tính đến
chiều cao thì giới tính là biến độc lập và chiều cao là biến phụ thuộc. Trong trường hợp này,
dữ liệu của biến độc lập là định tính nhị giá (nam và nữ) trong khi dữ liệu của biến phụ thuộc
là định lượng.
Cần nhắc lại rằng biến số là đặc tính hay đại lượng của một đối tượng có thể thay đổi
theo thời gian hoặc các lần thu thập dữ liệu khác nhau và khác nhau giữa các đối tượng. Ví dụ,

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 9

tuổi của đối tượng là một đại lượng có đơn vị là năm (tuổi) và trong nghiên cứu có thể khác
nhau theo thời gian hoặc khác nhau giữa các đối tượng tham gia nghiên cứu. Giới tính là đặc
tính của đối tượng và có thể khác nhau giữa những người tham gia nghiên cứu. Về mặt loại dữ
liệu thì có hai nhóm biến số cơ bản trong thống kê gồm biến định tính (qualitative variable) và
biến định lượng (quantitative variable). Biến định lượng được thể hiện bằng một con số trong
khi biến định tính có thể bao gồm biến nhị giá, biến thứ tự và biến danh định. Biến nhị giá chỉ
bao gồm hai giá trị (nhóm), ví dụ giới tính (nam và nữ), bệnh ung thư (có và không). Biến thứ
tự bao gồm trên hai giá trị (nhóm), được thể hiện bằng tên gọi và giữa các giá trị có quan hệ
thứ bậc, ví dụ nhóm trình độ học vấn (cấp 1, cấp 2, cấp 3 và trên cấp 3), phân nhóm chỉ số khối
cơ thể (gầy, thiếu cân, bình thường, thừa cân, béo phì). Biến danh định bao gồm trên hai giá
trị (nhóm), được thể hiện bằng tên gọi nhưng giữa các giá trị không có quan hệ thứ bậc, ví dụ
nhóm dân tộc (Kinh, Hoa, Mường), tình trạng hôn nhân (độc thân, có gia đình, ly thân/ly dị,
góa). Ngoài ra, tùy vào phương pháp thống kê, có thể có dạng khác hoặc cách gọi tên khác như
biến sống còn (survival variable) trong phân tích sống còn, biến ẩn (latent variable) trong phân
tích nhân tố, biến số đếm, biến tỉ số. Trong nội dung bài này chỉ đề cập các dạng cơ bản bao
gồm các biến định tính và định lượng nêu trên.
Với kiểm định một mẫu, có thể dùng kiểm định t một mẫu hoặc kiểm định Z một mẫu
cho kết cuộc định lượng và dùng kiểm định so sánh tỉ lệ một mẫu đối với kết cuộc nhị giá. Về
cơ bản kiểm định t một mẫu và kiểm định Z một mẫu là giống nhau về cách tính toán ngoại trừ
trong kiểm định Z một mẫu thì cần biết độ lệch chuẩn của dân số trong khi kiểm định t một
mẫu thì có thể sử dụng độ lệch chuẩn của mẫu. Khi cỡ mẫu đủ lớn thì kết quả kiểm định Z và
t là như nhau. Với kiểm định hai mẫu có thể tra bảng sau:

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 10

Bảng 3.1. Bảng chọn lựa kiểm định

Biến độc lập


Biến phụ thuộc
Nhị giá Danh định Thứ tự Định lượng
KĐ KĐ KĐ
Nhị giá 2 2 2 Hồi qui logistic
Chi /Fisher Chi /Fisher Chi /Fisher
KĐ KĐ KĐ Hồi qui logistic
Danh định
Chi2/Fisher Chi2/Fisher Chi2/Fisher danh định
KĐ KĐ KĐ Hồi qui logistic
Thứ tự 2
Chi /Fisher 2
Chi /Fisher 2
Chi /Fisher thứ tự
Tương quan
Tương quan
Định lượng có phân Spearson / Hồi
KĐ t KĐ ANOVA Spearson/Hồi
phối bình thường qui tuyến tính /
qui tuyến tính
ANOVA
Định lượng có phân
Wilcoxon Kruskal Tương quan Tương quan
phối không bình
Ranksum Wallis Pearman Pearman
thường

Chi tiết của từng loại kiểm định bao gồm cách áp dụng, tính toán, lý giải sẽ được trình
bày trong các chương sau. Chúng ta hãy quay lại ví dụ về nghiên cứu chiều cao trung bình của
người trưởng thành tại TP.HCM. Nghiên cứu trên 50 người và cho kết quả trung bình chiều
cao là 156 cm và độ lệch chuẩn là 12 cm. Nhà nghiên cứu muốn biết kết quả này có phù hợp
với giá trị chiều cao trung bình của dân số mà chúng ta đã biết hay không (160 cm). Trong
trường hợp này, kết cuộc là biến định lượng và thuộc loại kiểm định một mẫu nên có thể dùng
kiểm định t một mẫu. Nếu muốn so sánh chiều cao ở nam và nữ hay xét mối liên quan của giới
tính đến chiều cao thì có thể dựa vào bảng 3.1 bên trên trong đó giới tính là biến nhị giá và
chiều cao là biến định lượng. Trong trường hợp này, nếu cẩn thận thì chúng ta sẽ kiểm tra xem
chiều cao có phân phối bình thường hay không hoặc cỡ mẫu đủ lớn để xem là bình thường hay
không để có thể dùng kiểm định t. Khi dữ liệu có phân phối không bình thường hoặc cỡ mẫu
không đủ lớn để xem như xấp xỉ bình thường thì có thể dùng kiểm định phi tham số Wilcoxon
tổng xếp hạn để thay thế.

2.3. Tính chỉ số thống kê


Về nguyên tắc, hầu hết các con số thống kê của các kiểm định đều được tính bằng cách
lấy chỉ số ước lượng chia cho sai số chuẩn. Tuy nhiên, mỗi một kiểm định sẽ có con số thống

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 11

kê và công thức để tính toán tương ứng, ví dụ kiểm định Chi bình phương sẽ cần tính toán con
số thống kê Chi bình phương, kiểm định t cần tính thống kê t hoặc kiểm định phân tích phương
sai (ANOVA # Analysis of variance) cần tính thống kê F. Với ví dụ nêu trên trong đó có chiều
cao trung bình trên 50 người tham gia nghiên cứu là 156 cm và độ lệch chuẩn là 12 cm. Tiến
hành kiểm định so sánh với giá trị của dân số là 160 cm bằng kiểm định t một mẫu sẽ cần tính
chỉ số thống kê t như sau:

𝑋̅ − 𝜇 156 − 160
𝑡= 𝑠 = = −2,357
⁄ 𝑛 12⁄
√ √50
Nếu chỉ sử dụng con số thống kê t như trên thì sẽ không thể tính được giá trị xác suất
(giá trị p # p value) trong bước kế tiếp mà còn cần con số khác kèm theo, đó là độ tự do (degree
of freedom # df). Độ tự do có thể hiểu là số thông tin có thể biến thiên tự do để có được kết
cuộc như dữ liệu quan sát được trong nghiên cứu. Ví dụ nếu chúng ta có 3 quan sát với giá trị
lần lượt là 2, 4, 9 thì có thể tính được trung bình bằng (2 + 4 + 9) / 3 = 5. Để có được một bộ
gồm 3 quan sát và có trung bình là 5 thì có rất nhiều cách, ví dụ (1, 6, 8) hoặc (3, 4, 8). Tuy
nhiên, nếu vẫn muốn có trung bình là 5 trong một bộ gồm 3 số thì chúng ta có thể thoải mái
chọn 2 số đầu nhưng số còn lại (số thứ 3) không còn được thoải mái chọn nữa mà chỉ có duy
nhất một cách. Ví dụ để có trung bình là 5 và biết trong bộ 3 số gồm (2, 4, X) thì con số thứ ba
X chỉ có thể là 9 mới có được bộ dữ liệu có thể tính ra trung bình là 5. Trong trường hợp này
chúng ta nói rằng dữ liệu có hai độ tự do (sẽ có hai số thay đổi thoải mái, tự do nhưng số còn
lại không được tự do nữa). Điều này có thể suy rộng ra cho bộ dữ liệu gồm nhiều thành phần.
Ví dụ bộ dữ liệu gồm 4 con số và có trung bình là 7 thì có thể chọn tự do 3 số đầu nhưng số
thứ 4 chỉ có một cách duy nhất và không còn được tự do. Trong trường hợp này dữ liệu có 3
độ tự do. Quay lại tình huống nghiên cứu, nếu trong nghiên cứu như bên trên trong 50 người
và có trung bình là 156 cm thì để có được bộ dữ liệu tương đương có trung bình là 156 thì có
thể chọn 49 người thoải mái nhưng người cuối cùng chỉ có duy nhất một lựa chọn. Vì vậy độ
tự do là 49. Tổng quát hơn, có thể tính độ tự do trong trường hợp này là df = N – 1.
Tuy nhiên, không phải phương pháp thống kê nào cũng tính dựa vào công thức này (lấy
số quan sát trừ một đơn vị) mà mỗi phương pháp thống kê cũng có cách tính độ tự do khác
nhau nhưng cùng dựa trên nguyên tắc về số thông tin có thể biến thiên tự do để có được kết
quả như quan sát. Ví dụ, với kiểm định Chi bình phương thì độ tự do sẽ là df = (số hàng – 1) x
(số cột – 1) và đối với bảng 2 x 2 (2 hàng và 2 cột) thì độ tự do sẽ là 1. Điều này là phù hợp
với nguyên tắc nêu trên vì khi đã biết tổng số quan sát hàng và tổng số quan sát của cột thì chỉ
cần biết số quan sát của 1 ô (trong tổng số 4 ô của bảng 2 x 2) sẽ có thể tính được số quan sát

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 12

của các ô còn lại và chỉ có duy nhất một kết quả. Hoặc, với phân tích nhân tố thì độ tự do sẽ
được tính dựa vào số phương sai, hiệp phương sai, số lượng hệ số tải nhân tố, số nhân tố và
hiệp phương sai giữa các nhân tố. Đôi khi không chỉ cần một độ tự do mà có thể phải có nhiều
độ tự do, ví dụ kiểm định phân tích phương sai (ANOVA) cần hai độ tự do là độ tự do giữa các
nhóm và độ tự do nội bộ nhóm.

2.4. Tính xác suất (giá trị p)


Theo phương pháp cổ điển, bước này sẽ tiến hành so sánh giá trị của con số thống kê
với giá trị của con số thống kê tương ứng từ phân phối xác suất đã biết. Ví dụ với thống kê Z
trong phân phối chuẩn thì giá trị p < 0,05 nếu |Z| > 1.96, giá trị p < 0,01 nếu |Z| > 2,58 hoặc giá
trị p < 0,001 nếu |Z| > 3,30. Như vậy, khi tính toán được chỉ số Z từ bước trên sẽ biết giá trị p
nào ở khoảng nào. Tuy nhiên, trong một số trường hợp như kiểm định t thì không có ngưỡng
cố định vì phụ thuộc rất nhiều vào độ tự do, khi độ tự do thay đổi thì với cùng thống kê t có thể
cho ra giá trị p khác nhau. Điểm hạn chế của việc dùng các ngưỡng như nêu trên là chỉ biết
được giá trị p lớn hơn hay nhỏ hơn các con số đó. Việc sử dụng bảng thống kê để tra ra giá trị
p cũng giúp tìm được ngưỡng hoặc con số của giá trị p gần đúng hơn. Điều may mắn là hiện
nay chúng ta có thể dễ dàng tính được con số p chính xác bằng các phần mềm thống kê.
Về ý nghĩa, giá trị p là xác suất có khác biệt mà chúng ta quan sát được trong nghiên
cứu nếu như thật sự không có khác biệt trong dân số. Nói cách khác giá trị p là xác suất có khác
biệt mà chúng ta quan sát được trong nghiên cứu nếu như giả thuyết H0 là đúng. Nếu như giá
trị p là nhỏ tức là xác suất xảy ra sự khác biệt mà chúng ta quan sát được từ nghiên cứu nếu
như thật sự không có khác biệt trong dân số là thấp. Khi đó, chúng ta có thể bác bỏ giả thuyết
H0 và kết luận sự khác biệt có ý nghĩa thống kê. Đơn giản hơn, có thể hiểu là a) giả định rằng
dân số không khác biệt b) nhưng nghiên cứu của chúng ta có khác biệt c) mà điều khác biệt đó
khó xảy ra nên d) dữ liệu là bằng chứng chống lại giả định, bác bỏ giả định và e) kết luận là có
khác biệt.
Ngược lại, nếu giá trị p là lớn thì có nghĩa là xác suất xảy ra khác biệt mà chúng ta
quan sát được từ nghiên cứu nếu như thật sự không có khác biệt trong dân số là lớn. Khi đó
chúng ta chấp nhận giả thuyết H0 và kết luận sự khác biệt không có ý nghĩa thống kê. Cũng có
thể hiểu đơn giản như trên: a) giả định dân số không khác biệt b) nhưng nghiên cứu của chúng
ta có khác biệt c) mà điều khác biệt đó rất dễ xảy ra nên d) dữ liệu không thể chống lại với giả
định và đành chấp nhận giả định và e) kết luận là không khác biệt.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 13

Quay trở lại với ví dụ đo chiều cao trung bình của 50 người, chúng ta có được thống kê
t = - 2,357 và độ tự do là 49 nên có thể tra bảng thống kê hoặc tính bằng các phần mềm sẽ có
được giá trị p là 0,023. Tuy nhiên, con số p = 0,023 là xác suất ứng với H1 (Ha) là trung bình
mẫu khác trung bình dân số (160 cm), là giá trị p của kiểm định hai đuôi. Trong trường hợp giả
thuyết H1 (Ha) là dạng một đuôi, ví dụ trung bình mẫu lớn hơn trung bình dân số (160 cm) thì
giá trị p là 0,989. Nếu giá thuyết H1 (Ha) là trung bình mẫu nhỏ hơn trung bình dân số thì giá
trị p là 0,011. Nói cách khác giá trị p một đuôi là Pr (X > 160) = 0,989 đối với đuôi bên phải
và Pr (X < 160) = 0,011 đối với đuôi bên trái. Trong khi đó giá trị p hai đuôi là giá trị nhỏ nhất
của hai giá trị một đuôi và nhân hai. Vì vậy trong trường hợp này là Pr (X ≠ 160) = 0,011 x 2
= 0,022 (khác với số 0,023 là do sai số làm tròn). Tương tự ví dụ trong hình 3.2 nhưng hình
3.2 là ngưỡng 5% nên chỉ có thể gợi ý p > 0,05 hay p ≤ 0,05 mà không có con số cụ thể như
trong trường hợp này.

2.5. Kết luận từ kiểm định


Dựa vào ngưỡng ý nghĩa đã lựa chọn trong giai đoạn đầu, thường là 5%, chúng ta sẽ
chấp nhận hay bác bỏ giả thuyết. Khi giá trị p ≤ ngưỡng (p ≤ 0,05) thì bác bỏ giả thuyết H0 và
có thể lấy phát biểu H1 (Ha) làm kết luận, tức là có sự khác biệt giữa nghiên cứu và dân số
hoặc giữa các mẫu so sánh. Khi giá trị p > ngưỡng (p > 0,05) thì chấp nhận giả thuyết H0 và
có thể lấy phát biểu của H0 làm kết luận, tức là không có sự khác biệt giữa nghiên cứu và dân
số hoặc giữa các mẫu so sánh.
Cần lưu ý rằng về mặt lý luận, chúng ta có thể điều tra, tìm hiểu về một giả thuyết theo
một trong hai cách. Cách thứ nhất là chứng minh giả thuyết đúng bằng cách cho thấy tất cả đối
tượng trong nghiên cứu đều thỏa giả thuyết. Cách thứ hai là chứng minh giả thuyết sai bằng
cách chỉ ra ít nhất một trường hợp không thỏa giải thuyết. Nhìn chung thì cách thứ hai tìm ra
cách để chống lại giả thuyết là dễ dàng hơn so với việc chứng minh để ủng hộ giả thuyết. Ví
dụ định luật của Newton vẫn được cho là đúng hoàn toàn cho đến khi Einstein chứng minh
rằng vẫn có trường hợp định luật này không phù hợp qua thuyết tương đối của ông. Nguyên lý
của kiểm định thống kê cũng dựa vào nguyên tắc tìm kiếm bằng chứng để chống lại giả thuyết
mà trong trường hợp này là giả thuyết H0. Chính vì vậy, khi giá trị p càng ≤ ngưỡng (0,05) thì
bằng chứng chống lại giả thuyết H0 càng mạnh và chúng ta có thể tự tin kết luận bác bỏ giả
thuyết H0 nhưng khi p > ngưỡng (0,05) thì chúng ta không đủ bằng chứng để bác bỏ giả thuyết
H0 nên đành phải giữ lại (chấp nhận) giả thuyết H0. Nếu là quan tòa thì nhiều khả năng sẽ cho
điều tra tiếp còn nếu là nhà nghiên cứu thường sẽ tiến hành thêm các nghiên cứu để làm sáng

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 14

tỏ vấn đề. Lưu ý rằng khi giá trị p càng nhỏ thì càng thể hiện xác suất chống lại H0 chứ không
thể hiện ước lượng của hai mẫu khác biệt lớn, ví dụ p < 0,05, p < 0,01, p <0,001 không thể cho
thấy rằng giá trị của các nhóm khác biệt lớn đến như thế nào. Khi giá trị p > 0,05 thì chúng ta
đã thất bại trong việc bác bỏ giả thuyết H0. Có thể hiểu về các ngưỡng giá trị p thường dùng
trong nghiên cứu như sau:
- p > 0,100: không có bằng chứng chống lại giả thuyết H0. Dữ liệu trong nghiên cứu đồng
nhất với giả thuyết H0.
- 0,050 < p < 0,100: bằng chứng yếu ớt trong việc chống lại giả thuyết H0 và có thể giả
thuyết thay thế phù hợp hơn.
- 0,010 < p < 0,050: bằng chứng vừa đủ mạnh trong việc chống lại giả thuyết H0 và có
thể giả thuyết thay thế phù hợp hơn.
- 0,001 < p < 0,010: bằng chứng mạnh mẽ trong việc chống lại giả thuyết H0 và giả
thuyết thay thế có thể phù hợp hơn.
- p < 0,001: bằng chứng rất mạnh mẽ trong việc chống lại giả thuyết H0 và giả thuyết
thay thế có thể phù hợp hơn.

Với nghiên cứu chiều cao trung bình trên 50 người như trên, giá trị p = 0,023 ≤ 0,05 nên
bác bỏ giả thuyết H0 và có thể kết luận rằng chiều cao trung bình thu được từ nghiên cứu trên
50 người này có sự khác biệt có ý nghĩa thống kê so với giá trị của dân số (160 cm).

3. Các loại sai lầm và sức mạnh thống kê


Khoa học thống kê là khoa học về xác suất và vì vậy không có kết luận nào hoàn toàn
đúng hoặc hoàn toàn sai mà ẩn chứa trong đó là những điều kiện kèm theo hoặc những sai số
“chấp nhận được”. Có thể hiểu nôm na rằng trong các ngành khoa học có liên quan đến tính
toán thì thống kê là ngành khoa học mà trong đó sai số có thể được chấp nhận và trong hầu hết
trường hợp có thể chấp nhận sai số khoảng 5% hoặc thậm chí 10% hay 20%. Trong kiểm định
giả thuyết, sai số chỉ xoay quanh việc chấp nhận hay không chấp nhận giả thuyết H0. Sẽ không
có sai sót nếu giả thuyết H0 là đúng và khi tính toán kiểm định có thể kết luận giả thuyết H0 là
đúng, hoặc giả thuyết H0 là sai thì sau khi tính toán kiểm định có thể kết luận giả thuyết H0 là
sai. Tuy nhiên, vẫn có trường hợp khi giả thuyết sai nhưng lại kết luận đúng và ngược lại giả
thuyết đúng lại kết luận sai.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 15

Đối với các nhà toán học hoặc thống kê y học, sai lầm thứ nhất có thể gặp là giả thuyết
H0 đúng nhưng sau khi tính toán, chứng minh bằng số liệu thì lại bác bỏ giả thuyết H0. Sai số
này gọi là sai số loại 1 (Type 1 error) hay còn gọi là alpha hay ngưỡng ý nghĩa mà chúng ta đã
đề cập bên trên. Sai lầm loại một này cũng có thể hiểu là tỉ lệ dương tính giả (False Positive).
Sai lầm thứ hai có thể có là giả thuyết H0 sai nhưng sau khi tính toán, chứng minh thì lại chấp
nhận giả thuyết H0. Sai số này gọi là sai số loại 2 (Type 2 error) hay còn gọi là beta và cũng
có thể hiểu là tỉ lệ âm tính giả. Khi biết được sai số loại 2 (beta) thì có thể biết được sức mạnh
thống kê (Power) hay có thể hiểu là tỉ lệ dương tính thật.
Bảng 3.2. Các loại sai lầm dưới góc nhìn của nhà thống kê, toán học
H0 đúng H0 sai
Bác bỏ đúng
Bác bỏ H0 Sai lầm loại 1
Dương tính thật
(p ≤ 0,05) Dương tính giả
Sức mạnh thống kê
Chấp nhận H0 Chấp nhận đúng Sai lầm loại 2
(p>0,05) Âm tính thật Âm tính giả

Đối với nhà lâm sàng, sai lầm chỉ xoay quanh việc chẩn đoán có bệnh và không có bệnh
trong đó sai lầm loại 1 và loại 2 nói trên chính là khả năng chẩn đoán sai. Ở người không có
bệnh (giống giả thuyết H0 là không có liên quan, không có khác biệt) nhưng kết quả chẩn đoán,
xét nghiệm lại dương tính, thể hiện có bệnh. Đây chính là sai lầm loại 1 và trong lâm sàng cũng
gọi là dương tính giả (dương tính nhưng thật sự không có bệnh). Trong khi đó, nếu có bệnh
thật sự nhưng khi chẩn đoán, xét nghiệm lại âm tính, thể hiện không có bệnh thì chính là sai
lầm loại 2. Trong lâm sàng cũng hiểu sai lầm loại 2 là âm tính giả (có bệnh nhưng lại âm tính).
Đối với các xét nghiệm thì sai lầm loại 1 chính là 1 – độ đặc hiệu và sai lầm loại 2 là 1 – độ
nhạy. Khi xét nghiệm có độ nhạy và độ đặc hiệu cao thì sai lầm loại 1 và loại 2 sẽ thấp và
ngược lại.
Bảng 3.3. Các loại sai lầm dưới góc nhìn của nhà lâm sàng
Không có bệnh Có bệnh
Chấn đoán đúng
Xét nghiệm Sai lầm loại 1
Dương tính thật
dương tính Dương tính giả
Sức mạnh thống kê
Xét nghiệm âm Chẩn đoán đúng Sai lầm loại 2
tính Âm tính thật Âm tính giả

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 16

Đối với nhà nghiên cứu khoa học, sai lầm chỉ xoay quanh kết luận có liên quan hay
không liên quan, có phù hợp hay không phù hợp, có khác biệt hay không khác biệt, có ý nghĩa
thống kê hay không có ý nghĩa thống kê. Sai lầm loại 1 trong trường hợp này là khi trong dân
số đích hai yếu tố thật sự không có liên quan nhưng khi tiến hành nghiên cứu thì kết luận là có
liên quan. Trong khi đó, nếu giữa hai yếu tố thật sự có liên quan trong dân số đích mà nghiên
cứu tiến hành và kết luận không liên quan thì đã phạm vào sai lầm loại 2. Sức mạnh thống kê
thể hiện rằng khi trong dân số đích hai yếu tố thật sự có liên quan và khi tiến hành nghiên cứu
cũng kết luận có liên quan.
Bảng 3.4. Các loại sai lầm dưới góc nhìn của nhà nghiên cứu khoa học
Trong dân số đích
Không liên quan Có liên quan
Kết luận có liên
Trong nghiên

quan Sai lầm loại 1 Sức mạnh thống kê


(p ≤ 0,05)
cứu

Kết luận không


liên quan - Sai lầm loại 2
(p>0,05)

Bảng 3.5. Các khái niệm về sai lầm trong thống kê

Sai lầm loại 1 Sai lầm loại 2 Sức mạnh thống kê

Dương tính giả Âm tính giả Dương tính thật

Nhà thống kê y Bác bỏ H0 khi H0 Chấp nhận H0 khi Bác bỏ H0 khi H0


học đúng H0 sai sai

Nhà lâm sàng Không bệnh nhưng Có bệnh nhưng chẩn Có bệnh và chẩn
chẩn đoán có bệnh đoán không bệnh đoán có bệnh

Nhà nghiên cứu Không liên quan Có liên quan nhưng Có liên quan và kết
khoa học nhưng kết luận có kết luận không luận có

Như vậy, có thể thấy rằng mặc dù đã tính toán các con số thống kê, thu được giá trị p
và chọn ngưỡng để kết luận nhưng kết luận này thường không chính xác 100% mà có thể tiềm
ẩn những sai lầm. Nếu kết luận là có liên quan thì có khả năng phạm phải sai lầm loại 1 nhưng
nếu kết luận là không liên quan thì có thể lại phạm sai lầm loại 2. Sai lầm loại 1 thường được
mặc định chấp nhận ở ngưỡng là 5% trong khi sai lầm loại 2 là 20% (và vì vậy sức mạnh thống

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 17

kê là 1 – 0,2 = 0,8 # 80%). Các nghiên cứu thường không sử dụng sai lầm loại 1 và loại 2 lớn
hơn nếu không có bằng chứng hỗ trợ cho việc lựa chọn của mình. Sai lầm loại 1 là 5% có nghĩa
là nếu hai yếu tố thật sự không liên quan thì trong số 100 nghiên cứu giống nhau được tiến
hành sẽ có 5 nghiên cứu kết luận có liên quan và 95 nghiên cứu kết luận không liên quan. Sai
lầm loại 2 là 20% có nghĩa là nếu hai yếu tố thật sự có liên quan thì trong số 100 nghiên cứu
tiến hành tương tự nhau sẽ có 20 nghiên cứu kết luận không liên quan và 80 nghiên cứu kết
luận có liên quan.
Đối với một nghiên cứu, khi kết luận giữa hai yếu tố có liên quan thì sẽ có khả năng
vào khoảng 5% hai yếu tố đó không liên quan. Trong khi đó nếu kết luận rằng giữa hai yếu tố
không có liên quan thì có khả năng 20% hai yếu tố đó thật sự có liên quan. Vì vậy, tùy vào mục
tiêu ứng dụng của nghiên cứu mà nhà nghiên cứu có thể hiệu chỉnh sai lầm loại 1 và loại 2 để
từ đó nâng cao tính giá trị trong những kết luận từ nghiên cứu. Ví dụ, các hãng dược vì muốn
chứng minh rằng nghiên cứu của mình có tác dụng, có hiệu quả (giả thuyết H0 là không hiệu
quả) nên sẽ có thể sử dụng sai lầm loại 1 ở ngưỡng 1%, thấp hơn mức 5% thông thường. Điều
này là nhằm giảm sai lầm loại 1 đến thấp nhất có thể khi họ kết luận thuốc có tác dụng, có hiệu
quả. Có nghĩa là, khi họ kết luận thuốc có hiệu quả thì chỉ có khả năng 1% thuốc đó không hiệu
quả.
Ngoài sai lầm loại 1 và loại 2 vốn phổ biến trong nghiên cứu còn có sai lầm loại 3. Vì
sai lầm loại 3 chỉ có trong kiểm định một đuôi vốn rất ít dùng trong thực tế nên thường cũng
không được nhắc đến. Sai lầm loại 3 xảy ra trong kiểm định một đuôi trong đó nhà nghiên cứu
quyết định giữ lại giả thuyết H0 bởi vì vùng bác bỏ (xem hình 3.2, các phần sọc) bị đặt ở đuôi
khác. Ví dụ giả thuyết là trung bình mẫu < 160 cm thì phải đánh giá dựa vào hình (a) trong
biểu đồ 3.2 nhưng nhà nghiên cứu lại dựa vào hình (c) trong biểu đồ 3.2 và chấp nhận giả
thuyết H0 (mà đáng lý ra phải bác bỏ giả thuyết H0 nếu dùng đúng đuôi).
Điều mong muốn của hầu hết các nhà nghiên cứu là làm sao để kết luận của nghiên cứu
có tính giá trị cao và chỉ số thường nghĩ đến nhất là sức mạnh thống kê. Sức mạnh thống kê là
xác suất chọn ngẫu nhiên được một mẫu mà mẫu đó cho thấy giả thuyết H0 là sai khi mà giả
thuyết H0 thật sự sai. Để có thể hình dùng mối liên hệ giữa chỉ số này và các sai lầm như đã đề
cập bên trên cũng như các phương pháp giúp gia tăng sức mạnh thống kê, chúng ta có thể xem
các biểu đồ bên dưới:

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 18

Biểu đổ 3.3: Sự khác nhau về sức mạnh thống kê khi gia tăng sai lầm loại 1

Biểu đồ 3.4. Sự khác nhau về sức mạnh thống kê khi khác biệt về cỡ tác động

Biểu đồ 3.5. Sự khác nhau về sức mạnh thống kê giữa kiểm định 1 đuôi và 2 đuôi

Biểu đồ 3.6. Sự khác nhau về sức mạnh thống kê giữa cỡ mẫu nhỏ và cỡ mẫu lớn

Biểu đồ 3.3 cho thấy giữa sai lầm loại 1 và sức mạnh thống kê có mối liên hệ mật thiết
với nhau trong đó nếu gia tăng sai lầm loại 1 (chấp nhận sai số loại 1 cao hơn) thì sẽ có sức
mạnh thống kê cao hơn. Biểu đổ 3.4 thì lại cho thấy nếu như khác biệt của hai quần thể là đáng
kể thì sẽ có sức mạnh thống kê cao hơn so với hai quần thể không khác biệt. Có nghĩa là, nếu
có khác biệt giữa hai quần thể thì kết luận về sự khác biệt trong nghiên cứu nhiều khả năng
đúng hơn. Biểu đồ 3.5 gợi ý rằng các kiểm định 1 đuôi sẽ cho sức mạnh thống kê cao hơn các

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 19

kiểm định thống kê hai đuôi với giả định nhà nghiên cứu chọn đuôi bên trái hoặc bên phải cho
phù hợp. Biểu đồ 3.6 cho thấy nghiên cứu với cỡ mẫu lớn hơn sẽ giúp gia tăng sức mạnh thống
kê thông quan việc giảm sai số chuẩn.
Thực tế cho thấy rất nhiều nhà nghiên cứu yêu chuộng giá trị p, đặc biệt là các giá trị p
< 0,005. Tuy nhiên, việc sử dụng giá trị p để đưa ra kết luận trong nghiên cứu khoa học có thể
ẩn chứa những sai lầm và dẫn dắt người đọc theo một hướng khác. Vì vậy, khi sử dụng giá trị
p trong nghiên cứu cần đặc biệt lưu ý một số đặc điểm sau đây. Thứ nhất, đôi khi giá trị p <
0,05 thể hiện có khác biệt hoặc có hiệu quả nhưng mức độ của sự khác biệt đó có thể không có
ý nghĩa trên lâm sàng. Ví dụ, đã từng có những kết luận như “khi tuổi gia tăng một đơn vị có ý
nghĩa tiên lượng tử vong ở người bệnh tim mạch > 60 tuổi” bởi vì nhà nghiên cứu thấy rằng
giá trị p của biến số tuổi p < 0,05. Tuy nhiên, thực tế hai bệnh nhân khác biệt nhau 1 tuổi không
phải là một vấn đề trầm trọng trên lâm sàng. Trong trường hợp này, sẽ phù hợp hơn nếu tác giả
thể hiện sự khác biệt, tác động giữa hai bệnh nhân hơn kém nhau 5 hoặc 10 tuổi. Như vậy,
không thể phủ nhận vai trò của thống kê nhưng ý nghĩa trên lâm sàng đôi khi quan trọng hơn
ý nghĩa thống kê. Chính vì vậy, nhà nghiên cứu có kinh nghiệm sẽ không bao giờ trình bày giá
trị p đơn lẽ mà thường báo cáo thêm các chỉ số khác để cho thấy sự khác biệt, ví dụ khoảng tin
cậy 95% của khác biệt, hoặc cỡ tác động, hoặc các chỉ số dịch tễ học như tỉ số số chênh, tỉ số
nguy cơ hay tỉ số tỉ lệ hiện mắc, tỉ số nguy hại... Thứ hai, về lý thuyết xác suất thì trong 100
nghiên cứu sẽ có khoảng 5 nghiên cứu có p < 0,05 hoặc trong 20 nghiên cứu như nhau thì có
khoảng 1 nghiên cứu có p < 0,05. Cho nên, một lần nữa cần cân nhắc về ý nghĩa lâm sàng, tính
phù hợp với ý văn trước khi có những kết luận. Thứ ba, ứng với cỡ mẫu lớn thì chỉ cần khác
biệt rất nhỏ cũng có thể cho ra giá trị p < 0,05. Ngược lại thì với cỡ mẫu nhỏ thì khác biệt phải
rất lớn mới cho ra giá trị p < 0,05. Đây là hạn chế của giá trị p mà nhà nghiên cứu đã lợi dụng,
đặc biệt trong những nghiên cứu can thiệp, so sánh giữa các nhóm. Ví dụ, nhiều nhà lâm sàng
thường truyền miệng nhau rằng chỉ cần cỡ mẫu 30 là đủ lớn để tiến hành nghiên cứu và tính
toán thống kê và thường chọn 30 người ở nhóm can thiệp và 30 người nhóm đối chứng. Về
nguyên tắc thì hai nhóm can thiệp và đối chứng phải giống nhau về nhiều đặc điểm ở đầu vào
nghiên cứu thì kết quả so sánh can thiệp mới có tính giá trị. Và vì cỡ mẫu nhỏ nên ngay từ bảng
đầu tiên khi so sánh tính tương đồng của hai nhóm can thiệp thì tác giả đã cho thấy p > 0,05,
có nghĩa là không khác biệt, cũng đồng nghĩa rằng hai nhóm tương đồng. Tuy nhiên, việc
không khác biệt này thường là do cỡ mẫu nhỏ và nếu tính sức mạnh thống kê cho các trường
hợp đó thì sức mạnh thống kê thường rất thấp, thậm chí chỉ 30 – 40%.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 20

4. Giả thuyết của kiểm định thống kê


Sau khi thực hiện kiểm định thống kê, ngoài việc cân nhắc các ngưỡng sai lầm loại 1,
loại 2 và sức mạnh thống kê như trên, nhà nghiên cứu cần đặc biệt quan tâm đến giả định
(assumption) hay điều kiện của từng loại kiểm định. Mặc dù có các con số nhưng nếu không
thỏa các điều kiện này thì kết quả kiểm định có thể không phù hợp với công thức, thuật toán,
phân bố dữ liệu mà nhà nghiên cứu đã sử dụng để tính toán. Một số điều kiện thường đỏi hỏi
trong các kiểm định thống kê:
- Mẫu ngẫu nhiên: để kết quả có tính suy diễn đúng đắn thì mẫu nghiên cứu cần phải đại diện
cho quần thể nghiên cứu. Để làm được điều này thì phụ thuộc vào phương pháp mà chúng ta
đã tiến hành chọn mẫu. Thông thường, chọn mẫu ngẫu nhiên (ngẫu nhiên đơn, ngẫu nhiên hệ
thống, phân tầng, thứ bậc, cụm và các phương pháp chọn mẫu xác suất khác) sẽ đảm bảo tính
đại diện hơn so với các phương pháp chọn mẫu không ngẫu nhiên (chọn mẫu thuận tiện, chọn
mẫu tuần tự, chọn mẫu theo chủ đích, chọn mẫu bóng tuyết và các phương pháp chọn mẫu
không xác suất).
- Các quan sát độc lập nhau: cũng liên quan đến tính đại diện cho quần thể nghiên cứu, các
quan sát cần phải độc lập với nhau. Điều này có nghĩa là xác suất thu được một quan sát là
hằng định. Đơn giản hơn có nghĩa là các đối tượng nghiên cứu không có mối liên hệ với nhau
theo một hoặc nhiều đặc điểm quan tâm trong nghiên cứu. Trong thực tế có những loại nghiên
cứu mà các quan sát không độc lập với nhau, ví dụ các nghiên cứu theo dõi theo thời gian, các
nghiên cứu đo lường lặp lại. Chẳng hạn, nghiên cứu đánh giá hiệu quả điều trị đau lưng bằng
phương pháp vật lý trị liệu hoặc bằng thuốc tiến hành tại nhiều phòng khám tư của các bác sĩ
là thành viên trong hội y học. Với mỗi bác sĩ sẽ có quan điểm và phương pháp điều trị khác
nhau, ví dụ bác sĩ trẻ ưa chuộng thuốc do hiệu quả tức thời trong khi các bác sĩ lớn tuổi chọn
phương pháp vận động, vật lý trị liệu và cũng có nhóm bác sĩ kết hợp cả hai. Với các bệnh
nhân của cùng một bác sĩ sẽ được điều trị theo “phương pháp gia truyền” của bác sĩ đó và vì
vậy các quan sát này (hiệu quả điều trị) không còn là độc lập với nhau vì cùng nhận được cách
chăm sóc điều trị như nhau.
- Mẫu có phân phối theo qui ước từng kiểm định: thông thường sẽ là phân phối bình thường
hoặc cỡ mẫu đủ lớn để được xem là xấp xỉ bình thường. Vì các công thức tính toán đã dựa vào
qui luật phân phối nhất định, nên để đúng đắn thì dữ liệu cần có dạng phân phối đó. Vì vậy, sẽ
lý tưởng nếu như nhà nghiên cứu xác định loại phân phối của dữ liệu xem đã phù hợp với kiểm
định muốn tính hay chưa trước khi tiến hành tính toán hoặc chuyển đổi dạng dữ liệu để tính
toán cho phù hợp.

(Version 1: 30/08/2015 11:56:28 AM)


TKYH: Nguyên lý kiểm định Thái Thanh Trúc 21

- Biến thiên của dân số đã biết và hằng định (ví dụ độ lệch chuẩn): các mẫu nghiên cứu khác
nhau sẽ có các cá nhân khác so với dân số đích một hằng số và vì vậy con số của dân số có thể
khác biệt khi gộp trung bình của nhiều ước lượng từ nhiều mẫu nghiên cứu. Tuy nhiên, việc
khác nhau theo một con số hằng định sẽ không ảnh hưởng đến độ lệch chuẩn của dân số. Ví dụ
nếu chiều cao trung bình của dân số là 160 cm và những người chơi thể thao có trung bình cao
hơn khoảng 2 cm. Có nghĩa là các cá nhân trong nghiên cứu những người chơi thể theo có khác
biệt khoảng 2 cm so với dân số và trung bình của mẫu này cũng ảnh hưởng đến dân số đích khi
cộng gộp. Tuy nhiên, độ lệch chuẩn không bị ảnh hưởng bởi sự khác biệt 2 cm này. Tuy nhiên,
do điều này khó kiểm tra và đối chiếu nên thường không được đề cập đến trong hầu hết các
nghiên cứu.

4. Tài liệu tham khảo


ARMITAGE, P., BERRY, G. & MATTHEWS, J. N. S. 2008. Statistical Methods in Medical
Research, Chichester:, John Wiley & Sons, Ltd.
KIRKWOOD, B. R. & STERNE, J. A. C. 2003. Essential medical statistics, Malden, Mass.,
Blackwell Science.
PETRIE, A. & SABIN, C. 2009. Medical statistics at a glance, Chichester, UK ; Hoboken, NJ,
Wiley-Blackwell.
RIFFENBURGH, R. H. 2006. Statistics in medicine, Burlington, MA, Elsevier Academic
Press.

(Version 1: 30/08/2015 11:56:28 AM)

You might also like