Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

KIỂM ĐỊNH GIẢ THUYẾT VÀ TRÌNH BÀY DỮ KIỆN DỊCH TỄ HỌC

Mục tiêu học tập


1. Phân loại được các biến số trong nghiên cứu
2. Trình bày được cách phân tích và trình bày số liệu phù hợp với các loại biến số thu thập
3. Trình bày được các bước kiểm định giả thuyết cho nghiên cứu
4. Trình bày được các dữ kiện dịch tễ học dưới các dạng bảng biểu, đồ thị phù hợp

1. Biến số
1.1. Định nghĩa
Biến số là một đặc tính của người, sự vật, hiện tượng mà có thể mang các giá trị khác nhau. Khi
nó được người nghiên cứu lựa chọn để quan sát, đo lường trong quá trình nghiên cứu thì nó là
các biến số nghiên cứu.
1.2. Phân loại biến số:
1.2.1. Phân loại theo bản chất của biến số
Theo bản chất, biến số được chia thành hai nhóm chính là biến định lượng và biến định tính.
Một biến số được gọi là biến định lượng khi giá trị của biến được biểu thị bằng các con số. Tùy
theo bản chất của các số đo, biến định lượng có thể được chia ra hai nhóm:
 Biến liên tục: là biến mà các số đo có thể mang giá trị thập phân (giá trị của nó có thể được
biểu thị liên tục trên một trục số).
Ví dụ: Cân nặng, hàm lượng đường huyết.
 Biến rời rạc: là biến mà các số đo chỉ mang các giá trị là các số nguyên, không có giá trị thập
phân.
Ví dụ: Số giường trong một bệnh viện, số người trong một nhóm.
Tùy theo bản chất của giá trị 0, người ta còn phân biến định lượng ra thành hai loại:
 Biến tỷ suất: là biến có giá trị 0 là thực.
Ví dụ: Biến cân nặng là biến tỷ suất vì giá trị 0 là thực. Khi cân nặng bằng 0, tức là không có cân
nặng.
 Biến khoảng chia: biến có giá trị 0 không thực (chỉ do quy ước).
Ví dụ: Biến nhiệt độ là biến khoảng chia. Khi nhiệt độ bằng 0 độ C không có nghĩa là không có
nhiệt độ mà chỉ là nhiệt độ ở thời điểm nước chuyển từ trạng thái lỏng sang rắn.
Một biến được gọi là biến định tính khi giá trị của biến được biểu thị bằng các chữ hoặc ký hiệu
được sắp xếp vào các nhóm khác nhau.
 Biến danh mục: là biến mà các loại, các nhóm của biến không cần sắp xếp theo một trật tự
nhất định.
Ví dụ: tôn giáo (Phật, Thiên chúa, Cao Đài, khác,…); dân tộc (Kinh, Hoa , khác,….)
 Biến thứ hạng: là biến mà các loại, các nhóm của biến phải được sắp xếp theo một trật tự nhất
định.
Ví dụ: Biến trình độ văn hóa của đối tượng nghiên cứu (tiểu học, trung học phổ thông, trung hoc
cơ sở, cao đẳng, đại học, sau đại học)
 Biến nhị phân: là một loại biến định tính đặc biệt rất hay gặp trong y học. Các giá trị trong
biến này bao giờ cũng chỉ được phân thành hai nhóm.
Ví dụ: Biến tăng huyết áp chia thành hai nhóm: có hoặc không; biến giới tính chia thành hai
nhóm nam và nữ.
1.3. Phân loại theo mối tương quan giữa các biến
Trên thực tế các biến số thường có ảnh hưởng qua lại lẫn nhau theo các cách khác nhau. Mối liên
quan giữa các biến hay gặp nhất trong y học là mối liên quan hệ nhân quả. Dựa vào quan hệ này
người ta có thể phân ra các loại biến như sau:
 Biến độc lập: là biến được sử dụng để mô tả hoặc đo lường các yếu tố mà người nghiên cứu
cho rằng nó có thể là nguyên nhân hoặc là yếu tố ảnh hưởng đến vấn đề đang được nghiên cứu.
Trong y học, biến này thường là các yếu tố nguy cơ trong mối quan hệ nhân quả với hiện tượng
sức khỏe cần nghiên cứu. Nó tồn tại một cách độc lập, không chịu sự chi phối của yếu tố “quả”.
Ví dụ: Độ ẩm thấp và thiếu ánh sáng trong nhà ở là yếu tố nguy cơ (biến độc lập) của bệnh lao.
 Biến phụ thuộc: là biến số được sử dụng để mô tả hoặc đo lường vấn đề cần nghiên cứu. Nó
thường là các vấn đề sức khỏe mà người nghiên cứu mong muốn khảo sát. Nó có thể là hậu quả
trong mối liên quan với nhiều yếu tố khác, vì vậy giá trị của nó thường phụ thuộc vào sự biến đổi
của các biến ảnh hưởng đến nó.
Ví dụ: Bướu cổ đơn thuần là một biến phụ thuộc vào tình trạng thiếu i ốt trong chế độ ăn uống.
Khái niệm về biến độc lập và biến phụ thuộc chỉ là tương đối và chỉ phù hợp trong bối cảnh của
nghiên cứu. Một biến có thể là biến độc lập trong nghiên cứu này nhưng lại là biến phụ thuộc
trong nghiên cứu khác và ngược lại.
2. Yêu cầu kiểm tra số liệu trước khi tiến hành phân tích
2.1. Kiểm tra độ chính xác của số liệu thu thập được
Phương pháp tiến hành thu thập thông tin phù hợp với thiết kế nghiên cứu định tính, định lượng
và đáp ứng mục tiêu nghiên cứu
• Kiểm tra phiếu câu hỏi và dụng cụ thu thập thông tin có đủ các biến, và khả năng thu thông
tin như nhau ở mỗi đối tượng và người điều tra khác nhau
• Giám sát cách thức phỏng vấn và cách đặt câu hỏi, thái độ của người điều tra
• Xây dựng các biến số cung cấp đạt được mục tiêu nghiên cứu và kiểm tra lại các biến có phù
hợp với mục tiêu
2.2. Kiểm tra số liệu thu thập được
• Tiến hành ngay từ khi bắt đầu thu thông tin và vào số liệu máy tính để loại trừ sai số và trùng
lặp
• Kiểm tra thống nhất mã hóa thông tin
• Sắp xếp thông tin theo thứ tự logic, tránh nhầm lẫn, bỏ qua
• Kiểm tra sắp xếp số liệu
• Sắp xếp các số liệu có liên quan theo từng mục tiêu hoặc theo từng câu nghiên cứu
• Phân loại các số liệu và sử dụng các ký hiệu mã hóa tóm tắt các số liệu có chung một đặc tính
hoặc hình thái nào đó.
• Trình bày và tóm tắt số liệu bằng các sơ đồ, bảng ma trận để có thể nhìn nhận rõ ràng hơn số
liệu, đặc biệt mối quan hệ giữa các biến khác nhau trong nghiên cứu cũng như các kết luận.
• Xác định các biến số và mối quan hệ giữa các biến.
• Tìm kiếm các yếu tố gây nhiễu hoặc các yếu tố có thể can thiệp được.
• Tìm kiếm các bằng chứng logic của các sự kiện nếu như có thể được
• Kiểm tra tính đại diện của số liệu: chọn đối tượng phải tuân theo một tiêu chuẩn chọn một
cách hệ thống
• Kiểm tra sai số hệ thống: sai số do ảnh hưởng của các nhà nghiên cứu trong những tình huống
nghiên cứu khác nhau
• Kiểm tra chéo thông tin, các sự kiện từ nhiều nguồn khác nhau: số liệu, thông tin chỉ khẳng
định khi đã kiểm tra từ các nguồn khác nhau mà không có sự khác biệt hay mâu thuẫn nhau.
2.3. Phân loại đặc điểm của số liệu thu thập được để áp dụng các kĩ thuật phân tích phù hợp

Loại biến số Loại mẫu Quan sát độc lập Quan sát ghép cặp
Biến danh mục Mẫu nhỏ Test chính xác của Test dấu hiệu (sign)
Fisher
Mẫu lớn
χ χ
2 2
Test hoặc test Z Test của Mcnemar
Biến thứ hạng Hai nhóm Test hai nhóm của Test Wilcoxon signed –
Wilcoxon hoặc Mann- rank
Whitney U.
> 2 nhóm Kraskal Wallis-1-way Fried man -2-way
ANOVA ANOVA
Biến định lượng 2 nhóm Test T-student hoặc test T-test ghép cặp
Z
>2 nhóm F-Test ANOVA T-test ghép cặp
2.4. Một số lưu ý khi trình bày số liệu
• Trước khi quyết định trinh bày số liệu dịch tễ cần phải xác định muốn truyền đạt điều gì?
• Có trọng tâm thay đổi hình ảnh khác biệt so với trước?
• Chỉ ra sự khác biệt về số mới mắc liên quan đến địa lý hoặc yếu tố nguy cơ xác định trước?
• Muốn người đọc hiểu được sự phiên giải kết quả nào?
3. Phân tích và phiên giải kết quả
3.1.Phân tích theo thời gian
Phân tích cơ bản số liệu điều tra theo thời gian dẫn đến phát hiện đặc điểm xu hướng và sự thay
đổi về tỷ lệ mới mắc bệnh. Đối với các bệnh truyền nhiễm cần khai báo phân tích đầu tiên
thường là so sánh số trường hợp bệnh báo cáo nhận được trong tuần với số trường hợp báo cáo
tuần trước đó. Số liệu có thể được trình bày theo bảng , biểu đồ hoặc cả hai. Tăng đột ngột hoặc
tăng dần số trường hợp có thể phát hiện được khi nhìn vào biểu đồ.
Một cách phân tích phổ biến khác là so sánh số trường hợp trong giai đoạn hiện tại và số trường
hợp báo cáo trong suốt 2-10 năm trước

3.2. Phân tích theo địa điểm


Phân tích trường hợp bệnh theo địa điểm thường được thể hiện ở bảng, hoặc bản đồ
3.3. Phân tích theo thời gian và địa điểm
Trong quá trình thực hành, bệnh thường được phân tích phối hợp thời gian địa địa điểm bùng
phát bệnh, thường được trình bày phối hợp theo bảng hoặc bản đồ
3.4. Phân tích theo con người
Đặc điểm về người thường được thu thập và phân tích là tuổi, giới. Và các đặc điểm khác như
trường học, nơi làm việc, thời gian nhập viện gần nhất, tình trạng hiện tại như phơi nhiễm với
một bệnh, đi lại,du lịch thời gian vừa qua, hút thuốc có thể thu thập và hữu ích cho phân tích tùy
theo vấn đề sức khỏe quan tâm
• Tuổi
Ý nghĩa phân tích đặc tính tuổi phụ thuộc vào bệnh quan tâm. Các phân đoạn tuổi có thể tách rời
hoặc gồm toàn bộ. Phân đoạn tách rời có nghĩa là phân đoạn tuổi không chồng chéo ở 2 đầu, (ví
dụ 1-4 tuổi, 5-9 tuổi,.. khác với 1-5 tuổi, 5-9 tuổi…). Bao gồm toàn bộ có nghĩa là toàn bộ các
nhóm tuổi có thể, bao gồm toàn bộ (ví dụ <1tuổi và ≥84 tuổi) hoặc không biết
Phân tuổi chuẩn cho trẻ bệnh thường là <1 tuổi và 1-4, 5-9, 10-14, 15-19 và ≥20 tuổi. Đối
với tỷ lệ chết do viêm phổi và cúm thường ảnh hưởng không cân đối ở người lớn, phân tuổi
thường là : < 1tuổi, 1-24, 25-44, 45-64 và ≥ 65 tuổi. Ở Mỹ, 2/3 trường hợp tử vong gặp ở
những người có tuổi ≥ 65, các nhà nghiên cứu thường chia phân đoạn tuổi là 65-74, 75 -84,
≥85 tuổi
Đặc điểm tuổi phân bố của bệnh cần phải được áp dụng trong quyết định phân nhóm tuổi. Phân
nhóm tuổi hẹp cho các bệnh tăng cao theo tuổi, phân nhóm rộng cho các đặc tính khác. Nếu phân
bố theo tuổi biến đổi theo thời gian và địa lý, thì phân nhóm tuổi cần phải thay đổi phù hợp.
Để sử dụng số liệu tính toán tỷ suất, phân nhóm tuổi phải phù hợp với nhóm tuổi quần thể nguy
cơ. Ví dụ thống kê dân số thường công bố < 5 tuổi, 5-9, 10-14 như vậy theo 5 tuổi mỗi nhóm.
Đặc điểm phân này không thể sử dụng cho số liệu điều tra đã phân nhóm tuổi theo 5 năm khác
(ví dụ 1-5, 6-10, 11-15 và cũng cách 4)
• Các đặc tính khác hoặc theo yếu tố nguy cơ bệnh
Đối với một vài bệnh, thông tin về yếu tố nguy cơ đặc biệt (ví dụ: chủng tộc, dân tộc , nghề
nghiệp..) là thu thập thường lệ và phân tích đều đặn. Đối với bất kỳ trường hợp viêm gan A được
báo cáo trong số những người quản lý thực phẩm họ phải phơi nhiễm hoặc có phơi nhiễm với
người bệnh; đối với báo cáo viêm gan B, có 2 hoặc hơn hai bệnh nhân được liệt kê từ cùng một
nha khoa như là nguồn lây tiềm tàng? Đối với báo cáo trường hợp thủy đậu, bệnh nhân đã từng
tiêm phòng chưa? Phân tích số liệu yếu tố nguy cơ có thể cung cấp thông tin hữu ích cho việc
kiểm soát bệnh và dự phòng
Thông tin tìm hiểu về yếu tố nguy cơ thường không đầy đủ và có sẵn.
4. Trình bày số liệu
4.1. Bảng số liệu
Số liệu được trình bày theo hàng và cột. Phù hợp cho các biến số định lượng, xác định hình mẫu,
ngoại lệ và sự khác biệt và các liên quan khác, là cách trình bày cơ bản cho cách thể hiện khác
như biểu đồ, bản đồ không thể hiện hết được chi tiết.
Yêu cầu trình bày bảng: số liệu đơn giản, dễ hiểu, thể hiện rõ mục đích thông tin muốn phiên giải
Tên bảng phải rõ, chính xác đầy đủ, trả lời được câu hỏi khi nào , cái gì, ở đâu
Bảng 1 biến: ví dụ báo cáo trường hợp mắc giang mai tiên phát và thứ phát
Nhóm tuổi Sổ trường hợp bệnh Tỷ lệ
≤14 21 0,3
15-19 351 5,1
20-24 842 12,3
25-29 895 13,0
30-34 1097 16,0
35-39 1367 19,9
40-44 1023 14,9
45-49 982 14,3
50-54 284 4,1
Tổng 6862 100

Bảng 2 hoặc 3 biến: Ví dụ phân bố tuổi giới của mẫu nghiên cứu 100 dân
Nhóm tuổi Nam Nữ Tổng số
0-4 10 9 19
5-14 12 13 25
15-44 20 20 40
≥45 7 9 16
Tổng 49 51 100

Ví dụ trong bảng tiếp liên 2x2 trong nghiên cứu ca bệnh chứng, địa điểm và nguy cơ nhiễm độc
CO sau trận bão Ice storm –Main 1998
Địa điểm Bệnh Không bênh Tổng
Trong nhà 23 23 46
Ngoài nhà 4 139 142
Tổng 27 162 189

4.2. Xây dựng biểu đồ


4.2.1. Đồ thị số học: Thường biểu diễn tỷ lệ mắc theo thời gian (hình 3)
4.2.2. Biểu đồ cột: thưòng biểu diễn phân bố tỷ lệ mắc
4.2.3. Biểu đồ hình tròn: Chỉ ra các tỷ lệ khác nhau giữa các loại trong một nhóm của một biến
về chất. Tổng tỷ lệ của các loại này phải bằng 100%
4.2.5. Biểu đồ cột chồng: Thích hợp để so sánh các quần thể khác nhau tỏng khi mỗi quần thể có
thể được biểu thị dưới dạng biểu đồ hình tròn

4.2.6. Biểu đồ cột liên tục: Thường dùng để biểu thị số liệu của một biến liên tục khi chúng đã
được phân ra các nhóm.
Có hai loại:
• Loại có chiều ngang cột bằng nhau (các nhóm của biến liên tục có cùng khoảng cách). Trong
trường hợp này nhóm có tần số cao nhất sẽ được biểu thị bằng cột cao nhất (không cần quan tâm
đến chiều rộng của cột)

• Biểu đồ cột liên tục với bề rộng các cột không đều nhau (khi khoảng cách các nhóm của biến
liên tục không đều nhau). Trong trường hợp này diện tích của cột biểu thị tần số của nhóm. Cột
cao nhất chưa chắc đã có tần số lớn nhất. Lưu ý rằng chiều cao thực sự của một cột sẽ bằng tần
số của nhóm đó chia cho bề rộng của nhóm

• Biểu đồ đa giác, được cấu trúc từ biểu đồ cột liên tục bằng cách nối các điểm giữa các cột với
nhau (trên nguyên tắc diện tích các cột bằng diện tích đa giác)
4.2.7. Biểu thị số liệu dưới dạng bản đồ:
• Thường áp dụng cho các số liệu dịch tễ học để biết được tính chất phân bố theo địa dư của nó
• Thông thường phân bố theo bản đồ thường thể hiện số liệu tuyệt đối của một hiện tượng sức
khỏe nào đó
• Ví dụ: Phân bố số trường hợp mắc thương hàn trong năm 1996 trong toàn quốc theo địa dư
• Cách phân bố này cho phép phát hiện các ổ dịch một cách dễ dàng, tuy nhiên không cho biết
được tỷ lệ mắc bệnh trong quần thể dân cư nhất định
4.2.. Loại biểu đồ chấm
Biểu thị mối tương quan giữa hai biến liên tục. Nó chỉ ra chiều hướng và độ lớn của mối tương
quan.
Tương quan có thể thuận hay nghịch:
- Tương quan thuận, r có giá trị dương và ngược lại.
- r luôn mang gtrị từ -1 đến +1.
- Giá trị r càng gần +1 hoặc -1, tương quan càng lớn.
- r càng gần 0 tương quan càng nhỏ.
Tóm tắt chức năng của các biểu đồ:
Loại biểu đồ Chức năng
Cột thanh đứng hoặc So sánh các tần số, tỷ lệ giữa các nhóm, loại của một biến về
thanh ngang (chart) chất (danh mục hoặc thứ hạng), hoặc gtrị trung bình của các
biến liên tục.
Có thể kết hợp 2-3 biến trên một biểu đồ  tạo nên các nhóm
cột, giữa các nhóm cột luôn có khoảng cách.
Hình tròn (Pie Chart) So sánh các tỷ lệ khác nhau giữa các loại trong một nhóm của
một biến về chất. Tổng các tỷ lệ phải bằng 100%.
Cột chồng Biểu đồ hình tròn chỉ thích hợp khi biểu thị cho một quần thể.
Khi muốn so sánh biến đó giữa 2 hoặc 3 quần thể khác nhau
thì biểu đồ cột chồng là thích hợp nhất.
Cột liên tục Khi một biến liên tục được phân ra các nhóm khác nhau, nó sẽ
(histogram) trở thành một biến định tính (bao gồm nhiều nhóm xếp kế tiếp
nhau). Trong trường hợp này biểu đồ liên tục là thích hợp
nhất.
Đa giác (polygon) Là một dạng đặc biệt của biểu đồ cột liên tục khi điểm giữa
của các cột này được nối với nhau theo nguyên tắc diện tích
các cột bằng diện tích đa giác.
Khác với biểu đồ đường thẳng, hai đầu mút của biểu đồ đa
giác luôn tiếp xúc với trục hoành, tạo ra một đa giác với trục
hoành
Đường thẳng (line) Chỉ ra sự biến thiên của một loại số liệu nào đó theo thời gian.
Có thể ghép nhiều biểu đồ đường thẳng trên cùng một trục số
để tiện so sánh.
Biểu đồ chấm Chỉ ra sự tương quan giữa hai biến liên tục. Dựa vào biểu đồ
(scatter) này ta có thể biết được hướng và mức độ tương quan giữa hai
biến liên tục này.
Bản đồ (map) Phân bố của một bệnh, một hiện tượng sức khỏe nào đó theo
địa dư. Trong trường hợp này người ta quan tâm đến số người
mắc bệnh trong các vùng khác nhau chứ không quan tâm đến
tỷ lệ mắc
II. KIỂM ĐỊNH GIẢ THUYẾT
1. Một số khái niệm cơ bản
• Kiểm định giả thuyết (Hypothesis testing): là sử dụng các test thống kê để kiểm định xem sự
khác biệt, mối liên quan nào đó mà nghiên cứu viên thấy ở trong mẫu có xảy ra tương tự như vậy
trong quần thể hay không. Kiểm định giả thuyết nhằm chứng minh giả thuyết của nhà nghiên cứu
(H1, Ha, có sự khác biệt nào đó) là đúng thông qua việc bác bỏ giả thuyết Ho (giả thuyết không
có sự khác biệt nào đó).
• Ý nghĩa thống kê: kết quả phân tích thống kê có ý nghĩa thống kê khẳng định là sự khác biệt
nào đó được tìm ra không phải là do ngẫu nhiên. Tuy nhiên, kết quả có ý nghĩa thống kê trong
nhiều trường hợp không đồng nghĩa với có ý nghĩa thực tiễn, lâm sàng nên cần phải cân nhắc kỹ
khi kết luận. Nghiên cứu cỡ mẫu lớn thuownngf cho kết quả có ý nghĩa thống kê mặc dù sự khác
biệt là rất nhỏ và điều này ít có ý nghĩa thực tế.
• Giá trị p (value): Là giá trị được tính từ bộ số liệu thu được từ mẫu thông qua các test thoongs
kê thích hopwk nhằm giúp cho quá trình ngoại suy từ mẫu ra quần thể. Giá trị này sau đó sẽ được
so sánh với giá trị α để xem giả thuyết nghiên cứu có ý nghĩa thống kê hay không. Nếu p < α thì
sự khác biệt hay mối tương quan có ý nghĩa thống kê và giả thuyết Ho (không có sự khác biệt
hoặc không có mối liên quan) bị bác bỏ còn giả thuyết của người nghiên cứu (H1 hoặc Ha) được
chấp nhận; còn nếu p>= α thì kết luận ngược lại. Giá trị α hay được sử dụng là α = 0,05 (95%CI);
0,01 (99%CI), 0,1 (90%CI).
• Khoảng tin cậy (CI): Là một phương pháp thống kê suy luận, giúp ước tính giá trị thật của
quần thể dựa trên các giá trị thu được từ mẫu nghiên cứu. Khoảng tin cậy 95% thường được dùng
trong các nghiên cứu. Khoảng tin cậy rộng cho thấy độ chính xác thấp; khoảng tin cậy hẹp cho
thấy độ chính xác cao hơn.
Ví dụ: Khoảng tin cậy 95% (95%CI) của tỷ lệ mắc bệnh nào đó có p = 3% là 2,2% - 4,1%. Điều
này có nghĩa là dựa trên kết quả tính toán từ mẫu (p = 3%), nghiên cứu viên có thể tin tưởng ở
mức 95% rằng tỉ lệ mắc bệnh của quần thể nằm trong khoảng từ 2,2% - 4,1%. Nói cách khác, khi
thực hiện việc chọn mẫu 100 lần để tính toán tỷ lệ bệnh nói trên thì ít nhất có 95 lần kết quả về tỉ
lệ mắc bệnh nằm trong khoảng từ 2,2% - 4,1%.
2. Test kiểm định so sánh
Xem xét ví dụ: một bác sĩ y tế lao động muốn biết tỷ lệ công nhân bị đau lưng trong ngành công
nghiệp, ông biết tỷ lệ đau lưng trong cộng đồng chung là 30%. Để kiểm định thực tế bác sĩ lấy
mẫu đại diện công nhân ngành công nghiệp và tính toán tỷ lệ công nhân bị đau lưng trong mẫu
quan sát. Nếu giá trị quan sát là 10%, loại bỏ giả thiết của bác sĩ vì khoảng cách với giá trị giả
thiết là 30%. Ngược lại nếu quan sát được là 32%, giả thiết có vẻ có lý và không có lý do để loại
bỏ. Các kết luận theo chủ quan đưa ra phải theo nguyên tắc chính xác nhất và gần với mục tiêu
nhất bằng cách chỉ ra trường hợp nào chấp nhận và trường hợp nào loại bỏ giả thiết bằng các test
thống kê
2.1. Nguyên tắc kiểm định
Ở ví dụ trên nếu tỷ lệ đau lưng trong ngành công nghiệp được coi như tương tự tỷ lệ trong cộng
đồng chung. Nhà nghiên cứu mong chờ có tỷ lệ khoảng 30% công nhân đau lưng quan sát được
từ mẫu đại diện. Chỉ “khoảng” vì biết rằng tỷ lệ quan sát được ở từ mẫu này so với mẫu khác dao
động xung quanh giá trị này. Biết rằng lấy mẫu có 100 cá thể, quan sát, trong 95% trường hợp, tỷ
0,30 x0,70
lệ đau lưng sẽ trong khoảng 21% - 39% (0.30 ±1,96 ). Quan sát 10% cá thể bị đau
100
lưng là ít khả năng nếu giả thiết ‘p=30%’ là chính xác. Điều này chỉ xảy ra ít hơn 5% trường hợp.
Trong trường hợp này coi như giả thiết là sai.
2.2. Các bước kiểm định
• Thiết lập giả thiết H0 và giả thiết khác H0 (H1 – đối giả thiết)
ở ví dụ trên, giả thiết H0 liên quan đến tỷ lệ P các cá thể bị đau lưng trong quần thể toàn bộ. Giả
thiết rằng P bằng một giá trị đặc biệt, gán PH0 giá trị 30%. Giả thiết H0 được trình bày H0: P=
PH0= 0,30
Đối giả thiết (H1) là giả thiết mới đưa ra để mô tả tính đúng nếu H0 là sai, nó tương ứng với giá
trị khác của P được gán là PH1.Ở đây 3 khả năng có thể xảy ra:
H1: P= PH1≠0,30 H1: P= PH1<0,30 H1: P= PH1>0,30
Lựa chọn một trong những giải pháp này phụ thuộc vào vấn đề xảy ra. Nếu công nhân theo
dõi làm việc trong điều kiện làm việc đặc biệt khó khăn. Số đau lưng chỉ có thể cao hơn hoặc
bằng giá trị tham khảo 30% (là 30% nếu điều kiện làm việc không tác động đến đau lưng).
Đối giả thiết thì giá trị P>30%. Tình huống khác có thể đưa đến giá trị P<30%. Trong cả hai
trường hợp này là đối giả thiết một phía. Nếu không một giả thiết nào chiểm ưu thế trong
nhóm công nhân quan sát. Đối giả thiết là PH1≠0,30. Khi đó kiểm định được gọi là hai phía
• Xác định quan sát đúng nếu H0 đúng
Nếu H0 đúng, P= PH0, tỷ lệ người đau lưng quan sát trên một mẫu (P0), một cách chính xác, có
giá trị đi từ 0 đến 100% với sự thay đổi mẫu. Nhưng tất cả các giá trị của P0 không bằng nhau và
khả năng P0 − P vượt một vài giá trị.
H0
P −P
Cho thấy rằng đại lượng z=
0 H0 theo luật đại lượng ngẫu nhiên giảm tính từ tâm
PH QH
0 0
n
(nếu H0 là đúng. Điều này có nghĩa nếu đại lượng không vượt giá trị tuyệt đối, ví dụ 1,96 trong
5% trường hợp (nếu H0 luôn luôn đúng)
Áp dụng thực hành, người ta tính giá trị quan sát trên mẫu:
P0 − P H 0
Z0 =
PH 0 QH 0
n
Nhờ bảng qui luật đại lượng ngẫu nhiên, người ta suy ra khả năng đại lượng z có giá trị tuyệt đối
cao nhất ở z0 (nếu H0 đúng)
Khả năng z có giá trị tuyệt đối cao nhất ở z0 là gì?
P0 − P H 0 là khoảng cách thực tế quan sát giữa tỷ lệ người bị đau lưng trong mẫu và giá trị lý
thuyết P . P0 − P là thay đổi nên các giá trị nằm trong khoảng có thể. Vì thế, khả năng
H0 H0
tính chính xác bằng tỷ lệ của tất cả các mẫu có thể cách P ít hơn thực tế mẫu quan sát. Nếu
H0
khả năng này nhỏ, một trong hai tình huống: hoặc H0 hoàn toàn đúng và mẫu quan sát là “cách
xa trung tâm”(giá trị của P0 của nó xa với giá trị P theo biến đối mẫu) hoặc H0 hoàn toàn sai.
H0
Ở một ngưỡng nhất định (khả năng là rất nhỏ), có thể kết luận, H0 là sai hơn là chấp nhận trước
một quan sát rất hiếm xảy ra.
• Lựa chọn nguyên tắc quyết định
Quyết định mà có thể đưa ra không phải là chắc chắn giữa H0 và H1, thậm chí nếu đó là điều
người ta mong muốn có được. Đối giả thiết thực tế là: hoặc loại bỏ H0 vì quan sát trên mẫu
không tương hợp với giả thiết này; hoặc không loại bỏ H0 vì quan sát trên mẫu phù hợp với giả
thiết này. Nhưng cũng không khẳng định rằng H0 là đúng vì nó chỉ là những quan sát tương hợp
như với các giả thiết khác.
Sự lệch đối xứng này không phù hợp thống kê, có thể thấy điều này trong tất cả các thực nghiệm
khoa học: chỉ một lựa chọn mà có thể xác định bởi những quan sát là giả thiết (hoặc là một lý
thuyết) là sai. Người ta không thế xác định lựa chọn là đúng. Hơn nữa, người ta có thể nói rằng
lựa chọn không trái với thực nghiệm.
Nguyên tắc quyết định phải được phép kết hợp với kiểm định trên cơ sở quan sát tiến hành theo
mẫu, để chắc chắn giữa loại bỏ hay không loại bỏ H0. Điều đó phụ thuộc vào hình thái nhận được
H1
Chúng ta bắt đầu với trường hợp kiểm định là hai phía. H1 sẽ là
P= P ≠ 0,30 . Người ta có P0 quan sát theo mẫu, cho phép tính z0.Quyết định dựa trên giá trị
H1
ngưỡng cố định Zs. Nếu z0 ≥ z s , loại bỏ H0, nếu không, không loại bỏ giả thiết này. Chúng ta
sẽ xem xét trong phần sau, lựa chọn zs phụ thuộc vào nguy cơ sai lầm α khi kết hợp với loại bỏ
H0. Điều này chứng minh.
Trong trường hợp đối giả thiết H1 là P>0,30, loại bỏ H0 sẽ xảy ra z0≤zs. Đối với một nguy cơ sai
lầm xác định, ngưỡng giá trị zs sẽ khác với trước. Theo cách đối xứng, nếu đối giả thiết H1 là
P<0,30, loại bỏ H0 dẫn tới z0≤zs.
2.3. Nguy cơ sai lầm
Cũng như tất cả các quyết định, kết luận theo kiểm định thống kê là chấp nhận sai lầm. Người ta
phân biệt khoảng sai lầm thứ nhất: loại bỏ H0 vậy thì giả thiết đúng và khoảng sai lầm thứ hai:
không loại bỏ H0 vậy thì H1 đúng. Người ta chắc chắn muốn biết nguy cơ mắc phải sai lầm thứ
nhất hay sai lầm thứ hai này.
Khả năng khoảng sai lầm thứ nhất là α. Trong trường hợp kiểm định hai phía, vì muốn loại bỏ H0
nếu z0 ≥ z s :
α = Pr (loại bỏ H0 nếu H0 là đúng) = Pr ( z 0
≥ z s nếu H0 đúng)
Biết rằng, nếu H0 đúng, z theo luật phân bố chuẩn giảm từ trung tâm. Theo định nghĩa, ta có Pr
( Z > zα )= α. Theo phân loại, có zs= z α đối với khoảng nguy cơ sai lầm loại 1 là α. Ví dụ zs=
2 2

1,96 nguy cơ sai lầm α giá trị 5%. Người ta nhận được cùng zs = z '
α và zs "
= z1−α trường

hợp test kiểm định một phía dựa vào z0 et không dựa vào z 0

Giá trị 5% là giá trị đối với giới hạn α như là ngưỡng để loại bỏ H0. Điều này có nghĩa (trong ví
dụ trên, sự thực là 30% đau lưng trong quần thể chung là đúng với công nhân) 5% mẫu dẫn đến
sai lầm loại bỏ giả thiết này.
Khả năng sai lầm loại 2 là β. Tương tự, giá trị của nó là:
β= Pr( z < zα ) nếu H1 đúng
2

nhưng lần này không thể tính chính xác bởi vì người ta không biết giá trị chính xác của tham số
P nếu H1 đúng (trong ví dụ trên, nếu giả thiết P=30% là sai, biết rằng P= P ≠ 30% nhưng
H1
không biết giá trị đối giả thiết P )
H1
Sự không đối xứng giữa α và β là phản chiếu sự không đối xứng của quyết định đẩy cao hơn. Nó
dẫn tới kết luận một test kiểm định thống kê không đối xứng chính nó. Nếu z 0 ≥ zα , kết luận
2

loại bỏ H0, và sai lầm α (thường ở mức 5%) nhưng nếu z 0


< zα , kết luận không chấp nhận H0
2

vì nguy cơ đối diện sai lầm β sẽ không biết; kết luận không loại bỏ H0 có nghĩa là người ta cho
rằng các quan sát không phù hợp với giả thiết H0 (nhưng có thể tương thích với giả thiết khác).
Theo hướng này, β tương ứng là ít sai lầm hơn thiếu lực mẫu, là không thể chỉ ra H0 là sai.
2.4. Mức ý nghĩa
Nếu trong một mẫu công nhân, có 50% công nhân đau lưng, người ta chắc chắn giả thiết “P=
30%” là sai hơn so với nếu có 40%; và vấn đề ở đây là mỗi quan sát đưa ra ý nghĩa kiểm định,
nghĩa là loại bỏ H0
Mức ý nghĩa thống kê là p cho biết độ mạnh của chắc chắn.
Trong ví dụ trên, giá trị cố định bởi giả thiết H0 là P = 0,30. P0 thay đổi mà tỷ lệ quan sát
H0
trên mẫu với 100 cá thể. Nếu quan sát một mẫu có P0 =50%, khoảng cách với P là 0,20, giá
H0
trị của mức ý nghĩa thống kế là:
P=Pr( P − PH
0
≥0,20)=Pr( P
0
− 0,30 ≥0,20). Vì theo khoảng cách giảm do đó
0



p= Pr ( z ≥
0,20  = Pr( z ≥4,4= 10-5
0,30 x0,70 

100 
Nếu người ta quan sát được là 40%, thu được p=0,03, sự khác nhau có ý nghĩa ở nguy cơ 5%.
Nhưng mức ý nghĩa thống kê p chỉ ra rằng sự khác biệt có trong trường hợp thứ nhất (không có
trong trường hợp 2) nếu nguy cơ sai lầm đã ấn định là 10-5
Lưu ý: cần phải hiểu rõ sự khác biệt giữa nguy cơ sai lầm α và mức ý nghĩa thống kê p. nguy cơ
sai lầm là đặc tính của test kiểm định ấn định tỷ lệ trường hơp nếu đưa ra kết luận loại bỏ H0, vậy
H0 đúng. Mức ý nghĩa thống kê là đặc biệt gắn liền với mẫu (mức ý nghĩa thống kê cũng khác ở
mẫu khác nhau). Một vài phương pháp đo lường khoảng cách giữa mẫu này và H0. Người ta kết
luận bỏ H0 từ quan sát theo mẫu nếu mức ý nghĩa nhỏ hơn nguy cơ α.

You might also like