Bộ môn Toán Tin – Học viện YDHCTVN KIỂM ĐỊNH VỚI BIẾN ĐỊNH LƯỢNG (T-TEST) Mục tiêu bài học Sau khi học xong bài này SV có thể: 1. Chọn được kiểm định thống kê phù hợp để so sánh các kiểu dữ liệu khác nhau. 2. Biết cách đặt giả thuyết và đối giả thuyết cho từng bài toán kiểm định 3. Biết cách sử dụng SPSS để: - Kiểm định một giá trị TB - So sánh hai giá trị trung bình độc lập - So sánh hai trung bình ghép cặp - So sánh nhiều trung bình 4. Biết cách phiên giải và đọc kết quả cho từng bài toán kiểm định Xác định giả thuyết trong NCKH Nếu các nhà nghiên cứu biết đủ để đưa ra các tiên đoán về những gì họ đang nghiên cứu, các giả thuyết có thể được hình thành. Một giả thuyết chuyển vấn đề xác định thành một dự đoán chính xác. Một giả thuyết có thể rất đơn giản như: so sánh TB của một tổng thể với 1 giá trị cụ thể nào đó; hay so sánh hai giá trị TB của hai nhóm tổng thể riêng biệt…; hay muốn mở rộng sự so sánh TB cho nhiều nhóm độc lập; hoặc dạng tiên đoán mối liên quan giữa hai biến số, một biến số độc lập và một biến số phụ thuộc v.v… Kiểm định trung bình • Analyze Compare Means VÍ DỤ MỞ ĐẦU Câu hỏi NC: Có thể cho rằng tính tại thời điểm năm 2010, độ tuổi trung bình của các bà mẹ mang thai là 28 không? Với dữ liệu trong file thực hành cnss….sav Kiểm định 1 giá trị trung bình Giả thuyết và đối giả thuyết: - Giả thuyết (H0): Độ tuổi trung bình của các bà mẹ mang thai năm 2010 là 28 (µ = 28 hay MX = 28) - Đối giả thuyết (H1): Độ tuổi trung bình của các bà mẹ mang thai năm 2010 khác 28 (µ ≠ 28 hay MX ≠28) KẾT QUẢ KIỂM ĐỊNH • KQ kiểm định: Nếu p-value (sig.)<0.05 (mức ý nghĩa α=0.05): bác bỏ H0, chấp nhận H1; Ngược lại nếu p >=0.05: chấp nhận H0 (chưa có đủ cơ sở bác bỏ H0)… KIỂM ĐỊNH 1 GIÁ TRỊ TRUNG BÌNH
• Muốn SS giá trị TB của một tổng thể (MX)
với một giá trị cụ thể nào đó KĐ giả thuyết về 1 giá tri TB. • Trong SPSS: sử dụng lệnh One-Sample T-Test để thực hiện kiểm định này. KIỂM ĐỊNH 1 GIÁ TRỊ TRUNG BÌNH • Ta sử dụng biến “tme2010” trong file cnss2019.sav - Bước 1: Vào Analyze Compare Means One-Sample T Test... để mở cửa sổ One- Sample T Test - Bước 2: Đưa biến định lượng cần phân tích (tme2010) vào khung Test Variable(s). Khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value - Bước 3: Ấn Options để chọn độ tin cậy cho khoảng ước lượng (thường là 95%, ứng với mức ý nghĩa α= 0.05). Ấn Continue trở về hộp thoại trước, rồi ấn OK So sánh 1 giá trị trung bình - Bước 4: Lưu Output và phiên giải KQ: • Có 586 đối tượng nc; Giá trị trung bình của mẫu là 32.08 tuổi, độ lệch chuẩn 3.835 tuổi. • Giá trị của kiểm định T là 25.731, và p-giá trị là 0.000 rất nhỏ (p<0,05). Vậy ta bác bỏ giả thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value=28, ta cho rằng độ tuổi trung bình của các bà mẹ mang thai năm 2010 trên 28 tuổi. KL có ý nghĩa thống kê. • Hai con số cuối cho biết ước lượng khoảng với độ tin cậy 95% cho độ tuổi trung bình của các bà mẹ là (….;….). Qua đó có thể thấy các bà mẹ sinh con tập trung trong độ tuổi khá cao. Ví dụ thực hành Với file dữ liệu cnss2019.sav, Có thể cho rằng trọng lượng sơ sinh trung bình của nghiên cứu này là 3150g? Phiên giải KQ: - Mô tả: …H0: …. H1: …….. - Đọc KQ: T = 0.083 và p= 0.934> 0.05: Chưa có đủ cơ sở để bác bỏ H0, tức là: có thể tạm cho rằng tlss tb của NC này là 3150g. KQ này không có ý nghĩa thống kê. KIỂM ĐỊNH HAI GIÁ TRỊ TRUNG BÌNH ĐỘC LẬP • Hai mẫu độc lập (hai nhóm trẻ trai và gái; hai nhóm mẹ hút thuôc lá và mẹ không hút thuốc lá; hai nhóm bà mẹ ăn mặn và ăn nhạt…) • SS TB về một chỉ tiêu n/c nào đó giữa hai đối tượng mình quan tâm. có 2 biến tham gia trong 1 phép KĐTB: 1 biến định lượng (có thể tính TB, vd: biến tuổi) và 1 biến định tính chia 2 nhóm (vd: biến giới tính). Kiểm định hai giá trị TB độc lập • Giả thuyết: H0 : µ1 = µ2 (MX=MY); Đối thuyết: H1 : µ1 ≠ µ2 (MX≠MY) • Câu hỏi: Cân nặng sơ sinh trung bình của trẻ trai (µ1) và trẻ gái (µ2) trong nghiên cứu có sự khác biệt không? (có như nhau không?) • H0: Cân nặng sơ sinh trung bình của trẻ trai và trẻ gái trong nghiên cứu không có sự khác biệt (hay là: như nhau) • H1: Cân nặng sơ sinh trung bình của trẻ trai và trẻ gái trong nghiên cứu có sự khác biệt (hay là: khác nhau) So sánh hai giá trị TB độc lập • Dữ liệu gồm: một biến định lượng (tlss) và một biến định tính phân loại (gioi) • Bước 1: Vào Analyze Compare Means Independent-Sample T Test... • Bước 2: Tại cửa sổ Independent-Sample T Test, đưa biến “tlss” vào khung Test Variable, biến “gioi” vào khung Grouping Variable. Ấn Define Groups... • Bước 3: Nhập mã của nhóm 1 và nhóm 2 vào của sổ Define Groups. Ấn Continue. Trở về hộp thoại trước ấn OK. • Bước 4: Lưu Output và đọc KQ: So sánh hai giá trị TB độc lập • SS hai phương sai: Kết quả kiểm định F cho thấy: Sig. = 0.498>0.05 nên hai phương sai tổng thể bằng nhau ta sử dụng kiểm định t ứng với dòng Equal Variance Assumed. • SS 2 TB độc lập: P-giá trị =0.029 (sig.2-tailer) < 0.05 nên ta bác bỏH0. Chênh lệch +87,821g trên mẫu của nhóm Nam so với nhóm Nữ nên có thể cho rằng cân nặng sơ sinh trung bình của trẻ nam cao hơn so với trẻ nữ. KL này có ý nghĩa tke. Ví dụ ss 2 tb độc lập • SS trọng lượng sơ sinh trung bình ở trẻ được sinh ra từ Nhóm bà mẹ bị tăng HA và Nhóm bà mẹ có HA bình thường?
• H0: Tlss tb của trẻ ở hai nhóm bà mẹ tăng
HA và HA bt là như nhau • H1: Tlss tb của trẻ ở hai nhóm bà mẹ tăng HA và HA bt là khác nhau So sánh hai giá trị TB độc lập • Ví dụ: So sánh trọng lượng sơ sinh của nhóm mẹ có độ tuổi dưới 35 và trọng lượng sơ sinh của nhóm mẹ có độ tuổi từ 35 (tính đến năm 2010) So sánh hai giá trị TB độc lập • Ví dụ: So sánh trọng lượng sơ sinh của nhóm mẹ có độ tuổi dưới 35 và trọng lượng sơ sinh của nhóm mẹ có độ tuổi từ 35 (tính đến năm 2010) - B1: Tạo biến tuoime = 2010 – namsinh - B2: Vào Analyze Compare Means Independent- Sample T Test... để mở cửa sổ Independent-Sample T Test... - B3: Đưa biến tlss vào Test Value, biến “tuoime” vào khung Grouping Variable, nhấn Define Groups... Và nhập giá trị 35 vào Cut point. Ấn Continue OK. So sánh hai giá trị TB độc lập • Bước4: Lưu Output và phiên giải KQ: - Có 439 trẻ có mẹ từ 35 tuổi trở lên với tlss tb 3164.46g và độ lệch chuẩn là 475.638g; Có 145 trẻ có mẹ tuổi dưới 35, với tlss tb là 3099.49g và độ lệch chuẩn là 515.47g. - Trong kiểm định F: có Sig. = 0.367 > 0.05 nên phương sai hai nhóm như nhau đọc kq dòng trên - Vì P (Sig. (2-tailer)) = 0.163 > 0.05 nên Chấp nhận H0, tức là không có sự khác biệt cân nặng sơ sinh TB của hai nhóm. So sánh hai TB ghép cặp • Hai TB ghép cặp: Là tb hai tổng thể trên cùng 1 nhóm quán sát (hai thời điểm trước sau) • Ví dụ: điểm chất lượng cuộc sống trước và sau chấn thương; điểm chất lượng cuôc sống trước sinh và sau sinh; điểm kiểm tra trước ôn tập và sau ôn tập. So sánh hai TB ghép cặp • Khi cần so sánh trung bình hai tổng thể trong trường hợp lấy mẫu từng đôi (khi hai tổng thể có liên hệ với nhau). • Dữ liệu là hai biến định lượng nhận giá trị trong từng cặp dữ liệu. Ví dụ: điều tra sự hài lòng của khách hàng thông qua việc so sánh điểm kỳ vọng trước khi sử dụng dịch vụ (TSD) và điểm đánh giá sau khi trải nghiệm dịch vụ (SSD) (về chất lượng cuộc gọi trong dịp lễ Tết). Nếu gọi Gọi µ1, µ2 là điểm đánh giá trung bình trước và sau khi dùng dịch vụ. • Ta kiểm định cặp giả thuyết: H0: µ1 = µ2; H1: µ1 ≠ µ2 So sánh hai TB ghép cặp • Bước 1: Vào Analyze Compare Means Paired-Sample T Test… • Bước 2: Tại cửa sổ Paired-Sample T Test, dùng phím Ctrl để chọn hai biến TSD, SSD đưa vào khung Paired Variable • Bước 3: Ấn OK • Bước 4: Lưu Output và đọc KQ: So sánh hai TB ghép cặp Ví dụ: Xét điểm chất lượng cuộc sống trước sinh và sau sinh có sự khác biệt hay không? Cnss2019.sav. Phiên giải KQ: - Điểm TB chất lượng cs trước khi sinh là 72.0717; Điểm TB chất lượng cs sau khi sinh là 64.3857 - Ở cột cuối: p-giá trị = 0.000 (Sig. 2-tailer)< 0.05 (α) nên bác bỏ giả thuyết H0 tức là: điểm chất lượng cs trước và sau sinh có sự khác biệt. Điểm clcs trước sinh cao hơn sau sinh là 7.68601 điểm. KIỂM ĐỊNH ANOVA (1 CHIỀU) (SO SÁNH NHIỀU GIÁ TRỊ TB ĐL) • ANOVA: Phân tích phương sai: • Phương pháp phân tích phương sai được dùng khi nghiên cứu ảnh hưởng của biến nguyên nhân định tính lên biến kết quả định lượng, phương pháp này so sánh trung bình của nhiều nhóm (3 nhóm trở lên). • Giả thuyết H0 như sau: H0 : µ1 = µ2 = …= µk (có nghĩa là: H0 : biến định tính không có ảnh hưởng tới biến định lượng) • Giả thuyết đối H1 : biến định tính có ảnh hưởng tới biến định lượng (có ít nhất 1 cặp trung bình khác nhau) KIỂM ĐỊNH ANOVA (1 CHIỀU) (SO SÁNH NHIỀU GIÁ TRỊ TB) • Dữ liệu đầu vào: gồm một biến định lượng và một biến phân loại (chia làm 3 nhóm trở lên). • Ví dụ: Giả sử ta cần so sánh mức hài lòng của khách hàng sử dụng dịch vụ của ba mạng di động Viettel, Mobile, Vina về chất lượng dịch vụ. • Ví dụ: Tuoi thai được phân thành 3 nhóm (nhomtt): non tháng, đủ tháng và già tháng. Ở các nhóm tuoi thai khác nhau thì trọng lượng sơ sinh TB có khác nhau hay không? KIỂM ĐỊNH ANOVA (1 CHIỀU) (SO SÁNH NHIỀU GIÁ TRỊ TB) • Bước 1: Vào Analyze Compare Means One-Way ANOVA... để mở cửa sổ One-Way ANOVA • Bước 2: Tại cửa sổ One-Way ANOVA, đưa biến định lượng (tlss) vào khung Dependent List, biến phân loại (nhomtt) vào khung Factor. Ấn Options mở ra hộp thoại sau KIỂM ĐỊNH ANOVA (1 CHIỀU) (SO SÁNH NHIỀU GIÁ TRỊ TB) • Bước 3: Chọn Descriptive để tính các đại lượng thống kê mô tả cho từng nhóm; chọn Homogeneityof-variance test để tiến hành thủ tục kiểm định sự bằng nhau của các phương sai tổng thể. Sau đó ấn Continue trở về hộp thoại trước ấn OK. • Bước 4: Lưu Output, đọc Kết quả cho trong 4 bảng sau: KIỂM ĐỊNH ANOVA (1 CHIỀU) (KQ SO SÁNH NHIỀU GIÁ TRỊ TB) • Bảng đầu tiên đưa ra kết quả tính một số đại lượng thống kê mô tả cho từng nhóm. • Bảng thứ hai (test of Homogeneity of Variances) là kết quả của thủ tục kiểm định sự bằng nhau của các phương sai. Với giá trị Sig. là 0.002<0.05 ta chấp nhận giả thuyết rằng các phương sai khác nhau hay ko đồng nhất. (Nếu phương sai bằng nhau: dùng bảng LSD đọc KQ; Nếu phương sai khác nhau: dùng Dunnets T3) KIỂM ĐỊNH ANOVA (1 CHIỀU) (SO SÁNH NHIỀU GIÁ TRỊ TB) • Bảng thứ ba (ANOVA), Sig. = 0.000 <0.05 nên có thể kluan rằng: Ở nhóm tuổi thai khác nhau thì tlss của trẻ có sự khác nhau. KL Có ý nghĩa tke. • Để xem cặp nào khác nhau ta nhìn vào bảng 4 (Multiple Comparisons), đọc kiểm định Dunnett T3: tlss ở nhóm non tháng thấp hơn đủ tháng và già tháng. Out put Out put Ví dụ KĐ Anova • Ví dụ: So sánh trọng lượng sơ sinh trung bình của 3 nhóm bà mẹ có nghề nghiệp khác nhau. • Lưu ý: biến nghề nghiệp của mẹ với biến nhóm nghề của mẹ là khác nhau Bài tập thực hành Bằng cách thực hiện lệnh Analyze Compare Means trên file cnss2019.sav, hãy kiểm định: 1. Tuổi thai trung bình của trẻ được sinh ra trong nghiên cứu này có phải là 38 tuần? 2. Trọng lượng sơ sinh của trẻ ở nhóm mẹ ăn nhiều tinh bột và ăn ít tinh bột có như nhau ko? BÀI TẬP THỰC HÀNH 3. Tuổi thai trung bình của trẻ có mẹ có huyết áp bình thường có phải bằng 38 tuần không? 4. Trọng lượng sơ sinh trung bình ở mẹ có nghề nội trợ có thấp hơn ở nhóm mẹ làm nghề cbcnvc hay nghề buôn bán ko? 5. Tuổi thai TB của trẻ có mẹ làm nghề CBCNVC có sự khác biệt so với mẹ làm nhóm nghề khác (chia Làm 2 nhóm nghề) hay ko?