Download as pdf or txt
Download as pdf or txt
You are on page 1of 34

XÁC SUẤT THỐNG KÊ

ỨNG DỤNG

GV: ThS. Đỗ Thị Thanh Xuân


Bộ môn Toán Tin – Học viện YDHCTVN
KIỂM ĐỊNH VỚI BIẾN
ĐỊNH LƯỢNG
(T-TEST)
Mục tiêu bài học
Sau khi học xong bài này SV có thể:
1. Chọn được kiểm định thống kê phù hợp để so sánh
các kiểu dữ liệu khác nhau.
2. Biết cách đặt giả thuyết và đối giả thuyết cho từng bài
toán kiểm định
3. Biết cách sử dụng SPSS để:
- Kiểm định một giá trị TB
- So sánh hai giá trị trung bình độc lập
- So sánh hai trung bình ghép cặp
- So sánh nhiều trung bình
4. Biết cách phiên giải và đọc kết quả cho từng bài toán
kiểm định
Xác định giả thuyết trong NCKH
Nếu các nhà nghiên cứu biết đủ để đưa ra các tiên
đoán về những gì họ đang nghiên cứu, các giả thuyết
có thể được hình thành.
Một giả thuyết chuyển vấn đề xác định thành
một dự đoán chính xác.
Một giả thuyết có thể rất đơn giản như: so sánh
TB của một tổng thể với 1 giá trị cụ thể nào đó; hay so
sánh hai giá trị TB của hai nhóm tổng thể riêng biệt…;
hay muốn mở rộng sự so sánh TB cho nhiều nhóm độc
lập; hoặc dạng tiên đoán mối liên quan giữa hai biến
số, một biến số độc lập và một biến số phụ thuộc v.v…
Kiểm định trung bình
• Analyze Compare Means 
VÍ DỤ MỞ ĐẦU
Câu hỏi NC: Có thể cho rằng tính tại thời điểm
năm 2010, độ tuổi trung bình của các bà mẹ
mang thai là 28 không? Với dữ liệu trong file
thực hành cnss….sav
 Kiểm định 1 giá trị trung bình
Giả thuyết và đối giả thuyết:
- Giả thuyết (H0): Độ tuổi trung bình của các bà
mẹ mang thai năm 2010 là 28 (µ = 28 hay MX
= 28)
- Đối giả thuyết (H1): Độ tuổi trung bình của
các bà mẹ mang thai năm 2010 khác 28 (µ ≠
28 hay MX ≠28)
KẾT QUẢ KIỂM ĐỊNH
• KQ kiểm định:
Nếu p-value (sig.)<0.05 (mức ý
nghĩa α=0.05): bác bỏ H0, chấp nhận
H1;
Ngược lại nếu p >=0.05: chấp nhận H0
(chưa có đủ cơ sở bác bỏ H0)…
KIỂM ĐỊNH 1 GIÁ TRỊ TRUNG BÌNH

• Muốn SS giá trị TB của một tổng thể (MX)


với một giá trị cụ thể nào đó  KĐ giả
thuyết về 1 giá tri TB.
• Trong SPSS: sử dụng lệnh
One-Sample T-Test để thực hiện kiểm định
này.
KIỂM ĐỊNH 1 GIÁ TRỊ TRUNG BÌNH
• Ta sử dụng biến “tme2010” trong file
cnss2019.sav
- Bước 1: Vào Analyze Compare Means
One-Sample T Test... để mở cửa sổ One-
Sample T Test
- Bước 2: Đưa biến định lượng cần phân tích
(tme2010) vào khung Test Variable(s). Khai
báo giá trị cần so sánh của trung bình tổng thể
vào ô Test Value
- Bước 3: Ấn Options để chọn độ tin cậy cho
khoảng ước lượng (thường là 95%, ứng với mức ý
nghĩa α= 0.05). Ấn Continue trở về hộp thoại
trước, rồi ấn OK
So sánh 1 giá trị trung bình
- Bước 4: Lưu Output và phiên giải KQ:
• Có 586 đối tượng nc; Giá trị trung bình của mẫu là
32.08 tuổi, độ lệch chuẩn 3.835 tuổi.
• Giá trị của kiểm định T là 25.731, và p-giá trị là 0.000
rất nhỏ (p<0,05). Vậy ta bác bỏ giả thuyết H0 và căn cứ
vào chênh lệch dương giữa trung bình mẫu và giá trị
Test Value=28, ta cho rằng độ tuổi trung bình của các
bà mẹ mang thai năm 2010 trên 28 tuổi. KL có ý nghĩa
thống kê.
• Hai con số cuối cho biết ước lượng khoảng với độ tin
cậy 95% cho độ tuổi trung bình của các bà mẹ là
(….;….). Qua đó có thể thấy các bà mẹ sinh con tập
trung trong độ tuổi khá cao.
Ví dụ thực hành
Với file dữ liệu cnss2019.sav, Có thể
cho rằng trọng lượng sơ sinh trung
bình của nghiên cứu này là 3150g?
Phiên giải KQ:
- Mô tả: …H0: …. H1: ……..
- Đọc KQ: T = 0.083 và p= 0.934> 0.05:
Chưa có đủ cơ sở để bác bỏ H0, tức là: có
thể tạm cho rằng tlss tb của NC này là
3150g. KQ này không có ý nghĩa thống kê.
KIỂM ĐỊNH HAI GIÁ TRỊ TRUNG BÌNH
ĐỘC LẬP
• Hai mẫu độc lập (hai nhóm trẻ trai và gái;
hai nhóm mẹ hút thuôc lá và mẹ không hút
thuốc lá; hai nhóm bà mẹ ăn mặn và ăn
nhạt…)
• SS TB về một chỉ tiêu n/c nào đó giữa hai
đối tượng mình quan tâm.
 có 2 biến tham gia trong 1 phép KĐTB: 1
biến định lượng (có thể tính TB, vd: biến
tuổi) và 1 biến định tính chia 2 nhóm (vd:
biến giới tính).
Kiểm định hai giá trị TB độc lập
• Giả thuyết: H0 : µ1 = µ2 (MX=MY);
Đối thuyết: H1 : µ1 ≠ µ2 (MX≠MY)
• Câu hỏi: Cân nặng sơ sinh trung bình của trẻ
trai (µ1) và trẻ gái (µ2) trong nghiên cứu có sự
khác biệt không? (có như nhau không?)
• H0: Cân nặng sơ sinh trung bình của trẻ trai và trẻ gái
trong nghiên cứu không có sự khác biệt (hay là: như
nhau)
• H1: Cân nặng sơ sinh trung bình của trẻ trai và trẻ gái
trong nghiên cứu có sự khác biệt (hay là: khác nhau)
So sánh hai giá trị TB độc lập
• Dữ liệu gồm: một biến định lượng (tlss) và một
biến định tính phân loại (gioi)
• Bước 1: Vào Analyze  Compare Means
Independent-Sample T Test...
• Bước 2: Tại cửa sổ Independent-Sample T Test, đưa
biến “tlss” vào khung Test Variable, biến “gioi” vào
khung Grouping Variable. Ấn Define Groups...
• Bước 3: Nhập mã của nhóm 1 và nhóm 2 vào của sổ
Define Groups. Ấn Continue. Trở về hộp thoại trước ấn
OK.
• Bước 4: Lưu Output và đọc KQ:
So sánh hai giá trị TB độc lập
• SS hai phương sai: Kết quả kiểm định F cho
thấy:
Sig. = 0.498>0.05 nên hai phương sai tổng thể
bằng nhau  ta sử dụng kiểm định t ứng với dòng
Equal Variance Assumed.
• SS 2 TB độc lập:
P-giá trị =0.029 (sig.2-tailer) < 0.05 nên ta bác bỏH0.
Chênh lệch +87,821g trên mẫu của nhóm Nam so
với nhóm Nữ nên có thể cho rằng cân nặng sơ
sinh trung bình của trẻ nam cao hơn so với trẻ nữ.
KL này có ý nghĩa tke.
Ví dụ ss 2 tb độc lập
• SS trọng lượng sơ sinh trung bình ở trẻ
được sinh ra từ Nhóm bà mẹ bị tăng HA
và Nhóm bà mẹ có HA bình thường?

• H0: Tlss tb của trẻ ở hai nhóm bà mẹ tăng


HA và HA bt là như nhau
• H1: Tlss tb của trẻ ở hai nhóm bà mẹ tăng
HA và HA bt là khác nhau
So sánh hai giá trị TB độc lập
• Ví dụ: So sánh trọng lượng sơ sinh của
nhóm mẹ có độ tuổi dưới 35 và trọng
lượng sơ sinh của nhóm mẹ có độ tuổi
từ 35 (tính đến năm 2010)
So sánh hai giá trị TB độc lập
• Ví dụ: So sánh trọng lượng sơ sinh của
nhóm mẹ có độ tuổi dưới 35 và trọng lượng
sơ sinh của nhóm mẹ có độ tuổi từ 35 (tính
đến năm 2010)
- B1: Tạo biến tuoime = 2010 – namsinh
- B2: Vào Analyze Compare Means  Independent-
Sample T Test... để mở cửa sổ Independent-Sample T
Test...
- B3: Đưa biến tlss vào Test Value, biến “tuoime” vào
khung Grouping Variable, nhấn Define Groups... Và
nhập giá trị 35 vào Cut point. Ấn Continue  OK.
So sánh hai giá trị TB độc lập
• Bước4: Lưu Output và phiên giải KQ:
- Có 439 trẻ có mẹ từ 35 tuổi trở lên với tlss tb
3164.46g và độ lệch chuẩn là 475.638g; Có 145
trẻ có mẹ tuổi dưới 35, với tlss tb là 3099.49g và
độ lệch chuẩn là 515.47g.
- Trong kiểm định F: có Sig. = 0.367 > 0.05 nên
phương sai hai nhóm như nhau  đọc kq dòng
trên
- Vì P (Sig. (2-tailer)) = 0.163 > 0.05 nên Chấp
nhận H0, tức là không có sự khác biệt cân
nặng sơ sinh TB của hai nhóm.
So sánh hai TB ghép cặp
• Hai TB ghép cặp: Là tb hai tổng thể trên
cùng 1 nhóm quán sát (hai thời điểm
trước sau)
• Ví dụ: điểm chất lượng cuộc sống trước
và sau chấn thương; điểm chất lượng
cuôc sống trước sinh và sau sinh; điểm
kiểm tra trước ôn tập và sau ôn tập.
So sánh hai TB ghép cặp
• Khi cần so sánh trung bình hai tổng thể trong
trường hợp lấy mẫu từng đôi (khi hai tổng thể có
liên hệ với nhau).
• Dữ liệu là hai biến định lượng nhận giá trị trong từng
cặp dữ liệu. Ví dụ: điều tra sự hài lòng của khách
hàng thông qua việc so sánh điểm kỳ vọng trước khi
sử dụng dịch vụ (TSD) và điểm đánh giá sau khi trải
nghiệm dịch vụ (SSD) (về chất lượng cuộc gọi trong
dịp lễ Tết). Nếu gọi Gọi µ1, µ2 là điểm đánh giá trung
bình trước và sau khi dùng dịch vụ.
• Ta kiểm định cặp giả thuyết: H0: µ1 = µ2; H1: µ1 ≠ µ2
So sánh hai TB ghép cặp
• Bước 1: Vào Analyze  Compare
Means Paired-Sample T Test…
• Bước 2: Tại cửa sổ Paired-Sample T
Test, dùng phím Ctrl để chọn hai biến
TSD, SSD đưa vào khung Paired Variable
• Bước 3: Ấn OK
• Bước 4: Lưu Output và đọc KQ:
So sánh hai TB ghép cặp
Ví dụ: Xét điểm chất lượng cuộc sống trước
sinh và sau sinh có sự khác biệt hay không?
Cnss2019.sav.
Phiên giải KQ:
- Điểm TB chất lượng cs trước khi sinh là 72.0717;
Điểm TB chất lượng cs sau khi sinh là 64.3857
- Ở cột cuối: p-giá trị = 0.000 (Sig. 2-tailer)< 0.05 (α)
nên bác bỏ giả thuyết H0 tức là: điểm chất lượng cs
trước và sau sinh có sự khác biệt. Điểm clcs trước
sinh cao hơn sau sinh là 7.68601 điểm.
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(SO SÁNH NHIỀU GIÁ TRỊ TB ĐL)
• ANOVA: Phân tích phương sai:
• Phương pháp phân tích phương sai được dùng khi
nghiên cứu ảnh hưởng của biến nguyên nhân định
tính lên biến kết quả định lượng, phương pháp này
so sánh trung bình của nhiều nhóm (3 nhóm trở lên).
• Giả thuyết H0 như sau: H0 : µ1 = µ2 = …= µk (có
nghĩa là: H0 : biến định tính không có ảnh hưởng tới
biến định lượng)
• Giả thuyết đối H1 : biến định tính có ảnh hưởng tới
biến định lượng (có ít nhất 1 cặp trung bình khác
nhau)
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(SO SÁNH NHIỀU GIÁ TRỊ TB)
• Dữ liệu đầu vào: gồm một biến định lượng
và một biến phân loại (chia làm 3 nhóm trở
lên).
• Ví dụ: Giả sử ta cần so sánh mức hài lòng của
khách hàng sử dụng dịch vụ của ba mạng di
động Viettel, Mobile, Vina về chất lượng dịch vụ.
• Ví dụ: Tuoi thai được phân thành 3 nhóm
(nhomtt): non tháng, đủ tháng và già tháng. Ở
các nhóm tuoi thai khác nhau thì trọng lượng sơ
sinh TB có khác nhau hay không?
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(SO SÁNH NHIỀU GIÁ TRỊ TB)
• Bước 1: Vào Analyze  Compare
Means One-Way ANOVA... để mở cửa
sổ One-Way ANOVA
• Bước 2: Tại cửa sổ One-Way ANOVA,
đưa biến định lượng (tlss) vào khung
Dependent List, biến phân loại (nhomtt)
vào khung Factor. Ấn Options mở ra hộp
thoại sau
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(SO SÁNH NHIỀU GIÁ TRỊ TB)
• Bước 3: Chọn Descriptive để tính các đại
lượng thống kê mô tả cho từng nhóm;
chọn Homogeneityof-variance test để
tiến hành thủ tục kiểm định sự bằng nhau
của các phương sai tổng thể. Sau đó ấn
Continue trở về hộp thoại trước ấn OK.
• Bước 4: Lưu Output, đọc Kết quả cho
trong 4 bảng sau:
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(KQ SO SÁNH NHIỀU GIÁ TRỊ TB)
• Bảng đầu tiên đưa ra kết quả tính một số đại
lượng thống kê mô tả cho từng nhóm.
• Bảng thứ hai (test of Homogeneity of
Variances) là kết quả của thủ tục kiểm định
sự bằng nhau của các phương sai. Với giá trị
Sig. là 0.002<0.05 ta chấp nhận giả thuyết
rằng các phương sai khác nhau hay ko đồng
nhất.
(Nếu phương sai bằng nhau: dùng bảng LSD
đọc KQ; Nếu phương sai khác nhau: dùng
Dunnets T3)
KIỂM ĐỊNH ANOVA (1 CHIỀU)
(SO SÁNH NHIỀU GIÁ TRỊ TB)
• Bảng thứ ba (ANOVA), Sig. = 0.000 <0.05
nên có thể kluan rằng: Ở nhóm tuổi thai
khác nhau thì tlss của trẻ có sự khác
nhau. KL Có ý nghĩa tke.
• Để xem cặp nào khác nhau ta nhìn vào
bảng 4 (Multiple Comparisons), đọc kiểm
định Dunnett T3: tlss ở nhóm non tháng
thấp hơn đủ tháng và già tháng.
Out put
Out put
Ví dụ KĐ Anova
• Ví dụ: So sánh trọng lượng sơ sinh trung
bình của 3 nhóm bà mẹ có nghề nghiệp
khác nhau.
• Lưu ý: biến nghề nghiệp của mẹ với biến
nhóm nghề của mẹ là khác nhau
Bài tập thực hành
Bằng cách thực hiện lệnh Analyze 
Compare Means trên file cnss2019.sav,
hãy kiểm định:
1. Tuổi thai trung bình của trẻ được sinh ra
trong nghiên cứu này có phải là 38 tuần?
2. Trọng lượng sơ sinh của trẻ ở nhóm mẹ
ăn nhiều tinh bột và ăn ít tinh bột có như
nhau ko?
BÀI TẬP THỰC HÀNH
3. Tuổi thai trung bình của trẻ có mẹ có
huyết áp bình thường có phải bằng 38 tuần
không?
4. Trọng lượng sơ sinh trung bình ở mẹ có
nghề nội trợ có thấp hơn ở nhóm mẹ làm
nghề cbcnvc hay nghề buôn bán ko?
5. Tuổi thai TB của trẻ có mẹ làm nghề
CBCNVC có sự khác biệt so với mẹ làm
nhóm nghề khác (chia Làm 2 nhóm nghề)
hay ko?

You might also like