Hiếu 1711313

ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG
ĐẠI HỌC BÁCH KHOA
BÁO CÁO HỌC PHẦN MỞ RỘNG XÁC SUẤT

THỐNG KÊ
GIẢNG VIÊN HƯỚNG DẪN: PGS.TS NGUYỄN ĐÌNH HUY

HỌ VÀ TÊN SV: TRẦN NGUYỄN NGỌC HIẾU
MSSV:1711313
NHÓM N2-DT03
Tp.Hồ Chí Minh, ngày 06/08/2019

Bài 1: Giải lại ví dụ 10 trang 172 và ví dụ 12 trang 181, Sách Giáo trình XSTK (N.Đ.HUY) bằng
phần mềm thống kê SPSS.
Bài 1A:
Đề bài: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH
(A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
Yếu tố Yếu tố B
A B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
1. Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ.
2. Cơ sở lý thuyết:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i
= 1, 2,..., r: yếu tố A; j = 1, 2,..., r: yếu tố B; k = 1, 2,..., r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la
tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
Mô hình vuông la tinh ba yếu tố được trình bày như sau:
Yếu tố C (T..k, ví dụ: T..1 = Y111 + Y421 + Y334 + Y241)

Yếu tố Yếu tố B
A B1 B2 B3 B4 Ti…
A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1…
A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2…
A3 C3 Y313 C4 Y324 C1 Y334 C2 Y342 T3…
A4 C4 Y414 C1 Y421 C2 Y412 C3 Y443 T4…
T.i. T.1. T.2. T.3. T.4.
Bảng Anova:
Trắc nghiệm:
 Giả thiết:
H0: μ1 = μ2 = ... = μk  “Các giá trị trung bình bằng nhau”
H1: μi ≠ μj  “Có ít nhất hai giá trị trung bình khác nhau”
 Giá trị thống kê: FR, FC, F
 Biện luận:
Nếu FR < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố B
Nếu F< Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố C
3. Giải bài toán bằng phần mềm IBM SPSS:
 Bước 1: Đặt các giả thiết và các đối giả thiết

Các giả thiết:
H1: “Trung bình hiệu suất (%) của các phản ứng ở các nhiệt độ khác nhau là như nhau”.
H2: “Trung bình hiệu suất (%) các phản ứng ở các áp suất khác nhau là như nhau”.
H3: “Trung bình hiệu suất (%) của các phản ứng với các chất xúc tác khác nhau là như nhau”.
Các đối giả thiết:
H̅1: “Có ít nhất hai giá trị trung bình hiệu suất (%) của các phản ứng ở các nhiệt độ khác nhau là
khác nhau”.
H̅2: “Có ít nhất hai giá trị trung bình hiệu suất (%) của các phản ứng ở các áp suất khác nhau là
khác nhau”.
H̅3: “Có ít nhất hai giá trị trung bình hiệu suất (%) của các phản ứng với các chất xúc tác khác
nhau là khác nhau”.
 Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
 Bước 3: Nhập số liệu vào cửa sổ Data View.

 Bước 4: Chọn Analyze → General Linear Model → Univariate
 Bước 5: Đưa biến “hieu_suat” vào khung Dependent Variable, đưa các biến “pH”,
“nhiet_do” và “chat_xuc_tac” vào khung Fixed Factor(s).
 Bước 6: Chọn Model → Chọn Build custom terms, lần lượt đưa các biến “pH”, “nhiet_do” và
“chat_xuc_tac” vào khung Model → chọn Continue.
 Bước 7: Chọn Options → chọn Descriptive statistic, nhập mức ý nghĩa ở ô Significance level
= 0,05, → chọn Continue.
 Bước 8: Click OK, ta thu được kết quả như sau:

 Bước 9: Biện luận
- Ta có: Fα[r-1;(r-1)(r-2)] = F0.05(3;6).
- Dò bảng phân phối Fisher ở mức ý nghĩa 5% với bậc tự do là (3;6) ta được
F0.05(3;6) = 4,76
- Bảng Test of Between-Subjects Effects cho ta kết quả:
FR = FpH = 3,105
FC = Fnhiet_do = 11,947
F = Fchat_xuc_tac = 30,053
- Vì FR < F0,05 nên ta chấp nhận giả thiết H1 (pH)
- Vì FC > F0,05 nên ta bác bỏ giả thiết H2 (nhiệt độ)
- Vì F > F0,05 nên ta bác bỏ giả thiết H3 (chất xúc tác)
→ Kết luận:
Trung bình hiệu suất (%) của các phản ứng ở các nhiệt độ khác nhau là như nhau. Có ít nhất hai
giá trị trung bình hiệu suất (%) của các phản ứng ở các áp suất khác nhau là khác nhau. Có ít
nhất hai giá trị trung bình hiệu suất (%) của các phản ứng với chất xúc tác khác nhau là khác
nhau.
Vậy: Chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất phản ứng.
2. Bài 1B:
Đề bài: Người ta đã dùng ba mức nhiệt độ gồm 105, 120 và 135 oC kết hợp với ba khoảng thời gian
là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) được
trình bày trong bảng sau đây:
Thời gian (phút) Nhiệt độ (oC) Hiệu suất (%)

X1 X2 Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
Hãy cho biết yếu tố nhiệt độ và/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản
ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115 oC trong vòng 50 phút thì hiệu suất phản ứng sẽ là
bao nhiêu?
1. Dạng bài: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ.
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số
độc lập Xi (i = 1, 2,..., k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản. Đồ thị phân tán
giữa các biến là một gợi ý cho chúng ta loại hàm số toán học thích hợp để mô tả và tóm tắt các dữ
liệu quan sát.
Phương trình tổng quát:
YX  B0  B1 X1  B2 X 2  ...  Bk X k
0 , X1,..., X k
Bảng ANOVA:
Giá trị thống kê:
- Giá trị R bình phương:
- Giá trị R2 được hiệu chỉnh (Adjusted R Square)
- Giá trị R2 được hiệu chỉnh (Adjusted R Square)
( N 1) R 2  k k (1  R 2 )
Rii2   R2 
N  k 1 ( N  k 1)
( Rii2 sẽ trở nên âm hay không xác định nếu R2 hay N nhỏ)
- Độ lệch chuẩn:
𝑆𝑆𝐸
𝑆= √ ( S ≤ 0,30 là khá tốt)
(𝑁−𝑘−1)
Trắc nghiệm thống kê:

̂ |X = 𝐁0 + 𝐁X, ý nghĩa thống kê của các hệ số Bi (B0 hay B) được
- Đối với một phương trình hồi quy 𝒀
̂ |X
đánh giá bằng trắc nghiệm t (phân phối Student) trong khi tính chất thích hợp của phương trình 𝒀
= 𝒇(𝑿) được đánh giá bằng trắc nghiệm F (phân phối Fisher).
- Trong trắc nghiệm t:
H0 : β i = 0 “Các hệ số hồi quy không có ý nghĩa”.
H0 : β i ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”.
Bậc tự do của giá trị t:  = N - k - 1
* Giá trị thống kê:
* Biện luận:
Nếu t < tα (N - k - 1) → chấp nhận giả thiết H0
- Trong trắc nghiệm F:
H0 : β i = 0 “Phương trình hồi quy không thích hợp”.
H0 : β i ≠ 0 “Phương trình hồi quy thích hợp” với ít nhất vài Bi
Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1.
* Giá trị thống kê: F = MSR/MSE
* Biện luận:
Nếu F < Fα (k, N - k - 1) → chấp nhận giả thiết H0
3. Giải bài toán bằng phần mềm IBM SPSS:
 Bước 1: Gọi
H0 là giả thiết: “Phương trình hồi quy không thích hợp”
H̅0 là đối giả thiết: “Phương trình hồi quy thích hợp”
 Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View
 Bước 3: Nhập số liệu vào cửa sổ Data View

 Bước 4: Chọn Analyze → chọn Regression → chọn Linear Regression
 Bước 5: Hộp thoại Linear Regression hiện lên, ta đưa biến phụ thuộc Y vào ô Dependent,
biến độc lập X1, X2 vào ô Independent(s)
 Bước 6: Chọn Statistics → check vào R squared change và Descriptives → chọn Continue.
Với mức ý nghĩa mặc định là 0,05 → chọn OK.
 Bước 7: Vẽ đồ thị:
Trong cửa sổ Output vừa hiện ra, chọn Graphs → chọn Legacy Dialogs → chọn Scatter/Dot...
Tiếp đến, chọn Simple Scatter → chọn Define
 Bước 8: Chọn hai biến tương ứng hai trục X, Y → nhấn OK.
 Bước 9: Kết quả và biện luận
̂ |X1 = 𝒇(𝑿1)
* Phương trình hồi quy: 𝒀
- Dựa vào bảng Coefficientsa, cột B ta xác định được các hệ số :
B0 = 2,73; B1 = 0,04
- Suy ra phương trình hồi quy:
𝑌̂|X1 = 2,73 + 0,04X1
(R2 = 0,102; S = 1,8112)
- Dò bảng phân phối Fisher ở mức ý nghĩa 5% với bậc tự do (k; N - k - 1) = (1;7), ta được
F0,05(1;7) = 5,59
- Dò bảng phân phối Student ở mức ý nghĩa 5% với bậc tự do (N - k - 1) = 7, ta được t0,05 = 2,365
- Biện luận:
t0 = 2,129 < t0,05 = 2,365 (Hay Sig. = p-value = 0,071 > 𝛼 = 0,05)
→ Chấp nhận giả thiết H0

t1 = 1,380 < t0,05 = 2,365 (Hay Sig. = p-value = 0,210 > 𝛼 = 0,05)
F = 1,905 < F0,05 = 5,590 (Hay Sig. = Fs = 0,210 > 𝛼 = 0,05)
- Kết luận:
Vậy các hệ số 2,73(B0); 0,04(B1) của phương trình hồi quy 𝑌̂|X1 = 2,73 + 0,04X1 đều không có ý
nghĩa thống kê. Nói cách khác, phương trình hồi quy này không thích hợp. Suy ra yếu tố thời
gian không có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
̂ |X2 = 𝒇(𝑿2)
B0 = -11,14; B2 = 0,13
𝑌̂|X2 = -11,14 + 0,13X2
(R2 = 0,73; S = 0,9929)
F0,05(1;7) = 5,59
- Biện luận:
t0 = 3,418 > t0,05 = 2,365 (Hay Sig. = p-value = 0,011 < 𝛼 = 0,05)
→ Bác bỏ giả thiết H0
t2 = 4,757 > t0,05 = 2,365 (Hay Sig. = p-value = 0,0206 < 𝛼 = 0,05)
F = 22,631 > F0,05 = 5,590 (Hay Sig. = Fs = 0,00206 < 𝛼 = 0,05)
- Kết luận:
Vậy các hệ số -11,14(B0); 0,13(B2) của phương trình hồi quy 𝑌̂|X2 = -11,14 + 0,13X2 đều có ý
nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp. Suy ra yếu tố nhiệt độ
có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
̂ |X1,X2 = 𝒇(𝑿1, 𝑿2)
B0 = -12,70; B1 = 0,04; B2 = 0,13
𝑌̂|X1,X2 = -12,70 + 0,04X1 + 0,13X2
(R2 = 0,97; S = 0,3297)
F0,05(2;6) = 5,140
- Biện luận:
t0 = 11,528 > t0,05 = 2,447 (Hay Sig. = p-value ≈ 0,000 < 𝛼 = 0,05)
F = 131,392 > F0,05 = 5,140 (Hay Sig. = Fs ≈ 0,000 < 𝛼 = 0,05)
- Kết luận:
Vậy các hệ số -12,70(B0); 0,04(B1); 0,13(B2) của phương trình hồi quy
𝑌̂|X1,X2 = -12,70 + 0,04X1 + 0,13X2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy
này thích hợp. Suy ra hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu
tố là thời gian và nhiệt độ.
Bài 2:
Kiểm tra sức khoẻ của 29 công nhân ở năm phân xưởng của nhà máy sản xuất pin-ắc quy người
ta đo được mật độ nhiễm chì của họ như sau:
Số thứ tự Mức nhân tố
quan sát F1 F2 F3 F4 F5
1 0.25 0.22 0.25 0.31 0.22
2 0.28 0.25 0.26 0.33 0.28
3 0.32 0.24 0.28 0.30 0.28
4 0.22 0.28 0.25 0.29 0.25
5 0.22 0.31 0.22 0.25 0.30
6 0.21 0.28
7 0.22 0.31
So sánh mức độ nhiễm chì đối với công nhân ở các phân xưởng của nhà máy nói trên.
Mức ý nghĩa α= 3%.
1. Dạng bài: PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ
Giả sử ta có k DLNN có phân phối chuẩn X1, X2,., Xk trong đó Xi ~ N(µi,σi2)
Các giá trị trung bình µi và phương sai σi2 đều chưa biết. Tuy nhiên chúng ta giả thiết rằng các
phương sai bằng nhau:
σ12= σ22=……= σk2
Chúng ta muốn kiểm định xem liệu các giá trị trung bình µi này có như nhau hay không:
µ1= µ2=…...= µk
Trong thống kê vấn đề trên thường được xem xét dưới góc độ sau đây:
Giả sử chúng ta quan tâm đến một nhân tố X (factor) nào đó. Nhân tố X có thể xem xét ở k mức
khác nhau. Kí hiệu là Xi là hiệu quả của việc tác động nhân tố X ở mức độ i đối với cá thể.
Như vậy µi là hiệu quả trung bình của nhân tố X ở mức i. Chúng ta muốn biết khi cho nhân
tố X thay đổi các mức khác nhau thì điều đó có ảnh hưởng hay không đến hiệu quả trung
bình.
Các mức nhân tố

1 2 ….. k 𝑀𝑆𝐵
x11 x12 ….. n1k 𝑀𝑆𝐸
x21 x22 ….. n2k
…. …. ….. …..
𝑟 𝑐 𝑆𝑆𝐵 ….. 𝑀𝑆𝐹
2
∑ ∑ 𝑌𝑖𝑗 (𝑟 − 1) 𝑀𝑆𝐸
𝑖=1 𝑖=1
−𝑇 2
𝑟
Tổng số T1 T2 …… Tk 𝑆𝑆𝐹
(𝑐 − 1)
𝑐
Trung bình 𝑇𝑖2 𝑇 2 𝑀𝑆𝐵 ……. 𝑆𝑆𝐵
∑ − 𝑀𝑆𝐸 (𝑟 − 1)
𝑐 𝑟𝑐
𝑖=1
Ta đưa ra một số kí hiệu sau:

 Trung bình của mẫu thứ I (tức là mẫu ở cột thứ I trong bảng trên):
𝑇𝑖 ∑𝑛
𝑗=1 𝑥𝑗𝑖
𝑥̅ = =
𝑛𝑖 𝑛𝑗
 Trung bình chung:
𝑛
𝑇 ∑ ∑ 𝑥𝑖𝑗 ∑𝑘 𝑖
𝑖=1 ∑𝑗=1 𝑥𝑖𝑗
𝑥̅ = = =
𝑛 𝑛 𝑛
ở đó n= 𝑛1 + 𝑛2 + 𝑛3 +….+ 𝑛𝑘 .
T= 𝑇1 + 𝑇2 + 𝑇3 +……+ 𝑇𝑘 .
 Tổng bình phương chung kí hiệu là SST (viết tắt là chữ Total Sum of Squares)
được tính bằng công thức sau:
𝑛 𝑛 𝑛
1
SST= ∑𝑖=1 1
(𝑥𝑖1 − 𝑥̅ )2 + ∑𝑖=1(𝑥𝑖2 − 𝑥̅ )2 + … + ∑𝑖=1
1
(𝑥𝑖𝑘 − 𝑥̅ )2
𝑛𝑘
= ∑𝑗=1 ∑𝑛𝑖=1
1
(𝑥𝑖𝑗 − 𝑥̅ ) 2
 Tổng bình phương do nhân tố ký hiệu là SSF (Sum of Squares for Factor) được
tính theo công thức sau:
SSF= ∑𝑘𝑖=1 𝑛𝑖 (𝑥𝑖1 − 𝑥̅ )2
𝑇12 𝑇22 𝑇32 𝑇𝑘2 𝑇2
= + + +…..+ -
𝑛1 𝑛2 𝑛3 𝑛𝑘 𝑛
 Tổng bình phương do sai số ký hiệu là SSE (Sum of Squares for the Error) được
tính theo công thức:
𝑛1 𝑛1 𝑛1
SSE= ∑𝑖=1(𝑥𝑖1 − 𝑥̅ )2 + ∑𝑖=1(𝑥𝑖2 − 𝑥̅ )2 + … + ∑𝑖=1(𝑥𝑖𝑘 − 𝑥̅ )2
𝑛
1 2 𝑇12 2 2 𝑛 𝑇22 𝑘𝑛 2 𝑇𝑘2
= ∑𝑖=1 𝑥𝑖1 − + ∑𝑖=1 𝑥𝑖2 − + ....+ ∑𝑖=1 𝑥𝑖𝑘 −
𝑛1 𝑛2 𝑛𝑘
2 𝑇12 𝑇22 𝑇𝑘2
= ∑ ∑ 𝑥𝑖𝑗 −( + + ⋯.+ )
𝑛1 𝑛2 𝑛𝑘
 Từ công thức trên ta thấy:

SST= SSF + SSE
 Trung bình bình phương của nhân tố, ký hiệu là MSF (Mean Squares for Factor)
được tính bởi công thức:
𝑆𝑆𝐹
𝑀𝑆𝐹 =
𝑘−1
k-1 được gọi là bậc tự do của nhân tố.
 Trung bình bình phương của sai số, ký hiệu là MSE (Mean Squares for Error)
được tính bởi công thức:
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−𝑘
n-k được gọi là bậc tự do của sai số.
 Tỷ số F được tính theo công thức:
𝑀𝑆𝐹
𝐹=
𝑀𝑆𝐸
Các kết quả nói trên được trình bày trong bảng sau đây gọi là bảng ANOVA:
Nguồn Tổng bình Bậc tự do Trung bình bình Tỷ số F
phương phương
Nhân tố SSF k-1 MSF MSF/MSE
Sai số SSE n-k MSE
Tổng số SST n-1
Người ta chứng minh được rằng nếu giả thiết 𝐻𝑜 đúng thì tỷ số F sẽ có phân bố Fisher với bậc tự do
là (k-1,n-k).
𝑀𝑆𝐹
𝐹=
𝑀𝑆𝐸
Thành thử giả thiết 𝐻𝑜 sẽ bị bác bỏ ở mức ý nghĩa α của phân bố Fisher với bậc tự do là (k-1,n-k).
3. Giải bài toán bằng phần mếm Excel
 Bước 1: Gọi 𝐻𝑜 là giả thiết: “ Mức độ nhiễm chì của các công nhân trong các phân
xưởng khác nhau là giống nhau”.
Đối giả thiết ̅̅
𝐻̅̅0 :”Có ít nhất một trường hợp mà mức độ nhiễm chì của các công nhân
trong phân xưởng khác nhau”.
 Bước 2: Nhập các số liệu vào bảng Excel
 Bước 3: Chọn Data => Data Analysis => Anova single Factor => Ok
 Bước 4: Chọn input range và nhập α.

 Bước 5: Kết quả và biện luận
F= 0.933036 < F-crit= 3.380392 => Chấp nhận giả thiết 𝐻𝑜 :”Mức độ nhiễm chì của các công nhân
trong các phân xưởng khác nhau là như nhau”
Bài 3: Bảng sau đây cho ta phân bố thu nhập của 2 nhóm tuổi: Nhóm tuổi từ 40 – 50 và nhóm tuổi
từ 50 – 60 trong số các công nhân lành nghề ở Thụy Điển năm 1930
Nhóm Thu nhập
tuổi 0 – 1 – 2 – 3 3 – 4 4 – 6  6
1 2
40 – 71 430 1072 1609 1178 158
50
50 – 54 324 894 1202 903 112
60
Có sự khác nhau về phân bố thu nhập giữa 2 nhóm tuổi này trong số các công nhân lành nghề hay không
? Mức ý nghĩa  = 5%.
Dạng bài: KIỂM ĐỊNH GIẢ THIẾT VỀ TỶ LỆ
2.Phương pháp giải: SO SÁNH TỶ SỐ
Đối với một thí nghiệm có hai kết quả (binomial experiment ) ta thường so sánh hai tỉ số với nhau (
thực nghiệm với lý thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều
kết quả ( multinomial experiment ) ta cần so sánh nhiều tỷ số. Trắc nghiệm “khi” bình phương (𝜒2)
cho phép ta so sánh không những hai mà còn nhiều tỷ số (hay tỷ lệ hoặc xác suất ) một cách tiện lợi.
𝜒2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử ta có một công việc
nghiên cứu với N thử nghiệm là 𝑃𝑖 (𝑖 = 1,2,…,𝑘). Nếu gọi 𝑃𝑖,0 là các giá trị lý thuyết tương ứng
với 𝑃𝑖 thì các tần số lý thuyết sẽ là 𝐸𝑖 = 𝑁𝑃𝑖,0. Điều kiện để áp dụng trắc nghiệm 𝑋2 một cách
thành công là các tần số lý thuyết 𝐸𝑖 phải ≥ 5.
Giả thiết: H0 : P1= P1,0, P2= P2,0,…, Pk,0  “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”
k
 (Oi  Ei )2 
  
2

i 1  Ei 
• Oi - các tần số thực nghiệm (observed frequency)
• Ei - các tần số lý thuyết (expected frequency)
Biện luận:
Nếu  2  2  bác bỏ giả thuyết H 0 ( DF  k  1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
Giá trị  2 theo biểu thức
k
 (Oi  Ei )2 
  
2

i 1  Ei 
Oi - các tần số thực nghiệm của ô thuộc hàng i và cột j
Ei - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột
 Xác suất P( X   2 ) với bậc tự do 𝐷𝐹 = (𝑟 − 1)(𝑐 − 1), trong đó: r là số hàng và c

là số cột trong bảng ngẫu nhiên (contingency table).
 Nếu P( X   2 )    Chấp nhận giả thuyết H 0 .
 Nếu P( X   2 )    Bác bỏ giả thuyết H 0 .
 Dạng bài: So sánh 2 tỉ số.

 Ta giả thiết:
H0: Sự phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là giống nhau.
Ta tiến hành tính toán các tỉ số và so sánh để có thể kết luận phân bố thu nhập giữa 2 nhóm tuồi
này trong số các công nhân lành nghề có khác nhau hay không.
Giải toán trên Excel:
Nhập dữ liệu và tính tổng ni và mj vào bảng như sau:
ni = SUM (hàng)
mj = SUM (cột)
Tính dữ liệu kỳ vọng ij theo công thức ij = ni* mj /n ta được bảng sau:
Tính P(X > ²) = CHITEST (Bảng thực tế, Bảng kỳ vọng)
= CHITEST (C3:H4,C9:H10)
= 0.5116
Phân tích kết quả: P(X > ²) = 0.5116 >  = 0.05
Do đó giả thuyết Ho được chấp nhận.
Kết luận: Vậy mức thu nhập giữa 2 nhóm tuổi 40 - 50 và 50 - 60 là như nhau.
Bài 4: Theo dõi số học sinh đến muộn của 5 trường PTTH vào các ngày khác nhau trong tuần người
ta thu được số liệu về số lượng học sinh trung bình đến lớp muộn của các trường đó vào 1 ngày tiêu
biểu trong tuần như sau:
Ngày Trong Trường THPT
Tuần
A B C D
Thứ Hai 5 4 5 7
Thứ Ba 4 5 3 2
Thứ Tư 4 3 4 5
Thứ Năm 4 4 3 2
Bạn có nhận xét gì về số lượng học sinh đến lớp muộn của các trường. Có sự khác biệt gì về số lượng học
sinh đến lớp muộn vào các ngày khác nhau trong tuần? Mức ý nghĩa  = 1%.
Bài làm:
1. Dạng bài: Phân tích phương sai 2 yếu tố không lặp.
H01 : Số lượng học sinh đi muộn theo ngày là như nhau.
H02 : Số lượng học sinh đi muộn theo trường là như nhau.
2. Cơ sở lí thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (i=1,2…r:
yếu tố A; j=1,2…c: yếu tố B)
Mô hình:
Yếu tố B Tổng
Yếu tố A Trung bình
1 2 … c cộng
1 Y11 Y12 … Y1c Y1 Y̅1
2 Y21 Y22 … Y2c Y2 Y̅2
… … … … … … …
r Yr1 Yr2 … Yrc Yr Y̅r
Tổng cộng T1 T2 … Tc T
Trung bình ̅̅̅

Y.1 ̅̅̅
Y.2 … ̅̅̅
Y .c
̅
Y
Bảng ANOVA
Nguồn sai Bậc tự Bình phương Giá trị thống

Tổng số bình phương
số do trung bình kê
Yếu tố A T2i T2.. SSB MSB

(r–1) SSB =∑ri=1 − MSB =
( r−1)
FR =
MSE
(hàng) c rc
Yếu tố B
T2j T2.. SSF MSF
( c -1 ) SSF =∑cj=1 − MSF =
( c−1)
FC =
MSE
r rc
( cột )
SSB
Sai số (r-1)(c-1) SSE = SST - (SSF + SSB) MSB =
(r−1)
T2..
Tổng cộng ( rc – 1) SST = ∑ri=1 ∑cj=1 Yij2 -
r
Giả thuyết:
 “Các giá trị trung bình bằng nhau”
 “Ít nhất có hai giá trị trung bình khác nhau”

𝑀𝑆𝐵 𝑀𝑆𝐹
𝐹𝑅 = 𝑣à 𝐹𝐶 =
𝑀𝑆𝐸 𝑀𝑆𝐸
Biện luận:
Nếu 𝐹𝑅 < 𝐹𝑎 [𝑏 − 1, (𝑘 − 1)(𝑏 − 1)] => Chấp nhận H0 (yếu tố A).
Nếu 𝐹𝐶 < 𝐹𝑎 [𝑏 − 1, (𝑘 − 1)(𝑏 − 1)] => Chấp nhận H0 (yếu tố B).

Áp dụng Anova: “Two-Factor Without Replication”
Vào Data->DataAnalysis. Chọn mục Anova: Two-Factor Without Replication. Chọn OK.
Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định các chi tiết:
 Phạm vi đầu vào (Input Range): $A$2:$E$6

 Nhãn dữ liệu (Labels in First Row/Column)
 Ngưỡng tin cậy (Alpha): 0.01 (mức ý nghĩa = 1%)
Nhấn OK. Ta được bảng sau:
Phân tích kết quả: FR = 2.0357 < F0.01 = 6.9919 => Chấp nhận H01 (Ngày trong tuần).
Vậy số lượng học sinh đến lớp muộn vào các ngày khác nhau trong tuần là như nhau.
Phân tích kết quả: FC = 0.1071 < F0.01 = 6.9919 => Chấp nhận H02 (Trường THPT).
Vậy Số lượng học sinh đến lớp muộn của các trường là như nhau.
Kết luận: Số lượng học sinh đến muộn của các trường là như nhau.
Bài 5: Trong một thí nghiệm khoa học người ta nghiên cứu độ dày của lớp mạ kền khi dùng ba loại
mạ khác nhau. Sau một thời gian mạ, người ta đo độ dày của lớp mạ nhận được ở các bể
Độ dày lớp mạ kền Số lần đo bể mạ

tính bằng μm A B C
4-8 32 51 68
8-12 123 108 80
12-16 10 266 26
16-20 41 24 28
20-24 19 20 28
Hãy kiểm định giải thuyết: độ dày lớp mạ sau khoảng thời gian nói trên không phụ thuộc loại bể mạ
được dùng. Mức ý nghĩa  = 5%.
Dạng bài: KIỂM ĐỊNH GIẢ THIẾT VỀ TỶ LỆ
2.Phương pháp giải: SO SÁNH TỶ SỐ
Đối với một thí nghiệm có hai kết quả (binomial experiment ) ta thường so sánh hai tỉ số với nhau (
thực nghiệm với lý thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều
kết quả ( multinomial experiment ) ta cần so sánh nhiều tỷ số. Trắc nghiệm “khi” bình phương (𝜒2)
cho phép ta so sánh không những hai mà còn nhiều tỷ số (hay tỷ lệ hoặc xác suất ) một cách tiện lợi.
𝜒2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử ta có một công việc
nghiên cứu với N thử nghiệm là 𝑃𝑖 (𝑖 = 1,2,…,𝑘). Nếu gọi 𝑃𝑖,0 là các giá trị lý thuyết tương ứng
với 𝑃𝑖 thì các tần số lý thuyết sẽ là 𝐸𝑖 = 𝑁𝑃𝑖,0. Điều kiện để áp dụng trắc nghiệm 𝑋2 một cách
thành công là các tần số lý thuyết 𝐸𝑖 phải ≥ 5.
Giả thiết: H0 : P1= P1,0, P2= P2,0,…, Pk,0  “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”
k
 (Oi  Ei )2 
  
2

i 1  Ei 
• Oi - các tần số thực nghiệm (observed frequency)
• Ei - các tần số lý thuyết (expected frequency)
Biện luận:
Nếu  2  2  bác bỏ giả thuyết H 0 ( DF  k  1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
Giá trị  2 theo biểu thức
k
 (Oi  Ei )2 
  
2

i 1  Ei 
Oi - các tần số thực nghiệm của ô thuộc hàng i và cột j
Ei - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột
 Xác suất P( X   2 ) với bậc tự do 𝐷𝐹 = (𝑟 − 1)(𝑐 − 1), trong đó: r là số hàng và c

là số cột trong bảng ngẫu nhiên (contingency table).
5. Nếu P( X   2 )    Chấp nhận giả thuyết H 0 .
6. Nếu P( X   2 )    Bác bỏ giả thuyết H 0 .

Bài làm:
 Dạng bài: So sánh 2 tỉ số.

H0: Độ dày lớp mạ sau khoảng thời gian nói trên không phụ thuộc loại bể mạ được dùng
Ta tiến hành tính toán các tỉ số và so sánh để có thể kết luận độ dày lớp mạ sau khoảng thời gian
nói trên có phụ thuộc loại bể mạ được dùng hay không.
Giải toán trên Excel:
Nhập dữ liệu và tính tổng ni và mj vào bảng như sau:
ni = SUM (hàng)
mj = SUM (cột)
Tính dữ liệu kỳ vọng ij theo công thức ij = ni* mj /n ta được bảng sau:
Tính P(X > ²) = CHITEST (Bảng thực tế, Bảng kỳ vọng)
= CHITEST(C4:E8,C12:E16)
= 8.67391E-06
Phân tích kết quả: P(X > ²) = 8.67391E-06 <  = 0.05
Do đó giả thuyết Ho được bác bỏ
Kết luận: độ dày lớp mạ sau khoảng thời gian nói trên có phụ thuộc loại bể mạ được dùng.

Hiếu 1711313

Uploaded by

Copyright:

Available Formats

You might also like

Hiếu 1711313

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Hiếu 1711313

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG

ĐẠI HỌC BÁCH KHOA

BÁO CÁO HỌC PHẦN MỞ RỘNG XÁC SUẤT

GIẢNG VIÊN HƯỚNG DẪN: PGS.TS NGUYỄN ĐÌNH HUY

Tp.Hồ Chí Minh, ngày 06/08/2019

1. Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ.

Mô hình vuông la tinh ba yếu tố được trình bày như sau:

Yếu tố C (T..k, ví dụ: T..1 = Y111 + Y421 + Y334 + Y241)

3. Giải bài toán bằng phần mềm IBM SPSS:

 Bước 1: Đặt các giả thiết và các đối giả thiết

 Bước 3: Nhập số liệu vào cửa sổ Data View.

“nhiet_do” và “chat_xuc_tac” vào khung Fixed Factor(s).

 Bước 8: Click OK, ta thu được kết quả như sau:

- Bảng Test of Between-Subjects Effects cho ta kết quả:

- Vì FR < F0,05 nên ta chấp nhận giả thiết H1 (pH)

- Vì FC > F0,05 nên ta bác bỏ giả thiết H2 (nhiệt độ)

- Vì F > F0,05 nên ta bác bỏ giả thiết H3 (chất xúc tác)

Thời gian (phút) Nhiệt độ (oC) Hiệu suất (%)

1. Dạng bài: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ.

Phương trình tổng quát:

- Giá trị R bình phương:

- Giá trị R2 được hiệu chỉnh (Adjusted R Square)

- Giá trị R2 được hiệu chỉnh (Adjusted R Square)

Trắc nghiệm thống kê:

- Trong trắc nghiệm t:

H0 : β i = 0 “Các hệ số hồi quy không có ý nghĩa”.

H0 : β i ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa”.

Bậc tự do của giá trị t:  = N - k - 1

* Giá trị thống kê:

- Trong trắc nghiệm F:

H0 : β i = 0 “Phương trình hồi quy không thích hợp”.

H0 : β i ≠ 0 “Phương trình hồi quy thích hợp” với ít nhất vài Bi

Bậc tự do của giá trị F: v1 = 1, v2 = N – k – 1.

* Giá trị thống kê: F = MSR/MSE

Nếu F < Fα (k, N - k - 1) → chấp nhận giả thiết H0

3. Giải bài toán bằng phần mềm IBM SPSS:

 Bước 3: Nhập số liệu vào cửa sổ Data View

- Suy ra phương trình hồi quy:

𝑌̂|X1 = 2,73 + 0,04X1

(R2 = 0,102; S = 1,8112)

→ Chấp nhận giả thiết H0

→ Chấp nhận giả thiết H0

F = 1,905 < F0,05 = 5,590 (Hay Sig. = Fs = 0,210 > 𝛼 = 0,05)

→ Chấp nhận giả thiết H0

- Suy ra phương trình hồi quy:

𝑌̂|X2 = -11,14 + 0,13X2

(R2 = 0,73; S = 0,9929)

→ Bác bỏ giả thiết H0

→ Bác bỏ giả thiết H0

F = 22,631 > F0,05 = 5,590 (Hay Sig. = Fs = 0,00206 < 𝛼 = 0,05)

→ Bác bỏ giả thiết H0

- Dựa vào bảng Coefficientsa, cột B ta xác định được các hệ số :

B0 = -12,70; B1 = 0,04; B2 = 0,13

- Suy ra phương trình hồi quy:

𝑌̂|X1,X2 = -12,70 + 0,04X1 + 0,13X2

(R2 = 0,97; S = 0,3297)

→ Bác bỏ giả thiết H0

→ Bác bỏ giả thiết H0