Professional Documents
Culture Documents
XSTKMR - 1712117 - Võ Đ I Mau PDF
XSTKMR - 1712117 - Võ Đ I Mau PDF
XSTKMR - 1712117 - Võ Đ I Mau PDF
1
Bài 1A:
1. Đề bài: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu
theo ba yếu tố: pH (A) nhiệt độ (B) và chất xúc tác (C) được trình bày trong
bảng sau:
Yếu Yếu tố B
tố B B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
2. Dạng bài: PHÂN TÍCH PHƯƠNG SAI BA YẾU TỐ.
3. Cơ sở lý thuyết:
Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các
giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố
C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta
dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
2
Bảng ANOVA:
Nguồn Tổng số bình Bình phương Giá trị
Bậc tự do
sai số phương trung bình thống kê
Yếu tố A r
Ti..2 T...
2
SSR MSR
(r-1) SSR= 2 MSR= FR=
(Hàng) i 1 r r (r 1) MSE
Yếu tố B r T. 2j . 2
T... SSC MSC
(r-1) SSC= MSC= FC=
(Cột) j 1 r r2 (r 1) MSE
2
r
T..2k T... SSF MSF
Yếu tố C (r-1) SSF= 2 MSF= F=
k 1 r r (r 1) MSE
SSE=SST – MSE=
Sai số (r-1)(r-2) SSE
(SSF+SSR+SSC) (r 1)(r 2)
Tổng T...2
(r2-1) SST= Yijk2
cộng r2
Trắc nghiệm
Giả thiết:
H0: μ1 = μ2 = ...= μk ↔ Các giá trị trung bình bằng nhau
H1 : μ i μ j ↔ Có ít nhất hai giá trị trung bình khác nhau
Giá trị thống kê: FR, FC, F
Biện luận:
Nếu FR< Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố A
Nếu FC < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố B
Nếu F < Fα[r-1,(r-1)(r-2)] → Chấp nhận H0 đối với yếu tố C
3
̅ 1 : “Có ít nhất hai giá trị trung bình hiệu suất (%)
Đối giả thiết H
của các phản ứng ở các nhiệt độ khác nhau là khác nhau nhau”.
̅ 2 : “Có ít nhất hai giá trị trung bình hiệu suất (%)
H
của các phản ứng ở các áp suất khác nhau là khác nhau nhau”.
̅ 3 : “Có ít nhất hai giá trị trung bình hiệu suất (%)
H
của các phản ứng với các chất xúc tác khác nhau là khác nhau nhau”.
Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
4
Bước 5: Đưa biến Hieu_suat vào khung Dependent Variable; đưa các
biến pH, Nhiet_do và Chat_xuc_tac vào khung Fixed Factor(s).
5
Bước 8: Kết quả và biện luận.
6
5. So sánh với kết quả tính được từ phần mềm Microsoft Excel:
Kết quả tính được từ Microsoft Excel:
- Các kết quả tính được từ hai phần mềm SPSS và Excel là giống nhau.
- Việc tính toán với phần mềm SPSS khá nhanh chóng khi có công cụ hỗ trợ
đối với bài toán phân tích phương sai ba yếu tố, trong khi đối với Excel là
tính toán tương đối dài và không có công cụ hỗ trợ.
- Tuy nhiên đối với Excel có hàm FINV( ) hỗ trợ tra bảng phân phối Fischer
khá hữu ích, rút gọn thời gian làm bài. Còn với phần mềm SPSS hiện vẫn
chưa tìm được cách tra bảng nhanh nên vẫn mất thời gian tra bảng thủ công.
Bài 1B:
1. Đề bài: Người ta đã dùng ba mức nhiệt độ gồm 105, 120, 135℃ kết hợp với ba
khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các
hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Hãy cho biết yếu tố nhiệt độ và/hoặc yếu tố thời gian có liên quan tuyến tính
với hiệu suất của phản ứng tổng hợp? Nếu có thì điển kiện nhiệt độ 115℃ trong
vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
7
2. Dạng bài: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ.
3. Cơ sở lý thuyết: Chúng ta xem xét mối liên hệ tuyến tính giữa một biến phụ
thuộc Y và các biến độc lập Xi (i = 1, 2,...k). Đồ thị phân tán giữa các biến là
một gợi ý cho chúng ta loại hàm số toán học thích hợp để mô tả và tóm tắt các
dữ liệu quan sát .
Phương trình tổng quát:
𝑌̂|𝑋0,𝑋1,…,𝑋𝑘 = B0 + 𝐵1 𝑋1 + 𝐵2 𝑋2 +. . . +𝐵𝑘 𝑋𝑘
Bảng ANOVA:
8
- Trắc nghiệm t:
+ Giả thiết:
Bi i S2 B
t ; Sn2 n
( X i X )2
2
S n Sn2
i 1
Phân bố Student = N – k – 1.
+ Biện luận:
9
Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
10
Bước 5: Hộp thoại Linear Regression hiện lên, ta đưa biến phụ thuộc Y
vào ô Dependent, biến độc lập X1, X2 vào ô Independent(s).
11
Bước 7: Vẽ đồ thị: trong cửa sổ Output chọn Graphs Legacy Dialogs
Scatter/Dot... Simple Scatter Define
12
Bước 9: Kết quả và biện luận.
Phương trình hồi quy: 𝒀 ̂ |𝑿 = 𝒇(𝑿𝟏 )
𝟏
13
Dựa vào bảng Coefficientsa, cột B ta xác định được các hệ số :
B0 = 2,73; B1 = 0,04
Suy ra phương trình hồi quy:
𝑌̂|𝑋 = 2,73 + 0,04𝑋1
1
2
(R = 0,102; S = 1,8112)
Dò bảng phân phối Fischer ở mức ý nghĩa 5% với bậc tự do (1; N-k-1) =
(1; 7) ( N=9 và k=1 là số biến độc lập), ta được F0.05(1;7) = 5,59
Dò bảng phân phối Student ở mức ý nghĩa 5% với bậc tự do (N-k-1) = 7
( N=9 và k=1 là số biến độc lập), ta được t0.05 = 2,365
t0 = 2,129 < t0,05 = 2,365 (Hay Sig.=p-value = 0,071 > 𝛼 = 0,05)
Chấp nhận giả thiết H0.
t1 =1,38 < t0,05 = 2,365 (Hay Sig.=p-value = 0,21 > 𝛼 = 0,05)
Chấp nhận giả thiết H0.
F = 1,905 < F0,05 = 5,590 (Hay Sig.=Fs=0,21 > 𝛼 = 0,05)
Chấp nhận giả thiết H0.
Kết luận: Vậy các hệ số 2,37(B0); 0,04(B1) của phương trình
hồi quy Ŷ|X = 2,73 + 0,04X1 đều không có ý nghĩa thống kê.
1
Nói cách khác phương trình hồi quy này không thích hợp. Suy
ra yếu tố thời gian không có liên quan tuyến tính với hiệu suất
của phản ứng tổng hợp.
14
̂ |𝑿 = 𝒇(𝑿𝟐 )
Phương trình hồi quy: 𝒀 𝟐
15
Dựa vào bảng Coefficientsa, cột B ta xác định được các hệ số :
B0 = -11,14; B2 = 0,13
Suy ra phương trình hồi quy:
𝑌̂|𝑋 = −11,14 + 0,13𝑋1
1
2
(R = 0,73; S = 0,9929)
Dò bảng phân phối Fischer ở mức ý nghĩa 5% với bậc tự do (1; N-k-1) =
(1; 7) ( N=9 và k=1 là số biến độc lập), ta được F0.05(1;7) = 5,59
Dò bảng phân phối Student ở mức ý nghĩa 5% với bậc tự do (N-k-1) = 7
( N=9 và k=1 là số biến độc lập), ta được t0.05 = 2,365
t0 = 3,418 > t0,05 = 2,365 (Hay Sig.=p-value = 0,011 < 𝛼 = 0,05)
Bác bỏ giả thiết H0.
t2 =4,757 > t0,05 = 2,365 (Hay Sig.=p-value = 0,002 < 𝛼 = 0,05)
Bác bỏ giả thiết H0.
F = 22,631 > F0,05 = 5,590 (Hay Sig.=Fs=0,002 < 𝛼 = 0,05)
Bác bỏ giả thiết H0.
Kết luận: Vậy các hệ số -11,14(B0); 0,13(B2) của phương
trình hồi quy Y ̂|X = −11,14 + 0,13X 2 đều có ý nghĩa thống
1
kê. Nói cách khác phương trình hồi quy này thích hợp. Suy ra
yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản
ứng tổng hợp.
16
̂ |𝑿 ,𝑿 = 𝒇(𝑿𝟏 , 𝑿𝟐 )
Phương trình hồi quy: 𝒀 𝟏 𝟐
17
5. So sánh với kết quả tính được từ phần mềm Microsoft Excel:
Kết quả tính được từ Microsoft Excel:
- Các kết quả tính được từ hai phần mềm SPSS và Excel là giống nhau.
- Trong Excel có hỗ trợ hàm tra bảng phân phối Student và Fischer khá
hữu ích trong khi với phần mềm SPSS vẫn phải tra bảng thủ công để so
sánh.
- Phần mềm SPSS giúp vẽ đồ thị đường hồi quy đẹp và dễ nhìn hơn so
với Excel.
18
Bài 2:
1. Đề bài:
Đo đường kính X và chiều cao Y của 20 cây ta thu được số liệu sau:
X 2,3 2,5 2,6 3,1 3,4 3,7 7,3
Y 7 8 4 4 6 6 14
2. Dạng bài: HỒI QUY TUYẾN TÍNH ĐƠN GIẢN (một tham số).
3. Cơ sở lí thuyết: Chúng ta xem xét mối liên hệ tuyến tính giữa một biến phụ
thuộc Y và một biến độc lập X. Đồ thị phân tán giữa hai biến là một gợi ý cho
chúng ta loại hàm số toán học thích hợp để mô tả và tóm tắt các dữ liệu quan sát
.
Phương trình tổng quát:
𝑌̂|𝑋 = B0 + BX
̅ − BX
B0 = Y ̅
∑ X i Yi − ∑ X i Yi /N
B=
̅
Xi − X
Bảng ANOVA:
19
GIÁ TRỊ THỐNG KÊ:
- Giá trị R-bình phương (R-square):
SSR
R (100R2: % của biến đổi trên Y đượcgiải thích bởi X)
SST
- Độ lệch chuẩn (Standard Error):
1 n
S
N 2 i 1
(Yi Y 'i ) 2
(Sự phân tán của dữ liện càng ít thì giá trị của S càng gần zero).
- Trắc nghiệm thống kê:
Đối với một phương trình hồi quy 𝒀 ̂ |𝑿 = 𝐁𝟎 + 𝐁𝐗, ý nghĩa thống kê của các hệ
số Bi (B0 hay B) được đánh giá bằng trắc nghiệm t (phân phối Student) trong
khi tính chất thích hợp của phương trình 𝒀 ̂ |𝑿 = 𝒇(𝑿) được đánh giá bằng trắc
nghiệm F (phân bố Fischer).
- Trắc nghiệm t:
+ Giả thiết:
H0: βi = 0 “Hệ số hồi quy không có ý nghĩa”
H0: βi ≠ 0 “Hệ số hồi quy có ý nghĩa”
+ Giá trị thống kê:
Bi i S2 B
t ; Sn2 n
( X i X )2
2
S n Sn2
i 1
Phân bố Student = N – 2
+ Biện luận:
Phân bố Fischer v1 = 1, v2 = N – 2
+ Biện luận:
20
4. Giải bài toán bằng phần mềm IBM SPSS:
Bước 1: Gọi Ho là giả thiết: “Phương trình hồi quy không thích hợp”
̅ 0 : “Phương trình hồi quy thích hợp”
Đối giả thiết H
Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
21
Bước 6: Chọn Statisticskick chọn R squared chage và Descriptives...
Continue.
Với mức ý nghĩa mặc định là 0,05 chọn OK.
- Dựa vào bảng coefficientsa ta xác định được giá trị hai hệ số ở cột B:
B0 = 1,045; B = 1,677. Suy ra phương trình hồi quy tuyến tính có dạng:
Y = 1,045 + 1,677X
- Dựa vào bảng Model Summary ta xác định được sai số số tiêu chuẩn ở
cột Std.Error of the Estimate là 2,22.
- Dựa vào bảng ANOVAa ta xác định được giá trị F cần tìm là F = 24,3
Dò bảng phân phối Fischer ở mức ý nghĩa 5% với bậc tự do (1; N-k-1) =
(1; 18) ( N=20 và k=1 là số biến độc lập), ta được F0.05(1;18) = 4,414
Suy ra F > F0.05 Bác bỏ giả thiết H0.
Kết luận: Phương trình hồi quy thích hợp.
22
Bài 3:
1. Đề bài: Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước
ngoài. Để đánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị
trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thử
nghiệm thị trường bằng cách bán thử sản phẩm cho 150 khách hàng tiềm năng
tại mỗi thị trường và thu được kết quả sau:
Thị trường
A B C
Công ty 55 38 24
Đối thủ cạnh tranh 1 28 30 21
Đối thủ cạnh tranh 2 20 18 31
Các đối thủ khác 47 64 74
Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau
hay không ?
3. Cơ sở lý thuyết:
Đối với một thí nghiệm có hai kết quả (binomial experiment ) ta thường so
sánh hai tỉ số với nhau ( thực nghiệm với lý thuyết hay thực nghiệm với thực
nghiệm). Song đối với một thí nghiệm có nhiều kết quả ( multinomial
experiment ) ta cần so sánh nhiều tỷ số. Trắc nghiệm “khi” bình phương (𝜒 2 )
cho phép ta so sánh không những hai mà còn nhiều tỷ số (hay tỷ lệ hoặc xác
suất ) một cách tiện lợi. 𝜒 2 là phân phối về xác suất, không có tính đối xứng và
chỉ có giá trị ≥ 0. Giả sử ta có một công việc nghiên cứu với N thử nghiệm là
𝑃𝑖 (𝑖 = 1,2, … , 𝑘 ). Nếu gọi 𝑃𝑖,0 là các giá trị lý thuyết tương ứng với 𝑃𝑖 thì các
tần số lý thuyết sẽ là 𝐸𝑖 = 𝑁𝑃𝑖,0 . Điều kiện để áp dụng trắc nghiệm 𝑋 2 một cách
thành công là các tần số lý thuyết 𝐸𝑖 phải ≥ 5.
Giả thiết:
H0 : P1= P1,0, P2= P2,0,…, Pk,0 “Các cặp Pi và Pi,0 giống nhau”.
H1 : “Ít nhất có một cặp Pi và Pi,0 khác nhau”.
Giá trị thống kê:
(𝑂𝑖 −𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 [ ]
𝐸𝑖
𝑂𝑖 - các tần số thực nghiệm (observed frequency)
𝐸𝑖 - các tần số lý thuyết (expected frequency)
23
Biện luận:
Nếu 𝜒 2 > 𝜒𝛼2 => bác bỏ giả thiết H0 (DF = k - 1)
Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
- Giá trị 𝜒 2 thep biểu thức:
(𝑂𝑖 −𝐸𝑖 )2
𝜒 2 = ∑ℎ𝑖=1 [ ]
𝐸𝑖
𝑂𝑖 - các tần số thực nghiệm của ô thuộc hàng i và cột j
𝐸𝑖 - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số
cột.
- Xác suất 𝑃(𝑋 > 𝜒 2 ) với bậc tự do 𝐷𝐹 = (𝑟 − 1)(𝑐 − 1), trong đó: r là số
hàng và c là số cột trong bảng ngẫu nhiên (contingency table).
Nếu 𝑃(𝑋 > 𝜒 2 ) > 𝛼 => Chấp nhận giả thiết H0.
Nếu 𝑃(𝑋 > 𝜒 2 ) < 𝛼 => Bác bỏ giả thiết H0.
Có một nguyên tắc khác hay sử dụng trong kiểm định giả thuyết là dùng giá trị
p-value. P-value là xác suất mắc sai lầm loại I – nghĩa là xác suất loại bỏ giả
thuyết H0 với những thông tin ta tính toán được, như vậy nó có cùng ý nghĩa với
mức ý nghĩa 𝛼. Xác suất này càng cao cho thấy hậu quả của việc phạm sai lầm
khi loại bỏ giả thiết H0 càng nghiệm trọng và ngược lại (nếu p-value < 0,05 thì
kiểm định có ý nghĩa với độ tin cậy 95%)
SPSS gọi p-value là Sig. (viết tắt từ Oberved significance level là mức ý nghĩa
quan sát). Lúc này thay vì ta phải tra bảng Chi-bình phương để tìm giá trị tới
hạn rồi so sánh giá trị Chi-bình phương tính toán với giá trị này thì SPSS đã
tinh ngược lại mức ý nghĩa quan sát Sig. Từ quy tắc của p-value, ta sẽ quyết
định theo nguyên tắc.
- Chấp nhận H0 nếu Sig. > 𝛼, vì nếu ta bác bỏ H0 thì khả năng phạm sai lầm
của ta sẽ lớn hơn mức ý nghĩa cho phép.
- Bác bỏ H0 nếu Sig. < 𝛼, vì lúc này xác suất phạm sai lầm nếu bác bỏ H0 nhỏ
hơn mức cho phép nên ta có thể an toàn khi bác bỏ H0.
Bước 1: Gọi Ho là giả thiết: “Cơ cấu của ba thị trường trên là như nhau”.
Đối giả thiết ̅̅̅̅
H0 : “Có ít nhất một thành phần kinh tế của hai thị
trường khác nhau là khác nhau”.
Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
24
Bước 3: Nhập số liệu vào cửa sổ Data View.
Bước 4: Chọn lệnh Weight Cases trên thanh công cụ, chuyển biến
So_luong_KH sang biến tần số.
25
Với mức ý nghĩa mặc đinh là 5%, chọn OK.
26
Bước 6: Kết quả và biện luân.
Trong bảng Chi-Square Tests, giá trị Sig. Là giá trị p-value cần tìm.
Với p-value = 0,000448 < 𝛼 = 0,05 => Bác bỏ giả thuyết H0
Kết luận: Có ít nhất một thành phần kinh tế của hai thị trường
khác nhau là khác nhau. Suy ra cơ cấu của ba thị trường trên là
khác nhau.
27
Bài 4:
1. Đề bài: Người ta tiến hành đo mực nước sông tại một số địa điểm thuộc tỉnh X
trong cùng một ngày (số lần đo không giống nhau) và thu được bảng số liệu
sau đây:
Thời điểm đo Địa điểm đo
F1 F2 F3 F4
1 5.5 4.9 4.6 4.5
2 5.6 5.1 4.8 6.2
3 5.8 6.5 5.8 4.8
4 5.9 5.4 5.1 4.8
5 6.0 6.1 6.2 6.5
6 6.7 7.1 6.8
7 7.2
Với mức ý nghĩa 𝛼 = 2%. Mực nước sông trung bình/ngày của các điểm nói
trên có thực sự khác nhau hay không ?
3. Cơ sở lý thuyết:
Giả sử ta có k ĐLNN có phân phối chuẩn 𝑋1 , 𝑋2 ,…, 𝑋𝑘 , trong đó
𝑋𝑖 ~ 𝑁(𝜇𝑖 , 𝜎𝑖2 )
Các giá trị trung bình 𝜇𝑖 và phương sai 𝜎𝑖2 đều chưa biết. Tuy nhiên chúng ta giả
thiết rằng các phương sai bằng nhau:
𝜎12 = 𝜎22 = ⋯ = 𝜎𝑘2
Chúng ta muốn kiểm định xem liệu các giá trị trung bình 𝜇𝑖 này có như nhau
hay không :
𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘
Trong thống kê vấn đề trên thường được xem xét dưới góc độ sau đây:
Giả sử chúng ta quan tâm đến 1 nhân tố X (factor) nào đó. Nhân tố X có thể
xem xét ở k mức khác nhau. Kí hiệu 𝑋𝑖 là hiệu quả của việc tác động nhân tố X
ở mức độ i đối với cá thể. Như vậy 𝜇𝑖 là hiệu quả trung bình của nhân tố X ở
mức i. Chúng ta muốn biết khi cho nhân tố X thay đổi các mức khác nhau thì
điều đó có ảnh hưởng hay không tới hiệu quả trung bình.
28
Các mức nhân tố
1 2 ... k
x11 x12 ... n 1k
x21 x22 ... n 2k
... ... ... ... 𝑀𝑆𝐵
𝑟 𝑐 𝑆𝑆𝐵 ... 𝑀𝑆𝐹 𝑀𝑆𝐸
∑ ∑ 𝑌ij2 (𝑟 − 1) 𝑀𝑆𝐸
𝑖=1 𝑖=1
𝑇..2
−
𝑟
Tổng số 𝑆𝑆𝐹
T1 T2 ... Tk
(𝑐 − 1)
𝑐
Trung 𝑇𝑖2 𝑇..2 𝑀𝑆𝐵 𝑆𝑆𝐵
bình ∑ − ...
𝑐 𝑟𝑐 𝑀𝑆𝐸 (𝑟 − 1)
𝑖=1
𝑇𝑖 ∑𝑛𝑗=1 𝑥𝑗𝑖
𝑥̅𝑖 = =
𝑛𝑖 𝑛𝑗
Trung bình chung
𝑛
𝑇 ∑ ∑ 𝑥𝑖𝑗 ∑𝑘𝑖=1 ∑𝑗=1
𝑖
𝑥𝑖𝑗
𝑥̅ = = =
𝑛 𝑛 𝑛
ở đó 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
𝑇 = 𝑇1 + 𝑇2 + ⋯ + 𝑇𝑘
Tổng bình phương ching kí hiệu là SST (viết tắt là chữ Total Sum of
Squares) được tính bằng công thức sau:
𝑛1 𝑛2 𝑛𝑘
29
Có thể chứng minh rằng
𝑇2
𝑛1
𝑆𝑆𝑇 = ∑𝑖=1(𝑥𝑖1 )2 + ∑𝑛𝑖=1
2
(𝑥𝑖2 )2 +…+ ∑𝑛𝑖=1
𝑘
(𝑥𝑖𝑘 )2 −
𝑛
2 𝑇2
= ∑𝑖,𝑗 𝑥𝑖𝑗 −
𝑛
𝑆𝑆𝐹 = ∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̅ )2
𝑖=1
𝑛1 𝑛2 𝑛𝑘
2
𝑇12 2
𝑇22 2
𝑇𝑘2
= ∑ 𝑥𝑖1 − + ∑ 𝑥𝑖2 − + ⋯ + ∑ 𝑥𝑖𝑘 −
𝑛1 𝑛2 𝑛𝑘
𝑖=1 𝑖=1 𝑖=1
2
𝑇12 𝑇22 𝑇𝑘2
= ∑ ∑ 𝑥𝑖𝑗 −( + + ⋯+ )
𝑛1 𝑛2 𝑛𝑘
30
Các kết quả nói trên được trình bày trong bảng sau đây gọi là bảng
ANOVA (Analysis of Variance : Phân tích phương sai)
Bảng ANOVA
Người ta chứng minh được rằng nếu giả thiết 𝐻0 đúng thì tỷ số F sẽ có phân
bố Fisher với bậc tự do là (k-1, n-k).
𝑀𝑆𝐹
𝐹=
𝑀𝑆𝐸
Thành thử giả thiết 𝐻0 sẽ bị bác bỏ ở mức ý nghĩa 𝛼 của phân bố Fisher với
bậc tự do là (k-1, n-k ). Trong bảng IV , k-1 được gọi là bậc tự do ở mẫu
số.
4. Giải bài toán bằng phần mềm IBM SPSS:
Bước 1: Gọi H0 là giả thiết: “Mực nước sông trung bình/ngày tại các
điểm đo khác nhau là giống nhau”.
Đối giả thiết H̅̅̅̅0 : “Có ít nhất một trường hợp mực nước
sông trung bình/ngày tại hai điểm đo khác nhau là khác nhau”.
Bước 2: Khai báo các biến dữ liệu trong cửa sổ Variable View.
31
Bước 4: Chọn AnalyzeCompare MeansOne-way ANOVA
32
Bước 6: Chọn OptionsDescriptiveHomogeneity of variance
testContinue.
33
- Bảng kết quả Test of Homogeneity cho biết kết quả kiểm định phương
sai, với Sig.=0,141 > 0,02 có thể nói phương sai của mực nước sông
trung bình/ ngày tại các điểm đo là không khác nhau một cách có ý
nghĩa thống kê. Như vậy kết quả phân tích ANOVA có thể sử dụng tốt.
- Giá trị thống kê F = 0,599
- Dò bảng phân phối Fischer ở mức ý nghĩa 2% với bậc tự do (k-1; n-k) =
(3; 20) ta được 𝐹0.02 (3; 20) = 4,113
- Do F < 𝐹0.02 (3; 20) Chấp nhận giả thiết H0
Kết luận: Mực nước sông trung bình/ngày tại các điểm đo
khác nhau là giống nhau.
34
BÀI 5:
1. Đề bài: Với mức ý nghĩa α=5%. So sánh chi phí cho ba dịch vụ ở ba thành phố
khác nhau bằng phương pháp phân tích phương sai trên cở sở bảng số liệu sau
đây:
Loại dịch vụ
Thành phố
I II III
I 61 52 69
II 58 51 61
II 68 64 79
Các con số trong ô là chi phí trung bình cho 1 lần dịch vụ (đơn vị 1000đ).
2. Dạng bài: PHÂN TÍCH PHƯƠNG SAI HAI NHÂN TỐ (KHÔNG LẶP).
3. Cơ sở lý thuyết:
Giả sử chúng ta quan tâm tới nhân tố A và B. Nhân tố A được xem xét ở các
mức A1, A2, ...Ar, và nhân tố B được xem xét ở các nước B1, B2,...Bc.
Gọi Xjk là ĐLNN đo lường hiệu quả việc tác động của mức Aj và Bk lên cá thể.
Giả sử x1jk, x2jk, ..., xnjk là mẫu kích thước njk rút ra từ tập hợp chính các giá trị
của Xjk. Ta gọi đó là mẫu (j, k). Ta đưa ra một số ký hiệu sau:
x jk : trung bình của mẫu (j, k)
c
n jo n jk
k 1
r
n ok n jk
j 1
n n jo n ok
j k
n jk x jk x i jk
x jo k
i k
trung bình của mức Aj
n jo n jo
n jk x jk x i jk
j i j
x ok trung bình của mức Bk
n ok n ok
35
Ta có bảng sau đây ghi các kết quả tính toán trên:
Mô hình:
A Trung bình
B1 B2 ... Bk ... Bc
B dòng Aj
A1 x11 x12 ... x1k ... x1c x10
Trung
bình cột x o1 x o2 ... ... x oc x
Bk
Bảng ANOVA:
+ Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau:
c r n jk
𝑇..2
x i jk x
2
SST = ∑𝑟𝑖=1 ∑𝑐𝑗=1 𝑌𝑖𝑗2 −
𝑟
k 1 j 1 i 1
+ Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức
sau:
c
n ok x ok x
2
SSFB
k 1
36
+ Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức
r n jk
x i jk x jk2
c
SSF
k 1 j 1 i 1
+ Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là
SSI, được tính theo công thức.
C r
x jk x jo x ko x
2
SSI
k 1 j 1
+ Trung bình bình phương của nhân tố A, ký hiệu là MSFA , được tính bởi công
thức:
SSFA
M SFA
r 1
r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1.
+ Trung bình bình phương của nhân tố B, ký hiệu là MSFB’ được tính bởi công
thức.
SSFB
M SFB
c 1
c – 1 gọi là bậc tự do của B bằng số mức của B trừ 1.
+ Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi
SSE
M SE
n cr
n – cr gọi là bậc tự do của sai số.
+ Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
SSI
M SI
(c 1)(r 1)
37
Với mức ý nghĩa đã cho ta ký hiệu f (u, v) là phân vị mức của phân bố
Fisher với bậc tự do (u, v).
T
Tjo Tok x i jk
n n jo n ok
A x 2ijk (3)
c 2
Tok T2
SSFB n
n
(6)
k 1 ok
c r 2
T jk
SSE A n jk (7)
k 1 j 1
38
r
Tjo2 T2
j 1
do đó SSFA (5’)
cm n
r
Tok2 T2
SSFB k 1 (6’)
rm n
Tjk2
k j
SSE A
m
39
Bước 5: Đưa biến Chi_phi vào khung Dependent Variable; đưa các
biến Thanh_pho và Dich_vu vào khung Fixed Factor(s)
40
Bước 7: Chọn Options Descriptive statisticnhập mức ý nghĩa ở ô
Significance level = 0,05Continue.
Cuối cùng chọn OK.
41
- Dò bảng phân phối Fischer ở mức ý nghĩa 5% với bậc tự do
(r – 1, (r – 1)(c – 1))= (2;4) ta được 𝐹0.05 (2; 4) = 6,91
- Bảng Test of Between-Subjects Effects cho ta kết quả
FR = FThanh_pho = 24,916
FC = FDich_vu = 24,748
- Vì FR > F0,05 nên ta bác bỏ giả thiết H1.
- Vì FC > F0,05 nên ta bác bỏ giả thiết H2.
Kết luận: Trung bình chi phí dịch vụ của từng thành phố là khác
nhau. Trung bình chi phí dịch vụ của tưng loại dịch vụ là khác
nhau. Suy ra có sự ảnh hưởng của thành phố và loại dịch vụ lên
chi phí trung bình.
42
TÀI LIỆU THAM KHẢO
1. Nguyễn Đình Huy (chủ biên), Đậu Thế Cấp (2014) - Giáo trình Xác suất và thống
kê - Nhà xuất bản Đại học Quốc gia TP. Hồ Chí Minh.
2. Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi (2016) - Bài tập Xác suất và thống kê
- Nhà xuất bản Đại học Quốc gia TP. Hồ Chí Minh.
3. Hoàng Trọng, Chu Nguyễn Mộng Ngọc - Phân tích dữ liệu nghiên cứu với SPSS -
Nhà xuất bản Hồng Đức.
4. Hồ Thanh Phong - Xác suất và thống kê trong kĩ thuật hệ thống công nghiệp - Nhà
xuất bản Đại học Quốc gia TP. Hồ Chí Minh.
43