Professional Documents
Culture Documents
Hướng dẫn thực hành Excel (BDH) PDF
Hướng dẫn thực hành Excel (BDH) PDF
Hướng dẫn thực hành Excel (BDH) PDF
Hà Nội, 7 / 2016
Mở đầu
1. Tính một số xác suất cơ bản
2. Minh họa một số quy luật phân phối xác suất thông dụng
3. Thống kê mô tả
4. Bảng thống kê nhiều chiều
5. Mô tả số liệu bằng đồ thị
6. Ước lượng tham số
7. Kiểm định tham số
8. Kiểm định phi tham số
9. Phân tích phương sai
10. Hồi quy tương quan
MỞ ĐẦU
Phân loại Thống kê
Liệt kê, nhóm Liệt kê, nhóm Liệt kê, nhóm, đếm số lượng, tỉ lệ
đếm số lượng, tỉ lệ đếm số lượng, tỉ lệ So sánh, xếp thứ tự
So sánh, xếp thứ tự Các phép toán học
Có thể Các loại thống kê
Các phân tích chéo, theo thời gian…
Nếu chưa có, thực hiện cài Data Analysis như sau:
Bước 1. File Options Hộp thoại Excel Options.
Bước 2. Tại hộp thoại Excel Options Add-Ins Manage: Excel Add-ins Go Hộp thoại
Add-Ins.
Bước 3. Tại hộp thoại Add-Ins: Đánh dấu vào các lựa chọn: Analysis TookPak, Analysis
ToolPak-VBA OK.
*Lưu ý: Excel được sử dụng trong tài liệu này theo hệ Anh, dấu thập phân là dấu chấm “.” và ngăn
cách giữa các đối tượng là dấu phảy “,”. Nếu Excel sử dụng hệ Pháp thì dấu thập phân là dấu “,”
và ngăn cách các đối tượng là dấu chấm phảy “;”.
Ví dụ 1.2: Tạo một chuỗi gồm 20 con số rút từ biến phân phối A(p = 0.4), đặt vào cột đầu tiên của
bảng tính, bắt đầu từ ô A2, làm như sau:
DATA Data Analysis Hộp thoại [Data Analysis] Random Number Generation
[Random Number Generation]
Number of Variables: 1
Number of Random Numbers: 20
Distribution: Bernoulli
Parameters p Value = 0.4
Random Seed (để trống)*
Output options Output Range: A2
OK
Hình 1.1
Kết quả sẽ hiển thị theo cột, gồm 20 con số 0 và 1 ngẫu nhiên.
Kết quả sẽ khác nhau với mỗi lần thực hiện, do đó trong tài liệu này sẽ không đưa kết quả của thủ
tục tạo chuỗi số ngẫu nhiên này.
*Random seed: Nếu muốn tạo ra các chuỗi giống hệt như chuỗi tạo ra trước đó thì gõ số lần vào ô
này. Ví dụ nếu gõ 4 thì nếu lặp lại 4 lần tiếp theo, chuỗi vẫn giống cũ. Nếu để trống thì các chuỗi
tạo ra sẽ khác nhau
Ví dụ 1.3: Tạo ra 2 chuỗi, mỗi chuỗi gồm 15 con số rút từ biến ngẫu nhiên gốc phân phối Nhị thức
B(n = 10, p = 0,4), bắt đầu từ ô B2.
Cách làm tương tự như chuỗi A(p), chỉ khác ở mục Distribution
E(X) = và V(X) =
Ví dụ 1.4: Tạo ra một chuỗi gồm 20 con số rút từ biến ngẫu nhiên gốc phân phối P( = 5), bắt đầu
từ ô D2.
Ví dụ 1.5: Tạo 1 chuỗi, mỗi chuỗi 20 con số rút từ biến ngẫu nhiên gốc U(a = 0, b = 5), bắt đầu từ
ô F2.
E(X) = và V(X) = σ2
Ví dụ 1.6: Tạo 2 chuỗi, mỗi chuỗi 10 con số rút từ biến ngẫu nhiên gốc N( = 15, σ2 = 42), bắt đầu
từ ô G2.
Bài tập
Bài 1.1.
(a) Tạo ra một chuỗi chứa 10 phần tử phân phối Không-Một với p = 0.5. Trong chuỗi đó có bao
nhiêu phần tử bằng 1?
(b) Tạo 10 chuỗi, mỗi chuỗi 10 phần tử, phân phối Không-Một với p = 0.5. Dùng hàm SUM để
tính tổng các giá trị, cũng chính là tổng số phần tử bằng 1. Tỉ lệ phần tử bằng 1 so với tổng số
bằng bao nhiêu?
(c) Khi tăng số chuỗi và số phần tử trong câu (b), thì tỉ lệ phần tử bằng 1 gần với giá trị nào?
Bài 1.2. Tạo hai chuỗi, mỗi chuỗi 10 phần tử, phân phối Nhị thức với n = 5 và p = 0.5.
(a) Số lượng phần tử nhận các giá trị 0, 1, 2, 3, 4, 5 giữa hai chuỗi có bằng nhau không?
(b) Dùng hàm AVERAGE để tính trung bình các giá trị của mỗi chuỗi. Trung bình của hai
chuỗi có giống nhau không?
(c) Tăng số lượng phần tử của chuỗi lên thành 100, khi đó trung bình của chuỗi xấp xỉ bằng
bao nhiêu?
Bài 1.3. Tạo ra 2 chuỗi, mỗi chuỗi 20 phần tử phân phối đều trong khoàng từ 4 đến 10.
(a) Giá trị của các phần tử là số nguyên hay số thập phân.
(b) Dùng hàm AVERAGE tính trung bình cộng của hai chuỗi và so sánh với nhau.
Giá trị phân vị mức kí hiệu t(n)* : P(T (n) t(n)* ) , hàm: = T.INV( , n)
Lưu ý: có dấu chấm “.” giữa T và INV
Giá trị tới hạn mức /2 kí hiệu t( n/2) : P (T ( n) t( n/2) ) / 2 ; hàm: = TINV(, n)
Giá trị tới hạn mức : t( n ) , hàm: = TINV(2* , n)
Do tính chất đối xứng nên giá trị tới hạn cũng tính bởi hàm: = –T.INV( , n)
Lưu ý: Với Excel 2013, trong các hàm trên, có thể có dấu chấm “.” trước chữ DIST, INV. Ngoại
trừ hàm TINV và T.INV, các hàm khác không có sự khác biệt của kết quả.
Ví dụ
Quy luật Tính giá trị Hàm Kết quả
X ~ B(n = 5, p = 0,4) P(X = 3) = ? = BINOMDIST(3,5,0.4,0) 0.2304
P(X 3) = ? = BINOMDIST(3,5,0.4,1) 0.9130
Bài tập
Bài 2.1. Sử dụng Excel tính các giá trị sau với X ~ B(n, p ) :
P( X 6 | n 10, p 0.24)
P( X 5 | n 12, p 0.4)
P( X 7 | n 15, p 0.4)
Bài 2.2. Sử dụng Excel tính các bài toán sau, với X ~ P( ) ;
P( X 6 | 10)
P( X 5 | 6.2)
P( X 5 | 7)
Bài 2.3. Trên một chặng bay, biết số hành khách hủy vé của các chuyến bay là biến ngẫu nhiên
phân phối Poisson với trung bình là 5. Tính xác suất để trong một chuyến bay chọn ngẫu nhiên thì:
(a) Có đúng 3 khách hủy vé
(b) Có hơn 6 khách hủy vé
(c) Có hành khách hủy vé
Bài 2.4. Biết xác suất có lỗi khi in mỗi trang sách là đều bằng 0,004. Tính xác suất trong quyển
sách 800 trang có:
(a) Đúng 3 lỗi
(b) Hơn 4 lỗi
Bài 2.5. Cho X ~ N ( , 2 ) , tính các giá trị sau:
(a) f ( x 10 | 12, 2 52 )
(b) P( X 10 | 12, 2 52 )
(c) P( X 11| 12, 2 52 )
(d) P(9 X 13 | 12, 2 52 )
(e) Tìm a, sao cho P( X a | 12, 2 52 ) 0.4
(f) Tìm b, sao cho P( X b | 12, 2 52 ) 0.2
Bài 2.6. Sử dụng Excel giải bài toán sau:
Biết kích thước sản phẩm phân phối chuẩn với trung bình là 50 mm, phương sai 64 mm2.
Trong các phần sau, khi dùng thuật ngữ “mảng” (array) sẽ được hiểu là một khu vực hình chữ
nhật, được xác định bởi ô đầu tiên (trên cùng bên trái) và ô cuối cùng (dưới cùng bên phải) cách
nhau bởi dấu hai chấm “:”. Ví dụ: A1:B3; A1:A421; A1: F421.
Hàm COUNTIF đếm số lượng quan sát thỏa mãn điều kiện có dạng:
= COUNIF(mảng, điều kiện)
Ví dụ: Đếm số quan sát của biến KV nhận giá trị bằng 1: = COUNTIF(A2: A421, 1)
Đếm số hộ ở khu vực thành thị:
Chính là đếm số quan sát của KV nhận giá trị bằng 1, hoặc số quan sát của biến Khu vực nhận giá
trị là “Thành thị”: = COUNTIF(B2: B421, “Thành thị”)
Đếm số hộ có trên 4 người, hay biến Số người > 4: = COUNTIF(C2:C421, “>4”)
Hàm COUNTIFS đếm số quan sát thỏa mãn nhiều điều kiện:
= COUNTIFS(mảng 1, điều kiện 1, mảng 2, điều kiện 2,…)
Ví dụ: Đếm số hộ ở thành thị có từ 4 người trở lên:
= COUNTIFS(B2:B421, “Thành thị”, C2:C421, “>=4”)
Hàm RANK cho biết hạng của một giá trị x, nghĩa là nếu số liệu xếp theo thứ tự tăng dần thì giá
trị x đó đứng số thứ tự bao nhiêu trong mảng, có dạng: RANK(x, mảng, 1). Do đó RANK – 1 chính
là số quan sát có giá trị nhỏ hơn x.
Nếu xét theo thứ tự giảm dần thì dùng RANK(x, mảng, 0)
Ví dụ: Xét biến Số người, nếu xếp theo thứ tự tăng dần thì hộ gia đình có 2 người đứng ở vị trí thứ
bao nhiêu: = RANK(2, C2:C421,1)
Kết quả là 23, nghĩa là có 22 hộ gia đình có số người nhỏ hơn 2.
Bảng kết quả xếp hạng với biến Số người
Bảng 3.2
Số người RANK Ý nghĩa: Khi xếp theo thứ tự tăng dần của Số người thì:
1 1 Số 1 xếp đầu tiên: hộ gia đình ít nhất là 1 người
2 23 Số 2 xếp ở vị trí thứ 23, có 22 hộ ít hơn 2 người
3 77 Số 3 xếp ở vị trí thứ 77, có 76 hộ ít hơn 3 ngời
4 155 …
5 294
6 368
7 401
8 413
9 417 Số 9 xếp ở vị trí thứ 417, có 416 hộ ít hơn 9 người, có 4 hộ có 9 người
Hàm SUMIF tính tổng giá trị có điều kiện: SUMIF(mảng*, điều kiện) hoặc SUMIF(mảng 1, điều
kiện, mảng*)
Ví dụ: Tính tổng số người chỉ với những hộ từ 4 người trở lên:
= SUMIF(C2:C421, “>=4”)
Tính tổng thu nhập chỉ với những hộ từ 4 người trở lên:
=SUMIF(C2:C421,“>=4”, D2:D421)
Hàm SUMIFS tính tổng với nhiều điều kiện: SUMIFS(mảng*, mảng 1, điều kiện 1, mảng 2, điều
kiện 2…)
Ví dụ: Tính tổng Thu nhập với những hộ ở Thành thị và có từ 4 người trở lên:
= SUMIFS(D2:D421, A2:A421, 1, C2:C421, “>=4” )
Hàm SUMSQ tính tổng bình phương các giá trị: SUMSQ(mảng)
Ví dụ: Tổng bình phương biến Số người: = SUMSQ(C2:C421)
Với số liệu
= AVERAGE(C2:C421) = 3.905
Trung bình cộng của Thu nhập: = AVERAGE(D2:D421) = 140.035
Tương tự hàm SUM, hàm AVERAGE cũng có điều kiện: AVERAGEIF và AVERAGEIFS
Ví dụ: Trung bình cộng của Thu nhập với hộ có trên 4 người:
= AVERAGEIF(C2:C421, “>4”, D2:D421) = 194.3
Trung bình cộng của Thu nhập với hộ có trên 4 người và ở Thành thị:
= AVERAGEIFS(D2:D421, C2:C421, “>4”, B2:B421, “Thành thị”) = 263.77
Có thể phân tích độ lệch của phân phối giá trị biến qua việc so sánh ba giá trị Trung bình, Trung
vị, Mốt qua hình minh họa sau:
Nếu Trung bình < Trung vị < Mốt: phân phối lệch trái, hệ số bất đối xứng âm: đa
số các giá trị là lớn, một số ít giá trị rất nhỏ kéo đuôi của phân phối về bên trái.
Nếu Trung bình = Trung vị = Mốt: phân phối đối xứng, hệ số bất đối xứng gần 0,
đa số các giá trị tập trung vào giữa, phân phối ra hai bên đều nhau.
Nếu Mốt < Trung vị < Trung bình: phân phối lệch phải, hệ số bất đối xứng dương,
đa số các giá trị là nhỏ, một số ít giá trị rất lớn kéo đuôi của phân phối về bên phải
Hình 3.1
Trung bình < Tr.vị < Mốt Trung bình = Tr.vị = Mốt Mốt < Tr.vị < Trung bình
Hệ số bất đối xứng < 0 Hệ số bất đối xứng = 0 Hệ số bất đối xứng > 0
Phân phối lệch trái Đối xứng, hình chuông Phân phối lệch phải
(lệch âm) Phân phối chuẩn (lệch dương)
Hàm HARMEAN tính trung bình điều hòa x : HARMEAN(mảng)
Ví dụ: Trung bình điều hòa của Thu nhập: = HARMEAN(D2:D421) = 70.16
Tính chất: nghịch đảo(trung bình điều hòa) = trung bình cộng(nghịch đảo)
Với số liệu
3 tứ phân vị (quartile) Q1, Q2, Q3 chia số liệu thành 4 phần với số phần tử bằng nhau
Tứ phân vị thứ hai bằng trung vị: Q2 = xd
99 bách phân vị (percentile) chia số liệu thành 100 phần với số phần tử bằng nhau
Hàm PERCENTILE tính các bách phân vị: PERCENTILE(mảng, j) với j = 0.01, 0.02,…, 0.99
Ví dụ: các bách phân vị của Thu nhập
Bách phân vị thứ nhất P1 : = PERCENTILE(D2:D421, 0.01) = 9.342
Bách phân vị thứ 25: P25 : = PERCENTILE(D2:D421, 0.25) = Q1
Bách phân vị thứ 50: P50 : = PERCENTILE(D2:D421, 0.5) = Q2 = Trung vị
Trong nhiều trường hợp, cần chia số liệu thành những khoảng với số lượng phần tử bằng nhau, và
số lượng khoảng có thể là 3, 4, 5,…, 10 thì có các khái niệm: Tam phân vị (tercile); Tứ phân vị
(quartile), Ngũ phân vị (quintile), Lục phân vị (sextile), Thất phân vị (septile), Bát phân vị (octile),
Thập phân vị (decile). Trong đó tứ phân vị và ngũ phân vị thường được dùng trong phân tích so
sánh kinh tế.
Chẳng hạn muốn phân chia các hộ gia đình theo mức độ thu nhập bình quân đầu người, nếu sử
dụng tứ phân vị, có thể chia thành bốn nhóm với số lượng bằng nhau: Giàu – Trung bình thấp –
Trung bình cao – Giàu. Nếu dùng ngũ phân vị có thể chia thành năm nhóm: Giàu – Trung bình
thấp – Trung bình – Trung bình cao – Giàu.
Với số liệu
Hàm DEVSQ tính tổng bình phương sai lệch SS: DEVSQ(mảng)
Ví dụ: Tổng bình phương sai lệch của Thu nhập: = DEVSQ(D2:D421) = 5113997.07
2
Hàm VAR tính phương sai mẫu s : VAR(mảng)
Ví dụ: Phương sai của Thu nhập: = VAR(D2:D421) = 12205.244
*Lưu ý: nếu dùng hàm VAR.P và STDEV.P thì Excel hiểu số liệu là tổng thể, do đó tính theo công
thức phương sai và độ lệch chuẩn tổng thể (chia cho n chứ không phải n – 1)
Hàm AVEDEV tính trung bình sai lệch tuyệt đối: AVEDEV(mảng)
Ví dụ: Trung bình sai lệch tuyệt đối của Thu nhập: = AVEDEV(D2:D421) = 80.685
Excel không tính sẵn Hệ số biến thiên hay Khoảng tứ phân vị nhưng có thể thực hiện qua các phép
tính.
Hệ số biến thiên đo độ phân tán tương đối của biến, đơn vị là %. Tính hệ số biến thiên (mẫu) bằng
cách lấy độ lệch chuẩn chia cho trung bình và nhân với 100:
= STDEV(mảng)/ABS(AVERAGE(mảng)*100
Khoảng tứ phân vị thể hiện độ rộng của khoảng chứa 50% giá trị của biến nằm ở giữa, là khoảng
cách giữa tứ phân vị thứ ba và tứ phân vị thứ nhất:
= QUARTILE(mảng, 3) – QUARTILE(mảng, 1)
Các Tứ phân vị có thể dùng kết hợp với giá trị nhỏ nhất, lớn nhất để thể hiện sự phân bố của giá
trị các biến. Năm giá trị xếp theo thứ tự: Min < Q1 < Q2 < Q3 < Max được thể hiện trên đồ thị, gọi
là đồ thị hộp (box-plot). Ngoài ra có thể thêm hai giá trị ngoại lệ kí hiệu là O1 và O2 với công thức
như sau:
O1 = Q1 – 1.5IQR và O1 = Q3 + 1.5IQR
Nhìn vào các vị trí của năm giá trị cơ bản, có thể nhận xét về phân phối của số liệu.
Hình 3.2
Min Q1 Q2 Q3 Max
Lệch phải
Lệch trái
Đối xứng
O1 O2
IQR
Với số liệu
Hệ số nhọn (kurtosis):
hoặc hệ số nhọn:
Hình 3.3
a4 = 3 a4 > 3
a4 < 3
K<0 K=0 K>0
*Excel tính hệ số Skewness và Kurtosis đã hiệu chỉnh, không hoàn toàn như công thức ở trên. Tuy
nhiên hai giá trị không khác nhau đáng kể khi kích thước mẫu lớn
80
70
60
50
40
30
20
10
0
20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400 420 440 460 480 500 520 540 560 580
x0 xd x
Min Q1 Q2 Q3 Max
Có thể thấy Chi tiêu có phân phối lệch phải rất lớn, giá trị lớn nhất lệch khỏi trung bình rất nhiều.
Hình 3.5
Lỏng
Chặt
Tương quan
âm
Không
r = – 0.5 tương quan r=0
Hàm COVAR tính hiệp phương sai của hai biến: COVAR(mảng 1, mảng 2)
Ví dụ: Hiệp phương sai Thu nhập và Chi tiêu: = COVAR(D2:D421, E2:E421) = 7289.152
Hàm CORREL tính hệ số tương quan của hai biến: CORREL(mảng 1, mảng 2)
Ví dụ: Hệ số tương quan của Thu nhập và Chi tiêu: = CORREL(D2:D421, E2:E421) = 0.8357
Tổng hợp các hàm thống kê cơ bản của mẫu như sau:
Bảng 3.3
Ý nghĩa Hàm Ví dụ Kết quả
Đếm số COUNT = COUNT(A2:A421) 420
Đếm có điều kiện COUNTIF = COUNTIF(A2:A421, 1) 138
Tổng SUM = SUM(A2:A421) 657
Trung bình AVERAGE = AVERAGE(D2:D421) 142.0
Trung bình nhân GEOMEAN = GEOMEAN(D2:D421) 106.0
Trung vị MEDIAN = MEDIAN(D2:D421) 111.1
Mốt MODE = MODE(D2:D421) 215.8
Tứ phân vị QUARTILE j = QUARTILE(D2:D421, 1) 66.425
Bách phân vị PERCENTILE j = PERCENTILE(D2:D421, 0.05) 25.19
Tổng b.phương sai lệch DEVSQ = DEVSQ(D2:D421) 5113997
Phương sai VAR = VAR(D2:D421) 12205.2
Độ lệch chuẩn STDEV = STDEV(D2:D421) 110.5
TB sai lệch tuyệt đối AVEDEV = AVEDEV(D2:D421) 80.7
Hệ số bất đx SKEW = SKEW(D2:D421) 1.87
Hệ số nhọn KURT = KURT(D2:D421) 5.12
Hiệp phương sai COVAR = COVAR(D2:D421, E2:E421) 7289.2
Hệ số tương quan CORREL = CORREL(D2:D421, E2:E421) 0.8357
[Descriptive Statistics]
Input Range: D1:E421 Mảng giá trị để tính
Group by: Column Số liệu theo cột
Label in first row Dòng đầu là tên biến
Output Range: M1 Kết quả đưa ra từ ô M1
Summary statistics Các thống kê tổng hợp
OK
Hình 3.7
Bảng 3.4
Ý nghĩa Thu nhập Chi tiêu
Bảng kết quả cho thấy các kết quả thống kê cơ bản nhất của biến.
Bài tập
Bài 3.1. Tính số hộ, và từ đó tính tỉ lệ tương ứng
(a) Số hộ có 5 người trở lên
(b) Số hộ có 5 người trở lên và ở thành thị
(c) Tỉ lệ hộ có 5 người trở lên trong số các hộ ở thành thị
Bài 3.3. Tính các thống kê cơ bản của biến Số người. Biến này có dạng phân phối thế nào?
Bài 3.4. Với biến Thu nhập
(a) Tính các thống kê cơ bản
(b) So sánh Trung bình, Trung vị và phán đoán dạng của phân phối
(c) Thu nhập lệch trái hay lệch phải?
(d) Tìm mức thu nhập mà 25% các hộ thu nhập ít hơn mức đó
(e) Mức thu nhập cận trên của 20% hộ có thu nhập cao nhất là bao nhiêu?
Bài 3.5. Đặt biến TNBQ là Thu nhập bình quân đầu người (Thu nhập / số người)
(a) Tính các thống kê cơ bản: trung bình, phương sai, độ lệch chuẩn.
(b) Độ dao động tương đối, đo bằng hệ số biến thiên là bao nhiêu %?
(c) TNBQ lệch trái hay phải? Nhọn hơn chuẩn hay không?
(d) Hộ có TNBQ trong nhóm 20% thấp nhất là nghèo. Xác định mức TNBQ để từ đó trở xuống
gọi là nghèo.
(e) Hộ có TNBQ trong nhóm 20% cao nhất là giàu. Mức TNBQ cận dưới của các hộ giàu là
bao nhiêu?
Bài 3.6. Đặt biến CTBQ là Chi tiêu bình quân đầu người
(a) Tính các thống kê cơ bản.
(b) Nhóm 50% có CTBQ nằm ở giữa của các hộ sẽ có mức CTBQ trong khoảng từ bao nhiêu
đến bao nhiêu ?
(c) So sánh độ biến động tuyệt đối và tương đối của TNBQ và CTBQ
(d) Tính hệ số tương quan giữa TNBQ với CTBQ, so sánh hệ số này với hệ số tương quan giữa
Thu nhập và Chi tiêu.
Nhấn chuột vào “Count of Khu vực ” Hộp lựa chọn Value Field Settings…
Có thể nhấn chuột phải vào con số 237 hoặc 183 trong bảng kết quả cũng xuất hiện hộp lựa chọn
Value Field Settings…
Hình 4.4
Hình 4.5
Row Labels Count of Khu vực Đổi sang tiếng Việt: Khu vực Tỉ lệ
Nông thôn 56.43% Nông thôn 56.43%
Thành thị 43.57% Thành thị 43.57%
Grand Total 100.00% Tổng số 100.00%
4.3. Bảng tần số, tần suất theo số liệu gộp nhóm
Thực hiện tương tự với biến Số người. Lưu ý vì biến Khu vực là biến định danh nên Excel tự động
tính tần số, còn biến Số người là biến định lượng nên Excel tự động tính Tổng. Do đó thông tin
trong khu vực VALUES là “Sum of Số người” do đó bảng kết quả không phải tần số.
Để hiển thị bảng tần số, thực hiện đổi như sau:
Muốn gộp các gia đình thành 3 nhóm với số người là [1 – 3] ;[4 – 6]; [7 – 9], cần thay đổi định
dạng của cột bên trái.
Chuột phải vào ô bất kỳ của cột Row Labels Hộp lựa chọn Group Hộp thoại Grouping
[Grouping] Starting at 1
Ending at 9
By: 3
Hình 4.6
Tuy nhiên, khi đổi kết quả sang dạng tỉ lệ %, cần lưu ý có 3 loại chia tỉ lệ %
Tỉ lệ % Ý nghĩa Ví dụ với ô đầu tiên
Theo tổng số Tỉ lệ trên tổng 420 hộ = (85 / 420)100% = 20.24%
Theo cột Tỉ lệ trong các hộ theo Khu vực = (85 / 237)100% = 35.86%
Theo hàng Tỉ lệ trong các hộ theo Số người = (85 / 154)100% = 55.19%
Bảng 4.8
Tỉ lệ % Khu vực
Số người Nông thôn Thành thị Tổng
1-3 55.19% 44.81% 100.00%
4-6 55.69% 44.31% 100.00%
7-9 75.00% 25.00% 100.00%
Tổng 56.43% 43.57% 100.00%
Những ô trống thể hiện không có hộ gia đình nào thỏa mãn các tiêu chí đó, chẳng hạn không có
hộ nào có 1–3 người ở Nông thôn có thu nhập trên 200; không hộ nào có từ 4 người trở lên ở
Thành thị thu nhập từ 600 trở lên.
Trong phân tích, việc thống kê theo Thu nhập và Chi tiêu của hộ có thể không thích hợp bằng phân
thích theo Thu nhập bình quân đầu người và Chi tiêu bình quân đầu người. Do đó với biến TNBQ
và CTBQ là Thu nhập/người và Chi tiêu/người, có bảng thống kê sau:
Thống kê Trung bình của Chi tiêu/người theo Khu vực và Số người:
Bảng 4.12
Trung bình của TNBQ Khu vực
Số người Nông thôn Thành thị Tổng
1 23.09 60.80 33.37
2 29.00 59.13 41.28
3 23.23 60.90 43.03
4 25.45 48.25 35.46
5 25.60 50.41 37.67
6 21.99 47.17 31.15
Thống kê Trung bình của hai biến Thu nhập/người, Chi tiêu/người theo Khu vực và Số người
Bảng 4.13
Trung bình Trung bình
Khu vực của của
Số người TNBQ CTBQ
Nông thôn 25.27 17.94
1-3 25.38 20.17
4-6 24.96 16.60
7-9 27.53 17.52
Thành thị 52.86 40.22
1-3 60.33 46.21
4-6 48.85 36.87
7-9 37.18 30.66
Tổng 37.29 27.65
Thống kê Trung bình của Chi tiêu/người theo Khu vực, Thu nhập/người, và Số người
Bảng 4.14
Trung bình của CTBQ Số người
Khu vực
TNBQ 1-3 4-6 7-9 Tổng
Nông thôn 20.17 16.60 17.52 17.94
0-100 20.17 16.52 17.52 17.89
100-200 28.50 28.50
Thành thị 46.21 36.87 30.66 40.22
0-100 37.52 36.19 30.66 36.50
100-200 82.05 73.29 79.13
200-300 177.99 177.99
Tổng 31.83 25.58 20.80 27.65
Có thể tạo các bảng với nhiều chiều, nhiều lớp hơn, tuy nhiên khi đó việc đọc kết quả cũng không
đơn giản. Thông thường bảng có 2 chiều, bảng 3 chiều nên hạn chế.
BÀI TẬP
Bài 4.1. Lập bảng tần số, tỉ lệ của các hộ ứng với các giá trị của biến Số người
(a) Trong toàn bộ mẫu
(b) Phân chia theo khu vực nông thôn, thành thị
Bài 4.2. Lập bảng tần số của các hộ phân chia theo hai tiêu chí: khu vực và Chi tiêu (phân thành 3
nhóm). Lập bảng tỉ lệ phân chia theo ba cách:
(a) Trong tổng số
(b) Theo từng khu vực
(c) Theo từng nhóm chi tiêu
Bài 4.3. Lập bảng tần số và tần suất của các hộ phân chia theo hai tiêu chí: Thu nhập (phân thành
3 nhóm) và Chi tiêu (phân thành 3 nhóm)
Bài 4.4. So sánh Chi cho ăn uống của các hộ khi phân chia theo các nhóm Thu nhập (phân thành
4 nhóm) qua các thống kê:
(a) Trung bình
(b) Phương sai
Bài 4.5. So sánh trung bình và phương sai của Chi cho ăn uống khi phân chia các hộ gia đình theo
hai tiêu chí là Khu vực và Thu nhập (phân thành 4 nhóm)
Bài 4.6. So sánh trung bình của Chi tiêu bình quân đầu người của các hộ khi phân chia các hộ gia
đình theo hai tiêu chí:
(a) Khu vực và Số người (phân thành 3 nhóm)
(b) Khu vực và Thu nhập (phân thành 3 nhóm)
(c) Số người (phân thành 3 nhóm) và Thu nhập (phân thành 3 nhóm)
(d) Khu vực và Thu nhập bình quân đầu người (phân thành 3 nhóm)
INSERT Charts Hình đồ thị tròn (Pie chart) hoặc Recommended Charts và lựa chọn đồ
thị tròn
Hình 5.1
Hình 5.2
Chart Title
Nhấn chuột phải vào các phần trên đồ thị để sửa đổi, có thể tạo thành các đồ thị với hình thức đẹp
hơn, hiển thị nhiều thông tin hơn, tùy vào mục đích sử dụng và sở thích của người dùng.
Hình 5.3
Hình 5.4
Hình 5.5
100 100 78 74
54
50 50 33
22
12
4 4
0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Khi muốn so sánh về Thu nhập giữa Nông thôn và Thành thị trong từng Nhóm tuổi, tức là xét
thành 4 cụm đồ thị tương ứng với 4 nhóm tuổi, trong mỗi cụm gồm 3 cột thể hiện Nông thôn –
Thành thị - Chung, đồ thị như sau:
Hình 5.6
Khi muốn so sánh về Thu nhập giữa các Nhóm tuổi trong từng Khu vực, tức là xét thành 3 cụm
đồ thị tương ứng với 3 trường hợp Nông thôn – Thành thị - Chung; trong mỗi cụm gồm 4 cột thể
hiện 4 nhóm tuổi, đồ thị như sau:
Hình 5.7
302
260
229
204
189 188
129 137
91 106
46 68
Cũng có thể sử dụng đồ thị trên hệ tọa độ ba chiều để so sánh theo cả hai cách. Trong đồ thị sau
khu vực Chung đã được bỏ bớt để tránh rối.
Hình 5.8
302
260
400 189
300 106 204
200 129
91
46 Thành thị
100
Nông thôn
0
1-2 3-4 5-6 7-9
Hình 5.9
18.0%
16.0%
14.0%
12.0%
10.0%
8.0%
6.0%
4.0%
2.0%
0.0%
20 40 60 80 100120140160180200220240260280300320340360380400420440460480500520540560580
Để dễ nhìn hơn, có thể sử dụng đồ thị với khoảng cách nhóm lớn hơn, và nhóm cuối cùng không
nhất thiết kéo đến giá trị lớn nhất.
Chẳng hạn muốn tạo bảng tần số và tần suất (tính theo tỉ lệ %) của Chi tiêu theo các nhóm với
khoảng cách là 40 đơn vị, từ 360 trở lên gộp thành một nhóm, cách đơn giản nhất là sử dụng bảng
Pivot table, lấy Minimum là 0, maximum là 360, khoảng cách là 40.
Cách thứ hai là sử dụng chức năng Histogram trong Data Analysis. Trước hết phải tạo một mảng
chứa các “bin” – là các điểm phân cách giá trị. Nếu muốn chia thành các nhóm với khoảng cách
là 40 thì các bin lần lượt là 0, 40, 80,…, 360:
Tạo cột Bin, với các giá trị 0, 40, 80,… tại cột H của bộ số liệu
DATA Data Analysis Histogram
Input Range: E1:E421
Bin Range: H1:H11
Label
Output Range: J1
Kết quả như sau:
Bảng 5.4
Từ đó có thể tính tỉ lệ % bằng cách chia các tần số cho tổng số lượng các hộ gia đình (420)
Với bảng tỉ lệ % tính từ Pivot table, có thể vẽ đồ thị như sau.
Hình 5.10
Với đồ thị, chọn Add trend để thấy xu thế, hay đường hồi quy tuyến tính
Hình 5.12
500
400
Chi tiêu
300
200
100
0
0 100 200 300 400 500 600 700 800
Thu nhập
Ví dụ 5.6: Sử dụng đồ thị rải điểm, kết hợp với hàm NORMDIST, có thể vẽ đồ thị hàm mật độ
của các biến ngẫu nhiên phân phối chuẩn
Hình 5.13
Trong hình, cột A được xác định các giá trị của x từ (–4) đến (+10) với khoảng cách hai giá trị là
0.01. Cột (u) được tính là hàm mật độ biến chuẩn hóa tại x, hàm: =NORMDIST(x, 0, 1, 0). Cột
f(x1) là hàm mật độ biến phân phối chuẩn trung bình và độ lệch chuẩn tương ứng trên đỉnh cột, tại
ô C1 và C2, hàm: = NORMDIST(x, C$1, C$2, 0). Tương tự cho cột f(x2). Vẽ đồ thị của các điểm
này cho hàm mật độ của ba biến phân phối chuẩn: U ~ N(0,1); X 1 ~ N(2, 1.52); X2 ~ N(5, 0.8 2).
Ngoài ra còn nhiều dạng đồ thị, dùng cho các mục đích thể hiện số liệu khác nhau. Người đọc có
thể tự tìm hiểu và sử dụng linh hoạt.
Bài tập
Bài 5.1. Vẽ đồ thị tròn và đồ thị cột thể hiện số lượng và tỉ lệ các giá trị của biến Số người
Bài 5.2. Vẽ đồ thị cột thể hiện Thu nhập bình quân trung bình ứng với Số người (chia làm 3 nhóm)
và nhận xét về đồ thị
Bài 5.3. Vẽ đồ thị cột thể hiện Chi tiêu bình quân trung bình phân chia theo hai tiêu chí:
(a) Khu vực và số người (chia thành 3 nhóm)
(b) Khu vực và Thu nhập bình quân (chia thành 3 nhóm)
(c) Số người (chia thành 3 nhóm) và Thu nhập bình quân (chia thành 3 nhóm)
Với mỗi đồ thị, nhận xét về Chi tiêu bình quân.
Bài 5.4. Vẽ đồ thị phân phối giá trị của Thu nhập bình quân và Chi tiêu bình quân, mỗi đồ thị gồm
10 cột
Bài 5.5. Vẽ đồ thị rải điểm của Chi tiêu bình quân theo Thu nhập bình quân.
Ví dụ 6.1: Với biến ngẫu nhiên phân phối Không-Một A(p), tức là giá trị có thể có chỉ là 0 và 1.
Có mẫu gồm 6 quan sát là (1, 0, 1, 0, 0, 0). Tính các giá trị hàm hợp lý với các mức p = 0.1, 0.2,
…, 0.9 và xem mức p nào là hợp lý nhất với mẫu đã cho.
Với bảng Excel, mẫu nằm trên dòng 1, bắt đầu từ ô C1 đến H1 lần lượt là 1, 0, 1, 0, 0; giá trị p
nằm trên cột A, từ A1 đến A10 lần lượt là 0.1, 0.2,…, 0.9.
Công thức tính xác suất biến A(p): P ( X x ) p x (1 p )1 x
Tính giá trị xác suất tại ô C2 theo công thức: =$A2^C$1*(1-$A2)^(1-C$1)
Trong đó $A để cố định cột A là cột giá trị p, và $1 là để cố định dòng 1 là dòng chứa mẫu.
Cột Likelyhood là tích của các giá trị xác suất trên cùng hàng, dùng hàm: = PRODUCT(mảng)
Bảng 6.1
Nhận thấy giá trị p = 0.3 có hàm hợp lý lớn nhất, tiếp đó là p = 0.4. Phán đoán rằng giá trị p hợp
lý nhất sẽ nằm giữa 0.3 và 0.4; thay các giá trị trong cột p bằng 0.30; 0.31; … sẽ thấy p = 0.33 là
hợp lý nhất.
Cứ tiếp tục như vậy, có thể thấy p = 0.3333 là giá trị hợp lý nhất, hay ước lượng hợp lý tối đa của
p trên mẫu này là 0.3333 hay 1/3.
Ví dụ 6.2: Ước lượng hợp lý tối đa tham số của biến ngẫu nhiên phân phối Poisson P() trên
mẫu (0, 2, 4, 3, 6, 6).
Thực hiện tương tự, với giá trị xác suất tính theo hàm: = POISSON(x, , 0)
Với giá trị = 1, 2, …, 6 thì = 4 hàm hợp lý lớn nhất, tiếp đó là = 3. Với giá trị = 3.1, 3.2,…,
3.9 thì = 3.5 hàm hợp lý lớn nhất. Làm tương tự sẽ thấy 3.5 là ước lượng hợp lý tối đa của .
Bảng 6.2
6.2. Khoảng tin cậy đối xứng cho trung bình tổng thể
Trong thống kê mô tả tổng hợp (Descriptive statistics) của Data Analysis cho phép tính giá trị sai
số biên ME của ước lượng, thông qua lựa chọn Confidence Level for Mean.
Ví dụ 6.3: Sử dụng chức năng Descriptive Statistics để tính khoảng tin cậy của trung bình hai biến
Thu nhập và Chi tiêu, độ tin cậy 95%.
DATA Data Analysis Descriptive Statistics
Confidence Level for Mean: 95%
Hình 6.1
Bảng 6.2
Thu nhập Chi tiêu
Sai số chuẩn (của trung bình mẫu) Standard Error, Se( X ) s / n và ME t( n/ 21) Se( X ) đều được
tính sẵn.
Với biến Thu nhập, ME = 10.596, nên khoảng tin cậy 95% cho trung bình tổng thể của Thu nhập
là: 142.035 10.596
Tương tự, khoảng tin cậy 95% cho trung bình tổng thể của Chi tiêu là: 103.882 7.591.
Hay với
Biến X ~ A(p) chỉ nhận giá trị 0 và 1, có thể coi chính là mã hóa của một dấu hiệu A. Nếu quan sát
n
có dấu hiệu A thì X = 1, không có dấu hiệu A thì X = 0. Dễ thấy i 1 xi chính là tổng số lần A
xuất hiện trong n lần, do đó:
1 N
Trung bình tổng thể: xi p là xác suất xảy ra biến cố A
N i 1
1 n
Trung bình mẫu: x xi f là tần suất mẫu của biến cố A
n i 1
n
Chứng minh được khi X chỉ nhận giá trị 0 và 1 thì: s f (1 f )
n 1
Do đó nếu n đủ lớn thì: s f (1 f ) và t( n/21) u / 2 , f xấp xỉ phân phối chuẩn
s f (1 f )
Lại có: x f , p , nên hai khoảng tin cậy: x t( n/21) và f u /2 là gần
n n
giống nhau. Do đó có thể sử dụng chức năng Descriptive Statistic để ước lượng cho p.
Ví dụ 6.4: Ước lượng tỉ lệ tổng thể hộ gia đình ở nông thôn qua mẫu 421 hộ, cần có biến 0 – 1,
với NT = 1 nếu ở nông thôn, NT = 0 nếu không ở nông thôn.
Với số liệu hiện có, có nhiều cách để đặt biến NT như vậy:
Cách 1: Do biến KV = 1 nếu ở Thành thị, = 2 nếu ở Nông thôn, nên đặt NT = KV – 1
Cách 2: Dùng biến Khu vực, lệnh: = IF(ô tương ứng của biến Khu vực = “Nông thôn”, 1, 0)
Dùng chức năng Descriptive Statistic với biến NT
Bảng 6.3
NT
Mean 0.5643
Standard Error 0.0242
Median 1
Mode 1
Standard Deviation 0.4964
Sample Variance 0.2465
Kurtosis -1.9416
Skewness -0.2602
Range 1
Minimum 0
Maximum 1
Sum 237
Count 420
Confidence Level(95.0%) 0.0476
Theo kết quả này thì f = 0.5643, ME = 0.0476 do đó khoảng tin cậy của p là 0.5643 0.0476
0.5643(1 0.5643)
Nếu áp dụng công thức ước lượng p thì: ME = 1.96 = 0.0474, chênh lệch
420
không đáng kể so với kết quả trên.
Khoảng tin cậy cho Trung bình biến phân phối chuẩn
(Confidence interval for mean)
Khoảng tin cậy cho phương sai biến phân phối chuẩn
(Confidence interval for variance)
Với khoảng tin cậy cho phương sai, sử dụng công thức và hàm tính giá trị tới hạn Khi bình phương,
thực hiện như sau
Bảng 6.7
Kết quả như sau, tính thêm cột độ lệch chuẩn là căn bậc hai của phương sai
Bảng 6.8
Bảng 6.9
Kết quả là
Bảng 6.10
Bài tập
Bài 6.1. Với mẫu w1 = (1, 0, 0, 1, 1, 0) và mẫu w2 = (0, 1, 0, 1, 0 , 1) từ biến ngẫu nhiên Không-
một, hãy lập hàm hợp lý ứng với các giá trị của p từ 0.1 đến 0.9 và so sánh hàm hợp lý của hai
mẫu đó.
Bài 6.2. Giả sử biến ngẫu nhiên gốc phân phối Chuẩn với trung bình 10 và phương sai 25. Tìm
hàm hợp lý ứng với các mẫu sau:
(a) (12, 14, 8, 16)
(b) (2, 19, 12, 15)
(c) (0, 3, 15, 20)
Bài 6.3. Với mẫu w = (12, 14, 8, 16) rút ra từ biến ngẫu nhiên phân phối Chuẩn có phương sai là
9, hãy so sánh giá trị hàm hợp lý ứng với các giá trị trung bình chạy từ 8 đến 16.
Bài 6.4. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho trung bình của các biến
(a) Chi tiêu
(b) Chi tiêu bình quân
(c) Thu nhập bình quân
(d) Chi cho ăn uống
Bài 6.5. Ước lượng bằng khoảng tin cậy hai cho trung bình của Thu nhập khi độ tin cậy là:
(a) 80%
(b) 90%
(c) 99%
Bài 6.6. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho phương sai của:
(a) Chi tiêu
(b) Chi cho ăn uống
(c) Thu nhập bình quân
(d) Chi tiêu bình quân
Bài 6.7. Ước lượng bằng khoảng tin cậy hai phía mức 95% cho tỉ lệ của các hộ gia đình
(a) Có từ 6 người trở lên
(b) Thu nhập từ 200 trở lên
(c) Chi tiêu từ 150 trở xuống
Kiểm định Trung bình biến phân phối chuẩn (Hypothesis testing for mean)
Với mức ý nghĩa cho trước, X ~ (, σ2) giả thuyết so sánh và 0 có thể dùng hai cách: (1) So
sánh thống kê t (t-statistic) với giá trị ngưỡng (critical value); (2) hoặc so sánh P-value với mức ý
nghĩa , nếu P-value < thì bác bỏ H0 (reject H0), ngược lại thì chưa bác bỏ H0 (not reject H0)
Ví dụ 7.1: Với số liệu của Hà Nội, kiểm định giả thuyết so sánh Trung bình của thu nhập với 130
(giả thiết thu nhập phân phối chuẩn).
Các giá trị trung bình mẫu, độ lệch chuẩn mẫu, kích thước mẫu dễ dàng có được qua các hàm
AVERAGE, STDEV, COUNT, do đó thiết lập bảng Excel với các ô tương ứng, và tính các thống
kê T, dùng hàm TINV để xác định các giá trị ngưỡng (cũng là các giá trị tới hạn), và dùng hàm
TDIST để tính các P-value. Việc kết luận dựa trên P-value.
Bảng 7.1
Bảng 7.2
Theo kết quả này, với mức ý nghĩa 5%, bác bỏ H0 trong cặp giả thuyết hai phía và cặp giả thuyết
> 130, chưa bác bỏ H0 trong cặp giả thuyết < 130
Hàm ZTEST
Hàm ZTEST cho P-value cặp giả thuyết dấu “>” khi kiểm định trung bình với một số cho trước.
H0: 0 & H1: 0 . Thủ tục của hàm là: = ZTEST(mảng, 0 ),
Ví dụ 7.1 (tiếp), Kiểm định so sánh trung bình của Thu nhập với 130:
= ZTEST(D2:D421, 130) = 0.0128.
Cặp giả thuyết là H0: = 130 & H1: > 130 và P-value của cặp giả thuyết bằng 0.0128 nhỏ hơn
mức ý nghĩa 5% nên chưa có cơ sở bác bỏ H0. Từ đây, P-value cặp giả thuyết hai phía: H0: =
130 & H1: 130 sẽ có P-value bằng 20.0128 = 0.0256.
Với hàm = ZTEST(D2:D421, 140) thì kết quả là 0.353 và = ZTEST(D2:D421, 150) = 0.93
Kiểm định Phương sai biến phân phối chuẩn (Hypothesis testing for variance)
H0 : H1 Bác bỏ H0 P-value
Chisq-statistic Nếu: :
Nếu: :
Ví dụ 7.2: Kiểm định so sánh phương sai Thu nhập hộ gia đình với 10000 (hay so sánh độ lệch
chuẩn với 100)
Bảng 7.3
Bảng 7.4
Kiểm định tần suất tổng thể (Hypothesis testing for proportion)
p < p0
Ví dụ 7.3: Kiểm định giả thuyết cho rằng tỉ lệ hộ gia đình sống ở nông thôn trong tổng thể là 62%,
hay 0.62. Kiểm định tham số p với con số 0.62.
Bảng 7.5
Bảng 7.6
Hình 7.
Số liệu cặp
d i = xi – y i
(xi, yi)
Kiểm định
Biết
với
,
Số liệu X, Y
độc lập
H0 : H1 Bác bỏ H0 P-value
F-statistic Nếu: :
Nếu: :
H1 :
H1 :
H1 :
Bảng 7.7
t-Test: Paired Two Sample for Means
Chi ăn uống Chi khác ăn uống
(X) (Y)
Bậc tự do (n – 1)
Mean 75.330 28.552
Variance 2730.030 1141.777
Observations 420 420
Pearson Correlation 0.677 P-value cặp gt một phía
Hypothesized Mean Difference 0
df 419
t Stat 24.914
Giá trị tới hạn
P(T<=t) one-tail 5.16E-85
t Critical one-tail 1.648 P-value cặp gt hai phía
P(T<=t) two-tail 1.03E-84
t Critical two-tail 1.966 Giá trị tới hạn
Ở đây có hai cặp giả thuyết được kiểm định: một phía (one-tail) và hai phía (two-tail)
Nhận thấy x = 75.33 > y = 28.55 nên cặp giả thuyết một phía là:
H 0 : X Y
H 1 : X Y
Có tqs = 24.9 > t( n1) t0.05
(419)
1.648 nên bác bỏ H0. Hoặc P-value bằng 5.16E-85 = 5.1610-85 rất
nhỏ nên bác bỏ H0.
Qua kiểm định, có thể cho rằng X Y 45 , về trung bình thì chi cho ăn uống nhiều hơn chi
cho mục đích khác là 45 đơn vị.
Kiểm định hai trung bình khi biết hai phương sai
Kiểm định so sánh Thu nhập trung bình ở Thành thị (số liệu từ D2 đến D184) và Nông thôn (từ
D185 đến D241)
Ví dụ 7.6: Giả sử biết phương sai của Thu nhập tại thành thị là 10000, và tại Nông thôn là 5000,
kiểm định giả thuyết trung bình của Thu nhập tại thành thị và nông thôn bằng nhau.
Kiểm định U trong Excel gọi là kiểm định Z
DATA Data Analysis z-Test: Two-Sample for Means OK
[z-Test: Two-Sample for Means]
Variable 1 Range: D2:D184
Variable 2 Range: D185:D421
Hypothesized Mean Difference: 0
Variable 1 Variance (known): 10000
Variable 2 Variance (known): 5000
Labels (không đánh dấu do không có dòng đầu là tên biến)
Alpha: 0.05
Ví dụ 7.7: Kiểm định trung bình Thu nhập Thành thị và Nông thôn chênh lệch nhau 100 đơn vị,
giả thiết biết phương sai tương ứng là 10000 và 5000.
Bảng 7.10
z-Test: Two Sample for Means
Variable 1 Variable 2
Mean 197.874 98.918
Known Variance 10000 5000
Observations 183 237
Hypothesized Mean Difference 100
z -0.120
P(Z<=z) one-tail 0.452
z Critical one-tail 1.645
P(Z<=z) two-tail 0.905
z Critical two-tail 1.960
Kiểm định này cho thấy có thể nói trung bình chênh lệch là 100 đơn vị
Kiểm định hai trung bình khi không biết hai phương sai
Kiểm định về hai phương sai
Ví dụ 7.8: Khi không biết hai phương sai Thu nhập tại Thành thị và Nông thôn, cần kiểm định
xem hai phương sai có bằng nhau hay không
DATA Data Analysis F-Test: Two-Sample for Variances OK
[F-Test: Two-Sample for Variances]
Variable 1 Range: D2:D184
Variable 2 Range: D185:D421
Labels (không đánh dấu do không có dòng đầu là tên biến)
Alpha: 0.05
Output Range: L40
Bảng 7.11
F-Test Two-Sample for Variances
Variable 1 Variable 2
Mean 197.874 98.918
Variance 15936.803 5094.462
Observations 183 237 P-value cặp giả thuyết
df 182 236 một phía
F 3.128
P(F<=f) one-tail 1.756E-16
Giá trị tới hạn
F Critical one-tail 1.256
Kiểm định F chỉ thực hiện kiểm định một phía, và vì s X2 sY2 nên cặp giả thuyết ở đây là:
2 2
H 0 : X Y
2 2
H1 : X Y
Kiểm định hai trung bình khi hai phương sai khác nhau
Ví dụ 7.9: Với thông tin có được từ Ví dụ 7.8, kiểm định Trung bình của Thu nhập tại Thành thị
và Nông thôn bằng nhau.
Vì ví dụ 7.8 chỉ ra rằng phương sai của Thu nhập tại hai khu vực khá nhau, do đó phải kiểm định
hai trung bình khi biết hai phương sai là khác nhau.
DATA Data Analysis t-Test: Two-Sample Assuming Unequal Variances OK
[t-Test: Two-Sample Assuming Unequal Variances]
Variable 1 Range: D2:D184
Variable 2 Range: D185:D421
Hypothesized Mean Difference: 0
Labels (không đánh dấu do không có dòng đầu là tên biến)
Alpha: 0.05
Output Range: L60
Bảng 7.12
t-Test: Two-Sample Assuming Unequal Variances
Variable 1 Variable 2
Mean 197.874 98.918
Variance 15936.803 5094.462
Observations 183 237
Hypothesized Mean Difference 0
df 270
t Stat 9.497
P(T<=t) one-tail 6.08E-19
t Critical one-tail 1.651
P(T<=t) two-tail 1.22E-18
t Critical two-tail 1.969
Ví dụ 7.10: Kiểm định chênh lệch hai trung bình bằng 100, khi biết hai phương sai khác nhau
Bảng 7.13
t-Test: Two-Sample Assuming Unequal Variances
Variable 1 Variable 2
Mean 197.874 98.918
Variance 15936.803 5094.462
Observations 183 237
Hypothesized Mean Difference 100
df 270
t Stat -0.100
P(T<=t) one-tail 0.460
t Critical one-tail 1.651
P(T<=t) two-tail 0.920
t Critical two-tail 1.969
Kiểm định hai trung bình khi hai phương sai bằng nhau
Ví dụ 7.11: Trong trường hợp giả sử phương sai bằng nhau (không lấy kết quả kiểm định F ở
trên), lựa chọn t-Test: Two-Sample Assuming Equal Variances, sẽ được kết quả sau:
Bảng 7.14
t-Test: Two-Sample Assuming Equal Variances
Variable 1 Variable 2
Mean 197.874 98.918
Variance 15936.803 5094.462
Observations 183 237
Pooled Variance 9815.290
Hypothesized Mean Difference 0
df 418
t Stat 10.150
P(T<=t) one-tail 4.37E-22
t Critical one-tail 1.649
P(T<=t) two-tail 8.74E-22
t Critical two-tail 1.966
Hàm TTEST cho P-value của kiểm định so sánh hai trung bình với ba trường hợp và hai loại
cặp giả thuyết, có dạng: TTEST(mảng X, mảng Y, tail, type) trong đó
Tail = 1 nếu là cặp giả thuyết một phía, dạng > hay < tùy thuộc vào x và y
Tail = 2 nếu là cặp giả thuyết hai phía
Type = 1 nếu là số liệu theo cặp
Type = 2 nếu số liệu độc lập và hai phương sai bằng nhau
Type = 3 nếu số liệu độc lập và hai phương sai khác nhau
Ví dụ 7.6 ; 7.11 và 7.9 khi dùng TTEST cho kết quả sau
Bảng 7.15
Trường
Cặp giả thuyết Hàm P-value
hợp
(1) H0: TBĂn uống = TBKhác ăn uống
VD7.6 = TTEST(F2:F421, G2:G421, 1, 1) 5.16E-85
H1: TBĂn uống > TBKhác ăn uống
Số liệu H0: TBĂn uống = TBKhác ăn uống
theo cặp = TTEST(F2:F421, G2:G421, 2, 1) 1.03E-84
H1: TBĂn uống TBKhác ăn uống
(2) H0: TBTNTh.thị = TBTNN.thôn
VD7.11 = TTEST(D2:D184, D185:D421, 1, 2) 4.37E-22
H0: TBTNTh.thị > TBTNN.thôn
Phương H0: TBTNTh.thị = TBTNN.thôn
sai bằng = TTEST(D2:D184, D185:D421, 2, 2) 8.74E-22
nhau H0: TBTNTh.thị TBTNN.thôn
Excel không có sẵn chức năng kiểm định hai tham số p, tuy nhiên ta có thể tự tạo kiểm định và sử
dụng chức năng trong Data Analysis để thực hiện.
Ví dụ 7.12: Kiểm định giả thuyết: “Tỉ lệ hộ có từ 5 người trở lên ở Thành thị và Nông thôn là như
nhau”.
Sử dụng lệnh COUNTIF tính số hộ ở Thành thị và Nông thôn, và số hộ có từ 5 người trở lên ở hai
khu vực. Thiết lập bảng Excel theo công thức.
Bảng 7.16
Như lập luận trong phần khoảng tin cậy của tham số p, nếu biến X và Y là biến 0–1 thì f X x và
fY y , và nếu số quan sát là đủ lớn thì f s 2p , suy ra
f X fY xy
u t2
1 1 s 2p s 2p
f (1 f )
n X nY nX nY
Đồng thời: t( nX nY 2) u , do đó kiểm định về hai tham số p cũng chính là kiểm định về hai trung
bình với giả định hai phương sai bằng nhau, trong điều kiện số quan sát là đủ lớn.
Tạo biến 0-1, đặt tên là SN5 sao cho SN5 = 1 với hộ có Số người > 4 và SN5 = 0 với hộ có Số
người 4. Với cột H, sử dụng hàm: = IF(ô tương ứng của Số người > 4, 1, 0), ví dụ với ô H2: =
IF(C2 > 4, 1, 0), kéo đến ô H421.
Bảng 7.17
Thực hiện kiểm định hai trung bình với giả định hai phương sai bằng nhau với hai mảng H2:H184
(ứng với Thành thị) và H185:H421 (ứng với Nông thôn), được kết quả:
Bảng 7.18
t-Test: Two-Sample Assuming Equal Variances
Variable 1 Variable 2
Mean 0.2896175 0.3122363
Variance 0.2068696 0.2156547
Observations 183 237
Pooled Variance 0.2118296
Hypothesized Mean Difference 0
df 418
t Stat -0.4994032
P(T<=t) one-tail 0.3088791
t Critical one-tail 1.6485071
P(T<=t) two-tail 0.6177581
t Critical two-tail 1.9656555
Giá trị s 2p = 0.2118296 không chênh lệch nhiều vói f (1 f ) = 0.21095 và Tqs = –0.4994 cũng gần
bằng Uqs = –0.50045.
Có thể thấy kiểm định U và T trong hai trường hợp gần như hoàn toàn tương đương.
Bài tập
Bài 7.1. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:
(a) Chi tiêu trung bình bằng 100
(b) Chi tiêu trung bình bằng 120
(c) Chi cho ăn uống trung bình bằng 70
(d) Thu nhập bình quân trung bình bằng 40
(e) Chi tiêu bình quân trung bình bằng 20
Bài 7.2. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:
(a) Phương sai của Chi tiêu lớn hơn 5000
(b) Phương sai của Chi cho ăn uống nhỏ hơn 3000
(c) Phương sai của Chi tiêu bình quân là khác 1000
Bài 7.3. Với mức ý nghĩa 5%, kiểm định các giả thuyết sau và cho biết P-value:
(a) Tỉ lệ hộ có 4 người là 40%
(b) Tỉ lệ hộ có Thu nhập trên 120 là 50%
(c) Tỉ lệ hộ có Chi tiêu trên 25 là 30%
Bài 7.4. Sử dụng chức năng SORT trong DATA để sắp xếp các quan sát theo thứ tự tăng dần của
Số người, và thực hiện các kiểm định với mức ý nghĩa 5%. Chỉ ra P-value của các kiểm định:
(a) So sánh phương sai và trung bình của Thu nhập của hộ có 3 người và có 4 người
(b) So sánh phương sai và trung bình của Chi tiêu của hộ có 3 người và 4 người
(c) So sánh phương sai và trung bình của Thu nhập bình quân của hộ có 3 người và 4 người
Bài 7.5. Kiểm định so sánh phương sai và trung bình của Chi tiêu, ứng với hai nhóm hộ gia đình
có thu nhập dưới 200 và từ 200 trở lên, với mức ý nghĩa 5%.
Bài 7.6. Kiểm định so sánh phương sai và trung bình của Chi tiêu bình quân với mức ý nghĩa
5%, giữa các nhóm sau:
(a) Hộ dưới 4 người và từ 4 người trở lên
(b) Hộ có thu nhập bình quân dưới 30 và từ 30 trở lên
(c) Hộ có 4 người ở Thành thị và ở Nông thôn
Bảng tiếp liên của hai dấu hiệu A (gồm A1,…, Ak) và B (gồm B1,…, Bh) chứa các tần
số thực nghiệm nij, tổng theo hàng i là Ri, tổng theo cột j là Cj:
… … … … … …
P-value =
Ví dụ 8.1: Kiểm định xem dấu hiệu định tính Số người (chia thành 3 nhóm) và Khu vực (2 nhóm)
có độc lập với nhau không.
Sử dụng Pivot table, được bảng sau:
Bảng 8.1
Frequency Số người
Khu vực 1-3 4-6 7-9 Grand Total
Nông thôn 85 137 15 237
Thành thị 69 109 5 183
Grand Total 154 246 20 420
Bảng 8.2
Với bảng tần số thực nghiệm Oi và tần số lý thuyết Ei, lập bảng tính các giá trị ( nij Eij ) 2 / Ei rồi
tính tổng bằng hàm SUM.
Có thể tính giá trị tới hạn mức 5% bằng hàm CHIINV(0.05, 2). Bậc tự do bằng 2 là do số hàng
bằng 2, số cột bằng 3, nên bậc tự do = (2 – 1)(3 – 1) = 2.
Và có thể tính P-value bằng hàm CHIDIST
Bảng 8.3
2 2(2)
Theo kết quả này, qs = 2.955; 0,05 = 5.99 nên tại mức ý nghĩa 5% thì chưa bác bỏ H0. Có thể
cho rằng hai yếu tố là độc lập nhau.
Với giá trị P-value bằng 0.228 lớn hơn 5%, cũng cho kết luận tương tự.
Hàm CHITEST
Hàm CHITEST tính P-value của kiểm định so sánh giữa tần số thực nghiệm và lý thuyết, để kiểm
định xem hai yếu tố độc lập không: CHITEST(mảng thực nghiệm, mảng lý thuyết)
Bảng 8.4
Về lý thuyết, kiểm định này hoàn toàn tương tự kiểm định trên bảng tiếp liên. Hay bảng tiếp liên
chỉ là một trường hợp của kiểm định tổng quát này.
Ví dụ 8.2: Kiểm định xem Số người trong hộ gia đình có phân phối theo quy luật Poisson hay
không.
Có bảng tần số thực nghiệm của số người trong hộ gia đình, với 420 hộ như sau:
Bảng 8.5
Số người 1 2 3 4 5 6 7 8 9 Grand Total
Frequency 22 54 78 139 74 33 12 4 4 420
Ví số người trung bình là 3.938 (có thể dùng hàm: = AVERAGE để tính), tính xác suất số người
bằng các giá trị 1, 2,…, 8 (tương ứng với ô I1, I2,…, I8) theo hàm: =POISSON(x, 2.938, 0). Riêng
ô tương ứng số người bằng 9 thì dùng hàm = 1 – (tổng các ô trước đó) để đảm bảo tổng xác suất
bằng 1.
Tiếp đó tính tần số lý thuyết = xác suất 420
Bảng 8.6
Bảng 8.7
P-value của kiểm định 2 là 310-11, bác bỏ H0, biến Số người không phân phối Poisson.
Sử dụng hàm: = SKEW và hàm: =KURT để tính các giá trị Sk và K, sau đó thay vào công thức để
tính JB và từ đó kết luận.
Ví dụ 8.3: Kiểm định tính phân phối chuẩn của biến Chi tiêu. Xét riêng số liệu Chi tiêu đặt trong
cột A, từ A1 đến A421.
Bảng 8.7
Với số liệu có chia khoảng (như trong phần vẽ đồ thị), cũng có thể dùng kiểm định 2 như trong
mục 8.2 để đánh giá. Cách kiểm định phức tạp hơn, do đó không trình bày ở đây.
Bài tập
Bài 8.1. Kiểm định tính phân phối chuẩn của các biến: Thu nhập bình quân, Chi tiêu bình quân,
Tỉ lệ Chi tiêu / Thu nhập
Bài 8.2. Kiểm định tính độc lập của hai dấu hiệu Thu nhập và Chi tiêu, khi chia hai biến này thành
3 nhóm và coi đó như dấu hiệu định tính.
Ví dụ 9.1: Phân tích phương sai về Thu nhập/người (TNBQ) sử dụng số liệu của 40 hộ gia đình
đầu tiên trong bộ số liệu VHLSS2012. Với 40 hộ này Số người từ 2 đến 6, chia thành 3 nhóm là
Nhóm 2-3 người, nhóm 4 người, nhóm 5-6 người. Có số liệu như sau, nằm trong mảng từ A1 đến
C16. Lưu ý số quan sát trong mỗi nhóm không cần bằng nhau.
Bảng 9.1
A B C
1 Size 2-3 Size 4 Size 5-6
2 35.45 48.48 68.60
3 62.40 50.35 22.52
4 74.55 52.38 54.62
5 43.60 48.30 32.50
6 49.33 42.90 19.80
7 72.20 43.25 47.06
8 71.17 59.05 37.94
9 59.27 43.63 41.78
10 83.73 23.25 24.46
11 85.27 22.50 59.72
Với giả thiết phân phối chuẩn và phương sai bằng nhau, kiểm định giả thuyết về tác động của nhân
tố Số người (ở đây chỉ gồm ba nhóm) đến Trung bình của Thu nhập/người:
H0: Nhân tố Số người không tác động đến Trung bình của Thu nhập/người
H1: Nhân tố Số người có tác động đến Trung bình của Thu nhập/người
Fqs = 4.855 > f = 3.252; hoặc P-value = 0.013 nên với mức ý nghĩa 5% bác bỏ H0, nhân tố Số
người tác động đến trung bình của Thu nhập/người
9.2. Phân tích phương sai hai nhân tố không có tương tác
(Two-way ANOVA without interaction)
Ví dụ 9.2: Sử dụng Pivot table có bảng thống kê về Thu nhập/người như trong bảng 9.3, thực hiện
phân tích phương sai để đánh giá xem nhân tố Khu vực và Số người có tác động đến trung bình
của Thu nhập/người hay không.
Bảng 9.3
A B C D E
1 Average of TNBQ Số người
2 Khu vực 1-3 4-6 7-9 Grand Total
3 Nông thôn 25.375 24.964 27.532 25.274
4 Thành thị 60.326 48.847 37.177 52.856
5 Grand Total 41.035 35.546 29.943 37.292
Bảng 9.4
Anova: Two-Factor Without Replication
SUMMARY Count Sum Average Variance
Nông thôn 3 77.870 25.957 1.903
Thành thị 3 146.349 48.783 133.972
Với giả thiết phân phối chuẩn và phương sai bằng nhau, kiểm định tác động của nhân tố Khu vực:
H0: Nhân tố Khu vực không tác động đến trung bình của Thu nhập/người
H1: Nhân tố Khu vực có tác động
Fqs = 9.713 < f = f 0.05 = 18.513; hoặc P-value = 0.089 nên với mức ý nghĩa 5% chưa có cơ sở bác
bỏ H0, nhân tố Khu vực không tác động đến trung bình của Thu nhập/người
Ví dụ 9.3: Với số liệu trong bảng 9.5 sau, tổng hợp nhờ Pivot table, tại mỗi nhóm lấy ba giá trị là
Nhỏ nhất (min), Trung bình (average) và Lớn nhất (max) làm đại diện.
Phân tích ANOVA hai nhân tố Khu vực và Số người có xét tương tác của hai nhân tố đó.
Bảng 9.5
A B C D
1 TNBQ Số người
2 Khu vực 1-3 4-6 7-9
3 Nông thôn 5.50 6.10 13.61
4 25.38 24.96 27.53
ANOVA
Source of Variation SS df MS F P-value F crit
Sample 4071.708 1 4071.708 0.982 0.341 4.747
Columns 3787.325 2 1893.662 0.457 0.644 3.885
Interaction 4945.938 2 2472.969 0.596 0.566 3.885
Within 49775.744 12 4147.979
Total 62580.714 17
Bài tập
Bài 9.1. Với 40 quan sát đầu tiên, xét biến Thu nhập
(a) Chia Số người thành ba nhóm tương tự ví dụ 9.1: nhóm 2-3, nhóm 4, nhóm 5-6 người, xét các
mức Thu nhập của các hộ theo ba nhóm đó.
(b) Thực hiện phân tích phương sai một nhân tố với số liệu trong câu (a).
(c) Chia Số người thành năm nhóm: 2, 3, 4, 5, 6 người, xét các mức Thu nhập theo năm nhóm đó
(d) Phân tích phương sai một nhân tố với số liệu trong câu (c)
Với ,
Đo độ chính xác qua Se(b1), Se(b 2), hệ số xác định R2, Sai số chuẩn , Tổng
bình phương phần dư RSS.
Có các bài toán kiểm định T và ước lượng về hệ số 1 + 2.
Ví dụ: Xét mối quan hệ hồi quy giữa Chi tiêu (CT) và Thu nhập (TN), trong đó Chi tiêu phụ thuộc
vào thu nhập. Biến Chi tiêu trong các ô E1:E421, biến Thu nhập trong các ô D1:D421
Mô hình hồi quy có dạng
CT = 1 + 2TN + u
Ước lượng trên mẫu là
CT = b1 + b 2TN + e
(Hay: CT ˆ1 ˆ2TN e )
DATA Data Analysis Regression
[Regression]
Input Y Range: E1:E421
Input X Range: D1:D421
Label Constant is Zero (không đánh dấu ô này, vì mô hình có hệ số chặn)
Confidence Level (không cần đánh ô này vì máy tự động có sẵn)
Output Range: J1
Bảng 10.1
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.816
R Square 0.667
Adjusted R Square 0.665
Standard Error 51.389
Observations 240
ANOVA
df SS MS F Significance F
Regression 1 1257041.9 1257042 476.011 1.05E-58
Residual 238 628506.8 2640.8
Total 239 1885548.7
Theo kết quả này có thể viết hàm hồi quy mẫu
CTi = 24.904 + 0.605 TNi + ei
Về trung bình, khi Thu nhập bằng 0 thì Chi tiêu bằng 24.9 hay tiêu dùng tự định bằng 24.9; khi
Thu nhập tăng một đơn vị thì Chi tiêu tăng 0,6 đơn vị, hay khuynh hướng tiêu dùng cận biên bằng
0.6, do đó khuynh hướng tiết kiệm cận biên là 0.4.
Mô hình giải thích được 67% sự biến động của Chi tiêu.
Với mức ý nghĩa 5%, các kiểm định cho các kết luận sau:
- Hàm hồi quy phù hợp
- Hệ số chặn có ý nghĩa thống kê
- Hệ số góc có ý nghĩa thống kê
Với độ tin cậy 95%, khoảng tin cậy đối xứng của hệ số chặn là từ 13.1 đến 36.7; hay tiêu dùng tự
định nằm trong khoảng (13.1 ; 36.7). Khoảng tin cậy của hệ số góc hay Khuynh hướng tiêu dùng
cận biên nằm trong khoảng (0.55 ; 0.66).
Bảng 10.2
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.819
R Square 0.670
Adjusted R Square 0.667
Standard Error 51.228
Observations 240
ANOVA
df SS MS F Sig. F
Regression 2 1263580.2 631790.1 240.743 8.36E-58
Residual 237 621968.5 2624.3
Total 239 1885548.7
10.3. Xem phần dư, giá trị ước lượng biến phụ thuộc
Khi muốn xem phần dư và giá trị ước lượng của biến phụ thuộc, thực hiện hoàn toàn tương tự, chỉ
thêm hai đánh dấu ở lựa chọn Residual và Residual Plots
Bảng 10.3
RESIDUAL OUTPUT
Bảng kết quả phần dư cho thấy chênh lệch giữa giá trị thực tế của số liệu với giá trị ước lượng bởi
đường hồi quy. Với hộ gia đình thứ nhất, mức chi tiêu thực thế cao hơn mức trung bình được tính
toán bởi mô hình. Hộ gia đình thứ 7 có mức chi tiêu thực thế thấp hơn mức trung bình.