Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 9

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI

VIỆN ĐÀO TẠO CHẤT LƯỢNG CAO

PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG

BÀI TẬP NHÓM: 5

HỌ VÀ TÊN: PHÍ THỊ THIÊN TRANG

MSSV: 066305013838

LỚP: DL2301CLCA
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Câu 1:
Bảng dữ liệu trên là bảng ngẫu nhiên hai chiều.
Biến điều khiển là ngành nghề của khách hàng (nhân viên văn phòng, lao động phổ
thông). Hai biến số phụ thuộc là mức thu nhập và mức độ hài lòng. Ta thiết lập các
bảng liên kết từng phần X-Y cho NVVP và X-Y cho LDPT và bảng liên kết biên
như sau:
BẢNG LIÊN KẾT TỪNG PHẦN X-Y CHO NVVP:
Thu nhập bình Hài lòng hay không hài lòng khi sử Tổng cộng
quân trên tháng dụng cà phê Trung Ngyên
Hài lòng Không hài lòng
< 10 triệu 53 11 64
≥ 10 triệu 46 10 56
Tổng cộng 99 21 120

BẢNG LIÊN KẾT TỪNG PHẦN X-Y CHO LDPT:


Thu nhập bình Hài lòng hay không hài lòng khi sử Tổng cộng
quân trên tháng dụng cà phê Trung Ngyên
Hài lòng Không hài lòng
< 10 triệu 14 8 22
≥ 10 triệu 44 14 58
Tổng cộng 58 22 80

BẢNG LIÊN KẾT BIÊN:


Nghề nghiệp Hài lòng hay không hài lòng khi sử Tổng cộng
dụng cà phê Trung Ngyên
Hài lòng Không hài lòng
NVVP 99 21 120
LĐPT 58 22 80
Tổng cộng 157 43 200

Câu 2:

2
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Ta có công thức tính odds ratio mẫu có điều kiện và odds ratio mẫu biên
lần lượt là:
n11k . n22 k θ^ =n ¿
θ^ XY (k )= XY
11+¿ .
n22+ ¿
¿
n 12k . n21 k n 12+¿ .n21+¿ ¿¿

53.10 14.14
Từ đó, suy ra: θ^ XY (1)= 11.46 = 1,0474; θ^ XY (2)= 8.44 = 0,5568;
99.22
θ^ XY =
21.58 = 1,7882

Ý nghĩa: Nếu bỏ qua tác động của nghề nghiệp thì sự hài lòng với chất lượng và
mức thu nhập là ít có ảnh hưởng nhau: ( θ^ ¿ ¿ XY =1,7882 gần 1). ¿Nếu xét đến nghề
nghiệp thì đối với nhân viên văn phòng, sự hài lòng về chất lượng và mức thu nhập
có ảnh hưởng nhau nhiều: θ^ XY (1)=1,0474 cho thấy tỷ lệ hài lòng với chất lượng trong
số khách hàng có thu nhập dưới 10tr gấp 1,0474 lần trong số khách hàng có mức
thu nhập ≥ 10 tr . Đối với lao động phổ thông thì sự hài lòng về chất lượng và sự phù
hợp về mức thu nhập ít ảnh hưởng nhau hơn: θ^ XY (2) = 0,5568 cho thấy tỷ lệ hài lòng
với chất lượng sản phẩm trong số khách hàng thu nhập dưới 10tr chỉ bằng 55,68%
trong số khách cho rằng mức thu nhập ≥ 10 tr . Điều đó cho thấy một khi đã ngon
miệng thì khách hàng là nhân viên văn phòng dễ dàng chi một số tiền để thưởng
thức cà phê hơn khách hàng là lao động phổ thông.

Câu 3:
1. Xác định tính độc lập có điều kiện:
X và Y độc lập có điều kiện với Z nếu và chỉ nếu:
P(X = 1 | Z = 1) = P(X = 1)
P(X = 1 | Z = 0) = P(X = 1)
P(Y = 1 | Z = 1) = P(Y = 1)
P(Y = 1 | Z = 0) = P(Y = 1)
a) X và Y độc lập có điều kiện với Z:
Xét Z = 1 (Nhân viên văn phòng):
P(X = 1 | Z = 1) = 99/120 = 0,825

3
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

P(X = 1) = 157/200 = 0,785


P(Y = 1 | Z = 1) = 99/120 = 0,825
P(Y = 1) = 157/200 = 0,785
Vì P(X = 1 | Z = 1) ≠ P(X = 1) và P(Y = 1 | Z = 1) ≠ P(Y = 1) nên X và Y không
độc lập có điều kiện với Z = 1.
Xét Z = 0 (Lao động phổ thông):
P(X = 1 | Z = 0) = 58/80 = 0,725
P(X = 1) = 157/200 = 0,785
P(Y = 1 | Z = 0) = 58/80 = 0,725
P(Y = 1) = 157/200 = 0,785
Vì P(X = 1 | Z = 0) ≠ P(X = 1) và P(Y = 1 | Z = 0) ≠ P(Y = 1) nên X và Y không
độc lập có điều kiện với Z = 0.
b) Kết luận:
X và Y không độc lập có điều kiện với Z. Nghề nghiệp ảnh hưởng đến mức độ hài
lòng và thu nhập của khách hàng.
2. Xác định tính độc lập cận biên:
P(X = 1, Y = 1) = 147/200 = 0,735
P(X = 1) = 157/200 = 0,785
P(Y = 1) = 157/200 = 0,785
Vì P(X = 1, Y = 1) ≠ P(X = 1) * P(Y = 1) nên X và Y không độc lập cận biên. Mức
độ hài lòng và thu nhập của khách hàng có liên quan đến nhau.
3. Mối liên kết X-Y thuần nhất:
a) Mối liên kết X-Y thuần nhất: Mối liên kết X-Y thuần nhất xảy ra khi X và Y
độc lập có điều kiện với mọi giá trị của Z.
b) Kết luận:
Vì X và Y không độc lập có điều kiện với Z, nên X và Y không có mối liên kết X-
Y thuần nhất. Mối liên kết giữa mức độ hài lòng và thu nhập của khách hàng thay
đổi tùy theo nghề nghiệp.
4
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Câu 4:
Chạy hồi quy Logistic SRF ước lượng cho mô hình PRF:
π (X , Z)
ln [ ] = β0 + β1.X + β2.Z + U
1−π ( X , Z )
nhận được kết quả hồi quy ước lượng

Dependent Variable: Y
Method: ML – Binary Logit (Newton-Raphson / Marquardt steps)
Sample: 1 200
Included observations: 200
Convergence achieved after 3 iterations
Coefficient convariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C 0.803258 0.358636 2.239760 0.0251


X 0.232451 0.363981 0.638635 0.5231
Z 0.643226 0.361557 1.779045 0.0752

McFadden R-squared 0.015410 Mean dependent var 0.785000


S.D. dependent var 0.411853 S.E. of regression 0.410352
Akaike info criterion 1.054970 Sum squared resid 33.17255
Schwarz criterion 1.104445 Log likelihood -102.4970
Hannan-Quinn criter. 1.074992 Deviance 204.9941
Restr. Deviance 208.2026 Restr. Log likelihood -104.1013
LR statistic 3.208499 Avg. log likelihood -0.512485
Prob(LR statistic) 0.201040

Obs with Dep=0 43 Total obs 200


Obs with Dep=1 157

π (X , Z)
-MH SRF nhận được: ln [ ^
] = 0,803258 + 0,232451.X + 0,643226.Z + U
1−π ( X , Z )

5
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Câu 5:
Phân tích ý nghĩa của các hệ số hồi quy ước lượng ^β 1 , ^β 2
- ^β 1 = 0,232451: Khi thu nhập của khách hàng tăng thêm 1 triệu đồng thì mức độ hài
lòng tăng thêm 0,232451% trong điều kiện nghề nghiệp và các yếu tố ngẫu nhiên
khác không thay đổi.
- ^β 2 = 0,643226: Khi trình độ nghề nghiệp của khách hàng tăng thì mức độ hài lòng
tăng thêm 0,643226% trong điều kiện thu nhập và các yếu tố ngẫu nhiên khác
không thay đổi.

Câu 6:
Ta có được ma trận nhầm lẫn:
Y^

Count 0 1 Total
0 0 43 43
Y 1 0 157 157
Total 0 200 200

Ý nghĩa:

Từ ma trận nhầm lẫn, ta có độ chính xác toàn thể: 157:200=78,5%

Nếu chỉ dựa vào giá trị này ta sẽ cho rằng mô hình dự báo tốt. Tuy nhiên độ đăc
hiệu: 0:43 = 0, độ nhạy: 157:157 = 100%.

Vậy mô hình không tốt, vì độ đặc hiệu bằng 0, tức là không dự báo được mức độ
không hài lòng của khách hàng khi sử dụng cà phê của quán cà phê Trung Nguyên.
Lý do là mẫu quá lệch (Vì số khách hàng không hài lòng chỉ chiếm 43 trong số
200).

Câu 7:
Xét mô hình logistic nhận được từ câu 4, ta có:
- Chỉ số Pseudo-R2 = 0,015410 (khá bé)

6
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Prob (LR-statistic) = 0,201040 > 0,1 > 0,05: Mô hình không phù hợp với dữ liệu
thực tế.
- Chỉ số AIC = 1,054970
- Chỉ số Brier: B =
n

∑ ¿¿ i)2 = 33,17255 : 200 = 0,16586275


i=1

- Độ nhạy: 157:157 = 100%.


- Độ đặc hiệu: 0:43 = 0

Câu 8:
Dựa vào bảng số liệu, ta có thể ước tính xác suất hài lòng của NVVP có thu nhập ≥
10tr và xác suất không hài lòng của một khách hàng LĐPT có thu nhập ≥ 10tr như
sau:

- Xác xuất hài lòng của một khách hàng NVVP có thu nhập ≥ 10tr:
 Có 56 khách hàng NVVP có thu nhập ≥ 10tr.
 Trong số đó có 46 khách hàng hài lòng với sản phẩm.
Suy ra, xác suất hài lòng của NVVP có thu nhập lớn hơn hoặc bằng 10tr là:

Hài lòng 46
P( NVVP ,thu nhập≥10 tr ) = 56 = 0.82143

- Xác suất không hài lòng của một khách hàng LĐPT có thu nhập ≥ 10tr:
 Có 58 khách hàng LĐPT có thu nhập ≥ 10tr.
 Trong số đó có 14 người không hài lòng với sản phẩm.
Suy ra, xác suất không hài lòng của một khách hàng LĐPT có thu nhập ≥ 10tr là:

Khônghài lòng 14
P( LĐPT , thu nhập≥10 tr ) = 58 = 0.24138

Câu 9:
Dựa vào những dự liệu có sẵn, ta có thể ước tính được khả năng không hài lòng
của một khách hàng NVVP và khả năng không hài lòng của một khách hàng LĐPT
trong số những khách hàng có mức thu nhập thấp hơn 10 triệu /tháng là:
¿ Nhân viên văn phòng:

7
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

- Khả năng không hài lòng của một khách hàng NVVP có mức nhập dưới 10 triệu/
tháng :
 Có 64 khách hàng NVVP có thu nhập thấp hơn 10 triệu /tháng
 Có 11 khách hàng NVVP không hài lòng
Suy ra:
Không hài lòng 11
P( NVVP ,thu nhập<10 triệu /tháng ) = 64 = 0.1718~17.18% (1)

- Khả năng không hài lòng của một khách hàng NVVP trong số những khách hàng
có mức nhập dưới 10 triệu/ tháng là:
 Có 86 khách có thu nhập thấp hơn 10 triệu /tháng
 Có 11 khách hàng NVVP không hài lòng
Suy ra:
Khônghài lòng của NVVP 11
P( Thu nhập<10 triệu /tháng ) = 86 = 0.1279~12.79% (2)

¿ Lao động phổ thông


- Khả năng không hài lòng của một khách hàng LĐPT có mức nhập dưới 10 triệu/
tháng :
 Có 22 khách hàng có thu nhập thấp hơn 10 triệu /tháng
 Có 8 khách hàng LĐPT không hài lòng
Suy ra:
Không hàilòng 8
P( LDPT , thu nhập<10 triệu/tháng ) = 22 = 0.3636~36.36% (3)

- Khả năng không hài lòng của một khách hàng LDPT trong số những khách
hàng có mức nhập dưới 10 triệu/ tháng :
 Có 86 khách hàng có thu nhập thấp hơn 10 triệu /tháng
 Có 8 khách hàng LĐPT không hài lòng
Suy ra:
Khônghài lòng của LDPT 8
P( Thu nhập< 10triệu /tháng ) = 86 = 0.0930~9.302% (4)

8
PHÍ THỊ THIÊN TRANG MSSV: 066305013838

Kết luận:
- Từ (1) và (3) ta có thể thấy được khả năng không hài lòng của LDPT có mức thu
nhập thấp hơn 10 triệu /tháng cao hơn khả năng không hài lòng của NVVP có mức
thu nhập thấp hơn 10 triệu /tháng là 19.18%.
- Từ (2) và (4) ta có thể thấy được khả năng không hài lòng của NVVP cao hơn
khả năng không hài lòng của LDPT trong số những khách hàng có mức thu nhập
thấp hơn 10 triệu /tháng là 3.488%.

You might also like