Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

a)

- Biến giả (dummy variable) là một biến số định tính (nominal) được mã hóa thành hai giá trị,
thường là 0 và 1. Biến giả thường được sử dụng để đại diện cho các nhóm hoặc phân loại.
- Khi chuyển biến Sex thành biến giả thì ta sẽ được biến giả mới là biến Male với một giá trị đại
diện là 1= Male.
- Ta chỉ tạo ra 1 biến giả mới từ biến Sex là vì trong biến Sex chỉ có 2 nhóm tính chất đại diện là
Male và Female. Do đó biến giả mới chỉ cần một giá trị đại diện cho hai biến này.
b)
Đầu tiên ta tạo hai biến giả để sử dụng cho bài:

Sử dụng stata ta cho chạy thử hai mô hình.


̂ = f(male) + 𝜀
Với 𝑊𝑎𝑔𝑒
̂ = f(female) + 𝜀 như yêu cầu của đề bài
Với 𝑊𝑎𝑔𝑒

Ta có thể thấy:

- Về hệ số 𝛽̂ 2 của hai phương trình dễ thấy:


+ Với phương trình f(male) là 611,6115
+ Với phương trình f(female) là – 611,6115
 Mối quan hệ giữa 2 hệ số 𝛽̂ 2 là số đối của nhau.

- Về hệ số 𝛽̂ 1 của hai phương trình:


Nếu ta lấy trị tuyệt đối của hiệu hai hệ số ta sẽ có được kết quả như sau:
|3196,293 – 3807,905| ≈ 611,612 ≈ |𝛽̂ 2 của f(female)| ≈ |𝛽̂ 2 của f(male)|
Ta có:
𝛽̂1 = 𝑦̅ − 𝛽̂2 𝑥̅
|𝛽̂ 1 của f(female) - 𝛽̂ 1 của f(male) |
= | 𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) 𝑥̅𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) − 𝛽̂2 𝑐ủ𝑎 𝑓(𝑚𝑎𝑙𝑒) 𝑥̅𝑐ủ𝑎 𝑓(𝑚𝑎𝑙𝑒) |
= |𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) 𝑥̅𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) − (−𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) 𝑥̅𝑐ủ𝑎 𝑓(𝑚𝑎𝑙𝑒) )|
= |𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) (𝑥̅𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) + 𝑥̅𝑐ủ𝑎 𝑓(𝑚𝑎𝑙𝑒) )|
= | 𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) . 1|
= | 𝛽̂2 𝑐ủ𝑎 𝑓(𝑓𝑒𝑚𝑎𝑙𝑒) | = |𝛽̂2 𝑐ủ𝑎 𝑓(𝑚𝑎𝑙𝑒) |
=> |𝛽̂ 1 của f(female) - 𝛽̂ 1 của f(male) | = |𝛽̂ 2 của f(female)| = |𝛽̂ 2 của f(male)|

c) Ý nghĩa hệ số trong hàm hồi quy của f(female)


̂ = f(female) + 𝜀 là:
Từ kết quả stata ta có mô hình hồi quy tuyến tính của 𝑊𝑎𝑔𝑒
̂ = 3807.905 – 611.6115.female
𝑊𝑎𝑔𝑒
Ý nghĩa hệ số:
Với mức ý nghĩa 5%:
Tiền lương trung bình của nữ giới trong mẫu khảo sát là 3807.905 đơn vị tiền lương.
Mỗi khi tăng thêm một người nữ thì đơn vị tiền lương của họ sẽ giảm đi 611.6115 đơn vị.
a) Do biến SEX là một biến định tính nên để có thể viết mô hình ta cần chuyển thành biến giả
male để có thể tính toán.
Sau khi có được biến mới ta tiến hành tạo biến tương tác EXPER*male

Tiếp theo ta cho stata chạy mô hình theo yêu cầu đề bài.
̂ = 3164,729 + 2,752975.EXPER + 735,1963.male – 10,62136.exper_male
𝑊𝑎𝑔𝑒
Ta có được phương trình như trên.
a) Kiểm định phù hợp.
Với mức ý nghĩa 5%, ta có giả thuyết:

𝐻0: 𝛽̂ 𝑖 = 0
{
𝐻1: ∃! 𝛽̂ 𝑖 ≠ 0
𝐸𝑆𝑆
𝐾−1
Ta có F = 𝑅𝑆𝑆 = 401,62
𝑁−𝐾

Tra bảng giá trị F0,05;3;931 =2,614464


Ta có F > F0,05;3;931 nên ta bác bỏ H0 => với mức ý nghĩa 5% mô hình của chúng ta có ý nghĩa.

b) Giải thích ý nghĩa:


̂ = 3164,729 + 2,752975.EXPER + 735,1963.male – 10,62136.exper_male
𝑊𝑎𝑔𝑒
Mức lương trung bình mà mẫu khảo sát tìm được là 3164,729 đơn vị tính lương.
Mức lương trung bình sẽ tăng 2,752975 đơn vị nếu như kinh nghiệm làm việc tăng thêm một
năm.
Mức lương trung bình sẽ tăng thêm 735,1963 đơn vị nếu như tăng nếu là nam giới.
Mức lương trung bình giữa một nam và một nữ có cùng kinh nghiệm thì người nam có mức
lương thấp hơn 10,62136 đơn vị so với người nữ.
c) Wage = f(AGE, EDU, EXPER, SEX, MARRIED) + 𝜀
C1. Tạo biến giả married từ biến MARRIED và SEX
(male đã tạo ở trên)

Ta có mô hình:

Với mức ý nghĩa 5%, ta có giả thuyết:

𝐻0: 𝛽̂ 𝑖 = 0
{
𝐻1: ∃! 𝛽̂ 𝑖 ≠ 0
𝐸𝑆𝑆
𝐾−1
Ta có F = 𝑅𝑆𝑆 = 274,8
𝑁−𝐾

Ta có giá trị tra bảng: F0,05;5;929 = 2.223738


Ta có F > F0,05;5;929 nên ta bác bỏ H0 => với mức ý nghĩa 5% mô hình của chúng ta có ý nghĩa.
C2.
Nhìn vào hệ số pvalue của các hệ số, thấy có hai biến không có ý nghĩa trong phương trình là
AGE và EXPER, vậy nên ta thử mô hình bỏ hai biến này.
Với mức ý nghĩa 5%, ta có giả thuyết:

𝐻0: 𝛽̂ 𝑖 = 0
{ (i=2;4)
𝐻1: ∃! 𝛽̂ 𝑖 ≠ 0
Sử dụng stata ta có:

Có thể thấy nếu ta bỏ cả hai biến thì mô hình không phù hợp do pvalue < 0,05 (Bác bỏ H0) mô
hình bị sai ở mức ý nghĩa 5%.
Tuy nhiên nếu ta chỉ bỏ một trong hai biến thì kết quả lại cho thấy mô hình vẫn sẽ phù hợp.

Có thể thấy cả hai trường hợp này đều có pvalue > 0,05 (chấp nhận H0) => mô hình sẽ phù hợp
nếu ta chỉ loại một trong hai biến.
C3.
Mô hình 1
Ta có mô hình:
̂ = 2420,441 + 8,729259.AGE + 31,71222.EDU + 566,8494.male + 88,59726.married
𝑊𝑎𝑔𝑒
Diễn giải hệ số:
Mức lương trung bình của mẫu khảo sát là 2420,441 đơn vị tính.
Mức lương trung bình tăng 8,729259 đơn vị khi tuổi tăng một năm.
Mức lương trung bình tăng 31,71222 đơn vị khi trình độ học vấn thêm một năm.
Mức lương trung bình tăng 566,8494 đơn vị khi nếu là nam giới.
Mức lương trung bình tăng 88,59726 đơn vị nếu đó là người đã kết hôn.
Mô hình 2
Ta có mô hình:
̂ = 2556,042 + 37,44739.EDU + 6,422.EXPER + 566,0473.male + 90,83967.maried
𝑊𝑎𝑔𝑒
Diễn giải
Mức lương trung bình của toàn bộ mẫu khảo sát là 2556,042 đơn vị
Mức lương trung bình sẽ tăng 37,44739 đơn vị nếu thêm một năm học vấn.
Mức lương trung bình sẽ tăng 6,422 đơn vị nếu thêm một năm kinh nghiệm
Mức lương trung bình sẽ tăng 566,0473 đơn vị nếu người đó là nam giới
Mức lương trung bình sẽ tăng 90,83967 đơn vị nếu người đó đã kết hôn.
a)
Mô hình (1)
̂ = - 878,5515 + 26,14256.Total_area + 31,20864.Duration + 173,6698.No_of_bedroom +
𝑃𝑟𝑖𝑐𝑒
589,975.No_of_bathroom – 7,080617.Travel_time – 44,71645.Distance +
0,0030008.Popu_density

Mô hình (2)
̂
(𝐿𝑛_𝑃𝑟𝑖𝑐𝑒) = 3,839971 + 0,8017315. 𝐿𝑛_𝑎𝑟𝑒𝑎 + 0,0103874. 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 +
0,0805612. 𝑁𝑜_𝑜𝑓_𝑏𝑒𝑎𝑑𝑟𝑜𝑜𝑚 + 0,1687996. 𝑁𝑜_𝑜𝑓_𝑏𝑎𝑡ℎ𝑟𝑜𝑜𝑚 − 0,0151255. 𝐿𝑛_𝑡𝑖𝑚𝑒 −
0,2242927. 𝐿𝑛_𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 + 0.00000208. 𝑃𝑜𝑝𝑢_𝑑𝑒𝑛𝑠𝑖𝑡𝑦
Giải thích các hệ số
Giá căn hộ trung bình là 𝑒 3,839971 = 46,524 1252 𝑡𝑟𝑖ệ𝑢 đồ𝑛𝑔
Giá căn hộ sẽ tăng trung bình 0,8017 % khi diện tích tăng thêm 1%
Giá căn hộ sẽ tăng trung bình 1,03874% khi thời gian sinh sống tăng thêm một năm.
Giá căn hộ sẽ tăng trung bình 80,56% khi số lượng phòng ngủ tăng thêm một phòng.
Giá căn hộ sẽ tăng trung bình 16,888% khi số lượng phòng tăm tăng thêm một phòng.
Giá căn hộ sẽ tăng trung bình 0,151255% khi thời gian đi làm giảm đi 1%
Giá căn hộ sẽ tăng trung bình 0,2242927% khi khoảng cách từ nhà đến trung tâm thành phố giảm
đi 1%
Giá căn hộ sẽ tăng trung bình 0,000208% khi mật độ dân số khu vực tăng thêm 1 người/km2

b) Model (2) phù hợp hơn vì việc sử dụng ln sẽ khiến cho dữ liệu thu thập được tuân theo phân
phối chuẩn và giúp giải quyết trường hợp xảy ra khi dữ liệu không tuân theo phân phối chuẩn.
Ngoài ra bài đang sử dụng rất nhiều dữ liệu khác nhau nên việc xuất hiện một số biến độc lập
không có mối quan hệ cùng tăng cùng giảm với biến phụ thuộc, việc sử dụng hàm ln sẽ giảm
thiểu sai sót do trường hợp này gây ra.
Vì vậy sử dụng model (2) sẽ tối ưu hơn model (1).

You might also like