Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 51

CHƯƠNG 0 : ÔN TẬ P XÁC SUẤT THỐNG KÊ

I. Các khái niệm cần phải biết


+ Hệ số tương quan mẫu

- Phép thử, không gian mẫu, biến cố - Một số phân phối xác suất cơ bản
+ Phân phối chuẩn (normal distribution)
- Biến ngẫu nhiên
+ Phân phối chuẩn hóa( standard normal
- Biến ngẫu nhiên rời rạc ( discrete distribution)
- Biến ngẫu nhiên liên tục + Phân phối xác suất của trung bình mẫu
+ Định lý giới hạn trung tâm
- Xác suất
+ Phân phối t
+ Xác suất 1 biến cố : định nghĩa cổ điển
+ Phân phối X2
+ Tấn suất tương đối
+ Phân phối F
- Phân phối xác suất của biến ngẫu nhiên
- Suy diễn thống kê
+ Phân phối xác suất của 1 biến ngẫu
nhiên rời rạc
- Ước lượng các tham số
+ Phân phối xác suất của 1 biến ngẫu + Ước lượng điểm
nhiên liên tục + Ước lượng khoảng
+ Hàm phân phối tích lũy của 1 biến ngẫu - Tính chất của ước lượng điểm
nhiên
+ Tuyến tính
+ Hàm xác suất biên
+ Không chệch
+ Hàm xác suất điều kiện
+ P/s nhỏ nhất
- Các đặc điểm của phân phối xác suất + Hiệu quả

- Giá trị kỳ vọng + Ước lượng tuyến tính không chệch hết

- Kỳ vọng có điều kiện - Kiểm định giả thuyết


+ Giả thuyết không
- Từ tổng thể đến mẫu
+ Giả thuyết đối
+ TB mẫu
+ Kiểm định dựa vào khoảng tin cậy
+ Phương sai mẫu
 Vùng chấp nhận
+ Hiệp phương sai mẫu
Trang 1/51
 Vùng phê phán

Trang 2/51
CHƯƠNG 1: NHẬ P MÔN KINH TẾ LƯỢNG
I. Bảnchất của kinh tế lượng và dữ liệu kinh tế
1. Kinh tế lượng là gì
- Kinh tế lượng sử dụng các phương pháp thống kê để phân tích dữ liệu kinh tế
- Phân tích dữ liệu phi thí nghiệm

a. Các mục tiêu đặc trưng


- Ước lượng các mối quan hệ giữa các biến kinh tế
- Kiểm định các lý thuyết và các giả thuyết kinh tế
- Dự báo các biến kinh tế
- Đánh giá thực thi các chính sách của chính phủ và doanh nghiệp

b. Ứng dụng kinh tế lượng


- Dự báo biến số quan trọng của kinh tế vĩ mô: lãi suất, tỷ lệ lạm phát, tổng sản
phẩm quốc nội
- Tác động của việc chi tiêu cho các dịch tranh cử kết quả bầu cử
- Giáo dục: Tác động chi tiêu trường học đến kết quả học tập của sinh viên
- Phương pháp KTL để dự báo các chuối thời gian kinh tế

c. Dữ liệu phi thí nghiệm


- Việc thu thập và phân tích dữ liệu phi thí nghiệm
- Dữ liệu phi thí nghiệm không được thu thập thông qua các thí nghiệm có thể
kiểm soát trên những cá nhân hoặc phân khúc nền kinh tế
- Dữ liệu quan sát nhà nghiên cứu là người thu thập dữ liệu một cách bị động
- Được sử dụng rộng rãi ở các ngành khoa học xã hội
- Dữ liệu thí nghiệm : rất khó thu thập trong khoa học xã hội
- Thí nghiệm về xã hội có kiểm soát giải quyết những vấn đề kinh tế thường
không thể, quá tốn kém hoặc vi phạm đạo đức

Trang 3/51
2. Phân tích kinh tế thực nghiệm
a. Phân tích thực nghiệm ( empirical analysis)
- Sử dụng dữ liệu để phân tích
- Kiểm định một lý thuyết kinh tế
- Ước lượng một mối quan hệ kinh tế
- Mối quan hệ có ý nghĩa quan trọng đối với các quyết định kinh doanh hoặc phân
tích chính sách

d. Các bước phân tích thực nghiệm


Bước 1: Xác định cẩn thận về vấn đề nghiên cứu
- Kiểm định lý thuyết kinh tế
- Kiểm định các tác động của một chính sách
Bước 2: Xác định mô hình kinh tế (economic model)
- Bao gồm phương trình toán học mô tả các mối quan hệ khác nhau
• Ví dụ :
- Kinh tế vi mô: quyết định chi tiêu của cá nhân phụ thuộc vào ràng buộc ngân
sách được mô tả bằng những mô hình toán học
- Vấn đề tối đa hóa lợi ích: các cá nhân đưa ra lựa chọn để tối đa hóa lợi ích của
họ trong điều kiện nguồn lực có hạn
- Phương trình hàm cầu : lượng cầu của mỗi hàng hóa phụ thuộc vào giá của
chính hàng hóa đó, giá của hàng hóa thay thế, thu nhập của người tiêu dùng
- Phân tích kinh tế lượng và nhu cầu tiêu dùng

• Ví dụ 1: Mô hình về lý thuyết tội phạm ( Becker, 1986)


- Lý thuyết nền về tối đá hóa lợi ích để mô tả sự tham gia của một cá nhân vào
quá trình phạm tội.

Trang 4/51
- Quyết định thực hiện hoạt động phạm pháp là một sự phân bổ nguồn lực sau khi
xem xét những lợi ích và chi phí của các hoạt động này.

Số giờ tiêu tốn y= f(x1,x2,x3,x4,x5,x6,x7)


Tuổi
cho hoạt động
phạm tội
Mức án
dự kiến
Số tiền nhận được của
Tiền lương Thu nhập Khả năng nếu bị
hoạt động phạm tội Khả năng
cho việc khác bị bắt bắt
bị kết án
làm hợp
nếu bị bắt
pháp

- Có các yếu tố khác ảnh hưởng đến quyết định tham gia vào quá trình phạm tội
- Yếu tố tiêu biểu của phân tích kinh tế chính thức
- Sử dụng lý thuyết kinh tế - hoặc suy luận cá nhân - để dự đoán tác động của mỗi
biến lên hoạt động tội phạm
- Đây là cơ sở cho một phân tích kinh tế lượng về hoạt động tội phạm cá nhân
- Khởi đầu cho phân tích thực nghiệm: mô hình kinh tế chính thức
- Trực giác
Bước 3: Chuyển mô hình kinh tế thành mô hình kinh tế lượng (econometric
model)
- Xác định dạng hàm f()
- Giải quyết với các biến không thể quan sát một cách hợp lý
• Ví dụ: Becker, 1986
- Nhiều yếu tố khác tác động đến hành vi tội phạm mà chúng ta không thể liệt kê
ra hết được
- Nhưng bằng cách nào đó chúng ta phải xem xét đến chúng
Đo lường hoạt Tiền lương cho
đọng động phạm Số lần bị bắt giữ trước
việc làm hợp Thu nhập khác đây
tội pháp Các yếu số tác động đến hoạt
động phạm tội nhưng không quan
sát được

Trang 5/51
Ví dụ : tính cách số tièn thi
được từ hoạt động phạm
Số lần bị Độ dài bản án nếu bị Tuổi
kết án kết tội

Crime = β0 + β1wagem + β2othinc + β3frequarr +


β4freqconv + β5 avgsen + β6age + u

- Chọn biến đưa vào mô hình: lý thuyết kinh tế và xem xét dữ liệu
- Thực tế, xử lý phần sai số hay nhiễu là phần quan trọng nhất của bất kỳ phân
tích kinh tế lượng nào
- Các hằng số β0; β1; :::β6 là các tham số của mô hình KTL, chúng mô tả chiều
hướng và mức độ của mối quan hệ giữa crime và các yếu tố được giải thích cho
crime
• Ví dụ 2. Mô hình đào tạo nghề và năng suất người lao động
Đo lường hoạt Số lần bị bắt giữ trước
động phạm tội Thu nhập khác đây
Các yếu số tác động đến tiền
lương không quan sát được

wage = β0 + β1educ + β2exper + β3training


+u Ví dụ : năng lưjc bẩm sinh,
chát lượng giáo dục, nền
1.4 tảng gia đình
Tiền lương Số tuần tham gia
Số năm đi học Số năm kinh
theo giờ đào tạo nghề
chính thức nghiệm

Kiểm định giả thuyết


- Tham số β3 cho biết tác động của việc đào tạo lên tiền lương
- Tác động này lớn ra sao? Tác động này có khác 0 hay không?

Trang 6/51
• #Slideneu

Bước 1: Nêu các giả thuyết, giả thiết


• Đưa các giả thuyết về mối liên hệ giữa các yếu tố
• Giả thuyết phù hợp mục đích nghiên cứu
• Còn gọi là xây dựng mô hình lý thuyết
Bước 2: Định dạng mô hình toán học, gồm
• Các biến số: lượng hóa, số hóa các yếu tố
• Các tham số, hệ số thể hiện mối liên hệ
• Các phương trình
Bước 3: Định dạng mô hình kinh tế lượng
• Thêm vào mô hình toán học yếu tố ngẫu nhiên,
thể hiện qua sai số ngẫu nhiên
Bước 4: Thu thập số liệu
• Để ước lượng các tham số cần số liệu mẫu
• Độ chính xác của số liệu ảnh hưởng đến kết quả
Bước 5: Ước lượng các tham số
Trang 7/51
• Sử dụng phân tích hồi quy, ước lượng tham số
Bước 6: Phân tích kết quả
• Phân tích về kinh tế: có phù hợp lý thuyết không?
• Phân tích về kỹ thuật: thống kê và toán học
• Nếu có sai lầm, quay lại các bước trên
Bước 7: Dự báo
• Mô hình phù hợp về lý thuyết và kỹ thuật, sử
dụng để dự báo
Bước 8: Kiểm tra, đề ra chính sách

3. Cấu trúc dữ liệu kinh tế


Các loại dữ liệu kinh tế
1. Dữ liệu chéo (cross–sectional data)
2. Dữ liệu chuỗi thời gian (time–series data)
3. Dữ liệu chéo gộp (pooled cross sectional)
4. Dữ liệu bảng (panel data)

3.1. Dữ liệu chéo ( cross – sectional data)


- Mẫu của các cá nhân, các hộ gia đình, các doanh nghiệp, hoặc các đối tượng
khác, được thu thập tại một thời điểm cụ thể hoặc trong một khoảng thời gian đã
cho
- Các quan sát có thể ít nhiều độc lập với nhau
- Giả định dữ liệu được thu thập bằng cách lẫy mẫu ngẫu nhiên (random
sampling) từ tổng thể cần nghiên cứu
- Đôi khi việc lấy mẫu ngẫu nhiên bị vi phạm, ví dụ: các đơn vị từ chối trả lời
trong các cuộc khảo sát, hay nếu việc lấy mẫu được phân theo cụm
- Kinh tế vi mô ứng dụng

Trang 8/51
• Ví dụ: Dữ liệu chéo về tiền lương và các đặc điểm cá nhân

- 526 cá nhân làm việc trong năm 1976


- wage: tiền lương tính bằng đô la trên giờ
- educ: số năm đi học
- exper: số năm kinh nghiệm tiềm năng
- female: biến giả về giới tính, biến nhị phân
- married: biến giả tình trạng hôn nhân
- Cột đầu tiên: số thứ tự quan sát được gán cho mỗi người trong mẫu, nó không
phải là một đặc điểm của cá nhân
- Thứ tự của dữ liệu không quan trọng, đặc điểm của dữ liệu chéo khi mẫu được
chọn ngẫu nhiên

3.2. Dữ liệu chuỗi thời gian


Dữ liệu chuỗi thời gian
- Các quan sát về một hoặc nhiều biến theo thời gian
- Ví dụ: giá cổ phiếu, cung tiền, chỉ số giá tiêu dùng tổng sản phẩm quốc nội,
doanh số bán ô t
- Thứ tự thời gian của các quan sát trong chuỗi thời gian chuyển tải những thông
tin tiềm ẩn quan trọng
- Các quan sát chuỗi thời gian thường gặp vấn đề về tương quan chuỗi
- Tần suất dữ liệu: hàng ngày, hàng tuần...
Trang 9/51
- Đặc điểm tiêu biểu của chuỗi thời gian: xu thế và thời vụ
- Kinh tế vĩ mô và tài chính ứng dụng
Tương quan chuỗi
- Đặc điểm quan trọng: các quan sát kinh tế hiếm khi được giả định là độc lập
theo thời gian ) khó phân tích hơn dữ liệu chéo
- Chuối thời gian có tương quan, tương quan mạnh, với những dữ liệu gần trong
quá khứ của chúng
- Ví dụ: GDP của quý trước, thông tin của quý này, khoảng biến thiên của GDP
quý này, GDP có xu hướng khá ổn định từ quý này sang quý tiếp theo
- Nhiều thủ tục quan trọng cần phải thực hiện cho chuỗi dữ liệu thời gian trước
khi áp dụng các mô hình kinh tế lượng thông thường.
Bảng 2 : Lương tối thiểu, thất nghiệp, dữ liệu liên quan của Puerto Rica
Tác động của lương tối thiểu Peurto Rico
Dữ liệu phải được lưu trữ theo thời gian

So sánh dữ liệu chéo và tương quan chuỗi


- Thứ tự thời gian của các quan sát dữ liệu chéo cần giữ nguyên do có sự liên
quan đến các thời gian khác
- Tương quan chuỗi: các dữ liệu không có tương tác về mặt thời gian, do đó
không cần xếp thứ tự các quan sats
3.3. Dữ liệu bảng
Các chuỗi thời gian ứng với mỗi đối tượng chéo trong tập dữ liệu
- Ví dụ: tiền lương, học vấn và lịch sử làm việc của môt tập hợp các cá nhân trong
khoảng thời gian mười năm
- Chiều thời gian và chiều dữ liệu chéo
Trang 10/51
- Yếu tố không quan sát được nhưng thay đổi theo thời gian
Bảng 3: Dữ liệu bảng hai năm về thống kê tội phạm thành phố

• Nhận xét:
- Dữ liệu chéo: ít gặp khó khăn về khái niệm và kỹ thuật nhất
- Chuỗi thời gian sử dụng rất nhiều các công cụ tương tự như phân tích dữ liệu
chéo, nhưng thường phức tạp hơn vì tính xu hướng, tính bền, tính động, tính
mùa vụ
- Dữ liệu bảng: một số vấn đề khó có thể trả lời thỏa đáng mà không có dữ liệu
bảng
Tính trễ trong hành vi hoặc kết quả của việc ra quyết định
4. Quan hệ nhân quả và các yếu tố khác không đổi
4.1. Tác động nhân quả
Định nghĩa về tác động nhân quả của x đến y
Cách thức biến y thay đổi khi biến x thay đổi “trong điều kiện các yếu tố khác
không đổi”
- Đa số các câu hỏi kinh tế là câu hỏi phân tích trong điều kiện các yếu tố khác
không đổi
- Điều quan trọng là xác định tác động nhân quả nào mà người ta quan tâm
- Cần thiết phải mô tả cách thiết kế một thí nghiệm để có thể suy diễn được về
quan hệ nhân quả mà câu hỏi nghiên cứu đặt ra
• Ví dụ: Phân tích nhu cầu người tiêu dùng
- Tác động của việc thay đổi giá của một mặt hàng lên lượng cầu của nó
- Giữ tất cả các yếu tố khác không đổi: thu nhập, giá cả của các hàng hóa khác, thị
hiếu cá nhân

Trang 11/51
- Nếu các yếu tố khác không được giữ cố định, thì chúng ta ta không thể biết tác
động nhân quả của sự thay đổi giá lên lượng cầu
• Ví dụ: Đo lường suất sinh lợi của giáo dục
- Nếu một người được chọn từ tổng thể và số năm đi học của người này tăng thêm
một, tiền lương của họ sẽ tăng bao nhiêu
- Giả thiết ngầm: tất các yếu tố khác tác động đến tiền lương như kinh nghiệm,
nền tảng gia đình, sự thông minh,... được giữ cố định
- Số năm đi học của một người có liên hệ với các yếu tố khác mà tác động đến
tiền lương (ví dụ: sự thông minh

Trang 12/51
CHƯƠNG II : MÔ HÌNH HỒI QUY ĐƠN
1. Định nghĩa mô hình hồi quy đơn
1.1. Giải thích biến y theo x
Phân tích KTL ứng dụng
- Cho y và x là hai biến đại diện cho tổng thể nào đó
- Giải thích biến y theo x
- Nghiên cứu sự thay đổi của y khi x thay đổi
Ví dụ
- Y là sản lượng đậu nành và x là lượng phân bón
- Y là tiền lương theo giờ và x là số năm đi học
Giải thích biến y theo x
Hệ số chặn
Hệ số góc
2.
1
Y = β0 + β1x + u

Thành phần sai số


ngầu nhiên ( dại diện
Biến phụ thuộc các yéu tố không
Biên được giải Số năm đi học quan sát được
thích chính thức Nhiều u luôn tồn tại
Biến được quy hồi

4.2. Diễn giải mô hình hồi quy


“Nghiên cứu sự thay đổi của y tương ứng với sự thay đổi trong x”
∆ y =β 1 ∆ x nếu ∆ u=0 2.2
∂y ∂u
= β 1 với điều kiện =0
∂x ∂x

Biến phụ thuộc thay đổi bao nhiêu


đơn vị nếu biến độc lập tăng thêm Việc giải thích chỉ đúng khi tất cá các
một đơn vị yếu tố giữ nguyên, khi biến độc lập tăng
1 đơn vị

- Giải quyết về dạng hàm trong mối quan hệ giữa y và x


Trang 13/51
- Nếu các thành phần khác trong u được giữ cố định, thì x có tác động tuyến tính
lên y.
• Ví dụ: Phương trình tiền lương dạng đơn giản
Một mô hình thể hiện mối quan hệ giữa tiền lương của người lao động với trình độ
học vấn và các yếu tố không quan sát được
Wage = β0 + β1educ +
u Kinh nghiệm tham
gia lực lượng lao
Đo sự thay đổi trong tiền lương theo
2. động, thâm niên
4 chức vụ, đạo đức
giờ khi thêm 1 năm đi học giữ nguyên
công việc, sự
các yếu tố khác cố
thông minh …..

- Tính chất tuyến tính, không phụ thuộc vào giá trị ban đầu của x, không đúng
trong thực thế
- Mối quan hệ giữa tiền lương – học vấn, suất sinh lợi theo giáo dục tăng dần :
nghĩa là năm đi học tiếp theo sẽ có tác động lớn hơn đến tiền lương so với năm
đi học trước đó
- Mô hình cho phép đo lường suất sinh lợi tăng dần
4.3. Quan hệ nhân quả
- Làm sao có thể kết luận được chính xác tác động của x lên y, trong điều kiện các
yếu tố khác không đổi
- Có thể ước lượng đáng tin cậy β0 β1 từ một mẫu ngẫu nhiên
- Ràng buộc rất chặt về mối quan hệ giữa các thành phần không quan sát được
trong u với các biến giải thích x
- Do u và x là các biến ngẫu nhiên, ràng buộc giữa các biến sẽ được phát biểu
theo công thức xác suất
Giả định về u
E(u) = 0
- Phân phối của các yếu tố chưa quan sát được trong tổng thể
- Trung bình của các yếu tố khác chưa đưa vào mô hình tiền lương bằng 0 trong
tổng thể tất cả những người làm việc
Mối liên hệ giữa u và x
- U và x là các biến ngẫu nhiên,phân phối có điều kiện của u và x
Trang 14/51
- Giả thiết trung bình có điều kiện bằng 0

Biến giải thích không hàm chứa


E(u|x) = 0 thông tincủa các yếu tố không
2.5 & 2.6 quan sát được

Ví dụ tiền lương
- Giả sử u chỉ bao gồm yếu tố năng lực bẩm sinh
- Mức trung bình năng lực bẩm sinh là như nhau không phụ thuộc vào số năm đi
học
- E(abil|8) là năng lực bẩm sinh trung bình của nhóm lao động có số năm đi học là
8
- E(abil|8)=E(abil|16), phi thực tế
4.4. Hàm hồi quy tổng thể (PRF)
- Giả thiết trung bình có điều kiện bằng 0, hàm ý
E(y|x) = E ( β0 + β1 + u|x)
= β0 + β1x+ E(u|x)
= β0 + β1 x
- Đây là hàm hồi quy tổng thể (PRF)
- E(y|x) là một hàm tuyến tính theo x
- Tuyến tính có nghĩa là mỗi đơn vị tăng thêm của x đều làm thay đổi giá trị kỳ
vọng của y một lượng đúng bằng β1
• Ví dụ
- Giả sử xét đường cầu nước khoáng đóng chai tại một ốc đảo có 55 hộ gia đình
- Qua khảo sát ta có kết quả như sau:

Trang 15/51
- Tại mức giá bằng 2, có 5 người tiêu dùng sẵn lòng trả, với các lượng cầu tương
ứng lần lượt là 44,45,47 và 48’ E(Y|X = 2) = 46
- Các giá trị trung bình của Y cho từng X, được gọi là giá trị kỳ vọng có điều kiện

Trang 16/51
- Đường thẳng đi qua các E(Y/X) : đường hồi quy tổng thể
- Đường hồi quy thể hiện một xu hướng khi tăng giá thì lượng cầu giảm : quy
luật cầu
- Đường hồi quy tổng thể là đường thẳng cho biết giá trị trung bình của biến phụ
thuộc (lượng cầu nước đóng chai) theo từng giá trị tương ứng của biến độc lập
( giá nước đóng chai) trong toàn bộ tổng thể

- E(y|xi) – f(x) ( trong trường hợp này là có vẻ có dạng tuyết tính)


E(y|xi) = β0 + β1xi (1)
(1)Phương trình toán của đường hồi quy
- Trong đó, i là ký hiệu của hộ gia đình thứ i trong tổng thể
- (1) gọi là hàm quy hồi tổng thể dạng xác định

• VD:
- Khi x =4, thì y trung bình là 42
- Nhưng nếu ta lấy một hộ ngẫu nhiên trong 6 hộ ở mức giá này thì có thể lượng
cầu sẽ không bằng 42
- Có sự chênh lệch giữa giá trung bình và từng giá trị cá biệt mỗi nhóm
- Lượng cầu của một hôh ngẫu nhiên bằng lượng cầu trung bình của nhóm đó
cộng hoặc trừ một lượng sai số nào đó
5. Tìm các ước lượng bình phương nhỏ nhất
5.1. Ước lượng mô hình hồi quy
 Để ước lượng mô hình hồi quy, ta cần dữ liệu
 Một mẫu ngẫu nhiên gồm n quan sát
- (x1, y1) ß quan sát thứ nhất
- (x2, y2) ß quan sát thứ hai {(xi, ui) : i = 1,…, n}
- (x3, y3) ß quan sát thứ ba
-:
Giá trị của biến
- (xn, yn) ß quan sát thứ n giải
Giá trị của biến phụ
thuộc ở quan sát thứ i
thích ở quan sát

Trang 17/51
5.2. PRS và SRF
a. Hàm hồi quy tổng thể PRF
- Dạng xác định: E(y\x) = β0 + β1x
- Dạng ngẫu nhiên : y = β 0 + β1 x + u
= phần hệ thống + phần phi hệ thống
e. Hàm hồi quy mẫu (SRF)
- Dạng xác định : ^y = β^0+ ^
β 1x
- Dạng ngẫu nhiên : ^y = β^0+ ^β 1 x + u^

y = ^y + u^
- u: sai số ngẫu nhiên
- u^ : phần dư ,thắng dư
-^ β 0 là ước lượng của β 0
-^ β 1 là ước lượng của β 1

Note: Ước lượng ( estimator) # Gt (estimate)


f. Giá trị ước lượng của y
- Với mọi ^β 0 và ^
β 1giá trị ước lượng của y khi x = xi là:
β 1 x i (5)
y i= β^0 + ^
^
- Đây là giá trị dự đoán của y khi x= xi với hệ số chặn và hệ số góc cho trước
- Mỗi quan sát trong mấu đều có một giá trị ước lượng của y tương ứng
g. Phần dư
Phần dư của quan sát thứ i là chênh lệch giữa giá trị thực tế của yi và giá trị ước
lượng ^yi
y i= y i− β^0 + β^1 x i
u^i= y i− ^
Có n phần dư như vậy
Ta sẽ chọn ^
β 0 và ^
β 1 sao cho tổng bình phương các giá trị phần dư đạt giá trị nhỏ nhất
n n

∑ u^i2=∑ ( ^yi− ^ β 1 xi)2


β 0− ^
i=1 i=1

5.3. Càng phù hợp càng tốt


Càng phù hợp càng tốt : yi
^ càng gần với yi với mọi i
Trang 18/51
- Các phần dư hồi quy
2.21
u^i= y i− ^ y i− β^0 − ^
y i= ^ β1 x i

- Cực tiểu hóa tổng bình phương các phần dư hồi quy

Min ∑ u^ i2 → ^
β0 , ^
β1
i=1

- Ước lượng bình phương nhỏ nhất thông thường (OLS)

n 2.17 &
∑ ( x i−x́ )( y i− ý ) 2.19
β 1= i=1
^
n
,^
β 0= ý− β^1 x́
2
∑ ( x i− x́ )
i=1

• Ví dụ : Lương của CEO và tỷ số lợi nhuận trên vốn


Salary = β0 + β1 roe + u

Lợi nhuận trên vốn chủ sở hữu ( Return on


Tiền lương tính theo ngàn USD equity) của doanh nghiệp mà CEO đang làm
việc

Trang 19/51
6. Phương pháp OLS
6.1. Nội dung phương pháp OLS
Chọn ^ β 1 sao cho Σ u^i 2 đạt giá trị nhỏ nhất
β 0 và ^
∂ u^i2
=0 ;
∂^β0

^ Σ( x i− x́)( y i− ý)
β 0=
∑ (xi −x́ ¿ )2 ¿
x́ là giá trị trung bình của x

x=
∑ xi
n
ý là giá trị trungbình của y

y=
∑ yi
n

^ Σ( x i− x́)( yi − ý)
β 0=
cov ( x , y )
∑ ( x i− x́ ¿ )2= var ( x) ¿

Chọn ^
β 0 và ^
β1

Càng phù hợp càng tốt : yi


^ càng gần với yi với mọi i
- Các phần dư hồi quy
2.21
u^i= y i− ^ y i− β^0 − ^
y i= ^ β1 x i

- Cực tiểu hóa tổng bình phương các phần dư hồi quy

Min ∑ u^ i2 → ^
β0 , ^
β1
i=1

- Ước lượng bình phương nhỏ nhất thông thường (OLS)

2.17 &
2.19
Trang 20/51
n

∑ ( x i−x́ )( y i− ý )
β 1= i=1
^
n
,^
β 0= ý− β^1 x́
∑ ( x i− x́ )2
i=1

….
Đây là một đoạn bị missing cái gì đấy
Gọi là ước lượng bình phương nhỉ nhất OLS của ^
β0 và ^
β1

- Với mọi ^ β 1 giá trị ước lượng của y khi x = xi là


β 0 và ^
y i= β^0 + ^
^ β 1 xi
- Đây là giá trị dự đoán của y khi x = xi với hệ số chặn và hệ số góc cho trước
a. Đường hồi quy OLS
y i= β^0 + ^
^ β1 xi (9)
- Hàm hồi quy mẫu ( sample regression function, SRF)
- Phiên bản ước ước lượng của PRF : E(y|x) = β0 + β1x
- Hệ số chặn ^
β 0 là giá trị dự đoán của y khi x = 0, thường ít được quan tâm
- PRF cố định, nhưng chưa biết trong tổng thể
- SPF luôn tính toán được với dữ liệu khác nhau sẽ có hệ số góc và hệ số chặn
khác nhau theo (9)

* Ta có hàm hồi quy mẫu dạng xác định


y i= β^0 + ^
^ β 1 xi ( ^y = β^0 + β^1 x ¿

- Khi xi =0 thì ^
y 0= β^0
- Khi x tăng lên 1 đơn vị thì : (thêm) → ∆x = 1 → ∆ ^y =?
h. Hệ số góc
^ ∆ ^y
β 1=
∆ ^x
- Lượng thay đổi của ^y khi x tăng thêm 1 đơn vị
∆ ^y = ^
β1∆ x
- Với bất kỳ sự thay đổi nào của x, chúng ta đều có thể dự đoán được sự thay đổi
của y

Trang 21/51
• Ví dụ
Hàm hồi quy mẫu dạng xác định ( Đường hồi quy OLS ) là:
^y =−0.0949+0.5414 educ
Diễn giải:
+/ Khi educ = 0 thì tiền lương dự đoán là w^
age=−0.9049

+/ ^
β1=0.05414 → khi∆ educ=1thì tiền lương dự đoán tăng0.5414

Nội dung của phương pháp OLS : Chọn ^ β 0 và ^


β 1 sao cho tổng bình phương các phần
dư đạt giá trị nhỏ nhất :∑ u^i2 đạt giá trị min
+/ Phần dư của quan sát thứ i : u^i= y i−^y i
¿ y i− β^0− β^1 x

→ Có n quan sát → có n phần dư


+/ Tổng bình phương các phần dư
n n

∑ ui^ 2=∑ ( ^yi− β^0 − ^β1 xi)2


i=1 i =1

Đây là phần doc 1


6.2. Tính chất đại số của các thống kê OLS
n n
2. x u^ =0 1. ý= β^ 0 + β^ 1 x́
∑ u^ i=0 ∑ i i
i=1 2i=1 2

Tương quan giữa phần


Tổng các phân tử bằng 0 dư và biến độc lập bằng Trung bình mẫu của y
0 và x nằm trên đường
Có n phần dư, giá trị trung bình mẫy của phần dư = 0 hồi quy mẫu SRF

a. Đo lường sự biến động


n n n

SST = ∑ ( y i− ý )2 SSE = ∑ ( ^y i− ´^y )2 SSR = ∑ u^i2


i=1 i=1 i=1

Tổng bình phương toàn Tổng bình phương hồi


Tổng bình phương phần dư, cho
phần cho biết toàn bộ quy, cho biết biến thiên
biết phần biến thiên không được
biến thiên trong biến phụ được giái thích bởi hàm
giải thích bởi hàm hồi quy
thuộc hồi quy

Trang 22/51
- STT : total sum of Squares
- SSE : Explained Sum of Squares
- SSR : Residual Sum of Squares

i. Phân rã mức độ biến thiên


a.
SST = SSE + SSR
2.

Toàn bộ Phần biến Phần biến thiên


phần biến thiên được không được giải
thiên giải thích thích

Đo lường độ phù hợp R2


SSE SSR
R 2= =1−
SST SST 2.38
Tính chất: 0 ≤ R2≤ 1
R2 = 0 => β1mu = 0 R2 cho biết tỷ lệ phần biến thiên được
giải thích bằng hàm hồi quy
Hệ số xác định bằng bình phương hệ số tương quan mẫu

• Ví dụ : Lương của CEO và tỷ số lợi nhuận tiền vốn


^
salary=963.191+18.501roe • 2.3
n = 209, R2 = 0.0132
• Hồi quy chỉ giải thích 1.32% thay
đổi trong tiền lương của CEO

- 98,7% sự thay đổi về lưogn của các CEO này vẫn chưa được giải thích
- Nhiều yếu tố khác liên quan đến đặc điểm doanh nghiệp cũng như đặc điểm
CEO có tác động đến tiền lương
- Những yếu tố này nằm trong thành phần sai số

Trang 23/51
n

SSE = ∑ ( ^y i− ´^y )2= (n-1)var ( ^y )


i=1
n

SST = ∑ ( y i− ý )2=( n−1 ) var ( y )


i=1

SSN = (n-1) var ( u^ )


var ( ^y ) var ( u^ )
→ R2 = var ( y)
=1−
var ( y)

j. Cảnh báo :
R2 là hệ số xác định của mô hình
- Phân tích dữ liệu chéo, trường hợp hồi quy R2 thấp không phải hiếm
- R2 không có nghĩa là hồi quy OLS không dùng được
- Ví dụ: Bản chất mối quan hệ giữa salary và roe không phụ thuộc vào độ lớn của
R2
7. Vấn đề về đơn vị tính của biến và dạng hàm
7.1. Ảnh hưởng của việc thay đổi đơn vị tính
a. Biến phụ thuộc thay đổi đơn vị tính
Nếu biến phụ thuộc thay đổi đơn vị tính với hằng số c – mỗi giá trị trong mẫu đều
được nhân với c – thì các ước lượng OLS của hệ số chặn và hệ số góc đều được
nhân cho c
k. Biến độc lập thay đổi đơn vị tính
- Nếu biến độc lập được nhân với một hằng số c khác 0 thì hệ số góc OLS sẽ được
chia tương ứng với c
- Không ảnh hưởng đến hệ số chặn
l. R2
- R2 là bất biến đối với những thay đổi đơn vị tính của y hay x
• VD: Roe và tiền lương của Ceo
(ngàn đô) => đô la

Trang 24/51
Đây là trường hợp thay đổi đơn vị tính của biến phụ thuộc
Thay đổi cả hệ số chặn và hệ số góc
7.2. Kết hợp phi tuyến vào hồi quy đơn
 wage
VD 2.4
= βTiền lương và học vấn
0 + β1educ +

Tính theo 2.
giờ USD Số năm đi học
4
 Hàm hồi quy ước lượng
w
^ age=−0.09+0.5 educ 2.27

Hệ số chặn Nếu số năm đi học tăng 1


năm thì tiền lương tăng 0.54
 Diễn giải ý nghĩa nhân quả
USD/giờ

- Do bản chất tuyến tính của (2.27) : 0.54 xu là mức gia tăng cho cả những năm
học đầu tiên cũng như năm học thứ 20 , phi thực tế
a. Kết hợp phi tuyến tính : Dạng semi – log
• VD 2.10 Hồi quy log tiền lương theo số năm đi học
log ( wage )=β 0+ β1 educ +u
• 2.
4
Log tự nhiên của tiền lương

Trang 25/51
Diễn giải
Số năm đi học tăng thêm 1 năm thì tiền lương sẽ tăng thêm (β 1 * 100)%
%∆wage = (β1 * 100) %
Mô hình Biến phụ Biến độc lập Giải thích β1
thuộc
Tuyến tính – tuyến Y X ∆y = β1∆x
tính
Tuyến tính – log Y Log(x) ∆y = (β1/100)%∆x
Log – tuyến tính Log(y) X %∆y = (100β1)∆x
Log – log Log(y) Log(x) %∆y = %∆x

BUỔI 6
NEU: Tn
^ = 69.44 +1.95KN
^β 0=69.44 → Nếu KN = 0 thì Tn
^ = 69.44

→ Mức lương TB của những người vừa mới tốt nghiệp là khoảng 69.44 triệu/năm
+ ^β 1=1.95 → cứ sau mỗi năm làm việc thì mức lương TB này gia tăng khoảng 1.95
triệu/năm
+ R2 = 1.6% = 0.016 → biến số năm KN chỉ giải thích được 1.6 % sự thay đổi của
mức lương
* Tiền lương
w
^ age = -0.90 + 0.54 educ
Với một người đi học 8 năm tiền lương dự đoán ( tiền lương trung bình) là wagemu
= -0.90 + 0.54*8 = 3.42$/h
+ ^β = 0.54, ngụ ý rằng khi số năm đi học tăng thêm 1 năm thì tiền lươngn tăng thêm
54 xu/h
+ R2 = 0.186 = 1.86% → biến edu giải thích khoảng 18.65 sự thay đổi trong wage

Đoạn trên cô đang giải thích sự khác biệt giữa giáo trình NEU với cô dạy
5. Giá trị kỳ vọng và phương sai ước lượng của OLS
Các hệ số hồi quy ước lượng được cho là các biến ngẫu nhiên vì chúng ta được tính
từ một mẫu ngẫu nhiên.
Trang 26/51
^
β 1=¿ ¿ ^β 0= ý − ^β1 v́

Câu hỏi là trung bình các tham số ước lượng bằng bao nhiêu và chúng biến thiên sao
trong mẫu lặp lại
E( ^
β 0 ¿=? , E ( ^
β1 ) =? Var( ^
β 0 ¿=? ,Var ( β^1 ) =?

* NEU
- Các ước lượng thu được từ các mẫu khác nhau của cùng 1 tổng thể có thể rất khác
nhau → do đó cùng có thể khác biệt với các hệ số hồi quy tổng thể
- Nếu đơn giản ước lượng các mô hình nói trên thì chưa có gì để đảm bảo βmu0 và
^β 1 là các ước lượng đáng tin cậy cho các hệ số hồi quy tổng thể ( β0 và β1)

=> Điều này dẫn chúng ta đến câu hỏi như sau
1. Khi nào thì ^
β0 và ^
β 1 là các ước lượng đáng tin cậy cho các giá trị chưa biết β0 và
β1
2. Nếu các ước lượng ^
β0 và ^
β 1 là đáng tin cậy thì mức độ chính xác của các ước lượng
này là thế nào?
=> Tính không chệch và sộ chính xác của ước lượng OLS
=> Một số giả thiết ( assumptions) chỉ ra rằng khi chúng được thỏa mãn thì các ước
lượng ^ β 1 thu được từ phương pháp OLS là các ước lượng không chệch cho ^β 0 và ^β
β 0 và ^
1
(SLR1 → SLR5) SLR : Simple linear regression

SLR1: Tuyến tính theo các tham số


Trong mô hình tổng thể, biến phụ thuộc, y liên hệ với biến độc lập x và sai số (hay
phần nhiễu), u, theo dạng
y = β0 + β1x + u (11)
(y là 1 hàm tuyến tính theo x→ các tham số ^β 0 và ^β 1 tuyến tính)
Trong đó, ^β 0 và ^β 1 lần lượt là hệ số chặn và hệ số góc tổng thể

Trang 27/51
Sử dụng dữ liệu thực tế của y và x để ước lượng các tham số, đặc biệt là ^β 1 giả sử dữ
liệu sử dụng một mẫu ngẫu nhiên

SLR2: Mẫu ngẫu nhiên


Mẫu ngẫu nhiên kích thước n
(10) dưới dạng ngẫu nhiên
y = β0 + β1 xi+ ui (12)

Trong đó, ui là sai số hay nhiễu của quan sát thứ i


Ui chưa các thành phần không quan sát được của quan sát thứ i tác động lên yi
Các ước lượng hệ số góc OLS và hệ số chặn không thể tích được trừ khi có vài sự
biến động trong mẫu của biến giải thích
 Mô hình ước lượng trên cơ sở mẫu NN kích thước n { (xi,yi); i= 1,2,…n}
 Khi đó mô hình có thể viết cho từng quan sát mẫu như sau: y i=β 0 + β 1∗x i +ui
^β 1= ∑( x i− x́)( y i − ý)
2
∑ ( x i− x́ )

SLR3: Sự biến động trong mẫu của biến giải thích


Các giá trị cụ thể của x trong mẫu, ký hiệu là {xi, i= 1,..,n} không nhận cùng một giá
trị
n

∑ ( xi −x́ ) 2> 0
i=1

SLR4: Kỳ vọng có điều kiện bằng 0


E(ui | xi) = 0 giá trị của biến độc lập không được chứa thông tin về giá trị
trung bình của các yếu tố không quan sát được
Khi giả thiết được thỏa mãn
Cov(x,y) = 0
Giá trị này cho rằng tại mỗi giá trị của x= xi bất kỳ thì TB và do đó tổng ảnh hưởng
của các yếu tố ngoài x tên y là bằng 0
VD: PT tiền lương : wage = ^
β0 + ^
β 1 educ +u
→ E(ui|educi) = 0
Trang 28/51
Nó ngụ ý rằng tại mối số năm đi học bất kỳ tác động tổng hợp của các yếu tố như gia
cảnh, trí thông minh, số năm KN … lên đến tiền lương đều bằng nhau và bằng 0
→ abil E( ablil / educ =12) =0
E(abili /educi =16) = 0
Định lý 2.1 Tính không chênh lệch OLS
SLR.1 – SLR.4 => E ( β^0 )=β 0 , E ( β^1 )=β 1
- Với mọi giá trị của β0 và β1
-^β 0là ước lượng không chệch của β0
-^β 1là ước lượng không chêch của ^β 1

Phụ thuộc vào mẫu, các giá trị ước lượng sẽ gần hơn hay xa hơn so với các giá trị
đúng của tổng thể
Chúng ta có thể kỳ vọng các giá trị ước lưognj, xét trung binhg, cách bao xa các giá
trị đúng của tổng thể (= độ biến thiên của mẫu)
Độ biến thiên cảu mẫu được đo bằng phương sai của các ước lượng
Var ( ^
β 0 ¿ , var ( ^
β 1)

Giả thiết SLR.5 ( Phươngn sai thuần nhất)


Var(ui|xi) = σ 2 (σ 2: Giá trị của biến giải thích phải không chứa thông tin về độ biến
thiên của các yếu tố không quan sát được, nhiễu)
→ Phương sai của SSNN là bằng nhau tại mọi giá trị xi
→ Giả thiết này cho rằng tại mỗi giá trị của x thì SSNN u có phương sai
* SLR4 và SLR5 : var ( u|x) = σ2
E(u|x) = 0 liên quan đến giá trị kỳ vọng của u
Var( u|x) = σ2 liên quan đến phương sai u
Thiết lập tính không chêch của OLS mà không cần đến giả thiết SLR.5
SLR.5 không đóng vai trò trong việc chứng minh β0 và β1 không lệch
Hàm ý là phương pháp bình phương nhỏ nhất có tính hiệu quả
* Phương sai của SSNN u ( var(u))
Độ chính xác cảu ước lượng OLS
Var(u|x) =
Var(x) = E(X2) – [E(X)]2
Trang 29/51
Theo
SLR4: E(u|x) = E(u) = 0
→ var (u|x) = E(u2| x) = σ2
Var(u) = E(u2) – [E(u)]2 = E(u2)= σ2
+ σ2 được gọi là phương sai của ss hay ps của nhiễu
+ Căn bậc hai của p/s là độ lệch chuẩn của ss
+ σ càng lớn thì pp của phần không quan sát được tác động lên đến y có độ trải dài
càng rộng
* Phương sai sai số thay đổi
Var (u|x) = f(x)
- Var( u|x) phụ thuộc vào x, sai số được gọi là có phương sai thay đổi
- Vì var(u|x) = var(y|x) phương sai thay đổi cũng hiện diện khi var(y|x) là hàm số
của x
- Var(u|x) = var(y|x) = f(x)
Ví dụ:Phương sai thay đổi trong phương trình tiền lương
Để có ước lượng không chệch của tác động educ lên wage ( trong điều kiện các yếu
tố khác không đổi) ta phải giả định:
Wage = β0 + β1educ + u
E(wage|educ) = β0 + β1educ
E(u|educ) = 0 (17)
E(wage|educ) = β0 + β1educ (18)
- Var(u|educ) = σ2 không phụ thuộc vào mức học vấn (var( u|educi=12) = var(u|
educi = 18 = σ2 )
- Var( wage|educ) = σ2 (var(wage|educi =12) = var ( wage|educi =18) = σ2

- Tiền lương trung bình được phép tăng theo học vấn
- Độ biến động tiền lương quanh giá trị trung bình của nó đưuocj giả định là
không đổi xét theo tất cả các mức học vấn
- Điều này có vẻ không thực tế
- Người học vấn thấp rất thấp ít có cơ hội lựa chọn công việc hơn và thường phải
làm việc với tiền lương tối thiểu
Trang 30/51
- Người có học vấn cao hơn có nhiều cơ hội công việc với nhiều mức lương khác
nhau, độ biến động càng nhiều khi mức học vấn càng cao
- Khác với SLR.4, SLR.5 có thể xem xét thỏa mãn hay không, không thuộc về
vấn đề thực nghiệm
Định lý 2.2 Phương sai mẫu của các ước lượng OLS
Dưới các giả thiết SLR.1 - SLR.5:

^β 1 ¿= σ2
Var( n
σ2
∑ ( x i−x́ ¿)2 = SST x
¿
i=1

Phụ thuộc vào phương sai của sai số σ 2 (phương sai của sai số ngẫu nhiên)
Phương sai của sai số càng lớn thì Var( ^β 1) cũng càng lớn
Phần chưa quan sát được biến động càng lướn thì càng khó ước lượng chính xác ^β 1

n n
σ 2 n−1 ∑ ( x i )2 σ 2 n−1 ∑ (x i )2
i=1 i=1
Var( ^β 0 ¿= n
=
SST x
∑ ( x i−x́ )2
i=1

Công thức đặt được trong điều kiện lý tưởng của hồi quy đơn
Các công thức này không còn đúng khi sự hiện diện của phương sai thay đổi

Var( ^β 1)

Tổng mức độ biến động trong x1, x2,… , xn, SSTx


Khi độ biến động trong xi tăng thì phương sai của ^β 1 giảm
Thực tế: biến động càng trải rộng trong mẫu thì cnafg dễ kiểm chứng mối quan hệ
giữa E(y|x) và x
Nếu chỉ có một sự thay đổi nhỏ của các xi rất khó để chỉ ra E(y|x) thay đổi như thế
nào theo x
Kích thước mẫu tăng, tổng biến động trong xi tăng

Trang 31/51
Độ lệch chuẩn của ^β 0 và ^β 1
• Kí hiệu: sd( ^β 0)và sd( ^β 1)
• Xây dựng khoảng tin cậy và thực hiện kiểm định thống kê
σ
sd( β^ 1 )= =√ var ( ^β 1 )
√ SST x

2 1
Phương sai sai số: σ^ =
n−2
∗SSR

Một ước lượng không chệch của phương sai sai số có thể tính được bằng cách lấy số
quan sát trừ đi số hệ số hồi quy (σ^ 2 : S . E of regression)

σ 2 là phương sai của SSNN u → tổng thể


n-2 : bậc tự do
Tính toán sai số chuẩn cho các hệ số hồi quy

σ^ 2
se ( ^β 1 )=√ v^
ar ( β^ 1 )=
√ SST x
n

√ ∑ ( xi )2
2 −1
σ n
i =1
se ( ^β 0 )= √ ^
var ( ^β 0 )=
SST x
Thay σ^ 2cho σ 2 không biết

Độ lệch chuẩn tính toán được (estimated sd) của các hệ số hồi quy được gọi là “các
sai số chuẩn” (standard errors). Chúng giúp đô lường độ “chính xác” của các hệ số
hồi quy ước lượng được.

Buổi 7

Trang 32/51
CHƯƠNG 3: MÔ HÌNH HỒI QUY BỘI
1. Mô hình hai biến độc lập (x1 và x2 → k =2 → ktl = 2t = 3 ( tham số
β0,β1, β2 )
y = β0 + β1x1 + β2x2 + u (1)
Trong đó
- β0 là hệ số chặn
- β1 đo lường sự thay đổi của y theo x1, trong điều kiện các yếu tố khác không đổi
( bao gồm x2 và u)
- β2 đo lường sự thay đổi của y theo x2, trong điều kiện các yếu tố khác không đổi(
bao – Với bất kỳ giá trị gồm x1 và u)
7.3. Giả thiết về sự tương quan giữa u và x1 và x2
E(u| x1, x2) = 0 (2)
- Với bất kỳ giá trị nào của x1 và x2, trong tổng thể, trung bình của các yếu tố
không quan sát được phải bằng 0.
- Giá trị kỳ vọng của u, xét điều kiện theo tất cả các kết hợp x1 à x2 đều bằng
nhau, bằng 0
• Ví dụ: Phương trình tiền lương
Cho phép đo lường tác động của trình độ học vấn lên lương trong điều kiện kinh
nghiệm là không đổi
Wage = β0 + β1educ + β2exper +
u
Tất cả các yếu tố còn
Tiền lương Kinh nghiệm lao
Số năm đi học lại
USD/giờ động

3.
1
Giả thiết trung bình bằng 0
E(u| edu, exper ) = 0
- Trung bình tất cả các yếu tố khác tác động đến tiền lương ều không liên quan
đến educ và exper

Trang 33/51
- Năng lực bẩm sinh là một phần của u, mắc năng lượng trung bình là như nhau
với mọi giá trị học vấn và kinh nghiệm trong tổng thể nghiên cứu

8. Mô hình k biến độc lập


“ giải thích biến y theo các biến x1,x2,x3…xk”

Hệ số chặn Hệ số góc
3.
6

Y = β0 + β1x1+ β2x2 + β3x3 + …. + βkxk + u

Biến phụ thuộc


Biên được giải Biến độc lập Thành phần sai số
thích Biến giải thích ngẫu nhiên ( đại diện
Biến được quy hồi Biến kiểm các yếu tố không
soát quan sát được

E(u|x1,x2,x3,…xk) = 0 3.
8
- (3.6) chứa k+1 tham số tổng thể chưa biết
- Các hệ số góc
Giả thiết kỳ vọng có điều kiện
- Tất cả các yếu tố không quan sát được trong sai số không được tương quan với
các biến giải thích
- Bất kỳ lý do nào làm cho u có tương quan với biến độc lập sẽ làm cho (3.8)
không thỏa mãn
- Xét đúng dạng hàm của mối liên hệ giữa biến được giải thích và các biến giải
thích
- OLS là không chệch và nó sẽ chệch khi một biến quan trọng bị bỏ sót
Mô hình hai biến độc lập
Đánh số chỉ mục các biến độc lập
Chỉ số dưới biến độc lập có hai ký tự
1, i : thể hiện thứ quan sát i =1 cho đến n
2 Phân biẹt giữa các biến độc lập với nhau
Trang 34/51
3 xị : quan sát thư i trên biến độc lâph thứ j
Có k biến độc lập : j = 1…k
N quan sát i = 1,2,3…n
Mô hình gồm hai biến độc lập x1, x2 ( k=2)
Yi = β0 + β1xi1 + β2x2 + ui
Obs X1 X2 Y
1 X11 X12 Y1
2 X21 X22 Y2
… … … …
N Xn1 Xn2 Yn

Trường hợp 2 biến độc lập


HÀM ^y = β^0 + β^1 x 1 + ^
β2 x2 (5)
SRF
Tác động riêng từng phần
- Các ước lượng ^ β 0 cho biết tác động riêng phần ( tác động trong điều kiện các
β 0 và ^
yếu tố khác không đổi)
- Dự đoán được lượng thay đổi của y khi biết được lượng thay đổi của x1 và x2

Trường hợp hai biến độc lập


SRF = ^y = β^0 + β^1 x 1 + ^
β2 x2
∆ ^y = ^
β1 ∆ x1 + ^
β2 ∆ x2 (6)
- Khi x2 được cố định thì ∆x2 = 0 và khi đó:
∆ ^y = ^
β 1 ∆ x1 (7)
- Khi x1 được cố định thì ∆x1 = 0, khi đó
∆ ^y = ^
β2 ∆ x2 (8)
Diễn giải : Giả sử hai công nhân A và B có cùng số năm kinh nghiệm và số năm đảm
nhận chức vụ hiện tại, nhưng nếu sinh viên A có số năm đi học nhiêu hơn sv B là 1
năm thì công nhân A có mức lượng cao hơn CN B là 0.092*100 = 9.2%
• Ví dụ : Phương trình tiền lương
^
log ⁡(wage)=0.284 +0.092 edu+0.0041 exper+ 0.022tenure

Trang 35/51
Trong đó exper ( số năm kinh nghiệm trên thị trường lao động ) và tenure ( số năm
đảm nhận công việc hiện tại)
Diễn giải
- Trong điều kiện exper và tenure không đổi năm đi học tăng thêm sẽ dẫn đến
lượng tăng trong log(wage) là 0.092; tương đương với lượng tăng 9.2% trong
wage
- Nếu chúng ta chọn ra hai người cùng mức kinh nghiệm và thâm niên công việc,
hệ số của educ khi cho biết mức chênh lệch trong tiền lương dự báo khi số năm
đi học khác nhau một năm.
Thay đổi nhiều hơn một biến độc lập
- Mức độ tác động lên wage khi một cá nhân tăng thêm đồng thời một năm kinh
nghiệm và một năm đảm nhận công việc, xét điều kiệ cá nhân đó vẫn tiếp tục
làm việc tại công ty
- Tổng tác động trong điều kiện educ không đổi là:
-^ ∆ log ⁡(wage)=0.0041 ∆ exper+ 0.022 ∆ tenure
- Hoặc khoảng 2.6%
Dạng tổng quát của k biến độc lập
SRF = ^y = β^0 + β^1 x 1 + ^
β 2 x 2 +…+ ^
βk xk

Nếu biểu diễn dưới dạng thay đổi:


∆ ^y = ^
β1 ∆ x1 + ^
β 2 ∆ x 2 +…+ β^k ∆ x k

→ Hệ số hồi quy của biến x1 ( β1̂ ) đo lường sự thay đổi của ŷ khi x1 thay đổi 1 đơn
vị trong điều kiện các yếu khác không đổi (∆ x2 = ∆ x3 …= ∆ xk = 0 )
∆ymu = β1mu =
Giá trị kỳ vọng của các ước lượng OLS
E( ^
β 1 ¿=E( β^k )

MLR : multiple linear regression


9. Giá trị kỳ vọng của các ước lượng OLS
Giả thiết MLR.1 ( Tuyến tính theo tham số) Trong tổng thể mối liên hệ
giữa biến phụ thuộc y và các
Y = β0 + β1x1+ β2x2 + β3x3 + …. + βkxk + u
biến độc lập là tuyến tính theo
3.3 tham số
1
Giả thiết MLR.2 ( Mẫu ngẫu nhiên ) Mẫu dữ liệu
được chọn
Trang ngẫu
36/51
nhiên tổng thể
{{xi1, xi2,….xik; yi) : i = 1,…n}

Yi = β0 + β1xi1 + β2xi2 + β3xi3 + …. + βkxik + 3.32

u
Vì vậy, mỗi quan sát đều tuân theo hàm hổi quy tổng
thể

Giả thiết MLR.3 : Không có cộng tuyến hoàn hảo


- Trong mẫu và vì vậy trong tổng thể
+ Không có biến độc lập nào là hằng số
+ Và không có phụ thuộc tuyến tính chính xác giữa các biến độc lâp
- Giả thiết này chỉ loại trừ trường hợp cộng tuyến/ tương quan hoàn hảo giữa các
biến độc lập; các tương quan không hoàn hảo vẫn có thể xảy ra
- Nếu một biến độc lập là tổ hợp tuyến tính chính xác của các biến độc lập khác
thì biến độc lập đó là không cần thiết và sẽ bị loại bỏ ra khỏi hàm hồi quy
- Biến hằng số cũng bị loại bỏ ( vì cộng tuyến hoàn hảo với hệ số chặn)
• VD:
Cons : consumsion
Inc : income
Cons = β0 + β1 inc + β inc2 + u (1)
Log (cons) = β0 + β1log(inc) + β2 log (inc2) +u (2)
Log (cons) = β0 + β1log(inc) + β2 [log (inc)]2 +u
(1)x1 = inc, x2 = , x2 = xi2 → không có tương quan hoàn hảo giữa x1 và x2
(inc và inc2)
(2)x1 = log (inc) x2 = 2*log(inc)
→ x2 = 2x1
→ x1 và x2 có tương quan hoàn hảo
X1 và x2 có sự phụ thuộc tuyến tính chính xác
→ vi phạm MLR3

Trang 37/51
. regress colGPA hsGPA

Source SS df MS Number of obs = 141


F(1, 139) = 28.85
Model 3.33506006 1 3.33506006 Prob > F = 0.0000
Residual 16.0710394 139 .115618988 R-squared = 0.1719
Adj R-squared = 0.1659
Total 19.4060994 140 .138614996 Root MSE = .34003

colGPA Coef. Std. Err. t P>|t| [95% Conf. Interval]

hsGPA .4824346 .0898258 5.37 0.000 .304833 .6600362


_cons 1.415434 .3069376 4.61 0.000 .8085635 2.022304

MLR
^
colGPA=1.28+0.45 hsGPA +0.094 ACT
SLR
~
colGPA=1.41+ 0.48 hsGPA
~
β 1 ~ β 1 vì ^
^ β2 ~ 0

Tổng quát:
- Trong trường hợp có k biến độc lập, hồi quy y theo x1 và hội quy bội y theo
x1,x2…xk có ước lượng hệ số hồi quy x1 giống nhau (nghĩa là ~ β 1khi và chỉ
β 1= ^
khi:
+ Các hệ số ước lượng bằng OLS của biến x2 đến xk đều bằng 0
+ X1 không tương quan với từng biến trong x2 đến xk
- Ít xảy ra trong thực tế
- Ước lượng tác động của x1 lên y trong hồi quy đơn và bội là tương đương theo
mẫu
+ Hệ số hồi quy theo các biến từ x2 đến xk là nhỏ
+ Tương quan mẫu giữa x1 và các biến độc lập khác là không mạnh
r12 = r13 = …= r1k ~ 0
 Mức độ phù hợp
SST = SSE + SSR
SST SSE SSR
= +
SST SST SST

Trang 38/51
SSE SSR
R 2= =1−
SST SST

- Tỷ lệ biến động mẫu của yi được giải thích bởi mô hình hồi quy
- R2 sẽ nằm trong khoảng từ [0;1]
 Sự phân rã mức độ biến động
STT=SSE+ SSR
 R bình phương
SSE SSR
R 2= =1−
SST SST
 Các biểu diễn khác của R bình phương
¿¿¿¿
 Cảnh báo về R2 trong MLR
- R2 không bao giờ giảm và thường tăng thêm khi thêm biến độc lập và hàm hồi
quy
- R2 là một công cụ tồi nếu dựa vào đó để quyết định xem liệu có nên thêm một
biến hay nhiều biến vào mô hình hay không
- Biến giải thích có tác động riêng Iên phần khác 0 lên y trong tổng thể hay không
- Kiểm định giả thuyết khi chúng ta nói về suy diễn thống kê
Giả thiết MLR 4: Trung bình có điều kiện = 0
E(u| x1,x2..xk) = 0
→ sai số u có gt kỳ vọng bằng 0 với bất kỳ giá trị nào của biến độc lập
 Các trường hợp vi phạm MLR4
(1)Xác định dạng hàm mqh giữa biến độc lập và biến phụ thuộc
• VD1 :
Mô hình đúng : cons = β0 + β1 inc + β2 inc2 + u
→ quên không đưa inc2 vào trong mh, ta ước lượng cons = β0 + β1inc + u → vi
phạm MLR4
• VD2:
Mô hình đúng : log(wage) = β0 + β1 educ + u
Ta ước lượng : wage = β0 + β1 educ + u
Trang 39/51
→ vi phạm MLR
(2)Bỏ sót 1 yếu tố quan trọng có tương quan với bất kỳ x1,x2,…xk
(3)SSNN u tương quan với biến độc lập

Định lý: Tính không chệch của OLS


Dưới MLR1 → MLR4
E( β^i= β j)
J = 0,1,..k
Ước lượng OLS là ước lượng không chệch các tham số tổng thể
Đưa các biến không liên quan vào trong mô hình hồi quy ( Định dạng thừa mô hình)
- Giả sử ta xác định mô hình
y=β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 +u

→ mô hình này thỏa mãn MLR1 → MLR4


+ β 3=0→ x3 không có có tác động đến y

- Giả sử ta xác định mô hình :


Y = β0 + β1x1 + β2x2 + β3x3 + u
- Mô hình này thỏa mãn MLR 1 → MLR 4
+ β3 = 0 → x3 không có tác động đến y sau khi x1 và x2 được kiểm soát
E(y | x1, x2, x3 ) = E( y| x1, x2 ) = Y = β0 + β1x1 + β2x2
Vì không ai biết β3 = 0 nên ta ước lượng mô hình
^
β0+ ^
β 1 x 1+ ^
β2 x 2+ β^3 x3
Ta đưa biến không liên quan x3 vào trong nh
E( ^
β 3) = β3 = 0 ; E( ^
β 1 ¿ = β1 ; E( ^
β 2) = β2

Kết luận : Không ảnh hưởng đến tính không chệch của ước lượng OLS
+ Tuy nhiên, việc đưa ra biến không liên quan vào trong mô hình có thể làm tăng ps
mẫu
2. Phương sai của ước lượng OLS

Trang 40/51
MLRS : Phương sai thuần nhất
Phương sai có điều kiện của sai số u theo bất kỳ giá trị nào của biến giải thích đều
bằng nhau
Var ( u| x1, x2, x3 … xk ) = σ2

• VD: Phương trình tiền lương :


wage=β 0 + β 1 educ + β 2 exper + β 3 tenure +u

 Phương sai thuần nhất


Var(u| educ ,exper, tenure ) = σ2
 Phương sai của SS không phụ thuộc vào trình độ học vấn kinh nghiệm và
thâm niên làm việc
 Cách ký hiệu ngắn gọn
x́=( x1 , x2 , x 3 … x k )

MLR 1 → MLR4 : E(y| x́ ) = β 0 + β 1 x 1+ β2 x 2+ …+ β k x k


MLR 5 : var ( u| x́ )= σ2
MLR 4 MLR5
Giá trị kỳ vọng của y, theo x́ cho Phương sai cho trước y theo x́ cho
trước là tuyến tính theo các tham số, trước không phụ thuộc vào gt của
nhưng có phụ thuộc vào x1 và x2 … BĐL
xk
Định lý về phương sai mẫu của hệ số góc ước lượng bằng OLS
Dưới các giả thiết từ MLR1 → MLR5
Phương sai sai số

σ2
(
var ^
β j=
SST j ( 1−R2j ) )
, j=1 ,… k

Tổng biến động trong mẫu R2 có được hồi quy theo biến độc laoaj xi
của biến giải thích theo taats cả các biến độc lập khác ( hồi quy
có hệ số chặn ) Trang 41/51
• Ví dụ : Mô hình gồm hai biến độc lập x1 và x2
ŷ = ^
β0+ ^
β 1 x 1+ ^
β2 x 2
σ2
var ( ^
β j ) =¿ , j=1 , … k R21 là R2 của mô hình hồi quy x1 và x2
SST j ( 1−R2j )

SST1 = ∑ ¿¿ ¿
σ2
var ( ^
β 2) =¿ , j=1 , … k R22 là R2 của mô hình hồi quy x2 ~ x1
SST 2 ( 1−R22 )

SST2 = ∑ ¿¿ ¿
• Ví dụ 2 : Mô hình 3 biến độc lập
ŷ = ^
β0+ ^
β 1 x 1+ ^
β2 x 2+ β^3 x3
σ2
var ( ^
β 3) =¿
SST 3 ( 1−R23 )

R23 là R2 của mô hình hồi quy x3 theo x2 và x1


Phương sai sai số ( σ2)
- Phương sai sai số càng lớn càng làm tăng phươgn sai ước lượng vì có nhiều
nhiếu hơn trong phương trình
- Phương sai sai số càng lớn sẽ làm cho việc ước lượng kém chính xác
- Phương sai sai số không giảm khi kích thước mẫu tăng lên
Tổng biến động trong mẫu của biến
- Tổng biến động trong mẫu của biến giải thích càng nhiều thì ước lượng thu được
càng chính xác ( more precise)
- Tổng biến động trong mẫu sẽ tự động tăng khi kích thước mẫu tăng
- Vì vậy, tăng kích thước mẫu sẽ làm tăng sự chính xác của ước lượng

Trang 42/51
Buổi 9
10. Mối quan hệ tuyến tính giữa các biến độc lập
- Phương sai mẫu của ^ β j sẽ càng lớn khi xj càng giải thích nhiều bởi các biến độc
lập khác
- Vấn đề các biến độc lập gần như phụ thuộc tuyến tính vào nhau được gọi là vấn
đề đa cộng tuyến ( nghĩa là R2j → 1 với một vài j nào đó)

Hồi quy xj theo tất cả các biến độc lập khác ( có hệ số chặn)

R2 của phương trình này càng cao thì xj càng


được giải thích bởi các biến độc lập khá
Thảo luận về vấn đề đa cộng tuyến
- Trong một số trường hợp, việc bỏ sót một số biến độc lập có thể làm giảm đa
cộng tuyến ( nhưng cách làm này có thể dẫn đến sự chệch do bỏ sót biến)
- Chỉ có phương sai của biến bị đa cộng tuyến bị “phóng đại”, ước lượng của các
biến giải thích khác không bị ảnh hưởng

Thảo luận về vấn đề đa cộng tuyến


- Đa cộng tuyến không vi phạm giả thuyết MLR.3
- Đa cộng tuyến có thể bị phát hiện thông qua “nhân tử phóng đại phương sai”
1
VIF=
1−R2j
1. VIF >10 : có đa cộng tuyến cao
2. VIF < 10 : đa cộng tuyến thấp
3. Kinh nghiệm : nhân tử phóng đại phương sai không nên lớn hơn 10

Phương sai trong mô hình bị định dạng sai


Y = β0 + β1x1+ β2x2 + u Mô hình đúng của tổng thể
y= β^0 + β^1 x 1 + ^
β2 x2
~y=~ ~ Mô hình ước lượng 1
β 0 + β1 x 1

Trang 43/51
Mô hình ước lượng 2

Sự chệch do bỏ sót biến ở mô hình bị định dạng sai ( mô hình 2 được bù đắp
bằng phương sai nhỏ nhất của ước lượng thu được
β̂1 và β̂2 là hệ số ước lượng trong MLR 4
~
Vi phạm MLR4 → ( β 1 ) # β1
~
β 1 là bị chệch
~ σ2 σ2
SLR: var ( β 1 )= ≤ MLR :var ( ^
β1 ) =
SST 1 SST 1(1−R21 )
~
R21=0thì var ( β1 ) =var ( ^
β 1)
X1 và x2 không tương quan
Mô hình ước lượng 2 vi phạm MLR4 → E(β1nga # β1) β1nga là bị chệch
~ σ2
SLR : var ( β1 ) =
SST 1
Xét điều kiện phương sai trong mô
σ2 hình 2 nhỏ hơn trong mô hình 1
MLR : var ( ^
β 1) =
SST 1 (1−R21 )

- Việc thêm hay không thêm mộ biến độc lập nào đó vào mô hình có thể được
xem cét dựa trên sự đánh đổi giữa tính chệch và tính hiệu quả của ước lượng
- Sự chệch do bỏ sót biến ở mô hình bị định dạng sai ( mô hình 2 ) được bù đắp
bằng phương sai nhỏ của ước lượng thu đượ

w
^ ^❑
age=❑

Trang 44/51
Trang 45/51
X2 là biến liên quann → ước lượng không có x2
→ bỏ sót biến quan trọng → Vp MLR 4
Hai lý do ủng hộ việc thêm biến x2 vào trong mô hình
- Mức chênh lệch trong β1 ngã sẽ không co lại khi cỡ mẫu tăng
- Var(β1) và \var(β̂1) càng tiến về 0 khi n lớn
Ước lượng phương sai của sai số

Trang 46/51
^❑= ❑


- Ước lượng không chệch của phương sai sai có thể tính được dựa trên việc xem
xét bậc tự do của mô hình
- - Ước lượng không chêch của phương sai sai có thể tính được dựa trên việc xem
xét bậc tự do của mô hình (degree of freedom)
- - Bậc tự do có thể có được bằng cách lấy số quan sát trừ đi cho số tham số
- - Có n sai số bình phương nhưng các thành phần này không hoàn toàn độc lập
mà liên quan với nhau thông qua k + 1 phương trình xác định bởi điều kiện bậc
nhất của bài toán tìm cực tiểu df=n-(k+1)

Trang 47/51
 Tổng kết
4. MLR cho phép xem xét tác động của từng biến độc lập cụ thể lên biến phụ
thuộc (y) trong điều kiện các yếu tố khác (xj) không đổi ( các biến độc lập còn lại
và nhiễu u) → tác động riêng phần
5. Mô hình tuyến tính theo các tham số (βj) → mô hình có mối quan hệ phị tuyến
giữa biến độc lập và biến phụ thuộc
6. Phương pháp bình phương nhỉ nhất có thể áp dụng ước lượng mô hình MLR
→ (β̂j) → các ước lượng này đo lường tác động riêng phần của biến độc lập
tương ứng ( xj) lên biến phụ thuộc, trong điều kiện các biến độc lập khác không
đổi

Trang 48/51
7. R2 là tỉ lệ phần biến động trong mẫu của biến phụ thuộc được giải thích trong
biến độc lập → đo lượng sự phù hợp của mô hình. Điều quan trọng là đừng quá
coi trọng giá trị của R2 khi đánh giá mô hình KTL
8. 4 giả thuyết Guass Markov
9. Ước lượng OlS là ước lượng không chệch
→ sự có mặt của một biến không liên quan trong mô hình → ko ảnh hưởng đến
tính chệch của ước lượng hệ số chặn và hệ số góc
→ Bỏ sát biến liên quan → ước lượng OLS bị chệch
10. Dưới 5 giả thiết Gais Markov → phương sai của hệ số góc ước lượng
bằng OLS được xác định bởi CT var( Bj) = Type equation here . Khi phương sai sai
SS σ2 tăng thì var tăng
Var(β̂ j ) giảm nếu SStj tăng ( tổng biến động trong mẫu của xj)
R2j đo lường cộng tuyến giữa xj và các biến giải thích khác
R2j → 1 ; var (β̂ j) càng tiến tới vo cùng
11. Thêm biến không liên quan vào mô hình thì làm tăng phương sai của ước
lượng OLS vì hiện tượng đa cộng tuyueens
12. Dưới giả thuyết Gaus MarKov ( MLR 1 _ MLR 5) các ước lượng OLS là
các ước lượng tuyến tính không chệch tốt nhất ( BLUE)

CHƯƠNG 4: PHÂN TÍCH HỒI QUY BỘI :

VẤN ĐỀ SUY DIỄN THỐNG KÊ


1. Phân phối mẫu của các ước lượng OLS
- Ước lượng OLS là các biến ngẫu nhiên
- Chúng ta biết về kỳ vọng và phương sai của các ước lượng này
- Tuy nhiên, chúng ta cần biết về phân phối của chúng để kiểm định giả thiết
thống kê
- Để suy luận về phân phối, chúng ta cần thêm giả thiết
- Giả thiết về phân phối của sai số : phân phối chuẩn
Giả thiết MLR.6 Phân phối chuẩn của sai số
Ui
Trang 49/51
- Hbkj
- Jnkn
- Jbknjk

- Giả sử rằng phần sai số của hồi quy tổng thể là phân phối chuẩn
- Dạng phân phối và phương sai không phụ thuộc vào bất kỳ biến giải thích nào
- Suy ra:
Y|x ~ N( β0 + β1x1 + … + βkxk , σ2 )
Định lý giới hạn trung tâm ( Central Limit Theorem)
Biến ngẫu nhiên tổng x = x1 + x2 + … + xk với x1, x2, x3 …xk là các biến ngẫu
nhiên. Nếu các đk sau thỏa mãn
- Các xi là độc lập
- Các xi là có cùng phân phối xác suất
- Các xi có cùng kỳ vọng và phương sai (hữu hạn)
- K lớn ( thường k≥ 30)
Thì x sẽ có phân phối xấp xỉ chuẩn

Các giả thiết của mô hình tuyến tính cổ điển


MLR.1 Tuyến tính theo tham số
MLR.2 Chọn mẫu ngẫu nhiên
MLR.3 Không có cộng tuyến hoàn hảo
MLR.4 Trung bình có điều kiện bằng 0
MLR. 5 Phương sai thuần nhất

Trang 50/51
MLR. 6 Giả thiết về phân phối chuẩn

MLR1 → MLR 4 ; các giải thiết của định lý tính không chệch
Định lý 4.1 Phân phối chuẩn trong mẫu
Dưới giả thiết MLR1 – MLR6
- Các ước lượng OLS cps phân phối mẫu với phương sai như đã thiết lập trong
chương trước
- Type equation here .
- Ước lượng chuẩn hóa theo phân phối chuẩn tắc
- Type equation here .

Trang 51/51

You might also like