Sem R

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 69

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/363213969

MÔ HÌNH PHƯƠNG TRÌNH CẤU TRÚC TUYẾN TÍNH (STRUCTURAL EQUATION


MODELING) SEM

Preprint · September 2022

CITATIONS READS

0 4,557

1 author:

Binh Thi Thanh Dao


Hanoi University
69 PUBLICATIONS 376 CITATIONS

SEE PROFILE

All content following this page was uploaded by Binh Thi Thanh Dao on 02 September 2022.

The user has requested enhancement of the downloaded file.


MÔ HÌNH

PHƯƠNG TRÌNH CẤU TRÚC TUYẾN TÍNH


(STRUCTURAL EQUATION MODELING)

SEM

SÁCH THAM KHẢO


CHO SINH VIÊN, CAO HỌC VÀ NGHIÊN CỨU SINH
KHỐI NGÀNH KINH TẾ VÀ XÃ HỘI

Dịch giả: PGS.TS Đào Thị Thanh Bình

Nguồn
INTRODUCTION TO STRUCTURAL EQUATION MODELING (SEM)
IN R WITH LAVAAN.
https://stats.oarc.ucla.edu/r/seminars/rsem/

2022
Mục lục

Lời nói đầu 1


Chương 1 Giới thiệu 3
1.1 Ví dụ về động lực . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Sơ đồ đường dẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Tham khảo nhanh câu lệnh lavaan . . . . . . . . . . . . . . . . . . . . . 7
Chương 2 Phân tích hồi quy và đường dẫn 8
2.1 Hồi quy đơn (Mô hình 1A) . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Hợp lý cực đại so với ước lượng bình phương nhỏ nhất . . . . . . . . . . 11
2.3 Hồi quy bội (Mô hình 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Hồi quy đa biến (Mô hình 3A-E) . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Hồi quy đa biến với hiệp phương sai mặc định (Mô hình 3A) . . . 15
2.4.2 Hồi quy đa biến loại bỏ hiệp phương sai mặc định (Mô hình 3D) . 18
2.4.3 Hồi quy đa biến bão hòa hoàn toàn (Mô hình 3E) . . . . . . . . . 21
2.5 Các giá trị, tham số và bậc tự do đã biết . . . . . . . . . . . . . . . . . . 23
2.6 Phân tích đường dẫn (Mô hình 4A) . . . . . . . . . . . . . . . . . . . . . 27
2.7 Chỉ số hiệu chỉnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Phân tích đường dẫn sau khi sửa đổi (Mô hình 4B) . . . . . . . . . . . . 31
Chương 3 Thống kê độ phù hợp mô hình 34
3.1 Mô hình chi-bình phương . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Một lưu ý về kích thước mẫu . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Mô hình nền . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Chỉ số phù hợp gia tăng so với phù hợp tuyệt đối . . . . . . . . . . . . . 38
3.4.1 CFI (Chỉ số phù hợp tương đối) . . . . . . . . . . . . . . . . . . . 39
3.4.2 TLI (Chỉ số Tucker Lewis) . . . . . . . . . . . . . . . . . . . . . . 40
3.4.3 RMSEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Chương 4 Mô hình đo lường 43
4.1 Phân tích nhân tố ngoại sinh (Mô hình 5A) . . . . . . . . . . . . . . . . 44
4.2 Lưu ý về các mô hình đo lường nội sinh (Mô hình 5B) . . . . . . . . . . . 46
Chương 5 Mô hình cấu trúc 48
5.1 Mô hình hồi quy cấu trúc . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Hồi quy cấu trúc với một biến nội sinh (Mô hình 6A) . . . . . . . . . . . 49
5.3 Hồi quy cấu trúc với hai biến nội sinh (Mô hình 6B) . . . . . . . . . . . . 53
5.4 Hồi quy cấu trúc với một biến nội sinh quan sát được (Mô hình 6C) . . . 56
Chương 6 Phần kết luận 62
Chương 7 Tài liệu tham khảo 64
Lời nói đầu

Phần này sẽ giới thiệu các khái niệm cớ bản về mô hình phương trình cấu trúc tuyến
tính bằng lavaan (http://lavaan.ugent.be/) trong ngôn ngữ lập trình thống kê R, nhấn
mạnh vào việc xác định các mô hình SEM và giải thích kết quả đầu ra chứ không phải là
một giải pháp toán học kỹ lưỡng hoặc một danh sách đầy đủ các tùy chọn câu lệnh trong
lavaan, được dịch từ INTRODUCTION TO STRUCTURAL EQUATION MODELING
(SEM) IN R WITH LAVAAN".
https://stats.oarc.ucla.edu/r/seminars/rsem/

SEM là một chủ đề rộng nên chỉ những nội dung cơ bản nhất như ký hiệu ma trận, sự
xác định và phù hợp mô hình sẽ được giới thiệu trong phần này. Các nội dung như ước
lượng, đa nhóm, phép đo bất biến và mô hình tăng trưởng tiềm ẩn sẽ không được đề cập.
Giả thiết tất cả các biến là liên tục và phân phối chuẩn.

Đây là phần thứ hai trong ba phần về mô hình biến tiềm ẩn.
Phần đầu tiên giới thiệu về CFA:
- Phân tích nhân tố khẳng định (CFA) trong R với lavaan
(https://stats.idre.ucla.edu/r/seminars/rcfa/).
Phần thứ ba giới thiệu các chủ đề trung gian trong CFA bao gồm mô hình tăng trưởng
tiềm ẩn và phép đo bất biến:
- Mô hình tăng trưởng tiềm ẩn (LGM) và Phép đo bất biến với R trong lavaan
(https://stats.idre.ucla.edu/r/seminars/lgm/).
Đối với phân tích nhân tố khám phá (EFA), vui lòng tham khảo Phần giới thiệu thực tế
về phân tích nhân tố: Phân tích nhân tố khám phá
(https://stats.idre.ucla.edu/spss/seminars/introduction-to-factor-analysis/a-practicalintroduction-
to-factor-analysis/).
Ngoài những điều kiện tiên quyết ở trên, cần phải có kiến thức cơ bản về hồi quy tuyến
tính để hiếu một số tài liệu trong phần này.

1
Yêu cầu

Trước khi bắt đầu, hãy đảm bảo rằng chúng ta đã cài đặt R (https://cran.r-project.org/)
và RStudio (https://www.rstudio.com/).

Cũng hãy đảm bảo đã cài đặt các gói R sau đây và nếu không, hãy chạy các lệnh này
trong R (RStudio).

install.packages("foreign", dependencies=TRUE)
install.packages("lavaan", dependencies=TRUE)

Khi chúng ta đã cài đặt các gói, chúng ta có thể tải chúng qua.

library(foreign)
library(lavaan)

Tải xuống tệp tại đây

Chúng ta có thể tải xuống mã R hoàn chỉnh tại đây: cfa.r (https://stats.idre.ucla.edu/wp-
content/uploads/2020/02/cfa.r).

Sau khi nhấp vào liên kết, chúng ta có thể sao chép và dán toàn bộ mã vào R hoặc RStudio.

2
Chương 1

Giới thiệu

Mô hình phương trình cấu trúc tuyến tính là một nền tảng mô hình tuyến tính mô hình
hóa cả hai phương trình hồi quy song song với các biến tiềm ẩn. Các mô hình như hồi
quy tuyến tính, hồi quy đa biến, phân tích đường dẫn, phân tích nhân tố khẳng định và
hồi quy cấu trúc có thể được coi là các trường hợp đặc biệt của SEM. Các mối quan hệ
sau có thể có trong SEM:
- quan sát với các biến quan sát ( γ, ví dụ: hồi quy)
- tiềm ẩn với các biến quan sát ( λ, ví dụ, phân tích nhân tố khẳng định)
- tiềm ẩn với các biến tiềm ẩn ( γ, β ví dụ: hồi quy cấu trúc)

SEM bao gồm cả mô hình đo lường và mô hình cấu trúc. Mô hình đo lường liên quan
đến quan sát với các biến tiềm ẩn và mô hình cấu trúc liên quan đến tiềm ẩn với các biến
tiềm ẩn. Các chương trình phần mềm khác nhau hiện đang xử lý các mô hình SEM bao
gồm Mplus, EQS, SAS PROC CALIS, Stata’sem và gần đây là R’s lavaan. Lợi ích của
lavaan là mã nguồn mở, có sẵn tự do và tương đối dễ sử dụng.

Phần này sẽ giới thiệu các mô hình phổ biến nhất thuộc nền tảng SEM bao gồm
- hồi quy đơn
- hồi quy bội
- hồi quy đa biến
- phân tích đường dẫn
- phân tích nhân tố khẳng định
- hồi quy cấu trúc

Mục đích này là giới thiệu từng mô hình


- công thức ma trận
- sơ đồ đường dẫn
- câu lệnh lavaan
- giải thích các tham số và kết quả

Vào cuối khóa đào tạo này, chúng ta sẽ có thể hiểu đủ các khái niệm để xác định chính
xác mô hình, nhận ra từng tham số trong công thức ma trận và diễn giải kết quả của mỗi
mô hình trong lavaan. Cuối cùng, đối với những bạn quan tâm, nền tảng kỹ thuật của
tất cả các mô hình này đều dựa trên ký hiệu LISREL (quan hệ cấu trúc tuyến tính) cổ
điển để vinh danh Karl Joreskög (1969, 1973). Mặc dù các nhà phê bình đối với LISREL
lưu ý sự phức tạp đối với người dùng, nhưng tất cả các triển khai hiện đại của SEM đều

3
phát sinh từ LISREL và phục vụ để mở rộng khả năng hoặc giảm bớt độ phức tạp của
nó. Do đó, hiểu LISREL là nền tảng để hiểu hơn về SEM.

1.1 Ví dụ về động lực


Giả sử chúng ta đang nghiên cứu những ảnh hưởng của lý lịch học sinh đến kết quả học
tập. Phòng thí nghiệm đã thu thập và tải lên tập dữ liệu ( worland5.csv (https://stats.idre.ucla.edu/wp-
content/uploads/2021/02/worland5.csv).) với N = 500 mỗi học sinh có 9 biến quan sát:
Motivation, Harmony, Stability, Negative Parental Psychology, SES, Verbal IQ, Reading,
Arithmetic và Spelling. Điều tra viên chính đưa ra giả thuyết về ba cấu trúc tiềm ẩn
Adjustment, Risk, Achievement được đo lường tương ứng:
Adjustment
- motiv Motivation
- harm Harmony
- stabi Stability
Risk
- ppsych (Negative) Parental Psychology
- ses SES
- verbal Verbal IQ
Achievement
- read Reading
- arith Arithmetic
- spell Spelling

Do hạn chế về ngân sách, phòng thí nghiệm sử dụng ngôn ngữ lập trình thống kê R có sãn
tự do và lavaan cũng như gói lựa chọn mô hình phương trình cấu trúc tuyến tính (SEM).
Chúng ta có thể tải tệp xuống từ liên kết worland5.csv (https://stats.jdre.ucla.edu/wp-
content/uploads/2021/02/worland5.csv) hoặc tải tệp trực tiếp vào R bằng lệnh sau
dat <- read.csv("worland5.csv")

Thành phần thiết yếu nhất của mô hình phương trình cấu trúc tuyến tính là hiệp phương
sai hoặc mối quan hệ thống kê giữa các items. Hiệp phương sai tổng thể, được biểu thị
Σ, được gọi là ma trận phương sai-hiệp phương sai. Vì chúng ta không biết Σ chúng
ta có thể ước lượng với mẫu và gọi là Σ̂ = S, hoặc ma trận phương sai-hiệp phương
sai mẫu. Hàm cov chỉ định rằng chúng ta muốn lấy ma trận hiệp phương sai S từ dữ liệu.

cov(dat)
motiv harm stabi ppsych ses verbal read arith spell
motiv 100 77 59 -25 25 32 53 60 59
harm 77 100 58 -25 26 25 42 44 45
stabi 59 58 100 -16 18 27 36 38 38
ppsych -25 -25 -16 100 -42 -40 -39 -24 -31
ses 25 26 18 -42 100 40 43 37 33
verbal 32 25 27 -40 40 100 56 49 48
read 53 42 36 -39 43 56 100 73 87
arith 60 44 38 -24 37 49 73 100 72
spell 59 45 38 -31 33 48 87 72 100

4
Các đường chéo tạo thành phương sai và hiệp phương sai. Lưu ý rằng phương sai của
tất cả các biến trong nghiên cứu của chúng ta là 100 (theo đường chéo). Nhìn vào mối
quan hệ giữa các biến (các nhân tố nằm ngoài đường chéo), hãy nhớ lại rằng hiệp phương
sai dương có nghĩa là khi một item tăng thì item kia tăng, hiệp phương sai âm có nghĩa
là khi một item tăng thì item kia giảm. Hiệp phương sai của motiv và ppsych là -25
có nghĩa là khi Negative Parental Psychology tăng Motivation sẽ giảm. Chú ý rằng hiệp
phương sai trong tam giác vuông phía trên giống với hiệp phương sai trong tam giác
vuông phía dưới, có nghĩa là hiệp phương sai của Motivation và Harmony cũng giống như
hiệp phương sai của Harmony và Motivation. Thuộc tính này được gọi là đối xứng và
sẽ rất quan trọng sau này. Ma trận phương sai-hiệp phương sai Σ không nên nhầm lẫn
với Σ(θ) là ma trận hiệp phương sai ngụ ý của mô hình. Mục đích của SEM là tái
tạo ma trận phương sai-hiệp phương sai sử dụng các tham số θ mà chúng ta đã đưa ra
giả thuyết sẽ giải thích cho mối quan hệ đo lường hoặc cấu trúc giữa các biến. Nếu mô
hình tái tạo hoàn hảo ma trận phương sai-hiệp phương sai thì Σ = Σ(θ).

Đúng/Sai: Chạy lệnh cov trong R cho phép chúng ta thu được ma trận phương sai-hiệp
phương sai tổng thể Σ.
Trả lời: Sai, vì chúng ta đang chạy phân tích trên một mẫu mà chúng ta thu được S.
Đúng/Sai: S = Σ̂ nghĩa là một ước lượng của ma trận phương sai hiệp phương sai tổng
thể.
Trả lời: Đúng, biểu tượng chiếc mũ biểu thị một ước lượng.
Đúng/Sai: Σ(θ) là ma trận phương sai-hiệp phương sai được tái tạo từ các tham số mô
hình.
Trả lời: Đúng, θ biểu thị các tham số của mô hình. Mục tiêu của SEM là tái tạo Σ với
Σ(θ).

1.2 Định nghĩa


- biến quan sát: một biến tồn tại trong dữ liệu, còn gọi là item hoặc biến kê khai.
- biến tiềm ẩn: một biến được xây dựng và không tồn tại trong dữ liệu.
- biến ngoại sinh: một biến độc lập hoặc được quan sát (x) hoặc tiềm ẩn ( ξ ) giải thích
một biến nội sinh.
- biến nội sinh: một biến phụ thuộc, quan sát (y) hoặc tiềm ẩn ( η ).
- mô hình đo lường: một mô hình liên kết các biến quan sát với các biến tiềm ẩn.
- biến chỉ báo: một biến quan sát trong mô hình đo lường (có thể là ngoại sinh hoặc
nội sinh).
- nhân tố : một biến tiềm ẩn được xác định bởi các biến dự báo (có thế là ngoại sinh
hoặc nội sinh).
- tải: đường dẫn giữa một biến dự báo và một nhân tố.
- mô hình cấu trúc: một mô hình xác định mối quan hệ ngẫu nhiên giữa các biến ngoại
sinh với các biến nội sinh (có thể quan sát được hoặc tiềm ẩn.)
- đường dẫn hồi quy: đường dẫn giữa các biến ngoại sinh và nội sinh (có thể quan sát
được hoặc tiềm ẩn).

Có một sự phù hợp đối với định nghĩa của một biến dự báo. Mặc dù các biến x thường
được coi là các biến độc lập trong một hồi quy tuyến tính, x hoặc y của một biến dự báo
trong mô hình đo lường phụ thuộc vào nhân tố mà nó thuộc về. Một biến chỉ báo là một

5
biến x -side nếu nó phụ thuộc vào nhân tố ngoại sinh và biến y-side nếu nó phụ thuộc
vào nhân tố nội sinh .

Đúng/Sai: Nếu một x-variable được quan sát đang được dự đoán bởi một nhân tố nội
sinh, khi đó được gọi là biến chỉ báo x-side.
Trả lời: Sai. Nếu một biến chỉ báo đang được dự đoán bởi một nhân tố nội sinh, nó là
một biến chỉ báo y- side và nên được gắn nhãn y.
Đúng/Sai: Bởi vì một x-variable đang được dự đoán bởi một nhân tố, nó là một biến
phụ thuộc và nên được gắn nhãn y.
Trả lờii: Sai. Cả hai biến x-side và y-side là các biến phụ thuộc, nhưng x-side hoặc y-side
phụ thuộc nội sinh của nhân tố của nó.

1.3 Sơ đồ đường dẫn


Để thuận tiện cho việc hiểu các phương
trình ma trận (có thể hơi phức tạp),
một sơ đồ đường dẫn sẽ được trình
bày với mọi công thức ma trận vì nó
là một biểu tượng trực quan một-một.
Trước khi chúng ta trình bày sơ đồ
đường dẫn thực tế, bảng dưới đây xác
định các ký hiệu mà chúng ta sẽ sử
dụng. Hình tròn đại diện cho các biến
ẩn, hình vuông đại diện cho các biến
chỉ báo được quan sát, hình tam giác
đại diện cho hệ số chặn hoặc giá trị
trung bình, mũi tên một chiều đại diện
cho đường đi và mũi tên hai chiều đại
diện cho phương sai hoặc hiệp phương
sai.

Ví dụ trong hình bên dưới, biểu đồ bên trái mô tả hồi quy của một nhân tố trên một
item (về cơ bản là một mô hình đo lường) và biểu đồ bên phải mô tả phương sai của
nhân tố (mũi tên hai chiều chỉ đến một biến ẩn).

Sau đây là sơ đồ đường dẫn của tất cả các loại biến và mối quan hệ mà chúng ta sẽ thấy
trong phần này.

6
1.4 Tham khảo nhanh câu lệnh lavaan
Trước khi chạy phân tích nhân tố đầu tiên, chúng ta giới thiệu một số câu lệnh được sử
dụng thường xuyên nhất trong lavaan

• ∼ predict, được sử dụng để hồi quy kết quả quan sát được thành các nhân tố dự
đoán được quan sát

• =∼ indicator, được sử dụng cho biến ẩn thành biến chỉ báo quan sát trong các
mô hình đo lường phân tích nhân tố

• ∼∼ covariance

• ∼ 1 intercept hoặc trung bình (ví dụ, q01 ∼ 1 ước tính giá trị trung bình của
biến q01

• 1* fixes parameter hoặc trọng số thành một

• NA* frees parameter hoặc trọng số (hữu ích để ghi đè phương pháp đánh dấu
mặc định)

• a* labels the parameter ’ a’, được sử dụng cho các ràng buộc mô hình

7
Chương 2

Phân tích hồi quy và đường dẫn

2.1 Hồi quy đơn (Mô hình 1A)


Hồi quy đơn mô hình hóa mối quan hệ của một biến ngoại sinh quan sát được trên một
biến nội sinh quan sát duy nhất. Đối với một chủ đề, phương trình hồi quy tuyến tính
đơn giản thường được định nghĩa là:
y1 = b0 + b1 x1 + ϵ1
với b0 là hệ số chặn và b1 là trọng số và x là một biến dự báo được quan sát và ϵ là phần
dư. Karl Joreskög, người phát triển LISREL (quan hệ cấu trúc tuyến tính), đã phát triển
một ký hiệu đặc biệt cho cùng một mô hình chính xác cho một quan sát duy nhất:
y1 = α + γx1 + ζ1

Định nghĩa
- x1 biến ngoại sinh duy nhất.
- y1 biến nội sinh duy nhất.
- b0 , α1 hệ số chặn của y1 , "Alpha".
- b1 , γ1 hệ số hồi quy, "gamma".
- ϵ1 , ζ1 phần dư của y1 , "Epsilon" và "zeta".
- ϕ, phương sai hoặc hiệp phương sai của biến ngoại sinh, "phi".
- ψ phương sai phần dư hoặc hiệp phương sai của biến nội sinh, "psi”.

Đúng/Sai: Trong Mô hình 1A ở trên, có một kết quả nội sinh và một biến dự báo ngoại
sinh.
Trả lời: Đúng.
Đúng/Sai: Trong Mô hình 1A ở trên, y1 có nghĩa là có 1 quan sát (sinh viên) trong mẫu.
Trả lời: Sai. y1 chỉ ra rằng có một biến nội sinh với N mẫu.

Để xem ma trận một cách trực quan, chúng ta có thể sử dụng sơ đồ đường dẫn (Mô hình
1 A ):

8
Trong R, cách cơ bản nhất để chạy hồi quy tuyến tính là sử dụng hàm lm().

#simple regression using lm()


m1a <- lm(read ∼ motiv, data=dat)
(fit1a <-summary(m1a))

Kết quả của lm() xuất hiện như dưới đây:

Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) -1.232 e-07 3.796 e-01 0.00 1
motiv 5.300 e-01 3.800 e-02 13.95 < 2 e-16 * * *

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 8.488 on 498 degrees of freedom

Giá trị trung bình được dự đoán của read là 0 đối với học sinh có motiv= 0 và khi
Motivation tăng lên một đơn vị, Reading cải thiện 0,530 điểm. Đặc biệt lưu ý về sai số
tiêu chuẩn phần dư là 8.488. Bình phương 8.4882 = 72.04 là phương sai phần dư, mà
chúng ta sẽ thấy ở trong lavaan. Chúng ta có thể chạy mã tương đương trong lavaan.
Câu lệnh tương tự như lm() trong đó read ∼ motiv chỉ định biến dự báo motiv về
kết quả read. Tuy nhiên, theo mặc định, hệ số chặn không được xuất hiện trong kết quả
nhưng được ngụ ý. Nếu chúng ta muốn thêm một hệ số chặn, chúng ta cần đưa vào read
∼ 1+ motiv. Chúng ta có thể yêu cầu phương sai motiv sử dụng motiv ∼ ∼ motiv.
Nếu câu lệnh này không được sử dụng, tham số vẫn được ước lượng nhưng chỉ là ngụ ý.

#simple regression using lavaan


m1b <- ’
# regressions
# regressions
read ∼ 1 + motiv
# variance (optional)
motiv ∼∼ motiv

fit1b <- sem(m1b, data=dat)
summary(fit1b)

9
Kết quả xuất hiện như sau:

summary(fit1b)
lavaan 0.6-12 ended normally after 8 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 5
Number of observations 500

Model Test User Model :


Test statistic 0.000
Degrees of freedom 0

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
motiv 0.530 0.038 13.975 0.000

Intercepts:
Estimate Std.Err z-value P (> |z|)
.read −0.000 0.379 −0.000 1.000
motiv 0.000 0.447 0.000 1.000

Variances:
Estimate Std.Err z-value P (> |z|)
motiv 99.800 6.312 15.811 0.000
read 71.766 4.539 15.811 0.000

Hệ số chặn của .read (−0.000) và hệ số hồi quy read ∼ motiv ( 0.530) khớp với
kết quả của lm() với sai số làm tròn nhỏ. Lưu ý rằng, phía trước tham số biểu thị một
biến nội sinh trong các khoảng chặn và một phương sai phần dư trong phương sai hoặc
hiệp phương sai. Hệ số chặn cho motiv (0.000) không có a. cũng không có phương sai (
99.800) biểu thị phương sai và giá trị trung bình ngoại sinh. Phương sai và giá trị trung
bình ngoại sinh ϕ11 phải khớp với giá trị trung bình đơn biến (0) và phương sai (100)
như được hiển thị bên dưới:

mean(dat$motiv)
[1] 2.4e-07
var(dat$motiv)
[1] 100

10
Bài tập
Đối chiếu mọi ước lượng tham số với sơ đồ đường dẫn tương ứng được hiển thị ở trên.
Tại sao hệ số chặn của motiv là 0? Tham số không được hiển thị theo mặc định trong
lavaan là gì?
Trả lời : y = read, x = motiv, γ1 = 0.53, α = 0, ψ11 = 71.766. Hệ số chặn bằng 0 vì
nhà nghiên cứu quyết định tập trung tất cả các biến bằng 0. Phương sai ngoại sinh ϕ11
không được hiển thị nhưng được ước lượng ngầm, nhưng chúng ta đã chỉ định motiv ∼
∼ motiv để mô hình hóa một cách rõ ràng.

Bài tập
Hãy thử chạy hồi quy đơn mà không có 1+. Chúng ta nhận thấy gì về số tham số tự do
và bậc tự do?
Trả lời: Số lượng tham số tự do giảm đi 1 vì chúng ta đang ước lượng thêm một hệ số
chặn nhưng điều này không thay đổi bậc tự do vì chúng ta chỉ đơn giản là trừ một số
hạng khác. Mô hình hồi quy tuyến tính luôn bão hòa.
Kết quả quan trọng cần lưu ý là công cụ ước lượng ML cho hợp lý cực đại. Hồi quy tuyến
tính theo mặc định sử dụng công cụ ước lượng bình phương nhỏ nhất . Như chúng ta
sẽ thấy bên dưới, các hệ số sẽ giống nhau nhưng phương sai phần dư sẽ khác một chút.
Ngoài ra, có kết quả mặc định cho phương sai, là 71,766.

2.2 Hợp lý cực đại so với ước lượng bình phương nhỏ
nhất
Các ước lượng của hệ số hồi quy là tương đương giữa hai phương pháp nhưng phương
sai khác nhau. Đối với bình phương nhỏ nhất, ước lượng của phương sai phần dư là:
PN 2
2 i=1 ζ̂i N −k
σ̂LS =

với N là kích thước mẫu, và k là số lượng các biến dự báo + 1 (hệ số chặn). Đối với hợp
lý cực đại, ước lượng của phương sai phần dư là:
PN 2
2 i=1 ζ̂i N
σ̂M L =

Để chuyển đổi từ phương sai dư bình phương nhỏ nhất thành hợp lý cực đại:
 
2 N −k 2
σ̂M L = σ̂LS
n
Quay lại kết quả lm(), chúng ta thấy rằng

Residual standard error: 8.488 on 498 degrees of freedom

Vì vậy, phương sai bình phương nhỏ nhất là 8.4882 = 72.046. Để chuyển đổi phương sai
thành hợp lý cực đại, vì k = 2 chúng ta có 498 /500(72.046) = 71.76.

498/500*(fit1a$sigma)**2
[1] 71.76618

11
Điều này phù hợp với kết quả lavaan.

Variances:
Estimate Std.Err z-value P (> |z|)
motiv 99.800 6.312 15.811 0.000
read 71.766 4.539 15.811 0.000

Đúng/Sai: Hàm lm() trong R sử dụng ước lượng bình phương nhỏ nhất và lavaan sử
dụng hợp lý cực đại.
Trả lời : Đúng. Đây là các phương pháp ước lượng mặc định; lavaan cho phép người
dùng thay đổi phương pháp ước lượng như bình phương nhỏ nhất khái quát hóa (GLS)
bằng cách chỉ định estimator = GLS. Tham khảo tài liệu lavaan về công cụ ước lượng
(https://lavaan.ugent.be/tutorial/est.html) để biết thêm thông tin.
Đúng/Sai: Các tác động cố định của một hồi quy bình phương nhỏ nhất thông thường
tương đương với hợp lý cực đại nhưng phương sai phần dư khác nhau giữa hai phương
pháp này.
Trả lời : Đúng.

2.3 Hồi quy bội (Mô hình 2)


Hồi quy đơn chỉ giới hạn ở một biến ngoại sinh duy nhất. Trong thực tế, một nhà nghiên
cứu có thể quan tâm đến cách một nhóm các biến ngoại sinh dự đoán một kết quả. Giả
sử chúng ta vẫn có một kết quả nội sinh nhưng có hai biến dự báo ngoại sinh; điều này
được gọi là hồi quy bội (đừng nhầm với hồi quy đa biến). Dạng ma trận cho phép chúng
ta biểu diễn một cách chính xác phương trình cho tất cả các quan sát

y1 = α1 + xγ + ζ1

Định nghĩa
- y1 biến nội sinh duy nhất.
- α1 chặn cho y1 .
- vectơ x (1 × q) của các biến ngoại sinh.
- vectơ γ(q × 1) của hệ số hồi quy trong đó q là tổng số các biến ngoại sinh.
- ζ1 phần dư của y1 , phát âm là "zeta".
- ϕ, phương sai hoặc hiệp phương sai của biến ngoại sinh.
- ψ phương sai phần dư hoặc hiệp phương sai của biến nội sinh.

Giả định
- E(ζ) = 0 giá trị trung bình của phần dư =0. - ζ không liên quan với x. Giả sử chúng
ta có hai biến ngoại sinh x1 , x2 dự đoán một biến nội sinh duy nhất y1 . Sơ đồ đường dẫn
cho hồi quy bội này (Mô hình 2) là:

12
Việc chỉ định một hồi quy bội trong lavaan cũng dễ dàng như thêm một biến dự báo
khác. Giả sử nhà nghiên cứu quan tâm đến Negative Parental Psychology ppsych và
Motivation motiv để dự đoán Reading read.

m2 <- ’
# regressions
read ∼ 1 + ppsych + motiv
#covariance
#ppsych ∼∼ motiv

fit2 <- sem(m2, data=dat)
summary(fit2)

Kết quả tương ứng như sau. So sánh số lượng tham số tự do và bậc tự do với hồi quy đơn.

lavaan 0.6-12 ended normally after 34 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 9
Number of observations 500

Model Test User Model :


Test statistic 0.000
Degrees of freedom 0

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

13
Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000

Covariances:
Estimate Std. Err z-value P (> |z|)
ppsych ∼∼
motiv −24.950 4.601 −5.423 0.000

Intercepts:
Estimate Std. Err z-value P (> |z|)
.read 0.000 0.360 0.000 1.000
ppsych −0.000 0.447 −0.000 1.000
motiv 0.000 0.447 0.000 1.000

Variances:
Estimate Std.Err z-value P (> |z|)
.read 64.708 4.092 15.811 0.000
ppsych 99.800 6.312 15.811 0.000
motiv 99.800 6.312 15.811 0.000

Đúng/Sai: Trong Mô hình 2 , vectơ α có thể được thay thế bằng α1 như trong mô hình
hồi quy đơn biến (Mô hình 1A).
Trả lời: Sai. Không giống như mô hình hồi quy đơn biến (Mô hình 1A) chỉ có một hệ số
chặn, trong hồi quy đa biến, mọi kết quả đều có hệ số chặn riêng.
Đúng/Sai: Trong Mô hình 2 ở trên, có hai ma trận Γ bởi vì có hai biến ngoại sinh. Với
cùng một mô hình, điều này sẽ thay đổi nếu chúng ta tăng kích thước mẫu.
Trả lời: Đúng, mỗi biến nội sinh có mô hình hồi quy riêng và có thể có bao nhiêu biến
ngoại sinh như mong muốn (về mặt lý thuyết). Điều này không phụ thuộc vào kích thước
mẫu.

Bài tập
Chạy lại phân tích ở trên mà không chỉ định ppsych ∼ ∼ motive. Lưu ý số tham số tự
do và bậc tự do. Các hệ số có thay đổi không? Điều này ám chỉ điều gì?
Trả lời: Bậc tự do vẫn bằng 0 mặc dù số tham số tự do là 4 . Các tham số phụ là các
giới hạn và phương sai của ppsych và motiv tương ứng với κ1 và κ2 cũng như ϕ11 và
ϕ22 . Hiệp phương sai của ppsych và motiv ϕ12 tạo ra tổng cộng năm tham số bổ sung.
Tổng các tham số là 4 + 5 = 9.
Mặc dù chúng ta đã tăng số lượng tham số tự do, bậc tự do vẫn bằng 0! Chúng ta sẽ tìm
hiểu lý do trong phần sau.

2.4 Hồi quy đa biến (Mô hình 3A-E)


Mô hình hồi quy đơn và bội cho một kết quả (y) tại một thời điểm. Trong hồi quy tuyến
tính đa biến hoặc song song, nhiều kết quả y1 , y2 , . . . , yp được mô hình hóa song song,

14
trong đó q là số lượng kết quả. Mô hình tuyến tính đa biến tổng quát được định nghĩa là

y = α + Γx + ζ

Để xem công thức ma trận rõ ràng hơn, hãy xem xét hai biến nội sinh (y1 , y2 ) được dự
đoán bởi hai biến dự báo ngoại sinh x1 , x2 .
        
y1 α1 γ11 γ12 x1 ζ1
= + +
y2 α2 0 γ22 x2 ζ2

với Γ được biết đến như một tham số cấu trúc và xác định mối quan hệ của các biến
ngoại sinh và nội sinh.

Định nghĩa
- y = (y1 , · · · , yp )′ vector của p biến nội sinh (không phải số lượng quan sát).
- x = (x1 , · · · , xq )′ vector của q biến ngoại sinh.
- vector α của p hệ số chặn.
- ma trận Γ các hệ số hồi quy (p × q) liên kết nội sinh với các biến ngoại sinh mà hàng
thứ i cho biết biến nội sinh và cột thứ j cho biết biến ngoại sinh.
- ζ = (ζ1 , · · · , ζp )′ vector của phần dư p (đối với số lượng biến nội sinh không phải là
quan sát).

Đúng/Sai: Kích thước của vectơ phần dư ζ trong mô hình trên được xác định bởi số
lượng quan sát.
Trả lời: Sai. Kích thước của ζ được xác định bởi số lượng các biến nội sinh p. Tuy nhiên,
điều này không có nghĩa là chỉ có một quan sát. Trong thực tế có N · p phần dư nhưng
nó không được mô tả trong mô hình trên.
Đúng/Sai: γ12 đại diện cho hệ số hồi quy của biến ngoại sinh thứ hai x2 về kết quả đầu
tiên y1 .
Trả lời: Đúng. Các hàng thứ i cho biết biến nội sinh và cột thứ j chỉ ra biến ngoại sinh.
Đúng/Sai: Γ luôn luôn là một ma trận vuông có nghĩa là số hàng bằng số cột. Trả lời:
Sai, các hàng của Γ biểu thị số lượng biến nội sinh và các cột của Γ biểu thị số lượng
biến ngoại sinh. Ma trận này sẽ chỉ là hình vuông nếu số lượng các biến ngoại sinh bằng
số lượng các biến nội sinh.

2.4.1 Hồi quy đa biến với hiệp phương sai mặc định (Mô hình
3A)
Do sự phức tạp của điều này và các mô hình đa biến, chúng ta sẽ lập mô hình rõ ràng
các hệ số chặn trong lavaan nhưng loại trừ chúng khỏi sơ đồ đường dẫn. Như đã nói, sơ
đồ đường dẫn cho mô hình hồi quy đa biến (Mô hình 3A) được mô tả như sau:

15
m3a <- ’
# regressions
read ∼ ppsych + motiv
arith ∼ motiv

fit3a <- sem(m3a, data=dat)
summary(fit3a)

x1 ppsych và x2 motiv dự đoán y1 read và chỉ x2 motiv dự đoán y2 arith. Những


tham số ϕ11 , ϕ22 đại diện cho phương sai của hai biến ngoại sinh tương ứng và ϕ12 là hiệp
phương sai. Lưu ý rằng các tham số này được mô hình hóa ngầm và không được mô tả
trong kết quả lavaan. Những tham số ζ1 , ζ2 là phần dư của read và arith. Cuối cùng
ψ11 , ψ22 đại diện cho các phương sai phần dư của read và arith và ψ12 là hiệp phương
sai. Có thể xác định các số hạng còn lại bằng cách ghi chú một • trước số hạng trong
đầu ra.

Đúng/Sai: y1 trong biến dự báo hồi quy bội và đơn, chỉ một biến nội sinh và trong kết
quả đa biến y1 , y2 chỉ hai biến nội sinh , không phải hai mẫu.
Trả lời: Đúng. Nếu chúng ta phải lập chỉ mục số lượng quan sát trong hồi quy đa biến,
chúng ta sẽ cần hai chỉ mục cho y, cụ thể là yij với i là quan sát và j là biến nội sinh. Để
đơn giản, chúng ta xóa chỉ mục i cho các quan sát và chỉ cần tập trung vào j.
Đúng/Sai: Nhìn vào Mô hình 3A, ψ11 , ψ22 là các phương sai của ζ1 , ζ2 .
Trả lời: Đúng, chúng là phương sai dư.

Kết quả như sau:

lavaan 0.6-12 ended normally after 17 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 6
Number of observations 500

16
Model Test User Model :
Test statistic 6.796
Degrees of freedom 1
P-value (Chi-square) 0.009

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.216 0.030 −7.289 0.000
motiv 0.476 0.037 12.918 0.000
arith ∼
motiv 0.600 0.036 16.771 0.000

Covariances:
Estimate Std.Err z-value P (> |z|)
.read ∼∼
.arith 39.179 3.373 11.615 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
.read 65.032 4.113 15.811 0.000
.arith 63.872 4.040 15.811 0.000

Như mong đợi, các hệ số chặn của read và arith bằng 0 và các phương sai phần dư là
65,032 và 63,872 . Đối với hồi quy đa biến, hiệp phương sai là mặc định trong lavaan và
được ước lượng là 39,179 (mối quan hệ cùng chiều giữa phương sai của read và arith
không được tính bởi các biến ngoại sinh). Mối quan hệ của read trên ppsych là −0, 216.
Cứ tăng Negative Parental Psychology lên 1 đơn vị, Reading giảm 0,216 điểm, kiểm soát
ảnh hưởng của Motivation. Mối quan hệ của read trên motiv là 0,476 nghĩa là khi
Motivation tăng một đơn vị, Reading tăng 0,476 điểm, kiểm soát tác động của Negative
Parental Psychology. Cuối cùng arith trên motiv là 0,6 ; tăng một điểm trong Motiva-
tion dẫn đến tăng 0,6 điểm Arithmetic.

Hồi quy đa biến có giống như chạy hai hồi quy tuyến tính riêng biệt không? Hãy cùng
chạy lm() để tìm hiểu. Đầu tiên, hãy chạy mô hình read on ppsych và motiv.

m3b <- lm(read ∼ ppsych + motiv, data=dat)


(fit3b <- summary(m3b))

Kết quả như sau:

17
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) -1.336 e-07 3.608 e-01 0.00 1
ppsych -2.747 e-01 3.730 e-02 -7.363 7.51 e-13 * * *
motiv 4.613 e-01 3.730 e-02 12.367 < 2e-16 * * *

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 8.068 on 497 degrees of freedom


Multiple R-squared: 0.3516, Adjusted R-squared: 0.349
F-statistic: 134.8 on 2 and 497 DF, p-value: < 2e-16

Bây giờ chúng ta hãy chạy mô hình arith trên motiv trong lm()

m3c <- lm(arith ∼ motiv, data=dat)


(fit3c <- summary(m3c))

Kết quả như sau:

Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) -5.400 e-07 3.581 e-01 0.00 1
motiv 6.000 e-01 3.585 e-02 16.74 < 2e-16 * * *

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 8.008 on 498 degrees of freedom


Multiple R-squared: 0.36, Adjusted R-squared: 0.3587
F-statistic: 280.1 on 1 and 498 DF, p-value: < 2.2e-16

Chúng ta thấy rằng các hệ số read ∼ ∼ ppsych là −0, 216 trong lavaan nhưng −0, 2747.
Đây có thể là lỗi làm tròn? Hơn nữa, nhìn vào các sai số tiêu chuẩn phần dư, chúng ta
thấy rằng phương sai phần dư của arith là 8.0082 = 64.12 khác với ước lượng lavaan
63,872. Theo những gì chúng ta biết từ phần trước, điều gì có thể là nguyên nhân của sự
khác biệt này? Chúng ta cùng tìm hiểu những câu hỏi này trong phần sau.

2.4.2 Hồi quy đa biến loại bỏ hiệp phương sai mặc định (Mô
hình 3D)
Có hai khía cạnh cho câu hỏi trên. Trước đây chúng ta đã biết rằng 1 m( ) sử dụng công
cụ ước lượng bình phương nhỏ nhất nhưng lavaan sử dụng hợp lý cực đại, do đó có sự
khác biệt trong các ước lượng phương sai phần dư. Tuy nhiên, bất kể công cụ nào trong
hai công cụ ước lượng được sử dụng, các hệ số hồi quy không bị lệch vì vậy phải có một
cái gì đó khác giải thích cho sự khác biệt trong các hệ số. Câu Trả lời nằm ở thực tế
lavaan theo mặc định với phương sai phần dư của các biến nội sinh . read ∼ ∼ .arith.
Loại bỏ các hiệp phương sai dư mặc định, chúng ta thấy trong sơ đồ đường dẫn (Mô hình
3D).

18
Loại bỏ hiệp phương sai của read và arith cũng giống như sửa hiệp phương sai thành 0
thông qua câu lệnh read ∼ ∼ 0*arith.

m3d <- ’
# regressions
read ∼ ppsych + motiv
arith ∼ motiv
# covariance
read ∼∼ 0*arith

fit3d <- sem(m3d, data=dat)
summary(fit3d)

Kết quả như sau:

lavaan 0.6-12 ended normally after 2 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 5
Number of observations 500

Model Test User Model :


Test statistic 234.960
Degrees of freedom 2
P-value (Chi-square) 0.000

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

19
Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
motiv 0.600 0.036 16.771 0.000

Covariances:
Estimate Std.Err z-value P (> |z|)
.read ∼∼
.arith 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
.read 64.708 4.092 15.811 0.000
.arith 63.872 4.040 15.811 0.000

Lưu ý bây giờ hệ số của read trên ppsych là -0,275 và read trên motiv là 0,416. So
sánh với m3b.

Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) -1.336 e-07 3.608 e-01 0.00 1
ppsych -2.747 e-01 3.730 e-02 -7.363 7.51 e-13 * * *
motiv 4.613 e-01 3.730 e-02 12.367 < 2e-16 * * *

Bài tập
So sánh hệ số arith motiv từ m3c. Tại sao chúng ta nghĩ các hệ số giống nhau giữa
lm() và lavaan ?
Trả lời: Phương sai phần dư là phương sai không được giải thích bởi tất cả các biến dự
báo ngoại sinh trong mô hình. Các hệ số thay đổi giữa hiệp phương sai làm thay đổi mô
hình nếu biến ngoại sinh bổ sung có tương quan với các biến nội sinh khác. Nếu hiệp
phương sai được sử dụng thì phương sai phần dư sẽ tính đến ảnh hưởng của phương sai
ppsych trêc aritnh mà không được mô hình hóa. Bất kỳ hệ số nào không được mô hình
hóa trong các hồi quy khác sẽ xuất hiện trong hiệp phương sai dư, do đó sự khác biệt
trong các hệ số khi hiệp phương sai bị loại bỏ. Lưu ý rằng motiv xuất hiện trong cả hai
read ∼ motiv và arith ∼ ppsych + motiv và có nghĩa là sử dụng hoặc loại bỏ hiệp
phương sai sẽ dẫn đến các hệ số giống nhau.

Bài tập
Chạy lại m3a và m3d với ppsychvà motiv dự đoán cả read và arith với các hiệp
phương sai được sử dụng và loại bỏ. Chúng ta nhận thấy gì về các hệ số?
Trả lời: Thêm câu lệnh sau.
read ∼ 1 + ppsych + motiv
arith ∼ 1 + ppsych + motiv

Hệ số cho cả hai mô hình là như nhau

20
Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
ppsych −0.096 0.037 −2.616 0.000
motiv 0.576 0.037 15.695 0.000

Đúng/Sai: Trong lavaan, hồi quy đa biến tương đương với chạy các hồi quy riêng biệt.
Trả lời : Sai. Theo mặc định, lavaan tương quan với phương sai phần dư của các biến
nội sinh. Để làm cho nó tương đương, giới hạn hiệp phương sai này bằng 0.
Đúng/Sai: Lý do các phương sai phần dư khác nhau giữa Mô hình 3D và Mô hình 3B, C
là do hợp lý cực đại so với ước lượng bình phương nhỏ nhất.
Trả lời: Đúng.
Đúng/Sai: Thuật ngữ phương sai .arith trong Mô hình 3D là phương sai của Arithmetic.
So sánh giá trị này với phương sai được tính từ Mô hình 3C.
Trả lời: Sai. Nó là phương sai dư. Lưu ý rằng ngay cả khi chúng ta đã loại bỏ hiệp phương
sai, ước lượng 63,872 khác với ước lượng phương sai của Mô hình 3C, là bình phương
của sai số tiêu chuẩn phần dư 8,0082 = 64, 128.

2.4.3 Hồi quy đa biến bão hòa hoàn toàn (Mô hình 3E)
Bây giờ chúng ta đã biết cách phân biệt giữa các mô hình được xác định quá mức và chỉ
được xác định, chúng ta hiểu rằng việc thêm một đường dẫn duy nhất γ21 vào Mô hình
3A thành một mô hình vừa được xác định hoặc hoàn toàn bão hòa mà chúng ta gọi là
Mô hình 3E.

Trong lavaan, điều này dễ dàng như thêm đường dẫn bổ sung của arith on ppsych
nhưng hãy nhớ rằng lavaan theo mặc định, hiệp phương sai của ψ12 là hiệp phương sai
phần dư giữa read và arith.

m3e <- ’
# regressions
read ∼ ppsych + motiv
arith ∼ ppsych + motiv

21
#covariance
ppsych ∼∼ motiv
ppsych ∼∼ ppsych
motiv ∼∼ motiv

fit3e <- sem(m3e, data=dat)
summary(fit3e)

Kết quả như sau:

lavaan 0.6-12 ended normally after 40 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 10
Number of observations 500

Model Test User Model :


Test statistic 0.000
Degrees of freedom 0

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
ppsych −0.096 0.037 −2.616 0.000
motiv 0.576 0.037 15.695 0.000

Covariances:
Estimate Std.Err z-value P (> |z|)
ppsych ∼∼
motiv −24.950 4.601 −5.423 0.000
.read ∼∼
.arith 38.651 3.338 11.579 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
ppsych 99.800 6.312 15.811 0.000
motiv 99.800 6.312 15.811 0.000
.read 64.708 4.092 15.811 0.000
.arith 63.010 3.985 15.811 0.000

22
Chúng ta thấy rằng Negative Parental Psychology có mối quan hệ ngược chiều với Arith-
metic: cứ tăng một đơn vị biến ngoại sinh ppsych thì biến nội sinh read giảm đi 0,275.
Cho đến thời điểm này, chúng ta đã khám phá hồi quy bội trong đó một biến nội sinh
được dự đoán bởi hai hoặc nhiều biến ngoại sinh, hồi quy đa biến trong đó nhiều biến
ngoại sinh có thể dự đoán nhiều biến nội sinh. Cuối cùng, trong phần tiếp theo, chúng
ta sẽ xem cách phân tích đường dẫn cho phép các biến nội s, inh dự đoán lẫn nhau.

2.5 Các giá trị, tham số và bậc tự do đã biết


Cả hồi quy đơn và hồi quy bội đều là mô hình bão hòa có nghĩa là tất cả các tham số
đều được ước lượng đầy đủ và không có bậc tự do. Điều này không nhất thiết đúng với
các mô hình hồi quy đa biến vì Mô hình 3A và 3D có bậc tự do tương ứng là 1 và 2 . Hãy
hiểu cách tính bậc tự do. Để bắt đầu, trước tiên hãy đếm số lượng giá trị đã biết trong
ma trận phương sai-hiệp phương sai tổng thể quan sát Σ, được đưa ra bởi công thức p
(p + 1)/2 với p là số items trong khảo sát. Để xem tại sao điều này đúng, hãy tham khảo
phần tùy chọn Bậc tự do với giá trị trung bình từ phân tích nhân tố khẳng định (CFA)
trong R với lavaan để có giải thích chính xác hơn về mặt kỹ thuật. Nhìn vào các biến
trong hồi quy đa biến, chúng ta muốn có được ma trận phương sai-hiệp phương sai cho
Reading, Arithmetic, Negative Parental Psychology và Motivation. Để có được ma trận
hiệp phương sai mẫu S = Σ̂, là ước lượng của ma trận hiệp phương sai tổng thể Σ, sử
dụng lệnh cov và tham chiếu cột của tập dữ liệu theo tên dat [ , c("read", "arith",
"ppsych", "motiv")].

cov(dat[,c("read","arith","ppsych","motiv")])

read arith ppsych motiv


read 100 73 -39 53
arith 73 100 -24 60
ppsych -39 -24 100 -25
motiv 53 60 -25 100

Các ô nằm ngoài đường chéo trong S tương ứng với hiệp phương sai mẫu hai biến giữa
hai cặp items; và các ô chéo trong S tương ứng với phương sai mẫu của mỗi item (do đó
có thuật ngữ “ ma trận phương sai-hiệp phương sai "). Reading có liên quan tích cực đến
Arithmetic, nhưng Reading có mối quan hệ tiêu cực với Negative Parental Psychology.
Cũng giống như trong ma trận hiệp phương sai lớn hơn mà chúng ta đã tính toán trước
đó, các phần tử của tam giác dưới trong ma trận hiệp phương sai là giống với các phần
từ của tam giác trên. Ví dụ, hiệp phương sai của Reading với Arithmetic là 73, cũng
là hiệp phương sai của Arithmetic với Reading (nhớ lại tính chất của đối xứng). Bởi vì
các hiệp phương sai được lặp, số lượng các tham số tự do trong SEM được xác định
bởi số lượng phương sai và hiệp phương sai duy nhất. Với 4 items, số giá trị đã biết là
p(p + 1)/2 = 4(5)/2 = 10. Các giá trị đã biết đóng vai trò là giới hạn trên của số lượng
tham số có thể ước lượng trong mô hình. Các tham số đến từ mô hình được goi là tham
số mô hình . Nhắc lại mô hình đa biến:

y = α + Γx + ζ

23
Vì chúng ta quan tâm đến hiệp phương sai của y, sau đó giả sử định rằng α, x, ζ độc
lập. Nhớ lại rằng hiệp phương sai của một vectơ không đổi bằng 0 vì Cov (α) = E[(α −
E(α))(α − E(α)] = E[0] = 0 :

Σ(θ) = Cov(y) = Cov(α+Γx+ζ) = Cov(α)+Cov(Γx)+Cov(ζ) = Γ Cov(x)Γ′ +Ψ = ΓΦΓ′ +Ψ

Đây là một ma trận 2 × 2 đóng vai trò là phần phía trên bên trái của Σ(θ). Lưu ý rằng
ma trận đầy đủ của Σ(θ) là 4 × 4. Vì có chính xác hai biến ngoại sinh và hai biến nội
sinh, mỗi phần là một ma trận 2 × 2 .

ΓΦΓ′ + Ψ ΓΦ
 
Σ(θ) =
ΓΦ Γ

Tuy nhiên, vì các tham số của mô hình hoàn toàn có thể được xác định bởi các phần từ
của y, chúng ta không xem xét các tham số của Φ hoặc ΦΓ′ . Ma trận hiệp phương sai
của y,
     
′ γ11 γ12 ϕ11 ϕ12 γ11 γ21 ψ11 ψ12
ΓΦΓ + Ψ = +
γ21 γ22 ϕ22 γ12 γ22 ψ22

Lưu ý rằng α không xuất hiện trong mô hình hiệp phương sai. Trước tiên, hãy xem xét
kích thước của từng tham số trong Mô hình 3A và 3D. Vì có hai biến nội sinh và biến
ngoại sinh ma trận Γ là 2×2 với tổng số 4 tham số. Đối với hai biến ngoại sinh, kích thước
của Φ là 2 × 2 nhưng theo sự đối xứng, ϕ12 = ϕ21 có nghĩa là chúng ta có 3ϕ . Đối với
hai biến nội sinh, kích thước của Ψ cũng 2 × 2 nhưng kể từ khi ψ12 = ψ21 có tổng cộng 3ψ.

Sau đó, tổng số tham số (duy nhất) ở đây là 4 + 3 + 3 = 10 tham số. Không phải ngẫu
nhiên khi số lượng tham số mô hình khớp với số lượng giá trị đã biết. Nếu chúng ta ước
lượng mọi tham số có thể thì theo định nghĩa đây là mô hình bão hòa (xem Mô hình 3E
bên dưới).

Đúng/Sai: Γ luôn là một ma trận đối xứng.


Trả lời : Sai γ12 ̸= γ21 . Đầu tiên là hồi quy của y1 trên x1 và thứ hai là hồi quy của y2
trên x2 .

Ví dụ sử dụng Mô hình 3A

Đối với mục đích chỉnh sửa, chúng ta sẽ sửa đổi một chút câu lệnh của Mô hình 3A
(không đi quá sâu vào chi tiết kỹ thuật, câu lệnh này mô hình hóa các tham số một cách
rõ ràng và loại bỏ các tham số chặn). Bây giờ chúng ta có thể so sánh các thuật ngữ
trong kết quả này với sơ đồ đường dẫn.

m3aa <- ’
# regressions
read ∼ ppsych + motiv
arith ∼ motiv
# variance and covariance
ppsych ∼∼ ppsych
motiv ∼∼ motiv

24
ppsych ∼∼ motiv

fit3aa <- sem(m3aa, data=dat)
summary(fit3aa)

Kết quả như sau

lavaan 0.6-12 ended normally after 39 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 9
Number of observations 500

Model Test User Model :


Test statistic 6.796
Degrees of freedom 1
P-value (Chi-square) 0.009

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.216 0.030 −7.289 0.000
motiv 0.476 0.037 12.918 0.000
arith ∼
motiv 0.600 0.036 16.771 0.000

Covariances:
Estimate Std.Err z-value P (> |z|)
ppsych ∼∼
motiv −24.950 4.601 −5.423 0.000
.read ∼∼
.arith 39.179 3.373 11.615 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
ppsych 99.800 6.312 15.811 0.000
motiv 99.800 6.312 15.811 0.000
.read 65.032 4.113 15.811 0.000
.arith 63.872 4.040 15.811 0.000

Bài tập
Sử dụng kết quả được tạo ở trên để tính toán số lượng tham số tự do

25
Trả lời: Số lượng tham số mô hình duy nhất là 10 và số lượng tham số cố định là 1, cụ
thể là chúng ta đã cố định γ21 = 0.

Các tham số cố định so với tham số tự do

Tuy nhiên, từ kết quả của Mô hình 3A, chúng ta biết rằng số lượng tham số tự do là 9
thay vì 10 . Điều này là do chúng ta đã cho phép các tham số cố định là các tham số
không được ước lượng và xác định trước có giá trị cụ thể. Tham số nào được cố định
(xem Bài tập trên)?

Số lượng tham số tự do được xác định là


number of free parameters = number of unique parameters –number of fixed parameters.
Mục tiêu là tối đa hóa bậc tự do (df) được định nghĩa là
df = number of known values - number of free parameters
Bây giờ chúng ta có bao nhiêu bậc tự do?
Trả lời: 10-9 = 1

Các mô hình vừa được xác định hoặc bão hòa có df = 0, có nghĩa là số lượng tham
số tự do bằng số lượng giá trị đã biết trong Σ. Mô hình chưa được xác định có nghĩa
là số lượng giá trị đã biết nhỏ hơn số lượng tham số tự do và mô hình được xác định
quá mức có nghĩa là số lượng giá trị đã biết lớn hơn số lượng tham số tự do.

Tóm tắt

• df âm, đã biết < tự do ( chưa được xác định , xấu).

• df = 0, đã biết = tự do ( vừa được xác định hoặc bão hòa , không xấu cũng không
tốt).

• df dương, đã biết > tự do ( quá xác định, tốt).

Đúng/Sai: Các mô hình được xác định quá mức là tốt vì có thêm bậc tự do.
Trả lời : Đúng. Các mô hình được xác định quá mức là lý do chúng ta có thể đánh giá
sự phù hợp của mô hình (sẽ được thảo luận ở phần sau).
Đúng/Sai: Mô hình hồi quy tuyến tính và hồi quy bội là mô hình bão hòa.
Trả lời : Đúng. Tính bậc tự do và chúng ta sẽ thấy nó bằng 0.

Câu hỏi
Sử dụng những gì chúng ta biết, hãy giải thích lý do tại sao bậc tự do trong hồi quy đơn
bằng 0 (loại trừ hệ số chặn).
Trả lời: Có ba tham số mô hình không có hệ số chặn, γ1 , ϕ11 và ψ11 và không có giá trị
cố định. Vị vậy, số lượng tham số tự do là 3 − 0 = 3. Vi có 2(3)/2 = 3 các giá trị đã biết,
bậc tự do là 3 − 3 = 0.

Thách thức
Tại sao có 5 tham số tự do trong kết quả của m1b?
Trả lời: chúng ta đã bao gồm thuật ngữ chặn của biến nội sinh, vì vậy các tham số tự do
là α1 , γ1 , ϕ11 và ψ11 . Mặc dù chúng ta không thảo luận về điều này, nhưng lavaan ngầm
định mô hình hóa sự chặn của biến ngoại sinh κ1 tạo ra tổng cộng năm tham số tự do.

26
2.6 Phân tích đường dẫn (Mô hình 4A)
Hồi quy đa biến là một trường hợp đặc biệt của phân tích đường dẫn trong đó chỉ có
các biến ngoại sinh dự đoán các biến nội sinh. Phân tích đường dẫn là một mô hình tổng
quát hơn trong đó tất cả các biến vẫn biểu hiện nhưng các biến nội sinh được phép giải
thích các biến nội sinh khác. Từ ma trận Γ chỉ định mối quan hệ giữa một biến nội sinh
(y) và biến ngoại sinh (x), chúng ta cần tạo một ma trận mới B xác định mối quan hệ
giữa hai biến nội sinh (y).

y = α + Γx + By + ζ
Ma trận B là một ma trận p × p không nhất thiết là đối xứng. Các hàng của ma trận
này chỉ định biến y đang được dự đoán và các cột chỉ định y đang dự đoán. Ví dụ, β21 ở
hàng thứ hai nghĩa là y2 đang được dự đoán và cột đầu tiên y1 có nghĩa là dự đoán.

Đúng/Sai: β21 giống như β12 .


Trả lời : Sai. Ở trong β21 biến nội sinh y2 đang được dự đoán trong khi β12 có nghĩa y1
đang được dự đoán.

Hãy mở rộng mô hình hồi quy đa biến trước đây 3A để tin rằng read biến nội sinh nào
cũng có thể dự đoán arith. Sau đó, sơ đồ đường dẫn cho Model 4A được hiển thị bên
dưới. Sự khác nhau giữa Model 3 A và 4 A là gì?

Để xem công thức ma trận cho Mô hình 4A, chúng ta có:


           
y1 α1 γ11 γ12 x1 0 0 y1 ζ1
= + + +
y2 α2 0 γ22 x2 β21 0 y2 ζ2

Định nghĩa
- y = (y1 , · · · , yp )′ vector của p biến nội sinh (không phải số lượng quan sát!).
- x = (x1 , · · · , xq )′ vector của q biến ngoại sinh.
- vector α của p hệ số chặn.
- ma trận Γ các hệ số hồi quy (p × q) liên kết nội sinh với các biến ngoại sinh mà hàng
thứ i cho biết biến nội sinh và cột thứ j cho biết biến ngoại sinh.
- ma trận B các hệ số hồi quy (p × p) của các biến nội sinh đến nội sinh có hàng thứ i

27
chỉ biến nguồn và cột thứ j chỉ biến mục tiêu.
- ζ = (ζ1 , · · · , ζp )′ vector của phần dư.

Giả định
- E(ζ) = 0 giá trị trung bình của các phần dư là 0.
- ζ không liên quan đến x.
- (I − B) là không thể đảo ngược (ví dụ B ≠ I).

Đúng/Sai: Giả định về phân tích đường dẫn nói rằng không thể dự đoán y1 .
Trả lời: Đúng. Điều này có nghĩa là B = I.
Đúng/Sai: B = 0 nghĩa là không có biến nội sinh nào dự đoán biến khác và tương đương
với mô hình hồi quy đa biến.
Trả lời: Đúng. Xem mô hình hồi quy đa biến ở trên.
Đúng/Sai: β21 đại diện cho hệ số hồi quy từ biến nội sinh thứ hai y2 đến biến nội sinh y1 .
Trả lời: Sai. β21 là hệ số hồi quy từ biến nội sinh đầu tiên y1 đến biến nội sinh thứ hai y2 .
Các hàng thứ i cho biết biến nội sinh mục tiêu và cột thứ j chỉ ra biến nội sinh nguồn.

Lập mô hình phân tích đường dẫn trong lavaan

Cũng giống như trong Mô hình 3A, chúng ta đưa ra giả thuyết rằng Negative Parental
Psychology ppsych và Motivation motiv dự đoán Reading read và Motivation dự đoán
Arithmetic. Ngoài ra, giả sử chúng ta cũng tin rằng những học sinh có khả năng Reading
cao hơn (read) có thể đọc các bài toán đố hiệu quả hơn và có thể dự đoán điểm toán
một cách tích cực (Arithmetic arith). Câu lệnh trong lavaan thêm vào read như một
biến dự báo.

m4a <- ’
# regressions
read ∼ ppsych + motiv
arith ∼ motiv + read
# covariance
# read ∼∼ 0*arith

fit4a <- sem(m4a, data=dat)
summary(fit4a)

Kết quả như sau:

lavaan 0.6-12 ended normally after 1 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 6
Number of observations 500

28
Model Test User Model :
Test statistic 4.870
Degrees of freedom 1
P-value (Chi-square) 0.027

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
motiv 0.296 0.034 8.841 0.000
read 0.573 0.034 17.093 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
.read 64.708 4.092 15.811 0.000
.arith 40.314 2.550 15.811 0.000

Chúng ta thấy rằng Reading dự đoán tích cực về Arithmetic cao hơn các tác động của
Motivation. Vị vậy, cứ tăng Reading 1 đơn vị, Arithmetic được dự đoán sẽ tăng 0,573
điểm. Cũng lưu ý rằng không giống như Mô hình 3A, hiệp phương sai phần dư của .arith
và .read bị loại bỏ theo mặc định. Điều này là do bằng cách thêm một đường hồi quy
từ Reading đến Arithmetic, chúng ta giả định rằng Reading tính cho tất cả các phương
sai trong Arithmetic, do đó một hiệp phương sai dư là không cần thiết.

Bài tập
Hãy thử làm cho mô hình phân tích đường dẫn ở trên thành một mô hình bão hòa bằng
cách thêm hiệp phương sai giữa các phần dư của các biến nội sinh. Làm thế nào để chúng
ta giải thích hiệp phương sai này?
Trả lời : Thêm hiệp phương sai read ∼ ∼ arith; sự diễn giải là hiệp phương sai phần
dư của phép tính và theo tác động của tất cả các biến dự báo ngoại sinh và nội sinh.

2.7 Chỉ số hiệu chỉnh


Chúng ta thấy rằng phân tích đường dẫn Mô hình 4A cũng như các hồi quy đa biến (Mô
hình 3A và 3D) là các mô hình được xác định quá mức có nghĩa là bậc tự do của chúng
lớn hơn 0. Các mô hình được xác định quá mức cho phép linh hoạt trong việc lập mô
hình các bậc tự do phần dư. Ví dụ: trong Mô hình 4 A, chúng ta có thể thêm một đường
dẫn bổ sung giữa ppsych và read nhưng chúng ta cũng có thể thêm hiệp phương sai
giữa . read và .arith. Thêm một trong hai tham số này dẫn đến một mô hình bão hòa
hoàn toàn. Nếu không có giả thuyết tiên nghiệm mạnh mẽ, khó có thể xác định tham

29
số tốt nhất để ước lượng. Một giải pháp là sử dụng chỉ số hiệu chỉnh,là kiểm định
chi-bình phương một bậc tự do đánh giá mô hình chi-bình phương sẽ thay đổi như thế
nào do kết quả của việc đưa tham số vào mô hình. Thay đổi chi-bình phương càng cao,
tác động của việc thêm tham số bổ sung càng lớn. Để thực hiện chỉ số hiệu chỉnh trong
lavaan, chúng ta phải nhập vào hàm modindices một mô hình đã ước lượng trước đó,
trong trường hợp này là fit4a. Tùy chọn sort=TRUE yêu cầu các tham số có tác động
mạnh nhất được đặt đầu tiên dựa trên sự thay đổi trong chi-bình phương.

modindices(fit4a,sort=TRUE)

lhs op rhs mi epc sepc.lv sepc.all sepc.nox


17 motiv ∼ arith 68.073 8.874 8.874 8.874 8.874
10 read ∼∼ arith 4.847 16.034 16.034 0.314 0.314
11 read ∼ arith 4.847 0.398 0.398 0.398 0.398
12 arith ∼ ppsych 4.847 0.068 0.068 0.068 0.007
14 ppsych ∼ arith 2.188 0.071 0.071 0.071 0.071
16 motiv ∼ read 0.000 0.000 0.000 0.000 0.000
13 ppsych ∼ read 0.000 0.000 0.000 0.000 0.000
18 motiv ∼ ppsych 0.000 0.000 0.000 0.000 0.000
9 motiv ∼∼ motiv 0.000 0.000 0.000 0.000 0.000
8 ppsych ∼∼ motiv 0.000 0.000 0.000 NA 0.000
15 ppsych ∼ motiv 0.000 0.000 0.000 0.000 0.000

Các cột đai diện cho:


- left-hand side ( lhs)
- operation (op)
- right-hand side (rhs)
- modification index ( mi)
- expected parameter change ( epc) biểu thị mức độ mà tham số dự kiến sẽ thay đổi
- sepec. Iv chuấn hóa epc bằng biến tiềm ẩn (trong trường hợp này là không có biến nào)
- sepec . all chuẩn hóa bởi cả Y và X
- sepc . nox chuấn hóa tất cả trừ các biến X (chỉ trong trường hợp này là Y ).

Chúng ta thấy rằng cho đến nay, tham số có tác động mạnh nhất là motiv ∼ arith với
thay đổi chi-bình phương là 68,073. Chỉ số hiệu chỉnh gợi ý rằng chúng ta coi Motivation
là một biến dự báo nội sinh và Arithmetic là biến dự báo ngoại sinh. Thay đổi dự kiến
(từ 0 ) trong hệ số hồi quy này sẽ là 8,874 . Mặc dù điều này nghe có vẻ không khả
thi, nhưng không phải tất cả các đề xuất chỉ số hiệu chỉnh đều có ý nghĩa. Nhớ lại rằng
chi-bình phương cho Model 4A là 4, 870 và trừ đi 68, 073 = −63, 20 thì kết quả chi-bình
phương là âm! Ngoài ra, các hàng 17, 20, 11, 19, 10 và 22 có chi-bình phương bằng 0
sẽ làm cho các sửa đổi không cần thiết. Đối với ví dụ này, chúng ta quyết định xem xét
hàng thứ hai gợi ý rằng duy trì Arithmetic như một biến nội sinh nhưng thêm Negative
Parental Psychology phủ định làm biến ngoại sinh. Dựa trên giả thuyết, nó có ý nghĩa
rằng Negative Parental Psychology tiêu cực dự đoán cả Arithmetic và Reading. Theo đề
xuất, chúng ta thêm arith ∼ ppsych vào Mô hình phân tích đường dẫn 4 A và đổi tên
thành Mô hình 4B.

Như một bài tập, chúng ta hãy chạy lại Mô hình 4B theo cách thủ công và xem sự thay

30
đổi tham số dự kiến epc khớp với 0,068 và thay đổi chi bình phương dự kiến là 4,847 chặt
chẽ như thế nào.

Để biết thêm thông tin, hãy xem chỉ số hiệu chỉnh.


(https://lavaan.ugent.be/tutorial/modindices.html).

Đúng/Sai: Luôn sử dụng các chỉ số hiệu chỉnh để cải thiện sự phù hợp của mô hình.
Trả lời: Sai. Không phải tất cả các sửa đổi đối với mô hình đều có ý nghĩa. Ví dụ, hiệp
phương sai của các phần dư thường được coi là một cách "dễ dàng" để cải thiện sự phù
hợp mà không cần thay đổi mô hình. Tuy nhiên, bằng cách thêm hiệp phương sai, chúng
ta đang lập mô hình hiệp phương sai không giải thích được giữa các biến mà theo định
nghĩa không được mô hình hóa bởi mô hình giả thuyết. Mặc dù mô hình hóa các hiệp
phương sai này cải thiện sự phù hợp, chúng không nói gì về các cơ chế thông thường mà
mô hình đưa ra.

Đúng/Sai: Mỗi chỉ số hiệu chỉnh kiểm tra một tham số tại một thời điểm.
Trả lời: Đúng. Mỗi chỉ số hiệu chỉnh là một kiểm định chênh lệch chi bình phương 1 bậc
tự do, có nghĩa là nó chỉ kiểm tra một tham số tại một thời điểm, mặc dù thuật toán ước
lượng song song tất cả các thay đổi tham số.
Đúng/Sai: Hai mô hình bão hòa phải có các tham số ước lượng chính xác giống nhau.
Trả lời: Sai. Có nhiều cách để chỉ định một mô hình bão hòa dẫn đến cùng một bậc tự
do. Chỉ vì một mô hình bão hòa không có nghĩa là mô hình tốt nhất vì có thể có nhiều
mô hình bão hòa tương đương hơn.

2.8 Phân tích đường dẫn sau khi sửa đổi (Mô hình
4B)
Dựa trên chỉ số hiệu chỉnh ở trên, chúng ta quyết định thêm arith ∼ ppsych vào Mô
hình 4 A và gọi nó là Mô hình 4B.

m4b <- ’
# regressions
read ∼ ppsych + motiv

31
arith ∼ motiv + read + ppsych

fit4b <- sem(m4b, data=dat)
summary(fit4b)

Kết quả như sau:

lavaan 0.6-12 ended normally after 1 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 7
Number of observations 500

Model Test User Model :


Test statistic 0.000
Degrees of freedom 1

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
motiv 0.300 0.033 8.993 0.000
read 0.597 0.035 17.004 0.000
ppsych 0.068 0.031 2.212 0.027

Variances:
Estimate Std.Err z-value P (> |z|)
.read 64.708 4.092 15.811 0.000
.arith 39.923 2.525 15.811 0.000

Chỉ số hiệu chỉnh như sau:

modindices(fit4b,sort=TRUE)

lhs op rhs mi epc sepc.lv sepc.all sepc.nox


<0 rows> (or 0-length row.names)

Câu hỏi
Tại sao không có chỉ số hiệu chỉnh nào trong fit4b? Chi-bình phương chúng ta thu được
giống hay khác với chỉ số hiệu chỉnh?

32
Trả lời: Không có chỉ số hiệu chỉnh vì nó là một mô hình bão hòa. Chỉ số hiệu chỉnh
gần bằng kiểm định chi-bình phương nhưng lớn hơn một chút vì nó là một con số gần đúng.

Trong Mô hình 4B, chúng ta thấy rằng bậc tự do bằng 0, đó là những gì chúng ta mong
đợi từ chỉ số hiệu chỉnh 4,847. Nhớ lại rằng đối với Mô hình 4 A, chi-bình phương là 4,870
, rất gần với ước lượng của chúng ta. Ngoài ra, hệ số ước lượng là 0,068 giống với kết quả
chỉ số hiệu chỉnh. Nói chung, chỉ số hiệu chỉnh chỉ là một ước lượng của chi bình phương
dựa trên hệ số nhân Lagrange và có thể không khớp với kết quả khi thực sự chạy lại mô
hình và thu được sự khác biệt của các giá trị chi bình phương. Tuy nhiên, bậc tự do phù
hợp với những gì chúng ta mong đợi, đó là một bậc tự do thay đổi dẫn đến mô hình phân
tích đường dẫn bão hòa (Mô hình 4B).

Model Test User Model (Model 4A) :


Test statistic 4.870
Degrees of freedom 1
P-value (Chi-square) 0.027
Model Test User Model (Model 4B) :
Test statistic 0.000
Degrees of freedom 1

Cảnh báo về việc sử dụng các chỉ số hiệu chỉnh

Chỉ vì các chỉ số hiệu chỉnh cung cấp các đề xuất để cải thiện sự phù hợp với mô hình
không có nghĩa là một nhà nghiên cứu, chúng ta có thể tự do thay đổi mô hình của mình.
Lưu ý rằng lỗi Loại I là xác suất tìm thấy dương tính giả và việc thay đổi mô hình dựa
trên các chỉ số hiệu chỉnh có thể có tác động nghiêm trọng đến lỗi Loại I. Điều này có
nghĩa là chúng ta có thể đang tìm thấy nhiều mối quan hệ có ý nghĩa thống kê không
được lặp lại trong một mẫu khác.

Xem trang Ý nghĩa thống kê


(https://dev.stats.idre.ucla.edu/other/mult-pkg/seminars/retiring-statistical-significancel).

33
Chương 3

Thống kê độ phù hợp mô hình

Chỉ số hiệu chỉnh đưa ra đề xuất vê các cách cải thiện độ phù hợp của mô hình, nhưng
sẽ hữu ích khi đánh giá độ phù hợp của mô hình hiện tại để xem liệu các cải tiến có cần
thiết hay không. Như chúng ta đã thấy, các mô hình phân tích đường dẫn và hồi quy đa
biến không phải lúc nào cũng bão hòa, nghĩa là bậc tự do không bằng 0. Điều này cho
phép chúng ta xem xét những gì được gọi là Thống kê phù hợp mô hình, đo lường mức
độ chạt chẽ của ma trận hiệp phương sai ngụ ý của mô hình (tổng thể) Σ(θ) khớp với
ma trận hiệp phương sai quan sát được (tổng thể)Σ. SEM còn được gọi là phân tích cấu
trúc hiệp phương sai, có nghĩa là giả thuyết liên quan đến ma trận hiệp phương sai. Giả
thuyết không và giả thuyết thay thế trong mô hình SEM là:

H0 : Σ(θ) = Σ
H1 : Σ(θ) ̸= Σ

Thông thường, việc bác bỏ giả thuyết không là tốt, nhưng nếu chúng ta bác bỏ giả thuyết
không thì sẽ bác bỏ mô hình người dùng ( không tốt). Không từ chối mô hình là tốt cho
mô hình bởi vì chúng ta đã không bác bỏ rằng mô hình là xấu. Lưu ý rằng dựa trên logic
của việc kiểm định giả thuyết, việc không bác bỏ giả thuyết không không chứng minh
rằng mô hình là đúng, cũng như không thể nói đó là mô hình tốt nhất, vì có thể có nhiều
mô hình cạnh tranh khác cũng có thể không bác bỏ giả thuyết không. Tuy nhiên, chúng
ta chắc chắn có thể nói rằng nó không phải là một mô hình tồi mà là mô hình tốt nhất
mà chúng ta có thể tìm thấy ở thời điểm hiện tại. Hãy nghĩ đến một bồi thẩm đoàn nơi
họ không chứng minh được tội phạm có tội, nhưng điều đó không có nghĩa là anh ta vô
tội. Chúng ta có thể nghĩ về một người nổi tiếng từ những năm 90 phù hợp với tiêu chí
này không?

Vì không có hiệp phương sai tổng thể để đánh giá, được ước tính bằng hiệp phương sai
của mô hình mẫu Σ(θ) và hiệp phương sai mẫu S. Sau đó, sự khác biệt S − Σ(θ) là một
đại diện cho sự phù hợp của mô hình và được định nghĩa là hiệp phương sai phần dư
với các giá trị gần bằng 0 cho thấy rằng có một sự phù hợp tương đối tốt.

Đúng/Sai: Hiệp phương sai phần dư được định nghĩa là Σ − Σ(θ) và sự khác biệt này
càng gần bằng 0 thì càng phù hợp.
Trả lời: Sai, hiệp phương sai phần dư sử dụng ước lượng mẫu S − Σ(θ). Lưu ý rằng
Σ − Σ(θ) = 0 luôn đúng theo giả thuyết không.

34
Theo mặc định, lavaan xuất ra mô hình chi-bình phương aka Model Test User Model.
Để yêu cầu thống kê phù hợp bổ sung, thêm fit.measures=TRUE tùy chọn vào sum-
mary, chuyển vào lavaan đối tượng fit4a.

summary(fit4a, fit.measures=TRUE)

lavaan 0.6-12 ended normally after 1 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 6
Number of observations 500

Model Test User Model :


Test statistic 4.870
Degrees of freedom 1
P-value (Chi-square) 0.027

Model Test Baseline Model :


Test statistic 4164.572
Degrees of freedom 28
P-value 0.000

User Model versus Baseline Model :


Comparative Fit Index (CFI) 0.994
Tucker-Lewis Index (TLI) 0.971

Loglikelihood and Information Criteria :


Loglikelihood user model (H0) −3385.584
Loglikelihood unrestricted model (H1) −3383.149
Akaike (AIC) 6783.168
Bayesian (BIC) 6808.456
Sample-size adjusted Bayesian (BIC) 6789.411

Root Mean Square Error of Approximation :


RMSEA 0.088
90 Percent confidence interval - lower 0.024
90 Percent confidence interval - upper 0.172
P-value RMSEA <= 0.05 0.139

Standardized Root Mean Square Residual :


SRMR 0.018

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

35
Regressions:
Estimate Std.Err z-value P (> |z|)
read ∼
ppsych −0.275 0.037 −7.385 0.000
motiv 0.461 0.037 12.404 0.000
arith ∼
motiv 0.296 0.034 8.841 0.000
read 0.0.573 0.034 17.093 0.000

Variances:
Estimate Std.Err z-value P (> |z|)
.read 64.708 4.092 15.811 0.000
.arith 40.314 2.550 15.811 0.000

Khi các thước đo phù hợp được yêu cầu, lavaan xuất ra rất nhiều số liệu thống kê, nhưng
chúng ta sẽ tập trung vào bốn số liệu thường được sử dụng:
1. Mô hình chi-bình phương là thống kê chi bình phương mà chúng ta thu được từ
thống kê hợp lý cực đại (trong lavaan, đây được gọi là thống kê kiểm định cho mô hình
người dùng).
2. CFI là Chỉ số phù hợp tương đối - các giá trị có thể nằm trong khoảng từ 0 đến 1 (giá
trị lớn hơn 0,90, khoảng 0,95 cho biết mức độ phù hợp tốt).
3. TLI Chỉ số Tucker Lewis cũng nằm trong khoảng từ 0 đến 1 (nếu nó lớn hơn 1 thì nó
phải được làm tròn thành 1) với các giá trị lớn hơn 0,90 cho thấy sự phù hợp tốt. Nếu
CFI và TLI nhỏ hơn một, thì CFI luôn lớn hơn TLI.
4. RMSEA là sai số trung bình bậc hai của phép tính gần đúng.
Trong lavaan, chúng ta cũng nhận được giá trị p, rằng RMSEA <0,05. Nếu chúng ta từ
chối mô hình, điều đó có nghĩa là mô hình không phải là một mô hình phù hợp.

3.1 Mô hình chi-bình phương


Mô hình chi-bình phương được định nghĩa là N FM L hoặc (N − 1) (FM L ) tùy thuộc vào
gói thống kê, với N là kích thước mẫu và FM L là hàm phù hợp với hợp lý cực đại, là một
phương pháp thống kê được sử dụng để ước lượng các tham số trong mô hình.
 
−1
FM L = log |Σ̂(θ)| + tr S Σ̂ (θ) − log |S| − (p + q)

với |·|là nhân tố quyết định của ma trận, tr cho biết tổng các phần tử đường chéo, log là
logarit tự nhiên, plà số lượng các biến ngoại sinh và q là số lượng các biến nội sinh. Sau
đó, tùy thuộc vào phần mềm,

N FM L simχ2 (dfU ser )

d > 0 mô hình chi-bình phương χ2 (dfUser ) là một kiểm định có ý nghĩa chỉ khi chúng ta
có một mô hình được xác định quá mức (nghĩa là vẫn dư bậc tự do sau khi tính đến tất
cả các tham số tự do trong mô hình).

So sánh Mô hình người dùng kiểm định cho mô hìnhh 4 A (được xác định quá mức) với

36
mô hình 4B bão hòa, chúng ta thấy rằng bậc tự do của thống kê kiểm định bằng 0 đối với
mô hình 4B, trong khi Mô hình 4 A có 1 bậc tự do cho thấy mô hình được xác định quá
mức. Thống kê kiểm định là 4,870 và có thêm một hàng với giá trị P (chi-bình phương)
là 0,027 cho thấy rằng chúng ta bác bỏ giả thuyết không.

Giá trị chi-bình phương càng lớn thì sự khác biệt giữa ma trận hiệp phương sai ngụ ý
của mẫu càng lớn Σ(θ̂) và ma trận hiệp phương sai quan sát được S của mẫu càng lớn
và chúng ta càng có nhiều khả năng mô hình bị từ chối. Chúng ta có thể tạo lại giá trị
p về cơ bản là 0, sử dụng hàm mật độ của chi-bình phương với 1 bậc tự do χ21 = 3, 84,
p<0,05, chỉ sử dụng tiêu chí chi-bình phương của mô hình, chúng ta bác bỏ giả thuyết
không rằng mô hình phù hợp với dữ liệu. Tài liệu của CFA và SEM đã được ghi lại rõ
ràng rằng chi-bình phương thường quá nhạy cảm trong kiểm định mô hình, đặc biệt là
đối với các mẫu lớn. David Kenny (http://www.davidakenny.net/cm/fit.htm) nói rằng
đối với các mô hình có 75 đến 200 trường hợp, chi-bình phương là một thước đo phù hợp,
nhưng đối với 400 trường hợp trở lên thì gần như luôn luôn có ý nghĩa.

Đúng/Sai: Thống kê kiểm định chi-bình phương của mô hình càng lớn thì hiệp phương
sai phần dư càng lớn S − Σ̂(θ).
Trả lời: Đúng.Vì mô hình chi-bình phương tỷ lệ với sự sai lệch của S và Σ(θ̂) càng lớn,
chi-bình phương càng cao thì giá trị dương của S − Σ(θ̂), được định nghĩa là hiệp phương
sai phần dư.

Mẫu của chúng ta N = 500 được coi là tương đối lớn, do đó kết luận của chúng ta có thể
được bổ sung với các biến chỉ báo phù hợp khác.

#model chi-square
pchisq(q=4.870,df=1,lower.tail=FALSE)
[1] 0.0273275

3.2 Một lưu ý về kích thước mẫu


Mô hình chi-bình phương nhạy cảm với kích thước mẫu lớn, nhưng điều đó có nghĩa là
chúng ta phân tích với các mẫu nhỏ? Câu Trả lời là không, các mẫu lớn hơn luôn được
ưu tiên. CFA và lớp tổng quát của mô hình phương trình cấu trúc tuyến tính thực sự là
các kỹ thuật mẫu lớn và phần lớn lý thuyết dựa trên tiền đề rằng kích thước mẫu càng
lớn càng tốt. Vậy chúng ta cần một mẫu lớn đến mức nào? Kline (2016) ghi nhận quy
tắc N:q nêu rằng kích thước mẫu phải được xác định bằng số lượng các thông số trong
mô hình và tỷ lệ được đề xuất là 20:1. Điều này có nghĩa là nếu chúng ta có 10 tham
số, chúng ta sẽ có n = 200. Theo Kline, kích thước mẫu nhỏ hơn 100 hầu như luôn luôn
không thể đạt được.

3.3 Mô hình nền


Mô hình nền có thể được coi là mô hình "phù hợp nhất" và chỉ đơn giản giả định rằng
hoàn toàn không có hiệp phương sai giữa các biến. Giả sử chúng ta đã sửa đổi Mô hình
4 A để trở thành mô hình nền, chúng ta sẽ loại bỏ tất cả các đường dẫn và hiệp phương

37
sai; về cơ bản chỉ ước lượng các phương sai. Vì không có đường đẫn hồi quy, nên không
có biến nội sinh nào trong mô hình và chúng ta sẽ chỉ có x và ϕ.

Để lập mô hình này trong lavaan

m4c <- ’
# variances only
read ∼∼ read
ppsych ∼∼ ppsych
motiv ∼∼ motiv
arith ∼∼ arith

fit4c <- sem(m4c, data=dat)
summary(fit4c, fit.measures=TRUE)

Để xác nhận xem đã thực sự tạo mô


hình nền hay chưa, chúng ta so sánh
mô hình của mình với Mô hình nền kiểm định mô hình trong lavaan. Chúng ta thấy rằng
chi-bình phương của Mô hình người dùng là 707, 017 với 6 bậc tự do, khớp với chi-bình
phương của Mô hình nền. Chúng ta sẽ xem trong phần tiếp theo các mô hình nền được
sử dụng như thế nào để phù hợp với mô hình kiểm định.

Model Test User Model :


Test statistic 707.017
Degrees of freedom 6
P-value (Chi-square) 0.000

Model Test Baseline Model :


Test statistic 707.017
Degrees of freedom 6
P-value 0.000

3.4 Chỉ số phù hợp gia tăng so với phù hợp tuyệt đối
Đối với các mô hình được xác định
quá mức, có nhiều loại chỉ số phù
hợp có sẵn cho nhà nghiên cứu.
Trong lịch sử, mô hình chi-bình
phương là thước đo duy nhất của
sự phù hợp nhưng trong thực tế,
giả thuyết không thường bị bác
bỏ do độ nhạy cao của chi-bình
phương dưới các mẫu lớn. Để giải
quyết vấn đề này, các chỉ số phù
hợp gần đúng không dựa trên việc
chấp nhận hoặc bác bỏ giả thuyết không đã được phát triển. Chỉ số phù hợp gần đúng
có thể được phân loại thêm thành a) tuyệt đối và b) chỉ số phù hợp gia tăng hoặc tương

38
đối. Chỉ số phù hợp gia tăng (hay còn gọi là chỉ số phù hợp tương đối) đánh giá tỷ
lệ độ lệch của mô hình người dùng so với mô hình phù hợp nhất (còn gọi là mô hình
nền) so với độ lệch của mô hình bão hòa từ mô hình nền. Về mặt khái niệm, nếu độ
lệch của mô hình người dùng giống với độ lệch của mô hình bão hòa (hay còn gọi là
mô hình phù hợp nhất), thì tỷ lệ phải là 1. Ngoài ra, hai độ lệch càng chênh lệch thì
tỷ lệ càng gần bằng 0 (xem hình bên dưới). Ví dụ về chỉ số phù hợp gia tăng là CFI và TLI.

Mặt khác, chỉ số phù hợp tuyệt đối không so sánh mô hình người dùng với mô hình
nền mà thay vào đó so sánh với dữ liệu được quan sát. Một ví dụ về chỉ số phù hợp tuyệt
đối là RMSEA.

3.4.1 CFI (Chỉ số phù hợp tương đối)


Chỉ số CFI hoặc chỉ số phù hợp tương đối là một chỉ số phù hợp phổ biến như một phần
bổ sung cho mô hình chi-bình phương. Để cho δ = χ2 -df với df là bậc tự do cho mô hình
cụ thể đó. Σ càng gần 0 , mô hình càng phù hợp với dữ liệu. Công thức cho CFI là:

δ( Baseline ) − δ( User )
CF I =
δ( Baseline )

để tính toán CFI theo cách thủ công, hãy nhớ lại kết quả đã chọn từ mô hình Model 4A:

Model Test User Model :


Test statistic 4.870
Degrees of freedom 1
P-value (Chi-square) 0.027

Model Test Baseline Model :


Test statistic 4164.572
Degrees of freedom 28
P-value 0.000

sau đó χ2 ( Baseline ) = 674.748 và d f ( Baseline ) = 5, và χ2 ( User ) = 4.87 và df (


User) = 1. Cho nên δ( Baseline ) = 674, 748 − 4, 87 = 669, 878 và δ( User ) = 4, 87 − 1 =
3, 87.

39
Chúng ta có thể kết hợp tất cả những điều này vào phương trình sau:
669, 878 − 3, 87
CF I = = 0, 994
669, 878

Xác minh rằng các phép tính khớp với kết quả lavaan.Nếu δ(U ser) = 0, thì điều đó có
nghĩa là mô hình người dùng không bị chỉ định sai, vì vậy tử số trở thành δ( Baseline)
và tỉ lệ là 1. CFI càng gần 1 thì mô hình càng phù hợp; với giá trị tối đa là 1. Một số
tiêu chí cho rằng 0,90 đến 0,95 là mức độ phù hợp tốt [cần dẫn nguồn].

3.4.2 TLI (Chỉ số Tucker Lewis)


Chỉ số Tucker Lewis cũng là một chỉ số phù
hợp gia tăng thường được xuất ra với CFI
trong các gói phố biến như Mplus và trong
trường hợp này lavaan. Thuật ngữ được sử
dụng trong TFI là chi bình phương tương
đối (hay còn gọi là chi bình phương chuẩn)
2
được định nghĩa là χdf . So với mô hình chi-
bình phương, chi-bình phương tương đối
ít nhạy cảm hơn với kích thước mẫu. Để
hiểu chi-bình phương tương đối, chúng ta
cần biết rằng giá trị kỳ vọng hoặc giá trị
trung bình cùa chi-bình phương là bậc tự
do của nó (tức là E (χ2 (df )) = df ). Ví dụ:
do thống kê kiểm định thực sự đến từ phân phối chi bình phương với 4 bậc tự do, chúng
ta mong đợi giá trị chi bình phương trung bình trên các mẫu lăp lại cũng sẽ là 4 . Giả
sử chi bình phương từ dữ liệu của chúng ta thực sự đến từ một phân phối với 10 bậc tự
do nhưng mô hình của chúng ta cho biết nó đến từ một chi-bình phương với 4 bậc tự do.
Qua lấy mẫu lặp lại, chi-bình phương tương đối sẽ là 10/4 = 2, 5. Vì vậy, χ2 /df = 1 chỉ
ra sự phù hợp hoàn hảo và một số nhà nghiên cứu nói rằng một chi-bình phương tương
đối lớn hơn 2 cho thấy sự phù hợp kém (Byrne, 1989), các nhà nghiên cứu khác khuyến
nghị sử dụng một tỉ lệ thấp nhất là 2 hoặc cao là 5 để chỉ ra sự phù hợp hợp lý (Marsh
và Hocevar , 1985).

Câu hỏi
Giả sử chúng ta chạy một CFA với 20 bậc tự do. Phạm vi giá trị chi bình phương có thể
chấp nhận được dựa trên các tiêu chí mà chi bình phương tương đối lớn hơn 2 cho thấy
mức độ kém phù hợp là bao nhiêu?
Trả lời: Phạm vi giá trị chi-bình phương được chấp nhận nằm trong khoảng từ 20 (cho
biết mức độ phù hợp hoàn hảo) đến 40, vì 40/20 = 2.

TLI được định nghĩa là:

χ2 ( Baseline )/df ( Baseline ) − χ2 ( User )/df ( User )


T LI = (3.1)
χ2 ( Baseline )/df ( Baseline ) − 1

40
Ở mẫu số chúng ta có 1 vì χ2 ( Saturated ) = 0 và df ( Saturated ) = 0 ngụ ý rằng
min (χ2 ( Saturated )/df ( Saturated ), 1) = 1. Ngoài ra, TLI có thể lớn hơn 1 nhưng đối
với các mục đích thực tế, chúng ta làm tròn thành 1. Với mô hình tám items một nhân tố:

674, 748/5 − 4, 870/1 130, 0796


T LI = = = 0, 971
674, 748/5 − 1 133, 9496

Chúng ta có thể khẳng định câu Trả lời của mình cho cả TLI và CFI trong lavaan.

User Model versus Baseline Model :


Comparative Fit Index (CFI) 0.994
Tucker-Lewis Index (TLI) 0.971

Chúng ta có thể coi TLI là tỉ số giữa độ lệch của mô hình không (nền) từ mô hình người
dùng với độ lệch của mô hình nền (hoặc không) với mô hình phù hợp hoàn hảo χ2 /df = 1.
Độ lệch so với mô hình nền càng giống nhau thì tỷ lệ này càng gần với một. Một mô
hình phù hợp hoàn hào tạo ra TLI bằng 1 . David Kenny tuyên bố rằng nếu CFI nhỏ
hơn một, thì CFI luôn lớn hơn TLI. CFI trả một khoàn tiền phạt là một cho mọi tham
số được ước lượng. Vì TLI và CFI có mối tương quan cao, nên chỉ một trong hai chỉ số
này nên được báo cáo.

3.4.3 RMSEA
Sai số xấp xỉ bình phương trung bình gốc là một thước đo tuyệt đối của sự phù
hợp vì nó không so sánh sự khác biệt cùa mô hình người dùng so với mô hình nền
như CFI hoặc TLI. Thay vào đó, RMSEA định nghĩa δ là tham số phi trung tâm
(https://www.jamesuanhoro.com/post/2017/11/16/a-chi-bình phương-test-of-close-fit-in-
covariance-based-sem/) đo lường mức độ sai xác định. Nhớ lại từ CFI rằng δ = χ2 − df
với d f là bậc tự do cho mô hình cụ thể. δ càng lớn mô hình càng sai.

s
δ
RM SEA =
df (n − 1)

với n là tổng số quan sát. Các tiêu chí giới hạn như được định nghĩa trong Kline (2016,
p.274-275).

• ≤ 0,05 (rất tốt)

• giữa 0,05 và 0,08 (phù hợp, không tốt nhưng cũng không xấu)

• >= 0,10 (kém phù hợp, xấu)

Trong Mô hình 4 A, N = 500, df ( User ) = 1 và δ( User ) = 4.87 − 1 = 3.87 mà chúng ta


đã biết từ việc tính toán CFI.

41
s
3, 87 p
RM SEA = = 0, 007755511 = 0, 088
1(499)

RMSEA = 0, 088 của chúng ta cho thắy mức độ phù hợp hợp lý gần đúng, bẳng chứng
là δ(U ser) so với bâc tự do.

Number of observations 500

Root Mean Square Error of Approximation :


RMSEA 0.088
90 Percent confidence interval - lower 0.024
90 Percent confidence interval - upper 0.172
P-value RMSEA <= 0.05 0.139

Cho rằng giá trị p của mô hình chi-bình phương nhỏ hơn 0, 05, CFI = 0, 994 và RMSEA
= 0,088, và xem xét các tải tiêu chuẩn, chúng ta báo cáo cho điều tra viên chính rằng
Mô hình 4 A là một mô hình hợp lý.

42
Chương 4

Mô hình đo lường

Chúng ta đã nói đến cách lập mô hình mối quan hệ cấu trúc giữa các biến quan sát. Mô
hình đo lường về cơ bản là một mô hình hồi quy đa biến trong đó biến dự báo là một
biến tiềm ẩn ngoại sinh hoặc nội sinh (hay còn gọi là nhân tố). Mô hình được định nghĩa là

x = τ x + Λx ξ + δ (4.1)
Định nghĩa
- x = (x1 , · · · , xq )′ vector của các biến x-side.
- τx vector của q hệ số chặn cho các biến x-side − .
- δ = (δ1 , · · · , δq )′ vectơ phần dư cho các biến x-side.
- Λx ma trận tải (q × n) tương ứng với các biến ngoại sinh tiềm ẩn.
- θδ phương sai hoặc hiệp phương sai của các phần dư cho các biến x-side.

τx1 nghĩa là hệ số chặn của item đầu tiên và λx2 là tải của item thứ hai với hệ số và ϵ3 là
phần dư của item thứ ba, sau khi đã tính đến nhân tố duy nhất.

Giả sử chúng ta có ba kết quả hoặc biến chỉ báo x-side (x1 , x2 , x3 ) được đo lường bởi
một biến ngoại sinh tiềm ẩn y-side rằng các điếm chặn τx không được hiển thị nhưng vẫn
được lập mô hình và các mũi tên hướng sang trái,

Đúng/Sai: Các biến ξ không có hiệp phương sai dư.


Trả lời: Đúng. ξ là các biến ngoại sinh tiềm ẩn không có phần dư do đó không có hiệp
phương sai dư.

43
Đúng/Sai: các biến xi không có hiệp phương sai dư
Trả lời; Sai. xi là các biến ngọai sinh ẩn nhưng trên thực tế đươc giải thích bởi biến
ngọai sinh tiềm ẫn, do đó nó có sõ hạng dư vả phương sai dư (phương sai khõng giải thich
đươc), đáng chú ý nhăt θδ .

Xác định một nhân tố CFA ba items

Việc xác định một nhân tố CFA với ba items là cần thiết do thực tế là chúng ta có bảy
tham số tổng từ ma trận hiệp phương sai của mô hình Σ(θ) nhưng chỉ có sáu giá trị đã
biết từ ma trận hiệp phương sai tổng thể quan sát được Σ. Tổng các tham số bao gồm
ba trọng số nhân tố, ba phương sai phần dư và một phương sai nhân tố. Tham số phụ
đến từ thực tế là chúng ta không quan sát nhân tố nhưng đang ước tính phương sai của
nó. Để xác định một nhân tố trong mô hình CFA có ba items trở lên, có hai tùy chọn là
phương pháp đánh dấu và phương pháp chuẩn hóa phương sai.

1. phương pháp đánh dấu sửa trọng số đầu tiên của mỗi nhân tố thành 1,
2. phương pháp chuẩn hóa phương sai sửa phương sai của mỗi nhân tố thành 1
nhưng ước tính tự do tất cả các trọng số. Trong ký hiệu ma trận, phương pháp đánh dấu
(Tùy chọn 1).
   δ 
1  θ 11 0 0
Σ(θ) = ϕ11  λx2  1 λx2 λx3 +  0 θ22 δ
0 
λx3 0 0 θ33δ

Trong ký hiệu ma trận, phương pháp chuẩn hóa phương sai (Tùy chọn 2).
 x   δ 
λ1  θ11 0 0
Σ(θ) = (1)  λx2  λx1 λx2 λx3 +  0 θ22 δ
0 
x δ
λ3 0 0 θ33

Lưu ý trong cả hai mô hình rằng các phương sai phần dư được ước lượng tự do.

Bài tập
Đối với phương pháp chuẩn hóa phương sai, hãy thực hiện quá trình tính bậc tự do. Nếu
chúng ta có sáu giá trị đã biết thì mô hình này vừa được xác định, xác định quá mức
hay chưa được xác định?
Trả lời: Chúng ta bắt đầu với 10 tham số duy nhất trong ma trận hiệp phương sai. Vì
chúng ta cố định một phương sai nhân tố và 3 phương sai phần dư duy nhất, nên số tham
số tự do là 10- (1 + 3) = 6. Vì chúng ta có 6 giá trị đã biết, bậc tự do của chúng ta là
6-6 = 0, được định nghĩa là bão hòa.

4.1 Phân tích nhân tố ngoại sinh (Mô hình 5A)


Hăy xem cách chúng ta có thể thực hiện phép đo một nhân tố trong lavaan với Verbal
IQ , SES và Negative Parental Psychology ppsych làm các biến chỉ báo về Risk của nhân
tố (biến ngoại sinh tiềm ẩn) risk.

m5a <- ’risk =∼ verbal + ses + ppsych

44
#intercepts (nu = tau)
verbal ∼ 1
ses ∼ 1
ppsych ∼ 1’
fit5a <- sem(m5a, data=dat)
summary(fit5a, standardized=TRUE)

Dòng đầu tiên là câu lệnh mô hình.


Nhớ lại rằng =∼ đại diện cho phương trình biến chỉ báo trong đó biến ẩn ở bên trái và
các biến chỉ báo (hoặc biến quan sát) ở bên phải. Chúng ta đặt tên cho nhân tố risk,
được biểu thị bằng verbal, ses và ppsych (lưu ý các tên phải khớp với tên biến trong
tập dữ liệu). Chúng ta lập mô hình rõ ràng các hệ số chặn của các biến chỉ báo bằng cách
sử dụng verbal ∼ 1, ses ∼ 1, và ppsych ∼ 1. Sau đó lưu trữ mô hình thành đối tượng
m5a cho mô hình 5A. Dòng thứ hai là nơi chúng ta chỉ định chạy phân tích bằng cách
sử dụng hàm sem , đây thực sự là một trình bao bọc cho hàm lavaan. Mô hình được
ước lượng là m5a và tập dữ liệu sẽ được sử dụng là dat; lưu trữ kết quả thành đối tượng
fit5a. Cuối cùng summary (fit5a, standardized=TRUE) yêu cầu tóm tắt phân tích,
xuất ra công cụ ước lượng được sử dụng, số lượng tham số tự do, thống kê kiểm định,
giá trị trung bình ước lượng, tải tiêu chuân hóa và phương sai tiêu chuẩn hóa.

lavaan 0.6-12 ended normally after 37 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 9
Number of observations 500

Model Test User Model :


Test statistic 0.000
Degrees of freedom 1

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured
Latent Variables:
Estimate Std.Err z-value P(> |z|) Std.lv Std.all
risk =∼
verbal 1.000 6.166 0.617
ses 1.050 0.126 8.358 0.000 6.474 0.648
ppsych −1.050 0.126 −8.358 0.000 −6.474 −0.648

Intercepts:
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
.verbal 0.000 0.447 0.000 1.000 0.000 0.000
.ses −0.000 0.447 −0.000 1.000 −0.000 −0.000
.ppsych −0.000 0.447 −0.000 1.000 −0.000 −0.000
risk 0.000 0.000 0.000

45
Variances:
Estimate Std.Err z-value P(> |z|) Std.lv Std.all
.verbal 61.781 5.810 10.634 0.000 61.781 0.619
.ses 57.884 5.989 9.664 0.000 57.884 0.580
.ppsych 57.884 5.989 9.664 0.000 57.884 0.580
risk 38.019 6.562 5.794 0.000 1.000 1.000

Theo mặc định, lavaan chọn phương pháp đánh dấu (Tùy chọn 1) nếu không có gì khác
được chỉ định. Để giải thích tốt hơn các trọng số nhân tố, đôi khi chúng ta sẽ yêu cầu
các giải pháp chuẩn hóa.Lưu ý rằng có hai cột bổ sung, Std.lv và Std.all. Đối với người
dùng Mplus, Std.lv tương ứng với STD và Std.all tương ứng với STDYX. Trong phương
pháp chuẩn hóa phương sai Std.lv, chúng ta chỉ chuẩn hóa theo nhân tố dự đoán (nhân
tố, X) Std.all không chỉ chuẩn hóa theo hướng phương sai của biến tiềm ẩn (ξ) và cả
phương sai của kết quả mà trong trường hợp này là các biến chỉ báo x.

Bài tập
Cố gắng điều chỉnh mô hình bằng cách sử dụng phương pháp chuẩn hóa phương sai.
Trả lời: Tham khảo Chạy CFA một nhân tố trong lavaan
(https://stats.idre.ucla.edu/r/seminars/rcfa/s2c).

4.2 Lưu ý về các mô hình đo lường nội sinh (Mô hình


5B)
Không phải tất cả các biến tiềm ẩn đều là ngoại sinh. Nếu trong trường hợp biến tiềm
ắn là nội sinh, chúng ta sẽ đổi tên nhân tố.

Giả sử một lần nữa rằng chúng ta có ba items ngoại trừ chúng được gắn nhẵn (y1 , y2 , y3 ).
Đối với một biến nội sinh tiềm ẩn, cấu trúc của mô hình đo lường vẫn giữ nguyên ngoại
trừ các tham số được gắn nhãn lại với các biến y-side. Sơ đồ đường đẫn cho Mô hình 5 B
được hiến thị bên dưới (lưu ý, các hệ số chặn τy không được hiến thị nhưng vẫn được mô
hình hóa ngầm):

Lưu ý rằng các mũi tên hướng về bên phải. Trong ký hiệu biểu đồ đường dẫn LISREL,
các biến tiềm ẩn ngoại sinh có mũi tên đo lường hướng sang trái và biến tiềm ẩn nội sinh
có mũi tên đo lường hướng sang phải. Các biến tiềm ẩn ngoại sinh tương ứng với mô hình

46
x-side và biến tiềm ẩn nội sinh tương ứng với mô hình y-side. Mô hình đo lường y-side
được định nghĩa là:

y = τ y + Λy η + ϵ (4.2)
Định nghĩa
- y = (y1 , · · · , yp )′ vector của các biến chỉ báo y-side.
- τy vector của hệ số chặn p cho các biến chỉ báo y-side.
- η vector của m các biến nội sinh tiềm ẩn.
- ϵ = (ϵ1 , · · · , ϵp )′ vectơ phẳn dư cho các biến chỉ báo y-side.
- Λy ma trận tải (m × q) tương ứng với các biến nội sinh tiềm ẩn.
- θϵ phương sai hoặc hiệp phương sai của các phần dư cho các biến chỉ báo y-side.

Sự khác biệt chính giữa Mô hình 5A và 5B đơn giản là Mô hình 5A là phân tích nhân tố
tiềm ẩn ngoại sinh trong khi Mô hình 5B là phân tích nhân tố tiềm ẩn nội sinh, có nghĩa
là nó đang được dự đoán bởi một biến tiềm ẩn khác. Vì chúng ta hiện không có dự đoán
về η1 , đây chỉ là một mô hình giả định. Trong phần dưới đây về hồi quy cấu trúc, chúng
ta sẽ thấy một biến tiềm ẩn nội sinh được mô hình hóa bằng dữ liệu trong thế giới thực.
Các mô hình đo lường tiềm ẩn ngoại sinh được phân loại là các biến x-side hướng sang
trái trong sơ đồ đường dẫn và các mô hình đo lường tiềm ẩn nội sinh được gọi là các biến
tiềm ẩn y-side hướng sang phải trong biểu đồ đường dẫn.

Cho đến thời điểm này, chúng ta đã nghiên cứu các mô hình đo lường đa biến xác định
mối quan hệ giữa các biến chỉ báo và biến tiềm ẩn, cũng như các mô hình hồi quy và
đường dẫn đa biến xác định mối quan hệ nhân quả giữa các biến nội sinh và ngoại sinh
quan sát được. Trong phần tiếp theo, chúng ta sẽ xem các mô hình hồi quy cấu trúc cho
phép mô hình hóa các mối quan hệ giữa các biến tiềm ẩn ngoại sinh và nội sinh như thế
nào .

Đúng/Sai: Trong sơ đồ đường dẫn LISREL, các biến tiềm ẩn nội sinh có các mũi tên
hướng phải đến các biến chỉ báo.
Trả lời: Đúng. Các biến chỉ báo và biến nội sinh tiềm ẩn được gọi là các biến y-side.

47
Chương 5

Mô hình cấu trúc

5.1 Mô hình hồi quy cấu trúc


Cho đến nay chúng ta đã thảo luận về tất cả các thành phần riêng lẻ của mô hình hồi
quy cầu trúc. Nhớ lại rầng hồi quy đa biến bao gồm hồi quy với các biến nội sinh song
song và phân tích đường dẫn cho phép các biến nội sinh có thể giải thích được. Phân tích
nhân tố khẳng định là một mô hình đo lường liên kết các biến tiềm ẩn với các biến chỉ
báo. Cuối cùng, hồi quy cấu trúc thống nhất các mô hình đo lường và cấu trúc cho phép
các biến tiềm ẩn có thể giải thích được, cho dù là nội sinh hay ngoại sinh.

x = τ x + Λx ξ + δ
y = τ y + Λy η + ϵ (5.1)
η = α + Bη + Γξ + ζ
Định nghĩa
Các biến đo lường - x = (x1 , · · · , xq )′ vector của các biến chỉ báo x-side.
- y = (y1 , · · · , yp )′ vector của của các biến chỉ báo y-side.
- τx vector của hệ số chặn q cho ác biến chỉ báo x-side.
- τy vector của p hệ số chặn cho các biến chỉ báo y-side.
- vector ξ của n các biến ngoại sinh tiềm ẩn.
- vector η của m các biến nội sinh tiềm ẩn.
- δ = (δ1 , · · · , δq )′ vectơ phần dư cho các biến chỉ báo x-side.
- ϵ = (ϵ1 , · · · , ϵp )′ vectơ phần dư cho các biến chỉ báo y-side.
- Λx ma trận tải (q × n) tương ứng với các biến ngoại sinh tiềm ẩn.
- Λy ma trận tải (p × m) tương ứng với các biến nội sinh tiềm ẩn.
- θδ phương sai hoặc hiệp phương sai của các phần dư cho các biến chỉ báo x-side.
- θϵ phương sai hoặc hiệp phương sai của các phần dư cho các biến chỉ báo y-side.

Các biến cấu trúc


- α một vectơ của m hệ số chặn.
- Γ ma trận các hệ số hồi quy (m × n ) của các biến nội sinh tiềm ẩn đến tiềm ẩn có hàng
thứ i chỉ ra biến nội sinh tiềm ẩn và cột thứ j biểu thị biến ngoại sinh tiềm ẩn.
B ma trận các hệ số hồi quy (m × m) của các biến nội sinh tiềm ẩn của hàng thứ i cho
biết biến nội sinh mục đích và cột thứ j chỉ ra biến nội sinh nguồn.
- ζ = (ζ1 , · · · , ζm )′ vectơ phần dư cho biến nội sinh tiềm ẩn.

48
Giả định
- η và ξ không được quan sát.
- ϵ và δ là sai số của phép đo đối với y và x tương ứng.
- ϵ không liên quan đến δ.

Để chỉ định mô hình hồi quy cấu trúc đầy đủ, sẽ trực quan hơn nếu bắt đầu với mô hình
đo lường và sau đó chỉ rõ các biến tiềm ẩn liên quan với nhau như thế nào (mô hình cấu
trúc). Để các biến ngoại sinh tiềm ẩn có thể giải thích các biến nội sinh tiềm ẩn, phải
thiết lập hai mô hình đo lường riêng biệt.
Trước tiên, hãy chỉ định mô hình đo lường ngoại sinh tiềm ẩn với sáu items trong đó ba
items đầu tiên x-side (x1 , x2 , x3 ) được đo bằng ξ1 và ba biến sau (x4 , x5 , x6 ) được đo bằng
ξ2 . Mô hình đo lường chưa được xác định cho hai biến ngoại sinh tiềm ẩn với ba biến chỉ
báo, mỗi biến là:
  x
λ11 λx12
     
x1 τ x1 δ1
 x2   τx2   λx21 λx22 
  δ2 
 
     x x

 x3   τx3   λ31 λ32  ξ1  δ3 
 x4  =  τx4  +  λx41 λx42  ξ2 +  δ4 
       
     x   
 x5   τx5   λ51 λx52   δ5 
x6 τ x6 λx61 λx62 δ6

Bây giờ chúng ta đã thiết lập mô hình đo lường ngoại sinh, hãy chuyên sang mô hình đo
lường nội sinh. 3 biến chỉ báo y-side y1 , y2 , y3 được đo lường bởi một nhân tố η1 .
     y   
y1 τ y1 λ11 ϵ1
 y2  =  τy2  +  λy21  (η1 ) +  ϵ2 
y3 τ y3 λy31 ϵ3

Bây giờ chúng ta đã thiết lập cả hai mô hình đo lường x-side và y-side, chúng ta có thể
chỉ định mô hình cấu trúc.

5.2 Hồi quy cấu trúc với một biến nội sinh (Mô hình
6A)
Cũng giống như mô hình cấu trúc trong hồi quy đa biến và phân tích đường dẫn xác
định mối quan hệ giữa các biến quan sát, hồi quy cấu trúc xác định mối quan hệ giữa
các biến tiềm ẩn. Trong Mô hình 6 A, chúng ta có hai biến ngoại sinh tiềm ẩn (ξ1 , ξ2 ) dự
đoán một biến nội sinh tiềm ẩn (η1 ).
 
 ξ1
η1 = α1 + γ11 γ12 + 0 · η1 + ζ1
ξ2

Nhớ lại rằng ma trận Γ xác định mối quan hệ giữa các biến ngoại sinh và nội sinh, do
đó γ11 là đường hồi quy của biến nội sinh đầu tiên η1 với biến ngoại sinh đầu tiên ξ1 và
γ12 là đường hồi quy của η1 với biến ngoại sinh thứ hai ξ2 không có biến nội sinh nào dự
đoán lẫn nhau, B = 0.

49
Đúng/Sai: Trong Mô hình 6 A, B = 0 ngụ ý rằng không có đường dẫn cấu trúc.
Trả lời: Sai. B = 0 có nghĩa là không có biến nội sinh dự đoán lẫn nhau như trong phân
tích đường dẫn, nhưng ma trận Γ xác định các đường dẫn cấu trúc giữa các biến ngoại
sinh và nội sinh.
Đúng/Sai: η = η1 bởi vì chỉ có biến nội sinh, tuy nhiên ma trận Γ là một ma trận 1 × 2
vì có hai biến ngoại sinh.
Trả lời: Đúng. Số hàng trong η cho biết có bao nhiêu biến nội sinh. Ở đây chỉ có một kết
quả bất kể số lượng các biến dự báo ngoại sinh.
Đúng/Sai: Chúng ta có thể đơn giản hóa mô hình Model 6A thành mô hình phân tích
đường dẫn bằng cách loại bỏ hai mô hình đo lường.
Trả lời: Sai (phần nào). Ngay cả khi chúng ta loại bỏ các mô hình đo lường, chúng ta
vẫn có phương trình η = α + Γξ + Bη + ζ chỉ được xác định cho các biến nội sinh tiềm
ẩn. Tuy nhiên, hãy trao đổi đơn giản y cho η và x cho ξ và chúng ta sẽ có được mô hình
phân tích đường dẫn.

Hãy sử dụng lavaan để triển khai Mô hình 6 A với tập dữ liệu. Đầu tiên, thiết lập mô
hình đo lường và tiến hành cấu trúc. Adjustment là biến ngoại sinh tiềm ẩn đầu tiên ξ1
bao gồm ba biến chỉ báo x-side Motivation, Harmony và Stability , adjust =∼ motiv
+ harm + stabi. Risk là biến ngoại sinh tiềm ẩn thứ hai ξ2 với ba biến chỉ báo x-side,
Verbal IQ, Negative Parental Psychology và SES risk =∼ verbal + ppsych + ses .
Sau đó, chuyển đến biến nội sinh duy nhất, Achievement (η1 ) với ba biến chỉ báo y-side
Reading, Arithmetic và Spelling achieve =∼ read + arith + spell. Cuối cùng, hãy
thiết lập hồi quy cấu trúc. Chúng ta giả thuyết rằng Adjustment dự đoán tích cực và
Risk dự đoán tiêu cực Achievement của học sinh và trong lavaan mà chúng ta chỉ định
achieve ∼ adjust + risk. Lưu ý rằng chúng ta không lập mô hình rõ ràng các hệ số chặn
cho các hồi quy tiềm ẩn. (chúng ta sẽ mô hình hóa chúng một cách rõ ràng như thế nào?).

m6a <- ’
# measurement model
adjust =∼ motiv + harm + stabi

50
risk =∼ verbal + ppsych + ses
achieve =∼ read + arith + spell
# regressions
achieve ∼ adjust + risk

fit6a <- sem(m6a, data=dat)
summary(fit6a, standardized=TRUE, fit.measures=TRUE)

Kết quả như sau:

lavaan 0.6-12 ended normally after 130 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 21
Number of observations 500

Model Test User Model :


Test statistic 148.982
Degrees of freedom 24
P-value (Chi-square) 0.000

Model Test Baseline Model :


Test statistic 2597.972
Degrees of freedom 36
P-value 0.000

User Model versus Baseline Model :


Comparative Fit Index (CFI) 0.951
Tucker-Lewis Index (TLI) 0.927

Loglikelihood and Information Criteria :


Loglikelihood user model (H0) −15517.857
Loglikelihood unrestricted model (H1) −15443.366
Akaike (AIC) 31077.713
Bayesian (BIC) 31166.220
Sample-size adjusted Bayesian (BIC) 31099.565

Root Mean Square Error of Approximation :


RMSEA 0.102
90 Percent confidence interval - lower 0.087
90 Percent confidence interval - upper 0.108
P-value RMSEA <= 0.05 0.000

Standardized Root Mean Square Residual :


SRMR 0.041

51
Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Latent Variables:
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
adjust =∼
motiv 1.000 9.324 0.933
harm 0.884 0.041 21.774 0.000 8.246 0.825
stabi 0.695 0.043 15.987 0.000 6.478 0.648
risk = ∼ 1.000
verbal −0.770 0.075 −10.223 0.000 −5.636 −0.564
ppsych 0.807 0.076 10.607 0.000 5.906 0.591
ses
achieve =∼ 1.000 9.404 0.941
read 0.837 0.034 24.437 0.000 7.873 0.788
arith 0.976 0.028 34.338 0.000 9.178 0.919
spell

Regressions:
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
achieve ∼
adjust 0.375 0.046 8.085 0.000 0.372 0.372
risk 0.724 0.078 9.253 0.000 0.564 0.564

Covariances:
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
adjust ∼∼
risk 32.098 4.320 7.431 0.000 0.470 0.470

Variances:
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
.motiv 12.870 2.852 4.512 0.000 12.870 0.129
.harm 31.805 2.973 10.698 0.000 31.805 0.319
.stabi 57.836 3.990 14.494 0.000 57.836 0.580
.verbal 46.239 4.788 9.658 0.000 46.239 0.463
.ppsych 68.033 5.068 13.425 0.000 68.033 0.682
.ses 64.916 4.975 13.048 0.000 64.916 0.650
.read 11.372 1.608 7.074 0.000 11.372 0.114
.arith 37.818 2.680 14.109 0.000 37.818 0.379
.spell 15.560 1.699 9.160 0.000 15.560 0.156
adjust 86.930 6.830 12.727 0.000 1.000 1.000
risk 53.561 6.757 7.927 0.000 1.000 1.000
.achieve 30.685 3.449 8.896 0.000 0.347 0.347

52
5.3 Hồi quy cấu trúc với hai biến nội sinh (Mô hình
6B)
Giả sử chúng ta muốn xem xét một biến tiềm ẩn ngoại sinh duy nhất ξ1 dự đoán hai
biến tiềm ẩn nội sinh η1 , η2 và bổ sung rằng một trong các biến nội sinh dự đoán một
biến khác. Chúng ta nghĩ chúng ta cần ma trận bổ sung nào? Vì chúng ta đã thiết lâp
mô hình đo lường trong 6 A. Chúng ta có thể sử dụng lại thông số kỹ thuât. Lưu ý rằng
mô hình đo lường hiện có một mô hình x-side và hai mô hình y-side. Tuy nhiên, không
chỉ chúng ta cần để mô hình hóa mối quan hệ của biến ngoại sinh với hai biến nội sinh,
chúng ta cần ma trận B để xác định mối quan hệ của biến nội sinh đầu tiên với biến khác.
          
η1 α1 γ11 0 0 η1 ζ1
= + ξ1 + +
η2 α2 γ21 β21 0 η2 ζ2

Viết ra các phương trình chúng ta nhận được:

η1 = α1 + γ11 ξ1 + ζ1
η2 = α2 + γ21 ξ1 + β21 η1 + ζ2
Phương trình đầu tiên chỉ định rằng biến nội sinh đầu tiên chỉ được dự đoán bởi biến
ngoại sinh trong khi phương trình thứ hai chỉ định rằng biến nội sinh thứ hai đang được
dự đoán bởi cả biến ngoại sinh và biến nội sinh thứ nhất.

Đúng/Sai: Các items đường chéo của B luôn luôn bằng 0.


Trả lời: Đúng. Chúng ta không thể có một biến dự đoán chính nó vì vậy β11 = β22 = 0.
Đúng/Sai: β21 có nghĩa là biến nội sinh thứ hai đang dự đoán biến nội sinh đầu tiên.
Trả lời: Đúng.
Đúng/Sai: γ21 có nghĩa là biến ngoại sinh thứ hai đang dự đoán biến nội sinh đầu tiên.
Trả lời: Sai. Chỉ item đầu tiên chỉ định biến nội sinh, vì vậy γ21 có nghĩa là biến ngoại
sinh đầu tiên dự đoán biến nội sinh đầu tiên (đọc "ngược"). Vì chúng ta chỉ có một ξ
chúng ta có thể xóa item thứ hai và chỉ cần nói γ2 .

53
Vì lavaan sử dụng tất cả mô hình y -side, không cần có sự khác biệt giữa các biến tiềm
ẩn ngoại sinh và nội sinh. Như vậy, mô hình đo lường 6 B hoàn toàn giống với mô hình
6 A. Sự thay đổi duy nhất là hồi quy cấu trúc. Chúng ta giả thuyết rằng Risk dự đoán
tiêu cực Adjustment adjust ∼ adjust và Adjustment (một biến nội sinh) và Risk (một
biến ngoại sinh) dự đoán Achievement achieve ∼ adjust + risk.

m6b <- ’
# measurement model
adjust =∼ motiv + harm + stabi
risk =∼ verbal + ses + ppsych
achieve =∼ read + arith + spell
# regressions
adjust ∼ risk
achieve ∼ adjust + risk

fit6b <- sem(m6b, data=dat)
summary(fit6b, standardized=TRUE, fit.measures=TRUE)

Kết quả như sau:

lavaan 0.6-12 ended normally after 112 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 21
Number of observations 500

Model Test User Model :


Test statistic 148.982
Degrees of freedom 24
P-value (Chi-square) 0.000

Model Test Baseline Model :


Test statistic 2597.972
Degrees of freedom 36
P-value 0.000

User Model versus Baseline Model :


Comparative Fit Index (CFI) 0.951
Tucker-Lewis Index (TLI) 0.927

Loglikelihood and Information Criteria :


Loglikelihood user model (H0) −15517.857
Loglikelihood unrestricted model (H1) −15443.366
Akaike (AIC) 31077.713
Bayesian (BIC) 31166.220
Sample-size adjusted Bayesian (BIC) 31099.565

54
Root Mean Square Error of Approximation :
RMSEA 0.102
90 Percent confidence interval - lower 0.087
90 Percent confidence interval - upper 0.108
P-value RMSEA <= 0.05 0.000

Standardized Root Mean Square Residual :


SRMR 0.041

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Latent Variables :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
adjust =∼
motiv 1.000 9.324 0.933
harm 0.884 0.041 21.774 0.000 8.246 0.825
stabi 0.695 0.043 15.987 0.000 6.478 0.648
risk = ∼ verbal 1.000 7.319 0.733
ses 0.807 0.076 10.607 0.000 5.906 0.591
ppsych −0.770 0.075 −10.223 0.000 −5.636 −0.564
achieve =∼ read 1.000 9.404 0.941
arith 0.837 0.034 24.437 0.000 7.873 0.788
spell 0.976 0.028 34.338 0.000 9.178 0.919

Regressions :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
achieve ∼
adjust 0.375 0.046 8.085 0.000 0.372 0.372
risk 0.724 0.078 9.253 0.000 0.564 0.564

Variances :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
.motiv 12.870 2.852 4.512 0.000 12.870 0.129
.harm 31.805 2.973 10.698 0.000 31.805 0.319
.stabi 57.836 3.990 14.494 0.000 57.836 0.580
.verbal 46.239 4.788 9.658 0.000 46.239 0.463
.ses 64.916 4.975 13.048 0.000 64.916 0.650
.ppsych 68.033 5.068 13.425 0.000 68.033 0.682
.read 11.372 1.608 7.074 0.000 11.372 0.114
.arith 37.818 2.680 14.109 0.000 37.818 0.379
.spell 15.560 1.699 9.160 0.000 15.560 0.156
.adjust 67.694 6.066 11.160 0.000 0.779 0.779
risk 53.561 6.757 7.927 0.000 1.000 1.000
.achieve 30.685 3.449 8.896 0.000 0.347 0.347

55
5.4 Hồi quy cấu trúc với một biến nội sinh quan sát
được (Mô hình 6C)

Mô hình cấu trúc liên hệ tiềm ẩn với các biến tiềm ẩn. Giả sử chúng ta muốn xem xét
Risk hoặc Adjustment liên quan cụ thể như thế nào đến Reading hơn là Achievement
của học sinh. Trong ký hiệu LISREL, các ma trận Γ hoăc Btrona hồi quy cấu trúc chỉ
cho phép các mối quan hệ giữa các biến tiềm ẩn. Tuv nhiên, lavaan và các chương trình
phần mềm khác như Mplus cho phép người dùng dễ dàng xác định mối quan hệ giữa biến
quan sát và biến tiềm ẩn. Mã chỉ định read ∼ adjust + risk với adjust và risk là các
biến tiềm ẩn.

#structural regression (observed endogenous variable)


m6c <- ’
# measurement model
adjust =∼ motiv + harm + stabi
risk =∼ verbal + ses + ppsych
# regressions
adjust ∼ risk
read ∼ adjust + risk

fit6c <- sem(m6c, data=dat)
summary(fit6c, standardized=TRUE, fit.measures=TRUE)

Kết quả như sau:

lavaan 0.6-12 ended normally after 105 iterations

Estimator ML
Optimization method NLMINB
Number of free parameters 16
Number of observations 500

Model Test User Model :


Test statistic 35.555
Degrees of freedom 12
P-value (Chi-square) 0.000

Model Test Baseline Model :


Test statistic 1339.008
Degrees of freedom 21
P-value 0.000

User Model versus Baseline Model :


Comparative Fit Index (CFI) 0.982
Tucker-Lewis Index (TLI) 0.969

56
Loglikelihood and Information Criteria :
Loglikelihood user model (H0) −12370.103
Loglikelihood unrestricted model (H1) −12352.325
Akaike (AIC) 24772.206
Bayesian (BIC) 24839.640
Sample-size adjusted Bayesian (BIC) 24788.855

Root Mean Square Error of Approximation :


RMSEA 0.063
90 Percent confidence interval - lower 0.039
90 Percent confidence interval - upper 0.087
P-value RMSEA <= 0.05 0.170

Standardized Root Mean Square Residual :


SRMR 0.025

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Latent Variables :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
adjust =∼
motiv 1.000 9.172 0.9183
harm 0.914 0.043 21.334 0.000 8.379 0.839
stabi 0.716 0.045 16.025 0.000 6.569 0.658
risk = ∼ verbal 1.000 7.208 0.722
ses 0.829 0.076 10.848 0.000 5.973 0.598
ppsych −0.794 0.076 −10.486 0.000 −5.726 −0.573

Regressions :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
adjust ∼
risk 0.604 0.077 7.834 0.000 0.474 0.474
read ∼
adjust 0.285 0.050 5.658 0.000 2.610 0.261
risk 0.853 0.087 9.824 0.000 6.147 0.615

57
Variances :
Estimate Std.Err z-value P (> |z|) Std.lv Std.all
.motiv 15.676 2.982 5.257 0.000 15.676 0.157
.harm 29.595 3.030 9.767 0.000 29.595 0.297
.stabi 56.650 3.960 14.307 0.000 56.650 0.568
.verbal 47.846 4.666 10.254 0.000 47.846 0.479
.ses 64.125 4.903 13.078 0.000 64.125 0.643
.ppsych 67.008 4.993 13.421 0.000 67.008 0.671
.read 39.974 3.823 10.456 0.000 39.974 0.401
.adjust 65.185 6.022 10.824 0.000 0.775 0.775
risk 51.954 6.580 7.895 0.000 1.000 1.000

Kết quả cho thấy rằng Adjustment và Risk có liên quan tích cực với Reading, 1 đơn vị
tăng lên của adjust dẫn đến tăng 0,285 điểm của read và tăng một đơn vị risk dẫn đến
tăng 0,853 điểm của read. Trong phần sau, chúng ta sẽ xem cách vượt qua hạn chế mà
ma trận Γ và b chỉ được chỉ định giữa các biến tiềm ẩn.

Đúng/Sai: Lavaan cho phép đặc tả dễ dàng các đường dẫn giữa các các biến ngoại sinh
tiềm ẩn và các biến nội sinh quan sát.
Trả lời: Đúng.
Đúng/Sai: Trong ký hiệu LISREL, mối quan hệ giữa một biến tiềm ẩn và một biến quan
sát có thể được xác định trong cả mô hình đo lường và mô hình cấu trúc.
Trả lời: Trong ký hiệu LISREL, mối quan hệ giữa một biến tiềm ẩn và một biến quan sát
chỉ được xác định trong một mô hình đo lường. Chúng ta sẽ xem trong phần bên dưới
làm thế nào lavaan để có thể vượt qua hạn chế này.

Mô hình 6C (Đặc điểm kỹ thuật)

Lý do lavaan dễ dàng xác định mối quan hệ giữa các biến nội sinh quan sát và các biến
ngoại sinh tiềm ẩn trong một hồi quy cấu trúc là vì nó sử dụng tất cả ký hiệu y-side
LISREL, không phân biệt ma trận B và Γ. Tuy nhiên, trong ký hiệu LISREL truyền
thống, ma trận Γ và B chứa các đường dẫn hồi quy duy nhất. Như một bài tập hướng
dẫn, chúng ta sẽ tạo lại Mô hình 6C nhưng vẫn áp đặt các hạn chế đối với B. Cách giải
quyết này có thể được thực hiện bằng cách đặt read làm biến chỉ báo duy nhất của biến
nội sinh tiềm ẩn read. Để xác định, giới hạn tải thành 1 và đặt phương sai phần dư của
ngoại sinh read thành 0 (ví dụ: Các biến chỉ báo phụ: sử dụng dấu ngoặc nhọn).

Sơ đồ đường dẫn có thể được hình dung như sau:

58
Nếu chúng ta chạy mô hình này trong lavaan, nó sẽ đưa ra một cảnh báo như bên dưới.

Warning messages:
1: In lav_model_estimate(lavmodel = lavmodel, lavpartable = lavpartable,
:
lavaan WARNING: the optimizer warns that a solution has NOT been found!
2: In lav_model_estimate(lavmodel = lavmodel, lavpartable = lavpartable,
:
lavaan WARNING: the optimizer warns that a solution has NOT been found!

Điều này cho thấy rằng ràng buộc biến đơn có thể không tương thích với trình tối ưu hóa
mặc định. Để khắc phục lỗi này, hãy chạy lại và thay đổi phương pháp tối ưu hóa mặc
định từ NLMINB (Tối ưu hóa không bị hạn chế và hạn chế sử dụng quy trình PORT)
thành BFGS (thuật toán Broyden-Fletcher-GoldfarbShanno) bằng cách thêm câu lệnh
tối ưu optim. method=list("BFGS"). Lưu ý rằng việc sử dụng BFGS mất 4563 lần
lặp nhưng cuối cùng sẽ hội tụ.

#model6c (manual specification)


m6cc <- ’
# measurement model
adjust =∼ motiv + harm + stabi
risk =∼ verbal + ses + ppsych
#single indicator factor
readf =∼ 1*read
#residuel variance to zero
read ∼∼ 0*read
# regressions
adjust ∼ risk
readf ∼ adjust + risk

59
fit6cc <- sem(m6cc, data=dat, optim.method=list("BFGS"))
summary(fit6cc)

Kết quả như sau:

lavaan 0.6-12 ended normally after 4563 iterations

Estimator ML
Optimization method BFGS
Number of free parameters 16
Number of observations 500

Model Test User Model :


Test statistic 35.607
Degrees of freedom 12
P-value (Chi-square) 0.000

Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured

Latent Variables :
Estimate Std.Err z-value P (> |z|)
adjust =∼

motiv 1.000
harm 0.915 0.043 21.355 0.000
stabi 0.718 0.045 16.061 0.000
risk = ∼
verbal 1.000
ses 0.835 0.077 10.884 0.000
ppsych −0.801 0.076 −10.529 0.000
readf = ∼
read 1.000

Regressions :
Estimate Std.Err z-value P (> |z|)
adjust ∼

risk 0.605 0.077 7.831 0.000


readf ∼

adjust 0.285 0.050 5.672 0.000


risk 0.854 0.087 9.821 0.000

60
Variances :
Estimate Std.Err z-value P (> |z|)
.read 0.000
.motiv 15.834 2.978 5.318 0.000
.harm 29.458 3.026 9.737 0.000
.stabi 56.407 3.946 14.295 0.000
.verbal 48.352 4.669 10.356 0.000
.ses 63.422 4.871 13.019 0.000
.ppsych 66.238 4.955 13.368 0.000
.adjust 65.069 6.015 10.818 0.000
risk 51.608 6.562 7.864 0.000
.readf 40.096 3.820 10.496 0.000

Kết quả chúng ta thu được tương tự như kết quả từ kết quả của m6c sử dụng NLMINB,
có sai số làm tròn nhỏ do sử dụng phương pháp tối ưu hóa khác nhau.

61
Chương 6

Phần kết luận

Như chúng ta đã thấy, mô hình phương trình cấu trúc tuyến tính là một nền tảng rộng
bao gồm một loạt các mô hình tuyến tính, cụ thể là hồi quy tuyến tính, hồi quy đa biến,
phân tích đường dẫn, phân tích nhân tố khẳng định và hồi quy cấu trúc. Các mô hình
này được tham số hóa một cách chặt chẽ theo nền tảng LISREL (quan hệ cấu trúc tuyến
tính) do Karl Joreskög phát triển vào năm 1969 và 1973. Việc hiểu các tham số ma trận
không quá quan trọng đối với việc triển khai thực tế mà cho phép nhà phân tích dữ liệu
hiểu đầy đủ các sắc thái của mỗi mô hình SEM. Ví dụ, một mô hình tiềm ẩn phải được
xác định bằng các quan sát tương ứng của nó, một hạn chế không cần thiết trong các mô
hình phân tích đường dẫn nơi tất cả các biến đều được quan sát. Ngoài ra, một mô hình
dường như dự đoán một biến tiềm ẩn cho một biến nội sinh quan sát thực tế là một hồi
quy cấu trúc tiềm ẩn trong đó biến nội sinh quan sát bị buộc phải trở thành một mô hình
đo lường duy nhất với các ràng buộc. Những điều này không rõ ràng đối với nhà phân tích
cho đến khi anh ta hoặc cô ta hiểu rằng ma trận Γ và B trong hồi quy cấu trúc chỉ định
mối quan hệ giữa các biến tiềm ẩn. Mặc dù không cần thiết để thực hiện, việc phân biệt
giữa các ma trận như ma trận Γ và B xác định loại mô hình được xem xét. Ví dụ: trong
mô hình phân tích đường dẫn, thiết lập B = 0 tương đương với hồi quy đa biến trong đó
các dự đoán duy nhất là giữa các biến ngoại sinh và biến nội sinh quan sát được. Biết
rằng các mô hình phân tích đường dẫn không chứa η hoặc ξ có nghĩa là phân tích đường
dẫn chỉ thích hợp cho các biến quan sát. Một khi nhà phân tích có thể phân biệt giữa
các tham số này, họ sẽ bắt đầu hiểu được cơ sở lý thuyết của mô hình phương trình cấu
trúc tuyến tính. Tuy nhiên, phân biệt giữa ma trận B và Γ không đủ để hiểu tất cả SEM,
và chúng ta không có ý định truyền đạt sự thông thạo cho người đọc trong một trang
web được viết ngắn gọn. Các trang tiếp theo có thể nghiên cứu sâu hơn về ước lượng,
cũng như các chủ đề phức tạp hơn như SEM đa nhóm, mô hình tăng trưởng tiềm ẩn và
kiểm tra phép đo bất biến. Ngoài ra còn có một số lượng lớn tài liệu và sách trên SEM
mà chúng tôi hy vọng người đọc sẽ dành thời gian. Ít nhất, chúng tôi hy vọng bạn thấy
phần này hữu ích, và chúng tôi chúc bạn may mắn với những nỗ lực nghiên cứu của mình.

62
Đúng/Sai: SEM bao gồm một loạt các mô hình tuyến tính và kết hợp các phương trình
tuyến tính song song với mô hình biến tiềm ẩn.
Trả lời: Đúng. Hồi quy đa biến và phân tích đường dẫn là phương trình song song của
các biến quan sát; phân tích nhân tố là một mô hình biến tiềm ẩn và hồi quy cấu trúc
kết hợp các khái niệm phân tích đường dẫn với phân tích nhân tố.
Đúng/Sai: Hồi quy đa biến có nghĩa là luôn có nhiều hơn một biến dự báo ngoại sinh
trong mô hình.
Trả lời: Sai. Hồi quy đa biến chỉ ra nhiều hơn một biến nội sinh. Chúng ta chắc chắn có
thể chỉ có một biến dự báo ngoại sinh trong số nhiều biến nội sinh.
Đúng/Sai: Hồi quy cấu trúc mô hình hóa các đường dẫn hồi quy chỉ giữa các biến tiềm
ẩn.
Trả lời: Đúng. Hồi quy cấu trúc xác định mối quan hệ giữa các biến tiềm ẩn và phân
tích đường dẫn xác định mối quan hệ giữa các biến quan sát.

63
Chương 7

Tài liệu tham khảo

Sách

Jöreskog, K. G., Olsson, U. H., & Wallentin, F. Y. (2016). Multivariate analysis with
LISREL. Basel, Switzerland: Springer.
Kline, R. B. (2016). Principles and practice of structural equation modeling (4th ed.).
Guilford publications.

For more information on:


- lavaan’s own tutorial http://lavaan.ugent.be/tutorial
- extracting objects from lavaan Inspect or extract information from a fitted lavaan
object

Saturated versus baseline models


- What are the saturated and baseline models in sem?
- Google Forums
- Disentangling degrees of freedom

Fit indexes
- Research Gate Discussion about chi-bình phương
- Assess whole SEM model-chi square and fit index

64
Tài liệu tham khảo

65

View publication stats

You might also like