Professional Documents
Culture Documents
Cfa R
Cfa R
net/publication/363214215
CITATIONS READS
0 3,780
1 author:
SEE PROFILE
All content following this page was uploaded by Binh Thi Thanh Dao on 02 September 2022.
CFA
Nguồn
CONFIRMATORY FACTOR ANALYSIS (CFA) IN R WITH LAVAAN.
https://stats.oarc.ucla.edu/r/seminars/rcfa/s4c
2022
Mục lục
Phần này giới thiệu trọng tâm trong Phân tích nhân tố khẳng định, được dịch từ "CON-
FIRMATORY FACTOR ANALYSIS (CFA) IN R WITH LAVAAN".
https://stats.oarc.ucla.edu/r/seminars/rcfa/s4c
Phần này sẽ hướng dẫn chúng ta cách thực hiện phân tích nhân tố khẳng định (CFA) bằng
lavaan (http://lavaan.ugent.be/) trong ngôn ngữ lập trình thống kê R, nhấn mạnh vào
việc hiểu các khái niệm của CFA và giải thích kết quả đầu ra chứ không phải là một xử lý
toán học kỹ lưỡng hoặc một danh sách các tùy chọn câu lệnh trong lavaan. Đối với phân
tích nhân tố khám phá (EFA), vui lòng tham khảo Phần giới thiệu thực tế về phân tích
nhân tố: Phân tích nhân tố khám phá (https://stats.idre.ucla.edu/spss/seminars/introduction-
tofactor-analysis/a-practical-introduction-to-factor-analysis/). Cần có kiến thức cơ bản
về hồi quy tuyến tính để hiểu một số tài liệu trong phần này.
Đây là phần đầu tiên trong ba phần về mô hình biến ẩn. Phần thứ hai đề cập đến các
mô hình biến quan sát và tiềm ẩn. Trong phần đầu tiên này, tất cả các biến được cho là
theo chiều y (y-side) và hướng của các mũi tên là khác thường (chỉ sang trái). Về cơ bản,
các mô hình CFA nên là các biến theo chiều x (x-side) với các tham số ξ cho nhân tố
tiềm ẩn và với các phần dư quan sát được kể từ khi ký hiệu y-side phổ biến hơn trong
tài liệu, chúng ta sử dụng η và ε đối với hệ số nhân tố tương ứng và các phần dư quan
sát được. Tuy nhiên, trong phần thứ hai, chúng ta cần phân biệt giữa x-side và y-side.
• Giới thiệu về mô hình phương trình cấu trúc tuyến tính (SEM) trong R với lavaan
(https://stats.idre.ucla.edu/r/seminars/rsem/)
Phần thứ ba đề cập đến các chủ đề trung gian trong CFA bao gồm mô hình tăng trưởng
tiềm ẩn và phép đo bất biến.
• Mô hình tăng trưởng tiềm ẩn (LGM) và Phép đo bất biến với R trong lavaan
(https://stats.idre.ucla.edu/r/seminars/lgm/)
1
Yêu cầu
Trước khi bắt đầu, hãy đảm bảo rằng chúng ta đã cài đặt R (https://cran.r-project.org/)
và RStudio (https://www.rstudio.com/).
Cũng hãy đảm bảo đã cài đặt các gói R sau đây và nếu không, hãy chạy các lệnh này
trong R (RStudio).
install.packages("foreign", dependencies=TRUE)
install.packages("lavaan", dependencies=TRUE)
Khi chúng ta đã cài đặt các gói, chúng ta có thể tải chúng qua.
library(foreign)
library(lavaan)
Chúng ta có thể tải xuống mã R hoàn chỉnh tại đây: cfa.r (https://stats.idre.ucla.edu/wp-
content/uploads/2020/02/cfa.r).
Sau khi nhấp vào liên kết, chúng ta có thể sao chép và dán toàn bộ mã vào R hoặc RStudio.
2
Chương 1
Giới thiệu
Phân tích nhân tố có thể được chia thành hai loại chính, khám phá và khẳng định.
Phân tích nhân tố khám phá, còn được gọi là EFA, như tên cho thấy là một công cụ
khám phá để hiểu các thuộc tính đo lường tâm lý cơ bản của một thang đo chưa biết.
Phân tích nhân tố khẳng định vay mượn nhiều khái niệm tương tự từ phân tích nhân tố
khám phá ngoại trừ việc thay vì để dữ liệu cho chúng ta biết cấu trúc nhân tố, chúng
ta xác định trước cấu trúc nhân tố và xác minh cấu trúc đo lường tâm lý của thang đo
đã phát triển trước đó. Các nghiên cứu gần đây hơn của Asparouhov và Muthén (2009)
đã làm mờ ranh giới giữa EFA và CFA, nhưng theo truyền thống thì hai phương pháp
này rất khác biệt. EFA có lịch sử lâu đời hơn, có từ thời Spearman (1904) trong khi CFA
trở nên phổ biến hơn sau một bước đột phá trong cả công nghệ máy tính và phương
pháp ước lượng do Jöreskog phát triển (1969). Sự khác biệt này cũng thể hiện trong
phần mềm. Ví dụ: EFA có sẵn trong SPSS FACTOR, SAS PROC FACTOR và Stata’s
factor. Tuy nhiên, trong SPSS, cần có một chương trình riêng biệt gọi là Amos để chạy
CFA, cùng với các gói khác như Mplus, EQS, SAS PROC CALIS, Stata’s sem và gần đây
là R’s lavaan. Vì trọng tâm của phần này là CFA và R, chúng ta sẽ tập trung vào lavaan.
Trong phần này, chúng ta sẽ hiểu các khái niệm về CFA qua lăng kính của một nhà phân
tích thống kê được giao nhiệm vụ khám phá các tính chất đo lường tâm lý của việc khảo
sát SPSS Anxiety 8 items mới được đề xuất. Do hạn chế về ngân sách, phòng thí nghiệm
sử dụng ngôn ngữ lập trình thống kê R có sẵn và lavaan như gói CFA và mô hình phương
trình cấu trúc tuyến tính (SEM) được lựa chọn. Chúng ta sẽ hiểu các khái niệm như mô
hình phân tích nhân tố, câu lệnh cơ bản, tham số mô hình, sự xác định và thống kê độ
phù hợp mô hình. Những khái niệm này rất quan trọng để quyết định số lượng item sẽ
sử dụng cho mỗi nhân tố, cũng như làm thế nào để thành công phân tích nhân tố một
nhân tố, hai nhân tố và cấu trúc bậc hai.
3
1. Thống kê khiến tôi khóc
2. Bạn bè của tôi nghĩ rằng tôi ngu ngốc vì không thể đối phó với SPSS
3. Độ lệch chuẩn kích thích tôi
4. Tôi mơ thấy Pearson đang tấn công tôi với hệ số tương quan
5. Tôi không hiểu số liệu thống kê
6. Tôi có ít kinh nghiệm với máy tính
7. Tất cả các máy tính đều ghét tôi
8. Tôi chưa bao giờ giỏi toán
Trong suốt phần, chúng ta sẽ sử dụng các thuật ngữ item và biến chỉ báo thay thế
cho nhau, với biến chỉ báo nhấn mạnh mối quan hệ của các items này với một biến ẩn.
Cũng giống như trong phân tích nhân tố khám phá, điều tra viên chính muốn đánh giá
các thuộc tính đo lường tâm lý của Bảng câu hỏi về SPSS Anxiety 8 items “SAQ-8”,
được đề xuất như một phiên bản rút gọn của SAQ ban đầu để rút ngắn thời gian cam
kết cho những người tham gia đồng thời duy trì tính nhất quán và hiệu lực nội bộ. Các
nhà thu thập dữ liệu đã thu thập được 2,571 quan sát cho đến nay và tải tệp SPSS
lên máy chủ IDRE. Tệp SPSS có thể được tải xuống thông qua liên kết sau: SAQ.sav
(https://stats.idre.ucla.edu/wpcontent/uploads/2018/05/SAQ.sav). Mặc dù đây là tệp
SPSS, R có thể dịch tệp này trực tiếp sang đối tượng R thông qua hàm read.spss thông
qua thư viện foreign. Tùy chọn to.data.frame đảm bảo dữ liệu được nhập là khung dữ
liệu chứ không phải danh sách R và use.value.labels = FALSE chuyển đổi các biến
phân loại thành các giá trị số thay vì các nhân tố. Điều này được thực hiện bởi vì chúng
ta muốn chạy hiệp phương sai trên các items không thể thực hiện với các biến nhân tố.
Bây giờ chúng ta đã nhập tập dữ liệu, bước đầu tiên ngoài việc xem xét bản thân
dữ liệu là xem bảng tương quan của tất cả 8 biến. Hàm cor chỉ định mối tương quan
và round với tùy chọn 2 chỉ định rằng chúng ta muốn làm tròn các số đến chữ số thứ hai.
round(cor(dat[,1:8]),2)
4
đối với item 6 và 7. Lưu ý rằng các mối tương quan trong tam giác vuông phía trên (in
nghiêng) giống với các mối tương quan trong tam giác vuông phía dưới, có nghĩa là mối
tương quan cho item 6 và 7 cũng giống như mối tương quan cho item 7 và 6. Điều này
được gọi là đối xứng và sẽ rất quan trọng sau này.
Trong tâm lý học và khoa học xã hội, độ lớn của sự tương quan trên 0,30 được coi là hệ
số ảnh hưởng trung bình. Do có sự tương quan tương đối cao giữa nhiều items, đây sẽ là
một nhân tố tốt để phân tích nhân tố. Mục tiêu của phân tích nhân tố là mô hình hóa
các mối quan hệ qua lại giữa nhiều items với ít biến ẩn hoặc không được quan sát hơn.
Trước khi tiếp tục, chúng ta hãy tìm hiểu mô hình phân tích nhân tố khẳng định.
Có ba điểm khác biệt chính giữa mô hình phân tích nhân tố và hồi quy tuyến tính:
1. Kết quả phân tích nhân tố là các items không phải là quan sát, vì vậy y1 cho biết item
đầu tiên.
2. Phân tích nhân tố là một mô hình đa biến, có bao nhiêu kết quả cho mỗi đối tượng là
bấy nhiêu item. Trong hồi quy tuyến tính, chỉ có một kết quả cho mỗi đối tượng.
3. Dự đoán hoặc nhân tố, η (“Eta”), không được quan sát nhưng trong hồi quy tuyến
tính, các nhân tố dự báo được quan sát.
Chúng ta có thể biểu diễn mô hình đa biến này (tức là nhiều kết quả, item hoặc biến chỉ
báo)
dưới dạng
một phương
trình matrận:
y1 τ1 λ1 ϵ1
y2 = τ2 + λ2 (η1 ) + ϵ2
y3 τ3 λ3 ϵ3
Ba bộ phương trình tương đương được viết dưới dạng:
y1 = τ1 + λ1 η1 + ϵ1
y2 = τ2 + λ2 η1 + ϵ2
y3 = τ3 + λ3 η1 + ϵ3
• λ (“Lambda”) trọng số , có thể được hiểu là mối tương quan của item với nhân tố
• η (“Eta”), nhân tố dự đoán tiềm ẩn của các items, ví dụ nhân tố (SPSS Anxiety)
5
• ϵ (“Epsilon”) phần dư, phần còn lại sau khi tính toán nhân tố (điều mà SPSS
Anxiety không giải thích được).
Biến chỉ báo đề cập đến số item. Ví dụ τ1 nghĩa là hệ số chặn của item đầu tiên, λ2 là
trọng số của item thứ hai và ϵ3 là phần dư của item thứ ba, sau khi đã tính đến nhân tố.
• Ψ(“Psi”) ma trận phương sai-hiệp phương sai của các nhân tố tiềm ẩn (tức là,
phương sai của η ; đối với một nhân tố, nó là vô hướng)
Kích thước của ma trận này tương ứng với kích thước của ma trận hiệp phương sai quan
sát được Σ, đối với ma trận 3x3. Nhớ lại rằng ma trận hiệp phương sai ngụ ý của mô
hình có thể được xác định bằng cách sau:
Trong trường
hợp một nhân tố ba
items,
λ1 θ11 θ12 θ13
Σ(θ) = λ2 (ψ11 )(λ1 λ2 λ3 ) + θ21 θ22 θ23
λ3 θ31 θ32 θ33
Lưu ý rằng trọng số λ là các tham số giống nhau giữa mô hình đo lường và mô hình hiệp
phương sai ngụ ý của mô hình. Điều này có nghĩa là các tham số mới duy nhất liên quan
đến Ψ và Θϵ là ma trận hiệp phương sai của các hệ số tiềm ẩn và sai số dư tương ứng. Tại
sao chúng ta lại quan tâm nhiều đến ma trận phương sai-hiệp phương sai của các items?
Bởi vì giả định cơ bản của phân tích nhân tố là đối với một tập hợp các biến quan sát,
có một tập hợp các nhân tố cơ bản (nhỏ hơn các biến quan sát, tức là ηs), điều đó có thể
giải thích mối quan hệ qua lại giữa các biến số đó. Các mối quan hệ qua lại này được đo
lường bằng các phương sai.
6
cho hệ số chặn hoặc giá trị trung bình, mũi tên một chiều đại diện cho đường đi và mũi
tên hai chiều đại diện cho phương sai hoặc hiệp phương sai.
Ví dụ trong hình bên dưới, biểu đồ bên trái mô tả hồi quy của một nhân tố trên một
item (về cơ bản là một mô hình đo lường) và biểu đồ bên phải mô tả phương sai của
nhân tố (mũi tên hai chiều chỉ đến một biến ẩn ).
Trong hiệp phương sai ngụ ý của mô hình, chúng ta giả định rằng các phần dư là độc
lập, ví dụ θ21 , hiệp phương sai giữa phần dư thứ hai và thứ nhất, được đặt thành không.
7
Vì vậy, các điều khoản hiệp phương sai duy nhất được ước lượng ψ11 là phương sai của
nhân tố và θ11 , θ22 và θ33 là phương sai của các phần dư (giả sử phương sai sai lệch co
giãn). Như một bài tập, hãy xem liệu chúng ta có thể vẽ sơ đồ đường dẫn ở trên với các
phương trình hồi quy sau không:
y1 = τ1 + λ1 η1 + ϵ1
y2 = τ2 + λ2 η1 + ϵ2
y3 = τ3 +
λ3 η1+ ϵ3
λ1 θ11 0 0
Σ(θ) = λ2 (ψ11 )(λ1 λ2 λ3 ) + 0 θ22 0
λ3 0 0 θ33
Biểu đồ đường dẫn và các phương trình cho chúng ta biết về các tham số đến từ mô hình
đo lường hoặc hiệp phương sai ngụ ý của mô hình; và biết cách đếm các tham số là một
điều cần thiết. Theo truyền thống, chúng ta bỏ qua các tham số trong mô hình đo lường
(ví dụ: τ ), và tập trung vào các tham số từ mô hình hiệp phương sai. Xem liệu chúng
ta có thể đếm số lượng tham số từ các phương trình hoặc sơ đồ đường dẫn ở trên hay
không. Là một nhà phân tích dữ liệu, biết cách đếm các tham số là điều rất quan trọng
trong việc hiểu một khái niệm CFA thiết yếu được gọi là sự xác định.
Trả lời Có ba trọng số, λ1 , λ2 , λ3 , phương sai một nhân tố ψ11 , và ba phương sai phần dư
θ1 , θ2 , θ3 . Tuy nhiên, chúng ta chỉ có sáu giá trị đã biết từ ma trận hiệp phương sai quan
sát được.
8
Chương 2
Mô hình cơ bản nhất trong CFA là mô hình một nhân tố, mô hình này sẽ giả định rằng
hiệp phương sai giữa các items là do một nhân tố chung duy nhất. Giả sử Điều tra viên
chính quan tâm đến việc kiểm tra giả định rằng các items đầu tiên trong SAQ-8 là một
thước đo ước lượng đáng tin cậy về SPSS Anxiety. Tám items là các biến chỉ báo quan
sát được về cấu trúc tiềm ẩn hoặc không được quan sát mà PI gọi là SPSS Anxiety. các
items là nhân tố cơ bản trong CFA và hiệp phương sai giữa các items tạo thành thành
phần cơ bản trong CFA. Ma trận hiệp phương sai tổng hợp quan sát được Σ là một ma
trận các hiệp phương sai hai biến xác định có bao nhiêu tổng tham số có thể được ước
lượng trong mô hình. Ma trận ngụ ý của mô hình Σ(θ)có cùng kích thước với Σ. Nhớ lại
rằng ma trận hiệp phương sai ngụ ý của mô hình được định nghĩa là
Σ(θ) = Coυ(y) = ΛΨΛ′ + Θϵ
Điều này có nghĩa rằng θ bao gồm các tham số Λ, Ψ, Θϵ tương ứng với trọng số, hiệp
phương sai của các biến ẩn và hiệp phương sai của phần dư. Lưu ý rằng các biến chỉ
báo quan sát không phải là một phần của tập hợp các tham số, nhưng thay vào đó được
sử dụng để ước lượng các tham số. Như một phép loại suy đơn giản, giả sử chúng ta có
một tập dữ liệu với các kết quả quan sát được y=13, 14, 15 , sau đó là tham số trung
bình, µ,ước lượng của tham số này được gọi là "mu-hat", ký hiệu là µ̂ = y = n1 Σyi . Đây
y = (13 + 14 + 15)/3 = 14 Tương tự, trong CFA, các items được sử dụng để ước lượng tất
cả các tham số hiệp phương sai ngụ ý của mô hình, tương ứng với Λ̂, Ψ̂, Θ̂ϵ , biểu tượng
củ cà rốt hoặc chiếc mũ nhấn mạnh rằng các tham số này được ước lượng. Trong một
thế giới lý tưởng, chúng ta sẽ có số lượng không giới hạn các items để ước lượng từng
tham số, tuy nhiên trong thế giới thực, có những hạn chế đối với tổng số tham số chúng
ta có thể sử dụng. Những hạn chế này được gọi là sự xác định. Để hiểu khái niệm này,
chúng ta sẽ nói về các tham số cố định và tự do trong CFA.
9
phương sai-hiệp phương sai tổng thể Σ , được đưa ra bởi công thức p(p+1)/2 với p là số
item trong khảo sát. Giả sử điều tra viên chính nghĩ rằng các items thứ ba, thứ tư và
thứ năm của SAQ là các biến chỉ báo quan sát được về SPSS Anxiety. Để có được ma
trận hiệp phương sai mẫu S=Σ̂, là ước lượng của ma trận hiệp phương sai tổng thể Σ ,
sử dụng item cột [,3:5] và lệnh cov. Hàm round với tùy chọn 2 chỉ định rằng chúng ta
muốn làm tròn các số đến chữ số thứ hai.
round(cov(dat[,3:5]),2)
q03 q04 q 05
q03 1.16 -0.39 -0.32
q04 -0.39 0.90 0.37
q05 -0.32 0.37 0.93
Các ô nằm ngoài đường chéo trong S tương ứng với hiệp phương sai mẫu hai biến giữa
hai items; và các ô chéo trong S tương ứng với phương sai mẫu của mỗi item (do đó có
thuật ngữ “ ma trận phương sai-hiệp phương sai ”). Item 3 có quan hệ nghịch biến với
item 4 và 5 nhưng item 4 có quan hệ thuận với item 5. Cũng giống như trong ma trận
tương quan mà chúng ta đã tính toán trước đó, các phần tử của tam giác dưới trong ma
trận hiệp phương sai là giống với các phần tử của tam giác trên. Ví dụ, hiệp phương sai
của item 3 với item 4 là -0,39, bằng hiệp phương sai của item 4 và item 3 (nhớ lại tính
chất của đối xứng). Bởi vì các hiệp phương sai được trùng lặp, số lượng các tham số tự
do trong CFA được xác định bởi số lượng phương sai và hiệp phương sai duy nhất. Với
ba items, số giá trị đã biết là 3(4)/2=6. Các giá trị đã biết đóng vai trò là hạn chế chính
về số lượng tổng tham số mà chúng ta có thể ước lượng. Để đơn giản, giả sử rằng tổng
số tham số chỉ đến từ ma trận hiệp phương sai ngụ ý của mô hình. Xem phần tùy chọn
Bậc tự do với giá trị trung bình để biết giải thích chính xác hơn về mặt kỹ thuật của các
tham số. Cho rằng chúng ta có 6 giá trị đã biết, có bao nhiêu tham số từ ma trận hiệp
phương sai ngụ ý của mô hình?
λ1 θ11 θ12 θ13
Σ(θ) = λ2 (ψ11 )(λ1 λ2 λ3 ) + θ21 θ22 θ23
λ3 θ31 θ32 θ33
Nếu chúng ta ước lượng mọi tham số trong ma trận hiệp phương sai ngụ ý của mô hình,
thì sẽ có 3 λ, 1 ψ, và 6 θ’s (vì đối xứng θ12 = θ21 , θ13 = θ31 vàθ23 = θ32 ), tổng cộng 10
tham số, nhưng chúng ta chỉ có 6 giá trị đã biết! Giải pháp là cho phép các tham số cố
định là những tham số không được ước lượng và xác định trước để có một giá trị cụ thể.
Chúng ta sẽ nói nhiều hơn về các tham số cố định khi chúng ta thảo luận về sự xác định,
nhưng như một ví dụ ngớ ngẩn, giả sử chúng ta sửa tất cả các tham số thành 1 hoặc 0.
λ1 = 1 θ11 = 1 θ12 = 0 θ13 = 0
Σ(θ) = λ2 = 1 (ψ11 = 1)(λ1 = 1λ2 = 1λ3 = 1) + θ21 = 0 θ22 = 1 θ23 = 0
λ3 = 1 θ31 = 0 θ32 = 0 θ33 = 1
10
Chúng ta đã nhận được bao nhiêu tham số tự do sau khi sửa 10 tham số (duy nhất)?
Trả lời: mục tiêu là tối đa hóa bậc tự do (df)
df = number of known values − number of free parameters
Ví dụ trên là không thực tế vì sẽ là vô nghĩa nếu tất cả các tham số được sửa. Thay vào
đó, nhiều mô hình chỉ được xác định hoặc bão hòa với bậc tự do bằng không. Điều
này có nghĩa là số lượng tham số tự do chiếm tất cả các giá trị đã biết trong Σ. Điều
này thường thấy trong các mô hình hồi quy tuyến tính và nhược điểm chính là chúng ta
không thể đánh giá sự phù hợp của mô hình. Một mô hình chưa được xác định có
nghĩa là số lượng các giá trị đã biết ít hơn số lượng các tham số tự do, điều này là không
mong muốn. Trong CFA, những gì chúng ta thực sự muốn là một mô hình được xác
định quá mức trong đó số lượng các giá trị đã biết lớn hơn số lượng các tham số tự
do. Các mô hình được xác định quá mức cho phép chúng ta đánh giá sự phù hợp của mô
hình (sẽ được thảo luận ở phần sau).
Tóm tắt
• df = 0, đã biết = tự do ( vừa được xác định hoặc bão hòa , không xấu cũng không
tốt)
Câu hỏi
Trước khi sửa 10 tham số duy nhất, mô hình chưa được xác định. Giải thích lý do tại sao
sửa λ1 = 1 và đặt các hiệp phương sai duy nhất bằng 0 (ví dụ: θ12 = θ21 = 0, θ13 = θ31 = 0
và θ23 = θ32 = 0) dẫn đến một mô hình vừa được xác định. Sử dụng các phương trình để
giúp chúng ta.
Trả lời
Chúng ta bắt đầu với 10 tham số tổng trong ma trận hiệp phương sai ngụ ý của mô hình.
Vì chúng ta sửa một trọng số và 3 hiệp phương sai phần dư duy nhất, nên số lượng tham
số tự do là 10-(1+3)=6. Vì chúng ta có 6 giá trị đã biết, bậc tự do của chúng ta là 6-6=0,
được xác định là bão hòa. Đây được gọi là phương pháp đánh dấu.
11
Rất may cho chúng ta, số lượng item phù hợp với CFA vì CFA một nhân tố với ba items
được xác định chính xác, có nghĩa là nó không có bậc tự do. Bởi vì mô hình này chưa
được xác định, nó là một mô hình tốt để giới thiệu sự xác định, quá trình đảm bảo mỗi
tham số tự do trong CFA có một giải pháp duy nhất và đảm bảo rằng bậc tự do ít nhất
bằng 0. Có nhiều quy tắc (http://davidakenny.net/cm/identifyformal.htmRuleB) để xác
định thích hợp, nhưng đối với việc xác định nhà phân tích thông thường sẽ giúp chúng
ta tránh thông báo sau trong lavaan:
lavaan WARNING:
Could not compute standard errors! The information matrix could not be
inverted. This may be a symptom that the model is not identified.
1. phương pháp đánh dấu sửa trọng số đầu tiên của mỗi nhân tố thành 1,
2. phương pháp chuẩn hóa phương sai sửa phương sai của mỗi nhân tố thành 1
nhưng ước lượng tự do tất cả các trọng số. Trong ký hiệu ma trận, phương pháp đánh
dấu (Tùy chọn 1).
λ1 θ11 0 0
Σ(θ) = λ2 (ψ11 )(1λ2 λ3 ) + 0 θ22 0
λ3 0 0 θ33
Trong ký
hiệuma trận, phươngpháp chuẩn hóa
phương sai (Tùy chọn 2)
λ1 θ11 0 0
Σ(θ) = λ2 (1)(λ1 λ2 λ3 ) +
0 θ22 0
λ3 0 0 θ33
Lưu ý trong cả hai mô hình rằng các phương sai phần dư được ước lượng tự do.
12
Câu hỏi
Đối với phương pháp chuẩn hóa phương sai, hãy thực hiện quá trình tính bậc tự do. Nếu
chúng ta có sáu giá trị đã biết thì mô hình này vừa được xác định, xác định quá mức
hay chưa được xác định?
Trả lời
Chúng ta bắt đầu với 10 tham số duy nhất trong ma trận hiệp phương sai. Vì chúng ta
cố định một phương sai nhân tố và 3 phương sai phần dư duy nhất, nên số tham số tự
do là 10- (1 + 3) = 6. Vì chúng ta có 6 giá trị đã biết, bậc tự do của chúng ta là 6-6 =
0, được định nghĩa là bão hòa. Đây được gọi là phương pháp chuẩn hóa phương sai.
• ∼ predict, được sử dụng để hồi quy kết quả quan sát được thành các nhân tố dự
đoán được quan sát
• =∼ indicator, được sử dụng cho biến ẩn thành biến chỉ báo quan sát trong các
mô hình đo lường phân tích nhân tố
• ∼∼ covariance
• ∼ 1 intercept hoặc trung bình (ví dụ, q01 ∼ 1 ước lượng giá trị trung bình của
biến q01
• NA* frees parameter hoặc trọng số (hữu ích để ghi đè phương pháp đánh dấu
mặc định)
• a* labels the parameter ’ a’, được sử dụng cho các ràng buộc mô hình
Bây giờ chúng ta đã quen thuộc với một số câu lệnh, hãy xem cách chúng ta có thể chạy
CFA một nhân tố trong lavaan với item 3, 4 và 5 là các chỉ số về nhân tố SPSS Anxiety.
Dòng đầu tiên là câu lệnh mô hình. Nhớ lại rằng =∼ đại diện cho phương trình biến chỉ
báo trong đó biến ẩn ở bên trái và các biến chỉ báo (hoặc biến quan sát) ở bên phải. Ở
đây chúng ta đặt tên cho nhân tố của chúng ta f (hoặc SPSS Anxiety), được chỉ ra bởi
q03, q04, và q05. chúng ta lưu trữ mô hình thành đối tượng m1a cho Mô hình 1A.
Dòng thứ hai chỉ định chạy phân tích nhân tố khẳng định bằng cách sử dụng hàm cfa,
đây thực sự là một chức năng trong lavaan. Mô hình được ước lượng là m1a và tập
dữ liệu sẽ được sử dụng là dat; lưu trữ đầu ra thành đối tượng onefac3items_a. Cuối
cùng, dòng thứ ba yêu cầu đầu ra văn bản cho onefac3items_a, liệt kê ví dụ như công
13
cụ ước lượng đã sử dụng, số lượng tham số tự do, thống kê kiểm định, giá trị trung bình
ước lượng, trọng số và phương sai.
Estimator ML
Optimization method NLMINB
Number of free parameters 6
Number of observations 2571
Parameter Estimates:
Information Expected
Information saturated (h1) model Structured
Standard errors Standard
Latent Variables:
Estimate Std.Err z-value P (> |z|)
f =∼
q03 1.000
q04 −1.139 0.073 −15.652 0.000
q05 −0.945 0.056 −16.840 0.000
Variances:
Estimate Std.Err z-value P (> |z|)
.q03 0.815 0.031 26.484 0.000
.q04 0.458 0.030 15.359 0.000
.q05 0.626 0.025 24.599 0.000
f 0.340 0.031 11.034 0.000
Theo mặc định, lavaan chọn phương pháp đánh dấu (Tùy chọn 1) nếu không có gì khác
được chỉ định. Để giải phóng một tham số, hãy đặt NA* trước tham số cần giải phóng,
để sửa một tham số thành 1, hãy đặt 1* trước tham số cần cố định. Câu lệnh NA*q03
14
giải phóng trọng số item đầu tiên vì theo mặc định, phương pháp đánh dấu sẽ sửa nó
thành một và f ∼∼ 1*f có nghĩa là sửa phương sai của nhân tố thành một.
Latent Variables:
Estimate Std.Err z-value P (> |z|)
f=∼
q03 0.583 0.026 22.067 0.000
q04 −0.665 0.026 −25.605 0.000
q05 −0.551 0.024 −22.800 0.000
Variances:
Estimate Std.Err z-value P (> |z|)
f 1.000
.q03 0.815 0.031 26.484 0.000
.q04 0.458 0.030 15.359 0.000
.q05 0.626 0.025 24.599 0.000
Ngoài ra, chúng ta có thể sử dụng std.lv=TRUE và thu được kết quả tương tự
Các tham số cố định trong sơ đồ đường dẫn dưới đây được biểu thị bằng màu đỏ, cụ thể
ψ11 là phương sai của nhân tố và hệ số của phần dư ϵ1 , ϵ2 , ϵ3 .
Để giải thích tốt hơn các trọng số nhân tố, đôi khi chúng ta sẽ yêu cầu các giải pháp
chuẩn hóa. Quay trở lại phương pháp đánh dấu ban đầug onefac3items_a, chúng ta
yêu cầu tóm tắt nhưng cũng chỉ định lệnh standardized=TRUE.
15
summary(onefac3items_a,standardized=TRUE)
Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f=∼
q03 0.583 0.026 22.067 0.000 0.583 0.543
q04 -0.665 0.026 -25.605 0.000 -0.665 -0.701
q05 -0.551 0.024 -22.800 0.000 -0.551 -0.572
Variances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
. q 03 0.815 0.031 26.484 0.000 0.815 0.705
. q04 0.458 0.030 15.359 0.000 0.458 0.509
. q05 0.626 0.025 24.599 0.000 0.626 0.673
f 1.000 1.000 1.000
Lưu ý rằng có hai cột bổ sung, Std.lv và Std.all. So sánh hai nghiệm, trọng số và
phương sai của các nhân tố là khác nhau nhưng phương sai phần dư thì như nhau. Đối
với người dùng Mplus, Std.lv tương ứng với STD và Std.all tương ứng với STDYX.
Phương pháp Std.all chuẩn hóa các trọng số nhân tố bằng độ lệch chuẩn của cả nhân
tố dự đoán (nhân tố, X) và kết quả (item, Y). Trong phương pháp chuẩn hóa phương sai
Std.lv, chúng ta chỉ chuẩn hóa theo nhân tố dự đoán (nhân tố, X). Nhớ lại rằng chúng
ta đã biết cách lấy Std.lv các ước lượng tham số theo cách thủ công vì điều này tương
ứng với phương pháp chuẩn hóa phương sai Std.all không chỉ chuẩn hóa bằng phương
sai của biến ẩn (X) mà còn bằng phương sai của kết quả (Y). Ngoài ra, chúng ta có thể
yêu cầu đầu ra của giải pháp chuẩn hóa bằng cách sau, lưu ý rằng đầu ra chỉ xuất Std.all
standardizedsolution(onefac3items_a)
2.5 (Tùy chọn) Cách lấy giải pháp chuẩn hóa theo
cách thủ công
Để chuyển đổi từ Std.lv (chuẩn hóa X hoặc biến ẩn) sang Std.all chúng ta cần chia cho
độ lệch chuẩn của từng item tương ứng. Nhớ lại từ ma trận hiệp phương sai rằng các
đường chéo là phương sai của mỗi biến. Tương tự, chúng ta có thể thu được phương sai
từ các đường chéo của ma trận phương sai-hiệp phương sai. Đặc điểm kỹ thuật cov.ov
là viết tắt của "hiệp phương sai quan sát".
16
hoàn hảo (không có bậc tự do) có nghĩa là chúng ta đã tái tạo hoàn hảo ma trận hiệp
phương sai quan sát được (mặc dù điều này không nhất thiết chỉ ra sự phù√hợp hoàn hảo).
Lấy phương sai của item 3, 1.155, thu được độ lệch chuẩn bằng cách 1.155 = 1, 075
chúng ta có thể chia Std.lv trọng số của item 3, 0,583 cho 1,075 bằng 0,542 phù hợp với
kết quả Std.all đã làm tròn.
2.6 (Tùy chọn) Bậc tự do với các giá trị trung bình
Theo truyền thống, CFA chỉ quan tâm đến ma trận hiệp phương sai và chỉ thống kê tóm
tắt ở dạng ma trận hiệp phương sai được cung cấp dưới dạng dữ liệu thô do hạn chế
của bộ nhớ máy tính. Tuy nhiên, trong CFA hiện đại và mô hình phương trình cấu trúc
tuyến tính (SEM), dữ liệu đầy đủ thường có sẵn và dễ dàng lưu trữ trong bộ nhớ, và như
một sản phẩm phụ, các hệ số chặn hoặc giá trị trung bình có thể được ước lượng theo cái
được gọi là Hợp lý cực đại thông tin đầy đủ. Với dữ liệu đầy đủ, tổng số tham số được
tính toán tương ứng:
Lý do chúng ta nói rằng tổng các tham số chỉ đến từ hiệp phương sai ngụ ý của mô hình
là bởi vì các hệ số chặn (tức là,τ ’s) được ước lượng theo mặc định. Với dữ liệu đầy đủ
có sẵn, tổng số giá trị đã biết trở thành p(p+1)/2+p với p là số lượng item. Ví dụ: nếu
chúng ta có ba items, tổng số giá trị đã biết là 3(3 + 1)/2 + 3 = 6 + 3 = 9. Mã lavaan
dưới đây minh họa điều gì sẽ xảy ra khi chúng ta cố ý ước lượng các hệ số chặn. Hãy nhớ
lại rằng câu lệnh q03 ∼ 1 có nghĩa là ước lượng hệ số chặn cho item 3.
Estimator ML
Optimization method NLMINB
Number of free parameters 9
17
Intercepts:
Estimate Std.Err z-value P(>|z|)
.q03 2.585 0.021 121.968 0.000
.q04 2.786 0.019 148.960 0.000
.q05 2.722 0.019 143.114 0.000
f 0.000
Câu hỏi
Lưu ý rằng số lượng tham số tự do bây giờ là 9 thay vì 6, tuy nhiên, bậc tự do của chúng
ta vẫn bằng không. Đếm tổng các tham số và giải thích tại sao sử dụng công thức bậc
tự do.
Trả lời: Với dữ liệu đầy đủ có sẵn, tổng số giá trị đã biết là 3(4)/3+3=9. Tổng số tham
số trong mô hình bao gồm 3 hệ số chặn (tức là τ từ mô hình đo lường, 3 trọng số (tức
là, λ ’s), 1 nhân tố phương sai (tức là, ψ) và 3 phương sai phần dư (tức là, θ ’S).
total no. of parameters = 3 intercepts from the measurement model + 7 unique parame-
ters in the model-implied covariance = 10
Sử dụng phương pháp chuẩn hóa phương sai, chúng ta cố định phương sai của nhân tố
thành một (nghĩa là ψ11 = 1).
no. free parameters = 10 unique parameters– 1 fixed parameter = 9.
Khi đó bậc tự do được tính là
df = 9 known values – 9 free parameters = 0.
Do đó, bậc tự do của chúng ta bằng 0 và chúng ta có một mô hình bão hòa hoặc vừa
được xác định! Kết luận là thêm vào các hệ số chặn không thực sự thay đổi bậc tự do
của mô hình.
Nếu chúng ta chỉ chạy chế độ CFA như hiện tại, chúng ta sẽ gặp lỗi sau:
18
onefac2items <- cfa(m2a, data=dat)
summary(onefac2items)
<...kết quả được lược bỏ bớt...>
lavaan WARNING:
Could not compute standard errors! The information matrix could not be
inverted. This may be a symptom that the model is not identified.
Câu hỏi là bằng cách nào đó để phù hợp với một mô hình chỉ sử dụng ba tham số tự
do. Một giải pháp là sử dụng phương pháp chuẩn hóa phương sai, sửa phương sai của
nhân tố thành một và cân bằng trọng số thứ hai bằng trọng số đầu tiên, cho hai phương
sai phần dư và một trọng số để ước lượng. Chúng ta có thể nghĩ ra những cách khác không?
Estimator ML
Optimization method NLMINB
Number of free parameters 4
Number of equality constraints 1
Row rank of the constraints matrix 1
Number of observations 2571
Parameter Estimates:
Information Expected
Information saturated (h1) model Structured
Standard errors Standard
19
Latent Variables:
Estimate Std.Err z-value P (> |z|)
f =∼ (a) 0.605 0.016 37.717 0.000
q04 (a) 0.605 0.016 37.717 0.000
Variances:
Estimate Std.Err z-value P (> |z|)
.q04 0.533 0.022 23.974 0.000
.q05 0.564 0.023 24.713 0.000
f1 1.000
Chúng ta có thể thấy từ đầu ra rằng mặc
dù tổng số tham số tự do là bốn (hai
phương sai phần dư, hai trọng số), bậc tự
do bằng 0 vì có một ràng buộc bình đẳng
(λ2 = λ1 ). Lưu ý (a) phía trước q04 ước
lượng có nghĩa là chúng ta đã đính kèm
một nhãn tham số và phần bổ sung (b) ở
phía trước q05 nghĩa là chúng ta đã đánh
đồng hai trọng số, cụ thể là 0,605. Hạn chế
của việc làm này là không có cách nào để đánh giá sự phù hợp của mô hình này. Ví dụ:
giả sử chúng ta có mô hình giả thuyết trong đó giá trị thực λ1 = 0.8 và sự thật λ2 = 0.2 .
Nếu sửa λ2 = λ1 , chúng ta có thể có được một giải pháp, mà không biết rằng mô hình là
một biểu diễn sai sự thật hoàn toàn vì không thể đánh giá sự phù hợp của mô hình. Tốt
hơn hết là một CFA có nhiều hơn ba items và đánh giá mức độ phù hợp của mô hình trừ
khi các giới hạn về chi phí hoặc lý thuyết hạn chế ngăn cản chúng ta làm theo cách khác.
Để xác định điều này trong lavaan, chúng ta chỉ định lại mô hình ngoại trừ việc thêm
các items từ 1 đến 8 và lưu trữ đối tượng vào m3a cho Mô hình 3A sau đó truyền đối
tượng này vào hàm cfa và lưu trữ đối tượng lavaan-method vào onefac8items nhưng
chỉ định std.lv=TRUE để tự động sử dụng tiêu chuẩn hóa phương sai. Cuối cùng,
chuyển đối tượng này vào summary nhưng chỉ định fit.measures=TRUE để có được
các thước đo phù hợp bổ sung và standardized=TRUE để có được cả hai giải pháp
Std.lv và Std.all .
20
Model Test User Model :
Test statistic 554.191
Degrees of freedom 20
P-value (Chi-square) 0.000
<...kết quả được lược bỏ bớt...>
Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f=∼
q01 0.485 0.017 28.942 0.000 0.485 0.586
q02 -0.198 0.019 -10.633 0.000 -0.198 -0.233
q03 -0.612 0.022 -27.989 0.000 -0.612 -0.570
q04 0.632 0.019 33.810 0.000 0.632 0.667
q05 0.554 0.020 28.259 0.000 0.554 0.574
q06 0.554 0.023 23.742 0.000 0.554 0.494
q07 0.716 0.022 32.761 0.000 0.716 0.650
q08 0.424 0.018 23.292 0.000 0.424 0.486
Nhìn vào trọng số Std.all, chúng ta thấy rằng item 2 trọng số yếu nhất tới nhân tố
SPSS Anxiety là -0,23 và item 4 trọng số cao nhất 0,67. item 2 và 3 cũng có trọng số
theo chiều âm so với các items còn lại. chúng ta có thể thấy rõ điều này trong bảng tương
quan bên dưới, các giá trị được in đậm cho biết độ tương quan hai biến của item 2 và 3
với tất cả các items khác và tất cả các mối tương quan đều âm.
21
round(cor(dat[,1:8]),2)
22
Chương 3
Đối với các mô hình CFA có nhiều hơn ba items, có một cách để đánh giá mức độ phù
hợp của mô hình với dữ liệu, cụ thể là mức độ gần của ma trận hiệp phương sai ngụ ý
của mô hình Σ(θ) khớp với ma trận hiệp phương sai quan sát được Σ.
Giả thuyết không và giả thuyết thay thế trong mô hình CFA là
H0 : Σ(theta) = Σ
H1 : Σ(theta) ̸= Σ
Thông thường, việc bác bỏ giả thuyết không là một điều tốt, nhưng nếu chúng ta bác
bỏ giả thuyết không CFA thì chúng ta sẽ bác bỏ mô hình người dùng (điều này là không
tốt). Không từ chối mô hình là tốt bởi vì chúng ta đã không bác bỏ rằng mô hình của
chúng ta là xấu. Lưu ý rằng dựa trên logic của việc kiểm định giả thuyết, việc không
bác bỏ giả thuyết không không chứng minh rằng mô hình của chúng ta là mô hình đúng,
cũng như không thể nói đó là mô hình tốt nhất, vì có thể có nhiều mô hình cạnh tranh
khác cũng có thể không bác bỏ giả thuyết không. Tuy nhiên, chắc chắn có thể nói rằng
đó không phải là một mô hình tồi và là mô hình tốt nhất mà chúng ta có thể tìm thấy
vào lúc này. Hãy nghĩ đến một bồi thẩm đoàn nơi họ không chứng minh được tội phạm
có tội, nhưng điều đó không nhất thiết có nghĩa là anh ta vô tội. chúng ta có thể nghĩ về
một người nổi tiếng từ những năm 90 phù hợp với tiêu chí này không?
Vì không có hiệp phương sai tổng thể để đánh giá, được ước lượng bằng hiệp phương sai
ngụ ý của mô hình mẫu Σ(θ) và hiệp phương sai mẫu S. Sau đó, sự khác biệt S − Σ(θ)
là một đại diện cho sự phù hợp của mô hình và được định nghĩa là hiệp phương sai
phần dư với các giá trị gần bằng 0 cho thấy rằng có một sự phù hợp tương đối tốt.
Câu hỏi
Đúng/Sai
Hiệp phương sai phần dư được định nghĩa là Σ − Σ(θ) và sự khác biệt này càng gần bằng
0 thì càng phù hợp.
Trả lời : Sai, hiệp phương sai phần dư sử dụng ước lượng mẫu S − Σ(θ). Lưu ý rằng
Σ − Σ(θ) = 0 luôn đúng theo giả thuyết không.
23
Theo mặc định, lavaan xuất ra mô hình chi-bình phương aka Model Test User Model.
Để yêu cầu thống kê phù hợp bổ sung, thêm fit.measures=TRUE tùy chọn vào sum-
mary, chuyển vào lavaan đối tượng onefac3items_a.
#fit statistics
summary(onefac8items_a, fit.measures=TRUE, standardized=TRUE)
Estimator ML
Optimization method NLMINB
Number of free parameters 16
Number of observations 2571
Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured
24
Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f=∼
q01 0.485 0.017 28.942 0.000 0.485 0.586
q02 -0.198 0.019 -10.633 0.000 -0.198 -0.233
q03 -0.612 0.022 -27.989 0.000 -0.612 -0.570
q04 0.632 0.019 33.810 0.000 0.632 0.667
q05 0.554 0.020 28.259 0.000 0.554 0.574
q06 0.554 0.023 23.742 0.000 0.554 0.494
q07 0.716 0.022 32.761 0.000 0.716 0.650
q08 0.424 0.018 23.292 0.000 0.424 0.486
Variances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
q01 0.450 0.015 30.734 0.000 0.450 0.656
q02 0.685 0.019 35.300 0.000 0.685 0.946
q03 0.780 0.025 31.157 0.000 0.780 0.675
q04 0.499 0.018 27.989 0.000 0.499 0.555
q05 0.623 0.020 31.040 0.000 0.623 0.670
q06 0.951 0.029 32.711 0.000 0.951 0.756
q07 0.702 0.024 28.678 0.000 0.702 0.578
q08 0.581 0.018 32.849 0.000 0.581 0.764
f 1.000 1.000 1.000
Khi các thước đo phù hợp được yêu cầu,
lavaan xuất ra rất nhiều số liệu thống kê,
nhưng chúng ta sẽ tập trung vào bốn số
liệu thường được sử dụng:
1. Mô hình chi-bình phương là thống
kê chi bình phương mà chúng ta thu được
từ thống kê hợp lý cực đại (trong lavaan,
đây được gọi là thống kê kiểm định cho mô
hình người dùng)
2. CFI là Chỉ số phù hợp tương đối - các
giá trị có thể nằm trong khoảng từ 0 đến
1 (giá trị lớn hơn 0,90, khoảng 0,95 cho biết mức độ phù hợp tốt)
3. TLI Chỉ số Tucker Lewis cũng nằm trong khoảng từ 0 đến 1 (nếu nó lớn hơn 1 thì nó
phải được làm tròn thành 1) với các giá trị lớn hơn 0,90 cho thấy sự phù hợp tốt. Nếu
CFI và TLI nhỏ hơn một, thì CFI luôn lớn hơn TLI.
4. RMSEA là sai số trung bình bậc hai của phép tính gần đúng
Trong lavaan, chúng ta cũng nhận được giá trị p, rằng RMSEA <0,05. Nếu chúng ta từ
chối mô hình, điều đó có nghĩa là mô hình không phải là một mô hình phù hợp.
25
Mô hình chi-bình phương là một phép thử có ý nghĩa chỉ khi chúng ta có một mô hình
được xác định quá mức (nghĩa là vẫn còn dư bậc tự do sau khi tính toán tất cả các
tham số tự do trong mô hình). CFA ba items là bão hòa (nghĩa là df = 0) vì chúng ta
có giá trị đã biết và 6 tham số tự do. Đối với mô hình tám items, chúng ta có 20 bậc tự do.
Câu hỏi
Giải thích cách đạt được 20 bậc tự do từ một nhân tố CFA 8 items bằng cách tính toán
số lượng các tham số tự do trước tiên và so sánh với số lượng các giá trị đã biết.
Trả lời
Đầu tiên, hãy tính tổng số tham số, là 8 trọng số λ1 , ..., λ8 , 8 phương sai phần dư θ1 , ..., θ8
và 1 phương sai của nhân tố ψ11 . Bằng phương pháp chuẩn hóa phương sai, chúng ta đã
cố định 1 tham số, đó là ψ11 = 1. Số lượng tham số tự do sau đó là:
no. free parameters = 17 total parameters –1 fixed parameters = 16.
Cuối cùng, có 8(9)/2=36 các giá trị đã biết từ ma trận hiệp phương sai nên bậc tự do là
df = 36 known values –16 free parameters = 20.
So sánh Mô hình người dùng kiểm định cho mô hình tám items (được xác định quá mức)
với mô hình ba items (bão hòa), chúng ta thấy rằng bậc tự do của thống kê kiểm định
bằng 0 đối với mô hình một nhân tố CFA ba items chỉ ra mô hình bão hòa, trong khi
mô hình tám items có bậc tự do dương cho thấy một mô hình được xác định quá mức.
Thống kê kiểm định tương đối lớn (554.191) và có thêm một hàng với giá trị p (chi-bình
phương) cho thấy rằng chúng ta bác bỏ giả thuyết không.
Giá trị chi-bình phương càng lớn thì sự khác biệt giữa ma trận hiệp phương sai của mẫu
Σ(θ) và ma trận hiệp phương sai quan sát được S của mẫu càng lớn và chúng ta càng
có nhiều khả năng mô hình bị từ chối. Chúng ta có thể tạo lại giá trị p về cơ bản là
0, sử dụng hàm mật độ của chi-bình phương với 20 bậc tự do x220 . Lưu ý rằng ký hiệu
khoa học của 1.25x10−104 có nghĩa 1.25/10102 là một con số thực sự nhỏ. p<0.05 , chỉ sử
dụng tiêu chí chi-bình phương của mô hình, chúng ta bác bỏ giả thuyết không rằng mô
hình phù hợp với dữ liệu. Tài liệu của CFA và SEM đã được ghi lại rõ ràng rằng chi-bình
phương thường quá nhạy cảm trong kiểm định mô hình, đặc biệt là đối với các mẫu lớn.
David Kenny (http://www.davidakenny.net/cm/fit.htm) nói rằng đối với các mô hình có
75 đến 200 trường hợp, chi-bình phương là một thước đo phù hợp, nhưng đối với 400
trường hợp trở lên thì gần như luôn luôn có ý nghĩa.
Câu hỏi
Đúng / Sai
Thống kê kiểm định chi-bình phương của mô hình càng lớn thì hiệp phương sai phần dư
càng lớn.
Trả lời Đúng. Vì mô hình chi-bình phương tỷ lệ với sự sai lệch của S và Σ(θ) , chi-bình
phương càng cao thì giá trị dương của S − Σ(θ) càng lớn, được định nghĩa là hiệp phương
sai phần dư.
Mẫu của chúng ta n=2,571 được coi là tương đối lớn, do đó kết luận của chúng ta có thể
được bổ sung với các biến chỉ báo phù hợp khác.
26
#model chi-square
pchisq(q=554.191,df=20,lower.tail=FALSE)
[1] 1.250667e-104
#baseline model
b1 <- ’q01 ∼∼ q01
q02 ∼∼ q02
q03 ∼∼ q03
q04 ∼∼ q04
q05 ∼∼ q05
q06 ∼∼ q06
q07 ∼∼ q07
q08 ∼∼ q08’
basemodel <- cfa(b1, data=dat)
summary(basemodel)
27
Number of free parameters 16
Variances:
Estimate Std.Err z-value P(>|z|)
q01 0.685 0.019 35.854 0.000
q02 0.724 0.020 35.854 0.000
q03 1.155 0.032 35.854 0.000
q04 0.899 0.025 35.854 0.000
q05 0.930 0.026 35.854 0.000
q06 1.258 0.035 35.854 0.000
q07 1.215 0.034 35.854 0.000
q08 0.761 0.021 35.854 0.000
3.4 Chỉ số phù hợp gia tăng so với phù hợp tuyệt đối
Đối với các mô hình được xác định quá mức, có nhiều loại chỉ số phù hợp có sẵn cho nhà
nghiên cứu. Trong lịch sử, mô hình chi-bình phương là thước đo duy nhất của sự phù
hợp nhưng trong thực tế, giả thuyết không thường bị bác bỏ do độ nhạy cao của chi-bình
phương dưới các mẫu lớn. Để giải quyết vấn đề này, các chỉ số phù hợp gần đúng không
dựa trên việc chấp nhận hoặc bác bỏ giả thuyết không đã được phát triển.
28
3.5 CFI (Chỉ số phù hợp tương đối)
Chỉ số CFI hoặc chỉ số phù hợp tương đối là một chỉ số phù hợp phổ biến như một phần
bổ sung cho mô hình chi-bình phương. Để cho δ = χ2 -df với df là bậc tự do cho mô hình
cụ thể đó. Σ càng gần 0 , mô hình càng phù hợp với dữ liệu. Công thức cho CFI là:
δ( Baseline ) − δ( User )
CF I =
δ (Baseline)
Để tính toán CFI theo cách thủ công, hãy nhớ lại đầu ra đã chọn từ mô hình một nhân
tố tám items:
29
Nếu δ(U ser) = 0, thì điều đó có nghĩa là mô hình người dùng không bị chỉ định sai, vì
vậy tử số trở thành δ( Baseline) và tỉ lệ là 1. CFI càng gần 1 thì mô hình càng phù hợp;
với giá trị tối đa là 1. Một số tiêu chí cho rằng 0,90 đến 0,95 là mức độ phù hợp tốt [cần
dẫn nguồn].
Câu hỏi
Giả sử chúng ta chạy một CFA với 20 bậc tự do. Phạm vi giá trị chi bình phương có thể
chấp nhận được dựa trên các tiêu chí mà chi bình phương tương đối lớn hơn 2 cho thấy
mức độ kém phù hợp là bao nhiêu?
Trả lời
Phạm vi giá trị chi-bình phương được chấp nhận nằm trong khoảng từ 20 (cho biết mức
độ phù hợp hoàn hảo) đến 40, vì 40/20 = 2. TLI được định nghĩa là
30
4164.572/28 − 554.191/20
T LI = = 0.819
4164.572/28 − 1
Chúng ta có thể khẳng định câu trả lời của mình cho cả TLI và CFI trong lavaan.
3.7 RMSEA
Sai số xấp xỉ bình phương trung bình gốc là một thước đo tuyệt đối của sự phù
hợp vì nó không so sánh sự khác biệt cùa mô hình người dùng so với mô hình nền
như CFI hoặc TLI. Thay vào đó, RMSEA định nghĩa δ là tham số phi trung tâm
(https://www.jamesuanhoro.com/post/2017/11/16/a-chi-bình phương-test-of-close-fit-in-
covariance-based-sem/) đo lường mức độ sai xác định. Nhớ lại từ CFI rằng δ = χ2 − df
với d f là bậc tự do cho mô hình cụ thể. δ càng lớn mô hình càng sai.
s
δ
RM SEA =
df (n − 1)
với n là tổng số quan sát. Các tiêu chí giới hạn như được định nghĩa trong Kline (2016,
p.274-275)
• giữa 0,05 và 0,08 (phù hợp, không tốt nhưng cũng không xấu)
Trong trường hợp phân tích nhân tố SAQ-8, n=2.571, df(User)=20 và σ(U ser) = 534, 191
mà chúng taqđã biết từ việc tính toán CFI. Đây σ là tương đối lớn so với bậc tự do.
534,191 √
RM SEA = 20(2570) = 0, 0104 = 0, 102
RMSEA = 0,10 cho thấy mức độ phù hợp kém, bằng chứng là độ lớn σ(U ser) là tương
đối so với bậc tự do.
31
Root Mean Square Error of Approximation :
RMSEA 0.102
90 Percent confidence interval - lower 0.095
90 Percent confidence interval - upper 0.109
P-value RMSEA <= 0.05 0.000
Cho rằng giá trị p của mô hình chi-bình phương nhỏ hơn 0,05, CFI = 0,871 và RMSEA
= 0,102, và xem xét các trọng số được chuẩn hóa, chúng ta báo cáo cho điều tra viên
chính rằng SAQ-8 không có tính chất đo lường tâm lý tốt. Có lẽ SPSS Anxiety là một
thước đo phức tạp hơn mà chúng ta giả định đầu tiên.
32
Chương 4
Mặc dù kết quả từ CFA một nhân tố cho thấy rằng giải pháp một nhân tố có thể nắm
bắt được phần lớn phương sai trong các items này, nhưng mô hình phù hợp cho thấy rằng
mô hình có thể được cải thiện. Từ phân tích nhân tố khám phá, chúng ta nhận thấy rằng
item 6 và item 7 “gắn kết” với nhau. Chúng ta hãy xem xét các items 6 và 7 kỹ hơn.
Ngoài ra, từ CFA trước đó, chúng ta nhận thấy rằng item 2 trọng số kém với các items
khác, với trọng số tiêu chuẩn chỉ là -0,23. Từ việc trao đổi với Điều tra viên chính, chúng
ta quyết định chỉ sử dụng item 1, 3, 4, 5 và 8 làm biến chỉ báo SPSS Anxiety và item 6
và 7 làm biến chỉ báo về Độ lệch phân bổ.
33
#alternative syntax - uncorrelated two factor solution, var std method
twofac7items_a <- cfa(m4a, data=dat,std.lv=TRUE, auto.cov.lv.x=FALSE)
summary(twofac7items_a, fit.measures=TRUE,standardized=TRUE)
Vì chúng ta có 7 items, tổng các phần tử trong ma trận hiệp phương sai của chúng ta là
7(8)/2=28. Số lượng các tham số tự do được ước lượng bao gồm 7 phương sai phần dư
θ1 , ..., θ7 , 7 trọng số λ1 , ..., λ7 với tổng số là 14. Do đó, chúng ta có 28-14=14 bậc tự do.
Tuy nhiên, để xác định mô hình hai nhân tố, chúng ta đã hạn chế trọng số của item 6
và item 7 bằng nhau, điều này giải phóng một tham số và do đó chúng ta kết thúc với
14+1=15 bậc tự do.
Estimator ML
Optimization method NLMINB
Number of free parameters 14
Number of equality constraints 1
Number of observations 2571
34
Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured
Latent Variables:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f1=∼
q01 0.539 0.017 31.135 0.000 0.539 0.651
q03 -0.573 0.023 -24.902 0.000 -0.573 -0.533
q04 0.652 0.020 33.032 0.000 0.652 0.687
q05 0.567 0.020 27.812 0.000 0.567 0.588
q08 0.431 0.019 22.862 0.000 0.431 0.494
f2=∼
q06 (a) 0.797 0.017 46.329 0.000 0.797 0.710
q07 (a) 0.797 0.017 46.329 0.000 0.797 0.723
Covariances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f1=∼
f2= 0.000 0.000 0.000
Variances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
.q01 0.395 0.015 26.280 0.000 0.395 0.576
.q03 0.827 0.027 30.787 0.000 0.827 0.716
.q04 0.474 0.020 24.230 0.000 0.474 0.527
.q05 0.608 0.021 29.043 0.000 0.608 0.654
.q08 0.575 0.018 31.760 0.000 0.575 0.756
.q06 0.623 0.027 22.916 0.000 0.623 0.495
.q07 0.580 0.026 21.925 0.000 0.580 0.477
Dưới đây là đồ họa mô hình
35
Vì chúng ta đã chọn Tùy chọn 1, chúng ta đặt các trọng số bằng nhau:
f2=∼
q06 (a) 0.797 0.017 46.329 0.000 0.797 0.710
q07 (a) 0.797 0.017 46.329 0.000 0.797 0.723
Chúng ta biết các nhân tố không có mối liên hệ với nhau bởi vì ước lượng của f1 ∼∼ f2
bằng 0 dưới giá trị hiệp phương sai mà chúng ta mong đợi.
Covariances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f1=∼
f2= 0.000 0.000 0.000
Mô hình Model Fit
Chúng ta có thể thấy rằng giải pháp CFA hai nhân tố không tương quan mang lại cho
chúng ta chi-bình phương cao hơn (thấp hơn là tốt hơn), RMSEA cao hơn và CFI / TLI
thấp hơn, có nghĩa là về tổng thể nó là một mô hình kém phù hợp. chúng ta nói chuyện
với điều tra viên chính và quyết định sử dụng mô hình hai nhân tố tương quan (xiên).
36
summary(twofac7items_b,fit.measures=TRUE,standardized=TRUE)
Mặc dù lavaan mặc định là phương pháp đánh dấu, bằng cách chỉ định, standard-
ized=TRUE, thực hiện phương pháp chuẩn hóa phương sai.
lavaan 0.6-12 ended normally after 18 iterations
Estimator ML
Optimization method NLMINB
Number of free parameters 15
Number of observations 2571
Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured
37
Latent Variables:
Covariances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
f1∼∼
f2= 0.676 0.020 33.023 0.000 0.676 0.676
Variances:
Estimate Std.Err z-value P(>|z|) Std.lv Std.all
.q01 0.423 0.014 29.157 0.000 0.423 0.617
.q03 0.796 0.026 31.025 0.000 0.796 0.689
.q04 0.466 0.018 25.824 0.000 0.466 0.518
.q05 0.608 0.020 30.173 0.000 0.608 0.654
.q08 0.572 0.018 32.332 0.000 0.572 0.752
.q06 0.811 0.030 27.187 0.000 0.811 0.644
.q07 0.314 0.040 7.815 0.000 0.314 0.258
f1 1.000 1.000 1.000
f2 1.000 1.000 1.000
Lưu ý rằng so với giải pháp hai nhân tố không tương quan, chi-bình phương và RMSEA
đều thấp hơn. Kiểm định RMSEA không có ý nghĩa có nghĩa là chúng ta không bác bỏ
giả thuyết không rằng RMSEA nhỏ hơn hoặc bằng 0,05. Ngoài ra, CFI và TLI đều cao
hơn và vượt qua ngưỡng 0,95. Điều này thậm chí còn phù hợp hơn so với giải pháp một
nhân tố. Sau khi trao đổi với Điều tra viên chính, chúng ta chọn mô hình CFA hai nhân
tố tương quan cuối cùng như hình dưới đây.
38
Vì chúng ta có 7 items, tổng các phần tử trong ma trận hiệp phương sai của chúng ta là
7(8)/2=28. Số lượng các tham số tự do được ước lượng bao gồm 7 phương sai phần dư
θ1 , ..., θ7 , 7 trọng số λ1 , ..λ7 một hiệp phương sai với tổng số là 15. Sau đó 28-15=13 bậc
tự do.
Để tính toán tổng số tham số tự do, một lần nữa có bảy items nên có 7(8)/2=28 các
phần tử trong ma trận hiệp phương sai. Việc xác định nhân tố bậc hai cũng giống như
quá trình xác định một nhân tố duy nhất, ngoại trừ việc chúng ta coi nhân tố bậc nhất
là các biến chỉ báo hơn là kết quả quan sát được. Sự khác biệt chính duy nhất là thay
vì một phương sai phần dư được quan sát , phương sai phần dư của một nhân tố được
phân loại theo ma trận ψ. Nếu không đi sâu vào chi tiết kỹ thuật (xem phần tùy chọn),
chúng ta có thể coi phương sai phần dư của nhân tố như một tham số phương sai khác.
Có bảy phương sai phần dư θ1 , ..., θ7 , bảy trọng số . Ngoài ra, vì chúng ta có hai nhân tố
nội sinh có phương sai phần dư riêng của chúng ψ11 , ψ22 .
39
m5a <- ’ f1 =∼ q01+ q03 + q04 + q05 + q08
f2 =∼ q06 + q07
f3 =∼ 1*f1 + 1*f2
f3 ∼∼ f3’
secondorder <- cfa(m5a, data=dat)
summary(secondorder,fit.measures=TRUE,standardized=TRUE)
Estimator ML
Optimization method NLMINB
Number of free parameters 15
Number of observations 2571
Parameter Estimates:
Standard errors Standard
Information Expected
Information saturated (h1) model Structured
40
Latent Variables:
Variances:
41
Lưu ý rằng không có cách hoàn hảo nào để chỉ định hệ số bậc hai khi chúng ta chỉ có hai
hệ số bậc nhất. chúng ta phải giả sử phương pháp chuẩn hóa phương sai giả định rằng
phương sai phần dư của hai nhân tố bậc nhất là một, điều đó có nghĩa là chúng ta giả
định phương sai phần dư đồng nhất. Phương pháp đánh dấu giả định rằng cả hai trọng
số từ nhân tố bậc hai đến từ nhân tố bậc nhất là 1. Tuy nhiên, để đảm bảo chúng ta phù
hợp với một phương pháp tương đương, bậc tự do cho mô hình Người dùng phải giống
nhau. LƯU Ý: thay đổi phương pháp tiêu chuẩn hóa không nên thay đổi bậc tự do và giá
trị chi-bình phương. Nếu chúng ta chuẩn hóa theo một cách và nhận được một bậc tự do
khác, thì chúng ta đã xác định không chính xác. Mặc dù chi-bình phương là như nhau,
tuy nhiên, chúng ta sẽ nhận được các phương sai và trọng số tiêu chuẩn hóa khác nhau
tùy thuộc vào các giả định chúng ta đưa ra (để đặt trọng số thành 1 cho hai nhân tố bậc
nhất và tự do ước lượng phương sai hoặc tự do ước lượng nhưng cân bằng các trọng số
và đặt phương sai phần dư của các nhân tố bậc nhất thành 1).
Cảnh báo là một dấu hiệu cho thấy mô hình không được xác định chứ không phải là một
vấn đề với dữ liệu.
Warning message:
In lav_model_vcov(lavmodel = lavmodel, lavsamplestats = lavsamplestats,:
lavaan WARNING:
The variance-covariance matrix of the estimated parameters (vcov) does not
appear to be positive definite! The smallest eigenvalue (=2.211069e-19) is
close to zero. This may be a symptom that the model is not identified.
Lưu ý phương pháp đánh dấu sau đây là sự xác định chính xác. Câu lệnh NA*f1 có
nghĩa là tự do trọng số đầu tiên vì theo mặc định, phương pháp đánh dấu sẽ sửa trọng
số thành 1 và equal(" f 3 =∼ f 1′′ ) *2 sửa trọng số nhân tố thứ hai trên nhân tố thứ ba
giống với nhân tố đầu tiên.
42
Model Test User Model :
Test statistic 66.768
Degrees of freedom 13
P-value (Chi-square) 0.000
lhs op rhs
1 6 == 7
2 8 == 9
$lambda
f1 f2 f3
q01 1 0 0
q03 2 0 0
q04 3 0 0
q05 4 0 0
q08 5 0 0
q06 0 6 0
q07 0 7 0
$theta
q01 q03 q04 q05 q08 q06 q07
q01 13
q03 0 14
q04 0 0 15
q05 0 0 0 16
q08 0 0 0 0 17
q06 0 0 0 0 0 18
q07 0 0 0 0 0 0 19
43
$psi
f1 f2 f3
f1 10
f2 0 11
f3 0 0 12
$beta
f1 f2 f3
f1 0 0 8
f2 0 0 9
f3 0 0 0
44
Chương 5
Kết luận
CFA tự phân biệt với EFA như một phương pháp để đánh giá độ tin cậy của một giả
thuyết đã xác định trước đó, cụ thể là ma trận hiệp phương sai ngụ ý của mô hình Σ(Θ)
như được xác định bởi mô hình đo lường, có thể tái tạo ma trận hiệp phương sai quan
sát được Σ. Giả sử chúng ta thấy rằng SPSS Anxiety có thể được thể hiện đầy đủ bằng
tám items đầu tiên, không thể bác bỏ giả thuyết không và do đó chi-bình phương của
chúng ta là có ý nghĩa. Tuy nhiên, nếu chi-bình phương là đáng kể, có thể sự loại bỏ là
do độ nhạy của chi-bình phương đối với các mẫu lớn hơn là sự loại bỏ thực sự cùa mô
hình. Do đó, các nhà nghiên cứu thường sừ dụng các tiêu chí chỉ số phù hợp như CFI>
0,95, TLI> 0,90 và RMSEA <0,10 để hỗ trợ giả thuyết của họ. Do mục tiêu là tái tạo
ma trận hiệp phương sai quan sát được, các tham số tự do hoàn toàn được xác định bởi
các kích thước của Σ. Do đó, sự xác định là một phương pháp chính để đảm bảo rằng số
lượng tham số tự do nhỏ hơn hoặc bằng tổng số tham số, bằng cách đưa vào các tham
số cố định. Các biến chỉ báo quan sát được dùng như là các thước đo của cấu trúc hoặc
nhân tố không được quan sát. Một mô hình vừa được xác định cho mô hình một nhân
tố có chính xác ba biến chỉ báo, nhưng một số nhà nghiên cứu chỉ yêu cầu hai biến chỉ
báo cho mỗi nhân tố do hạn chế về nguồn lực; tuy nhiên, có nhiều hơn ba items cho mỗi
hệ số là lý tưởng vì nó cho phép bậc tự do dẫn đến các số đo phù hợp. Cuối cùng, nếu
sự phù hợp chỉ ra sự phù hợp kém đối với mô hình một nhân tố, thì mô hình hai nhân
tố có thể phù hợp hơn, rằng các items đo lường không chỉ một cấu trúc và có thể có mối
tương quan cơ bản giữa hai cấu trúc hoặc nhân tố. Tuy nhiên, nếu lý thuyết cho rằng
mối tương quan giữa hai cấu trúc này là do nhân tố thứ ba gây ra, thì hai nhân tố bậc
nhất này có thể đóng vai trò là biến chỉ báo tiềm ẩn của nhân tố bậc hai cơ bản. Tuy
nhiên, nếu các mối tương quan giữa các nhân tố được biểu diễn dưới dạng các đường hồi
quy, thì chúng ta sẽ vượt ra ngoài phạm vi của phần này sang những gì được gọi là mô
hình hóa phương trình cấu trúc tuyến tính. Chúng tôi hy vọng bạn thấy phần giới thiệu
này hữu ích và chúng tôi chúc bạn may mắn với những nỗ lực nghiên cứu của mình.
45
Chương 6
Phụ lục
Đối với những độc giả thiên về toán học, phần phụ lục sẽ bổ sung thêm các chi tiết khác.
Sự kỳ vọng
Điều này đúng do các giả định mà chúng ta đã đưa ra ở trên và các tính chất của
46
hiệp phương saì, chẳng hạn như thực tế là phương sai của một hằng số bằng 0 và
Cov(AB) = A Cov(B)A′ . chúng ta đã xác định các ma trận mới trong đó Cov(η) = Ψ là
ma trận phương sai-hiệp phương sai của các nhân tố η và Var(ϵ) = Θϵ là phương sai của
các phần dư.
47
Chương 7
48
Tài liệu tham khảo
49