Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 57

1 Câu ĐƠN GIẢN VỀ CHỌN MẪU: CHO SỐ LIỆU TỔNG THỂ VÀ DÙNG CÔNG THỨC ĐỂ

TÍNH RA SỐ MẪU. TRÌNH BÀY PHƯƠNG CHỌN MẪU: RANDOM, NON-RANDOM,...


(TRATEGIC, TRATIFIED,
c1.phương pháp chọn mẫu, cỡ mẫu:
probability sampling method:
1. Simple random sampling
In a simple random sample, every member of the population has an equal chance of being
selected. Your sampling frame should include the whole population.

To conduct this type of sampling, you can use tools like random number generators or other
techniques that are based entirely on chance.

Example: Simple random sampling


You want to select a simple random sample of 1000 employees of a social media marketing
company. You assign a number to every employee in the company database from 1 to 1000,
and use a random number generator to select 100 numbers.
2. Systematic sampling
Systematic sampling is similar to simple random sampling, but it is usually slightly easier to
conduct. Every member of the population is listed with a number, but instead of randomly
generating numbers, individuals are chosen at regular intervals.

Example: Systematic sampling


All employees of the company are listed in alphabetical order. From the first 10 numbers,
you randomly select a starting point: number 6. From number 6 onwards, every 10th person
on the list is selected (6, 16, 26, 36, and so on), and you end up with a sample of 100
people.
If you use this technique, it is important to make sure that there is no hidden pattern in the
list that might skew the sample. For example, if the HR database groups employees by
team, and team members are listed in order of seniority, there is a risk that your interval
might skip over people in junior roles, resulting in a sample that is skewed towards senior
employees.

3. Stratified sampling
Stratified sampling involves dividing the population into subpopulations that may differ in
important ways. It allows you draw more precise conclusions by ensuring that every
subgroup is properly represented in the sample.

To use this sampling method, you divide the population into subgroups (called strata) based
on the relevant characteristic (e.g., gender identity, age range, income bracket, job role).

Based on the overall proportions of the population, you calculate how many people should
be sampled from each subgroup. Then you use random or systematic sampling to select a
sample from each subgroup.

Example: Stratified sampling


The company has 800 female employees and 200 male employees. You want to ensure that
the sample reflects the gender balance of the company, so you sort the population into two
strata based on gender. Then you use random sampling on each group, selecting 80 women
and 20 men, which gives you a representative sample of 100 people.
4. Cluster sampling
Cluster sampling also involves dividing the population into subgroups, but each subgroup
should have similar characteristics to the whole sample. Instead of sampling individuals from
each subgroup, you randomly select entire subgroups.

If it is practically possible, you might include every individual from each sampled cluster. If
the clusters themselves are large, you can also sample individuals from within each cluster
using one of the techniques above. This is called multistage sampling.

This method is good for dealing with large and dispersed populations, but there is more risk
of error in the sample, as there could be substantial differences between clusters. It’s difficult
to guarantee that the sampled clusters are really representative of the whole population.

Example: Cluster sampling


The company has offices in 10 cities across the country (all with roughly the same number of
employees in similar roles). You don’t have the capacity to travel to every office to collect
your data, so you use random sampling to select 3 offices – these are your clusters.

non-sampling method:
1. Convenience sampling
A convenience sample simply includes the individuals who happen to be most accessible to
the researcher.

This is an easy and inexpensive way to gather initial data, but there is no way to tell if the
sample is representative of the population, so it can’t produce generalizable results.
Convenience samples are at risk for both sampling bias and selection bias.

Example: Convenience sampling


You are researching opinions about student support services in your university, so after each
of your classes, you ask your fellow students to complete a survey on the topic. This is a
convenient way to gather data, but as you only surveyed students taking the same classes
as you at the same level, the sample is not representative of all the students at your
university.
2. Voluntary response sampling
Similar to a convenience sample, a voluntary response sample is mainly based on ease of
access. Instead of the researcher choosing participants and directly contacting them, people
volunteer themselves (e.g. by responding to a public online survey).

Voluntary response samples are always at least somewhat biased, as some people will
inherently be more likely to volunteer than others, leading to self-selection bias.

Example: Voluntary response sampling


You send out the survey to all students at your university and a lot of students decide to
complete it. This can certainly give you some insight into the topic, but the people who
responded are more likely to be those who have strong opinions about the student support
services, so you can’t be sure that their opinions are representative of all students.
3. Purposive sampling
This type of sampling, also known as judgement sampling, involves the researcher using
their expertise to select a sample that is most useful to the purposes of the research.

It is often used in qualitative research, where the researcher wants to gain detailed
knowledge about a specific phenomenon rather than make statistical inferences, or where
the population is very small and specific. An effective purposive sample must have clear
criteria and rationale for inclusion. Always make sure to describe your inclusion and
exclusion criteria and beware of observer bias affecting your arguments.

Example: Purposive sampling


You want to know more about the opinions and experiences of disabled students at your
university, so you purposefully select a number of students with different support needs in
order to gather a varied range of data on their experiences with student services.
4. Snowball sampling
If the population is hard to access, snowball sampling can be used to recruit participants via
other participants. The number of people you have access to “snowballs” as you get in
contact with more people. The downside here is also representativeness, as you have no
way of knowing how representative your sample is due to the reliance on participants
recruiting others. This can lead to sampling bias.

Example: Snowball sampling


You are researching experiences of homelessness in your city. Since there is no list of all
homeless people in the city, probability sampling isn’t possible. You meet one person who
agrees to participate in the research, and she puts you in contact with other homeless
people that she knows in the area.
5. Quota sampling
Quota sampling relies on the non-random selection of a predetermined number or proportion
of units. This is called a quota.

You first divide the population into mutually exclusive subgroups (called strata) and then
recruit sample units until you reach your quota. These units share specific characteristics,
determined by you prior to forming your strata. The aim of quota sampling is to control what
or who makes up your sample.

Example: Quota sampling


You want to gauge consumer interest in a new produce delivery service in Boston, focused
on dietary preferences. You divide the population into meat eaters, vegetarians, and vegans,
drawing a sample of 1000 people. Since the company wants to cater to all consumers, you
set a quota of 200 people for each dietary group. In this way, all dietary preferences are
equally represented in your research, and you can easily compare these groups.You
continue recruiting until you reach the quota of 200 participants for each subgroup.

2. Xác định cỡ mẫu theo ước lượng tổng thể


Theo Yamane Taro (1967), việc xác định kích thước mẫu sẽ được chia làm hai trường hợp:
không biết tổng thể và biết được tổng thể.
a. Trường hợp không biết quy mô tổng thể
Chúng ta sẽ sử dụng công thức sau:

Trong đó: n=Z^2*(p*(1-p)) /e^2

n: kích thước mẫu cần xác định.


Z: giá trị tra bảng phân phối Z dựa vào độ tin cậy lựa chọn. Thông thường, độ tin cậy được
sử dụng là 95% tương ứng với Z = 1.96.
p: tỷ lệ ước lượng cỡ mẫu n thành công. Thường chúng ta chọn p = 0.5 để tích số p(1-p) là
lớn nhất, điều này đảm bảo an toàn cho mẫu n ước lượng.
e: sai số cho phép. Thường ba tỷ lệ sai số hay sử dụng là: ±01 (1%), ±0.05 (5%), ±0.1
(10%), trong đó mức phổ biến nhất là ±0.05.
Ví dụ: Nghiên cứu sự hài lòng của khách hàng đã dùng sản phẩm nước giải khát Pepsi Cola
tại TP.HCM. Đây là tổng thể không xác định được quy mô vì chúng ta không biết được có
bao nhiêu khách hàng đã uống nước Pepsi Cola ở TP.HCM. Như vậy cỡ mẫu tối thiểu cần
có của nghiên cứu sẽ là 385 người:

b. Trường hợp biết quy mô tổng thể


Chúng ta sẽ sử dụng công thức sau:

Trong đó: n= N/(1+N*e^2)= 25000/(1+25000*0.05*0.05)=330

n: kích thước mẫu cần xác định.


N: quy mô tổng thể.
e: sai số cho phép. Thường ba tỷ lệ sai số hay sử dụng là: ±01 (1%), ±0.05 (5%), ±0.1
(10%), trong đó mức phổ biến nhất là ±0.05.
Ví dụ: Nghiên cứu sự hài lòng của khách hàng đã mua sữa bột Ensure Gold trong tháng 8
năm 2020 tại siêu thị Coopmart Phú Thọ (Quận 11, TP.HCM). Siêu thị tổng hợp danh sách
khách hàng từ hệ thống thì có 1000 khách hàng, đây là tổng thể xác định được quy mô.
Như vậy cỡ mẫu tối thiểu cần có của nghiên cứu nếu sai số e = ±0.05 sẽ là 286 người:

3. Xác định cỡ mẫu theo ước lượng tổng thể


Việc xác định cỡ mẫu theo ước lượng tổng thể thường yêu cầu cỡ mẫu lớn. Tuy nhiên, nhà
nghiên cứu lại có quỹ thời gian giới hạn và nếu không có nguồn tài chính tài trợ thì khả năng
lấy mẫu theo ước lượng tổng thể sẽ khó có thể thực hiện. Do đó, các nhà nghiên cứu
thường sử dụng công thức lấy mẫu dựa vào phương pháp định lượng được sử dụng để
phân tích dữ liệu. Hai phương pháp yêu cầu cỡ mẫu lớn thường là hồi quy và phân tích
nhân tố khám phá (EFA).

a. Kích thước mẫu theo EFA


Theo Hair và cộng sự (2014)[1], kích thước mẫu tối thiểu để sử dụng EFA là 50, tốt hơn là
từ 100 trở lên. Tỷ lệ số quan sát trên một biến phân tích là 5:1 hoặc 10:1, một số nhà nghiên
cứu cho rằng tỷ lệ này nên là 20:1. “Số quan sát” hiểu một cách đơn giản là số phiếu khảo
sát hợp lệ cần thiết; “biến đo lường” là một câu hỏi đo lường trong bảng khảo sát. Ví dụ, nếu
bảng khảo sát của chúng ta có 30 câu hỏi sử dụng thang đo Likert 5 mức độ (tương ứng với
30 biến quan sát thuộc các nhân tố khác nhau), 30 câu này được sử dụng để phân tích
trong một lần EFA. Áp dụng tỷ lệ 5:1, cỡ mẫu tối thiểu sẽ là 30 × 5 = 150, nếu tỷ lệ 10:1 thì
cỡ mẫu tối thiểu là là 30 × 5 = 300. Kích thước mẫu này lớn hơn kích thước tối thiểu 50
hoặc 100, vì vậy chúng ta cần cỡ mẫu tối thiểu để thực hiện phân tích nhân tố khám phá
EFA là 150 hoặc 300 tùy tỷ lệ lựa chọn dựa trên khả năng có thể khảo sát được.

b. Kích thước mẫu theo hồi quy


Đối với kích thước mẫu tối thiểu cho phân tích hồi quy, Green (1991)[2] đưa ra hai trường
hợp. Trường hợp một, nếu mục đích phép hồi quy chỉ đánh giá mức độ phù hợp tổng quát
của mô hình như R2, kiểm định F … thì cỡ mẫu tối thiểu là 50 + 8m (m là số lượng biến độc
lập hay còn gọi là predictor tham gia vào hồi quy). Trường hợp hai, nếu mục đích muốn
đánh giá các yếu tố của từng biến độc lập như kiểm định t, hệ số hồi quy … thì cỡ mẫu tối
thiểu nên là 104 + m (m là số lượng biến độc lập). Lưu ý rằng, m là số biến độc lập chúng ta
đưa vào phân tích hồi quy, không phải là số biến quan sát hay số câu hỏi của nghiên cứu.
Giả sử chúng ta xây dựng bảng khảo sát gồm 4 biến độc lập (4 thang đo), mỗi thang đo
biến độc lập này được đo lường bằng 5 câu hỏi Likert (5 biến quan sát), như vậy tổng cộng
chúng ta có 20 biến quan sát. Sau bước phân tích EFA, 4 thang đo này vẫn giữ nguyên như
lý thuyết ban đầu, điều này đồng nghĩa có 4 biến độc lập sẽ được sử dụng cho phân tích hồi
quy, tức m = 4 không phải m = 20.

Harris (1985)[3] cho rằng cỡ mẫu phù hợp để chạy hồi quy đa biến phải bằng số biến độc
lập cộng thêm ít nhất là 50. Ví dụ, phép hồi quy có 4 biến độc lập tham gia, thì cỡ mẫu tối
thiểu phải là 4 + 50 = 54. Hair và cộng sự (2014)[4] cho rằng cỡ mẫu tối thiểu nên theo tỷ lệ
5:1, tức là 5 quan sát cho một biến độc lập. Như vậy, nếu có 4 biến độc lập tham gia vào hồi
quy, cỡ mẫu tối thiểu sẽ là 5 x 4 = 20. Tuy nhiên, 5:1 chỉ là cỡ mẫu tối thiểu cần đạt, để kết
quả hồi quy có ý nghĩa thống kê cao hơn, cỡ mẫu lý tưởng nên theo tỷ lệ 10:1 hoặc 15:1.
Riêng với trường hợp sử dụng phương pháp đưa biến vào lần lượt Stepwise trong hồi quy,
cỡ mẫu nên theo tỷ lệ 50:1.

Nếu một bài nghiên cứu sử dụng kết hợp nhiều phương pháp xử lý thì sẽ lấy kích thước
mẫu cần thiết lớn nhất trong các phương pháp. Ví dụ, nếu bài nghiên cứu vừa sử dụng
phân tích EFA và vừa phân tích hồi quy. Kích thước mẫu cần thiết của EFA là 200, kích
thước mẫu cần thiết của hồi quy là 100, chúng ta sẽ chọn kích thước mẫu cần thiết của
nghiên cứu là 200 hoặc từ 200 trở lên. Thường chúng ta sử dụng phân tích EFA cùng với
phân tích hồi quy trong cùng một bài luận văn, một bài nghiên cứu. EFA luôn đòi hỏi cỡ mẫu
lớn hơn rất nhiều so với hồi quy, chính vì vậy chúng ta có thể sử dụng công thức tính kích
thước mẫu tối thiểu cho EFA làm công thức tính kích thước mẫu cho nghiên cứu. Cũng lưu
ý rằng, đây là cỡ mẫu tối thiểu, nếu chúng ta sử dụng cỡ mẫu lớn hơn kích thước tối thiểu,
nghiên cứu sẽ càng có giá

nêu ra các bước thực hiện nghiên cứu.

the structure of questionaire:


1. Structure of the survey questionnaire
A survey questionnaire usually includes the following 4 main parts:

1.1. Heading
The first part has the effect of explaining the reason, creating sympathy and cooperation of
the surveyed people. In this section we can provide some information such as:

– Purpose of the survey

– Survey unit

– Enhance the role of the person being surveyed

– Reasons why you should participate in the survey

For example, we can approach the audience in the following way: "The survey aims to learn
about the consumption knowledge of people in area X. Your opinion is very important for
advanced use." other consumers' product experiences"
1.2. Filtering part
In this section, we use qualitative questions with nominal or hierarchical scales to identify
subjects suitable for research.

For example, when surveying services in banks, there should be a question that filters
subjects such as frequency of using services at banks with the following scales: Never,
rarely, often, often. If the subject answers "Never" we can stop the investigation because the
subject is not suitable. With the remaining answers, the subject will continue to answer the
next questions.

1.3. Main part


This section includes specific questions to collect data necessary for the research

In this part, in addition to paying attention to the content of the question, you need to arrange
the questions in a logical and reasonable order, creating interest for the research subject
and collecting the best information. The questions go from the general to the specific. A big
problem should be divided into small problems.

1.4. The end


This section includes two parts: additional questions and acknowledgments

Secondary questions have the effect of collecting additional information about the subject's
demographic characteristics such as gender, age, occupation... The secondary question can
be placed at the end of the section or immediately after the opening section. , this depends
on the choice of the questionnaire designer. In this part, if it is not necessary, we should
avoid too personal questions such as name, exact age, phone number, email... Sometimes
these questions will make the respondent uncomfortable and unwilling. Answer the next
questions of the questionnaire.

The acknowledgment includes a notice of the end of the questionnaire and a thank you to
the subject. Thank you notes only need to be written briefly (usually no more than 2 lines),
sincere and simple.

Building a questionnaire according to the above structure does not take too much time, but it
is effective in collecting quality data to analyze for the research topic, so you need to pay
proper attention. to both the content and form of the questionnaire.

2. Steps to develop a survey questionnaire


Step 1: Determine specifically the data to be collected and the survey subjects based on the
research objectives.

In this first step, you rely on the question: “What information do we need from which subjects
to achieve our research goals?” From there, list in detail the information that needs to be
collected and the target audience. For example, with the goal of determining the relationship
between current customers and bank Surveys will directly affect the way we use words, the
way we ask questions, and the content of the questions. For example, the wording for a
questionnaire regarding the entertainment needs of retired people will be completely
different from the wording for a questionnaire about the attitudes of financial company
directors toward the stock market. .

Step 2: Determine the interview method.

There are three main interview methods: telephone interview, face-to-face interview and
interview by mail/email/electronic questionnaire. For each different method, you need to
build a different questionnaire structure.

For the telephone interview method, there is also interaction between the interviewer and the
survey subject. However, the survey subject does not have direct contact with the
interviewer, so the questions used in this case are often Shorter and simpler than the face-
to-face interview method.

For the face-to-face interview method, the survey subject listens to the questions and
interacts directly with the interviewer, so the interviewer can use long and complex
questions, and can explain the content. Specific content of each question to avoid survey
subjects misunderstanding the meaning of the question

As for the interview method by sending letters/emails/electronic questions, there is


absolutely no interaction between the interviewer and the survey subject, so the questions
used for this method are often specific. , simpler and clearer than the previous two methods.

Step 3: Determine the content of the question.

The content of the questions is built based on the information listed in step 1. Each question
in the survey plays an important role in achieving the final goal of the research. Therefore,
when putting any question in the survey, the researcher needs to answer the following
questions: "Does the survey subject understand the question?", "Is this question necessary
or not?" , “Do they have enough information/ability to answer this question?”, “Are they
willing to answer this question?”

Step 4: Determine the form of the answer.

For a certain question, survey subjects can choose an answer from available answers or
answer in their own language. Corresponding to the above two ways of answering, people
divide into two types of questions: open questions (for example: Which brand of shampoo do
you like the most?) and closed questions (for example: Which brand of shampoo do you like
the most? following: Clear, Rejoice, Sunsilk). For many people, open-ended questions are
often difficult to encode during data entry and analysis, and for survey subjects, this type of
question requires them to think more to answer, so this type of question is more commonly
used in qualitative research than in quantitative research. Meanwhile, for closed questions,
because survey subjects choose pre-suggested answers, they can answer very quickly
without having to think much, researchers can code and analyze. data more quickly.
However, for closed-ended questions, the answers may not be accurate because survey
subjects are reluctant to accept available answers, or due to bias caused by the way the
answers are arranged (for respondents). Survey respondents tend to choose the first or last
answer, especially the first answer).

Step 5: Determine how to use words .

A very important factor in survey design is the use of words because it greatly affects the
survey subjects' answers. For example, if a question is worded unclearly, respondents may
refuse to answer or answer incorrectly. To ensure that the survey subject and the researcher
are talking about the same issue, the researcher needs to pay attention to the following:
clearly identify the main issue that needs to be asked; Use simple and common words.
When you want to use specialized terms, you need to specifically explain that term in the
most understandable way; do not use ambiguous words (for example: sometimes, often, …);
avoid suggestive questions (for example: Do you think patriotic Vietnamese should buy
imported products even though this may increase the domestic unemployment rate?); avoid
speculative and estimating questions; Avoid questions that have two answers at once (for
example: Is product X cheap and durable?).

Step 6: Determine the order and format of the questionnaire.

The beginning of the questionnaire should have an introduction so that survey subjects have
general information about the research. The main body of the questionnaire should begin
with general questions (filtering questions), move on to questions that specialize in specific
issues, and end with demographic information. The main purpose of the filtering question is
to filter out survey subjects that are suitable for the research objectives (for example: Have
you used product X in the last 3 days? If the answer is “yes ", please answer the next
questions. If the answer is "no", thank you very much, you can stop the survey). In the main
questions section about the research problem, the questions should be arranged in
increasing levels of specificity and difficulty. Besides, questions about sensitive issues
should be placed last. Demographic questions should be placed at the end because survey
subjects often tend to feel uncomfortable and are not willing to provide personal information
to strangers.

The format of the questionnaire is especially important if the researcher conducts interviews
by sending letters/emails/electronic questionnaires. The questionnaire should be divided into
different parts with specific instructions in each part, clearly numbered, use bold, italic,
different colors, etc. to distinguish between instructions, questions and answers. answer.

Step 7: Conduct a mock interview and complete the questionnaire.

Once completed, the questionnaire needs to be tested to eliminate errors (spelling errors,
confusing questions/terms/instructions, incorrect word usage, etc.). Pilot interviews are
conducted by interviewing a few survey subjects, research team members, or topic leaders,
etc. (about 10-15 people). The face-to-face interview method should be applied to some
surveys (even if this is not the method used when conducting the actual survey) because the
interviewer can observe the respondents' reactions. just exploited more points of difficulty
when survey subjects answered questions. After editing the necessary content, the survey
was used for a second test interview (using different survey subjects from the first) for final
completion.

ĐỌC KẾT QUẢ SPSS: KEY TEST? EFA (SIG,..., BNH %, CHIA LÀM MẤY NH N TỐ),
ANOVA, HỒI QUY (HỆ SỐ), ANOVA TEST (ĐỘ ĐỒNG ĐỀU, PHƯƠNG SAI KHÁC
BIỆT,...)

CHO 1 TOPIC YÊU CẦU TRÌNH BÀY CÁC BƯỚC ĐỂ THỰC HIỆN NGHIÊN CỨU (XĐ
MỤC TIÊU NGHIÊN CỨU, PHƯƠNG PHÁP NGHIÊN CỨU, điều tra, nghiên cứu định tính,
định lượng, TỔNG QUAN LÝ THUYẾT NTN NHỮNG VẤN ĐỀ GÌ),
TRÌNH BÀY CẤU TRÚC BẢNG HỎI, PHƯƠNG PHÁP CHỌN MẪU, KHÔNG CẦN LÀM CỤ
THỂ CẢ BẢNG CâU HỎI, Y HỆT BÀI CÁ NH N.
read Spss results:
1.2. Xem và chỉnh sửa dữ liệu

1.3. Tạo bảng và biểu đồ


Khi đã có được bộ dữ liệu hoàn chỉnh và chính xác, bước tiếp theo khi hướng dẫn chạy
SPSS là phân tích dữ liệu, tạo các bảng và biểu đồ (Tables and Charts). Thao tác này được
thực hiện khá đơn giản và nhanh chóng tuy nhiên bảng và biểu đồ không đề cao về mặt
thẩm mỹ. Trong SPSS có 3 cách tạo bảng và biểu đồ bạn cần biết:

a) Vẽ biểu đồ tròn trong SPSS


– Bước 1: Chọn thẻ Graphs trên thanh menu và chọn Chart Builder.

– Bước 2: Tại cửa sổ Chart Builder chọn kiểu Pie/Polar và click vào biểu tượng biểu đồ tròn.

– Bước 3: Kéo thẻ biến muốn vẽ biểu đồ tròn vào ô trống Slice By.

– Bước 4: Tại cửa sổ Element Properties, tùy chọn thống kê tần số (Count) hay phần trăm
(Percentage).

– Bước 5: Nhấn OK để vẽ bản đồ > Click vào biểu đồ > Chọn biểu tượng biểu đồ và chọn
dấu X.

b) Vẽ biểu đồ Boxplot trong SPSS


– Bước 1: Chọn thẻ Graphs trên thanh menu và chọn Chart Builder.

– Bước 2: Chọn Boxplot > Click vào dạng biểu đồ muốn vẽ

– Bước 3: Kéo thả biến vào trục X và trục Y

– Bước 4: Chọn OK.

c) Vẽ biểu đồ Bar Chart trong SPSS


– Bước 1: Chọn thẻ Graphs trên thanh menu và chọn Chart Builder

– Bước 2: Chọn Bar > Click vào dạng biểu đồ muốn vẽ


– Bước 3: Kéo thả biến vào trục X và trục Y > Chọn OK

– Bước 4: Nhấn OK để vẽ bản đồ> Click vào biểu đồ > Chọn biểu tượng biểu đồ và chọn
dấu X.

1.4. Phân tích thống kê suy luận


Trong hướng dẫn sử dụng SPSS trong thống kê, nghiên cứu khoa học và y tế, bạn có thể
thực hiện các phân tích thống kê suy luận (Inferential Statistics) với các tính năng sau đây:

a) Phân tích thống kê mô tả


Thống kê tần số:
– Bước 1: Chọn Analyze > Descriptive Statistics > Frequencies.

– Bước 2: Kéo thả biến vào Variable(s)

– Bước 3: Chọn Charts > Tùy chỉnh Chart Type và Chart Values

– Bước 4: Chọn Continue > OK.

Thống kê trung bình:


– Bước 1: Chọn Analyze > Descriptive Statistics > Descriptives

– Bước 2: Kéo thả biến vào Variable(s)

– Bước 3: Chọn OK.

Từ bảng thống kê mô tả Độ lệch chuẩn (Std.Deviation) ta có thể thấy các giá trị cho giá trị
trung bình và độ lệch chuẩn xuất hiện bên cạnh giá trị cho N (N=100). Theo cách đọc bảng
số liệu trong SPSS ta được kết quả như sau:

Mean = 7.2881
Std.Deviation = 2.26466
Nhận xét:

Thời gian trung bình để thực hiện nhiệm vụ của 100 sinh viên là 7.2881s
Mức chênh lệch thời gian trung bình để thực hiện nhiệm vụ và thời gian thay đổi là 2.26466s
Ý nghĩa:

Ta có: CV = (S.D/Mean) = 2.26466/7.2881 = 0,31 <1


Như vậy cách đọc bảng số liệu trong SPSS thống kê mô tả Độ lệch chuẩn (Std.Deviation)
cho chúng ta biết được độ lệch chuẩn nhỏ hơn giá trị trung bình. Điều này chứng tỏ tệp dữ
liệu dao động trung bình yếu, con số trả lời của đáp viên chênh lệch thấp.

b) Kiểm định giá trị trung bình T-tests


Để hiểu về T-test bạn nên tham khảo bài viết này: T-test là gì
One-Sample T-Test
– Bước 1: Chọn Analyze > Compare Means > One-Sample T Test.

– Bước 2: Kéo thả biến vào Test Variable(s)

– Bước 3: Chọn Option > Continue> OK

– Bước 4: Đọc và phân tích kết quả.

Independent-Samples T-Test
– Bước 1: Chọn Analyze > Compare Means > Independent-samples T-test

– Bước 2: Kéo thả biến vào Grouping Variable (biến phụ thuộc) hoặc Test Variable(s) (biến
độc lập)

– Bước 3: Chọn Options > Continue

– Bước 4: Chọn Define Groups > Continue > OK

– Bước 5: Đọc và phân tích kết quả.

c) Kiểm định Chi-square tests


– Bước 1: Chọn Analyze > Descriptive statistics > Crosstabs.

– Bước 2: Kéo thả biến vào Row(s) và Column(s).

– Bước 3: Chọn Statistics > Cells > Format > Chi-square > Continue.

– Bước 4: Chọn Cells > Observed > Tích chọn Observed, Row, Column, Total và Round cell
counts > Continue

– Bước 5: Chọn Format > Tùy chọn Ascending hoặc Descending


– Bước 6: Chọn Continue > OK.

d) Kiểm định ANOVA


– Bước 1: Chọn Analyze > Compare Means > One-way ANOVA

– Bước 2: Kéo thả biến phụ thuộc vào Dependent List và biến độc lập vào Factor

– Bước 3: Chọn Post Hoc, tick chọn Tukey > Continue.

– Bước 4: Về hộp thoại Options, tick chọn Descriptive trong Statistic

– Bước 5: Chọn Continue

– Bước 6: Chọn OK.

e) Phân tích nhân tố khám phá EFA

– Bước 1: Chọn Analyze > Dimension Reduction > Factor…

– Bước 2: Kéo thả biến độc lập vào Variables

– Bước 3: Chọn Descriptives > chọn KMO and Bartlett’s test of sphericity

– Bước 4: Chọn Rotation > chọn Varimax

– Bước 5: Chọn Options > chọn Sorted by size và Suppress absolute values less than
– Bước 6: Nhấn OK.

ó khá nhiều bảng ở output, tất cả các bảng này đều đóng góp vào việc đánh giá kết
quả phân tích EFA là tốt hay tệ. Tuy nhiên, ở đây tác giả tập trung vào ba bảng kết
quả chính: KMO and Barlett’s Test, Total Variance Explained và Rotated
Component Matrix, bởi sử dụng ba bảng này chúng ta đã có thể đánh giá được kết
quả phân tích EFA phù hợp hay không phù hợp.
Kết quả lần EFA đầu tiên: KMO = 0.887 > 0.5, sig Bartlett’s Test = 0.000 < 0.05, như
vậy phân tích nhân tố khám phá EFA là phù hợp. Có 6 nhân tố được trích với tiêu
chí eigenvalue lớn hơn 1 với tổng phương sai tích lũy là 63.109%. Tác giả mong
muốn chọn ra các biến quan sát chất lượng nên sẽ sử dụng ngưỡng hệ số tải là 0.5
thay vì chọn hệ số tải tương ứng theo cỡ mẫu. So sánh ngưỡng này với kết quả ở
ma trận xoay, có hai biến xấu là DN4 và LD5 cần xem xét loại bỏ:

● Biến DN4 tải lên ở cả hai nhân tố là Component 4 và Component 6 với hệ số


tải lần lượt là 0.612 và 0.530, mức chênh lệch hệ số tải bằng 0.612 – 0.530 =
0.082 < 0.2.
● Biến LD5 có hệ số tải ở tất cả các nhân tố đều nhỏ 0.5.

Tác giả sử dụng phương thức loại một lượt các biến xấu trong một lần phân tích
EFA. Từ 28 biến quan sát ở lần phân tích EFA thứ nhất, loại bỏ DN4 và LD5 và đưa
26 biến quan sát còn lại vào phân tích EFA lần thứ hai.

f) Phân tích tương quan Pearson

Xem chi tiết về cách chạy qua bài viết: Cách chạy tương quan trong spss

– Bước 1: Chọn Analyze > Correlate > Bivariate…

– Bước 2: Kéo thả biến độc lập vào Variables

– Bước 3: Chọn OK.


so sánh sig với 0.05, nếu sig nhỏ hơn 0.05 thì hệ số tương quan hai biến có ý nghĩa.

nếu pearson correlation nhỏ hơn 0 thì hai biến tương quan âm, biến này tăng biến
kia giảm.

nếu pearson correlation lớn hơn 0 thì hai biến tương quan dương, biến này tăng
biến kia tăng.

g) Phân tích độ tin cậy Cronbach’s Alpha


Chi tiết về cách chạy này bạn nên tham khảo bài viết: Cách chạy cronbach alpha trong spss

– Bước 1: Chọn Analyze > Scale > Reliability Analysis

– Bước 2: Kéo thả biến vào Items


– Bước 3: Chọn Statistics, tick chọn Items, Scale và Scale If Item Deleted trong Descriptives
for và Correlations trong Inter-Item

– Bước 4: Chọn Continue > OK


đọc kết quả ở bảng reliability statistic:
ý nghĩa của hệ số cronbach alpha:
< 0.6. Thang đo nhân tố là không phù hợp (có thể trong môi trường nghiên cứu đối
tượng không có cảm nhận về nhân tố đó)
0.6 – 07: Chấp nhận được với các nghiên cứu mới
0.7 – 0.8: Chấp nhận được
0.8 – 0.95: tốt
>= 0.95: tức là có khả năng người tham gia khảo sát điền bừa

nhìn vào kết quả này: đọc số liệu cronbach alpha lớn hơn 0.6 và nhỏ hơn 0.95 thì bộ dữ liệu
đạt chuẩn.
N of items là 4 tức là bộ dữ liệu này có 4 biến quan sát.
tiếp tục nhìn ở cronbach alpha if items deleted nếu lớn hơn cronbach alpha của bộ dữ liệu
thì: loại biến đó.
nhìn qua cột corrected item-total correlation phải lớn hơn 0.3 thì biến đó đạt yêu cầu.
tức là thang đo có độ tin cậy
Phân tích hồi quy regression
Bạn có thể xem về hồi quy đa biến qua bài viết Cách chạy hồi quy đa biến spss

– Bước 1: Chọn Analyze > Regression > Linear…

– Bước 2: Kéo thả biến phụ thuộc vào Dependent và biến độc lập vào Independents.

– Bước 3: Chọn Statistics, tick chọn > Continue.

– Bước 4: Chọn Plots, tick chọn Histogram và Normal probability plot > kéo thả biến >
Continue

– Bước 5: Chọn Method > chọn Enter hoặc Stepwise


– Bước 6: Nhấn OK.

đọc kết quả:


Y = B0 + B1X1 + B2X2 + … + BnXn + ε
Y: biến phụ thuộc
X, X1, X2, Xn: biến độc lập
B0: hằng số hồi quy
B1, B2, Bn: hệ số hồi quy
ε: phần dư

giá trị sig trong bảng coefficients được sử dụng để kiểm định ý nghĩa của hệ số hồi quy.
Nếu sig nhỏ hơn 0.05 thì kết luận là biến độc lập có sự tác động đến biến phụ thuộc.
hoặc, sig lớn hơn 0.05 thì kết luận biến độc lập không có sự tác động đến biến phụ thuộc.
phải loại sig lớn hơn 0.05 để chạy mô hình mới.

giá trị R bình và R bình hiệu chỉnh cho thấy mức độ phụ thuộc và nó nằm trong bảng model
sumary. hai giá trị này thường giao động từ 0-1. ( thông thường nó phải lớn hơn 0.5 trở
lên).
tuy nhiên hiện nay có những topic thì gia trị r2 nhỏ hơn 0.5.
sig của kiểm định f nằm trong bảng Anova, kỳ vọng sig nhỏ hơn 0.05. Thì khi đó kết quả của
mô hình có tính đại diện tổng thể và có thể dc suy rộng và áp dụng cho tổng thể.
giá trị durbin-watson nằm trong 1.5 đến 2.5 thì mô hình sẽ không có hiện tượng tự tương
quan và sẽ là mô hình tốt. ( bảng model sumary)
giá trị phóng đại VIF để kiểm định hiện tượng đa cộng tuyến, VIF >2 thì loại nó đi, chỉ chạy
với các biến có VIF nhỏ hơn 2

đọc kết quả hồi quy và phân tích:


Bảng model sumary: đọc R square, Adjusted R square> 0.5 thì có nghĩa các nhân tố độc lập
giải thích được sự biến thiên của nhân tố độc lập. còn lại những sự biến thiên khác được
giải thích bởi sự biến thiên của các nhân tố khác không nằm trong mô hình nghiên cứu
chiếm 1- adjusted r square.
giá trị Durbin_waston: đánh giá hiện tượng tự tương quan nằm trong khoảng từ 1.5 đến 2.5
thì thỏa mãn không bị xuất hiện hiện tượng tự tương quan.
đọc kết quả ở bảng anova: đcọ giá trị của F và sig của F nhỏ hơn 0.05 thì chứng minh là
kết quả của cỡ mẫu đại diện cho kết quả của tổng thể.
đọc kết quả ở bảng coefficients:
sig < 0.05 có nghĩa: các nhân tố độc lập có ý nghĩa thống kê trong việc tác động lên nhân tố
phụ thuộc.
sau đó chúng ta đọc kết quả ở B và beta.
nhân tố có tác động mạnh nhất là nhân tố có hệ số Beta lớn nhất.
histogram có dạng bell shape thì đạt chuẩn.

3.1 Bảng ANOVA

Chúng ta cần đánh giá độ phù hợp mô hình một cách chính xác qua kiểm định giả thuyết.
Để kiểm định độ phù hợp mô hình hồi quy, chúng ta đặt giả thuyết H0: R2 = 0. Phép kiểm
định F được sử dụng để kiểm định giả thuyết này. Kết quả kiểm định:

● Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê, mô
hình hồi quy là phù hợp.
● Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là R2 = 0 một cách có ý nghĩa thống kê,
mô hình hồi quy không phù hợp.

Trong SPSS, các số liệu của kiểm định F được lấy từ bảng phân tích phương sai ANOVA.

Bảng ANOVA cho chúng ta kết quả kiểm định F để đánh giá giả thuyết sự phù hợp của mô
hình hồi quy. Giá trị sig kiểm định F bằng 0.000 < 0.05, do đó, mô hình hồi quy là phù hợp.

3.2 Bảng Model Summary

Các điểm dữ liệu luôn phân tán và có xu hướng tạo thành dạng một đường thẳng chứ
không phải là một đường thẳng hoàn toàn. Do đó, hầu như không có đường thẳng nào có
thể đi qua toàn bộ tất cả các điểm dữ liệu, luôn có sự sai lệch giữa các giá trị ước tính và
các giá trị thực tế. Chúng ta sẽ cần tính toán được mức độ sai lệch đó cũng như mức độ
phù hợp của mô hình hồi quy tuyến tính với tập dữ liệu.
(Bên trái là độ phù hợp mô hình cao, bên phải là độ phù hợp mô hình thấp)

Một thước đo sự phù hợp của mô hình hồi quy tuyến tính thường dùng là hệ số xác định R2
(R square). Khi phần lớn các điểm dữ liệu tập trung sát vào đường hồi quy, giá trị R2 sẽ
cao, ngược lại, nếu các điểm dữ liệu phân bố rải rác cách xa đường hồi quy, R2 sẽ thấp.
Chỉ số R2 nằm trong bảng Model Summary.

1<durbin watson<3

Khi chúng ta đưa thêm biến độc lập vào phân tích hồi quy, R2 có xu hướng tăng lên. Điều
này dẫn đến một số trường hợp mức độ phù hợp của mô hình hồi quy bị thổi phồng khi
chúng ta đưa vào các biến độc lập giải thích rất yếu hoặc không giải thích cho biến phụ
thuộc. Trong SPSS, bên cạnh chỉ số R2, chúng ta còn có thêm chỉ số R2 Adjusted (R2 hiệu
chỉnh). Chỉ số R2 hiệu chỉnh không nhất thiết tăng lên khi nhiều biến độc lập được thêm vào
hồi quy, do đó R2 hiệu chỉnh phản ánh độ phù hợp của mô hình chính xác hơn hệ số R2.

R2 hay R2 hiệu chỉnh đều có mức dao động trong đoạn từ 0 đến 1. Nếu R2 càng tiến về 1,
các biến độc lập giải thích càng nhiều cho biến phụ thuộc, và ngược lại, R2 càng tiến về 0,
các biến độc lập giải thích càng ít cho biến phụ thuộc.

Không có tiêu chuẩn chính xác R2 ở mức bao nhiêu thì mô hình mới đạt yêu cầu. Cần lưu ý
rằng, không phải luôn luôn một mô hình hồi quy có R2 cao thì nghiên cứu có giá trị cao, mô
hình có R2 thấp thì nghiên cứu đó có giá trị thấp, độ phù hợp mô hình hồi quy không có mối
quan hệ nhân quả với giá trị của bài nghiên cứu. Trong nghiên cứu lặp lại, chúng ta thường
chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu và kỳ vọng từ 0.5
đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này không thực sự
chính xác bởi việc đánh giá giá trị R2 sẽ phụ thuộc rất nhiều vào các yếu tố như lĩnh vực
nghiên cứu, tính chất nghiên cứu, cỡ mẫu, số lượng biến tham gia hồi quy, kết quả các chỉ
số khác của phép hồi quy,…

Trong ví dụ ở trên, bảng Model Summary cho chúng ta kết quả R bình phương (R Square)
và R bình phương hiệu chỉnh (Adjusted R Square) để đánh giá mức độ phù hợp của mô
hình. Giá trị R bình phương hiệu chỉnh bằng 0.695 cho thấy các biến độc lập đưa vào phân
tích hồi quy ảnh hưởng 69.5% sự biến thiên của biến phụ thuộc, còn lại 31.4% là do các
biến ngoài mô hình và sai số ngẫu nhiên.

Kết quả bảng này cũng đưa ra giá trị Durbin–Watson để đánh giá hiện tượng tự tương quan
chuỗi bậc nhất. Giá trị DW = 1.849, nằm trong khoảng 1.5 đến 2.5 nên kết quả không vi
phạm giả định tự tương quan chuỗi bậc nhất (Yahua Qiao, 2011).

3.3 Bảng Coefficients

Chúng ta sẽ đánh giá hệ số hồi quy của mỗi biến độc lập có ý nghĩa trong mô hình hay
không dựa vào kiểm định t (student) với giả thuyết H0: Hệ số hồi quy của biến độc lập Xi
bằng 0. Mô hình hồi quy có bao nhiêu biến độc lập, chúng ta sẽ đi kiểm tra bấy nhiêu giả
thuyết H0. Kết quả kiểm định:

● Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi khác 0 một cách
có ý nghĩa thống kê, biến X1 có tác động lên biến phụ thuộc.
● Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là hệ số hồi quy của biến Xi bằng 0 một
cách có ý nghĩa thống kê, biến Xi không tác động lên biến phụ thuộc.

Trong hồi quy, thường chúng ta sẽ có hai hệ số hồi quy: chưa chuẩn hóa (trong SPSS gọi là
B) và đã chuẩn hóa (trong SPSS gọi là Beta). Mỗi hệ số hồi quy này có vai trò khác nhau
trong việc diễn giải hàm ý quản trị của mô hình hồi quy.

Nếu hệ số hồi quy (B hoặc Beta) mang dấu âm, nghĩa là biến độc lập đó tác động nghịch
chiều lên biến phụ thuộc. Ngược lại nếu B hoặc Beta không có dấu (dấu dương), nghĩa là
biến độc lập tác động thuận chiều lên biến phụ thuộc. Khi xem xét mức độ tác động giữa
các biến độc lập lên biến phụ thuộc, chúng ta sẽ dựa vào trị tuyệt đối hệ số Beta, trị tuyệt
đối Beta càng lớn, biến độc lập tác động càng mạnh lên biến phụ thuộc.

Trong SPSS, các số liệu của kiểm định t được lấy từ bảng hệ số hồi quy Coefficients. Cũng
lưu ý rằng, nếu một biến độc lập không có ý nghĩa thống kê trong kết quả hồi quy, chúng ta
sẽ kết luận biến độc lập đó không có sự tác động lên biến phụ thuộc mà không cần thực
hiện loại biến và phân tích lại hồi quy.
Trong ví dụ ở trên, bảng Coefficients cho chúng ta kết quả kiểm định t để đánh giá
giả thuyết ý nghĩa hệ số hồi quy, chỉ số VIF đánh giá đa cộng tuyến và các hệ số hồi
quy.

Biến F_DN có giá trị sig kiểm định t bằng 0.777 > 0.05 , do đó biến này không có ý
nghĩa trong mô hình hồi quy, hay nói cách khác, biến này không có sự tác động lên
biến phụ thuộc F_HL. Các biến còn lại gồm F_LD, F_CV, F_TL, F_DT, F_DK đều có
sig kiểm định t nhỏ hơn 0.05, do đó các biến này đều có ý nghĩa thống kê, đều tác
động lên biến phụ thuộc F_HL. Hệ số hồi quy các biến độc lập này đều mang dấu
dương, như vậy các biến độc lập có tác động thuận chiều lên biến phụ thuộc.

Kết luận giả thuyết:

H1: Tiền lương (F_TN)tác động đến sự hài lòng của nhân viên trong công việc
(Chấp nhận)

H2: Đào tạo và thăng tiến (F_DT) tác động đến sự hài lòng của nhân viên trong công
việc (Chấp nhận)

H3: Lãnh đạo (F_LD) tác động đến sự hài lòng của nhân viên trong công việc (Chấp
nhận)

H4: Đồng nghiệp (F_DN) tác động đến sự hài lòng của nhân viên trong công việc
(Bác bỏ)

H5: Bản chất công việc (F_DN) đến sự hài lòng của nhân viên trong công việc
(Chấp nhận)

H6: Điều kiện làm việc (F_DK) tác động đến sự hài lòng của nhân viên trong công
việc (Chấp nhận)
Hệ số phóng đại phương sai (VIF) là một chỉ số đánh giá hiện tượng cộng tuyến
trong mô hình hồi quy. VIF càng nhỏ, càng ít khả năng xảy ra đa cộng tuyến. Hair và
cộng sự (2009) cho rằng, ngưỡng VIF từ 10 trở lên sẽ xảy ra đa cộng tuyến mạnh.
Nhà nghiên cứu nên cố gắng để VIF ở mức thấp nhất có thể, bởi thậm chí ở mức
VIF bằng 5, bằng 3 đã có thể xảy ra đa cộng tuyến nghiêm trọng. Theo Nguyễn Đình
Thọ (2010) , trên thực tế, nếu VIF > 2, chúng ta cần cẩn thận bởi vì đã có thể xảy ra
sự đa cộng tuyến gây sai lệch các ước lượng hồi quy. Cụ thể trong ví dụ ở bảng
trên, Hệ số VIF của các biến độc lập đều nhỏ hơn 10, trong trường hợp này thậm
chí nhỏ hơn 2, do vậy dữ liệu không vi phạm giả định đa cộng tuyến.

Từ các hệ số hồi quy, chúng ta xây dựng được hai phương trình hồi quy chuẩn hóa
và chưa chuẩn hóa theo thứ tự như sau:

Y = 0.322*F_LD + 0.288*F_CV + 0.096*F_TL + 0.076*F_DT + 0.421*F_DK + ε

Y= -0.475 + 0.267*F_LD + 0.259*F_CV + 0.084*F_TL + 0.066*F_DT + 0.393*F_DK


Khi viết phương trình hồi quy, lưu ý rằng:

● Không đưa biến độc lập không có ý nghĩa thống kê vào phương trình.
● Nếu biến độc lập có hệ số hồi quy âm, chúng ta sẽ viết dấu trừ trước hệ số
hồi quy trong phương trình.
● Nhìn vào phương trình chúng ta sẽ có thể xác định ngay được biến độc lập
nào tác động mạnh nhất, mạnh thứ hai,…, yếu nhất lên biến phụ thuộc.
● Luôn có phần dư ε cuối phương trình hồi quy dù là phương trình chuẩn hóa
hay chưa chuẩn hóa.

4. Đánh giá giả định hồi quy qua 3 biểu đồ

4.1 Biểu đồ tần số phần dư chuẩn hóa Histogram

Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai
mô hình, phương sai không phải là hằng số, số lượng các phần dư không đủ nhiều
để phân tích... Vì vậy, chúng ta cần thực hiện nhiều cách khảo sát khác nhau. Một
cách khảo sát đơn giản nhất là xây dựng biểu đồ tần số của các phần dư Histogram
ngay dưới đây. Một cách khác nữa là căn cứ vào biểu đồ P-P Plot ở mục sau.
Đối với biểu đồ Histogram, nếu giá trị trung bình Mean gần bằng 0, độ lệch chuẩn
Std. Dev gần bằng 1, các cột giá trị phần dư phân bố theo dạng hình chuông, ta có
thể khẳng định phân phối là xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư
không bị vi phạm. Cụ thể trong ảnh trên, Mean = 5.74E-15 = 5.74 * 10-15 = 0.00000...
gần bằng 0, độ lệch chuẩn là 0.991 gần bằng 1. Như vậy có thể nói, phân phối phần
dư xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm.

4.2 Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ
được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.
Đối với biểu đồ Normal P-P Plot, nếu các điểm dữ liệu trong phân phối của phần dư
bám sát vào đường chéo, phần dư càng có phân phối chuẩn. Nếu các điểm dữ liệu
phân bố xa đường chéo, phân phối càng “ít chuẩn”.

Cụ thể với vị dụ trên, các điểm dữ liệu phần dư tập trung khá sát với đường chéo,
như vậy, phần dư có phân phối xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư
không bị vi phạm.

4.3 Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Một giả định trong hồi quy là phải có mối liên hệ tuyến tính giữa biến phụ thuộc với
các biến độc lập. Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá
trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem dữ liệu hiện tại có vi phạm giả định
liên hệ tuyến tính hay không.
Nếu các điểm dữ liệu phân bố tập trung xung quanh đường tung độ 0 và có xu
hướng tạo thành một đường thẳng, giả định liên hệ tuyến tính không bị vi phạm.
Cách bố trí của điểm dữ liệu trên đồ thị scatter sẽ tùy thuộc vào bản chất biến phụ
thuộc, khi đánh giá, chúng ta cần nhìn tổng quát xu hướng của đám mây điểm dữ
liệu.

Đọc SPSS:

Để kiểm định trung bình biến định lượng với hai nhóm giá trị của biến định tính, chúng ta
đặt giả thuyết H0: Không có sự khác biệt trung bình giữa hai nhóm giá trị. Phép kiểm định t
được sử dụng để kiểm định giả thuyết này. Trong SPSS, các số liệu của kiểm định t được
lấy từ mục t-test for Equality of Means trong bảng Independent Samples Test. Kết quả kiểm
định:
 Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là có sự khác biệt trung bình mộ t cách có ý
nghĩa thố ng kê giữ a hai nhóm giá trị.
 Sig > 0.05: Chấ p nhậ n giả thuyết H0, nghĩa là không có sự khác biệt trung bình mộ t
cách có ý nghĩa thố ng kê giữ a hai nhóm giá trị.
Trướ c khi đánh giá có hay không sự khác biệt về trung bình thông qua kiểm định t, chúng ta
cầ n kiểm định sự đồ ng nhấ t phương sai củ a hai nhóm giá trị biến định tính. Để thự c hiện
điều này, chúng ta đặ t giả thuyết HF-0: Không có sự khác biệt phương sai giữa hai nhóm giá
trị. Phép kiểm định F đượ c sử dụ ng để kiểm định giả thuyết này. Trong SPSS, các số liệu
củ a kiểm định F đượ c lấ y từ mụ c Levene’s Test for Equality of Variances trong
bả ng Independent Samples Test. Kết quả kiểm định:
 Sig < 0.05: Bác bỏ giả thuyết HF-0, nghĩa là có sự khác biệt phương sai mộ t cách có ý
nghĩa thố ng kê giữ a hai nhóm giá trị. Chúng ta sử dụ ng kết quả kiểm định t ở
hàng Equal variances not
 Sig > 0.05: Chấp nhận giả thuyết HF-0, nghĩa là không có sự khác biệt phương sai mộ t
cách có ý nghĩa thố ng kê giữ a hai nhóm giá trị. Chúng ta sử dụ ng kết quả kiểm định t
ở hàng Equal variances assumed.
Quy trình đọc kết quả Independent-Samples T Test đượ c tóm gọ n trong hai bướ c như sau:

Kết quả kiểm định gồ m hai bả ng là Group Statistics và Independent Samples Test. Chúng ta
sẽ đọ c kết quả ở bả ng Independent Samples Test trướ c.

Sig kiểm định F bằ ng 0.144 > 0.05, không có sự khác biệt phương sai giữ a hai nhóm nam và
nữ , chúng ta sẽ sử dụ ng kết quả kiểm định t ở hàng Equal variances assumed. Sig kiểm
định t bằ ng 0.491 > 0.05, chấ p nhậ n giả thuyết H0, nghĩa là không có sự khác biệt trung bình
F_HL giữ a các giớ i tính khác nhau. Như vậ y, không có khác biệt sự hài lòng công việc giữ a
nhân viên nam và nhân viên nữ trong công ty.
One sample T test
Kiểm định One-Sample T Test đượ c sử dụ ng khi muố n so sánh trung bình củ a mộ t biến
định lượ ng vớ i mộ t giá trị cụ thể nào đó. Chẳ ng hạ n như kiểm định xem điểm trung bình kỳ
thi cuố i kỳ củ a họ c sinh trong lớ p là cao hơn, thấ p hơn hay bằ ng 8 điểm; kiểm định chiều
cao trung bình củ a các ứ ng viên tham dự cuộ c thi Hoa hậ u Hoàn Vũ là cao hơn, thấ p hơn
hay bằ ng 1,7 mét; kiểm định mứ c độ hài lòng về công việc củ a nhân viên trong công ty là
cao hay thấ p hơn 3 trong thang đo Likert 5 mứ c độ ,…

Việc chúng ta thự c hiện mộ t phép kiểm định trung bình khác vớ i việc chúng ta so sánh trung
bình vớ i giá trị đó. Điều này khác biệt rõ ràng khi cỡ mẫ u nghiên cứ u lớ n và biến cầ n kiểm
định có nhiều mứ c giá trị. So sánh trung bình vớ i giá trị có sẵ n là so sánh hai con số vớ i
nhau, còn kiểm định trung bình One-Sample T Test là chúng ta so sánh mộ t khoả ng dao
độ ng củ a giá trị trung bình vớ i giá trị sẵ n có. Khoả ng dao độ ng củ a giá trị trung bình sẽ phụ
thuộ c vào độ lệch chuẩ n, sai số chuẩ n củ a biến và độ tin cậ y củ a phép kiểm định.
Để kiểm định trung bình mộ t biến vớ i mộ t giá trị, chúng ta đặ t giả thuyết H0: Giá trị trung
bình của biến bằng với giá trị so sánh. Phép kiểm định t đượ c sử dụ ng để kiểm định giả
thuyết này. Kết quả kiểm định:
 Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là trung bình khác vớ i giá trị so sánh mộ t
cách có ý nghĩa thố ng kê.
 Sig > 0.05: Chấ p nhậ n giả thuyết H0, nghĩa là trung bình củ a biến bằ ng vớ i giá trị so
sánh mộ t cách có ý nghĩa thố ng kê.
Trong SPSS, các số liệu củ a kiểm định t đượ c lấ y từ bả ng One-Sample Test.

Chúng ta sẽ có hai bả ng, bả ng One-Sample Statistics thố ng kê giá trị trung bình, độ lệch
chuẩ n các biến, bả ng còn lạ i là One-Sample Test cho biết kết quả kiểm định.
Chúng ta sẽ nhìn vào giá trị sig kiểm định t trong bả ng One-Sample Test trướ c.
 Sig kiểm định t củ a F_CV bằ ng 0.084 > 0.05, chấ p nhậ n giả thuyết H0-3, nghĩa là giá
trị trung bình củ a F_CV bằ ng 3.41 mộ t cách có ý nghĩa thố ng kê. Đáp viên hài lòng
về yếu tố công việc.
 Sig kiểm định t củ a F_DT bằ ng 0.000 < 0.05, bác bỏ giả thuyết H0-5, nghĩa là giá trị
trung bình củ a F_DT khác 3.41 mộ t cách có ý nghĩa thố ng kê. Giá trị Mean
Difference củ a F_DT mang giá trị âm, như vậ y giá trị trung bình củ a F_DT nhỏ hơn
3.41. Đáp viên chưa hài lòng về yếu tố công việc.
 Sig kiểm định t củ a F_LD, F_TL, F_DK, F_DN đều bằ ng 0.000 < 0.05, bác bỏ giả
thuyết H0-1, H0-2, H0-4, H0-6, nghĩa là giá trị trung bình củ a F_LD, F_DN, F_TL, F_DK
khác 3.41 mộ t cách có ý nghĩa thố ng kê. Giá trị Mean Difference củ a các biến này
đều mang giá trị dương, như vậ y giá trị trung bình củ a F_LD, F_TL, F_DK, F_DN
lớ n hơn 3.41. Đáp viên hài lòng về yếu tố lãnh đạ o, đồ ng nghiệp, tiền lương, đào tạ o
thă ng tiến, môi trườ ng làm việc.
Bả ng thố ng kê One-Sample Statistics cung cấ p thêm thông tin về trung bình, độ lệch chuẩ n,
trung bình sai số chuẩ n củ a từ ng biến.

Kết quả kiểm định cho thấ y rằ ng giá trị trung bình củ a F_DT nhỏ hơn 3.41, đáp viên chưa
hài lòng về yếu tố công việc. Giá trị trung bình chính xác củ a F_DT bằ ng 3.1829, nằ m trong
đoạ n trung bình ý kiến trung lậ p, do vậ y đáp viên tuy chưa tớ i mứ c hài lòng vớ i yếu tố công
việc nhưng vẫ n ở mứ c trung lậ p vớ i yếu tố này. Ba biến F_LD, F_DN, F_TL có trung bình
khá cao, nằ m trong đoạ n trung bình ý kiến đồ ng ý, đáp viên đang ở mứ c hài lòng vớ i yếu tố
lãnh đạ o, đồ ng nghiệp, tiền lương.

ANOVA
Trong bài viết Kiểm định Independent-Samples T Test , chúng ta đã biết kiểm định này dùng để
so sánh giá trị trung bình. Tuy nhiên, hạ n chế củ a kiểm định này là chỉ cho phép chúng ta so sánh
trung bình giữ a hai nhóm giá trị vớ i nhau. Trườ ng hợ p biến định tính có nhiều hơn hai nhóm, chúng
ta sẽ cầ n sử dụ ng đến mộ t kỹ thố ng kê khác là One-Way ANOVA hay còn gọ i vớ i tên Tiếng Việt
là ANOVA một chiều.
Lưu ý rằ ng, One-Way ANOVA có thể đượ c sử dụ ng để so sánh trung bình giữ a hai nhóm giá trị
giố ng như Independent-Samples T Test. Mặ c dù cơ chế tính toán và kiểm định đượ c sử dụ ng ở hai
loạ i kỹ thuậ t thố ng kê là khác nhau, nhưng kết quả cho ra sẽ tương đương nhau nếu biến định tính
chỉ có hai nhóm giá trị. Xét về tính phổ biến, nếu so sánh trung bình giữ a hai nhóm đố i tượ ng, các
nhà nghiên cứ u ưa thích sử dụ ng Independent-Samples T Test hơn One-Way ANOVA.
Để kiểm định trung bình biến định lượ ng vớ i các nhóm giá trị củ a biến định tính, chúng ta
đặ t giả thuyết H0: Không có sự khác biệt trung bình giữa các nhóm giá trị. Phép kiểm định F
hoặ c Welch đượ c sử dụ ng để kiểm định giả thuyết này tùy thuộ c vào phương sai giữ a các
nhóm giá trị là khác biệt hay không khác biệt. Trong SPSS, các số liệu củ a kiểm định F
đượ c lấ y từ bả ng ANOVA, kiểm Welch lấ y từ bả ng Robust Tests of Equality of Means. Kết
quả kiểm định:
 Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là có sự khác biệt trung bình mộ t cách có ý
nghĩa thố ng kê giữ a các nhóm giá trị.
 Sig > 0.05: Chấ p nhậ n giả thuyết H0, nghĩa là không có sự khác biệt trung bình mộ t
cách có ý nghĩa thố ng kê giữ a các nhóm giá trị.
Cũ ng giố ng như Independent-Samples T Test, trướ c khi đánh giá sự khác biệt trung bình,
chúng ta cầ n kiểm định sự đồ ng nhấ t phương sai củ a hai nhóm giá trị biến định tính. Để
thự c hiện điều này, chúng ta đặ t giả thuyết HL-0: Không có sự khác biệt phương sai giữa các
nhóm giá trị. Phép kiểm định Levene đượ c sử dụ ng để kiểm định giả thuyết này. Trong
SPSS, các số liệu củ a kiểm định Levene đượ c lấ y từ hàng Based on Mean củ a bả ng Test of
Homogeneity of Variances. Kết quả kiểm định:
 Sig < 0.05: Bác bỏ giả thuyết HL-0, nghĩa là có sự khác biệt phương sai mộ t cách có ý
nghĩa thố ng kê giữ a các nhóm giá trị. Chúng ta sử dụ ng kết quả kiểm định Welch ở
bả ng Robust Tests of Equality of Means.
 Sig > 0.05: Chấ p nhậ n giả thuyết HL-0, nghĩa là không có sự khác biệt phương sai mộ t
cách có ý nghĩa thố ng kê giữ a các nhóm giá trị. Chúng ta sử dụ ng kết quả kiểm định
F ở bả ng ANOVA.
Quy trình đọ c kết quả One-Way ANOVA đượ c tóm gọ n trong hai bướ c như sau:
Sau khi tích chọ n các mụ c ở trên, nhấ p Continue để quay lạ i giao diện ban đầ u. Sau đó
chọ n OK để xuấ t kết quả ra output. Kết quả kiểm định gồ m nhiều bả ng, chúng ta sẽ đọ c kết
quả ở bả ng Test of Homogeneity of Variances trướ c.

a. Kiểm định One-Way ANOVA vớ i biến Độ tuổ i


Vớ i phiên bả n SPSS 26, bả ng Test of Homogeneity of Variances có nhiều thông tin hơn so
vớ i SPSS 20. Khi nhậ n xét kiểm định Levene, chúng ta sẽ dự a vào kết quả ở hàng Based on
Mean.
Sig kiểm định Levene bằ ng 0.009 < 0.05, có sự khác biệt phương sai giữ a các nhóm tuổ i,
chúng ta sẽ sử dụ ng kết quả kiểm định Welch ở bả ng Robust Tests of Equality of Means.

Sig kiểm định Welch bằ ng 0.001 < 0.05, chấ p nhậ n giả thuyết H0, nghĩa là có sự khác biệt
trung bình F_HL giữ a các nhóm tuổ i khác nhau. Như vậ y, có khác biệt sự hài lòng công việc
giữ a các nhân viên có độ tuổ i khác nhau.

Bả ng Descriptives cho chúng ta các thông số mô tả củ a từ ng nhóm tuổ i. Giá trị trung bình ở
hai nhóm tuổ i Từ 18 – 25 tuổ i và Từ 26 – 35 tuổ i nằ m trong đoạ n 2.61 – 3.40 (ý kiến trung
lậ p – dự a theo giá trị khoả ng cách đã giớ i thiệu trong chương THỐNG KÊ MÔ TẢ – TẦN
SUẤT, TRUNG BÌNH, KẾT HỢP), nghĩa là nhân viên trong độ tuổ i từ 18 – 35 cả m thấ y bình
thườ ng vớ i công việc hiện tạ i. Trong khi đó, giá trị trung bình hai nhóm Từ 36 – 45 tuổ i và
Trên 45 tuổ i nằ m trong đoạ n 3.41 – 4.20 (ý kiến đồ ng ý), nghĩa là nhân viên trong độ tuổ i từ
36 trở lên cả m thấ y hài lòng về công việc.
Bên cạ nh đó, có thể thấ y rằ ng giá trị trung bình có xu hướ ng tă ng dầ n theo mứ c tuổ i, nghĩa
là độ tuổ i cao hơn thì sự hài lòng cao hơn.
Đi kèm vớ i thố ng kê mô tả , chúng ta có biểu đồ đườ ng thể hiện mố i liên hệ giữ a trung bình
sự hài lòng và từ ng độ tuổ i. Đườ ng biểu diễn đượ c vẽ dự a vào giá trị cộ t Mean trong
bả ng Descriptives, đườ ng này có xu hướ ng dố c lên khi độ tuổ i tă ng dầ n cho thấ y sự hài
lòng củ a nhân viên cao hơn ở độ tuổ i cao hơn.
Cầ n lưu ý rằ ng, khi đánh giá sự khác biệt trung bình, chúng ta sẽ dự a vào kết quả kiểm định
chứ không đánh giá định tính qua biểu đồ hay bả ng thố ng kê mô tả . Biểu đồ và chỉ số giá trị
trung bình chỉ là bổ trợ giả i thích thêm kết quả cho phép kiểm định.

b. Kiểm định One-Way ANOVA vớ i biến Họ c vấ n


Thự c hiện kiểm định tương tự vớ i biến Học vấn, chúng ta có kết quả bả ng Test of
Homogeneity of Variances như sau:

Sig kiểm định Levene bằ ng 0.456 > 0.05, không có sự khác biệt phương sai giữ a các nhóm
họ c vấ n, chúng ta sẽ sử dụ ng kết quả kiểm định F ở bả ng ANOVA.
Sig kiểm định F bằ ng 0.639 < 0.05, chấ p nhậ n giả thuyết H0, nghĩa là không có sự khác biệt
trung bình F_HL giữ a các trình độ họ c vấ n khác nhau. Như vậ y, không có khác biệt sự hài
lòng công việc giữ a các nhân viên có trình độ họ c vấ n khác nhau.

Bả ng Descriptives cho chúng ta các thông số mô tả củ a từ ng mứ c họ c vấ n. Giá trị trung bình


củ a các nhóm họ c vấ n nằ m trong đoạ n 3.41 – 4.20 (ý kiến đồ ng ý), nghĩa là dù nhân viên có
họ c vấ n khác nhau, họ đều cả m thấ y hài lòng về công việc.
EFA

– Phân tích nhân tố khám phá, gọ i tắ t là EFA, dùng để rút gọ n mộ t tậ p hợ p k biến quan
sát thành mộ t tậ p F (vớ i F < k) các nhân tố có ý nghĩa hơn. Trong nghiên cứ u, chúng ta
thườ ng thu thậ p đượ c mộ t số lượ ng biến khá lớ n và rấ t nhiều các biến quan sát trong đó có
liên hệ tương quan vớ i nhau. Thay vì đi nghiên cứ u 20 đặ c điểm nhỏ củ a mộ t đố i tượ ng,
chúng ta có thể chỉ nghiên cứ u 4 đặ c điểm lớ n, trong mỗ i đặ c điểm lớ n này gồ m 5 đặ c điểm
nhỏ có sự tương quan vớ i nhau. Điều này giúp tiết kiệm thờ i gian và kinh phí nhiều hơn cho
ngườ i nghiên cứ u.
– Vớ i kiểm định độ tin cậy thang đo Cronbach Alpha, chúng ta đang đánh giá mố i quan
hệ giữ a các biến trong cùng mộ t nhóm, cùng mộ t nhân tố , chứ không xem xét mố i quan hệ
giữ a tấ t cả các biến quan sát ở các nhân tố khác. Trong khi đó, EFA xem xét mố i quan hệ
giữ a các biến ở tấ t cả các nhóm (các nhân tố ) khác nhau nhằ m phát hiện ra nhữ ng biến quan
sát tả i lên nhiều nhân tố hoặ c các biến quan sát bị phân sai nhân tố từ ban đầ u.
2. Các tiêu chí trong phân tích EFA
– Hệ số KMO (Kaiser-Meyer-Olkin) là mộ t chỉ số dùng để xem xét sự thích hợ p củ a phân
tích nhân tố . Trị số củ a KMO phả i đạ t giá trị 0.5 trở lên (0.5 ≤ KMO ≤ 1) là điều kiện đủ để
phân tích nhân tố là phù hợ p. Nếu trị số này nhỏ hơn 0.5, thì phân tích nhân tố có khả nă ng
không thích hợ p vớ i tậ p dữ liệu nghiên cứ u. Hutcheson & Sofroniou (1999) đề xuấ t mộ t số
ngưỡ ng giá trị KMO như sau:
 KMO ≥5: mứ c chấ p nhậ n tố i thiểu
 5 < KMO ≤ 0.7: bình thườ ng
 7 < KMO ≤ 0.8: tố t
 8 < KMO ≤ 0.9: rấ t tố t
 KMO >9: xuấ t sắ c
– Kiểm định Bartlett (Bartlett’s test of sphericity) là mộ t kiểm định xem xét có mố i
tương quan xả y ra giữ a các biến tham gia vào EFA. Giả định rấ t quan trọ ng trong EFA là
các biến quan sát đưa vào phân tích cầ n có sự tương quan vớ i nhau. Thay vì đánh giá dự a
vào ma trậ n tương quan khá khó khă n, chúng ta sẽ dùng tớ i kiểm định Bartlett. Kiểm định
này sẽ xem xét có mố i tương quan xả y ra giữ a các biến tham gia vào EFA hay không vớ i giả
thuyết Ho: Không có mối tương quan giữa các biến quan sát. Nếu sig kiểm định Bartlett nhỏ
hơn 0.05, chúng ta bác bỏ Ho và kết luậ n các biến tham gia vào EFA có sự tương quan vớ i
nhau, ngượ c lạ i, nếu sig lớ n hơn 0.05, chúng ta chấ p nhậ n Ho và kết luậ n các biến quan sát
không có sự tương quan vớ i nhau, phân tích EFA là không phù hợ p
– Trị số Eigenvalue là mộ t tiêu chí sử dụ ng phổ biến để xác định số lượ ng nhân tố trong
phân tích EFA. Vớ i tiêu chí này, chỉ có nhữ ng nhân tố nào có Eigenvalue > 1 mớ i đượ c giữ
lạ i trong mô hình phân tích.
– Tổng phương sai trích (Total Variance Explained) ≥ 50% cho thấ y mô hình EFA là phù
hợ p. Coi biến thiên là 100% thì trị số này thể hiện các nhân tố đượ c trích cô đọ ng đượ c bao
nhiêu % và bị thấ t thoát bao nhiêu % củ a các biến quan sát.
– Hệ số tải nhân tố (Factor Loading) hay còn gọ i là trọ ng số nhân tố , giá trị này biểu thị
mố i quan hệ tương quan giữ a biến quan sát vớ i nhân tố . Hệ số tả i nhân tố càng cao, nghĩa là
tương quan giữ a biến quan sát đó vớ i nhân tố càng lớ n và ngượ c lạ i. Theo Hair & ctg
(2009,116), Multivariate Data Analysis, 7th Edition thì:
 Factor Loading ở mứ c ± 0.3: Điều kiện tố i thiểu để biến quan sát đượ c giữ lạ i.
 Factor Loading ở mứ c ± 0.5: Biến quan sát có ý nghĩa thố ng kê tố t.
 Factor Loading ở mứ c ± 0.7: Biến quan sát có ý nghĩa thố ng kê rấ t tố t.
Tuy nhiên, giá trị tiêu chuẩ n củ a hệ số tải Factor Loading cầ n phả i phụ thuộ c vào kích
thướ c mẫ u. Trên thự c tế, việc nhớ từ ng mứ c hệ số tả i vớ i từ ng khoả ng kích thướ c mẫ u là
khá khó khă n, do vậ y người ta thường lấy hệ số tải 0.5 làm mức tiêu chuẩn với cỡ mẫu
từ 120 đến dưới 350; lấy tiêu chuẩn hệ số tải là 0.3 với cỡ mẫu từ 350 trở lên.
3. Cách phân tích nhân tố khám phá EFA trên SPSS
Vớ i đề tài đã xác định đượ c biến độ c lậ p và biến phụ thuộ c, chúng ta cầ n phân tích EFA
riêng giữ a độ c lậ p và phụ thuộ c. Lý do tạ i sao, bạ n vui lòng xem tạ i bài viết Chạy EFA
riêng hay chung giữa biến độc lập với biến phụ thuộc?.
Thự c hiện phân tích nhân tố EFA vớ i mộ t tậ p data mẫ u có sẵ n. Lầ n lượ t chạy phân tích
nhân tố khám phá cho biến độ c lậ p và biến phụ thuộ c. Ví dụ bên dướ i tác giả thự c hành
mẫ u vớ i các biến độ c lậ p, biến phụ thuộ c bạ n đọ c thự c hiện tương tự .
Lưu ý, các biến quan sát bị loạ i ở bướ c Cronbach Alpha trướ c đó sẽ không đượ c đưa vào
để kiểm định EFA.
Để thự c hiện phân tích nhân tố khám phá EFA trong SPSS, chúng ta vào Analyze >
Dimension Reduction > Factor…

Đưa các biến quan sát cầ n thực hiện phân tích EFA vào mụ c Variables. Chú ý 4 tùy chọ n
đượ c đánh số ở ả nh bên dướ i.
– Descriptives: Tích vào mụ c KMO and Barlett’s test of sphericity để xuấ t bả ng giá trị
KMO và giá trị sig củ a kiểm định Barlett. Nhấ p Continue để quay lạ i cử a sổ ban đầ u.

– Extraction: Ở đây, chúng ta sẽ sử dụ ng phép trích PCA (Principal Components Analysis).


Vớ i SPSS 20 và các phiên bả n 21, 22, 23, 24, PCA sẽ đượ c viết gọ n lạ i là Principal
Components như hình ả nh bên dướ i, đây cũ ng là tùy chọ n mặ c định củ a SPSS.
Khi các bạ n nhấ p chuộ t vào nút mũ i tên hướ ng xuố ng sẽ có nhiều tùy chọ n phép trích khác
nhau. Số lượ ng nhân tố đượ c trích ra ở ma trậ n xoay phụ thuộ c khá nhiều vào việc lự a chọ n
phép trích, tuy nhiên, tài liệu này sẽ chỉ tậ p trung vào phầ n PCA.
– Rotation: Ở đây có các phép quay, thườ ng chúng ta hay sử dụ ng Varimax và Promax.
Riêng vớ i dạ ng đề tài đã xác định đượ c biến độ c lậ p và biến phụ thuộ c, chúng ta sử dụ ng
phép quay Varimax. Nhấ p Continue để quay lạ i cử a sổ ban đầ u.

– Options: Tích vào 2 mụ c như hình bên dướ i. Sorted by size giúp sắ p xếp ma trậ n xoay
thành từ ng cộ t dạ ng bậ c thang để dễ đọ c dữ liệu hơn. Suppress small coefficients giúp loạ i
bỏ các hệ số tả i không đạ t tiêu chuẩ n khỏ i ma trậ n xoay, giúp ma trậ n gọ n gàng, trự c quan
hơn. Tạ i mụ c này sẽ có hàng Absolute value below, bạ n cầ n nhậ p vào giá trị hệ số tả i nhân
tố Factor Loading tiêu chuẩ n. Kích thướ c mẫ u file dữ liệu là 220 nên tác giả sẽ nhậ p vào
0.5. Nhấ p Continue để quay lạ i cử a sổ ban đầ u.

Tạ i cử a sổ tiếp theo, bạ n chọ n OK để xuấ t kết quả ra Output.

Có khá nhiều bả ng ở Ouput, tuy nhiên, chúng ta chỉ cầ n quan tâm 3 bả ng:
1. KMO and Barlett’s Test: xem hệ số KMO và sig kiểm định Bartlett.
2. Total Variance Explained: xem tổ ng phương sai trích Total Variance Explained và giá trị
Eigenvalue.
3. Rotated Component Matrix: xem ma trậ n xoay và kiểm tra hệ số tả i Factor Loading củ a các
biến quan sát (Lưu ý tránh nhầ m lẫ n vớ i bả ng Component Matrix)
Không phả i lúc nào ma trậ n xoay có đượ c từ kết quả phân tích EFA cũ ng tách biệt các
nhóm mộ t cách hoàn toàn, việc xuấ t hiện các biến xấ u sẽ làm ma trậ n xoay bị xáo trộ n so
vớ i các thang đo lý thuyết. Vậ y cách khắ c phụ c ma trậ n xoay lộ n xộ n như thế nào, bạ n hãy
xem tạ i bài viết này.
Hồ i quy
Khác vớ i tương quan Pearson, trong hồi quy đa biến các biến không có tính chấ t đố i xứ ng như
phân tích tương quan. Vai trò giữ a biến độ c lậ p và biến phụ thuộ c là khác nhau. X và Y hay Y và X
có tương quan vớ i nhau đều mang cùng mộ t ý nghĩa, trong khi đó vớ i hồ i quy, ta chỉ có thể nhậ n xét:
X tác độ ng lên Y hoặ c Y chịu tác độ ng bở i X.
Đố i vớ i phân tích hồi quy tuyến tính đa biến, chúng ta giả định các biến độ c lậ p X1, X2, X3 sẽ tác
độ ng đến biến phụ thuộ c Y. Ngoài X1, X2, X3… còn có rấ t nhiều nhữ ng nhân tố khác ngoài mô
hình hồ i quy tác độ ng đến Y mà chúng ta không liệt kê đượ c.

1. Các tiêu chí trong phân tích hồ i quy đa biến


1.1 Giá trị R2 (R Square), R2 hiệu chỉnh (Adjusted R Square)
Giá trị R2 và R2 hiệu chỉnh phả n ánh mứ c độ giả i thích biến phụ thuộ c củ a các biến độ c lậ p
trong mô hình hồ i quy. R2 hiệu chỉnh phả n ánh sát hơn so vớ i R2. Mứ c dao độ ng củ a 2 giá trị
này là từ 0 đến 1, tuy nhiên việc đạ t đượ c mứ c giá trị bằ ng 1 là gầ n như không tưở ng dù
mô hình đó tố t đến nhườ ng nào. Giá trị này thườ ng nằ m trong bả ng Model Summary. Cần
chú ý, không có tiêu chuẩ n chính xác R2 hiệu chỉnh ở mứ c bao nhiêu thì mô hình mớ i đạ t
yêu cầ u, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa
mô hình càng yếu. Thườ ng chúng ta chọ n mứ c trung gian là 0.5 để phân ra 2 nhánh ý nghĩa
mạ nh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tố t, bé hơn 0.5 là mô hình chưa tố t. Tuy
nhiên, tùy vào dạ ng nghiên cứ u và dạ ng dữ liệu, không phả i lúc nào cũ ng bắ t buộ c rằ ng mô
hình hồ i quy phả i đạ t giá trị R2 hiệu chỉnh lớ n hơn 0.5 mớ i có ý nghĩa.

1.2 Kiểm định F


Giá trị sig của kiểm định F đượ c sử dụ ng để kiểm định độ phù hợ p củ a mô hình hồ i quy.
Nếu sig nhỏ hơn 0.05, ta kết luậ n mô hình hồ i quy tuyến tính bộ i phù hợ p vớ i tậ p dữ liệu và
có thể sử đụ ng đượ c. Giá trị này thườ ng nằ m trong bả ng ANOVA.

1.3 Hệ số Durbin Watson


Trị số Durbin – Watson (DW) dùng để kiểm tra hiện tượ ng tự tương quan chuỗ i bậ c nhấ t
(kiểm định tương quan củ a các sai số kề nhau). DW có giá trị biến thiên trong khoả ng từ 0
đến 4; nếu các phầ n sai số không có tương quan chuỗ i bậ c nhấ t vớ i nhau thì giá trị sẽ gầ n
bằ ng 2, nếu giá trị càng nhỏ , gầ n về 0 thì các phầ n sai số có tương quan thuậ n; nếu càng lớ n,
gầ n về 4 có nghĩa là các phầ n sai số có tương quan nghịch.
Theo Field (2009), nếu DW nhỏ hơn 1 và lớ n hơn 3, chúng ta cầ n thự c sự lưu ý bở i khả
nă ng rấ t cao xả y ra hiện tượ ng tự tương quan chuỗ i bậ c nhấ t. Theo Yahua Qiao (2011),
thườ ng giá trị DW nằ m trong khoả ng 1.5 – 2.5 sẽ không xả y ra hiện tượ ng tự tương
quan, đây cũng là mức giá trị tiêu chuẩn chúng ta sử dụng phổ biến hiện nay.
Để đả m bả o chính xác, chúng ta sẽ tra ở bả ng thố ng kê Durbin-Watson (có thể tìm bả ng
thố ng kê DW trên Internet). Giá trị này thườ ng nằ m trong bả ng Model Summary.
Hệ số k’ là số biến độ c lậ p đưa vào chạ y hồ i quy, N là kích thướ c mẫ u. Nếu N củ a bạ n là
mộ t con số lẻ như 175, 214, 256, 311…. mà bả ng tra DW chỉ có các kích thướ c mẫ u làm
tròn dạ ng 150, 200, 250, 300, 350… thì bạ n có thể làm tròn kích thướ c mẫ u vớ i giá trị gầ n
nhấ t trong bả ng tra. Ví dụ : 175 làm tròn thành 200; 214 làm tròn 200; 256 làm tròn 250, 311
làm tròn 300…

1.4 Kiểm định t


Giá trị sig của kiểm định t đượ c sử dụ ng để kiểm định ý nghĩa củ a hệ số hồ i quy. Nếu sig
kiểm định t củ a hệ số hồ i quy củ a mộ t biến độ c lậ p nhỏ hơn 0.05, ta kết luậ n biến độ c lậ p
đó có tác độ ng đến biến phụ thuộ c. Nếu sig kiểm định t củ a biến độ c lậ p lớ n hơn 0.05,
chúng ta kết luậ n biến độ c lậ p đó không có sự tác độ ng lên biến phụ thuộ c, và không cầ n
loạ i bỏ biến đó để chạ y lạ i hồ i quy lầ n tiếp theo. Mỗ i biến độ c lậ p tương ứ ng vớ i mộ t hệ số
hồ i quy riêng, do vậ y mà ta cũ ng có từ ng kiểm định t riêng. Giá trị này thườ ng nằ m trong
bả ng Coefficients.

1.5 Đa cộ ng tuyến VIF


Hệ số phóng đại phương sai VIF dùng để kiểm tra hiện tượ ng đa cộ ng tuyến. Thông
thườ ng, nếu VIF củ a mộ t biến độ c lậ p lớ n hơn 10 nghĩa là đang có đa cộ ng tuyến xả y ra
vớ i biến độ c lậ p đó. Khi đó, biến này sẽ không có giá trị giả i thích biến thiên củ a biến phụ
thuộ c trong mô hình hồ i quy. Vớ i các đề tài sử dụ ng thang đo Likert, nếu hệ số VIF > 2 thì
khả nă ng rấ t cao đang xả y ra hiện tượ ng đa cộ ng tuyến giữ a các biến độ c lậ p. Giá trị này
thườ ng nằ m trong bả ng Coefficients.

2. Thự c hành trên SPSS 20 vớ i tậ p dữ liệu mẫ u


Phầ n thự c hành này tác giả có mộ t tậ p data mẫ u vớ i biến phụ thuộ c là Sự hài lòng của
nhân viên (ký hiệu HL), các biến độ c lậ p là:
 Lương, thưởng, phúc lợi: TN
 Bản chất công việc: CV
 Quan hệ với lãnh đạo: LD
 Môi trường làm việc: MT
 Đào tạo và thăng tiến: DT
Thự c hiện phân tích hồ i quy tuyến tính bộ i để đánh giá sự tác độ ng củ a các biến độ c lậ p
này đến biến phụ thuộ c HL.
Để thự c hiện phân tích hồ i quy đa biến trong SPSS 20, chúng ta vào Analyze > Regression
> Linear…

Đưa biến phụ thuộ c vào ô Dependent, các biến độ c lậ p vào ô Indenpendents:
Vào mụ c Statistics, tích chọ n các mụ c như trong ả nh và chọ n Continue:
Vào mụ c Plots, tích chọ n vào Histogram và Normal probability plot, kéo
biến ZRESID thả vào ô Y, kéo biến ZPRED thả vả o ô X như hình bên dướ i. Tiếp tụ c
chọ n Continue.

Ở mụ c Save, tích vào ô Standardized như hình bên dướ i để xuấ t dữ liệu phầ n dư chuẩ n
hóa, phụ c vụ cho việc kiểm tra vi phạ m giả định phương sai không đổ i. Sau đó
chọ n Continue.
Các mụ c còn lạ i chúng ta sẽ để mặ c định. Quay lạ i giao diện ban đầ u, mụ c Method là các
phương pháp chạ y hồ i quy, 2 method phổ biến nhấ t là Stepwise và Enter, thườ ng thì sẽ
chọ n Enter. Chọ n xong phương pháp, các bạ n nhấ p vào OK.
SPSS sẽ xuấ t ra rấ t nhiều bả ng, nhữ ng bả ng các bạ n cầ n sử dụ ng là: Model Summary,
ANOVA, Coefficients.

→ Giá trị R2 hiệu chỉnh bằ ng 0.726 cho thấ y biến độ c lậ p đưa vào chạ y hồ i quy ả nh hưở ng
72.6% sự thay đổ i củ a biến phụ thuộ c, còn lạ i 27.4% là do các biến ngoài mô hình và sai số
ngẫ u nhiên.
→ Hệ số Durbin – Watson = 1.998, nằ m trong khoả ng 1.5 đến 2.5 nên không có hiện tượ ng
tự tương quan chuỗ i bậ c nhấ t xả y ra.
→ Sig kiểm định F bằ ng 0.00 < 0.05, như vậ y, mô hình hồ i quy tuyến tính bộ i phù hợ p vớ i
tậ p dữ liệu và có thể sử đụ ng đượ c.

→ Sig kiểm định t hệ số hồ i quy củ a các biến độ c lậ p đều nhỏ hơn 0.05, do đó các biến độ c
lậ p đều có ý nghĩa giả i thích cho biến phụ thuộ c, không biến nào bị loạ i khỏ i mô hình.
(Lưu ý rằng SPSS ký hiệu .031 nghĩa là 0.031. SPSS tự động loại bỏ số 0 trước dấu phẩy
phần thập phân một số bảng kết quả như tương quan, hồi quy,…)
→ Hệ số VIF củ a các biến độ c lậ p đều nhỏ hơn 10 do vậ y không có đa cộ ng tuyến xả y ra.
→ Các hệ số hồ i quy đều lớ n hơn 0. Như vậ y tấ t cả các biến độ c lậ p đưa vào phân tích hồ i
quy đều tác độ ng cùng chiều tớ i biến phụ thuộ c. Dự a vào độ lớ n củ a hệ số hồ i quy chuẩ n
hóa Beta, thứ tự mứ c độ tác độ ng từ mạ nh nhấ t tớ i yếu nhấ t củ a các biến độ c lậ p tớ i biến
phụ thuộ c HL là: LD (0.394) > DT(0.370) > TN (0.369) > CV (0.323) > MT (0.079). Tương
ứ ng vớ i:
 Biến Lãnh đạo và cấp trên tác độ ng mạ nh nhấ t tớ i sự hài lòng củ a nhân viên.
 Biến Cơ hội đào tạo và thăng tiến tác độ ng mạ nh thứ 2 tớ i sự hài lòng củ a nhân
viên.
 Biến Lương, thưởng, phúc lợi tác độ ng mạ nh thứ 3 tớ i sự hài lòng củ a nhân viên.
 Biến Bản chất công việc tác độ ng mạ nh thứ 4 tớ i sự hài lòng củ a nhân viên.
 Biến Điều kiện làm việc tác độ ng yếu nhấ t tớ i sự hài lòng củ a nhân viên.
Kết luậ n, vớ i 6 giả thuyết từ H1 đến H6 chúng ta đã đặ t ra ban đầ u ở mụ c Giả thuyết nghiên
cứ u (mụ c 1.3). Có 5 giả thuyết đượ c chấ p nhậ n là: H1, H2, H3, H5, H6 tương ứ ng vớ i các
biến: Lãnh đạo và cấp trên; Cơ hội đào tạo và thăng tiến; Lương, thưởng, phúc lợi; Bản
chất công việc; Điều kiện làm việc. Riêng giả thuyết H4 bị bác bỏ , yếu tố Đồng nghiệp không
tác độ ng đến Sự hài lòng của nhân viên trong công việc tạ i công ty TNHH Nhãn Xanh, hay
nói cách khác, biến Đồng nghiệp không có ý nghĩa trong mô hình hồ i quy.
Phương trình hồ i quy chuẩ n hóa:
HL = 0.394*LD + 0.370*DT + 0.369*TN + 0.323*CV + 0.079*MT + e
Sự hài lòng của nhân viên = 0.394 * Lãnh đạo và cấp trên
+ 0.370 * Cơ hội đào tạo và thăng tiến
+ 0.369 * Lương, thưởng, phúc lợi
+ 0.323 * Bản chất công việc
+ 0.079 * Điều kiện làm việc
** Lưu ý: Khi viết phương trình hồi quy chuẩn hóa, nên sắp xếp các biến độc lập theo thứ
tự hệ số hồi quy chuẩn hóa giảm dần để thuận tiện đọc kết quả từ phương trình.
regression
/statistics coeff outs r anova ci
/dependent science
/method = enter math female socst read.
Image spss_output_reg_1

Image spss_output_reg_2

Image spss_output_reg_3

Image spss_output_reg_4

Variables in the model


Image spss_output_reg_1a

c. Model – SPSS allows you to specify multiple models in a single regression command.
This tells you the number of the model being reported.

d. Variables Entered – SPSS allows you to enter variables into a regression in blocks,
and it allows stepwise regression. Hence, you need to know which variables were
entered into the current regression. If you did not block your independent variables or
use stepwise regression, this column should list all of the independent variables that
you specified.
e. Variables Removed – This column listed the variables that were removed from the
current regression. Usually, this column will be empty unless you did a stepwise
regression.

f. Method – This column tells you the method that SPSS used to run the regression.
“Enter” means that each independent variable was entered in usual fashion. If you did a
stepwise regression, the entry in this column would tell you that.

Overall Model Fit


Image spss_output_reg_2a

b. Model – SPSS allows you to specify multiple models in a single regression command.
This tells you the number of the model being reported.

c. R – R is the square root of R-Squared and is the correlation between the observed and
predicted values of dependent variable.

d. R-Square – R-Square is the proportion of variance in the dependent variable (science)


which can be predicted from the independent variables (math, female, socst and read).
This value indicates that 48.9% of the variance in science scores can be predicted from
the variables math, female, socst and read. Note that this is an overall measure of the
strength of association, and does not reflect the extent to which any particular
independent variable is associated with the dependent variable. R-Square is also called
the coefficient of determination.

e. Adjusted R-square – As predictors are added to the model, each predictor will explain
some of the variance in the dependent variable simply due to chance. One could
continue to add predictors to the model which would continue to improve the ability of
the predictors to explain the dependent variable, although some of this increase in R-
square would be simply due to chance variation in that particular sample. The adjusted
R-square attempts to yield a more honest value to estimate the R-squared for the
population. The value of R-square was .489, while the value of Adjusted R-square
was .479 Adjusted R-squared is computed using the formula 1 – ((1 – Rsq)(N – 1 )/ (N –
k – 1)). From this formula, you can see that when the number of observations is small
and the number of predictors is large, there will be a much greater difference between
R-square and adjusted R-square (because the ratio of (N – 1) / (N – k – 1) will be much
greater than 1). By contrast, when the number of observations is very large compared
to the number of predictors, the value of R-square and adjusted R-square will be much
closer because the ratio of (N – 1)/(N – k – 1) will approach 1.
f. Std. Error of the Estimate – The standard error of the estimate, also called the root
mean square error, is the standard deviation of the error term, and is the square root of
the Mean Square Residual (or Error).

Anova Table
Image spss_output_reg_3a

c. Model – SPSS allows you to specify multiple models in a single regression command.
This tells you the number of the model being reported.

d. This is the source of variance, Regression, Residual and Total. The Total variance is
partitioned into the variance which can be explained by the independent variables
(Regression) and the variance which is not explained by the independent variables
(Residual, sometimes called Error). Note that the Sums of Squares for the Regression
and Residual add up to the Total, reflecting the fact that the Total is partitioned into
Regression and Residual variance.

e. Sum of Squares – These are the Sum of Squares associated with the three sources of
variance, Total, Model and Residual. These can be computed in many ways.
Conceptually, these formulas can be expressed as: SSTotal The total variability around
the mean. S(Y – Ybar)2. SSResidual The sum of squared errors in prediction. S(Y –
Ypredicted)2. SSRegression The improvement in prediction by using the predicted
value of Y over just using the mean of Y. Hence, this would be the squared differences
between the predicted value of Y and the mean of Y, S(Ypredicted – Ybar)2. Another
way to think of this is the SSRegression is SSTotal – SSResidual. Note that the SSTotal =
SSRegression + SSResidual. Note that SSRegression / SSTotal is equal to .489, the value
of R-Square. This is because R-Square is the proportion of the variance explained by the
independent variables, hence can be computed by SSRegression / SSTotal.

f. df – These are the degrees of freedom associated with the sources of variance. The
total variance has N-1 degrees of freedom. In this case, there were N=200 students, so
the DF for total is 199. The model degrees of freedom corresponds to the number of
predictors minus 1 (K-1). You may think this would be 4-1 (since there were 4
independent variables in the model, math, female, socst and read). But, the intercept is
automatically included in the model (unless you explicitly omit the intercept). Including
the intercept, there are 5 predictors, so the model has 5-1=4 degrees of freedom. The
Residual degrees of freedom is the DF total minus the DF model, 199 – 4 is 195.
g. Mean Square – These are the Mean Squares, the Sum of Squares divided by their
respective DF. For the Regression,

9543.72074 / 4 = 2385.93019. For the Residual, 9963.77926 / 195 =

51.0963039. These are computed so you can compute the F ratio, dividing the Mean
Square Regression by the Mean Square Residual to test the significance of the predictors
in the model.

h. F and Sig. – The F-value is the Mean Square Regression (2385.93019) divided by the
Mean Square Residual (51.0963039), yielding F=46.69. The p-value associated with this
F value is very small (0.0000). These values are used to answer the question “Do the
independent variables reliably predict the dependent variable?”. The p-value is
compared to your alpha level (typically 0.05) and, if smaller, you can conclude “Yes, the
independent variables reliably predict the dependent variable”. You could say that the
group of variables math, and female, socst and read can be used to reliably predict
science (the dependent variable). If the p-value were greater than 0.05, you would say
that the group of independent variables does not show a statistically significant
relationship with the dependent variable, or that the group of independent variables
does not reliably predict the dependent variable. Note that this is an overall significance
test assessing whether the group of independent variables when used together reliably
predict the dependent variable, and does not address the ability of any of the particular
independent variables to predict the dependent variable. The ability of each individual
independent variable to predict the dependent variable is addressed in the table below
where each of the individual variables are listed.

Parameter Estimates
Image spss_output_reg_4a

b. Model – SPSS allows you to specify multiple models in a single regression command.
This tells you the number of the model being reported.

c. This column shows the predictor variables (constant, math, female, socst, read). The
first variable (constant) represents the constant, also referred to in textbooks as the Y
intercept, the height of the regression line when it crosses the Y axis. In other words,
this is the predicted value of science when all other variables are 0.

d. B – These are the values for the regression equation for predicting the dependent
variable from the independent variable. These are called unstandardized coefficients
because they are measured in their natural units. As such, the coefficients cannot be
compared with one another to determine which one is more influential in the model,
because they can be measured on different scales. For example, how can you compare
the values for gender with the values for reading scores? The regression equation can
be presented in many different ways, for example:

Ypredicted = b0 + b1*x1 + b2*x2 + b3*x3 + b3*x3 + b4*x4

The column of estimates (coefficients or parameter estimates, from here on labeled


coefficients) provides the values for b0, b1, b2, b3 and b4 for this equation. Expressed
in terms of the variables used in this example, the regression equation is

sciencePredicted = 12.325 +

.389*math + -2.010*female+.050*socst+.335*read

These estimates tell you about the relationship between the independent variables and
the dependent variable. These estimates tell the amount of increase in science scores
that would be predicted by a 1 unit increase in the predictor. Note: For the independent
variables which are not significant, the coefficients are not significantly different from 0,
which should be taken into account when interpreting the coefficients. (See the
columns with the t-value and p-value about testing whether the coefficients are
significant). math – The coefficient (parameter estimate) is

.389. So, for every unit (i.e., point, since this is the metric in which the tests are
measured) increase in math, a .389 unit increase in science is predicted, holding all
other variables constant. (It does not matter at what value you hold the other variables
constant, because it is a linear model.) Or, for every increase of one point on the math
test, your science score is predicted to be higher by .389 points. This is significantly
different from 0. female – For every unit increase in female, there is a

-2.010 unit decrease in the predicted science score, holding all other variables constant.
Since female is coded 0/1 (0=male, 1=female) the interpretation can be put more
simply. For females the predicted science score would be 2 points lower than for males.
The variable female is technically not statistically significantly different from 0, because
the p-value is greater than .05. However, .051 is so close to .05 that some researchers
would still consider it to be statistically significant. socst – The coefficient for socst
is .050. This means that for a 1-unit increase in the social studies score, we expect an
approximately .05 point increase in the science score. This is not statistically
significant; in other words, .050 is not different from 0. read – The coefficient for read
is .335. Hence, for every unit increase in reading score we expect a .335 point increase
in the science score. This is statistically significant.
e. Std. Error – These are the standard errors associated with the coefficients. The
standard error is used for testing whether the parameter is significantly different from
0 by dividing the parameter estimate by the standard error to obtain a t-value (see the
column with t-values and p-values). The standard errors can also be used to form a
confidence interval for the parameter, as shown in the last two columns of this table.

f. Beta – These are the standardized coefficients. These are the coefficients that you
would obtain if you standardized all of the variables in the regression, including the
dependent and all of the independent variables, and ran the regression. By
standardizing the variables before running the regression, you have put all of the
variables on the same scale, and you can compare the magnitude of the coefficients to
see which one has more of an effect. You will also notice that the larger betas are
associated with the larger t-values.

g. t and Sig. – These columns provide the t-value and 2 tailed p-value used in testing the
null hypothesis that the coefficient/parameter is 0. If you use a 2 tailed test, then you
would compare each p-value to your preselected value of alpha. Coefficients having p-
values less than alpha are statistically significant. For example, if you chose alpha to be
0.05, coefficients having a p-value of 0.05 or less would be statistically significant (i.e.,
you can reject the null hypothesis and say that the coefficient is significantly different
from 0). If you use a 1 tailed test (i.e., you predict that the parameter will go in a
particular direction), then you can divide the p-value by 2 before comparing it to your
preselected alpha level. With a 2-tailed test and alpha of 0.05, you should not reject the
null hypothesis that the coefficient for female is equal to 0, because p-value = 0.051 >
0.05. The coefficient of -2.009765 is not significantly different from 0. However, if you
hypothesized specifically that males had higher scores than females (a 1-tailed test) and
used an alpha of 0.05, the p-value of .0255 is less than 0.05 and the coefficient for female
would be significant at the 0.05 level. In this case, we could say that the female
coefficient is significantly greater than 0. Neither a 1-tailed nor 2-tailed test would be
significant at alpha of 0.01.

The constant is significantly different from 0 at the 0.05 alpha level. However, having a
significant intercept is seldom interesting.

The coefficient for math (.389) is statistically significantly different from 0 using alpha
of 0.05 because its p-value is 0.000, which is smaller than 0.05.

The coefficient for female (-2.01) is not statistically significant at the 0.05 level since the
p-value is greater than .05.

The coefficient for socst (.05) is not statistically significantly different from 0 because its
p-value is definitely larger than 0.05.
The coefficient for read (.335) is statistically significant because its p-value of 0.000 is
less than .05.

h. [95% Conf. Interval] – These are the 95% confidence intervals for the coefficients.
The confidence intervals are related to the p-values such that the coefficient will not be
statistically significant at alpha = .05 if the 95% confidence interval includes zero.
These confidence intervals can help you to put the estimate from the coefficient into
perspective by seeing how much the value could vary.

Primary Sidebar

You might also like