Professional Documents
Culture Documents
NEW - AT - Descriptive Analysis 2 and Hypothesis Testing
NEW - AT - Descriptive Analysis 2 and Hypothesis Testing
(Lưu ý: Tuỳ biến số được đo bằng thang đo nào mà dùng các trị số khác
nhau để mô tả xu hướng trung tâm và độ phân tán dữ liệu của biến số đó.)
THỐNG KÊ MÔ TẢ
BIẾN ĐỊNH DANH, BIỂU DANH (NOMINAL)
Mô tả biến số:
Trình độ giáo dục
của đáp viên (biến
số định danh)
Analyze>Descriptives>Frequencies
Mode?
Dữ liệu nào phân tán hơn?
Ví dụ:
B
A
THỐNG KÊ MÔ TẢ
BIẾN THỨ TỰ (ORDINAL)
• Đo lường xu hướng trung tâm (central tendency): tóm lược trị số thường xảy
ra nhất, hay nằm ở vị trí trung tâm của phân phối các dữ liệu thu thập được.
• Biểu đồ tần số
• Đường cong tần số
• Số trung bình (mean)
• Đo lường độ phân tán (dispersion): tóm lược các trị số dữ liệu thu thập được
phân bố gần hay xa bao nhiều so với trị số trung tâm.
• Độ lệch trung bình
• Phương sai
• Độ lệch chuẩn (standard deviation)
• Range, maximum, minimum
Ví dụ mô tả dữ liệu thông qua giá trị trung
bình và độ lệch chuẩn
• Giả sử chúng ta làm một nghiên cứu điều tra về tình yêu đối với thương hiệu điện
thoại Carrot bằng cách điều tra hai nhóm khách hàng nam và nữ, mỗi nhóm 100
người. Tổng cộng 200 người này được yêu cầu đánh giá tình yêu đối với thương hiệu
điện thoại Carrot trên thang điểm từ 0-10. Tính toán giá trị trung bình cho thấy nhóm
khách hàng nam đánh giá tình yêu thương hiệu trung bình (mean) của Carrot ở mức
4.8, và nhóm khách hàng nữ đánh giá ở mức 5.0.
• Dựa trên kết quả trên, liệu việc kết luận rằng nhóm khách hàng nữ tình yêu đối với
thương hiệu điện thoại Carrot cao hơn nhóm khách hàng nam có đầy đủ cho người
nghiên cứu trả lời câu hỏi nghiên cứu không?
Ví dụ mô tả dữ liệu thông qua giá trị trung
bình và độ lệch chuẩn
-> Kết luận dựa vào giá trị trung bình thì không đầy đủ. Người nghiên
cứu phải tìm hiểu độ phân tán của dữ liệu và sử dụng độ lệch chuẩn là
thước đo cho độ phân tán của dữ liệu. Ngoài ra, đọc biểu đồ histogram
để xem phân phối của dữ liệu có xu hướng phân tán hay hội tụ,
skewness và turkosis để biết dữ liệu có theo phân phối chuẩn hay không.
Mean Standard Deviation
Cách 2: Nếu dữ liệu KHÔNG theo phân phối chuẩn thì sử dụng Chebyshev’s
Theorem
Chebyshev’s Theorem mô tả tỉ lệ phần trăm nhỏ nhất dữ liệu nằm trong 1, 2, hoặc 3 độ
lệch chuẩn của dữ liệu. Với bất kỳ tập dữ liệu nào:
• ít nhất 75% dữ liệu nằm trong khoảng 2 độ lệch chuẩn của giá trị trung bình (mean), có
nghĩa là nằm trong khoảng mean±2s, với s là độ lệch chuẩn;
• ít nhất 98% dữ liệu nằm trong khoảng 3 độ lệch chuẩn của giá trị trung bình, có nghĩa
là nằm trong khoảng mean±3s;
• ít nhất 1−1/k² dữ liệu nằm trong khoảng k độ lệch chuẩn, có nghĩa là nằm trong khoảng
mean±ks,với k là bất kỳ số nguyên dương nào lớn hơn 1.
Áp dụng với ví dụ:
Kết hợp giá trị trung bình, độ lệch chuẩn (standard deviation), biểu đồ phân
phối, và quy tắc độ lệch chuẩn khi dữ liệu theo phân phối chuẩn (phân phối dữ
liệu trên biến số này là phân phối chuẩn) để diễn giải dữ liệu cho nhóm khách
hàng nam ở ví dụ Carrot.
Nhóm khách hàng nam
Mean Standard
Deviation
Nhóm khách 4.8 0.3
hàng nam
Tần suất
Nhóm khách 5.0 1
hàng nữ
Tần suất
Nhóm khách 5.0 1
hàng nữ
Tần suất
Nhóm khách 5.0 1
hàng nữ
Tần suất
Đối với nhóm khách hàng nữ:
- 68% khách hàng nữ đánh giá tình yêu thương hiệu Carrot nằm trong
khoảng điểm 4.0 và 6.0 (5.0-1; 5.0+1)
- 95% khách hàng nữ đánh giá tình yêu thương hiệu Carrot nằm trong
khoảng điểm 3.0 và 7.0 (5.0-2x1; 5.0+2x1)
- 99.7% khách hàng nữ đánh giá tình yêu thương hiệu Carrot nằm trong
khoảng điểm 2.0 và 8.0 (5.0-3x1; 5.0+3x1) Tình yêu thương hiệu
Áp dụng với ví dụ:
• Qua phân tích giá trị trung bình và độ lệch chuẩn của dữ liệu về biến số
tình yêu thương hiệu (TYTH) của Carrot cho hai nhóm khách hàng nam và
nữ, ta thấy:
• Nhóm khách hàng nữ, mặc dù đánh giá TYTH của Carrot cao hơn khách hàng nam
(5.0 đối với khách hàng nữ, 4.8 đối với khách hàng nam), nhưng sự đánh giá của
nhóm này lại phân tán hay khác nhau nhiều hơn so với nhóm khách hàng nam.
• Sự khác biệt này giữa hai nhóm được thể hiện qua độ lệch chuẩn của dữ liệu (0.3
đối với khách hàng nam và 1.0 đối với khách hàng nữ), và thể hiện qua phân phối
dữ liệu cho thấy 99.7% khách hàng nữ đánh giá TYTH Carrot trong khoảng 2.0 đến
8.0, trong khi 99.7% khách hàng nam đánh giá TYTH Carrot trong khoảng 3.9 và
5.7.
• Do đó, nhóm khách hàng nam tuy đánh giá TYTH Carrot thấp hơn so với khách
hàng nữ, nhưng lại có sự đồng nhất về đánh giá cao hơn nhóm khách hàng nữ.
LƯU Ý:
• Độ lệch chuẩn không cho thấy đúng hoặc sai, tốt
hơn hay tệ hơn về dữ liệu.
• Độ lệch chuẩn thấp không phải là tốt hơn.
• Nó được sử dụng đơn thuần như là một thống kê
mô tả - diễn tả phân phối dữ liệu xung quanh giá
trị trung bình.
Quy trình kiểm định giả thuyết
•• Bước
1: Phát biểu giả thuyết (phát biểu giả thuyết H0 và đối thuyết H1)
• Bước 2: Chọn một kiểm định thống kê thích hợp và loại phân phối
• Bước 3: Chọn mức ý nghĩa thống kê () và miền bác bỏ.
• Bước 4: Đánh giá giá trị tới hạn thống kê của kiểm định hay vùng bác bỏ. Tính p-value
• Bước 5: So sánh với miền bác bỏ để kết luận bác bỏ hay không bác bỏ H0.
Phát biểu quyết định thống kê: bác bỏ H0 hoặc không bác bỏ H0. Đưa ra kết luận không có
thuật ngữ thống kê.
LƯU Ý:
(1) Kiểm định giả thuyết không đi chứng minh một giả thuyết - Đơn giản là
dữ liệu hiện trong tay có ủng hộ hay không ủng hộ cho giả thuyết.
(2) Điều mà chúng ta mong chờ có thể để kết luận là kết quả của kiểm định
thường nên để trong giả thuyết H1.
(3) Giả thuyết H0 là giả thuyết được kiểm định.
(4) Hai giả thuyết H0 & H1 là bổ sung của nhau.
p-value,
ý nghĩa thống kê (statistical significance)
• Trị số p (p-value) là một con số xác suất, tức là viết tắt Ý nghĩa thống kê (statistical significance)
chữ “probability value”. - là đo lường cho thấy khả năng/xác suất một kết
quả xảy ra không phải là do ngẫu nhiên hay tình cờ.
• Ví dụ, nếu khách hàng nam và nữ đánh giá độ cool ngầu
của thương hiệu Vietjet là giống nhau(giả thuyết H0),
P-value và Mức ý nghĩa thống kê (statistical
thì xác suất mà kết quả trên xảy ra là bao nhiêu? significance level)
• Nói cách khác, để trả lời câu hỏi này thì nhà nghiên cứu phải Chọn một mức ý nghĩa thống kê (a statistical
đi tìm trị số p (p-value). significance level)
• Giả sử nếu kết quả cho ra là p-value = 0.009, tức 0.9%, có - Nếu p-value < mức ý nghĩa thống kê, thì xác
nghĩa là xác suất để kết quả trên xảy ra là quá thấp. suất mà kết quả xảy ra do ngẫu nhiên hay tình
cờ là thấp, vì thế kết quả có ý nghĩa thống kê.
• Vì vậy, ta bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1 –
- Nếu p-value >= mức ý nghĩa thống kê, thì xác
tức là khách nam và nữ đánh giá độ cool ngầu của thương hiệu
suất mà kết quả xảy ra do ngẫu nhiên hay tình
Vietjet là khác nhau.
cờ là cao, vì thế kết quả không có ý nghĩa thống
Þ vậy, p-value là xác suất mà kết quả trên dữ liệu xảy ra nếu giả kê.
thuyết H0 là thật.
ví dụ, nếu mức ý nghĩa thống kê là 5% (α= .
05)
p-value < 0.05 p-value >= 0.05
Kết quả Có ý nghĩa thống kê Không có ý nghĩa thống kê
là (statistically significant) (not statistically significant)
Kết luận Có đầy đủ dẫn chứng để bác bỏ Không đầy đủ dẫn chứng để bác bỏ
rằng giả thuyết H0 và chấp nhận giả giả thuyết H0 và bác bỏ giả thuyết
thuyết thay thế/đối thuyết H1. thay thế/đối thuyết H1.
Sai lầm loại I và II (Type I và Type II error)
Sự thật trong tổng thể
Không có sự Có sự khác
khác biệt/không
Không có sự biệt/mối
Có sự quan
khác hệ
có mối
khác quan hệ
biệt/không biệt/mối quan hệ
H0: không có sự có mối 1-α
quan hệ
khác biệt/không (quyết định (sai lầm loại II
Quyết định H0: không
có mối quan
có sự
hệ
1-α đúng) (Type II error))
là xác suất không bác bỏ H0
khác biệt/không (quyết định đúng) khi đúng ra phải bác bỏ
thống
Quyết kê
định có mối quan hệ α 1- nó/khi H0 sai
thống kê H1: có sự khác (sai lầm loại I (khả năng dự đoán
biệt/mối quan hệ
H1: có sự khác (Type αI error)) (power)) là xác suất nhà nghiên cứu
(sai lầm loại I (quyết định đúng) đúng khi họ bác bỏ H0
biệt/mối quan hệ (Type I error))
Nếu là phân phối chuẩn thì giá trị của skewness và kurtosis sẽ bằng 0.
Hai giá trị này càng khác 0 thì phân phối càng lệch phân phối chuẩn.
Skewness (độ lệch) > 0 => dữ liệu phân phối tập trung về phía bên
trái; Skewness < 0 dữ liệu phân phối tập trung về phía bên phải
Kurtosis (độ nhọn) > 0 => độ nhọn của phân phối dữ liệu cao; Kurtosis
< 0 => độ nhọn của phân phối dữ liệu thấp.
Nếu dữ liệu không theo phân phối chuẩn thì?
• Chuyển đổi biến số (lặp lại kiểm định phân phối chuẩn trên biến số đã
chuyển đổi): phương pháp thông thường bao gồm tính log hoặc căn
bậc hai của biến số đó
• Sử dụng kiểm định phi tham số (non-parametric tests).
• Sử dụng kiểm định tham số nhưng với những điều kiện nhất định.
Kiểm định tham số (parametric tests) và
Kiểm định phi tham số (non-parametric tests)
• Kiểm định phi tham số có thể áp dụng cho các tập dữ liệu theo phân
phối khác phân phối chuẩn, áp dụng với nhiều loại biến số (định
lượng/định danh/thứ tự).
• Kiểm định tham số được ưa chuộng hơn do nó nhạy hơn trong việc
tìm ra những khác biệt giữa các nhóm mẫu và mối quan hệ giữa các
biến số.
Kiểm định sự khác biệt
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định sự khác biệt
STT Mục đích sử Ví dụ giả thuyết Giả định/Điều kiện Số Loại thang Tên kiểm Loại kiểm
dụng sử dụng lượng đo định định (tham số
(Assumptions) nhóm/ hay phi tham
mẫu số)
1 So sánh giá trị H0: Độ cool ngầu - Biến số đưa vào 1 Biến định One-sample Kiểm định
trung bình của của thương hiệu phân tích là biến số lượng t test tham số
tổng thể với một Vietjet là bằng 3 định lượng. (thang đo
giá trị cụ thể. trên tổng thể. - Các trường hợp khoảng/tỉ
H1: Độ cool ngầu quan sát không có lệ) Analyze >
Ước lượng giá trị của thương hiệu mối quan hệ với Compare
trung bình trên Vietjet là khác 3 nhau. Means >
tổng thể. (test (trên tổng thể). - Dữ liệu trên biến số One-
value = 0) có phân phối chuẩn. Sample T
- Không có giá trị Test
ngoại lai.
- Phương sai đồng
nhất.
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định sự khác biệt
STT Mục đích Ví dụ giả thuyết Giả định/Điều kiện Số lượng Loại Tên kiểm Loại kiểm
sử dụng sử dụng nhóm/mẫu thang đo định định
(Assumptions) (tham số
hay phi
tham số)
2 Kiểm định H1: Nam và nữ thì - Biến số phụ thuộc là 2 Biến phụ Independe Kiểm định
sự khác cảm nhận độ cool biến số định lượng. thuộc nt- tham số
nhau giữa thương hiệu Vietjet - Biến số độc lập là (dependent samples
hai nhóm khác nhau trên tổng biến số phân loại có variable): T-test
theo đặc thể. hai loại. định lượng
điểm, hành HOẶC - Các quan sát độc lập
vi, và thái H1: Có sự khác biệt về nhau. Biến độc lập
độ. độ cool thương hiệu - Không có giá trị (independent Analyze>
Vietjet giữa nam và nữ ngoại lai (outliers). variable): Compare
trên tổng thể. - Dữ liệu trên biến số định danh means>In
phụ thuộc là theo với hai nhóm dependent
H1: Có sự khác biệt về phân phối chuẩn trên -samples
độ cool thương hiệu từng nhóm. T-test
giữa Vietjet và - Phương sai hai mẫu
Bamboo trên tổng thể. bằng nhau.
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định sự khác biệt
STT Mục đích Ví dụ giả thuyết Giả định/Điều kiện Số lượng Loại Tên kiểm Loại kiểm
sử dụng sử dụng nhóm/mẫu thang đo định định (tham
(Assumptions) số hay phi
tham số)
3 -So sánh đánh giá H1: Có sự khác biệt - Hai biến số phụ 2 (phụ thuộc, Khoảng hoặc Paired Kiểm định
về hai thương hiệu về độ cool của thuộc là biến số định phối hợp) tỉ lệ Sample t- tham số
đối thủ cạnh tranh về thương hiệu trước và lượng. test (kiểm
một thuộc tính nào sau triển khai chương - Các quan sát liên định t với
đó (cùng một nhóm trình marketing xây quan nhau (nhóm mẫu phối
người đánh giá). dựng thương hiệu người trả lời cho biến hợp từng
-So sánh hai thuộc theo độ cool (trên số này cũng trả lời cặp)
tính của một sản tổng thể). cho biến số kia).
phẩm/thương hiệu. - Không có giá trị
-So sánh thuộc H1: Có sự khác biệt ngoại lai (outliers).
tính của một sản giữa tình yêu thương - Dữ liệu trên biến số Analyze >
phẩm hay đánh giá hiệu và gắn kết phụ thuộc là theo Co-
của một thương hiệu thương hiệu (Vietjet) phân phối chuẩn trên mpare Mea
tại các thời điểm trên tổng thể. từng nhóm. ns > Paired
khác nhau. -Samples T
Test.
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định sự khác biệt
STT Mục đích Ví dụ giả thuyết Giả định/Điều kiện sử Số lượng Loại Tên Loại kiểm
sử dụng dụng (Assumptions) nhóm/mẫu thang đo kiểm định (tham
định số hay phi
tham số)
4 Dùng để kiểm H1: Có sự khác biệt - Các nhóm phải có nhiều hơn Một biến Phân tích Kiểm định
định sự khác về độ cool ngầu của phân phối chuẩn hoặc 2 định lượng phương tham số
nhau về giá trị thương hiệu Vietjet cỡ mẫu phải đủ lớn để và một biến sai One-
trung bình giữa giữa những người ở được xem như tiệm định tính way
nhiều nhóm các thành phố khác cận phân phối chuẩn. với nhiều ANOVA
độc lập. nhau. - Các nhóm so sánh hơn hai
phải độc lập nhau và nhóm. Analyze
H1: Có sự khác biệt được chọn một cách >
về độ cool ngầu của ngẫu nhiên. Compare
thương hiệu Vietjet - Phương sai của các Means >
giữa những nhóm nhóm phải đồng nhất. One-Way
người có tình trạng ANOVA.
hôn nhân khác nhau.
Khi nào sử dụng kiểm định phi tham số?
• Các kiểm định phi tham số yêu cầu ít hoặc có ít điều kiện về phân phối
của dữ liệu.
• Vì lý do này, các kiểm định phi tham số được dùng thay cho các kiểm
định tham số khi người nghiên cứu nghĩ rằng giả định/điều kiện để sử
dụng kiểm định tham số bị vi phạm (chẳng hạn, nếu phân phối của dữ
liệu bị quá lệch).
• Sử dụng các kiểm định phi tham số khi:
• biến phụ thuộc (dependent variable) là định danh hoặc thứ tự
• nếu phân phối dữ liệu trên biến phụ thuộc bị lệch (không theo phân phối
chuẩn)
• khi các điều kiện sau sử dụng kiểm định tham số không được thoả mãn:
• phân phối chuẩn (normality)
• phương sai đồng nhất (homogeneity of variance)
Hạn chế của kiểm định phi tham số
• Khả năng giải thích của kiểm định phi tham số kém hơn
kiểm định tham số vì kiểm định tham số sử dụng nhiều thông
tin của dữ liệu hơn.
• Kiểm định phi tham số thường chỉ sử dụng để phân tích
những biến số đo lường bằng thang đo định danh hoặc thứ
tự.
• Kiểm định phi tham số sử dụng để kiểm định ít loại giả
thuyết hơn kiểm định tham số.
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định sự khác biệt
STT Mục đích Ví dụ giả thuyết Giả định/Điều kiện sử Số lượng Loại Kiểm định Loại kiểm
sử dụng dụng (Assumptions) nhóm/mẫu thang đo định (tham
số hay phi
tham số)
5 Dùng để kiểm định xem H1: Số lượng - Biến số đưa vào phân 1 Đinh chi-square Kiểm định phi
tần suất các loại trên một những người có tích là biến phân loại danh goodness-of- tham số
biến phân loại trình độ giáo dục (có thể là biến số đo Thứ tự fit test (kiểm
(categorical varable) có khác nhau thì bằng thang đo định định chi bình
theo giả định không. không bằng nhau danh hoặc thứ tự). phương cho
(trên tổng thể). - Các trường hợp quan độ thích hợp)
H1: Số lượng sát không có mối quan
những người chưa hệ với nhau.
bao giờ, hiếm khi, - Các lựa chọn/loại của
thỉnh thoảng, biến là loại trừ nhau.
thường xuyên, và - Có ít nhất 5 quan sát Analyze>Non
luôn luôn sử dụng cho mỗi lựa chọn/loại parametric
thương hiệu là của biến. tests>Legacy
khác nhau (trên dialogs>Chi-
tổng thể). square
Kiểm định mối quan hệ
Tóm tắt các kiểm định mối quan hệ
Loại thang đo của biến số Tên kiểm định Loại kiểm định
Hai biến định lượng • Tương quan Pearson (Pearson Kiểm định tham số
(khoảng hoặc tỷ lệ) Correlation)
• Hồi quy tuyến tính (linear
regression)
Hai biến định tính • Cross-tabulation/Chi-square (chi Kiểm định phi tham số
(định danh hoặc thứ tự) bình phương về tính độc lập hay
phụ thuộc giữa hai biến)
Hai biến thứ tự • Tương quan Spearman Kiểm định phi tham số
Các loại giả thuyết và
kỹ thuật kiểm định tương ứng
Giả thuyết và kiểm định mối quan hệ
ST Mục đích Ví dụ giả thuyết Giả định/Điều kiện sử Loại Kiểm định Loại kiểm
T sử dụng dụng (Assumptions) thang đo định (tham
số hay phi
tham số)
1 •Để kiểm định mối quan hệ H1: Mức độ sử - Hai biến số có phân Định lượng Phân tích Kiểm định
tương quan giữa hai biến số dụng thương hiệu phối chuẩn (khoảng hoặc tương quan tham số
định lượng. và độ cool ngầu của - Mối quan hệ giữa hai tỷ lệ) Pearson
•Kiểm định tương quan thương hiệu Vietjet biến số là tuyến tính (Pearson
Pearson cho biết: có liên hệ với nhau Correlation)
-liệu có mối quan hệ tuyến trên tổng thể.
tính có ý nghĩa thống kê
giữa hai biến số định lượng H1: Độ cool ngầu
không và tình yêu đối với Analyze>Cor
-độ mạnh của mối quan hệ thương hiệu Vietjet relate>Bivari
-hướng của mối quan hệ có liên hệ với nhau ate
(ngược chiều hay thuận trên tổng thể.
chiều)
Lưu ý: kiểm định Pearson
không kiểm định được mối
quan hệ nhân quả
Lưu ý đối với phân tích tương quan Pearson
Ý nghĩa của hệ số tương quan
KẾT QUẢ:
Mô tả mẫu (dùng thống kê mô tả những biến số liên quan đến đặc điểm nhân khẩu học)