Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 45

TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

KHOA HỆ THỐNG THÔNG TIN KINH TẾ

BÀI THẢO LUẬN


KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

Đề tài:
NGHIÊN CỨU TÁC ĐỘNG CỦA CÁC YẾU TỐ CHẤT LƯỢNG
SẢN PHẨM ĐẾN Ý ĐỊNH MUA SẢN PHẨM XE GẮN MÁY CỦA
KHÁCH HÀNG TẠI HÀ NỘI

Mã LHP: 2268INFO2111
Giảng viên hướng dẫn: Nguyễn Thị Thu Thủy
Nhóm thực hiện: 11

Hà Nội, 2022

1
MỤC LỤC
I. KHẢO SÁT...................................................................................................................
1. Lý do chọn đề tài...................................................................................................4
2. Mục tiêu nghiên cứu..............................................................................................4
3. Đối tượng nghiên cứu............................................................................................4
4. Phạm vi nghiên cứu...............................................................................................4
5. Phương pháp nghiên cứu.......................................................................................5
6. Mẫu phiếu khảo sát................................................................................................5
II. THỰC HIỆN THỐNG KÊ KIỂM ĐỊNH BẰNG SPSS....................................................
1. Phân tích thống kê mô tả (descriptive statistics)......................................................9
1.1. Mô hình nghiên cứu..........................................................................................9
1.2. Thống kê mô tả chi tiết......................................................................................9
2. Kiểm định độ tin cậy thang đo cronbach’s alpha...................................................12
2.1. Kiểm định độ tin cậy đối với thang đo Giá thành và chất lượng của xe theo
cảm nhận của khách hàng.....................................................................................12
2.2. Kiểm định độ tin cậy đối với thang đo Tính năng của xe gắn máy.............12
2.3. Kiểm định độ tin cậy đối với thang đo Tính thẩm mỹ của xe gắn máy..........13
2.4. Kiểm định độ tin cậy đối với thang đo Tính tiện dụng của xe gắn máy.........14
3. Phân tích nhân tố khám phá EFA...........................................................................16
3.1. Phân tích nhân tố khám phá EFA đối với biến độc lập...................................16
3.2. Phân tích nhân tố khám phá EFA đối với biến phụ thuộc...............................19
4. Phân tích tương quan và hồi quy............................................................................21
4.1. Phân tích tương quan......................................................................................21
4.2. Phân tích hồi quy.............................................................................................21
4.2.1. Đánh giá độ phù hợp của mô hình...............................................................21
4.2.2. Kiểm định độ phù hợp của mô hình..............................................................22
4.2.3. Ý nghĩa các hệ số hồi quy riêng trong mô hình............................................23
4.2.4. Kiểm định phân phối chuẩn..........................................................................24
4.2.5. Kiểm định tính độc lập giữa các biến độc lập..............................................26
III. XÂY DỰNG CÂY QUYẾT ĐỊNH...............................................................................27
1. Tìm nút gốc..........................................................................................................27

2
1.1. Giá thành.......................................................................................................27
1.2. Tính năng......................................................................................................27
1.3. Thẩm mỹ.......................................................................................................28
1.4. Tính tiện dụng...............................................................................................29
2. Tìm nút lá.............................................................................................................29
2.1. Xét nút gốc tính năng :.................................................................................29
2.1.1. Xét nhánh TN2:.............................................................................................29
2.1.2. Xét nhánh TN3:.............................................................................................29
2.1.3. Xét nhánh TN4..............................................................................................31
2.1.4. Xét nhánh TN5...............................................................................................34
2.2. Xét node giá thành........................................................................................34
2.3. Xét node tính Thẩm mỹ (TM)........................................................................37
2.3.1. Xét nhánh TD3..............................................................................................37
2.3.2. Xét node TD4................................................................................................38
2.3.3. Xét nhánh TD5..............................................................................................38
2.4. Xét node tiện dụng........................................................................................38
2.5. Xét node thẩm mỹ(TM).................................................................................39
2.5.1. Xét nhánh TM3.............................................................................................39
2.5.2. Xét nhánh TM4.............................................................................................39
2.6. Xét node tính thẩm mỹ..................................................................................40
2.6.1. Xét node tính giá thành.................................................................................40
3. Cây quyết định tổng quát......................................................................................41
IV. KẾT LUẬN.................................................................................................................44

3
I. KHẢO SÁT
1. Lý do chọn đề tài
Theo thống kê hiện nay xe máy vẫn là một phương tiện đi lại phổ biến và được mọi
người sử dụng nhiều nhất. Trong cơ cấu tham gia giao thông đô thị ở Việt Nam, xe máy
chiếm vị trí đầu bảng với tỉ lệ khoảng 61% tổng các phương tiện giao thông. Rất nhiều
các hàng xe máy nổi tiếng trên thế giới như Honda, Yamaha, Suzuki…tiến hành liên
doanh với các doanh nghiệp Việt Nam để sản xuất và cung cấp cho người tiêu dùng Việt
Nam, tạo ra sự cạnh tranh gay gắt giữa các hãng sản xuất.
Sản lượng hàng hóa bán ra không chỉ phụ thuộc vào sản phẩm mà còn phụ thuộc
nhiều vào các yếu tố khác, đáp ứng được thị hiếu, sở thích của khách hàng. Việc thấu
hiểu hành vi tiêu dùng của khách hàng là yếu tố bức thiết của các nhà sản xuất xe máy
nhằm đưa ra các quyết định, chiến lược đúng đắn.
Vì thế nhóm chúng em đã thực hiện đề tài “Nghiên cứu tác động của các yếu tố
chất lượng sản phẩm đến ý định mua sản phẩm xe gắn máy của khách hàng tại Hà
Nội” để nhằm xác định được những yếu tố chính của chất lượng sản phẩm tác động đến ý
định mua xe máy của các khách hàng ở Hà Nội. Trên cơ sở đó đưa ra một số kiến nghị
nhằm giúp các nhà sản xuất và phân phối xe máy thu hút và lôi kéo được khách hàng.
2. Mục tiêu nghiên cứu
Xác định các yếu tố chất lượng của sản phẩm xe gắn máy đến ý định mua xe gắn
máy của khách hàng.
Xác định mức độ tác động của các yêu tố chất lượng sản phẩm xe gắn máy đến ý
định mua xe gắn máy của khách hàng.
3. Đối tượng nghiên cứu
- Đối tượng nghiên cứu của đề tài là các yếu tố chất lượng của sản phẩm ảnh hưởng
đến ý định chọn mua các thương hiệu xe gắn máy của khách hàng tại Hà Nội
- Đối tượng khảo sát là những người có ý định mua xe gắn máy trên địa bàn Hà Nội.
4. Phạm vi nghiên cứu
- Địa điểm: các quận ở Hà Nội
- Thời gian 1 tháng
4
5. Phương pháp nghiên cứu
Đề tài nghiên cứu sử dụng phương pháp nghiên cứu định tính và nghiên cứu định
lượng. Phương pháp nghiên cứu định tính được sử dụng trong giai đoạn nghiên cứu sơ bộ
với kỹ thuật phỏng vấn và thảo luận nhóm để hiệu chỉnh thang đo. Phương pháp nghiên
cứu định lượng được sử dụng trong giai đoạn nghiên cứu chính thức với kỹ thuật thu nhập
thông tin thông qua hình thức điền phiếu khảo sát. Ngoài ra, phương pháp nghiên cứu
định lượng cũng được sử dụng trong giai đoạn nghiên cứu sợ bộ nhằm kiểm định độ tin
cậy của thang đo trước khi tiến hành nghiên cứu chính thức. Các dữ liệu, thông số được
tiến hành kiểm tra, phân tích, đánh giá bằng phần mềm SPSS phiên bản 16.0
6. Mẫu phiếu khảo sát

5
PHIẾU KHẢO SÁT
Kính chào Anh/Chị! Chúng tôi là sinh viên khoa “Hệ thống thông tin kinh tế và
Thương mại điện tử”, trường Đại học Thương Mại. Chúng tôi đang thực hiện chương
trình khảo sát phục vụ cho đề tài: “Nghiên cứu tác động của các yếu tố chất lượng sản
phẩm đến ý định mua sản phẩm xe gắn máy của khách hàng tại Hà Nội”. Nghiên cứu
trường hợp xe gắn máy ở thành phố Hà Nội.
Đây là bảng câu hỏi phỏng vấn nhằm thu thập dữ liệu từ người tiêu dùng. Cuộc
phỏng vấn này có ý nghĩa quan trọng đến nghiên cứu, do vậy sự hồi đáp của Anh/Chị là
rất quý đối với việc nghiên cứu của chúng tôi. Tất cả các thông tin từ Anh/Chị đều là
những thông tin hữu ích. Với những ý nghĩa trên chúng tôi rất mong được sự cộng tác
chân thành của Anh/Chị. Xin chân thành cảm ơn!
I.Thông tin về người trả lời phỏng vấn:
1. Giới tính
 Nam 󠇁
 Nữ 󠇁
2. Độ tuổi
󠇁Dưới 20 tuổi 󠇁Từ 31-45
󠇁Từ 20-30 󠇁Từ 46-60 󠇁 󠇁
 Trên 60
3. Nghề nghiệp
󠇁Học sinh/sinh viên
󠇁Công nhân viên chức
󠇁Lao động phổ thông
󠇁Nghỉ hưu
󠇁Khác
4. Mức thu nhập
󠇁Dưới 3 triệu đồng
󠇁Từ 3-5 triệu đồng
󠇁Từ 5-10 triệu đồng
6
󠇁Trên 10 triệu đồng
II. Anh/Chị vui lòng cho biết mức độ đồng ý của anh chị với các phát biểu dưới
đây:
1 2 3 4 5
Hoàn toàn Không đồng ý Trung lập Đồng ý Hoàn toàn
không đồng ý đồng ý

Giá thành và chất lượng của xe theo cảm nhận của 1 2 3 4 5


khách hàng (GT)
GT1 Giá thành của xe gắn máy có ảnh hưởng đến
quyết định mua xe của anh/chị
GT1 Thương hiệu xe tạo được uy tín, nhiều người
biết đến.
GT2 Xe tiết kiệm nhiên liệu.

Tính năng của xe gắn máy (TN)


TN1 Xe có hệ thống phanh hãm an toàn đặc biệt
trong trường hợp thắng gấp.
TN2 Xe hệ thống giảm xóc hiệu quả.
TN3 Xe có hệ thống tay lái linh hoạt, tiện sử dụng
trong trường hợp cua gấp
TN4 Xe sang số dễ dàng/lên tay ga dễ dàng.
TN5 Xe có chất lượng máy bền, hoạt động ổn định
(nổ êm, đều) và lượng khí thải thân thiện với
môi trường.
TN6 Các thiết bị điện tử của xe hoạt động ổn định
khi xe hoạt động
TN7 Các linh kiện của xe ít phải bảo trì hay sửa
chữa.

7
Tính thẩm mỹ của xe gắn máy (TM)
TM Tính độc đáo trong thiết kế và dễ nhận biết
1 của xe.
TM Hình ảnh nhãn mác của xe thu hút.
2
TM Màu sắc của xe phù hợp với thiết kế của xe.
3
TM Xe có phụ tùng, linh kiện đi kèm bắt mắt/
4 được sử dụng rộng rãi
TM Kiểu dáng xe đa dạng phù hợp với những đối
5 tượng khác nhau.
Tính tiện dụng của xe gắn máy (TD)
TD1 Thời gian tiến hành bảo trì xe nhanh.
TD2 Các phụ tùng, linh kiện thay thế của xe luôn
có sẵn tại cửa hàng hay trung tâm bảo trì của
hãng.
TD3 Giá cả thay thế các bộ phận hư hỏng của xe
hợp lý.
TD4 Cốp xe có dung tích lớn.
TD5 Xe có trang bị thiết bị chống trộm.

(YK) Bạn có đồng ý những yếu tố trên (giá thành, tính năng, tính thẩm mỹ, tính
tiện dụng của xe,...) đã ảnh hưởng đến ý định mua xe gắn máy của bạn?
󠇁Có
󠇁Không

8
II. THỰC HIỆN THỐNG KÊ KIỂM ĐỊNH BẰNG SPSS
1. Phân tích thống kê mô tả (descriptive statistics)
1.1. Mô hình nghiên cứu
Các giả thuyết nghiên cứu được đưa ra:
H1: Giá thành và chất lượng của xe theo cảm nhận của khách hàng
H2: Tính năng của xe gắn máy
H3: Tính thẩm mỹ của xe gắn máy
H4: Tính tiện dụng của xe gắn máy
1.2. Thống kê mô tả chi tiết

9
Thực hiện khảo sát theo thang điểm:
1. Hoàn toàn không đồng ý
2. Không đồng ý
3. Trung lập
4. Đồng ý
5. Hoàn toàn đồng ý

10
11
2. Kiểm định độ tin cậy thang đo cronbach’s alpha

2.1. Kiểm định độ tin cậy đối với thang đo Giá thành và chất lượng của xe theo
cảm nhận của khách hàng.

 Kết quả Cronbach’s Alpha của thang đo là 0.371 < 0.6; Vì vậy, tất cả các biến
quan sát đều không được chấp nhận và không được sử dụng trong phân tích nhân tố
tiếp theo.

12
2.2. Kiểm định độ tin cậy đối với thang đo Tính năng của xe gắn máy

 Kết quả Cronbach’s Alpha của thang đo là 0.876 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều
lớn hơn 0.3 và không có trường hợp loại bỏ biến quan sát nào có thể làm cho
Cronbach’s Alpha của thang đo này lớn hơn 0.876. Vì vậy, tất cả các biến quan sát đều
được chấp nhận và sẽ được sử dụng trong phân tích nhân tố tiếp theo.

2.3. Kiểm định độ tin cậy đối với thang đo Tính thẩm mỹ của xe gắn máy

 Kết quả Cronbach’s Alpha của thang đo là 0.748 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều

13
lớn hơn 0.3 và có 1 trường hợp biến quan sát TM4 làm cho Cronbach’s Alpha của
thang đo này lớn hơn 0.7.48. Vì vậy, tiến hành loại bỏ biến quan sát và kiểm tra lại

 Kết quả Cronbach’s Alpha của thang đo là 0.840 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều
lớn hơn 0.3 và không có trường hợp loại bỏ biến quan sát nào có thể làm cho
Cronbach’s Alpha của thang đo này lớn hơn 0.840. Vì vậy, tất cả các biến quan sát đều
được chấp nhận và sẽ được sử dụng trong phân tích nhân tố tiếp theo.

2.4. Kiểm định độ tin cậy đối với thang đo Tính tiện dụng của xe gắn máy

14
 Kết quả Cronbach’s Alpha của thang đo là 0.804 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều
lớn hơn 0.3 và có 1 trường hợp biến quan sát TD1 làm cho Cronbach’s Alpha của
thang đo này lớn hơn 0.804. Vì vậy, tiến hành loại bỏ biến quan sát và kiểm tra lại.

 Kết quả Cronbach’s Alpha của thang đo là 0.823 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều
lớn hơn 0.3 và có 1 trường hợp biến quan sát TD2 làm cho Cronbach’s Alpha của
thang đo này lớn hơn 0.823. Vì vậy, tiến hành loại bỏ biến quan sát và kiểm tra lại.

15
 Kết quả Cronbach’s Alpha của thang đo là 0.871 > 0.6; các hệ số tương quan
biến tổng (Corrected Item-Total Correlation) của các biến quan sát trong thang đo đều
lớn hơn 0.3 và có 1 trường hợp biến quan sát TD4 làm cho Cronbach’s Alpha của
thang đo này lớn hơn 0.871. Vì sai số lớn có thể bỏ qua và tiến hành bước tiếp theo
3. Phân tích nhân tố khám phá EFA
Các thang đo trên đều có hệ số Cronbach’s Alpha khá cao (> 0.6). Tất cả các biến
quan sát của các thang đo này đều có hệ số tương quan biến tổng lớn hơn 0.3 nên đều
được sử dụng cho phân tích EFA tiếp theo. Ta tiếp tục tiến hành kiểm định giá trị của
thang đo bằng phương pháp phân tích nhân tố khám phá EFA đối với 6 nhóm nhân tố
là TC, SK, HT, GC, BT và QĐ.
3.1. Phân tích nhân tố khám phá EFA đối với biến độc lập
Bỏ GTCL1, GTCL2, GTCL3, TM4, TD1, TD2

Tiêu chuẩn của phương pháp phân tích nhân tố là chỉ số KMO phải lớn hơn 0.5
(Garson, 2003) và kiểm định Bartlett’s có mức ý nghĩa sig < 0.05 để chứng tỏ dữ liệu
dùng phân tích nhân tố là thích hợp và giữa các biến có tương quan với nhau.
Giá trị Kaiser-Meyer-Olkin Measure of Sampling Adequacy = 0.832
Kết quả phân tích nhân tố cho thấy chỉ số KMO là 0.832 > 0.5, điều này chứng tỏ
dữ liệu dùng để phân tích nhân tố là hoàn toàn thích hợp.
Kết quả kiểm định Bartlett’s là 800.030 với mức ý nghĩa Sig. = 0.000 < 0.05, lúc
này bác bỏ giả thuyết H0: các biến quan sát không có tương quan với nhau trong tổng
thể. Như vậy giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị
bác bỏ, tức là các biến có tương quan với nhau và thỏa mãn điều kiện phân tích nhân
tố.

16
Thực hiện phân tích nhân tố theo Principal components với phép quay Varimax.
Kết quả cho thấy 14 biến quan sát ban đầu được phân thành 3 nhóm.
Giá trị tổng phương sai trích = 62.517% > 50% đạt yêu cầu; khi đó có thể nói
rằng 5 nhân tố này giải thích 62.571% biến thiên của dữ liệu.
Giá trị Eigenvalues của các nhân tố đều cao (>1), nhân tố thứ 1 có Eigenvalues
thấp nhất là 6.148 > 1.

17
 Nhận thấy: Các hệ số tải nhân tố đều lớn hơn 0.5 và không có trường hợp biến
nào cùng lúc tải lên cả hai nhân tố với hệ số tải gần nhau. Nên các nhân tố đảm bảo
được giá trị hội tụ và phân biệt khi phân tích EFA. Ngoài ra không có sự xáo trộn các
nhân tố, nghĩa là câu hỏi của nhân tố này không bị nằm lẫn lộn với câu hỏi của nhân tố
kia. Nên sau khi phân tích nhân tố thì các nhân tố này được giữ nguyên, không bị tăng
thêm hoặc giảm đi nhân tố.
STT Tên biến Ký hiệu Các biến quan sát
1 Giá thành và chất lượng của GTCL GTCL1, GTCL2, GTCL3
xe theo cảm nhận của khách
hàng
2 Tính năng của xe gắn máy TN TN1, TN2, TN3, TN4,
TN5, TN6, TN7
3 Tính thẩm mỹ của xe gắn TM TM1, TM2, TM3, TM4,

18
máy TM5
4 Tính tiện dụng của xe gắn TD TD1, TD2, TD3, TD4,
máy TD5

3.2. Phân tích nhân tố khám phá EFA đối với biến phụ thuộc
KMO and Bartlett's Test

Tiêu chuẩn của phương pháp phân tích nhân tố là chỉ số KMO phải lớn hơn 0.5
(Garson, 2003) và kiểm định Bartlett’s có mức ý nghĩa sig < 0.05 để chứng tỏ dữ liệu
dùng phân tích nhân tố là thích hợp và giữa các biến có tương quan với nhau.
Giá trị Kaiser-Meyer-Olkin Measure of Sampling Adequacy = 0.639. Kết quả
phân tích nhân tố cho thấy chỉ số KMO là 0.639 > 0.5, điều này chứng tỏ dữ liệu dùng
để phân tích nhân tố là hoàn toàn thích hợp.
Kết quả kiểm định Bartlett’s là 59.213 với mức ý nghĩa Sig. = 0.000 < 0.5, lúc này bác
bỏ giả thuyết H0: các biến quna sát không có tương quan với nhau trong tổng thể. Như vậy
giả thuyết về ma trận tương quan giữa các biến là ma trận đồng nhất bị bác bỏ, tức là các
biến có tương quan với nhau và thỏa mãn điều kiện phân tích nhân tố.

Phương pháp trích hệ số sử dụng là Principal Components với phép xoay


Varimax và điểm dừng khi trích các yếu tố tại Eigenvalue bằng 1. Như vậy, có 1 biến
thỏa mãn điều kiện với giá trị thấp nhất của chỉ số Eigenvalue là 1.886 > 1 và tổng

19
phương sai trích đạt 62.880% (>50%). Điều này thể hiện rằng các nhân tố được rút ra
giải thích được 62.880% biến thiên dữ liệu. Do vậy, thang đo cũng được chấp nhận.

Nhận xét: Do chỉ trích ra được 1 nhân tố nên bảng ma trận không thể xoay. Điều
này chứng tỏ nhân tố phụ thuộc đang xét là hoàn toàn phù hợp.
STT Tên biến Ký hiệu Các biến quan sát
1 Quyết định mua xe QĐ QĐ1, QĐ2, QĐ3

20
4. Phân tích tương quan và hồi quy
4.1. Phân tích tương quan

Nhận xét:
 Sig tương quan Pearson giữa các biến độc lập GTCL, TN, TD và TM với biến
phụ thuộc QĐ đều nhỏ hơn 0.05. Như vậy, có mối liên hệ tuyến tính giữa các biến độc
lập này với biến phụ thuộc QĐ.
 HT và QĐ có mối tương quan mạnh nhất với hệ số r là 0,890; giữa BT và QĐ
có mối tương quan yếu nhất với hệ số r là 0.381
4.2. Phân tích hồi quy
4.2.1. Đánh giá độ phù hợp của mô hình
Để đánh giá độ phù hợp mô hình trong phân tích mô hình hồi quy tuyến tính bội
người ta dùng hệ số xác định R2 (R square). Hệ số xác định R2 được xác định là hàm
không gian giảm theo biến độc lập được đưa vào mô hình. Càng thêm nhiều biến đọc
lập và mô hình thì R2 càng tăng nhưng không có nghĩa là phương trình có nhiều biến
phù hợp mô hình.

21
.
Nhận xét: Nhìn vào bảng trên, dùng để đánh giá độ phù hợp của mô hình hồi quy
đa biến, hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.822 lớn hơn R bình
phương (0.815). Vì vậy dùng hệ số R bình phương để đánh giá mô hình sẽ an toàn hơn
vì nó không thổi phồng mức độ phù hợp của mô hình. Với hệ số bình phương hiệu
chỉnh bằng 0.815 chứng tỏ 5 biến độc lập đưa vào ảnh hưởng 81.5 % sự thay đổi của
biến phụ thuộc, còn lại 18.5 % là do các biến ngoài mô hình và sai số ngẫu nhiên.
Gắn vào thanh giá trị Durbin-Watson, ta thấy 1.5 < 2.036 < 2.5 nên không có sự
tương quan chuỗi bậc nhất trong mô hình.
4.2.2. Kiểm định độ phù hợp của mô hình

Nhận xét: Sig kiểm định F= 0.000 < 0.05. Như vậy mô hình hồi quy tuyến tính
bội phù hợp với tập dữ liệu và có thể sử dụng được.

22
4.2.3. Ý nghĩa các hệ số hồi quy riêng trong mô hình

Nhận xét: Nhìn vào bảng trên ta thấy


F_TN và đang có VIF > 2 tiến hành loại bỏ biến độc lập có VIF cao nhất và kiểm
tra lại

Nhận xét: Nhìn vào bảng trên ta thấy


 Phương trình hồi quy chưa chuẩn hóa B:
 Phương trình hồi quy chuẩn hóa Beta:

23
4.2.4. Kiểm định phân phối chuẩn

Nhận xét: Nhìn vào đây ta thấy phần dư chuẩn hóa phân bố theo hình dạng của phân
phối chuẩn. Có một đường cong hình chuông trên hình là đường phân phối chuẩn, ta thấy
biểu đồ Histogram tương ứng với đường cong hình chuông. Thêm nữa, giá trị trung bình
mean là
-5.69E-16 xấp xỉ bằng 0 và độ lệch chuẩn Std. Dev bằng 0.985 xấp xỉ 1 càng khẳng
định thêm phần dư chuẩn hóa tuân theo phân phối chuẩn.

24
Nhận xét: Với P-P Plot, các trị số quan sát và trị số mong đợi đều nằm gần trên
đường chéo chứng tỏ phần dư chuẩn hóa có phân phối chuẩn. Kiểm định bằng biểu đồ
P-P Plot thể hiện giá trị của các điểm phân vị của phân phối của biến theo các phân vị
của các phân phối chuẩn. Cụ thể với biểu đồ trên, các điểm phân vị trong phân phối
của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối chuẩn của
phần dư không bị vi phạm.

25
4.2.5. Kiểm định tính độc lập giữa các biến độc lập

Nhận xét: Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị
dự đoán chuẩn hóa giúp chúng ta dò tìm xem dữ liệu hiện tại có vi phạm giả định liên
hệ tuyến tính hay không. Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có
các dạng: đồ thị Parabol, đồ thị Cubic, ... hay các dạng đồ thị khác không phải đường
thẳng thì dữ liệu đã vi phạm giả định liên hệ tuyến tính. Nếu giả định quan hệ tuyến
tính được thỏa mãn thì phần dư sẽ dao động xung quanh đường tung độ 0 và không

26
phân tán đi quá xa. Cụ thể với biểu đồ trên, phần dư chuẩn hóa phân bố tập trung xung
quanh đường tung độ 0, do vậy giả định quan hệ tuyến tính không bị vi phạm.

Như vậy, trong 4 yếu tố nhóm đưa ra là: Giá thành và chất lượng của xe theo
cảm nhận của khách hàng, Tính năng của xe gắn máy, Tính thẩm mỹ của xe gắn
máy, Tính tiện dụng của xe gắn máy ảnh hưởng đến quyết định mua xe thì sau khi
phân tích hồi quy ta loại 2 nhân tố là Giá thành và chất lượng của xe theo cảm nhận
của khách hàng Tính tiện dụng của xe gắn máy.

III. XÂY DỰNG CÂY QUYẾT ĐỊNH


1. Tìm nút gốc

1.1. Giá thành


Xét thuộc tính giá thành có thể nhận 1 trong 3 giá trị, 3 – trung lập, 4 – đồng ý, 5
– hoàn toàn đồng ý
Tương ứng với 4 child node. Gọi tập hợp các điểm trong mỗi child node này lần
lượt là GT3, GT4, GT5.
- Child node ứng với 3 –trung lập sẽ có Entropy = 0 do tất cả giá trị đều là Có →
H(GT3) = 0
- Tính Entropy với giá thành 3, ta được:
−37 37 1 1
H(GT4) = × log 2 − × log 2 ≈ 0,1755
38 38 38 38
- Child node ứng với 5 – Hoàn toàn đồng ý sẽ có Entropy = 0 do tất cả giá trị đều
là Có → H(GT5) = 0
Như vậy, Entropy trung bình của giá thành sẽ là:
16 38 16
H(giá thành,TL)= × H ( ¿ 3 )+ × H ( ¿ 4 )+ × H (¿ 5)≈ 0,095
70 70 70

1.2. Tính năng


Xét thuộc tính năng có thể nhận 1 trong 4 giá trị 2-không đồng ý, 3
– Trung lập, 4 – Đồng ý, 5 – Hoàn toàn đồng ý tương ứng với 4 child
node. Gọi tập hợp các điểm trong mỗi child node này lần lượt là TN2,

27
TN3, TN4, TN5.
- Child node ứng với 2 –không đồng ý sẽ có Entropy = 0 do tất cả
giá trị đều là Có. → H(TN2) = 0
- Tính Entropy với tính năng 3, ta được:
−19 19 1 1
H(TN3) = × log 2 − × log 2 ≈0,2863
20 20 20 20
- Child node ứng với 4 – đồng ý sẽ có Entropy = 0 do tất cả giá trị
đều là Có. → H(TN4) = 0
- Child node ứng với 5 – Hoàn toàn đồng ý sẽ có Entropy = 0 do tất
cả giá trị đều là Có. → H(TN5) = 0
Như vậy, Entropy trung bình của tính năng sẽ là:
H(tính năng, TN) =
1 20 34 15
× H ( TN 2 ) + × H ( TN 3 ) + × H ( TN 4 ) + × H ( TN 5 ) ≈ 0.0818
70 70 70 70

1.3. Thẩm mỹ
Xét thuộc tính Tính thẩm mỹ có thể nhận 1 trong 4 giá trị 2 – không
đồng ý, 3 – Trung lập, 4 – Đồng ý, 5 – Hoàn toàn đồng ý tương ứng với
4 child node. Gọi tập hợp các điểm trong mỗi child node này lần lượt là
TM2, TM3, TM4, TM5.
- Child node ứng với 2 – không đồng ý sẽ có Entropy = 0 do tất cả giá trị đều là
Có. → H(TM2) = 0
- Tính Entropy với Tính thẩm mỹ 3, ta được:
−20 20 1 1
H(TM3) = × log 2 − × log 2 ≈ 0,2761
21 21 21 21
- Child node ứng với 4 – đồng ý sẽ có Entropy = 0 do tất cả giá trị đều là Có.
→ H(TM4) = 0
- Child node ứng với 5 – Hoàn toàn đồng ý sẽ có Entropy = 0 do tất cả giá trị đều
là Có. → H(TM5) = 0
Như vậy, Entropy trung bình của Tính linh hoạt sẽ là:

28
H(Tính linh hoạt, LH) =
4 21 35 10
× H ( TM 2 )+ × H (TM 3 ) + × H ( TM 4 )+ × H ( TM 5 ) ≈ 0,0828
70 70 70 70

1.4. Tính tiện dụng


Xét thuộc tính Sự tiện dụng có thể nhận 1 trong 4 giá trị 2 – Không đồng ý, 3 –
trung lập , 4 – Đồng ý, 5 – Hoàn toàn đồng ý tương ứng với 4 child node. Gọi tập hợp
các điểm trong mỗi child node này lần lượt là HD2, HD3, HD4, HD5.
- Child node ứng với 2 – Không đồng ý sẽ có Entropy = 0 do tất cả giá trị đều là
Có. → H(TD2) = 0
- Tính Entropy với tính tiện dụng 3, ta được:
−19 19 1 1
H(TD3) = × log 2 − × log 2 ≈ 0,2863
20 20 20 20
- Child node ứng với 4 – đồng ý sẽ có Entropy = 0 do tất cả giá trị đều là Có.
→ H(TD4) = 0
- Child node ứng với 5 – đồng ý sẽ có Entropy = 0 do tất cả giá trị đều là Có.
→ H(TD5) = 0
Như vậy, Entropy trung bình của tính tiện dụng sẽ là:
H(Sự tiếp cận của ngân hàng với khách hàng, HD) =
1 20 38 11
× H ( TD 2 ) + × H ( TD 3 )+ × H ( TD 4 ) + × H ( TD 5 ) ≈ 0,0818
70 70 70 70
2. Tìm nút lá

2.1. Xét nút gốc tính năng :


2.1.1. Xét nhánh TN2:
Ta có tất cả các data đều có giá trị là Có, vì vậy ta thu được node
là Có ở nhánh TN2.
2.1.2. Xét nhánh TN3:
Ta có tập data nhỏ hơn:
GT TN TM TD Opinion
4 3 3 4 Có

29
3 3 4 4 Có
4 3 4 3 Có
3 3 3 3 Có
4 3 2 3 Có
3 3 3 3 Có
5 3 3 3 Có
4 3 3 3 Có
4 3 4 3 Có
3 3 4 3 Có
3 3 4 4 Có
3 3 2 3 Có
4 3 3 3 Có
3 3 4 4 Có
4 3 3 3 Không
4 3 3 3 Có
4 3 3 3 Có
3 3 2 3 Có
3 3 3 4 Có
3 3 3 3 Có
4 3 4 4 Có
3 3 4 4 Có
5 3 3 2 Có
4 3 3 3 Có
4 3 4 4 Có

a) Với thuộc tính GT (giá thành):


- H(GT3) = 0 vìtất cả cái giá trị đều là có
−11 11 1 1
- H(GT4) = × log 2 − × log 2 ≈ 0,4138
12 12 12 12

30
- H(GT5) = 0 vìtất cả cái giá trị đều là có
11 12 2
- H(giá thành, GT) = × H ( ¿ 3 ) + × H (¿ 4 )+ × H (¿ 5)≈ 0,1986
25 25 25
b) Với thuộc tính TM (Thẩm mỹ):
H(TM2) = 0 vì tất cả giá trị đều là có
−12 12 1 1
H(TM3) = × log 2 − × log 2 ≈ 0,3912
13 13 13 13
H(TM4) = 0 vì tất cả giá trị đều là có
3 13 6
H(thẩm mỹ, TM) = × H ( TM 2 )+ × H ( TM 3 ) + × H (TM 4) ≈ 0,2034
25 25 25
c) Với thuộc tính TD (Tính tiện dụng):
H(TD2) = 0 vì tất cả giá trị đều là có
−15 15 1 1
H(TD3) = × log 2 − × log 2 ≈ 0,337
16 16 16 16
H(TD4) = 0 vì tất cả giá trị đều là có
1 16 8
H(Tính tiện dụng, TD) = × H ( TD 2 ) + × H ( TD 3 ) + × H ( TD 4 ) ≈ 0,216
25 25 25
Vậy ta chọn Giá thành (GT) là node đánh giá tiếp theo của nhánh TN3

2.1.3. Xét nhánh TN4


Ta có tập data nhỏ hơn:
GT TN TM TD Opinion
4 4 4 4 Có
5 4 4 4 Có
4 4 5 4 Có
5 4 3 4 Có
4 4 4 4 Có
3 4 3 3 Có
4 4 4 4 Có
4 4 4 5 Có

31
4 4 4 4 Có
3 4 3 4 Có
4 4 4 4 Có
5 4 5 4 Có
5 4 3 4 Có
4 4 3 4 Có
5 4 4 4 Có
4 4 3 4 Có
4 4 3 4 Có
4 4 4 3 Có
3 4 4 3 Có
4 4 4 4 Có
4 4 4 4 Có
4 4 5 4 Có
4 4 2 4 Có
4 4 4 4 Có
3 4 4 4 Có
5 4 4 4 Có
5 4 4 4 Có
4 4 4 3 Có
4 4 4 4 Có
4 4 4 4 Có
4 4 4 4 Có
4 4 3 5 Có
4 4 4 4 Có
4 4 4 4 Có
4 4 3 5 Có
4 4 4 5 Có

32
4 4 4 4 Có
4 4 4 4 Có
4 4 4 4 Có
4 4 4 4 Có
5 4 4 5 Có
4 4 4 5 Có
5 4 4 4 Có
4 4 4 4 Có
5 4 4 4 Có
4 4 4 3 Có
4 4 4 4 Có
4 4 4 5 Không
4 4 4 4 Có
4 4 4 4 Có
5 4 3 4 Có
4 4 3 4 Có

a) Với thuộc tính GT (giá thành)


H(GT3) = 0 vì tất cả giá trị đều là Có
−36 36 1 1
H(GT4) = × log 2 − ×log 2 ≈ 0.1792
37 37 37 37
H(GT5)= 0 vì tất cả giá trị đều là Có
4 37 11
H(giá thành, GT) = × H ( ¿ 3 ) + × H ( ¿ 4 ) + × H ( TL5)≈ 0,1275
52 52 52
b) Với thuộc tính TM (Thẩm mỹ)
H(TM2) = 0 vì tất cả giá trị đều là Có
H(TM3) = 0 vì tất cả giá trị đều là Có
−36 36 1 1
H(TM4) = × log 2 − ×log 2 ≈ 0.1792
37 37 37 37
H(TM5) = 0 vì tất cả giá trị đều là Có
33
1 11 37 3
H(thẩm mỹ, TM) = × H ( TM 2 ) + × H ( TM 3 )+ × H ( TM 4 ) + × H ( TM 5 )
52 52 52 52
≈ 0.1275
c) Với thuộc tính TD (Tính tiện dụng)
H(TD3) = 0 vì tất cả giá trị đều là Có
H(TD4) = 0 vì tất cả giá trị đều là Có
−6 6 1 1
H(TD5) = × log 2 − × log 2 ≈ 0.592
7 7 7 7
5 40 7
H(Tiện dụng, TD) = × H ( LH 3 )+ × H ( LH 4 ) + × H (LH 5)≈ 0.0796
52 52 52
=>Vậy ta chọn tính tiện dụng (TD) là node đánh giá tiếp theo của nhánh TN4

2.1.4. Xét nhánh TN5


Ta có tất cả các data đều có giá trị là Có, vì vậy ta thu được node là Có ở nhánh
TN5. Cây quyết định lúc này có dạng:

2.2. Xét node giá thành


Ta có tập data nhỏ hơn như sau:
GT TN TM TD Opinion
4 3 3 4 Có
3 3 4 4 Có
4 3 4 3 Có
3 3 3 3 Có
4 3 2 3 Có
34
3 3 3 3 Có
5 3 3 3 Có
4 3 3 3 Có
4 3 4 3 Có
3 3 4 3 Có
3 3 4 4 Có
3 3 2 3 Có
4 3 3 3 Có
3 3 4 4 Có
4 3 3 3 Không
4 3 3 3 Có
4 3 3 3 Có
3 3 2 3 Có
3 3 3 4 Có
3 3 3 3 Có
4 3 4 4 Có
3 3 4 4 Có
5 3 3 2 Có
4 3 3 3 Có
4 3 4 4 Có

a. Xét nhánh TN3


GT TN TM TD Opinion
3 3 4 4 Có
3 3 3 3 Có
3 3 3 3 Có
3 3 4 3 Có

35
3 3 4 4 Có
3 3 2 3 Có
3 3 4 4 Có
3 3 2 3 Có
3 3 3 4 Có
3 3 3 3 Có
3 3 4 4 Có

Với thuộc tính thẩm mỹ


H(TM2) = 0 vì tất cả các giá trị đều là có
H(TM3) = 0 vìtất cả các giá trị đều là có
H(TM4) = 0 vì tất cả các giá trị đều là có
2 4 5
H(thẩm mỹ, TM) = × H ( GD 3 ) + × H ( GD 4 ) + × H (GD 5 )=0
11 11 11
Với thuộc tính tiện dụng (TD)
H(TD3) = = 0 vì tất cả các giá trị đều là Có
H(TD4) = 0 vì tất cả các giá trị đều là Có
6 5
H(Tiện dụng, TD) = × H ( TD 3 ) + × H ( TD 4 )=0
11 11
=>Vậy ta chọn thẩm mỹ (TM) là node đánh giá tiếp theo của nhánh GT3
b. Xét nhánh GT4

GT TN TM TD Opinion
4 3 4 3 Có
4 3 2 3 Có
4 3 3 3 Có
4 3 4 3 Có
4 3 3 3 Có
4 3 3 3 Không

36
4 3 3 3 Có
4 3 3 3 Có
4 3 3 3 Có

Với thuộc tính thẩm mỹ


H(TM2) = 0 vì tất cả các giá trị đều là có
−5 5 1 1
H(TM3) = × log 2 − ×log 2 ≈ 0.65
6 6 6 6
H(TM4) = 0 vì tất cả các giá trị đều là có
1 6 2
H(thẩm mỹ, TM) = × H ( TM 2 )+ × H ( TM 3 )+ × H ( TM 4 )=0,433
9 9 9
Với thuộc tính tiện dụng (TD)
−8 8 1 1
H(TD3) = × log 2 − ×log 2 ≈ 0,5032
9 9 9 9
H(TD4) = 0 vì tất cả các giá trị đều là Có
9 3
H(Tiện dụng, TD) = × H ( TD 3 ) + × H ( TD 4 )=0,4117
11 11
=>Vậy ta chọn tiện dụng (TD) là node đánh giá tiếp theo của nhánh GT4
c. Xét nhánh GT5
Ta có tất cả các data đều có giá trị là có, vì vậy ta thu được node là
có ở nhánh GT5.

2.3. Xét node tính Thẩm mỹ (TM)


2.3.1. Xét nhánh TD3
Ta có tất cả các data đều có giá trị là có, vì vậy ta thu được node là
có ở nhánh TD3
2.3.2. Xét node TD4
Ta có tất cả các data đều có giá trị là có, vì vậy ta thu được node là
có ở nhánh TD4
2.3.3. Xét nhánh TD5

37
GT TN TM TD Opinion
4 4 4 5 Có
4 4 3 5 Có
4 4 3 5 Có
4 4 4 5 Có
5 4 4 5 Có
4 4 4 5 Có
4 4 4 5 Không

a) Với thuộc tính GT (giá thành)


−5 5 1 1
H(GT4) = × log 2 − ×log 2 ≈ 0 , 65
6 6 6 6
H(GT5) = 0 vì tất cả giá trị đều là Có
6 1
H(giá thành, GT) = × H ( ¿ 4 ) + × H ( ¿5 ) ≈ 0,557
7 7
b) Với thuộc tính TM (Thẩm mỹ)
H(TM3) = 0 vì tất cả giá trị đều là Có
−4 4 1 1
H(TM4) = × log 2 − × log 2 ≈ 0,7219
5 5 5 5
2 5
H(thẩm mỹ, TM) = × H ( TM 3 ) + × H ( TM 4 ) ≈ 0.515
7 7

2.4. Xét node tiện dụng

Ta có tất cả các data đều có giá trị là có, vì vậy ta thu được node là
có ở nhánh TD3

GT TN TM TD Opinion
4 3 3 4 Có
4 3 4 3 Có
4 3 2 3 Có

38
4 3 3 3 Có
4 3 4 3 Có
4 3 3 3 Có
4 3 3 3 Không
4 3 3 3 Có
4 3 3 3 Có
4 3 4 4 Có
4 3 3 3 Có
4 3 4 4 Có

Với thuộc tính thẩm mỹ


H(TM2) = 0 vì tất cả các giá trị đều là có
−6 6 1 1
H(TM3) = × log 2 − × log 2 ≈ 0,591
7 7 7 7
H(TM4) = 0 vì tất cả các giá trị đều là có
1 7 4
H(thẩm mỹ, TM) = × H ( TM 2 ) + × H ( TM 3 )+ × H (TM 4 )=0,345
12 12 12
 Vậy ta chọn Thẩm mỹ (TM) là node đánh giá tiếp theo của nhánh TD3
2.5. Xét node thẩm mỹ(TM)
2.5.1. Xét nhánh TM3
Ta có tất cả các data đều có giá trị là Có, vì vậy ta thu được node là Có ở nhánh
TM3
2.5.2. Xét nhánh TM4
GT TN TM TD Opinion
4 4 4 5 Có
4 4 4 5 Có
5 4 4 5 Có
4 4 4 5 Có
4 4 4 5 Không

39
Xét thuộc tính giá thành
−3 3 1 1
H(GT4) = × log 2 − × log 2 ≈ 0,811
4 4 4 4
H(GT5) = 0 vì tất cả giá trị đều là Có
4 1
H(giá thành, GT) = × H ( ¿ 4 ) + × H ( ¿ 5 ) ≈ 0.649
5 5
Vậy ta chọn Giá thành (GT) là node đánh giá tiếp theo của nhánh TM4
2.6. Xét node tính thẩm mỹ
Xét nhánh TM2 ta thấy các data có giá trị là Có, vì vậy ta thu được node là Có ở
nhánh TM2
Xét nhánh TM3 ta thấy các data có cả giá trị là có hoặc không mà đây là node cuối
nên ta thu được node Có hoặc Không ở nhánh TM3
Xét nhánh TM4 ta thấy các data có giá trị là có nên ta thu được node Có ở nhánh
TM4

2.6.1. Xét node tính giá thành


Xét nhánh GT4 ta thấy các data có cả giá trị là có hoặc không mà đây là node cuối
nên ta thu đc node có hoặc không ở nhánh GT4
Xét nhánh GT5 ta thấy các data có giá trị là có ta thu đc node có ở nhánh GT5

3. Cây quyết định tổng quát

40
TN GT TM TD Dự đoán theo cây Truy xuất
4 4 4 4 Có

4 4 3 5 Có
Có
5 4 4 5 Có Có

3 4 4 4 Có Có

4 4 4 5 Có Không

5 4 3 4 Có Có

5 4 4 4 Có Có

4 4 4 4 Có Có

4 4 4 4 Có Có

4 4 4 4 Có Có

5 4 3 5 Có Có

41
5 3 5 4 Có Có

5 5 5 5 Có Có

4 4 4 4 Có Có

4 5 4 5 Có Có

4 4 4 5 Có Không

4 5 4 4 Có Có

4 4 4 4 Có Có

3 3 4 4 Có Có

4 5 4 4 Có Có

4 4 4 3 Có Có

4 4 4 4 Có Có

5 5 5 5 Có Có

3 5 3 2 Có Có

4 4 4 5 Không Không

 Bảng mappping đánh giá kết quả:

Actual results Estimate result Validation


Có Có True Positive (TP)
Không Không True Negative (TN)
Có Không False Negative (FN)
Không Có False Positive (FP)

Actual result Estimate result Validation


Có Có TP

42
Có Có TP
Có Có TP
Có Có TP
Có Không FN
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Không FN
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Có Có TP
Không Không TN

 Các thông số áp dụng để đánh giá được tính như sau:

TP+TN 22+1 23
Acuracy = = = =¿ 0.92
TP+ FP+TN + FN 22+1+2 25

43
TP 22 22
Recall = = = =¿ 0.917
TP+ FN 22+2 24

TP 22
Precision = = =1
TP+ FP 22+0

Như vậy, cây quyết định có độ chính xác khá cao lên đến 92 %. Điều này cho
thấy cây quyết định mà nhóm 11 đã xây dựng hoàn toàn đạt yêu cầu.

IV. KẾT LUẬN

Sau một thời gian nghiên cứu và thực hiện đề tài, bài thảo luận của nhóm chúng
em đã đạt được mục tiêu đề ra, thu được những kết quả có ý nghĩa thực tế.

Nhóm đã tóm tắt được lý thuyết liên quan đến phát hiện tri thức và khai phá dữ
liệu, đặc biệt nhấn mạnh vào 2 phương pháp khai phá dữ liệu cơ bản là luật kết hợp và
phương pháp hồi quy tương quan.

Qua bài thảo luận, nhóm đã hiểu được tác động của các yếu tố chất lượng sản
phẩm đến ý định mua sản phẩm xe gắn máy của khách hàng tại Hà Nội giúp có thêm
nhiều cơ sở để từ đó tìm ra giải pháp nâng cao hiệu quả, thu hút khách hàng mua xe
gắn máy.

Sau khi khai khác dữ liệu giải bài toán dựa vào ký thuật cây quyết định và hương
pháp hồi quy tương quan (nhóm sử dụng phần mềm IBM SPSS Statictics 26), nhóm đã
thu được các kết quả có ý nghĩa với mục tiêu bài toán đã phát biểu.

ĐÁNH GIÁ THÀNH VIÊN

44
STT Thành viên Mã SV Công việc Đánh
giá
1 Phạm Thị Thương 20D191037

2 Vũ Thị Thương 20D191087

3 Trịnh Đăng Tính 20D191130

4 Vũ Đức Toàn 20D191031

5 Đỗ Thu Trà 20D191137

6 Trần Thị Trà 20D191038

7 Bùi Thu Trang 20D191088

8 Đặng Quỳnh Trang 20D191138

9 Đỗ Nguyễn Thùy Trang 20D191039

10 Nguyễn Thành Trung 20D191089

45

You might also like