Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 77

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

VIỆN ĐỔI MỚI SÁNG TẠO

—————

—————

BÁO CÁO ĐỒ ÁN KẾT THÚC HỌC PHẦN

MÔN: KHOA HỌC DỮ LIỆU

ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG ỨNG VIÊN ĐƯỢC


TUYỂN DỤNG DỰA TRÊN CÔNG CỤ KHOA HỌC
DỮ LIỆU CỦA PHẦN MỀM ORANGE
GVHD: ThS. GV. NGUYỄN MẠNH TUẤN

Nhóm thực hiện

Lưu Phan Bình Thy (Nhóm Trưởng): 31231025476

Lương Thanh Trúc: 31231021845

Nguyễn Thị Trúc Vy: 31231026786

Phan Khánh Nam: 31231022603

Nguyễn Võ Hoàng Nhật: 31231025613

Đỗ Lê Phúc Đức: 31231020173

TP.HCM, tháng 4/2024

1
THÀNH VIÊN VÀ ĐÁNH GIÁ MỨC ĐỘ THAM GIA

STT Họ và tên MSSV Nhiệm vụ cụ thể Mức độ


hoàn
thành

1 Lưu Phan Bình Thy 31231025476 - Tìm đề tài 100%


(Nhóm trưởng) - Xây dựng khung báo cáo.
- Chạy Orange bài toán
phân cụm.
- Phân tích, nhận xét và đưa
kiến nghị phần phân cụm.
- Phát hiện điểm đặc thù
của dữ liệu bài toán phân
cụm.
- Phân tích chuyên sâu Tree
ở bài toán phân lớp
- Chỉnh sửa tổng quát

2 Lương Thanh Trúc 31231021845 - Tìm đề tài 100%


- Xây dựng Dashboard và
phân tích Dashboard
- Góp ý phần phân tích phát
hiện điểm đặc thù của dữ
liệu ở bài toán 1.
- Góp ý phần kiến nghị cho
doanh nghiệp
- Viết phần kiến nghị
chung, hạn chế và hướng
phát triển đề tài

3 Nguyễn Thị Trúc Vy 31231026786 - Chạy Orange Bài toán 100%


phân lớp.
- Nhận xét và chọn mô hình
phù hợp bài toán phân lớp.
- Phân tích chuyên sâu Hồi

2
quy Logistic
- Đưa ra kết luận và kiến
nghị cho bài toán phân lớp

4 Nguyễn Võ Hoàng 31231025613 - Tìm đề tài 100%


Nhật - Kiểm tra đạo văn
- Tổng hợp danh mục bảng
biểu, hình ảnh
- Phân tích các cụm dữ liệu
ở bài toán phân cụm
- Tổng hợp tài liệu tham
khảo
- Tổng hợp các file Orange,
Excel

5 Phan Khánh Nam 31231022603 - Tìm đề tài 100%


- Xây dựng khung báo cáo
- Phụ trách phần tổng quan
về đề nghiên cứu
- Tiền xử lý dữ liệu
- Các khái niệm, lý thuyết
- Góp ý các khuyến nghị
cho doanh nghiệp

6 Đỗ Lê Phúc Đức 31231020173 - Viết phần mở đầu, lý do 100%


chọn đề tài
- Bài toán liên quan đến
chuyên ngành
- Phân tích điểm đặc thù
của dữ liệu ở Bài toán 1

3
LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cảm ơn Đại học UEH cùng với Trường Công
Nghệ và Thiết Kế đã tạo mọi điều kiện thuận lợi nhất cho chúng em được tiếp cận và tìm
hiểu môn học Khoa học dữ liệu. Đây là một môn học vô cùng hữu ích và cần thiết, đem
lại nhiều giá trị cho chúng em trên con đường phát triển sự nghiệp trong tương lai. Đặc
biệt, chúng em xin gửi lời cảm ơn sâu sắc nhất đến Giảng viên Nguyễn Mạnh Tuấn,
người thầy đã luôn tận tình giảng dạy và truyền đạt cho chúng em những kiến thức
chuyên môn bổ ích và thiết thực. Trải qua quá trình học tập nghiêm túc và tích cực ấy,
tuy chúng em đã gặp không ít khó khăn trong việc tiếp thu những kiến thức mới, nhưng
nhờ có sự giúp đỡ và hỗ trợ tận tình của thầy đối với lớp nên chúng em đã có thể tiếp thu
được nhiều kiến thức bổ ích mới, hỗ trợ cho việc hoàn thành bài đồ án kết thúc học phần
này.

Bài đồ án này là tâm huyết của chúng em với sự nỗ lực và cố gắng hết mình, nhưng do
năng lực và thời gian có hạn nên chúng em không thể tránh khỏi những điểm còn thiếu
sót và còn nhiều hạn chế trong kiến thức. Nhóm chúng em rất mong nhận được sự góp ý
của thầy để bài đồ án được hoàn thiện hơn và cũng như có thêm kinh nghiệm, kiến thức
cho những dự án sau này. Nhóm hy vọng sự chia sẻ của thầy sẽ giúp chúng em có thể tiếp
tục cải thiện và phát triển kỹ năng của mình trong lĩnh vực nghiên cứu dữ liệu.

Lời cuối cùng chúng em xin chân thành cảm ơn thầy vì những kiến thức thầy đã truyền
đạt giúp chúng em hoàn thành đồ án này. Chúng em mong sẽ tiếp tục được học hỏi và
cùng thầy chia sẻ kiến thức trong những dự án và công việc sắp tới. Đồng thời xin chúc
thầy nhiều sức khỏe, thành công và hạnh phúc!

Thành phố Hồ Chí Minh, tháng 4 năm 2024

4
MỤC LỤC

DANH MỤC HÌNH ẢNH..........................................................................................................................


DANH MỤC BẢNG BIỂU........................................................................................................................
DANH MỤC BIỂU ĐỒ..............................................................................................................................
NGUỒN DỮ LIỆU, CÁC XỬ LÝ, FILE EXCEL, ORANGE LINK DRIVE.....................................
CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH.....................................................................
CHƯƠNG I. TỔNG QUAN VỀ ĐỀ TÀI.................................................................................................
1.1. Lý do chọn đề tài nghiên cứu...........................................................................................................
1.2. Mục tiêu nghiên cứu.........................................................................................................................
1.2.1. Mục tiêu tổng quát...................................................................................................................
1.2.2. Mục tiêu cụ thể........................................................................................................................
1.3. Đối tượng nghiên cứu.......................................................................................................................
1.4. Phương pháp nghiên cứu..................................................................................................................
CHƯƠNG II. QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ....................................................................
2.1. Mô tả nguồn dữ liệu và cấu trúc của dữ liệu....................................................................................
2.1.1. Mô tả dữ liệu...........................................................................................................................
2.1.2. Cấu trúc dữ liệu.......................................................................................................................
2.2. Tiền xử lý dữ liệu.............................................................................................................................
2.3. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu................................................................................
2.3.1. Mô tả Bài toán 1......................................................................................................................
2.3.2. Các bước thực hiện..................................................................................................................
2.3.2.1. Xây dựng Dashboard trong Excel...................................................................................
2.3.2.2. Xây dựng biểu đồ Distributions trong Orange................................................................
2.3.2.3. Kết luận bài toán 1..........................................................................................................
2.4. Bài toán 2: Bài toán phân lớp dự đoán khả năng được tuyển dụng của ứng viên............................
2.4.1. Mô tả bài toán..........................................................................................................................
2.4.2. Mô tả các phương pháp thực hiện...........................................................................................
2.4.3. Chạy mô hình và đánh giá kết quả..........................................................................................
2.4.3.1. Quy trình thực hiện.........................................................................................................
2.4.3.2. Các lý thuyết liên quan...................................................................................................
2.4.3.3. Kết quả Test and Score...................................................................................................
2.4.3.4. Ma trận nhầm lẫn (Confusion Matrix)............................................................................
2.4.3.5. Phân tích chuyên sâu Hồi quy Logistic và Tree.............................................................
2.4.4. Kết quả dự báo bài toán 2........................................................................................................
2.4.5. Kết luận của bài toán 2............................................................................................................

5
2.5. Bài toán 3: Bài toán phân cụm nhằm phân loại các ứng viên có khả năng được
tuyển dụng và đề xuất các phương pháp tuyển dụng để nâng cao hiệu quả hoạt động
tuyển dụng...............................................................................................................................................
2.5.1. Mô tả bài toán..........................................................................................................................
2.5.2. Các bước thực hiện..................................................................................................................
2.5.3. Chạy mô hình và kết quả.........................................................................................................
2.5.4. Kết luận bài toán 3...................................................................................................................
CHƯƠNG III. KẾT LUẬN VÀ KIẾN NGHỊ..........................................................................................
3.1. Kết luận từng bài toán......................................................................................................................
3.2. Kết luận tổng quát............................................................................................................................
3.3. Kiến nghị..........................................................................................................................................
3.4. Hạn chế của đề tài............................................................................................................................
3.5. Hướng phát triển của đề tài........................................................................................................................
TÀI LIỆU THAM KHẢO.........................................................................................................................

6
DANH MỤC HÌNH ẢNH
Hình 2.1: Mô hình tiền xử lý dữ liệu
Hình 2.2: Thông tin bảng dữ liệu
Hình 2.3: Chuyển đổi ngôn ngữ của dữ liệu bằng Edit Domain
Hình 2.4: Bảng dữ liệu sau quá trình tiền xử lí
Hình 2.5: Dashboard mô tả điểm đặc thù của dữ liệu
Hình 2.6: Xây dựng biểu đồ Distributions
Hình 2.7: Tỷ lệ đậu ứng tuyển của ứng viên theo giới tính
Hình 2.8: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm thi vào lớp 10
Hình 2.9: Nơi thi vào lớp 10
Hình 2.10: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm thi THPT
Hình 2.11: Nơi thi THPT
Hình 2.12: Ngành học ở THPT
Hình 2.13: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm tại Đại học
Hình 2.14: Tỷ lệ đậu ứng tuyển của ứng viên theo chuyên ngành Đại học
Hình 2.15: Tỷ lệ đậu ứng tuyển của ứng viên theo kinh nghiệm làm việc trước đây
Hình 2.16: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm test EMP
Hình 2.17: Tỷ lệ đậu ứng tuyển của ứng viên theo vị trí ứng tuyển của ứng viên
Hình 2.18: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm bằng Thạc sĩ kinh doanh (MBA)
Hình 2.19: Tỷ lệ đậu hay trượt ứng tuyển của ứng viên
Hình 2.20: Chọn biến phụ và các biến tác động
Hình 2.21: Phân tách dữ liệu
Hình 2.22: Phân tách dữ liệu
Hình 2.23: Phân tách dữ liệu
Hình 2.24: Mô hình quy trình xử lý bài toán phân lớp
Hình 2.25: Bảng kết quả Test and Score
Hình 2.26: Ma trận nhầm lẫn của mô hình SVM
Hình 2.27: Ma trận nhầm lẫn của mô hình Logistics Regression
Hình 2.28: Ma trận nhầm lẫn của mô hình Tree
Hình 2.29: Ma trận nhầm lẫn của mô hình Neural Network
Hình 2.30: Mô hình Hồi quy Logistic
Hình 2.31 : Định nghĩa mô hình Hồi quy Logistic
Hình 2.32: Kết luận mô hình Hồi quy Logistic
Hình 2.33 : Mô hình phân tích chuyên sâu Tree
Hình 2.34: Kết quả dự báo được tuyển dụng của các ứng viên.
Hình 2.35: Hình file dự báo Excel

7
Hình 2.36: Hình dữ liệu đầu vào
Hình 2.37: Select Rows
Hình 2.38: Mô hình Orange phân cụm
Hình 2.39: Kết quả phương pháp K-means
Hình 2.40: Kết quả Silhouette Plot 2 cụm
Hình 2.41: Kết quả Silhouette Plot 3 cụm
Hình 2.42: Kết quả chỉ số Silhouette của các điểm của hai cụm
Hình 2.43: Phân bố nhóm ứng viên được tuyển dụng theo giới tính
Hình 2.44: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm thi lên 10
Hình 2.45: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo nơi thi vào 10
Hình 2.46: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm thi THPT
Hình 2.47: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo nơi thi THPT
Hình 2.48: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo môn học ở THPT
Hình 2.49: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm học Đại học
Hình 2.50: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo chuyên ngành học
Đại học
Hình 2.51: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo kinh nghiệm
Hình 2.52: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm bài kiểm tra
EMP
Hình 2.53: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo vị trí ứng tuyển
Hình 2.54: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm MBA
Hình 2.55: Feature Statistics
Hình 2.56: Feature Statistics
Hình 2.57: Feature Statistics
Hình 2.58: Feature Statistics

DANH MỤC BẢNG BIỂU


Bảng 2.1: Mô tả dữ liệu
Bảng 2.2: Thống kê các nghiên cứu đi trước
Bảng 2.3: Kết quả chọn từ 2 đến 10 cụm

DANH MỤC BIỂU ĐỒ


Biểu đồ 2.1: Tỷ lệ trúng tuyển
Biểu đồ 2.2: Tỷ lệ đậu ứng tuyển theo giới tính
Biểu đồ 2.3: Thống kê ứng viên được chọn theo vị trí ứng tuyển

8
Biểu đồ 2.4: Thống kê số lượng ứng viên được chọn dựa trên chuyên ngành Đại học
Biểu đồ 2.5: Thống kê số lượng ứng viên được chọn theo kinh nghiệm làm việc
Biểu đồ 2.6: Thống kê trung bình tỷ lệ phần trăm điểm chuyên môn và MBA
Biểu đồ 2.7: Thống kê môn học và nơi học của ứng viên
Biểu đồ 2.8: Thống kê trung bình điểm thi lớp 10, 12 và Đại học
Biểu đồ 2.9: Thống kê nơi thi vào lớp 10 và nơi thi tốt nghiệp

NGUỒN DỮ LIỆU, CÁC XỬ LÝ, FILE EXCEL, ORANGE LINK DRIVE

9
CÁC BÀI TOÁN LIÊN QUAN ĐẾN
CHUYÊN NGÀNH
Hiện nay, công tác tuyển dụng nhân sự của các tổ chức, công ty diễn ra khá tốn thời gian
và sức lực, việc lọc hồ sơ, phỏng vấn và đánh giá khả năng của các ứng viên thường diễn
ra thủ công. Việc áp dụng kiến thức Khoa học dữ liệu và ngành học Công nghệ đổi mới
sáng tạo vào mô hình dự đoán ứng viên được tuyển dụng có thể cung cấp phương tiện
hiệu quả hơn để dự báo và đánh giá khả năng của từng ứng viên. Bằng cách phân tích dữ
liệu về thông tin cá nhân, những kỹ năng trong công việc được ứng viên cung cấp thông
qua những hình thức ứng tuyển, chúng ta có thể xác định những mẫu và xu hướng từ dữ
liệu đó. Mô hình này, lấy nền tảng khoa học công nghệ, được mong muốn có thể tối ưu
hóa quy trình tuyển dụng của các tổ chức, công ty, tiết kiệm thời gian, công sức, nhân
lực, chi phí và trở thành một đề xuất mang tính đổi mới sáng tạo cho công tác tuyển dụng
nhân sự trong hiện tại và tương lai.
Để có thể áp dụng kiến thức từ chuyên ngành Khoa học dữ liệu áp dụng vào thực tế dựa
trên bộ dữ liệu được trích xuất từ Kaggle thông qua đề tài “Dự đoán ứng viên được
tuyển dụng dựa trên các công cụ Khoa học dữ liệu của phần mềm Orange” để dự
đoán ứng viên được trúng tuyển. Vì vậy để tiến hành công việc trên, nhóm đã sử dụng
công cụ Orange, Excel và lược đồ Dashboard để giải quyết 3 bài toán sau:

Bài toán 1 (Liên quan): Sử dụng các công cụ thống kê Excel với PivotTable, PivotChart
và Orange với công cụ Distributions, tiến hành vẽ các loại biểu đồ khác để phát hiện,
thống kê và trình bày các đặc điểm đặc thù liên quan đến khả năng trúng tuyển hoặc
không của các ứng viên. Sau đó, xây dựng Dashboard mô tả đặc điểm đặc thù của dữ liệu
và sử dụng biểu đồ nhằm mô tả các yếu tố trong báo cáo rồi đưa ra cái nhìn tổng quan về
sự liên kết của các biến trong biểu đồ. Từ đó đưa ra mức độ ảnh hưởng của các biến độc
lập tới biến phụ thuộc.

Bài toán 2 (Liên quan): Bài toán phân lớp dự đoán về khả năng ứng viên trúng tuyển.
Nhóm đã sử dụng mô hình phân lớp để phân loại thành các nhóm ứng viên từ đó đưa ra
các đề xuất hỗ trợ đưa ra quyết định. Xác định kết quả của ma trận nhầm lẫn (Confusion
Matrix) và đưa ra được kết luận. Qua đó, từ kết quả phân tích chuyên sâu Logistic
Regression, Tree Decision đưa ra được mô hình với độ chính xác tương đối ổn cho thấy
kết quả bài toán rõ ràng hơn. Qua đó cho thấy đây cũng là bài toán quan trọng nhất của cả
đồ án.

10
Bài toán 3 (Liên quan): Bài toán phân cụm nhằm phân loại các ứng viên có khả năng
được tuyển dụng và đề xuất các phương pháp tuyển dụng để nâng cao hiệu quả hoạt động
tuyển dụng bằng phương pháp phân cụm Clustering và phương pháp K-means. Sử dụng
các chức năng Select Rows và Select Columns để chọn lọc và loại bỏ các biến không
dùng đến. Cuối cùng là sử dụng các công cụ thống kê để phân tích đặc điểm của nhóm
ứng viên có khả năng được tuyển dụng.

11
CHƯƠNG I. TỔNG QUAN VỀ ĐỀ TÀI
1.1. Lý do chọn đề tài nghiên cứu
Hiện nay, nền kinh tế thị trường đầy biến động, để có thể đứng vững và phát triển trong
hoàn cảnh đó thì việc sử dụng hiệu quả các nguồn lực là một điều bắt buộc đối với doanh
nghiệp, tuy nhiên quy trình tuyển dụng truyền thống tốn nhiều thời gian, chi phí và sức
lực nên việc đổi mới trong quy trình tuyển dụng là điều vô cùng cần thiết đối với các
doanh nghiệp để đạt được hiệu quả cao và tiết kiệm chi phí.
Với sự phát triển nhanh chóng của xã hội hiện nay, các ngành về công nghệ thông tin và
khoa học dữ liệu đang có sự phát triển một cách nhanh chóng và bùng nổ, lan rộng và ảnh
hưởng đến các khía cạnh khác nhau của xã hội. Việc ứng dụng các phần mềm phân tích
thông tin và dữ liệu đang được quan tâm nhiều và đang trở thành xu hướng để ứng dụng
trong nhiều lĩnh vực đời sống xã hội hiện nay như thương mại, tâm lí, khí tượng thủy văn,
nhân sự, tài chính,... Trong đó ứng dụng trong việc tuyển dụng nhân sự ngày càng được
phát triển rộng rãi ở Việt Nam bởi vì việc dự báo khả năng được tuyển dụng của ứng viên
hiện nay vẫn được dựa trên các phương pháp truyền thống với nhiều hạn chế: mang tính
chủ quan, phụ thuộc vào việc đánh giá của nhà tuyển dụng và tính thiếu chính xác dẫn
đến việc lựa chọn ứng viên không phù hợp với vị trí công việc. Vì vậy việc áp dụng các
công cụ Khoa học dữ liệu với khả năng phân tích và dự đoán hiệu quả, có thể được sử
dụng để giải quyết nhiều vấn đề của doanh nghiệp bao gồm cả việc tuyển dụng nhân sự.
Ta có thể kể đến một số ví dụ về tuyển dụng nhân sự ở Việt Nam như FPT Corporation,
công ty này chủ yếu tập trung kỹ thuật trong công nghệ thông tin, thái độ làm việc và kỹ
năng mềm của ứng viên. Tổng kết năm 2023, FPT Corporation đã gia tăng số nhân sự lên
14.1% so với năm 2022 từ 22089 cán bộ nhân viên lên thành 25213. Ngoài ra, Vingroup
cũng là công ty có những điểm riêng trong tuyển dụng nhân sự, họ có quy trình phỏng
vấn và kiểm tra kỹ năng chuyên môn của người ứng tuyển, công ty này cũng là công ty
hoạt động trên nhiều lĩnh vực nên quy trình tuyển dụng cũng được tùy chỉnh sao cho phù
hợp với từng vị trí ứng tuyển khác nhau, công ty này chú trọng vào cán bộ nhân viên từ
31-40 tuổi chiếm 42% nhân sự, những cán bộ nhân viên có trình độ khác với cao đẳng,
đại học, trên đại học chiếm cao nhất tới 45.9%.
Ở chiều người đi tìm việc cũng chủ yếu có trình độ đại học trở lên, chiếm 45,6%; trình độ
cao đẳng, trung cấp và không có bằng cấp chứng chỉ không có sự chênh lệch lớn, trong
khoảng từ 20 – 30%. Nhu cầu tìm việc của người lao động cũng gần như có sự tương
đồng với nhu cầu tuyển dụng của doanh nghiệp, khi vị trí nhân viên cũng được phần lớn
người lao động tìm kiếm, chiếm gần 50%; 25,1% tìm các công việc tạm thời, và chỉ hơn
22% tìm việc ở vị trí quản lý bậc trung. Người tìm việc chủ yếu từ 20 – 40 tuổi.

12
Tuyển dụng nhân sự trên thế giới hiện nay, sự phát triển của kinh tế toàn cầu và sự xuất
hiện của nhiều công ty đa quốc gia khiến cho sự cạnh tranh nhân sự trở nên gay gắt. Hơn
nữa, với xu hướng chuyển đổi số, việc cần tuyển dụng những nhân sự có kỹ năng số và
kỹ năng mềm được đặt lên hàng đầu.
Dựa trên đặc thù của công việc tuyển dụng nhân sự là tiêu tốn thời gian và sức lực, đi
kèm với sự riêng biệt về yêu cầu tuyển dụng và quy trình tuyển dụng của từng tổ chức
khác nhau, để có thể tối ưu hóa quá trình tuyển dụng nhân sự, tiết kiệm nguồn lực, nhóm
quyết định thực hiện đề tài “Dự đoán ứng viên được tuyển dụng dựa trên các công cụ
Khoa học dữ liệu của phần mềm Orange".

1.2. Mục tiêu nghiên cứu

1.2.1. Mục tiêu tổng quát


Mục đích của bài nghiên cứu này là sử dụng bộ dữ liệu được lấy từ Kaggle nhằm phân
tích và dự đoán việc ứng viên nào sẽ được doanh nghiệp tuyển dụng bằng công cụ phân
tích Orange và Excel. Từ đó đào sâu vào các khía cạnh phức tạp trong quyết định của nhà
tuyển dụng, góp phần hỗ trợ phát triển nhân sự. Ngoài ra đưa ra các đề xuất giúp ứng viên
lên kế hoạch cho việc phỏng vấn, phân tích xu hướng tuyển dụng để có sự chuẩn bị kỹ
càng nhất, gia tăng khả năng được tuyển chọn bởi doanh nghiệp.

1.2.2. Mục tiêu cụ thể

Mục tiêu cụ thể của dự án này ứng với 3 bài toán cần giải quyết

Bài toán 1 (Liên quan): Phát hiện các đặc điểm đặc thù liên quan đến khả năng được
tuyển dụng của ứng viên bằng cách sử dụng các công cụ thống kê phổ biến như Orange,
Excel, xây dựng Dashboard.

Bài toán 2 (Liên quan): Bài toán phân lớp: Dự báo khả năng trúng tuyển hay không của
ứng viên thông qua các phương pháp phân lớp trong Orange.

Bài toán 3 (Liên quan): Bài toán phân cụm: Phân loại những nhóm ứng viên có khả năng
được tuyển dụng bằng phương pháp phân cụm trong Orange.

1.3. Đối tượng nghiên cứu

Đề tài nghiên cứu về khả năng các ứng viên được tuyển dụng qua bộ dữ liệu “Job Placement”
được thu thập trên Kaggle.

13
Đối tượng nghiên cứu bao gồm 215 ứng viên tiềm năng được khảo sát trong một doanh nghiệp
và bao gồm nhiều thuộc tính khác nhau của ứng viên như: giới tính, kinh nghiệm, điểm thi vào
10, nơi thi vào 10, điểm thi THPT, nơi thi THPT, môn học ở THPT, điểm học đại học, chuyên
ngành học đại học, điểm test EMP, vị trí ứng tuyển, điểm MBA.

1.4. Phương pháp nghiên cứu

Quy trình thực hiện đồ án:

Bước 1: Thu thập dữ liệu: Nhóm chọn bộ dữ liệu “Job Placement” từ trang web Kaggle.

Bước 2: Tiền xử lý dữ liệu: Làm sạch, rút gọn, chuyển đổi ngôn ngữ bằng phần mềm Orange

Bước 3: Phân tích đặc thù

+ Excel: xây dựng Dashboard để khái quát thông tin về các ứng viên
+ Orange: Sử dụng công cụ Distribution phân tích mối liên hệ / tương quan giữa các biến
độc lập với biến phụ thuộc, từ đó rút ra kết luận về mối quan hệ của các biến độc lập tác
động lên biến phụ thuộc.

Bước 4: Phát triển mô hình: Bài toán phân lớp và phân cụm

Bước 5: Kiểm tra và đánh giá mô hình và hoàn thiện

14
CHƯƠNG II. QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
2.1. Mô tả nguồn dữ liệu và cấu trúc của dữ liệu

2.1.1. Mô tả dữ liệu

Nguồn dữ liệu được lấy trực tiếp từ Kaggle: Job Placement. Đây là một bộ dữ liệu được
thu thập bởi một công ty Ấn Độ về việc tuyển dụng nhân viên, chứa dữ liệu của 215 ứng
viên (dòng) và 13 thuộc tính (cột). Dữ liệu bao gồm các thuộc tính khác nhau của ứng viên
được nhà tuyển dụng ghi lại.

Trong đó, biến Status (Trạng thái) là biến phụ thuộc: nếu nhân viên được tuyển dụng là
Placed, không được tuyển là Not Placed, còn lại là biến độc lập.

2.1.2. Cấu trúc dữ liệu

Thuộc tính Ý nghĩa Khoảng giá trị Kiểu dữ


liệu
gender Giới tính của ứng viên Male(M) categorical

Female(F)
ssc_percentage Điểm thi vào lớp 10 40.9 → 89.4 numeric

ssc_board Nơi thi vào lớp 10 Central categorical

Others
hsc_percentage Điểm thi trung học phổ thông 37 -> 97.7 numeric
hsc_board Nơi thi vào THPT Central categorical

Others
hsc_subject Môn học ở THPT Commerce categorical

Science

Others

15
degree_percentage Điểm học Đại học 50 → 91 numeric

undergrad_degree Chuyên ngành Đại học Comm&Mgmt categorical


(Commerce &
Management)

Sci&Tech (Science &


Technology)

Others
work_experience Kinh nghiệm làm việc trước Yes categorical
đây
No
emp_test_percentage Điểm test EMP (năng khiếu) 50 → 98 numeric

specialization Vị trí ứng tuyển Mkt&Fin (Marketing - categorical


Finance)

Mkt&HR (Marketing -
Human Resources)
mba_percent Điểm MBA (Bằng Thạc sĩ 51.2 → 77.9 numeric
quản trị kinh doanh)
status (target) Kết quả Placed categorical

Not Placed
Bảng 2.1: Mô tả dữ liệu
2.2. Tiền xử lý dữ liệu

16
Hình 2.1: Mô hình tiền xử lý dữ liệu

Bước 1: Làm sạch dữ liệu

Hình 2.2: Thông tin bảng dữ liệu

Phát hiện dữ liệu thiếu: Nhìn vào bảng tổng quát dữ liệu, cột “Missing value” ta thấy rằng
không có dữ liệu nào bị thiếu. Vậy nên nhóm sẽ không cần tiền xử lí (preprocess) ở phần
missing data này.

Bước 2: Rút gọn dữ liệu

Với bộ dữ liệu 215 biến là vừa đủ để nhóm phân tích dữ liệu trong các bài toán nghiên cứu đã
được đề ra và đều cần thiết cho việc phân tích dữ liệu cho đồ án. Vì vậy nhóm quyết định sẽ bỏ
qua phần rút gọn dữ liệu này.

Bước 3: Tích hợp dữ liệu

Bộ dữ liệu của nhóm sử dụng đã đáp ứng được yêu cầu để phân tích các bài toán. Việc tích hợp
thêm các dữ liệu khác sẽ làm bộ dữ liệu trở nên dư thừa và không đồng nhất với nhau nên khi
thực hiện tích hợp dữ liệu có nguy cơ sai sót ảnh hưởng đến toàn bộ bộ dữ liệu. Do đó, nhóm
đã tập trung vào xử lý nguồn dữ liệu hiện tại, tránh các vấn đề liên quan đến đồng nhất, tích
hợp dữ liệu và chất lượng của bộ dữ liệu.

Bước 4: Chỉnh dạng dữ liệu

Để giúp dễ hiểu hơn, tạo sự thuận tiện cho việc khai thác dữ liệu và các kiến thức đã được học,
nhóm đã tiến hành công đoạn Data Transformation bằng cách sử dụng chức năng Edit Domain
trong Orange chuyển dữ liệu thành tiếng Việt như hình minh họa dưới đây:

17
Hình 2.3: Chuyển đổi ngôn ngữ của dữ liệu bằng Edit Domain

Nhóm đã thu thập dữ liệu từ nguồn có độ uy tín, đảm bảo độ chính xác và sẵn sàng để sử dụng
phân tích dự đoán nên nhóm dừng việc tiền xử lí dữ liệu ở đây, lưu dữ liệu với tên file “Data
tổng”.

18
Hình 2.4: Bảng dữ liệu sau quá trình tiền xử lý

2.3. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

2.3.1. Mô tả Bài toán 1

Nhóm sử dụng tệp “Data tổng.xlsx” đã được chuẩn bị cho Excel và tệp tương tự đã qua
bước tiền xử lí cho Orange; sử dụng các công cụ thống kê Excel với PivotTable,
PivotChart và Orange với công cụ Distributions, tiến hành vẽ các loại biểu đồ khác nhau
để phát hiện, thống kê và trình bày các điểm dữ liệu đặc thù cũng như mối quan hệ giữa
chúng cũng như thể hiện mức ảnh hưởng của các thuộc tính độc lập đến thuộc tính phụ
thuộc (Status). Cuối cùng, tổng hợp các biểu đồ để tạo thành một Dashboard chung tổng
hợp dữ liệu thống kê và đánh giá, từ đó đưa ra cái nhìn tổng quan về những điểm đặc thù
của dữ liệu. Bên cạnh đó, sử dụng các giá trị từ các biểu đồ từ chức năng Distributions để
tính toán và đưa ra mức độ ảnh hưởng của các biến độc lập tới biến phụ thuộc.

2.3.2. Các bước thực hiện

2.3.2.1. Xây dựng Dashboard trong Excel

Bước 1: Tạo PivotTable

19
- Sử dụng file Excel được thu thập từ trang dữ liệu Kaggle để thực hiện thống kê
điểm đặc thù của dữ liệu. Trong Insert chọn PivotTable, tích vào New Worksheet
để tạo PivotTable ở sheet mới.
- Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn
- Tại thẻ Analyze, chọn PivotChart để chọn loại biểu đồ. Sau đó tùy chỉnh các định
dạng của biểu đồ sao cho phù hợp.

Bước 2: Tạo Dashboard

- Tạo một sheet mới sau đó Cut các biểu đồ vừa tạo và dán nó qua sheet Dashboard.
Bên cạnh đó tạo các slicer và kết nối với tất cả các báo cáo để các biểu đồ biểu thị
số liệu tương ứng với các lựa chọn. Sau đó trang trí Dashboard để gọn gàng, bắt
mắt và dễ nhìn hơn.

Bước 3: Mô tả Dashboard

Hình 2.5: Dashboard mô tả điểm đặc thù của dữ liệu

● Mô tả chi tiết về Dashboard

20
Biểu đồ 2.1: Tỷ lệ trúng tuyển

- Tỷ lệ được chọn của các ứng viên: Biểu đồ này sẽ cho chúng ta có cái nhìn tổng
quát về tỷ lệ đậu hay không đậu ở các ứng viên là bao nhiêu. Và cụ thể ở đây tỷ lệ
ứng viên đậu là 69% và tỷ lệ ứng viên không đậu là khoảng 31%. Qua đó, ta thấy
được rằng tỷ lệ ứng viên đậu nhiều hơn ứng viên không đậu khá nhiều khoảng 38%.

Biểu đồ 2.2: Tỷ lệ đậu ứng tuyển theo giới tính

- Tỷ lệ giới tính: Thông qua biểu đồ ta có được thông tin tổng quan về các ứng viên.
Cụ thể, tỷ lệ các ứng viên nam là 65% trên tổng thể 215 ứng viên và tỷ lệ các ứng
viên nữ là 35%.
- Thống kê số lượng ứng viên được chọn theo giới tính: Thông qua biểu đồ, ta thấy
được số lượng ứng viên nam đậu là 100 người, cao hơn 2 lần so với số lượng ứng
viên nữ là gần 50 người. Trong khi đó, số ứng viên nam không đậu cao hơn số ứng
viên nữ không đậu gần gấp 2 lần. Điều này cũng vô cùng dễ hiểu vì tỷ lệ nam tham
gia ứng tuyển cao hơn tỷ lệ nữ tham gia ứng tuyển xấp xỉ gấp 2 lần.

21
Biểu đồ 2.3: Thống kê ứng viên được chọn theo vị trí ứng tuyển

- Thống kê số lượng ứng viên được chọn theo vị trí ứng tuyển: Từ biểu đồ ta có thể
thấy rằng vị trí ứng tuyển Marketing & Finance có số lượng người đậu ứng tuyển
nhiều hơn so với vị trí Marketing & Human Resource. Bên cạnh đó thì vị trí ứng
tuyển Marketing & Finance cũng có ít người không đậu ứng tuyển hơn là vị trí
Marketing & Human Resource.

Biểu đồ 2.4: Thống kê số lượng ứng viên được chọn dựa trên chuyên ngành Đại học

- Thống kê số lượng ứng viên được chọn theo chuyên ngành Đại học: Từ biểu đồ,
ta thấy được số lượng ứng viên đậu có chuyên ngành thuộc nhóm Commerce &
Management là vượt trội so với 2 nhóm còn lại với hơn 102 người, theo sau là số
lượng ứng viên của nhóm Science&Technology với 41 người, sau cùng là nhóm

22
Others với chưa tới 5 người. Tương tự, số lượng ứng viên không đậu có chuyên
ngành thuộc nhóm Commerce & Management là 43 người, gấp hơn 2 lần so với
nhóm Science & Technology với 18 người, sau cùng là nhóm Others với 6 ứng viên
không đậu.

Biểu đồ 2.5: Thống kê số lượng ứng viên được chọn theo kinh nghiệm làm việc

- Thống kê số lượng ứng viên được chọn theo kinh nghiệm: Thông qua biểu đồ, ta
có thể thấy số lượng ứng viên không có kinh nghiệm đậu là 84 người và không đậu là
57 người. Điều này cho ta thấy rằng số lượng các ứng viên không có kinh nghiệm
đậu và không đậu là khá nhiều. Và cũng không tránh khỏi được điều này khi nhìn
chung số lượng ứng viên không có kinh nghiệm ứng tuyển là khá nhiều khoảng 141
người. Mặt khác, số lượng ứng viên có kinh nghiệm đậu là 64 người chênh lệch rất
nhiều so với số lượng ứng viên có kinh nghiệm không đậu chỉ có 10 người. Từ đó, ta
có thể thấy nhìn chung thì ứng viên có kinh nghiệm khi ứng tuyển sẽ có khả năng đậu
khá cao cũng như sẽ có nhiều cơ hội việc làm.

23
Biểu đồ 2.6: Thống kê trung bình tỷ lệ phần trăm điểm chuyên môn và MBA

- Thống kê trung bình tỷ lệ phần trăm điểm chuyên môn và kiểm tra MBA: Biểu
đồ cho ta thấy trung bình điểm kiểm tra năng khiếu chuyên môn và trung bình điểm
MBA của cả ba nhóm bằng cấp đại học là Commerce & Management, Science &
Technology và Others là gần như tương tự nhau và không có nhiều sự chênh lệch ở
cả 2 phần điểm thi kiểm tra năng khiếu chuyên môn và điểm thi MBA.

Biểu đồ 2.7: Thống kê môn học và nơi học của ứng viên

- Thống kê môn học và nơi học 12: Qua các số liệu được thống kê, ta có thể thấy các
môn học của nơi thi THPT phần lớn là nhóm Commerce khoảng 113 người. Và môn
học thuộc nhóm Art thường rất ít được cho thi ở nơi thi THPT với số lượng chỉ có 11
người . Bên cạnh đó, ta có thể quan sát thấy rằng nơi thi THPT Central thường cho
thi về môn học thuộc nhóm Science nhiều hơn những nơi thi THPT Others là 33
người.

24
Biểu đồ 2.8: Thống kê trung bình điểm thi lớp 10, 12 và Đại học

- Thống kê trung bình điểm thi lớp 10, lớp 12 và bậc Đại học: Nhìn vào biểu đồ ta
có thể quan sát thấy điểm trung bình ở các bậc học lớp 10, lớp 12 và Đại học của nữ
giới cao hơn so với điểm trung bình của nam giới. Ở nữ giới, điểm trung bình ở bậc
học lớp 10 và Đại học nhìn chung là tương đương nhau và cao hơn so với điểm trung
bình ở bậc học lớp 12. Còn về nam giới, điểm trung bình ở các bậc học có xu hướng
giảm dần từ lớp 10 đến Đại học.

Biểu đồ 2.9: Thống kê nơi thi vào lớp 10 và nơi thi tốt nghiệp

- Nơi thi vào 10: Qua các dữ liệu được thống kê, ta có thể dễ dàng thấy rằng nơi thi
vào 10 tập trung nhiều là Central khoảng 54% và chỉ nhiều hơn các nơi thi vào 10
khác là 8%.

2.3.2.2. Xây dựng biểu đồ Distributions trong Orange

Bước 1: Tạo biểu đồ Distributions

- Từ Datatable của dữ liệu đã qua bước tiền xử lý kéo ra một nhánh mới chọn chức
năng Distributions.
- Ở tùy chọn Split by, chọn biến phụ thuộc ở đây là biến Kết quả.
Bước 2: Xác định tỷ lệ phần trăm đậu của từng phân khúc của từng biến:
- Đưa trò chuột lại từng cột và đọc số hàng Placed, cột in group
Bước 3: Xác định các mức độ ảnh hưởng của các biến động lập tới biến phụ thuộc bao
gồm ảnh hưởng mạnh, ảnh hưởng yếu và không ảnh hưởng:
- Với từng biến độc lập, nhóm xác định các tỷ lệ phần trăm đậu của từng phân khúc,
mức độ chênh lệch giữa chúng trị này giúp phân loại mức độ ảnh hưởng của mỗi
biến độc lập:

25
+ Mức độ chênh lệch dưới 10% => Không ảnh hưởng.
+ Mức độ chênh lệch nằm trong khoảng từ 10% tới 15% => Ảnh hưởng yếu.
+ Mức độ chênh lệch lớn hơn 15% => Ảnh hưởng mạnh.
Bước 4: Mô tả biểu đồ Distributions

Hình 2.6: Xây dựng biểu đồ Distributions


● Mô tả chi tiết biểu đồ Distributions:

Hình 2.7: Tỷ lệ đậu ứng tuyển của ứng viên theo giới tính
- Biến Giới tính: Qua biểu đồ này, ta xác định được tỷ lệ đậu của ứng viên nữ là
63.16%, tỷ lệ đậu của ứng viên nam là 71.94%. Ta có chênh lệch giữa hai giá trị
này là 8.78% nhỏ hơn 10%. Từ đó cho thấy giới tính không phải yếu tố ảnh
hưởng nhân viên có được tuyển hay không. Nam giới thường có nhu cầu việc
làm, ứng tuyển nhiều hơn nữ giới. Tuy nhiên, tỷ lệ đậu ứng tuyển nhìn chung là

26
tương đương nhau và cơ hội việc làm ở cả nam và nữ đều ngang nhau và không có
sự chênh lệch nhiều.

Hình 2.8: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm thi vào lớp 10
- Biến Điểm thi lên 10: Từ biểu đồ, ta thấy được điểm thi lên 10 càng cao thì khả
năng đậu tuyển dụng càng lớn. Cụ thể, những ứng viên có điểm thi từ 50 trở xuống
có tỷ lệ rớt gần 100%, những ứng viên có điểm thi từ 80 trở lên có tỷ lệ đậu là
100%, với chênh lệch lên đến gần 100%, vì vậy nhóm kết luận Điểm thi lên 10 có
ảnh hưởng mạnh đến việc được chọn của ứng viên. Việc điểm thi lớp 10 cao sẽ
đánh giá được khả năng và tạo ấn tượng tốt trong CV xin việc của ứng viên nên
nhà tuyển dụng sẽ dựa căn cứ vào điểm thi để đánh giá năng lực của ứng viên

Hình 2.9: Nơi thi vào lớp 10

27
- Biến Nơi thi vào 10: Thông qua biểu đồ, ta có được số liệu số ứng viên thi vào
lớp 10 ở trung tâm địa phương đậu có tỷ lệ là 67.24%, số ứng viên thi vào 10 ở các
vùng khác đậu có tỷ lệ 70.71%, với độ chênh lệch giữa hai giá trị này là 3.47%
nhỏ hơn 10%, như vậy ta thấy việc ứng viên thi vào lớp 10 ở đâu không ảnh
hưởng tới việc ứng viên có đậu ứng tuyển hay không.

Hình 2.10: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm thi THPT
- Biến Điểm thi THPT: Từ biểu đồ, ta thấy rõ điểm thi THPT ứng viên càng cao
thì tỷ lệ được ứng tuyển càng cao. Những ứng viên có điểm thi THPT từ 50 trở
xuống có tỷ lệ đậu là 0%, ngược lại, những ứng viên được từ 80 điểm trở lên có tỷ
lệ đậu xấp xỉ 100%. Với sự chênh lệch gần 100% giữa hai giá trị này, ta thấy điểm
thi THPT có ảnh hưởng mạnh tới việc có được tuyển dụng hay không của ứng
viên. Tương tự như điểm thi THPT, điểm thi cao thường phản ánh khả năng học
tập tốt của ứng viên, thể hiện sự tiếp thu kiến thức hiệu quả và khả năng vận dụng
kiến thức vào giải quyết vấn đề. Những ứng viên có điểm thi cao thường có tư duy
logic, khả năng phân tích và tổng hợp thông tin tốt, đây là những kỹ năng cần thiết
cho nhiều vị trí công việc.

28
Hình 2.11:Tỷ lệ đậu ứng tuyển của ứng viên theo nơi thi THPT
- Biến Nơi thi THPT: Từ biểu đồ trên, ta có được tỷ lệ của ứng viên thi THPT ở
trung tâm đậu và tỷ lệ của ứng viên thi THPT ở các vùng khác lần lượt là 67.86%
và 69.47%, với sự chênh lệch giữa hai giá trị này chỉ là 1.61% nhỏ hơn rất nhiều
so với 10%, ta dễ dàng kết luận việc thi THPT ở đâu không ảnh hưởng tới việc
đậu hay rớt của ứng viên. Các nhà tuyển dụng thường không căn cứ vào nơi học
ở đâu, họ quan tâm đến năng lực và thái độ của ứng viên hơn là trường của họ.

Hình 2.12: Tỷ lệ đậu ứng tuyển của ứng viên theo ngành học ở THPT
- Biến Môn học ở THPT: Thông qua biểu đồ, ta xác định được tỷ lệ đậu tuyển
dụng của những ứng viên học những môn nghệ thuật ở THPT là 54.55%, còn tỷ lệ
đậu của ứng viên học những môn thương mại ở THPT lên đến 69.91%, hai tỷ lệ
này chênh lệch nhau 15.36% lớn hơn 15%. Việc ứng viên học về mảng nào ở
THPT có ảnh hưởng mạnh tới việc tuyển dụng. Lý do cho việc này có thể vì dữ

29
liệu thu thập được là của một công ty chuyên về mảng thương mại điện tử, do đó
các môn liên quan đến Nghệ thuật khó kiếm được vị trí trong công ty.

Hình 2.13: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm tại Đại học
- Biến Điểm học Đại học: Ta thấy từ biểu đồ, các ứng viên có điểm thi từ 56 trở
xuống đều có tỷ lệ 0% đậu, tuy nhiên các ứng viên thi điểm từ 80 trở lên có tỷ lệ
đậu 100%, vậy ta thấy với chênh lệch thì điểm thi Đại học có ảnh hưởng mạnh
tới việc được ứng tuyển của ứng viên. Tương tự như điểm ở THPT và lớp 10,
những ứng viên có kiến thức và kỹ năng tốt dựa trên điểm số sẽ dễ dàng thích nghi
với công việc mới và có khả năng thành công cao hơn. Điểm thi cao thường tạo ấn
tượng ban đầu tốt với nhà tuyển dụng, giúp ứng viên nổi bật so với các ứng viên
khác.

Hình 2.14: Tỷ lệ đậu ứng tuyển của ứng viên theo chuyên ngành Đại học

30
- Biến Chuyên ngành Đại học: Thông qua biểu đồ, ta có tỷ lệ các ứng viên học
chuyên ngành thương mại và quản lý ở Đại học có tỷ lệ đậu ứng tuyển là 70.34%,
tỷ lệ đậu của ứng viên học chuyên ngành khoa học và công nghệ là 69.49%, tuy
nhiên, tỷ lệ đậu của những người học các chuyên ngành khác là 45.45%. Ta có
được chênh lệch của giá trị thuộc nhóm các chuyên ngành khác so với với hai giá
trị của hai chuyên ngành còn lại lần lượt là 24.89% với nhóm thương mại và quản
lý, 24.04% với nhóm khoa học và công nghệ, cả hai chênh lệch đều lớn hơn 15%.
Như vậy, ta kết luận được việc học chuyên ngành gì ở Đại học có ảnh hưởng
mạnh tới sự đậu hay rớt của ứng viên. Ngành học tại Đại học hay Cao đẳng là
tiền đề quan trọng để ứng tuyển vào vị trí mà một doanh nghiệp cần, doanh nghiệp
bước đầu xem xét ứng viên có phù hợp với tiêu chí và chuyên ngành của công việc
hay không.

Hình 2.15: Tỷ lệ đậu ứng tuyển của ứng viên theo kinh nghiệm làm việc trước đây
- Biến Kinh nghiệm: Thông qua biểu đồ, ta xác định được trong số các ứng viên
không có nghiệm ứng tuyển thì có 59.57% là đậu, tỷ lệ này ở số các ứng viên có
kinh nghiệm là 86.49%, chênh lệch lên tới 26.92% lớn hơn 15%. Vì thế Kinh
nghiệm có ảnh hưởng mạnh tới khả năng đậu ứng tuyển của các ứng viên. Bên
cạnh chuyên ngành, môn học, điểm số,... nhà tuyển dụng thường sẽ chú trọng vào
nhân lực đã có kinh nghiệm nhằm tăng hiệu quả tuyển dụng và công việc, nhân
viên có kinh nghiệm càng lâu thì cơ hội được tuyển dụng càng cao.

31
Hình 2.16: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm test EMP
- Biến Điểm test EMP: Thông qua biểu đồ trên, ta thấy rằng số lượng các ứng viên
đậu không tập trung ở một mức điểm nào mà nó nằm rải rác qua từng mức điểm
test EMP, tỷ lệ đậu của các ứng viên chủ yếu tập trung từ 60% tới 100% nhưng
không có xu hướng rõ ràng. Bên cạnh đó, ta cũng có thể quan sát thấy rằng phần
lớn các ứng viên có điểm test EMP càng thấp thì sẽ càng có ít cơ hội đậu ứng
tuyển hơn và số lượng ứng viên có điểm test EMP thấp không đậu ứng tuyển là
một con số không nhỏ, tuy nhiên vẫn có một số lượng lớn các ứng viên có điểm
test EMP thấp nhưng vẫn trúng tuyển. Từ đó, có thể cho rằng biến Điểm test EMP
chỉ ảnh hưởng đến một khía cạnh của việc đậu hay không đậu ứng tuyển. Chính vì
vậy mà, biến Điểm test EMP được cho rằng ảnh hưởng yếu đến việc đậu hay
không đậu ứng tuyển của các ứng viên. Thực tế, bằng cấp là điều mà nhà tuyển
dụng sẽ xét đến bên cạnh năng lực của ứng viên, có bằng cấp tốt là một lợi thế
trong mắt nhà tuyển dụng nhưng ở một số doanh nghiệp họ chỉ xem xét đến khả
năng của ứng viên mà thôi

32
Hình 2.17: Tỷ lệ đậu ứng tuyển của ứng viên theo vị trí ứng tuyển của ứng viên
- Biến Vị trí ứng tuyển: Thông qua biểu đồ, ta xác định được những ứng viên ứng
tuyển vào vị trí marketing và tài chính có tỷ lệ đậu 79.17%, còn với những ứng
viên ứng tuyển vào marketing và nhân sự có tỷ lệ này là 55.79%, chênh lệch giữa
hai giá trị này 23.38% lớn hơn 15%.---> Vị trí ứng tuyển ảnh hưởng mạnh tới
việc ứng viên có được nhận hay không. Có thể thấy nhu cầu về nhân sự của công
ty này thiên về mảng tài chính nhiều hơn vì marketing và tài chính có nhiều hạng
mục và cần bổ sung nhân sự chất lượng, nên khả năng đậu cao hơn ứng tuyển vào
vị trí nhân sự của công ty. Từ đó ta có thể thấy rằng vị trí ứng tuyển Marketing &
Finance có nhiều cơ hội hơn cho các ứng viên cũng như đây là vị trí cần nhiều
nhân lực hơn vị trí Marketing & Human Resource.

Hình 2.18: Tỷ lệ đậu ứng tuyển của ứng viên theo điểm bằng Thạc sĩ kinh doanh (MBA)

33
- Biến Điểm MBA: Ta thấy được những ứng viên có điểm MBA càng cao thì tỷ lệ
đậu càng cao và ngược lại, cụ thể, điểm dưới 52 có tỷ lệ đậu ứng tuyển là 0%,
ngược lại, những ứng viên có điểm cao hơn 76 điểm đều đậu 100%. Chênh lệch
lên tới 100%, vậy điểm MBA có ảnh hưởng mạnh tới việc đậu hay rớt ứng
tuyển của các ứng viên. Vì đây là công ty thiên về mảng kinh doanh thương mại
nên bằng Thạc sĩ kinh tế là ưu thế gần như tuyệt đối trong mắt nhà tuyển dụng

Hình 2.19: Tỷ lệ đậu hay trượt ứng tuyển của ứng viên
- Tỷ lệ đậu hay trượt ứng tuyển của ứng viên: Từ biểu đồ có thể nhận thấy trong
số 215 ứng viên thì tỷ lệ ứng viên đậu cao hơn ứng viên không đậu (38%), có
nghĩa là cứ 10 ứng viên sẽ có 7 người đậu ứng tuyển, một con số khá cao. Điều
này được coi là dấu hiệu tích cực cho các ứng viên. Phân tích này cho thấy rằng
quy trình tuyển dụng của doanh nghiệp đang hoạt động hiệu quả, giúp thu hút
những ứng viên phù hợp với vị trí công việc và đáp ứng các tiêu chí tuyển dụng.
Nó cũng nhấn mạnh rằng tỷ lệ đậu phỏng vấn cao có thể cho thấy rằng có nhiều
ứng viên chất lượng cao ứng tuyển vào và có khả năng đáp ứng tốt với công việc.

2.3.2.3. Kết luận bài toán 1

Qua những phân tích từ Dashboard và Orange, nhóm rút ra được một số nhận xét về kết
quả phân tích như sau:
- Có thể nhận thấy từ bài toán 1, thông qua các đặc trưng cơ bản này có thể giúp cho
doanh nghiệp và ứng viên dự đoán được khả năng trúng tuyển nhằm nâng cao
phần trăm cơ hội này. Tỷ lệ ứng viên đậu không chỉ phụ thuộc vào một yếu tố
riêng lẻ nào mà nó phụ thuộc vào tất cả yếu tố (dữ liệu) được đưa ra. Bên cạnh
những tác động của dữ liệu được đưa ra trên thì còn có những tác động của ngoại

34
cảnh mà dữ liệu không thể thu thập được. Dữ liệu trong bài chỉ mang tính chất đặc
trưng.
- Các nhà tuyển dụng rất quan tâm tới các biến có tác động mạnh đến khả năng ứng
tuyển là kinh nghiệm, điểm số, chuyên môn, vị trí ứng tuyển và năng lực của ứng
viên (trên 15%). Tỷ lệ đậu ứng tuyển cao của công ty (69%) có thể tạo động lực,
thúc đẩy thêm nguồn nhân tài đến ứng tuyển, đồng thời nâng số cơ hội có việc làm
lên cho người dân, tạo điều kiện phát triển kinh tế và xã hội. Các biến có ảnh
hưởng thấp (10%) được xem là một lợi thế của ứng viên trong mắt nhà tuyển dụng
như bằng cấp, phản ảnh được khả năng của họ.
- Một trong những biến có ảnh hưởng nhiều nhất là kinh nghiệm làm việc trước đây
của ứng viên, chênh lệch giữa đậu và trượt lên đến 26,92%. Các nhà tuyển dụng
xem đây là một trong những tiêu chí hàng đầu để xét tuyển. Kinh nghiệm cũng
giúp ứng viên hiểu rõ hơn về môi trường làm việc và những thách thức của công
việc.
- Ngoài ra nhóm còn nhận xét sơ bộ về những yếu tố và đưa ra kết luận sau:
+ Không ảnh hưởng (mức độ chênh lệch dưới 10%): Giới tính, Nơi thi vào
10, Nơi thi THPT
+ Mức độ ảnh hưởng yếu (mức độ chênh lệch từ 10 đến 15%): Điểm thi
EMP, Điểm MBA
+ Mức độ ảnh hưởng mạnh(mức độ chênh lệch trên 15%): Điểm thi lên 10,
Điểm thi THPT, môn học ở THPT, Điểm thi Đại học, Chuyên ngành Đại
học, Kinh nghiệm, Vị trí ứng tuyển.

2.4. Bài toán 2: Bài toán phân lớp dự đoán khả năng được tuyển dụng của ứng
viên.

2.4.1. Mô tả bài toán

Bài toán được đặt ra là dự đoán khả năng được tuyển dụng của ứng viên tại doanh nghiệp. Mục
tiêu là xây dựng một mô hình phân lớp để phân loại nhóm ứng viên thành hai nhóm: nhóm
được tuyển dụng và nhóm không được tuyển dụng (Placed or Not Placed). Việc này được thực
hiện bằng cách sử dụng các thông tin ứng viên như: điểm thi ở lớp 10, lớp 12, kinh nghiệm,
chuyên ngành, năng khiếu, bằng cấp, mô hình sẽ dự đoán liệu ứng viên đó có được tuyển dụng
hay không.

35
Hình 2.20: Chọn biến phụ và các biến tác động

2.4.2. Mô tả các phương pháp thực hiện

2.4.2.1. Phương pháp phân lớp (Classification)

Phương pháp phân lớp được sử dụng để xây dựng mô hình dự đoán khả năng tuyển dụng của
ứng viên. Phân lớp là quá trình gán nhãn cho các mẫu dữ liệu vào các lớp khác nhau dựa trên
các đặc trưng của chúng.

2.4.2.2. Các bước thực hiện

Bước 1:

- Xây dựng mô hình: Sử dụng các thuật toán phân lớp để xây dựng mô hình dự đoán khả
năng tuyển dụng của ứng viên
- Dữ liệu đầu vào: được dán nhãn và xử lí trước dữ liệu mẫu. Các thuật toán phân loại:
Cây quyết định, hàm toán học, bộ quy tắc…
- Kết quả của bước này là mô hình phân loại đã được huấn luyện (classifier)

Bước 2:

Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

36
- Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được dán nhãn và xử lý trước.
- Xác định tính đúng đắn của mô hình bằng cách so sánh các thuộc tính được gắn nhãn
của dữ liệu đầu vào với kết quá phân loại của mô hình.

Phân loại dữ liệu mới

- Dữ liệu đầu vào: là dữ liệu “còn thiếu” cho các thuộc tính cần thiết để dự đoán danh
mục (nhãn).
- Mô hình sẽ tự động phân loại (gắn nhãn) các đối tượng dữ liệu này dựa trên những gì đã
được huấn luyện ở bước 1.

Một số phương pháp cơ bản

Dưới đây là những đặc điểm, lợi ích của các mô hình học máy cũng như phân tích về ưu,
nhược điểm của các phương pháp trên:

- Hồi quy Logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị
đầu ra rời rạc từ một tập các giá trị đầu vào ( biểu diễn dưới dạng vector)
- Cây quyết định (Decision Tree): Trong lĩnh vực khai phá dữ liệu, cây quyết định
là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
- SVM (Support Vector Machine): Là một thuật toán có giám sát, SVM nhận dữ
liệu vào, xem chúng như những vector trong không gian và phân loại chúng vào
các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều
chiều làm mặt phân cách các lớp dữ liệu.
- Neural Network (NN): là một hệ thống tính toán lấy cảm hứng từ sự hoạt động của
các nơron trong hệ thần kinh, là mạng sử dụng các mô hình toán học phức tạp để
xử lý thông tin. Mạng nơ-ron nhân tạo sử dụng các lớp xử lý toán học khác nhau
để hiểu thông tin mà nó được cung cấp. Thông thường, một mạng nơ-ron nhân tạo
có từ hàng chục đến hàng triệu nơron nhân tạo - được gọi là các đơn vị - được sắp
xếp thành một loạt các lớp. Lớp đầu vào nhận các dạng thông tin khác nhau từ thế
giới bên ngoài. Từ lớp đầu vào, dữ liệu đi qua một hoặc nhiều lớp ẩn khác. Công
việc của các lớp ẩn là biến đầu vào thành thứ mà lớp đầu ra có thể sử dụng.

Dưới đây là một số nghiên cứu nhóm đá tham khảo có sử dụng phần mềm Orange thực
hiện bài toán phân lớp:
Tên đề tài Mục tiêu Mô hình phân lớp

37
Logistics SVM Tree Neural Link
Regression Decision Network bài
tham
khảo
Nghiên cứu và ứng - Xây dựng một mô x x x Nghiên
dụng các phương hình dự đoán dựa cứu và
trên cơ sở lý thuyết ứng
pháp khai thác dữ
của khai phá dữ liệu dụng các
liệu để dự đoán phương
khả năng rời công để giải quyết các vấn
pháp
đề liên quan đến dự
ty của nhân viên khai
đoán khả năng nghỉ thác dữ
(Nguyễn Ngọc Nhi việc của nhân viên. liệu để
Ngô Thị Bảo Yến - Xác định các yếu tố dự đoán
Võ Thị Lan Tiên chính ảnh hưởng đến khả
Trương Thị Hồng quyết định rời bỏ năng rời
Vân Trần Ngọc công ty của nhân công ty
Huyền) viên, bao gồm mức của nhân
lương, chính sách viên
công ty, sự phát triển
sự nghiệp, và môi
trường làm việc.
- Tìm hiểu cách cải
thiện độ chính xác và
hiệu suất của mô
hình dự đoán thông
qua việc áp dụng các
phương pháp khai
phá dữ liệu (tiền xử
lý dữ liệu, phân cụm,
phân lớp và phân
tích dữ liệu).
- Dựa vào mô hình
đã nghiên cứu, đánh
giá tác động và đưa
ra các nhận xét về
tình trạng rời bỏ
công ty của nhân
viên

Xây dựng mô Mục tiêu của x x x x Xây


nghiên cứu này là dựng mô
hình dự đoán khả
hình dự
năng rời đi của tìm ra nguyên nhân đoán
nhân viên trong ảnh hưởng đến khả
công ty quyết định lựa năng rời

38
(Hồ Thị Thúy Liễu chọn rời đi của đi của
nhân viên ở công nhân
Ngô Thị Hồng
viên
Hảo Nguyễn Thị ty. Đồng thời đề trong
Thu Hiền Nguyễn xuất các giải pháp công ty
Thị Mỹ Huyền) và chiến lược quản
lý để giảm thiểu
tình trạng nghỉ việc
và duy trì lực
lượng lao động ổn
định
Xây dựng mô - Tiến hành phân x x x Xây
tích các lý thuyết dựng mô
hình dự đoán khả
hình dự
năng rời đi của của khai phá dữ đoán
nhân viên liệu để tập trung khả
(Nguyễn Thị Thúy làm rõ những vấn năng rời
đề của bài nghiên đi của
Lê nhân
cứu
Nguyễn Phi Hùng - Nghiên cứu các viên
Trần Thị Phương phương pháp phân
Hồng tích dữ liệu: phân
Nguyễn Đức Nam tích các yếu tố đặc
Anh trưng của dữ liệu,
Châu Thị Thanh phương pháp phân
Trúc) lớp, phương pháp
phân cụm và từ đó
đưa ra những kết
luận tối ưu, chính
xác nhất cho đề tài
khai thác.
Bảng 2.2: Thống kê các nghiên cứu đi trước

2.4.3. Chạy mô hình và đánh giá kết quả

2.4.3.1. Quy trình thực hiện

Bước 1: Chọn dữ liệu File “Data tổng.xlsx” và chọn cột “Kết quả” làm Target.

Bước 2: Dùng Data Sampler chia dữ liệu trong file “Data tổng” làm 2 phần theo tỉ lệ
70% đặt tên File là “Data 70%” và 30% còn lại với tên “Forecast 30%”.

39
Hình 2.21, 2.22, 2.23: Phân tách dữ liệu

Bước 3: Mở File “Data 70%” → Nối File và 4 phương pháp SVM, Neural Network, Tree
và Logistic Regression trong đó có phân tích chuyên sâu Tree Viewer và Preprocess
trước khi hồi quy Logistic với Test and Score → Nối Test and Score với Confusion
Matrix để
thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn.
Bước 4: Liên kết phương pháp tốt nhất và File “Forecast ” với Predictions để dự báo
Bước 5: Xuất kết quả dự báo qua Data Table, đánh giá độ chính xác của dự báo.

40
Hình 2.24: Mô hình quy trình xử lý bài toán phân lớp

2.4.3.2. Các lý thuyết liên quan


Sau khi xây dựng mô hình phân lớp dự đoán, tiếp tục xét đến phần Test and Score để xem
xét phần tổng quan về chỉ số như AUC, CA, F1,... để lựa chọn ra mô hình hiệu quả nhất,
phù hợp nhất để tiến hành phân lớp. Trong đề án, nhóm sử dụng phương pháp K-fold
cross validation với k=5 đề đánh giá phương pháp hiệu quả nhất thông qua những ưu
điểm vượt trội hơn so với phương pháp Hold-out.
Các chỉ số trong Test and Score:
+ AUC - diện tích nằm dưới đường cong ROC, là một số dương có giá trị nhỏ hơn
bằng 1. Giá trị này càng lớn thì mô hình càng tốt
+ F1 - giá trị trung bình điều hòa của hai độ đo Precision và Recall
- F1 có giá trị gần với giá trị nhỏ hơn giữa Precision và Recall
- F1 có giá trị lớn nếu cả Precision và Recall đều có giá trị lớn
+ Precision (Độ chính xác): cho biết trọng số m mẫu được phân vào lớp i có tỷ lệ
bao nhiêu mẫu đúng ( tránh nhầm lẫn với tính chính xác accuracy).
+ Recall (Độ bao phủ): độ phủ hay độ nhạy TPR (True Positive Rate), được xác định
số mẫu phân loại đúng với mẫu dương trên tổng số mẫu đương thực, được thực
hiện bởi công thức.

41
2.4.3.3. Kết quả Test and Score

Hình 2.25: Bảng kết quả Test and Score


Dựa vào kết quả của Test and Score
Đánh giá mô hình qua Test and Score
Với K-Fold = 5:
❖ Tính chính chính xác Accuracy (AUC): SVM = 0.915, Neural Network = 0.906,
Logistic Regression = 0.904, Tree = 0.813
❖ Độ chính xác (Precision): SVM = 0.831, Neural Network = 0.852, Logistic
Regression = 0.839, Tree = 0.797
❖ Độ truy hồi (recall): SVM = 0.834, Neural Network = 0.854, Logistic Regression
= 0.841, Tree = 0.788
Như vậy, qua 3 thông số trên, chúng ta có thể đánh giá được Neural Network có tính
chính xác, độ chính xác lớn nhất và độ truy hồi tuy không lớn nhất nhưng không chênh
lệch nhiều.
→ Kết luận rằng, Neural Network là phương pháp lý tưởng nhất dùng để dự báo
cho bài toán đặt ra ở đây.

2.4.3.4. Ma trận nhầm lẫn (Confusion Matrix)

42
Hình 2.26: Ma trận nhầm lẫn của mô hình SVM
Nhận xét:
- Tỷ lệ nhầm lẫn của khả năng đậu tuyển dụng so với thực tế là 21.1%.
- Tỷ lệ nhầm lẫn so với thực tế của việc đậu so với không đậu là 15.0%.

Hình 2.27: Ma trận nhầm lẫn của mô hình Logistics Regression


Nhận xét:
- Khả năng trượt có mức độ nhầm lẫn so với thực tế đậu là 24.4%
- Khả năng trúng tuyển có mức độ nhầm lẫn so với khả năng không trúng tuyển là
12.3%

43
Hình 2.28: Ma trận nhầm lẫn của mô hình Tree
Nhận xét:
- Tỷ lệ nhầm lẫn giữa dự đoán không đậu và thực tế đậu là 35.8%
- Tỷ lệ nhầm lẫn giữa dự đoán khả năng đậu so với thực tế trượt là 13.3%

Hình 2.29: Ma trận nhầm lẫn của mô hình Neural Network


Nhận xét:
- Khả năng trượt ứng tuyển có mức độ nhầm lẫn so với thực tế đậu ứng tuyển là
19.5%
- Khả năng đậu ứng tuyển có mức độ nhầm lẫn so với thực tế trượt là 12.7%

➢ Kết luận phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix)

44
Tại phương pháp đánh giá Ma trận nhầm lẫn (Confusion Matrix), mô hình tốt nhất là mô
hình có chỉ số sai lầm ở 2 biến có giá trị thấp nhất. Qua đánh giá mô hình bằng phương
pháp K-fold thì nhóm nhận thấy mô hình Neural Network là mô hình tốt nhất.
Theo kết quả đó, nhóm nhận thấy một số sai lầm như sau:
+ Sai lầm 1: Dự đoán là No Placed ( không được tuyển dụng) nhưng thực tế là
Placed (được tuyển dụng).
+ Sai lầm 2: Dự đoán là Placed (được tuyển dụng) nhưng thực tế là No Placed
( không được tuyển dụng).
Từ đó, theo phân tích sai lầm thì sai lầm 1 xảy ra sẽ làm mất đi những ứng cử viên tiềm
năng, công ty thiệt hại lớn về nhân sự trong quá trình tuyển dụng. Nếu sai lầm này càng
nhiều thì công ty càng khó đưa ra các giải pháp kịp thời nhằm giải quyết các vấn đề giữa
nhân sự và công ty, từ đó có thể khiến công ty rơi vào tình trạng thiếu nguồn nhân lực
trầm trọng hoặc nguồn nhân sự chưa tốt. Còn đối với sai lầm 2 xảy ra sẽ làm công ty dư
thừa nhân sự và tốn chi phí chi trả cho nhân viên thì nhóm cho rằng sai lầm loại 1 là
nghiêm trọng hơn, gây ảnh hưởng lớn hơn đối với quá trình tuyển dụng của công ty.
Dựa vào kết quả của 4 bảng Confusion Matrix từ 4 phương pháp, sai lầm loại 1 của
phương pháp Neural Network = 19,5% là nhỏ nhất trong 4 phương pháp trên.
→ Sử dụng phương pháp Neural Network là tốt nhất.

2.4.3.5. Phân tích chuyên sâu Hồi quy Logistic và Tree


● Phân tích chuyên sâu Mô hình Hồi quy Logistics

Hình 2.30: Mô hình Hồi quy Logistic

45
Hình 2.31: Định nghĩa mô hình Hồi quy Logistic
Từ đó rút ra kết luận:

Hình 2.32: Kết luận mô hình Hồi quy Logistic

Theo các hệ số hồi quy, các biến có tác động cùng chiều có tác động tích cực lớn nhất lần
lượt là:
- Có kinh nghiệm: Có tác động nhất lên khả năng được chọn hay không. Các ứng cử
viên có kinh nghiệm làm việc từ trước thì có khả năng đậu cao hơn, (0.889328),
biến mang tác động tích cực.
- Chuyên ngành tại Đại học: ngành Commerce và Management mang lại ảnh hưởng
tích cực đối với đánh giá (0.551736), có tỉ lệ trúng tuyển cao hơn so với các ngành
khác (Sci-Tech (-0.497521), Others (-0.0563652).
- Môn học ở THPT: Môn Arts (0.485452) có tác động tích cực đến khả năng trúng
tuyển hơn 2 môn Commerce and Science, (-0.29651) và (-0.191093).

46
Các biến có tác động ngược chiều lần lượt là:
- Không có kinh nghiệm tác động ngược chiều lớn nhất đối với việc được chọn của
ứng viên, những ứng viên chưa có kinh nghiệm làm việc khó có thể được tuyển
dụng.
- Chuyên ngành đại học về Science và Technology ít tác động đến việc được tuyển
dụng
- Giới tính Nữ cũng ảnh hưởng ngược nhiều đối với việc tuyển dụng, cho thấy rằng
còn có sự phân biệt giới tính trong môi trường lao động.

● Phân tích chuyên sâu Mô hình Tree Decision:

Hình 2.33: Mô hình phân tích chuyên sâu Tree

Phân tích kết quả:

Mô hình Tree được xây dựng lên dựa theo thông tin lịch sử của các ứng viên. Dữ liệu bao gồm
các thông tin như điểm thi lên 10, đã có kinh nghiệm làm việc từ trước hay chưa, môn học ở
THPT, điểm MBA,...

47
Mô hình Tree có độ chính xác tổng thể là 68.9%, nghĩa là 68.9% các dự đoán của mô hình là
chính xác. Tỉ lệ này không cao cũng không thấp. Để kiểm tra, nhóm sẽ phân tích mô hình Tree
theo 4 cấp độ:

Tại cấp độ thứ 2, phân tách dữ liệu dựa trên điểm thi vào 10.

+ Nếu điểm thi vào 10 của ứng viên bé hơn hoặc bằng 56 điểm thì ứng viên có khả năng
không được tuyển dụng với độ chính xác là 92.9%.
+ Ngược lại, nếu điểm thi vào 10 của ứng viên cao hơn 56 điểm thì ứng viên có khả năng
được tuyển dụng với độ chính xác là 82.9%.

Tại cấp độ thứ 3, ta thấy:

- Nếu ứng viên có điểm thi vào 10 bé hơn hoặc bằng 56 điểm và không có kinh nghiệm
làm việc từ trước thì ứng viên đó có khả năng không được tuyển dụng với độ chính xác
là 100%. Nếu ứng viên có điểm thi vào 10 bé hơn hoặc bằng 56 và có kinh nghiệm làm
việc từ trước thì ứng viên đó cũng có khả năng không được tuyển dụng với độ chính xác
là 77.8%.
- Nếu ứng viên có điểm thi vào 10 lớn hơn 56 điểm và bé hơn hoặc bằng 70.89 điểm và
ứng viên có điểm thi vào 10 cao hơn 70,89 điểm thì ứng viên đều có khả năng được
tuyển dụng với độ chính xác từng trường hợp là 71,2% và 96.5%.

Tại cấp độ thứ 4, ta thấy:

- Nếu ứng viên có điểm thi vào 10 bé hơn hoặc bằng 56 và có kinh nghiệm làm việc từ
trước và học môn Khoa học ở THPT thì không có khả năng được tuyển dụng với độ
chính xác là 50%. Tương tự với ứng viên học môn Nghệ thuật hay Thương mại cũng
không có khả năng được tuyển dụng với độ chính xác là 100%.
- Nếu ứng viên có điểm thi vào 10 lớn hơn 56 điểm và bé hơn hoặc bằng 70.89 điểm,
không có kinh nghiệm làm việc từ trước thì có khả năng được tuyển dụng với độ chính
xác là 60.4%. Tương tự, nếu ứng viên có điểm thi vào 10 lớn hơn 56 điểm và bé hơn
hoặc bằng 70.89 điểm, có kinh nghiệm làm việc từ trước thì cũng có khả năng được
tuyển dụng với độ chính xác là 100%.

Qua các kết quả trên, nhóm thấy mô hình Tree không phân lớp rõ ràng nhóm ứng viên có khả
năng đậu hay không có khả năng đậu dựa trên những đặc điểm cụ thể của ứng viên. Mô hình
chỉ phân lớp được dựa trên điểm thi vào 10, những yếu tố khác như kinh nghiệm hay môn học
ở THPT chưa tác động nhiều. Cần tăng số lớp Tree để đánh giá các yếu tố khác để tiếp tục
nghiên cứu và cải thiện mô hình Tree đạt được độ chính xác cao hơn và có khả năng dự đoán
chính xác hơn trong việc tuyển dụng ứng viên.

48
2.4.4. Kết quả dự báo bài toán 2

Hình 2.34: Kết quả dự báo được tuyển dụng của các ứng viên
Dùng hàm VLOOKUP để so sánh 2 cột dữ liệu - thu kết quả để kiểm tra độ chính xác
của dự đoán:

Hình 2.35: Hình file dự báo Excel

49
2.4.5. Kết luận của bài toán 2

Thông qua kết quả dự báo từ bài toán, các nhà tuyển dụng có thể hiểu hơn về các yếu tố
giúp ứng cử viên được chọn vào các vị trí trong công ty, một công cụ có giá trị có thể
giúp nhà tuyển dụng tiết kiệm thời gian, chi phí, nâng cao hiệu quả tuyển dụng và đưa ra
quyết định tuyển dụng sáng suốt hơn, từ đó cũng đưa ra được những chiến lược tốt hơn
cho công ty.
- Biến Kinh nghiệm có tác động mạnh đến thăng chức qua đó có thể tổ chức nhiều
nhất qua đó cho thấy rằng kinh nghiệm là giúp ứng cử viên được các nhà tuyển
dụng đánh giá cao.
- Biến Chuyên ngành học Đại học (Commerce & Management) tác động khá mạnh
cho thấy rằng nhà tuyển dụng thường chọn những ứng cử viên có ngành liên quan
gần nhất với vị trí ứng tuyển.
Nhà quản lý nên sử dụng phương pháp Neural Network trong lọc lại các ứng viên trong
quá trình tuyển dụng nhân sự vì đây là phương pháp ít sai sót nhất trong các phương pháp
Bên cạnh đó, nhà quản lý sử dụng Hồi quy Logistics để kiểm tra lại tình trạng tuyển dụng
của nhân sự dựa trên biến nào tác động mạnh yếu đối với việc ứng cử viên được tuyển
dụng hay không, từ đó có thể những chiến lược tốt cho sự phát triển của nhân viên.

2.5. Bài toán 3: Bài toán phân cụm nhằm phân loại các ứng viên có khả năng được
tuyển dụng và đề xuất các phương pháp tuyển dụng để nâng cao hiệu quả hoạt động
tuyển dụng.

2.5.1. Mô tả bài toán


Mục tiêu bài toán: Phân cụm nhằm phân loại nhóm ứng viên có khả năng được tuyển
dụng, đánh giá các đặc điểm của từng nhóm để đưa ra kết luận và khuyến nghị các hoạt
động tuyển dụng và các phương pháp tuyển dụng hiệu quả hơn. Điều này giúp doanh
nghiệp tối ưu hóa được quy trình tuyển dụng, tăng cường chất lượng nhân sự. Đồng thời,
việc này cũng tạo ra một quy trình tuyển dụng công bằng và minh bạch, giúp ứng viên
được đánh giá dựa trên năng lực thực sự của họ, tạo môi trường tuyển dụng tích cực.
❖ Mô tả phương pháp phân cụm (Clustering):
- Là phương pháp thuộc loại học không giám sát (Unsupervised learning) cho phép
dữ liệu tổ chức các đối tượng / dữ liệu có đặc điểm tương đồng thành các
cụm/nhóm tương ứng với đặc điểm đó. Trong đó, các đối tượng trong cùng một
cụm có sự tương đồng theo một tiêu chí nhất định và khác biệt với những đối
tượng hay phần tử của những cụm khác.

50
- Các thuật toán phổ biến bao gồm: K-means Clustering, Hierarchical Clustering và
DBSAN. Phân cụm được ứng dụng trong nhiều lĩnh vực như phân loại khách
hàng, dự báo khách hàng tiềm năng, phân tích xu hướng hành vi khách hàng, phân
tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp. Phân tích đặc
tính sản phẩm dịch vụ. Đánh giá kết quả hoạt động kinh doanh Phân tích hành vi
người dùng mạng xã hội.
- Chức năng chính của Clustering là tìm ra và đo đạc sự khác biệt giữa các đối
tượng.
❖ Mô tả phương pháp K-means:
Phương pháp K-means là một thuật toán phân cụm (clustering) trong lĩnh vực học máy và
khai phá dữ liệu. Thuật toán này phân chia tập dữ liệu thành K nhóm (clusters) sao cho
các điểm trong cùng một nhóm có tính chất tương tự nhau và khác biệt với các điểm
thuộc các nhóm khác.
Các bước thực hiện của thuật toán K-means bao gồm:
1. Xác định số lượng cluster
2. Khởi tạo các centroid
3. Gán các điểm dữ liệu vào cluster gần nhất:
4. Cập nhật tọa độ của centroid
5. Thực hiện lại bước 3 và 4 cho đến khi không có sự thay đổi nào của các đối
tượng.
Kết quả của thuật toán K-means là việc tạo ra các nhóm có tính chất tương tự nhau trong
tập dữ liệu, trong đó các điểm trong cùng một nhóm có khoảng các gần nhau hơn so với
các điểm thuộc các nhóm khác. Phương pháp này thường được sử dụng để phân loại, nén
dữ liệu và khám phá các nhóm tương đồng trong dữ liệu.

2.5.2. Các bước thực hiện

Bước 1: Chuẩn bị dữ liệu đầu vào có tên “Data tổng” (đã được tiền xử lý), đặt tất cả các biến ở
dạng feature.

51
Hình 2.36: Hình dữ liệu đầu vào

Bước 2: Trong Select Row chọn “Kết quả” có trạng thái duyệt là “Placed” để chọn ra những
ứng viên có kết quả được tuyển dụng.

Hình 2.37: Select Rows

Bước 3: Sử dụng phương pháp K-Means, chạy Cluster từ 2 đến 10 cụm. Sau đó xem xét và đưa
ra phương án phân cụm nào là tối ưu nhất.

52
Bước 4: Sử dụng Silhouette Plot để minh họa dữ liệu.

Bước 5: Dùng Distribution và Feature Statistic để mô hình hóa, làm rõ các số liệu, tìm kiếm các
đặc điểm của nhóm ứng viên có khả năng được tuyển dụng.

Bước 6: Đánh giá và kết luận phương pháp.

Hình 2.38: Mô hình Orange phân cụm

2.5.3. Chạy mô hình và kết quả

❖ Kết quả phương pháp K-means:

Hình 2.39: Kết quả phương pháp K-means

53
❖ Kết quả Silhouette Plot (phân 2 cụm và 3 cụm):

Hình 2.40: Kết quả Silhouette Plot 2 cụm

54
Hình 2.41: Kết quả Silhouette Plot 3 cụm

Từ kết quả trên, chúng ta nên chọn phân tách thành 2 nhóm vì dựa vào chỉ số Silhouette
Scores của việc phân chia thành 2 nhóm là 0.179 mang lại chỉ số gần giá trị 1 nhất, số
nhóm bị phân tách cũng ít nhất.

Để đánh giá một điểm có được phân cụm đúng hay không, nhóm tác giả đã chọn các
điểm của hai cụm, kéo ra Data Table và có chỉ số Silhouette của một số điểm của hai cụm
như sau:

55
Hình 2.42: Kết quả chỉ số Silhouette của các điểm của hai cụm

Nguyên tắc đánh giá: Chỉ số Silhouette index nằm trong khoảng từ -1 đến 1, giá trị này
càng lớn (càng tiến gần đến 1) thì kết quả phân cụm càng đáng tin cậy (Alley - 2015). Cụ
thể, được phân thành các giá trị như sau:
- Silhouette index từ 0.5 trở lên: có thể cluster sát với thực tế.
- Silhouette index từ 0.25 - 0.5: cần thêm kiến thức chuyên môn, kinh nghiệm của
chuyên gia để đánh giá thêm khả năng cluster có trong thực tế.
- Silhouette index dưới 0.25: không nên tin tưởng cluster, cần tìm nhiều bằng chứng
khác.
Dựa vào kết quả phân bộ dữ liệu thành 2 cụm, áp dụng nguyên tắc để đánh giá từng cụm,
nhóm thấy:
+ Cụm 1 (màu xanh) có các giá trị Silhouette của các mẫu nằm trong khoảng -0.14
đến 0.51, đa số nằm trong khoảng 0 đến 0.5 nên chưa thực sự đáng tin cậy, sát
thực tế và cần thêm đánh giá của chuyên gia có kinh nghiệm.
+ Cụm 2 (màu đỏ) có các giá trị Silhouette của các mẫu nằm trong khoảng -0.17 đến
0.47, đa số nằm trong khoảng 0 đến 0.5 nên tương tự ở cụm 1, các mẫu chưa thực
sự đáng tin cậy và sát thực tế, cần có thêm đánh giá của chuyên gia có kinh
nghiệm.

56
Chọn Cluster từ 2 đến 10, thu được kết quả:

Số cụm Silhouette scores Số nhóm bị phân Nhóm bị phân tách


tách
2 0.179 0
3 0.127 3 Cả 3 nhóm bị phân
tách
4 0.121 4 Cả 4 nhóm bị phân
tách
5 0.122 5 Cả 5 nhóm bị phân
tách
6 0.105 5 Nhóm 1, 2, 4, 5 và 6
7 0.118 7 Cả 7 nhóm bị phân
tách
8 0.107 8 Cả 8 nhóm bị phân
tách
9 0.126 7 Nhóm 1, 3, 4, 5, 7,
8 và 9 (Nhóm 2 lệch
hẳn sang giá trị âm)
10 0.117 8 Nhóm 2, 3, 4, 5, 6,
7, 8, 10 (Nhóm 1 và
9 lệch hẳn sang giá
trị âm)

Bảng 2.3: Kết quả chọn từ 2 đến 10 cụm

- Phân làm 2 cụm: điểm K-means = 0.179, điểm số cao nhất của Silhouette Plot =
0.52 và các cụm phân tách không đáng kể.
- Phân làm 3 cụm: điểm K-means = 0.127, điểm số cao nhất của Silhouette Plot =
0.5 và có cụm 2, 3 đều bị phân tách.
- Phân làm 4 cụm: điểm K-means = 0.121, điểm số cao nhất của Silhouette Plot =
0.45 và tất cả các nhóm đều bị phân tách.

57
Theo kết quả trên, nhóm chọn phân làm 2 cụm, các cụm còn lại (3 - 10) vì phân làm
nhiều nhóm nên dẫn đến:
- Silhouette Scores sẽ không tăng so với việc phân làm 2 nhóm.
- Phân làm 3 - 10 nhóm sẽ kiến số nhóm bị phân tách nhiều hơn dần.
- Chỉ số Silhouette của một nhóm âm chứng tỏ các điểm dữ liệu trong nhóm đó
không được phân chia tốt, khả năng đã nằm sai cluster.
⇒ Việc phân chia càng nhiều nhóm thì càng kém hiệu quả.

Phát hiện đặc thù theo phương pháp phân cụm (2 cụm):

Hình 2.43: Phân bố nhóm ứng viên được tuyển dụng theo giới tính

Qua biểu đồ, có thể thấy tỉ lệ ứng viên nam được tuyển dụng cao hơn ứng viên nữ, Ở cả
nhóm C1 và C2, tỉ lệ nam được tuyển dụng cao hơn tỉ lệ nữ.
- Trong tổng số 48 nhân viên nữ được tuyển dụng, số nhân viên nữ ở nhóm C1 có
khả năng được tuyển dụng là 27 người (chiếm 56.25%), còn lại là số nhân viên nữ
ở nhóm C2
- Trong tổng số 100 nhân viên nam được tuyển dụng, số nhân viên nam ở nhóm C1
có khả năng được tuyển dụng là 65 người (chiếm 65%), còn lại là số nhân viên
nam có khả năng được tuyển dụng ở nhóm C2

58
Hình 2.44: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm thi lên 10

Có thể thấy rằng các ứng viên có điểm thi lên 10 cao tập trung nhiều ở nhóm C2 hơn
nhóm C1.
- Ở nhóm C1, số lượng lớn ứng viên có khả năng được tuyển dụng có điểm thi vào
10 nằm trong khoảng 58 đến 74 điểm.
- Ở nhóm C2, số lượng lớn ứng viên có khả năng được tuyển dụng có điểm thi vào
10 tập trung chủ yếu trong khoảng 74 đến 86 điểm.

59
Hình 2.45: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo nơi thi vào 10

Theo biểu đồ trên, ta có thể thấy các ứng viên thi vào 10 ở các khu vực trung tâm và nơi
khác có tỉ lệ xấp xỉ nhau, chiếm lần lượt 52.70% và 47.30%.
- Ở nhóm C1, số lượng ứng viên thi vào 10 ở khu vực trung tâm cao hơn số lượng
ứng viên thi ở nơi khác.
- Ở nhóm C2, ứng viên thi ở khu vực khác lại chiếm số lượng cao hơn ứng viên thi
ở khu vực trung tâm.

60
Hình 2.46: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm thi THPT

Qua biểu đồ trên, có thể thấy rằng các ứng viên có điểm thi THPT cao hơn tập trung
nhiều ở nhóm C2 so với nhóm C1.
- Ở nhóm C1, mức điểm thi THPT chiếm tỉ lệ cao ở khoảng điểm 60 đến 75 điểm.
- Ở nhóm C2, mức điểm thi lên 10 trong khoảng 75 đến 90 điểm chiếm tỉ lệ cao.

61
Hình 2.47: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo nơi thi THPT

Theo biểu đồ trên, ta có thể thấy các ứng viên thi THPT ở các khu vực trung tâm chiếm tỉ
lệ thấp hơn các vùng khác, chiếm lần lượt 38.51% và 61,49%.
- Ở nhóm C1, số ứng viên có khả năng được tuyển dụng thi THPT ở khu vực trung
tâm tập trung ít hơn 10 ứng viên so với các khu vực khác.
- Ở nhóm C2, số ứng viên có khả năng tuyển dụng thi THPT ở các khu vực khác tập
trung nhiều hơn 24 ứng viên so với khu vực trung tâm.

62
Hình 2.48: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo môn học ở THPT

Theo biểu đồ trên, số ứng viên có khả năng trúng tuyển tập trung chủ yếu ở nhóm môn
Thương mại và môn Khoa học, chiếm tỉ lệ lần lượt là 53,38% và 42,57%.
- Ở nhóm C1, số ứng viên có khả năng được tuyển dụng tập trung nhiều nhất ở môn
Thương mại là 50 ứng viên trong khi ở môn Nghệ thuật con số này là thấp nhất (5
ứng viên). Môn Khoa học có 37 ứng viên.
- Ở nhóm C2, số ứng viên được tuyển dụng xấp xỉ bằng nhau ở cả hai môn học
Thương mại và Khoa học lần lượt là 29 và 26 ứng viên, trong khi đó ở môn Nghệ
thuật là 1 ứng viên.

63
Hình 2.49: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm học Đại học

Nhìn chung, các ứng viên có khả năng được tuyển dụng theo điểm đại học ở nhóm C1 và
C2 hầu hết nằm trong khoảng 64 đến 79 điểm. Bên cạnh đó, các ứng viên có mức điểm
cao trong khoảng từ 80 đến dưới 92 điểm đều thuộc nhóm C2.

64
Hình 2.50: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo chuyên ngành học Đại học

Nhìn chung, phần lớn số ứng viên có khả năng được tuyển dụng có chuyên ngành Đại
học là Thương mại - Quản trị và Khoa học - Công nghệ (chiếm lần lượt 68,92% và
27.7%), các ngành khác không đáng kể. Trong đó:
- Ở nhóm C1, số lượng ứng viên tập trung nhiều ở chuyên ngành Thương mại -
Quản trị (68 ứng viên), nhiều hơn chuyên ngành Khoa học - Công nghệ 48 ứng
viên.
- Ở nhóm C2, số lượng ứng viên cũng tập trung nhiều hơn ở chuyên ngành Thương
mại - Quản trị (34 ứng viên), chuyên ngành Khoa học - Công nghệ có 21 ứng viên.

Hình 2.51: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo kinh nghiệm

Nhìn chung, tỷ lệ ứng viên có khả năng được tuyển dụng có kinh nghiệm và không có
kinh nghiệm từ trước xấp xỉ bằng nhau, lần lượt 43,24% và 56,76%. Trong đó:
- Ở nhóm C1, số lương ứng viên không có kinh nghiệm nhiều hơn ứng viên có kinh
nghiệm là 22 ứng viên.
- Ở nhóm C2, số lượng ứng viên không có kinh nghiệm và có kinh nghiệm gần bằng
nhau, lần lượt là 27 và 29 ứng viên.

65
Hình 2.52: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm bài kiểm tra EMP

Theo biểu đồ, số lượng lớn ứng viên có khả năng được tuyển dụng theo điểm bài kiểm tra
EMP của nhóm C1 lệch sang bên trái trong khoảng từ 50 đến khoảng 80 điểm trong khi
sự phân bố của nhóm C2 lại lệch sang bên phải nằm nhiều trong khoảng từ 80 đến dưới
100 điểm.

66
Hình 2.53: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo vị trí ứng tuyển

Theo biểu đồ trên, tỉ lệ ứng viên có khả năng được tuyển dụng ứng tuyển vào vị trí
Marketing - Tài chính cao hơn tỉ lệ ứng tuyển vào vị trí Marketing - Nhân sự (lần lượt là
64,19% và 35,81%). Trong đó:
- Ở nhóm C1: Vị trí Marketing - Tài chính có 50 ứng viên ứng tuyển, nhiều hơn so
với 42 ứng viên ở vị trí Marketing - Nhân sự.
- Ở nhóm C2: Vị trí Marketing - Tài chính có 45 ứng viên ứng tuyển, nhiều hơn vị
trí Marketing - Nhân sự 34 ứng viên.

Hình 2.54: Phân bố nhóm ứng viên có khả năng được tuyển dụng theo điểm MBA

Theo biểu đồ, hầu hết các ứng viên có khả năng được tuyển dụng theo điểm MBA của
nhóm C2 có điểm ở mức cao nhiều hơn nhóm C1. Cụ thể, nhóm C1 có điểm nằm trong
khoảng từ 52 đến dưới 72 điểm. Trong khi con số này ở nhóm C2 thuộc trong khoảng 56
đến dưới 78 điểm.

Từ các kết quả của Distribution, ta có thể đưa ra kết luận tổng quát:
- Giới tính: Cả nhóm C1 và C2, ứng viên có khả năng được tuyển dụng đều tập
trung ở nam giới.

67
- Ở nhóm C2 tập trung nhiều ứng viên có điểm thi lên 10 cao so nhóm C1.
- Ở nhóm C1 tập trung nhiều ứng viên có nơi thi vào 10 ở khu vực trung tâm và
nhóm C2 tập trung nhiều ứng viên có nơi thi vào 10 ở khu vực khác.
- Ở nhóm C2 tập trung nhiều ứng viên có điểm số thi THPT cao hơn so với C1.
- Về nơi thi THPT, cả nhóm C1 và C2 có số ứng viên thi ở khu vực khác cao hơn
khu vực trung tâm.
- Môn học ở THPT: Nhóm C2 tập trung nhiều ứng viên ở cả 3 ngành Nghệ thuật,
Thương Mại và Khoa học hơn nhóm C1.
- Điểm học Đại học: Nhóm C2 có số lượng các ứng viên có điểm cao nhiều hơn C1
và chỉ có nhóm C2 có các ứng viên có điểm trên 80.
- Ở cả nhóm C1 và C2 đều tập trung nhiều ứng viên có chuyên ngành Thương mại
và Quản trị.
- Nhóm C1 tập trung nhiều ứng viên có kinh nghiệm hơn nhóm C2. Đồng thời
nhóm C1 cũng tập trung nhiều ứng viên không có kinh nghiệm hơn nhóm C2.
- Nhóm C2 tập trung nhiều ứng viên có điểm bài kiểm tra EMP nằm ở mức cao hơn
Nhóm C1.
- Cả 2 nhóm C1 và C2 đều có số ứng viên ứng tuyển ở vị trí Marketing - Tài chính
cao hơn vị trí Marketing - Nhân sự.
- Nhóm C2 tập trung nhiều ứng viên có điểm MBA nằm ở mức cao hơn nhóm C1.

Sự phân bổ các thuộc tính ở các nhóm thông qua bảng Feature Statistic:

Hình 2.55, 2.56: Feature Statistic

68
Hình 2.57: Feature Statistic

Hình 2.58: Feature Statistic


Từ kết quả của Feature Statistic, nhóm nhận thấy một số điểm đặc thù của dữ liệu hai
nhóm như sau:
Nhóm C1:
+ Ứng viên có khả năng được tuyển dụng chủ yếu là nam.
+ Tập trung nhiều ứng viên có nơi thi vào 10 ở khu vực trung tâm.
+ Ứng viên có nơi thi THPT phần lớn ở khu vực khác.

69
+ Phần lớn ứng viên có ngành học Thương mại - Quản trị
+ Tập trung nhiều ứng viên chưa kinh nghiệm làm việc từ trước hơn C2
+ Tập trung nhiều ứng viên ứng tuyển ở vị trí Marketing - Tài Chính hơn vị trí
Marketing - Nhân sự, tuy nhiên không chênh lệch đáng kể.
+ Mức điểm trung bình học Đại học là 66.43 điểm, có nhiều điểm 65 nhất.
+ Mức điểm trung bình MBA là 59.8 điểm, có nhiều điểm 56.7 nhất.
+ Mức điểm trung bình bài kiểm tra EMP là 66.78 điểm, có nhiều điểm 60 nhất.
+ Mức điểm thi lên 10 trung bình là 67.48 điểm, có nhiều điểm 63 nhất.
+ Mức điểm thi THPT trung bình là 66.4 điểm, có nhiều điểm 63 nhất.
Nhóm C2:
+ Ứng viên có khả năng được tuyển dụng chủ yếu là nam.
+ Tập trung nhiều ứng viên có nơi thi vào 10 ở khu vực khác.
+ Phần lớn ứng viên có ngành học Thương mại - Quản trị
+ Tập trung ít ứng viên chưa có kinh nghiệm làm việc hơn C1.
+ Tập trung ít ứng viên có kinh nghiệm hơn C1
+ Tập trung nhiều ứng viên ứng tuyển ở vị trí Marketing - Tài Chính hơn vị trí
Marketing - Nhân sự.
+ Mức điểm trung bình học Đại học là 72.53 điểm, có nhiều điểm 73 nhất.
+ Mức điểm trung bình MBA là 67.13 điểm, có nhiều điểm 55.5 nhất.
+ Mức điểm trung bình bài kiểm tra EMP là 78.69 điểm, có điểm 73 nhiều nhất.
+ Mức điểm thi lên 10 trung bình là 78.69 điểm, có nhiều điểm 73 nhất.
+ Mức điểm thi THPT trung bình là 75.72 điểm, có nhiều điểm 73 nhất.

2.5.4. Kết luận bài toán 3

Sau khi tiến hành phân cụm bằng phương pháp K-Means và đánh giá kết quả Silhouette
Plot của dữ liệu các ứng viên có khả năng được tuyển dụng, nhóm nhận thấy phân thành
2 cụm sẽ đạt hiệu quả cao nhất. Tuy nhiên, khi đánh giá một điểm có được phân cụm
đúng hay không, nhóm nhận thấy các giá trị Silhouette phần lớn nằm trong khoảng 0 đến
0.5, cho thấy các mẫu chưa thực sự đáng tin cậy và sát thực tế, cần có thêm đánh giá của
chuyên gia.
Dựa trên kết quả và các đặc điểm của hai nhóm C1 và C2, nhóm có thể đưa ra một số
phát hiện đặc thù của dữ liệu, cụ thể:
- Nhóm nhận thấy rằng có sự khác biệt đáng kể giữa nhóm C1 và nhóm C2 trong
quá trình tuyển dụng ứng viên. Nhóm C1 tập trung nhiều ứng viên nam, tập trung
nhiều những ứng viên chưa có kinh nghiệm làm việc và chưa có bằng cấp cao.
Trong khi đó, nhóm C2 cũng tập trung nhiều ứng viên nam nhưng chủ yếu là
những ứng viên đã có kinh nghiệm làm việc và có bằng cấp cao hơn.

70
- Điểm trung bình học Đại học, MBA và các bài kiểm tra của nhóm C2 đều cao hơn
so với nhóm C1, cho thấy nhóm C2 có nhiều ứng viên đã đạt được kết quả cao
trong các kì thi. Mức điểm thi THPT trung bình của nhóm C2 cũng cao hơn so với
nhóm C1, cho thấy các ứng viên nhóm C2 có xu hướng có nền giáo dục tốt hơn.
- Cả hai nhóm đều tập trung chủ yếu vào ngành học Thương mại - Quản trị và vị trí
Marketing - Tài Chính trong quá trình tuyển dụng. Điều này có thể cho thấy yếu tố
này quan trọng đối với công việc mà các ứng viên sẽ tham gia sau khi được tuyển
dụng.
Qua các phát hiện trên, nhóm có thể đưa ra các khuyến nghị như sau:
- Chú ý các ứng viên ở nhóm C2 vì nhóm này có nhiều ứng viên có kinh nghiệm
làm việc và bằng cấp cao hơn, việc tuyển dụng nhóm này có thể giúp doanh
nghiệp nhanh chóng có được những nhân viên chất lượng, giúp cải thiện hiệu suất
làm việc, giúp doanh nghiệp giảm thiểu được thời gian và nguồn lực để đào tạo
nhân viên mới.
- Đầu tư vào đào tạo và phát triển nhân viên trong nhóm C1. Các ứng viên nhóm C1
chủ yếu là những người chưa có kinh nghiệm làm việc và bằng cấp cao, do đó
doanh nghiệp có thể đầu tư vào quá trình đào tạo và phát triển kỹ năng cho họ để
nhóm ứng viên này có thể phát triển và đóng góp cho công ty trong tương lai.
- Nhận thấy rằng nhóm C2 có điểm học tập cao hơn so với nhóm C1, doanh nghiệp
có thể tập trung vào việc tuyển dụng những ứng viên có nền giáo dục tốt để đảm
bảo chất lượng và hiệu quả của nhân sự.
- Xem xét cải thiện quy trình tuyển dụng: Do sự khác biệt đáng kể giữa hai nhóm,
doanh nghiệp cần xem xét và đánh giá lại quy trình tuyển dụng để đảm bảo chất
lượng ứng viên được chọn lựa và phù hợp với nhu cầu của doanh nghiệp.

71
CHƯƠNG III. KẾT LUẬN VÀ KIẾN NGHỊ

3.1. Kết luận từng bài toán

Kết luận bài toán 1:


- Có thể nhận thấy từ bài toán 1, thông qua các đặc trưng cơ bản này có thể giúp cho
doanh nghiệp, tỷ lệ ứng viên đậu không chỉ phụ thuộc vào một yếu tố riêng lẻ nào
mà nó phụ thuộc vào tất cả yếu tố (dữ liệu) được đưa ra. Bên cạnh những tác động
của dữ liệu được đưa ra trên thì còn có những tác động của ngoại cảnh mà dữ liệu
không thể thu thập được. Dữ liệu trong bài chỉ mang tính chất đặc trưng.
- Các nhà tuyển dụng rất quan tâm tới các biến có tác động mạnh đến khả năng ứng
tuyển là kinh nghiệm, điểm số, chuyên môn, vị trí ứng tuyển và năng lực của ứng
viên (trên 15%). Tỷ lệ đậu ứng tuyển cao của công ty (69%) có thể tạo động lực,
thúc đẩy thêm nguồn nhân tài đến ứng tuyển, đồng thời nâng số cơ hội có việc làm
lên cho người dân, tạo điều kiện phát triển kinh tế và xã hội. Các biến có ảnh
hưởng thấp (10%) được xem là một lợi thế của ứng viên trong mắt nhà tuyển dụng
như bằng cấp, phản ảnh được khả năng của họ.
- Một trong những biến có ảnh hưởng nhiều nhất là kinh nghiệm làm việc trước đây
của ứng viên, chênh lệch giữa đậu và trượt lên đến 26,92%. Các nhà tuyển dụng
xem đây là một trong những tiêu chí hàng đầu để xét tuyển. Kinh nghiệm cũng
giúp ứng viên hiểu rõ hơn về môi trường làm việc và những thách thức của công
việc.
Kết luận bài toán 2:
- Biến Kinh nghiệm có tác động mạnh đến thăng chức qua đó có thể tổ chức nhiều
nhất qua đó cho thấy rằng kinh nghiệm là giúp ứng cử viên được các nhà tuyển
dụng đánh giá cao.
- Biến Chuyên ngành học Đại học ( Comm & Mgkt) tác động khá mạnh cho thấy
rằng thường nhà tuyển dụng chọn những ứng cử viên thường chọn những ngành
liên quan gần nhất với vị trí ứng tuyển.
Nhà quản lý nên sử dụng phương pháp Neural Network trong lọc lại các ứng viên trong
quá trình tuyển dụng nhân sự vì đây là phương pháp ít sai sót nhất trong các phương pháp
Bên cạnh đó, nhà quản lý sử dụng Hồi quy Logistics để kiểm tra lại tình trạng tuyển dụng
của nhân sự dựa trên biến nào tác động mạnh yếu đối với việc ứng cử viên được tuyển
dụng hay không, từ đó có thể những chiến lược tốt cho sự phát triển của nhân viên.

Kết luận bài toán 3:

72
Dựa trên kết quả và các đặc điểm của hai nhóm C1 và C2, ta có thể đưa ra một số phát
hiện như sau:
- Nhóm nhận thấy rằng có sự khác biệt đáng kể giữa nhóm C1 và nhóm C2 trong
quá trình tuyển dụng ứng viên. Nhóm C1 tập trung nhiều ứng viên nam, tập trung
nhiều những ứng viên chưa có kinh nghiệm làm việc và chưa có bằng cấp cao.
Trong khi đó, nhóm C2 cũng tập trung nhiều ứng viên nam nhưng chủ yếu là
những ứng viên đã có kinh nghiệm làm việc và có bằng cấp cao hơn.
- Điểm trung bình học Đại học, MBA và các bài kiểm tra của nhóm C2 đều cao hơn
so với nhóm C1, cho thấy nhóm C2 có nhiều ứng viên đã đạt được kết quả cao
trong các kì thi. Mức điểm thi THPT trung bình của nhóm C2 cũng cao hơn so với
nhóm C1, cho thấy các ứng viên nhóm C2 có xu hướng có nền giáo dục tốt hơn.
- Cả hai nhóm đều tập trung chủ yếu vào ngành học Thương mại - Quản trị và vị trí
Marketing - Tài Chính trong quá trình tuyển dụng. Điều này có thể cho thấy yếu tố
này quan trọng đối với công việc mà các ứng viên sẽ tham gia sau khi được tuyển
dụng.

3.2. Kết luận tổng quát

Dựa trên kết quả phân tích từ 3 bài toán, nhóm nhận thấy rằng việc tuyển dụng ứng viên
phụ thuộc vào các yếu tố chính là trình độ chuyên môn và kinh nghiệm làm việc của ứng
viên. Đồng thời, dự báo kết quả giúp cho tối ưu hóa quá trình tuyển dụng và tuyển chọn
những ứng cử viên tiềm năng cho doanh nghiệp. Bên cạnh đó, để doanh nghiệp có hiệu
suất làm việc tốt thì các doanh nghiệp cũng cần chú trọng vào việc chọn những ứng viên
phù hợp với từng vị trí của công ty. Ngoài ra, những phân tích trên cho thấy rằng việc
ứng viên có đậu ứng tuyển hay không phụ thuộc bởi nhiều yếu tố khác nhau. Và qua các
phân tích càng cho ta thấy rõ được rằng các yếu tố tác động mạnh đến quyết định tuyển
dụng của các công ty, doanh nghiệp nên được các ứng viên chú trọng phát triển. Không
chỉ chú trọng đến các yếu tố tác động mạnh, các yếu tố tác động yếu cũng đóng góp một
phần vào việc tuyển dụng của các công ty, doanh nghiệp mà các ứng viên cũng nên xem
xét và trang bị cho mình đầy đủ các yếu tố tuyển dụng cần thiết để tăng khả năng đậu ứng
tuyển.

3.3. Kiến nghị

Vấn đề tuyển dụng vẫn luôn là một vấn đề quan trọng đối với mỗi công ty và doanh
nghiệp. Vì vậy mà để phát triển công ty, doanh nghiệp thì vấn đề nguồn lực là vô cùng
quan trọng và cần có sự cân nhắc vô cùng kỹ lưỡng để tuyển dụng được các ứng viên phù
hợp với các vị trí của công ty, doanh nghiệp. Từ đó tăng hiệu suất làm việc của công ty,

73
doanh nghiệp hơn. Và để nâng cao chất lượng tuyển dụng nhóm đã nghiên cứu và phân
tích các yếu tố liên quan đến khả năng đậu ứng tuyển của các ứng viên. Thông qua những
phân tích đó, nhóm có thể đưa ra các kiến nghị như sau:
- Các doanh nghiệp cần chú trọng vào vấn đề tuyển dụng để có thể tăng hiệu suất
làm việc của doanh nghiệp và tối ưu được quá trình tuyển dụng bằng cách sử dụng
phần mềm, các công cụ AI,... để tự động hóa trong quy trình tuyển dụng kết hợp
với cân nhắc các yếu tố khác để chọn ra các ứng cử viên tiềm năng và phù hợp với
công ty.
- Bên cạnh đó, nhóm có nhiều ứng viên có kinh nghiệm và bằng cấp cao hơn nên
được doanh nghiệp chú trọng vào việc phát triển những nhân lực đó thông qua các
buổi đào tạo thêm nhằm tạo ra những nguồn lực chất lượng và phù hợp hơn với
doanh nghiệp. Không những thế, cải thiện các kỹ năng cần thiết nâng cao chuyên
môn của nhân viên là vô cùng cần thiết để xây dựng đội ngũ nhân viên chất lượng
cho doanh nghiệp.
- Việc đầu tư kỹ lưỡng vào việc đào tạo cũng như phát triển nhóm nhân viên chưa
có kinh nghiệm và bằng cấp cao cũng là một điều vô cùng quan trọng đối với
doanh nghiệp nhằm đảm bảo được nguồn nhân sự chất lượng cho doanh nghiệp và
phát triển các nhân viên tài năng cho doanh nghiệp. Đồng thời, việc tạo cơ hội
phát triển cho các nhân viên cũng là một phương án tốt để đào tạo nên nguồn nhân
lực chất lượng cho công ty, doanh nghiệp.
- Ngoài ra, doanh nghiệp cũng cần xem xét mức độ phù hợp của các ứng viên ở
từng vị trí để có những quyết định đúng đắn về việc chọn lọc những nhân sự phù
hợp nhất đối với doanh nghiệp để giúp doanh nghiệp ngày càng phát triển hơn. Vì
vậy, các ứng viên có phù hợp với doanh nghiệp hay không vẫn luôn là một vấn đề
vô cùng quan trọng đối với mỗi doanh nghiệp khi đưa ra những quyết định tuyển
dụng.

3.4. Hạn chế của đề tài

Bài báo cáo vẫn có một số điểm thiếu sót đến từ nhóm thực hiện trong quá trình nghiên
cứu, cụ thể như sau:
- Số mẫu của bộ dữ liệu chưa đủ nhiều để đảm bảo dự đoán chính xác.
- Bộ dữ liệu là của một đơn vị ở Ấn Độ nên sẽ không áp dụng hoàn toàn ở Việt
Nam.
- Những phần nhận xét thống kê mô tả vận dụng ý kiến chủ quan của nhóm tác giả
nên chỉ mang tính chất tham khảo.
- Chưa có đủ các kiến thức chuyên môn dẫn đến chưa có góc nhìn sâu, nhiều khía
cạnh về đề tài nghiên cứu.

74
- Ngoài ra, đề tài nhóm xác định chỉ nghiên cứu ở một phạm vi nhất định. Do đó,
kết quả nghiên cứu có thể không hoàn toàn phản ánh đúng xu hướng và kết quả dự
báo ở phạm vi rộng.
3.5. Hướng phát triển của đề tài

- Sau khi tiến hành nghiên cứu và phân tích dữ liệu, nhóm đưa ra một số hướng phát
triển cho đề tài. Về phân tích dữ liệu, nhóm có thể kết hợp nhiều nguồn dữ liệu
khác nhau từ các doanh nghiệp ở Việt Nam để thu thập thông tin một cách toàn
diện và chính xác hơn.
- Tiếp đến, khám phá thêm các phương pháp học máy và học sâu để phát triển mô
hình dự đoán có độ chính xác cao. Cuối cùng, trực quan hóa dữ liệu bằng cách sử
dụng các loại biểu đồ khác nhau để hiển thị thông tin một cách trực quan và dễ
hiểu.

Nhóm mong muốn trong thời gian tới sẽ có những phân tích sâu hơn về các yếu tố quyết
định việc đậu hay không đậu ứng tuyển của các ứng viên. Ngoài ra, nhóm có thể tìm hiểu
thêm và có những nghiên cứu sâu hơn về các yếu tố cần thiết khi ứng tuyển vào một vị trí
cụ thể của các công ty hay doanh nghiệp. Và nhóm mong rằng qua dự án này nhóm có
thể hiểu hơn về việc phân tích dữ liệu bằng công cụ khoa học dữ liệu của phần mềm
Orange và Excel và từ đó sử dụng công cụ này để nghiên cứu thêm ở các đề tài khác
nhau.

—--------------------------------------------------------------------------------------------------------------

75
TÀI LIỆU THAM KHẢO
1. UEH (2024): Slide đào tạo môn Khoa Học Dữ Liệu

2. Ông Xuân Hồng: Bài viết Vọc thử Orange: phần mềm data mining

3. Nhóm sinh viên Ngô Hoàng Triều Anh, Lâm Khánh Mai, Nguyễn Thị Bích Tuyền, Trần Tố
Tâm, Phạm Ngọc Kim Ngân: Dự án Ứng dụng máy học vào phát hiện rủi ro gian lận báo cáo
tài chính

4. Nhóm sinh viên trường Đại học Ngoại Thương: Mẫu Đức Bình Minh, Đinh Văn Cường,
Nguyễn Thị Linh Linh: Xây dựng mô hình phát hiện gian lận trong báo cáo tài chính của các
công ty ở Việt Nam

5. FPT (2023): Báo cáo thường niên FPT

6. Vingroup (2023): Báo cáo thường niên Vingroup

7. Tesla (2023): Báo cáo thường niên Tesla

8. Netflix (2023): Báo cáo thường niên Netflix

9. Nhóm sinh viên Nguyễn Ngọc Nhi, Ngô Thị Bảo Yến, Võ Thị Lan Tiên Trương, Thị
Hồng Vân Trần Ngọc Huyền: Nghiên cứu và ứng dụng các phương pháp khai thác dữ
liệu để dự đoán khả năng rời công ty của nhân viên

10. Nhóm sinh viên Hồ Thị Thúy Liễu, Ngô Thị Hồng Hảo, Nguyễn Thị Thu Hiền,
Nguyễn Thị Mỹ Huyền: Xây dựng mô hình dự đoán khả năng rời đi của nhân viên trong
công ty

11. Nhóm sinh viên Nguyễn Thị Thúy Lê, Nguyễn Phi Hùng, Trần Thị Phương Hồng,
Nguyễn Đức Nam Anh, Châu Thị Thanh Trúc: Xây dựng mô hình dự đoán khả năng rời
đi của nhân viên

12. Alley (2015): Data Mining and Predictive

76
77

You might also like