Download as pdf or txt
Download as pdf or txt
You are on page 1of 29

ĐẠI HỌC UEH

TRƯỜNG CÔNG NGHỆ VÀ THIẾT KÊ


KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

ĐỒ ÁN KHOA HỌC DỮ LIỆU


ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÂN TÍCH VIỆC RỜI
ĐI HOẶC KHÔNG CỦA NHÂN VIÊN TRONG VÒNG 2 NĂM TỚI

Giảng viên hướng dẫn: ThS. Nguyễn Mạnh Tuấn


Tên_Mã lớp HP: Khoa Học Dữ Liệu_22C1INF50905974
Nhóm thực hiện: Nhóm 09
Nhóm sinh viên: Trần Thị Quỳnh Mai
Lê Thảo Na
Lê Nguyễn Ngọc Trâm
Trần Huyền Anh
Nguyễn Ngọc Đăng Vy

Thành phố Hồ Chí Minh, ngày 18 tháng 12 năm 2022

1
LỜI CẢM ƠN
Bộ môn Khoa học dữ liệu là một bộ môn không mấy thích thú với chúng em, nhưng
qua quá trình học, chúng em cũng đã dần nhận ra được vai trò quan trọng của Khoa
học dữ liệu trong thời đại công nghệ số ngày nay. Bộ môn đã trang bị cho chúng em
những kiến thức nền tảng và cơ bản nhất để chúng em có thể tự tìm tòi hoặc học sâu
hơn về kiến thức chuyên ngành Khoa học dữ liệu trong tương lai.
Nhóm chúng em xin chân thành gửi lời cảm ơn đến thầy Nguyễn Mạnh Tuấn, giảng
viên đảm nhiệm bộ môn Khoa học dữ liệu của nhóm em. Dù chỉ tiếp xúc ngắn với
nhau qua vài buổi học nhưng chúng em thật sự cảm thấy quý mến tấm lòng, sự nhiệt
tình trong việc giảng dạy của thầy. Nhóm em xin kính chúc thầy thật nhiều sức khỏe
và sẽ luôn đạt được những thành công, những mong đợi của bản thân trên con đường
giảng dạy.
Xin chân thành cảm ơn thầy!
Nhóm 9

2
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN ................................................................................ 6
I. Lý do chọn đề tài ........................................................................................... 6
II. Mục tiêu nghiên cứu .................................................................................... 6
1. Mục tiêu tổng quát ..................................................................................... 6
2. Mục tiêu cụ thể ........................................................................................... 6
III. Đối tượng nghiên cứu ................................................................................. 6
1. Giới thiệu, mô tả dữ liệu ............................................................................ 6
1.2 Tiền xử lý .................................................................................................. 8
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ ................................ 8
1. BÀI TOÁN 1: PHÁT HIỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU ................ 8
1.1 Mô tả bài toán .......................................................................................... 8
1.2 Chạy mô hình và kết quả ......................................................................... 8
1.3 Kết luận thông qua các kết quả đạt được ............................................. 14
2. BÀI TOÁN 2: DỰ ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG
TY HAY KHÔNG........................................................................................... 15
2.1 Mô tả bài toán ........................................................................................ 15
2.2 Xây dựng mô hình.................................................................................. 15
2.3 Đánh giá và kết quả ............................................................................... 16
3. BÀI TOÁN 3: PHÂN CỤM/ NHÓM NHÂN VIÊN LỰA CHỌN RỜI
KHỎI CÔNG TY ............................................................................................ 18
3.1 Mô tả bài toán ........................................................................................ 18
3.2 Xây dựng mô hình.................................................................................. 19
3.3 Đánh giá và kết luận .............................................................................. 20
CHƯƠNG 3: KẾT LUẬN ................................................................................. 27
DANH MỤC THAM KHẢO ............................................................................. 29

3
DANH MỤC HÌNH ẢNH
Hình 1. Tiền xử lý dữ liệu
Hình 2. Mô hình phân lớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở công
ty trong hai năm tới hay không.
Hình 3. Kết quả Logistic Regression
Hình 4. Kết quả SVM
Hình 5. Kết quả Tree
Hình 6. Kết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của công
ty.
Hình 7. Xây dựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty
Hình 8. Kết quả phương pháp K-means
Hình 9. Kết quả Silhouette Plot
Hình 10. Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
Hình 11. Phân bố nhóm nhân viên rời đi theo Trình độ học vấn
Hình 12. Phân bố nhóm nhân viên rời đi theo Giới tính
Hình 13. Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị
Hình 14. Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty
Hình 15. Phân bố nhóm nhân viên rời đi theo Bậc lương
Hình 16. Phân bố nhóm nhân viên rời đi theo Tuổi
Hình 17. Kết quả của Feature Statistic

4
DANH MỤC BIỂU ĐỒ
Biểu đồ 1. Trình độ học vấn
Biểu đồ 2. Năm gia nhập công ty
Biểu đồ 3. Thành phố nơi đặt văn phòng
Biểu đồ 4. Bậc lương
Biểu đồ 5. Độ tuổi
Biểu đồ 6. Giới tính
Biểu đồ 7. Đã từng ở trạng thái dự bị
Biểu đồ 8. Kinh nghiệm trong lĩnh vực hiện tại
Biểu đồ 9. Tỷ lệ rời đi hặc ở lại
DANH MỤC BẢNG
Bảng 1. Phân tích thông tin dữ liệu

5
Mức độ liên quan đến chuyên ngành: Không liên quan

CHƯƠNG 1: TỔNG QUAN


I. Lý do chọn đề tài
Tài sản lớn nhất mà một công ty có được không phải là tiền mặt, chứng khoán, lợi thế
thương mại hoặc mạng lưới khách hàng..., mà đó chính là đội ngũ nhân viên. Các nhân
viên trong công ty làm việc để mở đường cho sự thành công của công ty và tất cả các quản
trị cần thiết để điều hành công ty. Nhưng vì nhiều lý do nhân viên không hài lòng với công
việc hoặc công ty mà họ đang làm việc và điều này có xu hướng hoặc kết quả là họ rời bỏ
công ty hoặc tìm kiếm một công ty mới. Đó là một trong những khó khăn quan trọng nhất
mà chủ sở hữu công ty phải đối mặt khi tổ chức của họ mất đi những nhân viên xuất sắc.
Một nhân viên giỏi luôn là tài sản quý giá của công ty, và sự rời đi của họ có thể dẫn đến
nhiều vấn đề khác nhau, bao gồm tổn thất tài chính, hiệu suất tổng thể kém và mất tích lũy
chuyên môn. Hơn nữa, so với đào tạo, nâng cao tay nghề, chuyên môn của nhân viên hiện
tại, việc tuyển dụng nhân sự mới gây ra những chi phí tốn kém, mất thời gian đáng kể và
đôi khi không đạt được hiệu quả như mong muốn.
Vì thế, nhóm nghiên cứu chúng em muốn cung cấp một hệ thống để dự đoán một nhân viên
sẽ ở lại hay rời bỏ công ty trong tương lai trong vòng 2 năm tới thông qua nhiều yếu tố.
Nhóm nghiên cứu hy vọng thông qua bài phân tích dữ liệu mà nhóm thực hiện sẽ trả lời
được một số câu hỏi về việc làm thế nào các yếu tố mục đích ảnh hưởng đến sự tiêu hao
của nhân viên và xác định nguyên nhân góp phần vào quyết định của người lao động để rời
khỏi một công ty. Từ đó, những kết quả từ nghiên cứu có thể giúp doanh nghiệp, công ty
kịp thời đưa ra những chính sách, biện pháp để giảm thiểu tối đa việc các nhân viên có
chuyên môn, tay nghề cao rời bỏ công ty.
II. Mục tiêu nghiên cứu
1. Mục tiêu tổng quát
Phân tích, xác định được các đặc điểm đặc trưng của một nhân viên có ý định rời khỏi công
ty để kịp thời đưa ra các chính sách, giải pháp, những đề nghị mới để có thể hạn chế tối đa
việc thiếu hụt nhân lực.
2. Mục tiêu cụ thể
Bài toán 1: Phát hiện điểm đặc thù của dữ liệu
Bài toán 2: Dự đoán khả năng nhân viên sẽ rời bỏ công ty hay không
Bài toán 3: Phân cụm/ nhóm nhân viên có khả năng cao sẽ rời đi khỏi công ty
III. Đối tượng nghiên cứu
1. Giới thiệu, mô tả dữ liệu
Nguồn dữ liệu được lấy từ Kaggle. Đây là bộ dữ liệu từ bộ phận HR của một công ty muốn
dự đoán xem trong vòng 2 năm tới, một nhân viên sẽ chọn rời đi hay ở lại công ty thông
6
qua những thông tin, đặc điểm của nhân viên mà công ty thu thập được
https://www.kaggle.com/datasets/tejashvi14/employee-future-
prediction?fbclid=IwAR1o5LdmenJYFwStRSmBUwORQnmbexxbRgfzlPnlQbJ9z5RxV
DqXwFXC7qA.
Dữ liệu gồm: 4653 dòng (đối tượng) và 9 cột thuộc tính như sau:

STT Tên biến Mô tả biến Kiểu dữ liệu


Trình độ học vấn:
1 Trình độ học vấn String
Cử Nhân, Thạc sĩ, Tiến sĩ.
Năm tham gia công ty:
2 Năm Gia Nhập Công Ty Integer
Từ 2012 – 2018.
Thành phố nơi đặt văn phòng:
3 Thành phố String
Bangalore, Pune, New Delhi.

Bậc lương:
1_Cao nhất
4 Bậc Lương Integer
2_Trung cấp
3_Thấp nhất

Tuổi tác của nhân viên:


5 Tuổi Integer
Từ 22 đến 41 tuổi

Giới tính nhân viên:


6 Giới Tính _Nam String
_Nữ.

Từng không tham dự dự án từ


Đã Từng Ở Trạng Thái 1 tháng trở lên:
7 String
Dự Bị _Có
_Không.

Kinh nghiệm trong


Kinh Nghiệm Trong Lĩnh
8 lĩnh vực hiện tại: Integer
Vực Hiện Tại
Từ 0 – 7 năm.
Nhân viên có rời công ty
trong 2 năm tới không.
Rời Đi Hoặc Không Rời Đi _1 = Nhân viên sẽ rời công
9 Integer
(Biến phụ thuộc) ty trong 2 năm tới.
_0 = Nhân viên sẽ không rời
công ty trong 2 năm tới.

7
Bảng 1. Phân tích thông tin dữ liệu

1.2 Tiền xử lý
_Bộ dữ liệu được lấy từ Kaggle đã được xác minh và có đầy đủ thông tin nên không cần
phải thực hiện tiền xử lý.
_Để thông tin được dễ hiểu và dễ tiếp cận hơn, nhóm sử dụng chức năng Edit Domain để
chuyển đổi tên của các thuộc tính từ tiếng Anh sang tiếng Việt.
_Phân tách dữ liệu (để phù hợp với cấu hình hiện tại của laptop): Từ file dữ liệu gốc, nhóm
sử dụng chức năng Data Sample để tách dữ liệu thành 2 file riêng biệt như sau: 25 phần
trăm (%) dữ liệu từ dữ liệu gốc được tách ra thành dữ liệu để huấn luyện mô hình phân lớp
(Employee_Training), 5 phần trăm (%) từ dữ liệu còn lại để làm dữ liệu báo cáo cho mô
hình (Employee_Forecast).

Hình 1. Tiền xử lý dữ liệu

CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ


1. BÀI TOÁN 1: PHÁT HIỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU
1.1 Mô tả bài toán
_Sử dụng các hàm thống kê thông dụng, công cụ, lược đồ, biểu đồ của Excel để phát hiện
các điểm đặc thù của dữ liệu
1.2 Chạy mô hình và kết quả
• Trình độ học vấn

8
TRÌNH ĐỘ HỌC VẤN
3000

2500

2000

Nhân Viên
1500

1000

500

0
Cử Nhân Thạc Sĩ Tiến Sĩ
Rời Đi 1129 426 45
Ở Lại 2472 447 134

Biểu đồ 1. Trình độ học vấn


Dựa vào biểu đồ ta có thể thấy có sự tương đồng giữa trình độ Cử Nhân và Tiến Sĩ với
việc Rời Đi hay Ở Lại công ty trong 2 năm, số lượng nhân viên ở lại gấp hơn 2 lần số
lượng nhân viên rời đi trong khi đó ở trình độ Thạc Sĩ thì lượng nhân viên lại xấp xỉ
nhau. Số lượng nhân viên rời đi nhiều nhất là ở bậc Cử Nhân, có thể là do họ muốn tìm
cơ hội việc làm tốt hơn ở thi trường.

9
• Năm gia nhập công ty

NĂM GIA NHẬP CÔNG TY


900
800
700
600
Nhân Viên

500
400
300
200
100
0
2012 2013 2014 2015 2016 2017 2018
Rời Đi 109 224 173 318 117 297 362
Ở Lại 395 445 526 463 408 811 5

Biểu đồ 2. Năm gia nhập công ty


Số lượng nhân viên rời đi hay ở lại trong các năm không ổn định, lên xuống liên tục
nhưng đa phần số lượng rời đi lớn hơn rất nhiều so với số lương ở lại (Ngoại trừ năm
2018 chỉ có 5 nhân viên rời đi). Điều này có nghĩa là dù gia nhập trong năm nào thì nhân
viên vẫn có thể đưa ra quyết định rời đi hay ở lại.
• Thành phố

THÀNH PHỐ NƠI ĐẶT VĂN PHÒNG


1800
1600
1400
1200
Nhân Viên

1000
800
600
400
200
0
Bangalore Pune New Delhi
Rời Đi 595 639 366
Ở Lại 1633 629 791

Biểu đồ 3. Thành phố nơi đặt văn phòng


Tỷ lệ rời đi và ở lại của Bangalore và New Delhi đều tương tự nhau ở mức hơn gấp đôi
trong khi đó tại Pune thì tỷ lệ này lại bằng nhau. Có thể do lý giải cho tỷ lệ này như sau:

10
Tại 3 thành phố thì Bangalore có dân cư và diện tích lớn nhất nên số lượng nhân viên lựa
chọn ở lại là nhiều nhất trong khi Pune thì lại có diện tích và lượng người dân không
bằng 2 nơi còn lại nên nhân viên đắn đo giữa việc rời đi hay ở lại.
• Bậc lương

BẬC LƯƠNG
3000
2500
2000
Nhân Viên

1500
1000
500
0
Bậc 1 Bậc 2 Bậc 3
Rời Đi 89 550 961
Ở Lại 154 368 2531

Biểu đồ 4. Bậc lương


Ở mức lương bậc 3 (Thấp nhất) có tỷ lệ nhân viên ở lại là cao nhất trong khi đó tại bậc 2
(Trung bình) tỷ lệ nhân viên rời đi cao hơn gần 2 lần so với ở lại. và tại mức lương bậc 1
(Cao nhất) thì lượng nhân viên ở lại cao hơn hẳn rời đi. Có thể thấy rằng ở mức lương 1
và 3 nhân viên muốn có sự ổn định về tài chính nhiều hơn nên chọn ở lại và tại mức
lương 2 nhân viên cảm thấy giá trị năng lực làm việc của mình còn hơn thế nữa nên quyết
định rời đi.

11
• Tuổi

ĐỘ TUỔI
1400
1200
1000
Nhân Viên

800
600
400
200
0
22-26 27-31 32-36 37-41
Rời Đi 587 601 226 186
Ở Lại 958 1229 428 438

Biểu đồ 5. Độ tuổi
Có đặc điểm chung ở cả 4 nhóm tuổi đó là tỷ lệ nhân viên chọn ở lại cao hơn nhiều so với
rời đi. Nhìn chung thì ở độ tuổi nào cũng mong muốn sự ổn định trong công việc nhưng
vẫn có một số ngoại lệ muốn thử thách bản thân ở nhũng công việc mới nên chọn rời đi.
• Giới tính

GIỚI TÍNH
2500

2000
Nhân Viên

1500

1000

500

0
Nữ Nam
Rời Đi 884 716
Ở Lại 991 2062

Biểu đồ 6. Giới tính


Có sự khác biệt rõ rệt giữa nhóm nam và nhóm nữ. Ở nữ tỷ lệ rời đi hay ở lại xấp xỉ nhau,
có thể là do nữ giới thường nhạy cảm hơn so với nam giới về môi trường làm việc, văn
hóa nơi công sở, mức độ thăng tiến trong công việc… Trong khi đó nam giới thì lại đơn
giản hơn là họ có sức chịu đựng mạnh hơn nữ giới hoặc cũng có thể là họ cảm thấy đủ
điều kiện để phát huy năng lực bản thân tại đây.
12
• Đã từng ở trạng thái dự bị

ĐÃ TỪNG Ở TRẠNG THÁI DỰ BỊ


3000

2500

2000
Nhân Viên

1500

1000

500

0
Có Không
Rời Đi 217 1383
Ở Lại 261 2792

Biều đồ 7. Đã từng ở trạng thái dự bị


Đa số nhân viên chưa từng ở trạng thái dự bị sẽ lựa chọn ở lại trong khi những nhân viên
đã ở trạng thái dự bị thì với họ việc rời đi hay ở lại là như nhau nên mới có tỷ lệ rời đi
hoặc ở lại là xấp xỉ. những người chưa từng ở trạng thấy dự bị sẽ không thấy được nguy
cơ của bản thân nên đa phần lựa chọn ở lại. Ngược lại những người từng ở trạng thái dự
bị cảm thấy được nguy cơ của bản thân nên phân vân giữa quyết định tiếp tục ở lại hay
tìm kiếm cơ hội việc làm mới.

• Kinh nghiệm trong lĩnh vực hiện tại

KINH NGHIỆM TRONG LĨNH VỰC HIỆN TẠI


800
700
600
Nhân Viên

500
400
300
200
100
0
0 1 2 3 4 5 6 7
Rời Đi 124 188 399 299 297 288 2 3
Ở Lại 231 370 688 487 634 631 6 6

Biểu đồ 8. Kinh nghiệm trong lĩnh vực hiện tại

13
Điểm tương đồng dễ dàng thấy được trong biểu đồ này đó là tỷ lệ nhân viên ở lại đều cao
hơn xấp xỉ 2 lần so với lượng nhân viên rời đi. Tỷ lệ rời đi ở các năm cũng tăng giảm
không đồng đều cho thấy tuy nhân viên ở lại tuy nhiều nhưng cũng có một bộ phận do có
thể cảm thấy không phù hợp với công việc hay có định hướng khác trong cuộc sống nên
muốn thử sức ở lĩnh vực khác.
• Rời đi hoặc ở lại

RỜI ĐI HAY Ở LẠI

34%

66%

Ở Lại Rời Đi

Biểu đồ 9. Tỷ lệ quyết định rời đi hay ở lại


Tỷ lệ rời đi chiếm 1/3 và tỷ lệ ở lại chiếm 2/3 trong tổng số nhân viên cho thấy công ty vẫn
có thể giữ chân nhân viên và nếu công ty thay đổi các chế độ như tiền thưởng, môi
trường, văn hóa… thì chắc chắn tỷ lệ nhân viên ở lại sẽ tăng thêm.
1.3 Kết luận thông qua các kết quả đạt được
KẾT LUẬN VỀ BÀI TOÁN 1:
Thông qua các hàm thống kê và các lượt đồ, ta thấy rằng những nhân viên có ý định rời
công ty đa số là Cử Nhân, gia nhập công ty vào năm 2015, 2017-2018, làm việc tại văn
phòng Bangalore, Pune, có mức lương 3, độ tuổi từ 22-31, giới tính nữ, chưa từng ở trạng
thái dự bị, kinh nghiệm trong lĩnh vực hiện tại 2 năm,…
Thông qua các đặc thù, đặc trưng cơ bản này thì có thể giúp cho đơn vị biết được nhân viên
nào rời đi hay có quyết định rời đi trong 2 năm nhanh hơn. Tỷ lệ nhân viên rời đi hay ở lại
không chỉ phụ thuộc vào một yếu tố riêng lẻ nào mà nó phụ thuộc vào tất cả các dữ liệu
được đưa ra. Ngoài ra còn có những tác động của ngoại cảnh mà dữ liệu không thể thu thập
được. Dữ liệu có trong bài chỉ mang tính chất đặc trưng.

14
2. BÀI TOÁN 2: DỰ ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG
TY HAY KHÔNG
2.1 Mô tả bài toán
Bước 1: Chọn dữ liệu File “Employee_Training” và chọn cột “Rời đi hoặc ở lại” làm
Target.
Bước 2: Mở File “Data” → Nối File và 3 phương pháp SVM, Neural Network và Logistic
Regression với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện
đánh giá kết quả và đánh giá ma trận nhầm lẫn.
Bước 3: Liên kết phương pháp tốt nhất và File “Employee_Forecast” với Predictions để
đánh giá và phân loại dữ liệu đầu vào.
Bước 4: Xuất kết quả dự báo qua Data Table, nhận xét và đánh giá
2.2 Xây dựng mô hình

Hình 2. Mô hình phân lớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở
công ty trong hai năm tới hay không.

15
2.3 Đánh giá và kết quả
2.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:

Hình 3. Kết quả Logistic Regression

Hình 4. Kết quả SVM

16
Hình 5. Kết quả Tree
Sai lầm loại 2: Dự đoán là không có người rời đi nhưng thực tế là họ rời đi vì nhiều lý do
như không hài lòng với chính sách làm việc hiện tại, bất mãn với cấp trên, … Nếu sai lầm
này càng nhiều thì công ty khó đưa ra các giải pháp kịp thời nhằm giải quyết các vấn đề
giữa nhân viên và công ty, từ đó có thể khiến công ty rơi vào tình trạng thiếu nguồn nhân
lực trầm trọng.
Tree = 125 < SVM = 172 < LR = 229
→ Sai lâm loại 2 của phương pháp Tree = 125 là nhỏ nhất trong ba phương pháp trên.
⇒ Sử dụng phương pháp Tree và không cần xét đến Test and Score.
2.3.2 Kết quả dự báo

17
Hình 6. Kết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của
công ty.

KẾT LUẬN VỀ BÀI TOÁN 2:


_Theo bảng đánh giá kết quả, ma trận nhầm lẫn của phương pháp Tree có sai lầm loại 2
bằng 125 là nhỏ nhất trong ba phương pháp: Logistics Regression, SVM, Tree.
_Việc mà nhân viên rời khỏi công ty là điều không thể tránh khỏi đối với công ty mà họ
đang làm việc bởi họ bất mãn về những chính sách mà công ty đề ra ... Tuy nhiên, thông
qua kết quả dự báo, chúng ta có thể biết được vấn đề về nguồn nhân lược mà công ty gặp
phải và đề ra những biện pháp để giảm thiểu việc các nhân viên rời bỏ công ty một cách
tối ưu nhất có thể.
3. BÀI TOÁN 3: PHÂN CỤM/ NHÓM NHÂN VIÊN LỰA CHỌN RỜI KHỎI
CÔNG TY
3.1 Mô tả bài toán
Bước 1: Chọn file “Employee.xlsx” và để tất cả các biến đều là Feature
Bước 2: Sử dụng chức năng Select Rows, chọn ra các nhân viên có quyết định rời khỏi
công ty

18
Bước 3: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 7 nhóm, xem xét phân
làm bao nhiêu cụm thì tối ưu nhất
Bước 4: Dùng Silhouette Plot để minh họa dữ liệu. Dữ liệu từ Silhouette được minh họa
trên Data table
Bước 5: Tìm đặc điểm của các nhóm nhân viên rời đi
Bước 6: Đánh giá và kết luận
3.2 Xây dựng mô hình

Hình 7. Xây dựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty

Hình 8. Kết quả phương pháp K-means

⇒Nên chọn phân tách thành 2 nhóm vì chỉ số Silhouette score của 2 nhóm tiến gần đến 1
nhất và số nhóm bị phân tách ít nhất.
19
Hình 9. Kết quả Silhouette Plot

3.3 Đánh giá và kết luận


Từ các kết quả của Distribution, ta có thể thấy:

Hình 10: Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở
Puneđối với nhóm C1. Cụ thể là nhân viên thuộc nhóm C2 ở văn phòng Bangalore là hơn
500 nhân viên và nhân viên thuộc nhóm C1 ở Pune hơn 400 nhân viên.

20
_Đồng thời số nhân viên thuộc 2 nhóm C1, C2 còn phân bố với số lượng vừa và nhỏ ở
các thành phố khác, cụ thể:
• Nhân viên thuộc nhóm C1 tại văn phòng Bangalore ít hơn 100 nhân viên, tại văn
phòngNew Delhi khoảng 100-200 nhân viên
• Nhân viên thuộc nhóm C2 tại văn phòng New Delhi với số lượng khoảng 200 người
và ở Pune với số lượng gần bằng ở New Delhi

Hình 11: Phân bố nhóm nhân viên rời đi theo Trình độ học vấn
Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi ở nhóm C2 và C1 chủ yếu là
Cử nhân
_Đối với bậc Thạc Sĩ:
• Khoảng 100-200 người ở nhóm C1 và hơn 200 người ở nhóm C2 muốn rời đi
_Đối với bậc Tiến Sĩ: dưới 100 nhân viên thuộc nhóm C1, C2 muốn rời đi

21
Hình 12: Phân bố nhóm nhân viên rời đi theo Giới tính
_Nhân viên Nữ và Nam muốn rời đi đều tập trung ở nhóm C2 với nữ là xấp xỉ 600 nhân
viên và khoảng 400 nhân viên nam
_Đối với nhóm C1: Nhân viên nữ muốn rời đi khoảng 150 người; nhân viên nam muốn
rời đi khoảng tầm gần 500 người

Hình 13: Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị
Nhân viên muốn rời đi ở cả hai nhóm phần lớn là chưa ở trạng thái dự bị với nhân viên
thuộc nhóm C1 là khoảng hơn 500 người còn nhân viên nhóm C2 là hơn 200 nhân viên.

22
_Nhân viên rời đi đã từng ở trạng thái dự bị
• Đối với nhóm C1: dưới 100 nhân viên
• Đối với nhóm C2: xấp xỉ 100 nhân viên

Hình 14. Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty
_Ở nhóm C2 nhân viên muốn rời đi chủ yếu gia nhập công ty vào năm 2018 với hơn 300
nhân viên còn ở nhóm C1 gia nhập công ty vào năm 2015 với hơn 200 nhân viên muốn
rời đi
_Số nhân viên muốn rời đi ở nhóm C2 khá cao khi gia nhập công ty vào các năm từ
2012-2018. Cụ thể:
• 2012: Gần 100 nhân viên
• 2013: Hơn 100 nhân viên
• 2014: Khoảng 100 nhân viên
• 2015: Hơn 100 nhân viên
• 2016: Dưới 100 nhân viên
• 2017: Hơn 100 nhân viên
• 2018: Hơn 300 nhân viên
Số nhân viên muốn rời đi ở nhóm C1 khi gia nhập công ty từ năm 2012-2018 chiếm
khá ít lần lượt vào các năm là: ít hơn 50 người, hơn 100 người, khoảng 50 người, ít
hơn 50 người, tầm 30-50 người, gần 200 người và dưới 30 người
23
Hình 15. Phân bố nhóm nhân viên rời đi theo Bậc lương
Đa số nhân viên rời đi ở nhóm C1 có bậc lương trong khoảng 1-2 và nhóm C2 là từ 3.
Cụ thể:
• Ở bậc lương 1: Dưới 100 người
• Ở bậc lương 2: Gần 500 người
• Ở bậc lương 3: Khoảng 1000 người

Hình 16. Phân bố nhóm nhân viên rời đi theo Tuổi

24
_Ở nhóm C1 người có xu hướng rời đi tập trung chủ yếu từ 26-28 tuổi và ở nhóm C2 là
từ 27-29 tuổi
Từ các kết quả của Distribution, ta có thể thấy:
_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở Pune
đối với nhóm C1.
_Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi đạt trình độ bậc Cử nhân với
nhóm C1, C2
_Nhân viên Nữ rời đi tập trung nhóm C1 và nhân viên Nam rời đi ở nhóm C2.
_Các nhân viên rời đi đều chưa từng ở trạng thái dự bị lần nào đối với cả 2 nhóm.
_Ở nhóm C1, nhân viên gia nhập vào khoảng từ năm 2015-2016 thường có xu hướng rời
công ty. Còn ở nhóm C2, nhân viên rời đi khi tham gia công ty vào khoảng thời gian từ
2017-2018.
_Đa số nhân viên rời đi ở nhóm C1 có bậc lương 1 và 2, còn nhóm C2 nằm ở bậc lương 3
_Ở độ tuổi 26-28 nhân viên rời đi thường xuất hiện ở nhóm C1, và ở tuổi 27-29 với nhóm
C2

Từ đây, để có cái nhìn tổng quát và toàn thể hơn, ta xem sự phân bổ của các thuộc
tính ở các nhóm qua bảng Feature Statistic.

25
Hình 17. Kết quả của Feature Statistic
Từ kết quả của Feature Statistic nhóm nhận thấy một số điểm đặc thù trung bình của dữ
liệu như sau:
+ Nhân viên rời đi thường gia nhập công ty vào năm 2015
+ Nhân viên rời đi thường có bậc lương là 3
+ Nhân viên rời đi thường có trình độ học vấn là Cử nhân
+ Thành phố nơi đặt văn phòng thường là Pune
+ Nhân viên rời đi thường có giới tính là Nữ
+ Nhân viên rời đi thường chưa ở trong trạng thái dự bị
+ Nhân viên rời đi thường độ tuổi là 27
+ Kết luận bài toán 3
KẾT LUẬN BÀI TOÁN 3:
Từ kết quả của Feature Statistic thì đặc thù nhân viên rời đi nằm ở nhóm C2. Nhóm đã
nhận thấy những điểm đáng chú ý sau, nhóm C2 là nhóm có trình độ cao, kinh nghiệm dày
dặn và có bậc lương khá ổn, tuổi tác còn khá trẻ nhưng lại có xu hướng rời đi. Nhìn chung,
từ kết quả phân cụm lực lượng nhân viên với trình độ và tuổi tác còn trẻ đang có xu hướng
rời đi nhiều hơn. Đặc điểm đặc thù của 2 nhóm nhân viên chiếm phần lớn đều là những
nhân viên có độ tuổi không quá già cũng không quá già, năng lực và trình độ từ ổn đến cao,
đặc biệt giới tính là nam. Nhìn vào dữ liệu và nhìn vào 9 thuộc tính của 2 nhóm nhân viên
thì ta có thể đánh giá được vấn đề thực trạng mà doanh nghiệp mắc phải. Từ đó đưa ra giải
pháp phù hợp với nhóm đối tượng đó

26
CHƯƠNG 3: KẾT LUẬN
• Kết luận
_Bài toán 1 chính là cái nhìn toàn cảnh, nhưng không toàn diện về thực trạng rời đi của
nhân viên, vì đó chỉ mới sử dụng các sơ đồ để thấu hiểu sơ bộ về số lượng, xu hướng, …
Không toàn diện ở đây vì còn nhiều yếu tố ngoại cảnh, môi trường. Chính vì vậy, bài toán
1 chỉ cung cấp cái nhìn đầu tiên về tình trạng số nhân viên muốn rời đi ở mức độ bao quát
chứ chưa đào sâu vào gốc rễ, để doanh nghiệp có thể tư duy kịp thời cũng như nắm vững
tình hình cơ bản trước khi vào sâu tận gốc rễ của vấn đề và đề ra phương hướng giải quyết.
_Từ bài toán phân lớp dữ liệu, nhóm thấy được, việc rời đi của nhân viên là điều sẽ xảy ra
do nhiều mâu thuẫn và nội bộ, một vấn đề nan giải của rất nhiều doanh nghiệp đó chính là
đoàn kết tập thể làm cho rất nhiều tập thể tan rã vì sự quản lí không chặt chẽ và hợp lí của
cấp trên. Từ đó đã tạo thành một vấn đề nhân lực khó giải của nhiều doanh nghiệp. Nhưng
nhờ vào kết quả dự báo ta có thể nhận biết được vấn đề từ trước và đưa ra hướng giải quyết.
_Từ bảng đánh giá kết quả phân cụm, theo phương pháp K-means nhóm chia dữ liệu thành
2 nhóm C1 và C2, sử dụng Feature Statistic để cho ra những đặc tính tiêu biểu của dữ liệu,
ngoài những đặc tính cơ bản như tuổi tác, bậc lương, trình độ, …. Thì nhóm nhận thấy
được đặc tính có xu hướng rời đi của nhân viên là khá cao từ đó ta cần tìm phương hướng
giải quyết vấn đề này.
• Đề xuất
_Khuyến khích nhân viên bằng cách có những chế độ lương thưởng phù hợp với từng trình
độ và sức cống hiến mà nhân viên dành cho công ty. Ngoài ra cũng cần phải quan tâm đến
môi trường làm việc như bổ sung thêm cơ sở vật chất, những tiện ích cho văn phòng cũng
như tạo cho nhân viên một môi trường thoải mái nhất có thể để làm việc năng suất, mang
lại nhiều giá trị cho doanh nghiệp.
_Hiểu tâm tư nhân viên, nắm rõ nội bộ trong công ty là rất quan trọng như việc thấu hiểu
tâm tư khách hàng và có kiến thức thị trường. Cần phải tìm hiểu nguyên nhân nhân viên
muốn rời đi là do đâu, do đãi ngộ không tốt, nội bộ không đoàn kết? Từ đó tìm ra hướng
khắc phục những vấn đề để doanh nghiệp trở thành một khối tập thể giàu kinh nghiệm và
đoàn kết. Điều kiện tiên quyết là sự công nhận sức lực của nhân viên và văn hóa công sở
lành mạnh, công bằng.
_Tạo điều kiện cho nhân viên thăng tiến, có thể tăng sự gắn kết đối với doanh nghiệp và
thu hút nhân tài trong tương lai.
_Quy định số ngày nghỉ phép và số giờ làm việc phù hợp, đúng quy định của pháp luật,
giúp cho nhân viên cảm thấy không bị gò bó, từ đó giữ trạng thai tinh thần tốt nhất có thể
để cống hiến hết minh cho công ty.

27
_Doanh nghiệp phải giữ được sự cân bằng khi giao khối lượng công việc cho nhân viên
mới và nhân viên cũ. Công ty cũng nên để ý đến vấn đề lạm dụng chức quyền giữa nhân
viên cũ và nhân viên mới, giữa quản lý và cấp dưới để tạo môi trường làm việc tốt nhất có
thể, hạn chế việc nhân viên không phát huy được năng lực của bản thân.

28
DANH MỤC THAM KHẢO
Các bài giảng môn Khoa học dữ liệu của thầy ThS. Nguyễn Mạnh Tuấn
https://lms.ueh.edu.vn/
https://ijisrt.com/assets/upload/files/IJISRT21NOV481.pdf

29

You might also like