Professional Documents
Culture Documents
DeTaiDS 2
DeTaiDS 2
1
LỜI CẢM ƠN
Bộ môn Khoa học dữ liệu là một bộ môn không mấy thích thú với chúng em, nhưng
qua quá trình học, chúng em cũng đã dần nhận ra được vai trò quan trọng của Khoa
học dữ liệu trong thời đại công nghệ số ngày nay. Bộ môn đã trang bị cho chúng em
những kiến thức nền tảng và cơ bản nhất để chúng em có thể tự tìm tòi hoặc học sâu
hơn về kiến thức chuyên ngành Khoa học dữ liệu trong tương lai.
Nhóm chúng em xin chân thành gửi lời cảm ơn đến thầy Nguyễn Mạnh Tuấn, giảng
viên đảm nhiệm bộ môn Khoa học dữ liệu của nhóm em. Dù chỉ tiếp xúc ngắn với
nhau qua vài buổi học nhưng chúng em thật sự cảm thấy quý mến tấm lòng, sự nhiệt
tình trong việc giảng dạy của thầy. Nhóm em xin kính chúc thầy thật nhiều sức khỏe
và sẽ luôn đạt được những thành công, những mong đợi của bản thân trên con đường
giảng dạy.
Xin chân thành cảm ơn thầy!
Nhóm 9
2
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN ................................................................................ 6
I. Lý do chọn đề tài ........................................................................................... 6
II. Mục tiêu nghiên cứu .................................................................................... 6
1. Mục tiêu tổng quát ..................................................................................... 6
2. Mục tiêu cụ thể ........................................................................................... 6
III. Đối tượng nghiên cứu ................................................................................. 6
1. Giới thiệu, mô tả dữ liệu ............................................................................ 6
1.2 Tiền xử lý .................................................................................................. 8
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ ................................ 8
1. BÀI TOÁN 1: PHÁT HIỆN ĐIỂM ĐẶC THÙ CỦA DỮ LIỆU ................ 8
1.1 Mô tả bài toán .......................................................................................... 8
1.2 Chạy mô hình và kết quả ......................................................................... 8
1.3 Kết luận thông qua các kết quả đạt được ............................................. 14
2. BÀI TOÁN 2: DỰ ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG
TY HAY KHÔNG........................................................................................... 15
2.1 Mô tả bài toán ........................................................................................ 15
2.2 Xây dựng mô hình.................................................................................. 15
2.3 Đánh giá và kết quả ............................................................................... 16
3. BÀI TOÁN 3: PHÂN CỤM/ NHÓM NHÂN VIÊN LỰA CHỌN RỜI
KHỎI CÔNG TY ............................................................................................ 18
3.1 Mô tả bài toán ........................................................................................ 18
3.2 Xây dựng mô hình.................................................................................. 19
3.3 Đánh giá và kết luận .............................................................................. 20
CHƯƠNG 3: KẾT LUẬN ................................................................................. 27
DANH MỤC THAM KHẢO ............................................................................. 29
3
DANH MỤC HÌNH ẢNH
Hình 1. Tiền xử lý dữ liệu
Hình 2. Mô hình phân lớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở công
ty trong hai năm tới hay không.
Hình 3. Kết quả Logistic Regression
Hình 4. Kết quả SVM
Hình 5. Kết quả Tree
Hình 6. Kết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của công
ty.
Hình 7. Xây dựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty
Hình 8. Kết quả phương pháp K-means
Hình 9. Kết quả Silhouette Plot
Hình 10. Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
Hình 11. Phân bố nhóm nhân viên rời đi theo Trình độ học vấn
Hình 12. Phân bố nhóm nhân viên rời đi theo Giới tính
Hình 13. Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị
Hình 14. Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty
Hình 15. Phân bố nhóm nhân viên rời đi theo Bậc lương
Hình 16. Phân bố nhóm nhân viên rời đi theo Tuổi
Hình 17. Kết quả của Feature Statistic
4
DANH MỤC BIỂU ĐỒ
Biểu đồ 1. Trình độ học vấn
Biểu đồ 2. Năm gia nhập công ty
Biểu đồ 3. Thành phố nơi đặt văn phòng
Biểu đồ 4. Bậc lương
Biểu đồ 5. Độ tuổi
Biểu đồ 6. Giới tính
Biểu đồ 7. Đã từng ở trạng thái dự bị
Biểu đồ 8. Kinh nghiệm trong lĩnh vực hiện tại
Biểu đồ 9. Tỷ lệ rời đi hặc ở lại
DANH MỤC BẢNG
Bảng 1. Phân tích thông tin dữ liệu
5
Mức độ liên quan đến chuyên ngành: Không liên quan
Bậc lương:
1_Cao nhất
4 Bậc Lương Integer
2_Trung cấp
3_Thấp nhất
7
Bảng 1. Phân tích thông tin dữ liệu
1.2 Tiền xử lý
_Bộ dữ liệu được lấy từ Kaggle đã được xác minh và có đầy đủ thông tin nên không cần
phải thực hiện tiền xử lý.
_Để thông tin được dễ hiểu và dễ tiếp cận hơn, nhóm sử dụng chức năng Edit Domain để
chuyển đổi tên của các thuộc tính từ tiếng Anh sang tiếng Việt.
_Phân tách dữ liệu (để phù hợp với cấu hình hiện tại của laptop): Từ file dữ liệu gốc, nhóm
sử dụng chức năng Data Sample để tách dữ liệu thành 2 file riêng biệt như sau: 25 phần
trăm (%) dữ liệu từ dữ liệu gốc được tách ra thành dữ liệu để huấn luyện mô hình phân lớp
(Employee_Training), 5 phần trăm (%) từ dữ liệu còn lại để làm dữ liệu báo cáo cho mô
hình (Employee_Forecast).
8
TRÌNH ĐỘ HỌC VẤN
3000
2500
2000
Nhân Viên
1500
1000
500
0
Cử Nhân Thạc Sĩ Tiến Sĩ
Rời Đi 1129 426 45
Ở Lại 2472 447 134
9
• Năm gia nhập công ty
500
400
300
200
100
0
2012 2013 2014 2015 2016 2017 2018
Rời Đi 109 224 173 318 117 297 362
Ở Lại 395 445 526 463 408 811 5
1000
800
600
400
200
0
Bangalore Pune New Delhi
Rời Đi 595 639 366
Ở Lại 1633 629 791
10
Tại 3 thành phố thì Bangalore có dân cư và diện tích lớn nhất nên số lượng nhân viên lựa
chọn ở lại là nhiều nhất trong khi Pune thì lại có diện tích và lượng người dân không
bằng 2 nơi còn lại nên nhân viên đắn đo giữa việc rời đi hay ở lại.
• Bậc lương
BẬC LƯƠNG
3000
2500
2000
Nhân Viên
1500
1000
500
0
Bậc 1 Bậc 2 Bậc 3
Rời Đi 89 550 961
Ở Lại 154 368 2531
11
• Tuổi
ĐỘ TUỔI
1400
1200
1000
Nhân Viên
800
600
400
200
0
22-26 27-31 32-36 37-41
Rời Đi 587 601 226 186
Ở Lại 958 1229 428 438
Biểu đồ 5. Độ tuổi
Có đặc điểm chung ở cả 4 nhóm tuổi đó là tỷ lệ nhân viên chọn ở lại cao hơn nhiều so với
rời đi. Nhìn chung thì ở độ tuổi nào cũng mong muốn sự ổn định trong công việc nhưng
vẫn có một số ngoại lệ muốn thử thách bản thân ở nhũng công việc mới nên chọn rời đi.
• Giới tính
GIỚI TÍNH
2500
2000
Nhân Viên
1500
1000
500
0
Nữ Nam
Rời Đi 884 716
Ở Lại 991 2062
2500
2000
Nhân Viên
1500
1000
500
0
Có Không
Rời Đi 217 1383
Ở Lại 261 2792
500
400
300
200
100
0
0 1 2 3 4 5 6 7
Rời Đi 124 188 399 299 297 288 2 3
Ở Lại 231 370 688 487 634 631 6 6
13
Điểm tương đồng dễ dàng thấy được trong biểu đồ này đó là tỷ lệ nhân viên ở lại đều cao
hơn xấp xỉ 2 lần so với lượng nhân viên rời đi. Tỷ lệ rời đi ở các năm cũng tăng giảm
không đồng đều cho thấy tuy nhân viên ở lại tuy nhiều nhưng cũng có một bộ phận do có
thể cảm thấy không phù hợp với công việc hay có định hướng khác trong cuộc sống nên
muốn thử sức ở lĩnh vực khác.
• Rời đi hoặc ở lại
34%
66%
Ở Lại Rời Đi
14
2. BÀI TOÁN 2: DỰ ĐOÁN KHẢ NĂNG NHÂN VIÊN SẼ RỜI BỎ CÔNG
TY HAY KHÔNG
2.1 Mô tả bài toán
Bước 1: Chọn dữ liệu File “Employee_Training” và chọn cột “Rời đi hoặc ở lại” làm
Target.
Bước 2: Mở File “Data” → Nối File và 3 phương pháp SVM, Neural Network và Logistic
Regression với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện
đánh giá kết quả và đánh giá ma trận nhầm lẫn.
Bước 3: Liên kết phương pháp tốt nhất và File “Employee_Forecast” với Predictions để
đánh giá và phân loại dữ liệu đầu vào.
Bước 4: Xuất kết quả dự báo qua Data Table, nhận xét và đánh giá
2.2 Xây dựng mô hình
Hình 2. Mô hình phân lớp dự đoán khả năng rời đi hoặc ở lại của nhân viên ở
công ty trong hai năm tới hay không.
15
2.3 Đánh giá và kết quả
2.3.1 Đánh giá mô hình dựa trên kết quả của Confusion Matrix:
16
Hình 5. Kết quả Tree
Sai lầm loại 2: Dự đoán là không có người rời đi nhưng thực tế là họ rời đi vì nhiều lý do
như không hài lòng với chính sách làm việc hiện tại, bất mãn với cấp trên, … Nếu sai lầm
này càng nhiều thì công ty khó đưa ra các giải pháp kịp thời nhằm giải quyết các vấn đề
giữa nhân viên và công ty, từ đó có thể khiến công ty rơi vào tình trạng thiếu nguồn nhân
lực trầm trọng.
Tree = 125 < SVM = 172 < LR = 229
→ Sai lâm loại 2 của phương pháp Tree = 125 là nhỏ nhất trong ba phương pháp trên.
⇒ Sử dụng phương pháp Tree và không cần xét đến Test and Score.
2.3.2 Kết quả dự báo
17
Hình 6. Kết quả dự báo nhân viên sẽ rời đi hay ở lại trong vòng 2 năm tới của
công ty.
18
Bước 3: Dùng phương pháp K-means, thực hiện phân làm từ 2 đến 7 nhóm, xem xét phân
làm bao nhiêu cụm thì tối ưu nhất
Bước 4: Dùng Silhouette Plot để minh họa dữ liệu. Dữ liệu từ Silhouette được minh họa
trên Data table
Bước 5: Tìm đặc điểm của các nhóm nhân viên rời đi
Bước 6: Đánh giá và kết luận
3.2 Xây dựng mô hình
Hình 7. Xây dựng mô hình phân cụm số nhân viên có quyết định rời khỏi công ty
⇒Nên chọn phân tách thành 2 nhóm vì chỉ số Silhouette score của 2 nhóm tiến gần đến 1
nhất và số nhóm bị phân tách ít nhất.
19
Hình 9. Kết quả Silhouette Plot
Hình 10: Phân bố nhóm nhân viên rời đi theo Thành phố nơi đặt văn phòng
_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở
Puneđối với nhóm C1. Cụ thể là nhân viên thuộc nhóm C2 ở văn phòng Bangalore là hơn
500 nhân viên và nhân viên thuộc nhóm C1 ở Pune hơn 400 nhân viên.
20
_Đồng thời số nhân viên thuộc 2 nhóm C1, C2 còn phân bố với số lượng vừa và nhỏ ở
các thành phố khác, cụ thể:
• Nhân viên thuộc nhóm C1 tại văn phòng Bangalore ít hơn 100 nhân viên, tại văn
phòngNew Delhi khoảng 100-200 nhân viên
• Nhân viên thuộc nhóm C2 tại văn phòng New Delhi với số lượng khoảng 200 người
và ở Pune với số lượng gần bằng ở New Delhi
Hình 11: Phân bố nhóm nhân viên rời đi theo Trình độ học vấn
Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi ở nhóm C2 và C1 chủ yếu là
Cử nhân
_Đối với bậc Thạc Sĩ:
• Khoảng 100-200 người ở nhóm C1 và hơn 200 người ở nhóm C2 muốn rời đi
_Đối với bậc Tiến Sĩ: dưới 100 nhân viên thuộc nhóm C1, C2 muốn rời đi
21
Hình 12: Phân bố nhóm nhân viên rời đi theo Giới tính
_Nhân viên Nữ và Nam muốn rời đi đều tập trung ở nhóm C2 với nữ là xấp xỉ 600 nhân
viên và khoảng 400 nhân viên nam
_Đối với nhóm C1: Nhân viên nữ muốn rời đi khoảng 150 người; nhân viên nam muốn
rời đi khoảng tầm gần 500 người
Hình 13: Phân bố nhóm nhân viên rời đi theo Đã từng ở trạng thái dự bị
Nhân viên muốn rời đi ở cả hai nhóm phần lớn là chưa ở trạng thái dự bị với nhân viên
thuộc nhóm C1 là khoảng hơn 500 người còn nhân viên nhóm C2 là hơn 200 nhân viên.
22
_Nhân viên rời đi đã từng ở trạng thái dự bị
• Đối với nhóm C1: dưới 100 nhân viên
• Đối với nhóm C2: xấp xỉ 100 nhân viên
Hình 14. Phân bố nhóm nhân viên rời đi theo Năm gia nhập công ty
_Ở nhóm C2 nhân viên muốn rời đi chủ yếu gia nhập công ty vào năm 2018 với hơn 300
nhân viên còn ở nhóm C1 gia nhập công ty vào năm 2015 với hơn 200 nhân viên muốn
rời đi
_Số nhân viên muốn rời đi ở nhóm C2 khá cao khi gia nhập công ty vào các năm từ
2012-2018. Cụ thể:
• 2012: Gần 100 nhân viên
• 2013: Hơn 100 nhân viên
• 2014: Khoảng 100 nhân viên
• 2015: Hơn 100 nhân viên
• 2016: Dưới 100 nhân viên
• 2017: Hơn 100 nhân viên
• 2018: Hơn 300 nhân viên
Số nhân viên muốn rời đi ở nhóm C1 khi gia nhập công ty từ năm 2012-2018 chiếm
khá ít lần lượt vào các năm là: ít hơn 50 người, hơn 100 người, khoảng 50 người, ít
hơn 50 người, tầm 30-50 người, gần 200 người và dưới 30 người
23
Hình 15. Phân bố nhóm nhân viên rời đi theo Bậc lương
Đa số nhân viên rời đi ở nhóm C1 có bậc lương trong khoảng 1-2 và nhóm C2 là từ 3.
Cụ thể:
• Ở bậc lương 1: Dưới 100 người
• Ở bậc lương 2: Gần 500 người
• Ở bậc lương 3: Khoảng 1000 người
24
_Ở nhóm C1 người có xu hướng rời đi tập trung chủ yếu từ 26-28 tuổi và ở nhóm C2 là
từ 27-29 tuổi
Từ các kết quả của Distribution, ta có thể thấy:
_Các nhân viên rời đi ở 2 nhóm chủ yếu tập trung ở Bangalore đối với nhóm C2 và ở Pune
đối với nhóm C1.
_Đối với thuộc tính Trình độ học vấn, các nhân viên rời đi đạt trình độ bậc Cử nhân với
nhóm C1, C2
_Nhân viên Nữ rời đi tập trung nhóm C1 và nhân viên Nam rời đi ở nhóm C2.
_Các nhân viên rời đi đều chưa từng ở trạng thái dự bị lần nào đối với cả 2 nhóm.
_Ở nhóm C1, nhân viên gia nhập vào khoảng từ năm 2015-2016 thường có xu hướng rời
công ty. Còn ở nhóm C2, nhân viên rời đi khi tham gia công ty vào khoảng thời gian từ
2017-2018.
_Đa số nhân viên rời đi ở nhóm C1 có bậc lương 1 và 2, còn nhóm C2 nằm ở bậc lương 3
_Ở độ tuổi 26-28 nhân viên rời đi thường xuất hiện ở nhóm C1, và ở tuổi 27-29 với nhóm
C2
Từ đây, để có cái nhìn tổng quát và toàn thể hơn, ta xem sự phân bổ của các thuộc
tính ở các nhóm qua bảng Feature Statistic.
25
Hình 17. Kết quả của Feature Statistic
Từ kết quả của Feature Statistic nhóm nhận thấy một số điểm đặc thù trung bình của dữ
liệu như sau:
+ Nhân viên rời đi thường gia nhập công ty vào năm 2015
+ Nhân viên rời đi thường có bậc lương là 3
+ Nhân viên rời đi thường có trình độ học vấn là Cử nhân
+ Thành phố nơi đặt văn phòng thường là Pune
+ Nhân viên rời đi thường có giới tính là Nữ
+ Nhân viên rời đi thường chưa ở trong trạng thái dự bị
+ Nhân viên rời đi thường độ tuổi là 27
+ Kết luận bài toán 3
KẾT LUẬN BÀI TOÁN 3:
Từ kết quả của Feature Statistic thì đặc thù nhân viên rời đi nằm ở nhóm C2. Nhóm đã
nhận thấy những điểm đáng chú ý sau, nhóm C2 là nhóm có trình độ cao, kinh nghiệm dày
dặn và có bậc lương khá ổn, tuổi tác còn khá trẻ nhưng lại có xu hướng rời đi. Nhìn chung,
từ kết quả phân cụm lực lượng nhân viên với trình độ và tuổi tác còn trẻ đang có xu hướng
rời đi nhiều hơn. Đặc điểm đặc thù của 2 nhóm nhân viên chiếm phần lớn đều là những
nhân viên có độ tuổi không quá già cũng không quá già, năng lực và trình độ từ ổn đến cao,
đặc biệt giới tính là nam. Nhìn vào dữ liệu và nhìn vào 9 thuộc tính của 2 nhóm nhân viên
thì ta có thể đánh giá được vấn đề thực trạng mà doanh nghiệp mắc phải. Từ đó đưa ra giải
pháp phù hợp với nhóm đối tượng đó
26
CHƯƠNG 3: KẾT LUẬN
• Kết luận
_Bài toán 1 chính là cái nhìn toàn cảnh, nhưng không toàn diện về thực trạng rời đi của
nhân viên, vì đó chỉ mới sử dụng các sơ đồ để thấu hiểu sơ bộ về số lượng, xu hướng, …
Không toàn diện ở đây vì còn nhiều yếu tố ngoại cảnh, môi trường. Chính vì vậy, bài toán
1 chỉ cung cấp cái nhìn đầu tiên về tình trạng số nhân viên muốn rời đi ở mức độ bao quát
chứ chưa đào sâu vào gốc rễ, để doanh nghiệp có thể tư duy kịp thời cũng như nắm vững
tình hình cơ bản trước khi vào sâu tận gốc rễ của vấn đề và đề ra phương hướng giải quyết.
_Từ bài toán phân lớp dữ liệu, nhóm thấy được, việc rời đi của nhân viên là điều sẽ xảy ra
do nhiều mâu thuẫn và nội bộ, một vấn đề nan giải của rất nhiều doanh nghiệp đó chính là
đoàn kết tập thể làm cho rất nhiều tập thể tan rã vì sự quản lí không chặt chẽ và hợp lí của
cấp trên. Từ đó đã tạo thành một vấn đề nhân lực khó giải của nhiều doanh nghiệp. Nhưng
nhờ vào kết quả dự báo ta có thể nhận biết được vấn đề từ trước và đưa ra hướng giải quyết.
_Từ bảng đánh giá kết quả phân cụm, theo phương pháp K-means nhóm chia dữ liệu thành
2 nhóm C1 và C2, sử dụng Feature Statistic để cho ra những đặc tính tiêu biểu của dữ liệu,
ngoài những đặc tính cơ bản như tuổi tác, bậc lương, trình độ, …. Thì nhóm nhận thấy
được đặc tính có xu hướng rời đi của nhân viên là khá cao từ đó ta cần tìm phương hướng
giải quyết vấn đề này.
• Đề xuất
_Khuyến khích nhân viên bằng cách có những chế độ lương thưởng phù hợp với từng trình
độ và sức cống hiến mà nhân viên dành cho công ty. Ngoài ra cũng cần phải quan tâm đến
môi trường làm việc như bổ sung thêm cơ sở vật chất, những tiện ích cho văn phòng cũng
như tạo cho nhân viên một môi trường thoải mái nhất có thể để làm việc năng suất, mang
lại nhiều giá trị cho doanh nghiệp.
_Hiểu tâm tư nhân viên, nắm rõ nội bộ trong công ty là rất quan trọng như việc thấu hiểu
tâm tư khách hàng và có kiến thức thị trường. Cần phải tìm hiểu nguyên nhân nhân viên
muốn rời đi là do đâu, do đãi ngộ không tốt, nội bộ không đoàn kết? Từ đó tìm ra hướng
khắc phục những vấn đề để doanh nghiệp trở thành một khối tập thể giàu kinh nghiệm và
đoàn kết. Điều kiện tiên quyết là sự công nhận sức lực của nhân viên và văn hóa công sở
lành mạnh, công bằng.
_Tạo điều kiện cho nhân viên thăng tiến, có thể tăng sự gắn kết đối với doanh nghiệp và
thu hút nhân tài trong tương lai.
_Quy định số ngày nghỉ phép và số giờ làm việc phù hợp, đúng quy định của pháp luật,
giúp cho nhân viên cảm thấy không bị gò bó, từ đó giữ trạng thai tinh thần tốt nhất có thể
để cống hiến hết minh cho công ty.
27
_Doanh nghiệp phải giữ được sự cân bằng khi giao khối lượng công việc cho nhân viên
mới và nhân viên cũ. Công ty cũng nên để ý đến vấn đề lạm dụng chức quyền giữa nhân
viên cũ và nhân viên mới, giữa quản lý và cấp dưới để tạo môi trường làm việc tốt nhất có
thể, hạn chế việc nhân viên không phát huy được năng lực của bản thân.
28
DANH MỤC THAM KHẢO
Các bài giảng môn Khoa học dữ liệu của thầy ThS. Nguyễn Mạnh Tuấn
https://lms.ueh.edu.vn/
https://ijisrt.com/assets/upload/files/IJISRT21NOV481.pdf
29