Cơ Khí, H I Quy

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 36

ĐẠI HỌC QUỐC GIA TP.

ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH


🙞  🙞

DỰ ÁN LÀM VIỆC NHÓM:


Sử dụng hồi quy hậu cần để nghiên cứu
chất lượng và độ bền vật liệu trong in 3D
và đánh giá phương pháp
Giáo sư: Nguyễn Tiến Dũng
Lớp học: CC02
Nhóm: 10
Khoa: Kỹ thuật cơ khí

Tên Stu.ID
GIỚI THIỆU
Nhóm 19 xin bắt đầu báo cáo nội dung dự án của chúng tôi. Chúng tôi đã chia nó thành 6 phần. Nội
dung chính của các phần chủ yếu bao gồm dữ liệu (những gì chúng tôi thu thập), phương pháp, toán
học (những gì chúng tôi quyết định áp dụng), mã và biểu đồ (những gì chúng tôi đã tạo). , dự đoán
và thảo luận sau khi kết quả được đưa ra. Tất nhiên đây là một vấn đề trong in 3D, vì vậy báo cáo sẽ
nhấn mạnh mối tương quan giữa các cài đặt máy in cụ thể và các tính chất cơ học của các đối tượng
in. Những phát hiện này không chỉ góp phần hiểu sâu hơn về động lực in 3D mà còn mở đường cho
các kỹ thuật in hiệu quả và chính xác hơn trong lĩnh vực kỹ thuật cơ khí. Nghiên cứu trong tương
lai có thể khám phá thêm sự tương tác giữa các thông số in bổ sung và nhiều loại vật liệu hơn để
mở rộng những hiểu biết này
Tóm lại, dự án này là một nghiên cứu phân tích kiểm tra các cài đặt khác nhau của máy in 3D ảnh
hưởng đến các tính chất vật lý của vật liệu in như thế nào. Nó sử dụng các phương pháp thống kê để
phân tích và dự đoán việc sử dụng vật liệu dựa trên các thông số in khác nhau.
Bên cạnh đó, chúng tôi chân thành cảm ơn thầy Nguyễn Tiến Dũng đã nhiệt tình giảng dạy và hỗ
trợ chúng tôi trong suốt quá trình thực hiện. Tuy nhiên, trong quá trình này, chúng tôi chắc chắn
không thể tránh khỏi những thiếu sót, vì vậy chúng tôi rất mong nhận được những ý kiến đóng góp
và thông cảm từ bạn đọc.
MỤC LỤC
1. GIỚI THIỆU DỮ LIỆU ......................................................................................................5

2. BỐI CẢNH ................................................................................................................. 6

2.1. KHÁM PHÁ PHÂN TÍCH DỮ LIỆU


(EDA)................................................................................................. 6

2.2. HỒI QUY


LOGISTIC....................................................................................................................... 7

2.2.1 GIỚI THIỆU


.................................................................................................................................... 7

2.2.2 ĐÁNH
GIÁ......................................................................................................................................... 9

2.3 CÂY QUYẾT


ĐỊNH........................................................................................................................................ 10

3. THỐNG KÊ MÔ TẢ......................................................................................................................
10

3.1 ĐỌC DỮ
LIỆU....................................................................................................................................... 10

3.2 LÀM SẠCH DỮ


LIỆU..................................................................................................................................... 12

3.3 GIẢI MÃ DỮ
LIỆU.................................................................................................................................. 12

3.4 TRỰC QUAN HÓA DỮ


LIỆU......................................................................................................................... 13

4. THỐNG KÊ SUY
LUẬN........................................................................................................................ 22

4.1 XÓA
OUTLIER................................................................................................................................... 22

4.3 HỒI QUY


LOGISTIC......................................................................................................................... 24

4.3.1 TÁCH DỮ
LIỆU................................................................................................................................... 24

4.3.2 HỒI QUY


LOGISTIC....................................................................................................................... 24

4.3.3 MÔ HÌNH HỒI QUY LOGISTIC ĐIỀU CHỈNH


PCA..................................................................... 26
4.3.4 DỰ
ĐOÁN..............................................................................................................................................
28

5 THẢO LUẬN VÀ MỞ
RỘNG................................................................................................................ 29

5.1 HỒI QUY


LOGISTIC........................................................................................................................... 29

5.1.1 ƯU
ĐIỂM........................................................................................................................................... 29

5.1.2 NHƯỢC
ĐIỂM.................................................................................................................................... 30

5.2 GIA HẠN: CÂY QUYẾT


ĐỊNH................................................................................................................. 30

6 . MÃ VÀ NGUỒN DỮ
LIỆU......................................................................................................................... 34
BẢNG HÌNH

Hình 1. sigmoid chức năng 7


Hình 2. thực tế và nhãn lớp dự đoán 8
Hình 3. quyết định cây 9
Hình 4. dữ liệu cài 10
Hình 5. Hấp Tập dữ liệu 10
Hình 6. dữ liệu Bộ chất lượng sản phẩm 11
Hình 7. Biểu đồ tần suất chiều cao lớp 11
Hình 8. Biểu đồ độ dày
thành................................................................................................................................................. 11
Hình 9. Biểu đồ mật độ
xót.................................................................................................................................................... 12
Hình 10. Biểu đồ nhiệt độ vòi
phun....................................................................................................................................... 12
Hình 11. Biểu đồ nhiệt độ
giường............................................................................................................................................ 13
Hình 12. Biểu đồ tần suất tốc độ
in...................................................................................................................................................... 13
Hình 13. Biểu đồ tốc độ
quạt......................................................................................................................................................... 14
Hình 14. biểu đồ độ
nhám........................................................................................................................................................ 14
Hình 15. Biểu đồ độ căng
thẳng............................................................................................................................................... 15
Hình 16. biểu đồ độ giãn
dài........................................................................................................................................................ 16
Hình 17. Hình hộpCốt
truyện.............................................................................................................................................................................. 18
Hình 18 phân chia dữ
liệu...................................................................................................................................................................................
19
Nhóm 19 Xác suất và thống kê

1. Giới thiệu dữ liệu

Bộ dữ liệu này đến từ nghiên cứu của khoa Kỹ thuật Cơ khí Đại học TR / Selcuk.

Mục đích của nghiên cứu là xác định bao nhiêu thông số điều chỉnh trong máy in 3D
ảnh hưởng đến chất lượng, độ chính xác và độ bền in. Trong đó có chín thông số cài
đặt và ba thông số đầu ra được đo:

- Thông số cài đặt:


- Chiều cao lớp (mm)
- Độ dày thành (mm)
- Mật độ nạp (%)
- Mẫu Infill ()
- Nhiệt độ vòi phun (Cº)
- Nhiệt độ giường (Cº)
- Tốc độ in (mm/s)
- Vật liệu
- Tốc độ quạt (%)
- Thông số đầu ra: (Đo)
- Độ nhám (μm)
- Căng thẳng (cuối cùng) Sức mạnh (MPa)
- Độ giãn dài (%)

Công việc này dựa trên cài đặt và dây tóc máy in 3D Ultimaker S5. Các thử nghiệm
vật liệu và độ bền được thực hiện trên máy thử nghiệm Sincotec GMBH có khả năng
kéo 20 kN.

Ở đây chúng tôi cố gắng ước tính vật liệu nào được sử dụng từ các tham số đầu vào và
đầu ra bằng cách sử dụng các thuật toán cây quyết định và hồi quy logistic.

2. Bối cảnh

2.1. Khám phá phân tích dữ liệu (EDA)

Phân tích dữ liệu thăm dò (EDA) đề cập đến phương pháp nghiên cứu và khám phá
các bộ hồ sơ để nắm bắt các đặc điểm nổi bật của chúng, khám phá các mẫu, xác định

1
Nhóm 19 Xác suất và thống kê

vị trí ngoại lệ và xác định mối quan hệ giữa các biến. EDA thường được thực hiện như
một bước sơ bộ trước khi thực hiện các phân tích hoặc mô hình thống kê chính thức
bổ sung.

Các mục tiêu quan trọng nhất của EDA:

1. Làm sạch dữ liệu: EDA liên quan đến việc kiểm tra thông tin để tìm lỗi,
thiếu giá trị và sự không nhất quán. Nó bao gồm các kỹ thuật bao gồm gán hồ sơ, quản
lý số liệu thống kê còn thiếu, tìm ra và loại bỏ các ngoại lệ.

2. Thống kê mô tả: EDA sử dụng các bản ghi chính xác để nhận ra xu hướng,
tính biến đổi và phân phối quan trọng của các biến. Các biện pháp như gợi ý, trung vị,
chế độ, độ lệch ưa thích, phạm vi và phân vị thường được sử dụng.

3. Trực quan hóa dữ liệu: EDA sử dụng các kỹ thuật trực quan để thể hiện số
liệu thống kê bằng đồ họa. Trực quan hóa bao gồm biểu đồ, biểu đồ hộp, biểu đồ phân
tán, biểu đồ đường, bản đồ nhiệt và biểu đồ thanh hỗ trợ xác định kiểu, xu hướng và
mối quan hệ trong các sự kiện.

4. Kỹ thuật tính năng: EDA cho phép khám phá các biến khác nhau và điều
chỉnh chúng để tạo ra các chức năng mới hoặc rút ra những hiểu biết có ý nghĩa. Kỹ
thuật tính năng có thể chứa tỷ lệ, chuẩn hóa, binning, mã hóa các biến thể hiện và tạo
các biến tương tác hoặc dẫn xuất.

5. Tương quan và Mối quan hệ: EDA cho phép khám phá các mối quan hệ và
sự phụ thuộc giữa các biến. Các kỹ thuật như phân tích tương quan, biểu đồ phân tán
và lập bảng vượt qua cung cấp cái nhìn sâu sắc về sức mạnh và hướng của mối quan
hệ giữa các biến.

2.2. Hồi quy logistic

2.2.1 Giới thiệu

Mô hình hồi quy logistic là một mô hình hồi quy áp dụng hàm "sigmoid" để dự đoán
các giá trị đầu ra rời rạc y tương ứng với vectơ đầu vào x. Điều này tương đương với
việc phân loại đầu vào x thành các nhóm y tương ứng.

Hàm sigmoid là một hàm toán học có đường cong hình chữ "S" đặc trưng hoặc đường

2
Nhóm 19 Xác suất và thống kê

cong sigmoid

Sự khác biệt rõ ràng nhất giúp chúng ta phân biệt xem một vấn đề nên sử dụng mô
hình hồi quy logistic hay các loại mô hình hồi quy khác là biến đích của vấn đề đó.
Một biến mục tiêu y thường có hai dạng chính: định tính hoặc định lượng.

- Đối với biến mục tiêu định lượng liên tục, bài toán thường áp dụng mô hình
hồi quy tuyến tính, bao gồm hồi quy tuyến tính đơn biến và đa biến

- Đối với biến mục tiêu định tính rời rạc, bài toán chủ yếu áp dụng mô hình hồi
quy logistic. Đặc biệt:

- Chúng ta có phương pháp Nominal Logistic Regression tương ứng với


biến đích như một biến danh nghĩa. Ví dụ, một bài toán để phân loại nghề
nghiệp bao gồm Bác sĩ, Kỹ sư, Nhà khoa học.

- Chúng ta có phương pháp Ordinal Logistic Regression tương ứng với


biến đích như một biến thứ tự. Ví dụ, một bài toán để phân loại thành tích bao
gồm Thứ nhất, Thứ hai, Thứ ba.

- Chúng ta có phương pháp Binary Logistic Regression tương ứng với


biến đích như một biến thay thế (còn được gọi là biến nhị phân). Đây được gọi

3
Nhóm 19 Xác suất và thống kê

là biến nhị phân vì đầu ra của nó chỉ có thể xảy ra trong một trong hai trường
hợp. Ví dụ: phân loại giới tính là Nam hoặc Nữ. Nó không thể là cả hai và nó
không thể không có bất kỳ giới tính nào.

Công thức cho hồi quy logistic là

2.2.2. Đánh giá

Để đánh giá mô hình hồi quy, chúng ta có thể sử dụng ma trận nhầm lẫn. Ma trận
nhầm lẫn là một bảng được sử dụng để đánh giá hiệu suất của một mô hình phân loại
trong các bài toán phân loại. Nó thể hiện mối quan hệ giữa các nhãn lớp thực tế và các
nhãn lớp được dự đoán bởi mô hình.

- True Positive (TP): Các trường hợp mà các ví dụ dương tính thực sự
được dự đoán chính xác là dương tính.
- Dương tính giả (FP): Các trường hợp trong đó các ví dụ âm tính thực sự
được dự đoán không chính xác là dương tính.

4
Nhóm 19 Xác suất và thống kê

- True Negative (TN): Các trường hợp mà các ví dụ âm tính thực sự được
dự đoán chính xác là âm tính.
- Âm tính giả (FN): Các trường hợp trong đó các ví dụ dương tính thực sự
được dự đoán không chính xác là âm tính.

Ma trận nhầm lẫn giúp đánh giá hiệu suất của mô hình phân loại bằng cách tính toán
các số liệu khác nhau như:

- Độ chính xác: Tỷ lệ TP và TN trên tổng số điểm dữ liệu.


- Độ chính xác: Tỷ lệ TP với TP + FP.
- Thu hồi hoặc Độ nhạy: Tỷ lệ TP với TP + FN.
- Điểm F1: Trung bình hài hòa của các giá trị chính xác và thu hồi.

Điểm chính xác đo lường mức độ tốt của một mô hình phân loại có thể hạn chế các dự
đoán dương tính giả và đưa ra dự đoán tích cực chính xác. Điểm số chính xác cao chỉ
ra rằng ít dự đoán dương tính giả được đưa ra hơn và phần lớn các dự đoán tích cực
thực sự là dương tính thật.

Điểm chính xác là một số liệu đánh giá quan trọng, đặc biệt là trong các vấn đề phân
loại mất cân bằng và các tình huống mà chi phí dự đoán dương tính giả cao và giảm
thiểu dự đoán dương tính giả là rất quan trọng.

2.3. Cây quyết định

Cây quyết định là một mô hình học tập có giám sát có thể được áp dụng cho cả vấn đề
phân loại và hồi quy. Tuy nhiên, mô hình này hiệu quả và phổ biến hơn cho các vấn
đề phân loại. Cây quyết định được trình bày dưới dạng sơ đồ với cấu trúc cây, bao
gồm các thành phần sau:

- Các nút lá là các nút không có con chứa nhãn lớp đại diện cho loại điểm dữ
liệu được phân loại dựa trên các thuộc tính được phân tích.
- Các nút bên trong là các nút có ít nhất hai con đại diện cho một tiêu chí,
thường được gọi là thuộc tính, để đánh giá. Các thuộc tính có thể được phân
loại, chẳng hạn như màu sắc, đẹp hoặc xấu và liên tục, chẳng hạn như chiều
dài, khối lượng, nhiệt độ, v.v.
- Nút gốc là nút không có cha mẹ (nút nội bộ đầu tiên).

5
Nhóm 19 Xác suất và thống kê

- Các nhánh là các đường kết nối các nút đại diện cho giá trị của một thuộc tính.
Các đường dẫn từ nút gốc qua các nút và nhánh bên trong đến các nút lá đại
diện cho các quy tắc phân loại.

Xây dựng cây quyết định trên một bộ dữ liệu đào tạo nhất định liên quan đến việc xác
định các câu hỏi và thứ tự của chúng. Các câu hỏi thường được áp dụng cho từng
thuộc tính hoặc kết hợp tuyến tính các thuộc tính, nhưng cách tiếp cận đầu tiên phổ
biến hơn do tính đơn giản của nó. Các câu hỏi thường ở dạng: Nó thuộc thể loại nào?
(đối với các thuộc tính phân loại) hoặc Nó rơi vào phạm vi nào? (đối với thuộc tính
liên tục). Thứ tự của các câu hỏi sẽ được sắp xếp sao cho hoạt động dự đoán tiếp theo
sẽ chính xác và nhanh nhất có thể.

3. Thống kê mô tả

3.1. Đọc dữ liệu

Nhập dữ liệu từ tệp CSV

Tên tập tin: data.csv

6
Nhóm 19 Xác suất và thống kê

3.2. Làm sạch dữ liệu

Trước tiên chúng ta kiểm tra thống kê giá trị còn thiếu của từng biến để xử lý thêm

- Từ kết quả trên, không có giá trị nào bị thiếu trong tập dữ liệu

3.3. Mô tả dữ liệu

Chúng tôi sẽ tính toán một số giá trị thống kê của biến liên tục như đếm, trung bình,
độ lệch chuẩn, tối thiểu, Q1, Q2, Q3 và tối đa

Như chúng ta có thể thấy:

- layer_height: Chiều cao lớp thể hiện độ dày của mỗi lớp được in bởi máy in
3D. Chiều cao lớp trung bình trong tập dữ liệu là 0,106mm, với độ lệch chuẩn

7
Nhóm 19 Xác suất và thống kê

là 0,0644mm, cho thấy sự thay đổi đáng kể. Chiều cao lớp tối thiểu là 0,02mm,
trong khi tối đa là 0,2mm. Phạm vi rộng này cho thấy bộ dữ liệu bao gồm một
loạt các độ phân giải in, từ các bản in rất mịn đến tương đối thô.
- wall_thickness: Độ dày thành đề cập đến độ dày của vỏ ngoài của vật thể in
3D. Bộ dữ liệu có độ dày thành trung bình là 5,22mm và độ lệch chuẩn là
2,9227mm. Sự thay đổi này ngụ ý một loạt các đối tượng với các mức độ sức
mạnh cấu trúc khác nhau. Độ dày thành tối thiểu là 1mm và tối đa là 10mm,
cho biết tập dữ liệu bao gồm các đối tượng có cả tường mỏng và dày.
- infill_density: Mật độ lấp đầy là tỷ lệ phần trăm bên trong vật thể được lấp đầy
bằng vật liệu. Mật độ lấp đầy trung bình trong tập dữ liệu là 53,4%, với độ lệch
chuẩn là 25,3635%. Phạm vi trải dài từ tối thiểu 10% đến tối đa 90%, làm nổi
bật sự đa dạng của cấu trúc bên trong của các đối tượng trong tập dữ liệu, từ
thưa thớt đến gần như rắn.
- nozzle_temperature: Nhiệt độ vòi phun đề cập đến nhiệt độ mà dây tóc được
ép đùn. Bộ dữ liệu cho thấy nhiệt độ vòi phun trung bình là 221,5 ° C và độ
lệch chuẩn là 14,8204 ° C. Giá trị tối thiểu là 200 ° C và tối đa là 250 ° C.
Phạm vi này cho thấy tập dữ liệu bao gồm nhiều loại vật liệu với các điểm
nóng chảy khác nhau, có thể ảnh hưởng đến chất lượng in và tính chất đối
tượng.
- bed_temperature: Nhiệt độ giường là nhiệt độ của nền tảng xây dựng nơi đối
tượng được in. Nhiệt độ giường trung bình trong tập dữ liệu là 70 ° C, với độ
lệch chuẩn là 7,1429 ° C. Giá trị tối thiểu là 60 ° C và tối đa là 80 ° C, cho thấy
phạm vi nhiệt độ giường tương đối hẹp. Điều này cho thấy rằng bộ dữ liệu chủ
yếu bao gồm các vật liệu tuân thủ tốt nền tảng xây dựng trong phạm vi nhiệt độ
này.
- print_speed: Tốc độ in là tốc độ mà vòi phun di chuyển trong khi ép đùn vật
liệu. Bộ dữ liệu có tốc độ in trung bình là 64mm / s, với độ lệch chuẩn là
29,6923mm / s. Phạm vi trải dài từ tối thiểu 40mm / s đến tối đa 120mm / s, có
nghĩa là bộ dữ liệu bao gồm nhiều tốc độ in khác nhau, từ in chậm và chính xác
đến nhanh và có khả năng kém chính xác hơn.

8
Nhóm 19 Xác suất và thống kê

- fan_speed: Tốc độ quạt là tốc độ hoạt động của quạt làm mát, ảnh hưởng đến
tốc độ làm mát của vật liệu in. Tốc độ quạt trung bình là 50%, với độ lệch
chuẩn là 35,7143%. Tập dữ liệu dao động từ tối thiểu 0% (không làm mát) đến
tối đa 100% (làm mát tối đa), cho thấy tập dữ liệu bao gồm nhiều chiến lược
làm mát khác nhau có thể ảnh hưởng đến chất lượng in và thuộc tính đối tượng.
- độ nhám: Độ nhám đo chất lượng bề mặt của đối tượng in. Tập dữ liệu có giá
trị độ nhám trung bình là 170,58, với độ lệch chuẩn là 99,0341. Giá trị độ nhám
tối thiểu là 21, trong khi tối đa là 368. Phạm vi rộng này cho thấy tập dữ liệu
bao gồm các đối tượng có chất lượng bề mặt khác nhau, từ mịn đến thô.
- tension_strength: Độ bền căng là điện trở của vật thể in đối với lực tác dụng
trong lực căng. Cường độ căng trung bình trong tập dữ liệu là 20,08, với độ
lệch chuẩn là 8,9256. Giá trị tối thiểu là 4 và tối đa là 37, cho biết tập dữ liệu
bao gồm các đối tượng có nhiều độ bền kéo, từ tương đối yếu đến mạnh.
- Độ giãn dài: Độ giãn dài đo mức độ biến dạng mà một vật thể in gặp phải
trước khi bị phá vỡ dưới sức căng. Tập dữ liệu có giá trị kéo dài trung bình là
1,672, với độ lệch chuẩn là 0,7882. Giá trị tối thiểu là 0,4 và tối đa là 3,3. Phạm
vi này chỉ ra rằng tập dữ liệu bao gồm các đối tượng có mức độ đàn hồi khác
nhau, từ tương đối cứng đến rất linh hoạt.

Bộ dữ liệu bao gồm một loạt các giá trị cho mỗi tham số, thể hiện sự đa dạng của cài
đặt in 3D và tác động của chúng đối với các đối tượng in. Sự thay đổi này đặc biệt rõ
ràng trong các thông số như chiều cao lớp, độ dày thành, mật độ nạp, tốc độ in và độ
bền căng.

Đối với biến xác suất, chúng ta sẽ đếm tần số của từng giá trị

9
Nhóm 19 Xác suất và thống kê

infill_patern

vật liệu

- Ví infill_patern, có 25 bản ghi trên 50 có giá trị "lưới" và những bản ghi khác
là "tổ ong"
- Đối với vật liệu cũng vậy. Phân phối này cho thấy tập dữ liệu được cân bằng,
tất cả các giá trị trong nhãn có cùng tần số. Đây là một khía cạnh quan trọng
cần xem xét khi xây dựng các mô hình dự đoán hoặc tiến hành phân tích sâu
hơn về dữ liệu.

3.4. Trực quan hóa dữ liệu

Chúng ta sẽ vẽ biểu đồ tần suất của tất cả các biến để xem sự phân bố của từng biến

10
Nhóm 19 Xác suất và thống kê

Phân tích biểu đồ tần suất của các giá trị layer_height cho thấy sự phân bố
đồng đều, với mỗi giá trị duy nhất xảy ra với tần số bằng nhau. Điều này cho
thấy rằng chiều cao lớp 0,05, 0,10, 0,15, 0,2 và 0,20 được sử dụng nhất quán và
với cùng một sở thích hoặc yêu cầu. Không có sự thiên vị rõ ràng đối với chiều
cao lớp mịn hơn hoặc thô hơn trong tập dữ liệu nhất định.

Biểu đồ của các giá trị wall_thickness cho thấy phân phối không đồng đều với
phạm vi từ 1 đến 10. Giá trị thường xuyên nhất là 1, xảy ra 10 lần và giá trị phổ
biến nhất tiếp theo là 10, xảy ra 6 lần. Các giá trị trung gian có tần số khác
nhau, với các giá trị như 4 và 6 xuất hiện thường xuyên hơn các giá trị khác như
8 và 9. Điều này cho thấy sự ưu tiên cho độ dày thành nhất định trong tập dữ
liệu, với xu hướng cực đoan của phạm vi.
11
Nhóm 19 Xác suất và thống kê

Biểu đồ infill_density, với các giá trị nằm trong khoảng từ 10 đến 90, cho thấy sự
phân bố tần số khác nhau. Mật độ thấm phổ biến nhất là 50, xảy ra 4 lần, cho thấy sự
ưu tiên mạnh mẽ đối với mật độ tầm trung. Mật độ cao như 40 và 80 cũng khá thường
xuyên, với 10 và 8 lần xuất hiện tương ứng, cho thấy xu hướng hướng tới các bộ phận
mạnh hơn. Mật độ thấp hơn (20 và 60) ít được ưa thích nhất, chỉ có 5 và 2 lần xuất
hiện. Nhìn chung, biểu đồ cho thấy ưu tiên cho mật độ lấp đầy từ trung bình đến cao,
với tần số cao nhất tập trung vào các giá trị trung bình và trên, cho thấy sự tập trung
tiềm năng vào độ bền và độ bền của bộ phận trong tập dữ liệu.

Biểu đồ cho nozzle_temperature cho thấy sự phân bố đồng đều cho hầu hết các giá
trị nhiệt độ, mỗi giá trị có tần số là 5, ngoại trừ 220, có tần số là 10. Điều này cho thấy
sở thích chung đối với một phạm vi nhiệt độ khi đặt vòi phun, đặc biệt nhấn mạnh vào
220 độ, phổ biến gấp đôi so với bất kỳ nhiệt độ nào khác trong tập dữ liệu. Dữ liệu

12
Nhóm 19 Xác suất và thống kê

cho thấy rằng trong khi nhiều loại nhiệt độ được sử dụng, 220 độ có thể được coi là
cài đặt tối ưu cho phần lớn các nhiệm vụ hoặc tài liệu liên quan đến tập dữ liệu này.

Biểu đồ cho bed_temperature cho thấy sự phân bố hoàn toàn đồng đều trên các giá
trị nhiệt độ 60, 65, 70, 75 và 80, mỗi giá trị có tần số 10. Điều này chỉ ra rằng không
có ưu tiên cụ thể cho nhiệt độ giường trong phạm vi nhất định; Tất cả nhiệt độ đều
được sử dụng như nhau. Tính đồng nhất cho thấy nhiệt độ giường có thể không phải là
yếu tố khác biệt trong tập dữ liệu này hoặc nó phù hợp như nhau trên các bản in hoặc
vật liệu khác nhau.

Biểu đồ tần suất cho các giá trị print_speed cho thấy ưu tiên tốc độ in chậm hơn, với
40 và 60 mm / s đều xảy ra 20 lần mỗi lần, trong khi tốc độ nhanh nhất, 120 mm / s,
xảy ra thường xuyên bằng một nửa, với tần suất 10. Điều này cho thấy tốc độ in chậm
hơn được ưa chuộng trong tập dữ liệu, có khả năng cải thiện chất lượng in hoặc độ

13
Nhóm 19 Xác suất và thống kê

bám dính tốt hơn, trong khi tốc độ nhanh hơn ít phổ biến hơn, có thể do sự đánh đổi
với chất lượng in hoặc khả năng của máy.

Biểu đồ cho fan_speed hiển thị phân phối đồng đều trên phạm vi giá trị từ 0 đến 100,
với mỗi tốc độ quạt xảy ra 10 lần. Điều này cho thấy rằng tất cả các tốc độ quạt đều
được sử dụng như nhau trong tập dữ liệu, cho thấy không có ưu tiên cụ thể nào cho cài
đặt tốc độ quạt cụ thể. Việc sử dụng bình đẳng trên phổ có thể ngụ ý rằng các tốc độ
quạt khác nhau được chọn dựa trên các yêu cầu in khác nhau hoặc để phù hợp với các
vật liệu hoặc hình học khác nhau.

Dữ liệu độ nhám thể hiện phạm vi rộng từ 0 đến 400, với hầu hết các giá trị là duy
nhất, cho thấy sự khác biệt lớn về chất lượng hoàn thiện bề mặt giữa các bản in. Sự
hiện diện của một vài giá trị độ nhám xảy ra nhiều hơn một lần cho thấy một số điểm

14
Nhóm 19 Xác suất và thống kê

chung trong điều kiện in hoặc phản ứng vật liệu. Tuy nhiên, sự đa dạng tổng thể trong
dữ liệu chỉ ra sự thiếu nhất quán trong việc đạt được độ hoàn thiện bề mặt cụ thể, có
thể phản ánh một loạt các công việc in với các yêu cầu chất lượng khác nhau hoặc ảnh
hưởng của nhiều yếu tố ảnh hưởng đến kết quả độ nhám.

Biểu đồ tần suất cho các giá trị tension_strength cho thấy phân bố không đồng đều với
phạm vi từ 0 đến 40. Giá trị thấp hơn (0 đến 5) và giá trị cao hơn (35 đến 40) ít thường
xuyên hơn, thường chỉ xảy ra một hoặc hai lần. Có sự gia tăng đáng chú ý về tần số
cho các giá trị trong phạm vi trung bình (10 đến 25), với các đỉnh ở 10, 15, 20 và 25,
mỗi giá trị xảy ra 7 hoặc 8 lần. Điều này cho thấy sự ưu tiên cho các giá trị cường độ
căng tầm trung trong tập dữ liệu, chỉ ra rằng các giá trị này có thể tối ưu cho sự cân
bằng mong muốn giữa cường độ và việc sử dụng vật liệu hoặc khả năng in.

15
Nhóm 19 Xác suất và thống kê

Biểu đồ cho các giá trị độ giãn dài cho thấy phân phối không đồng đều với các giá trị
nằm trong khoảng từ 0,0 đến 3,5. Các tần số thường thấp đối với cấp thấp hơn (0,0
đến 0,5) và cấp rất cao (1,0 đến 1,5), với hầu hết các giá trị chỉ xảy ra một hoặc hai
lần. Có sự xuất hiện cao hơn của các giá trị trong phạm vi trung bình (0,5 đến 2,0), với
các đỉnh ở mức 1,0 và 1,5, mỗi giá trị xảy ra 9 lần, cho thấy sự ưu tiên cho các giá trị
độ giãn dài vừa phải. Dữ liệu chỉ ra rằng trong khi một loạt các giá trị độ giãn dài
được sử dụng, có xu hướng ủng hộ những giá trị cung cấp sự cân bằng giữa tính linh
hoạt và tính chất vật liệu, như được biểu thị bằng tần số cao hơn trong các giá trị tầm
trung.

16
Nhóm 19 Xác suất và thống kê

Trong bước tiếp theo, chúng ta sẽ vẽ biểu đồ cặp của tất cả các biến và tính toán mối
tương quan của chúng

Hình vẽ cho thấy không có mối tương quan trực tiếp giữa "vật liệu" biến phụ thuộc
của chúng ta và các biến độc lập khác. Điều này có nghĩa là chúng ta có thể sử dụng
tất cả các biến độc lập làm nguồn thông tin để phân loại.

17
Nhóm 19 Xác suất và thống kê

4. Thống kê suy luận

4.1. Loại bỏ ngoại lệ

Đầu tiên, chúng ta sẽ sử dụng boxplot để xác định xem biến có điểm ngoại lệ hay
không.

Như chúng ta có thể thấy, 8 trên 9 biến không có điểm ngoại lệ (Ngoại trừ
print_speed)

Ngoại lệ có thể gây ra không chính xác cho mô hình của chúng tôi, vì vậy chúng tôi
nên loại bỏ nó. Biến tốc độ in có giá trị 120 là ngoại lệ. Tuy nhiên, có 10/50 bản ghi

18
Nhóm 19 Xác suất và thống kê

có giá trị này

Chúng tôi coi đây là điểm đặc biệt và điểm này có thể có tầm quan trọng đáng kể đối
với mô hình của chúng tôi. Vì vậy, chúng tôi không loại bỏ chúng

4.3. Hồi quy Logistic

4.3.1. Chia tách dữ liệu

- Chúng tôi muốn dự đoán là khách quan, vì vậy chúng tôi sẽ tách dữ liệu thành
2 tập hợp con: 90% đầu tiên sử dụng cho mô hình đào tạo, 10% còn lại sử dụng
để dự đoán

Bộ xe lửa

Bộ thử nghiệm

4.3.2. Hồi quy Logistic

19
Nhóm 19 Xác suất và thống kê

Mô hình hồi quy logistic ở trên được xây dựng để dự đoán kết quả vật chất dựa trên
các yếu tố dự đoán khác nhau. Mô hình được trang bị bằng cách sử dụng họ nhị thức,
phù hợp với các biến kết quả nhị phân.

Như chúng ta có thể thấy:

- Hệ số:
- Các hệ số của mô hình cho thấy sự thay đổi tỷ lệ cược nhật ký của kết
quả đối với thay đổi một đơn vị trong biến dự đoán, giữ tất cả các biến
khác không đổi. Tuy nhiên, tất cả các biến dự đoán trong mô hình đều
có sai số tiêu chuẩn cực lớn so với ước tính hệ số của chúng, điều này
cho thấy mô hình có thể rất không ổn định hoặc thiếu dữ liệu để hỗ trợ
các ước tính. Điều này được chứng minh thêm bằng các giá trị z là 0 và

20
Nhóm 19 Xác suất và thống kê

giá trị p là 1 cho tất cả các yếu tố dự đoán, cho thấy rằng không có yếu
tố dự đoán nào có ý nghĩa thống kê ở bất kỳ mức thông thường nào.
- Việc chặn, đại diện cho tỷ lệ cược nhật ký của kết quả khi tất cả các yếu
tố dự đoán bằng không, cũng không có ý nghĩa thống kê, với sai số tiêu
chuẩn rất lớn.
- Trong phân tích hồi quy logistic, biến fan_speed đã bị loại trừ khỏi mô hình
cuối cùng, như được biểu thị bằng các giá trị NA cho cả ước tính hệ số và sai
số tiêu chuẩn của nó. Sự vắng mặt của biến này thường là dấu hiệu của các vấn
đề cơ bản với dữ liệu ngăn cản việc sử dụng nó trong mô hình. Điều này có thể
là do một hiện tượng được gọi là multicollinearity, trong đó 'fan_speed' có
tương quan hoàn hảo với một hoặc nhiều yếu tố dự đoán khác, dẫn đến dự
phòng và khó tính toán. Một khả năng khác là sự xuất hiện của sự tách biệt
hoàn toàn, trong đó fan_speed phân biệt hoàn hảo giữa các kết quả, dẫn đến
ước tính khả năng tối đa không xác định.
- Mô hình phù hợp: Độ lệch null và độ lệch còn lại cho biết mô hình phù hợp với
dữ liệu như thế nào. Độ lệch null cho thấy sự phù hợp của một mô hình chỉ với
sự đánh chặn, trong khi độ lệch còn lại cho thấy sự phù hợp của mô hình với tất
cả các yếu tố dự đoán. Trong trường hợp này, độ lệch còn lại là cực kỳ thấp,
điều này có thể cho thấy sự phù hợp tốt. Tuy nhiên, với các vấn đề với các hệ
số, điều này có thể gây hiểu nhầm.

Nhìn chung, kết quả của mô hình hồi quy logistic này nên được diễn giải một cách
thận trọng. Việc thiếu ý nghĩa thống kê, sự hiện diện của các điểm kỳ dị và các lỗi tiêu
chuẩn lớn cho thấy mô hình có thể không đáng tin cậy. Điều tra thêm về dữ liệu và có
khả năng sửa đổi mô hình có thể là cần thiết để đạt được kết quả mạnh mẽ và dễ hiểu
hơn.

4.3.3. Mô hình hồi quy logistic điều chỉnh PCA

Để giải quyết tính đa collinearity tiềm năng và giảm tính chiều của tập dữ liệu của
chúng tôi, Phân tích thành phần chính (PCA) đã được sử dụng trước khi phù hợp với
21
Nhóm 19 Xác suất và thống kê

mô hình hồi quy logistic. PCA là một kỹ thuật thống kê biến đổi các biến tương quan
ban đầu thành một tập hợp các biến không tương quan mới được gọi là các thành phần
chính. Các thành phần này là sự kết hợp tuyến tính của các biến ban đầu và được sắp
xếp sao cho một vài biến đầu tiên giữ lại hầu hết các biến thể có trong tất cả các biến
ban đầu.

Mô hình hồi quy logistic đã được trang bị lại bằng cách sử dụng các thành phần
chính có nguồn gốc từ các biến dự đoán ban đầu để giải quyết tính đa hướng và giảm
tính chiều. Các hệ số của mô hình hiện đại diện cho mối quan hệ giữa vật liệu biến kết
quả và các thành phần chính (PC) thay vì các yếu tố dự đoán ban đầu.

Như chúng ta có thể thấy:

22
Nhóm 19 Xác suất và thống kê

- Hệ số: Các hệ số mô hình cho các thành phần chính (PC1 đến PC6) và
infill_pattern1 cho thấy mức độ ảnh hưởng khác nhau đến kết quả dự đoán:
- PC4 cho thấy mối quan hệ tiêu cực có ý nghĩa thống kê với kết quả (p =
0,0436), chỉ ra rằng khi PC4 tăng, tỷ lệ cược nhật ký của kết quả giảm.
- Ý nghĩa tiếp cận PC1 và PC5 (p = 0,0846 và p = 0,0632, tương ứng),
cho thấy mối quan hệ tiềm năng nhưng không dứt khoát với kết quả.
- Các thành phần chính còn lại (PC2, PC3 và PC6) và infill_pattern1
không có ý nghĩa thống kê ở mức 0,05, cho thấy mối quan hệ yếu hơn
hoặc không tồn tại với kết quả trong mô hình này.
- Độ lệch rỗng đã giảm từ 62.361 trên 44 bậc tự do xuống độ lệch còn lại là
11.690 trên 37 bậc tự do. Sự giảm này chỉ ra rằng mô hình với các thành
phần chính cung cấp sự phù hợp tốt hơn với dữ liệu so với mô hình chỉ có
chặn.

Mô hình hồi quy logistic được điều chỉnh PCA chứng minh rằng một số kết hợp nhất
định của các yếu tố dự đoán ban đầu, đặc biệt là PC4, có mối quan hệ đáng kể với kết
quả vật chất. Tuy nhiên, việc giải thích các thành phần chính này ít đơn giản hơn so
với việc giải thích các yếu tố dự đoán ban đầu, vì mỗi thành phần chính là sự kết hợp
tuyến tính của tất cả các biến ban đầu.

Hiệu suất dự đoán của mô hình đã được cải thiện so với mô hình null, như được biểu
thị bằng cách giảm độ lệch.

Điều quan trọng cần lưu ý là trong khi PCA có thể giúp giải quyết multicollinearity và
giảm overfitting, nó làm như vậy với chi phí diễn giải. Các thành phần chính không có
ý nghĩa vật lý trực tiếp và đại diện cho các mẫu cơ bản trong dữ liệu thay vì các biến
có thể đo lường cụ thể.

Tóm lại, mô hình hồi quy logistic được điều chỉnh bởi PCA cho thấy hứa hẹn trong
việc dự đoán kết quả vật chất, với một số thành phần chính đóng một vai trò quan
trọng. Tuy nhiên, ứng dụng thực tế của mô hình này sẽ đòi hỏi phải xem xét cẩn thận
do tính chất trừu tượng của các thành phần chính.

4.3.4. Dự đoán

23
Nhóm 19 Xác suất và thống kê

- Sau đó, chúng tôi sử dụng mô hình trên để dự đoán trên bộ thử nghiệm và
tính toán ma trận nhầm lẫn

- Từ kết quả, chúng tôi có


- TP = 3; TN = 2; FP = 0; FN = 0
- Độ chính xác = 100%
- Thu hồi = 100%
- Độ chính xác = 347/534 = 100%
- Điểm F1 = 100%
- Mô hình hồi quy logistic được điều chỉnh PCA thể hiện hiệu suất vượt trội, với
độ chính xác, độ chính xác, thu hồi và điểm F1 là 100%. Điều này chỉ ra rằng
mô hình có thể dự đoán hoàn hảo cả trường hợp tích cực và tiêu cực. Kết quả
như vậy có thể là do kích thước mẫu nhỏ. Để xác nhận thêm tính hiệu quả của
mô hình, chúng ta cần kiểm tra nó trên một tập dữ liệu lớn hơn

5. Thảo luận và mở rộng

5.1. Hồi quy logistic

5.1.1. Ưu điểm

24
Nhóm 19 Xác suất và thống kê

Đơn giản: Một trong những lợi ích chính của hồi quy logistic là tính đơn giản và dễ
hiểu, làm cho nó trở thành lựa chọn phổ biến cho các ứng dụng khác nhau, đặc biệt là
đối với người dùng có chuyên môn học máy hạn chế.

Đầu ra xác suất: Hồi quy logistic cung cấp ước tính xác suất cho mỗi lớp, cung cấp
thông tin có giá trị về mức độ chắc chắn liên quan đến mỗi dự đoán. Tính năng này
cho phép ra quyết định và đánh giá hiệu suất mô hình tốt hơn.

5.1.2. Nhược điểm

Khó khăn với dữ liệu mất cân bằng: Hồi quy logistic có thể gặp khó khăn khi xử lý
các bộ dữ liệu mất cân bằng, trong đó sự phân bố của các lớp đích bị sai lệch cao.
Trong những tình huống như vậy, mô hình có thể thiên về tầng lớp đa số, dẫn đến hiệu
suất dự đoán kém cho tầng lớp thiểu số

25
Nhóm 19 Xác suất và thống kê

5.2. Phần mở rộng: Cây quyết định

Tham số phức tạp (CP) là một thước đo được sử dụng để kiểm soát kích thước của cây
quyết định và để tránh quá tải. CP nhỏ hơn có thể dẫn đến một cây lớn hơn và ngược
lại. Cây có một sự phân chia đáng kể với CP là 0,7727273, sau đó sự cải thiện độ
chính xác của mô hình nhỏ hơn ngưỡng 0,01 cho các lần phân tách tiếp theo.

Việc phân tách đầu tiên được thực hiện trên nozzle_temperature, đây là biến quan
trọng nhất để chia dữ liệu. Sau lần chia tách đầu tiên, không có sự phân tách nào nữa
được thực hiện vì giá trị CP tiếp theo (0,01) không cung cấp đủ cải tiến.

Tầm quan trọng của các biến trong việc dự đoán kết quả như sau

Tính năng Tầm quan trọng

nozzle_temperature 56

Độ giãn dài 19

tension_strength 12

infill_density 6

26
Nhóm 19 Xác suất và thống kê

bed_temperature 3

wall_thickness 3

→ nozzle_temperature là yếu tố dự báo quan trọng nhất cho mô hình.

Nút 1 (Nút gốc)

- Chứa tất cả 45 quan sát.


- Lớp dự đoán là 0 với tổn thất dự kiến là 0,4888889, có nghĩa là nếu chúng ta dự
đoán lớp 0 cho tất cả các quan sát, chúng ta sẽ sai khoảng 48,89% thời gian.
- Số lượng lớp học gần như cân bằng với 23 cho lớp 0 và 22 cho lớp 1, với xác
suất lần lượt là 0,511 và 0,489.
- Sự phân tách chính là trên nozzle_temperature ở ngưỡng 217,5.
- Phân tách thay thế được cung cấp trong trường hợp biến phân tách chính bị
thiếu. Chúng cũng cung cấp cái nhìn sâu sắc về mối quan hệ giữa các biến.

Cây quyết định đã xác định nozzle_temperature là yếu tố quan trọng nhất trong việc
xác định lớp vật chất. Cây tương đối đơn giản, chỉ có một sự phân tách đáng kể, có thể
có lợi cho khả năng diễn giải nhưng có thể không nắm bắt được tất cả sự phức tạp
trong dữ liệu.

- Từ kết quả, chúng tôi có

27
Nhóm 19 Xác suất và thống kê

- TP = 3; TN = 2; FP = 0; FN = 0
- Độ chính xác = 100%
- Thu hồi = 100%
- Độ chính xác = 347/534 = 100%
- Điểm F1 = 100%
- Hình dung kết quả trên

28
Nhóm 19 Xác suất và thống kê

Điều này được mô phỏng rằng chỉ với nozzle_temperature, cây quyết định có thể dự
đoán kết quả. Nó chỉ ra rằng tập dữ liệu nhỏ, do đó nó không cần sử dụng tất cả các
tính năng để dự đoán

6. MÃ VÀ NGUỒN DỮ LIỆU

Dự án này sử dụng dữ liệu từ tệp CSV 'data.csv' để phân tích cách cài đặt máy in 3D
ảnh hưởng đến chất lượng và độ bền của sản phẩm in. Dự án bao gồm xác định và xử
lý các giá trị bị thiếu, phân tích mô tả các biến liên tục và phân loại, và tạo biểu đồ tần
suất và biểu đồ phân tán để trực quan hóa dữ liệu. Các mô hình học máy bao gồm hồi
quy logistic và cây quyết định được xây dựng và đánh giá để dự đoán loại vật liệu dựa
trên cài đặt máy in. Công việc này giúp hiểu rõ hơn về mối quan hệ giữa thông số cài
đặt máy in và kết quả in, từ đó hướng đến tối ưu hóa quy trình in 3D.

29
Nhóm 19 Xác suất và thống kê

Kết thúc
Tóm lại, trong việc khám phá phân tích dữ liệu (EDA), mục tiêu chính là đạt được sự
hiểu biết toàn diện về các đặc điểm, mẫu, ngoại lệ và mối quan hệ biến của tập dữ
liệu. EDA liên quan đến các nhiệm vụ thiết yếu như làm sạch dữ liệu, thống kê mô tả,
trực quan hóa dữ liệu, kỹ thuật tính năng và khám phá các mối tương quan và mối
quan hệ. Các bước này góp phần chung vào việc chuẩn bị dữ liệu cho các phân tích và
mô hình thống kê nâng cao hơn. Quá trình phân tích dữ liệu bắt đầu bằng việc nhập dữ
liệu từ tệp CSV, tiếp theo là kiểm tra kỹ lưỡng các giá trị bị thiếu, được tìm thấy là
không có trong tập dữ liệu. Thống kê mô tả sau đó được tính toán cho các biến liên
tục, cung cấp cái nhìn sâu sắc về bản chất đa dạng của cài đặt in 3D và tác động của
chúng đối với các đối tượng in. Bộ dữ liệu thể hiện sự thay đổi đáng kể về các thông
số như chiều cao lớp, độ dày thành, mật độ độ, tốc độ in và độ bền căng. Trực quan
hóa dữ liệu thông qua biểu đồ làm sáng tỏ các mẫu phân phối của từng biến. Phân bố
đồng đều đã được quan sát về chiều cao lớp, nhiệt độ giường và tốc độ quạt, cho thấy
sở thích hoặc yêu cầu nhất quán. Phân phối không đồng đều trong các biến như độ dày
thành, mật độ thấm và cường độ căng đề xuất các ưu tiên cụ thể trong tập dữ liệu. Mô
hình hồi quy logistic được điều chỉnh bởi PCA cho thấy kết quả đầy hứa hẹn trong
việc dự đoán kết quả vật chất, với một số thành phần chính cho thấy mối quan hệ đáng
kể. Thông qua dự án này, nhóm tôi đã hiểu được các thuật toán quan trọng cho lĩnh
vực phân tích thống kê.

30
Nhóm 19 Xác suất và thống kê

THAM KHẢO

1. IBM. (2023, ngày 11 tháng 11). Phân tích dữ liệu thăm dò là gì? Lấy từ
https://www.ibm.com/topics/exploratory-data-analysis
2. IBM. (2023, ngày 11 tháng 11). Hồi quy logistic là gì? Lấy từ
https://www.ibm.com/topics/logistic-regression
3. Scikit-học. (n.d.). Cây quyết định. Truy cập từ https://scikit-
learn.org/stable/modules/tree.html (Truy cập: 11 tháng 11 năm 2023)
4. Chuyên viên máy tính cho Geeks. (n.d.). Cây quyết định. Truy cập từ
https://www.geeksforgeeks.org/decision-tree (Truy cập: 11 tháng 11 năm 2023)
5. Đơn giản hóa. (2023, ngày 11 tháng 11). Thống kê dữ liệu mô tả. Truy cập từ
https://www.simplilearn.com/what-is-descriptive-statistics-
article#:~:text=Descriptive%20statistics%20refers%20to%20a%20set%20of%20meth
ods%20used%20to,help%20identify%20patterns%20and%20relationships (Truy cập:
11 tháng 11 năm 2023)
6. Bhandari, P. (2020). Thống kê suy luận. Truy cập từ
https://www.scribbr.com/statistics/inferential-statistics (Truy cập: ngày 3 tháng 12
năm 2023)

31

You might also like