Nhóm 15 BTLXSTK

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 34

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.

HỒ CHÍ MINH
Chương trình kỹ sư chất lượng cao Việt Pháp
Khoa Khoa Học Ứng Dụng
——————– o0o ——————–

Môn học
XÁC SUẤT VÀ THỐNG KÊ
Lớp P01 - Nhóm 15

ĐỀ TÀI: DỰ ĐOÁN ĐỘ NHÁM CỦA


SẢN PHẨM IN 3D

GVHD : PGS.TS Nguyễn Đình Huy


1. Vũ Tiến Đạt 2113167
2. Nguyễn Khoa Điền 2210753
3. Đỗ Xuân Huy 2211168
4. Lương Nguyễn Minh Tân 2213055
5. Đặng Đức Tài 2212965

TP. HỒ CHÍ MINH, 2023


STT Họ và Tên MSSV Phần trăm đóng góp
1 Vũ Tiến Đạt 2113167 20%
2 Nguyễn Khoa Điền 2210753 20%
3 Đỗ Xuân Huy 2211168 20%
4 Lương Nguyễn Minh Tân 2213055 20%
5 Đặng Đức Tài 2212965 20%
Leader: Đỗ Xuân Huy - huy.doxuan991@ hcmut.edu.vn
Bảng 1: TỈ LỆ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN TRONG NHÓM

STT Họ và Tên MSSV Nhận xét và cho điểm


1 Vũ Tiến Đạt 2113167
2 Nguyễn Khoa Điền 2210753
3 Đỗ Xuân Huy 2211168
4 Lương Nguyễn Minh Tân 2213055
5 Đặng Đức Tài 2212965
Bảng 2: NHẬN XÉT CỦA GIẢNG VIÊN
Mục lục

1 GIỚI THIỆU BỘ DỮ LIỆU . . . . . . . . . . . . . . . 1


1.1 Mô tả dữ liệu . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Giới thiệu các biến . . . . . . . . . . . . . . . . . . . 1
2 CƠ SỞ LÝ THUYẾT . . . . . . . . . . . . . . . . . . . 2
2.1 Hồi quy bội . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Phương pháp kiểm định Shapiro-Wilk . . . . . . . . 6
2.3 Phương pháp kiểm định Breusch-Pagan . . . . . . . 7
3 PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU . 8
3.1 Nhập file dữ liệu vào RStudio . . . . . . . . . . . . . 8
3.2 Kiểm tra dữ liệu . . . . . . . . . . . . . . . . . . . . . 8
3.3 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . 9
3.4 Trực quan hóa dữ liệu . . . . . . . . . . . . . . . . . . 9
4 TRIỂN KHAI MÔ HÌNH HỒI QUY . . . . . . . . . 18
4.1 Tiền kiểm tra . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Hồi quy đa biến . . . . . . . . . . . . . . . . . . . . . 21
5 BÀN LUẬN VÀ MỞ RỘNG . . . . . . . . . . . . . . 25
5.1 Hồi quy bội . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Hồi quy đa thức . . . . . . . . . . . . . . . . . . . . . 26
6 CODE VÀ CƠ SỞ DỮ LIỆU . . . . . . . . . . . . . . 29
7 TỔNG KẾT . . . . . . . . . . . . . . . . . . . . . . . . . 30

ii
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

1 GIỚI THIỆU BỘ DỮ LIỆU

1.1 Mô tả dữ liệu

Tên bộ dữ liệu: Bộ dữ liệu Máy in 3D dành cho Kỹ sư cơ khí.


Nguồn: Bộ dữ liệu được lấy từ website kaggle.com và xuất phát từ nghiên cứu
của khoa Cơ khí thuộc Đại học TR/Selcuk.
Mục tiêu: Mục tiêu: Mục tiêu của nghiên cứu này là phân tích mức độ ảnh hưởng
của các thông số cài đặt của máy in 3D đến độ nhám của sản phẩm. Cụ thể, nhóm
sẽ xác định mối quan hệ, giữa các thông số kỹ thuật in (độ cao của lớp in, độ dày
của tường, nhiệt độ đầu phun,...) và các thuộc tính của sản phẩm in hoàn thiện là
độ nhám.
Mục đích: Việc phân tích bộ dữ liệu này giúp xác định các yếu tố quan trọng
nhất ảnh hưởng tới độ nhám của sản phẩm. Từ đó hỗ trợ cho việc đề xuất các giải
pháp để tối ưu hóa quá trình in 3D và đưa ra quyết định trong việc lựa chọn thông
số kỹ thuật cho các dự án in cụ thể.
Số lượng mẫu thu thập: 51
Số lượng các biến (tham số): 12

1.2 Giới thiệu các biến

Trong bài tập lớn này, nhóm sẽ sử dụng R và R Studio để làm công cụ và
môi trường cho việc phân tích dữ liệu

HK1/2023-2024 1 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Tên biến Ý nghĩa Phạm Vi Đơn vị


layer_height Độ cao của lớp in 3D x = {0.02, 0.06, 0.1, 0.15} mm
wall_thickness Độ dày của bức tường {x ∈ N| 1 ⩽ x ⩽ 10 } mm
trong mô hình in 3D
infill_density Mật độ lấp đầy bên trong {x ∈ N| 10 ⩽ x ⩽ 100 } %
mô hình
infill_pattern Loại cấu trúc dùng để lấp x =0 hoặc x =1 none
đầy bên trong mô hình {0
= grid, 1= honeycomb}

nozzle_temperature Nhiệt độ đầu phun khi in x={200 + 5k| k ∈ N, 0 ⩽ C
x ⩽ 10 }

bed_temperature Nhiệt độ nền in x={60 + 5k| k ∈ N, 0 ⩽ x C
⩽4}
print_speed Tốc độ in x={40 + 5k| k ∈ N, 0 ⩽ x mm/s
⩽ 16 }
fan_speed Tốc độ quạt làm mát x = {0, 25, 50, 100} %
roughness Độ nhám của bề mặt in {x ∈ N| 21 ⩽ x ⩽ 368 } µm
tension_strength Sức căng của vật liệu sau {x ∈ N| 4 ⩽ x ⩽ 37 } MPa
khi in
elongation Độ giãn dài của vật liệu {x ∈ R| 0.4 ⩽ x ⩽ 3.3 } %
sau khi in
material Vật liệu được sử dụng để x=0 hoặc x=1 none
in {0= abs và 1 = pla}

Bảng 3: Giới thiệu các biến

2 CƠ SỞ LÝ THUYẾT

2.1 Hồi quy bội

2.1.1 Mô hình hồi quy bội


Mô hình hồi quy bội : là mô hình hồi quy trong đó biến phụ thuộc Y phụ thuộc
vào (k − 1) biến độc lập X1 , X2 , .., Xkk có dạng như sau :
Hàm hồi quy tổng thể : E(Y |X1 , .., Xk ) = β1 + β1 X1 + β2 X2 + . . . + βk Xk
Mô hình hồi quy tổng thể Y = β1 + β1 X1 + β2 X2 + . . . + βk Xk + ϵ

• ϵ là sai số ngẫu nhiên


• β1 là hệ số tự do, bằng giá trị trung bình của Y khi Xj = 0

• βj là hệ số hồi quy riêng (hay hệ số góc), thể hiện ảnh hưởng của riêng từng
biến độc lập Xj lên trung bình của Y khi các biến khác được giữ không đổi.
Cụ thể, khi Xj tăng hoặc giảm 1 đơn vị, trong điều kiện các biến độc lập khác
không đổi, thì Y trung bình sẽ thay đổi βj đơn vị. Có thể nhận thấy ba khả
năng có thể xảy ra đối với các hệ số góc:
• βj > 0 khi đó mối quan hệ giữa Y và Xj là ngược chiều, nghĩa là khi Xj tăng
(hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ giảm
(hoặc tăng).

HK1/2023-2024 2 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

• βj = 0 có thể cho rằng giữa Y và Xj không có tương quan với nhau, cụ thể là
Y có thể không phụ thuộc vào Xj hay là Xj không thực sự ảnh hưởng tới Y.

Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan
hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối.
Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác động đến
biến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có số liệu
hoặc không muốn đưa vào). Do đó trong mô hình vẫn tồn tại sai số ngẫu nhiên ϵ
đại diện cho các yếu tố khác ngoài các biến Xj (j = 2, 3, ..., k) có tác động đến Y
nhưng không đưa vào mô hình như là biến số.
2.1.2 Các giả thiết hồi quy bội
Giả thuyết 1 : Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên.
Giả thuyết 2 : Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X2i , X3i , ..., Xki = 0).

E(Y |X2i , X3i , . . . , Xki ) = 0

Giả thuyết 3 : Phương sai của sai số ngẫu nhiên tại các giá trị (X2i , X3i , . . . , Xki )
đều bằng nhau.
Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên ϵ tuân theo phân phối chuẩn.
Giả thuyết 4 : Giữa các biến độc lập Xj không có quan hệ cộng tuyến hoàn hảo,
nghĩa là không tồn tại hằng số λ2 , λ3 , .., λk không đồng thời bằng 0 sao cho:

X2 λ2 + X3 λ3 + .. + XK λk = 0

Có thể nhận thấy nếu giữa các biến Xj (j = 2, 3, .., k) có quan hệ cộng tuyến hoàn
hảo thì sẽ có ít nhất một trong các biến này sẽ suy ra được từ các biến còn lại. Do
đó, giả thiết 4 được đưa ra để loại trừ tình huống này.
2.1.3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương
nhỏ nhất (OLS)
Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình, vấn đề
tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậy cho các
hệ số βj này.
Cũng như với mô hình hồi quy hai biến, ta sẽ sử dụng phương pháp bình phương
nhỏ nhất (OLS) để ước lượng các hệ số trong mô hình hồi quy k biến.
Xét mô hình k biến: Y = β1 + β1 X1 + β2 X2 + . . . + βk Xk + ϵ
Giả sử có một mẫu quan sát với giá trị thực tế là (Y1 , X2i , X3i , . . . , Xki ) với (i =
1, 2, . . . , n). Ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ
số βj (j = 1, 2, . . . , k), ký hiệu là βc
j (j = 1, 2, . . . , k).
Từ các giá trị ước lượng này có thể viết thành hàm hồi quy mẫu như sau:

Ŷ = βb1 + βb1 .X2 + . . . + β


dK . Xk

HK1/2023-2024 3 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành:

Ŷ = βb1 + βb2 .X2i + . . . + βc


k . Xki

Trong đó Yb1 là giá trị ước lượng cho Ŷ và sai lệch giữa hai giá trị này được gọi là
phần dư với cách tính :

ei = Yb1 − Yb2

Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá
trị βbj (j = 1, 2, . . . , k) sao cho tổng bình phương các phần dư là bé nhất: 22
Pn 2 Pn  2 Pn  2
i=1 e1 = i=1 Yi − Y1 =
b
i=1 Yi − β1 − β1i .X2i − . . . − βki . Xki
b c c

k ) → Min
= f (βb1 + βb2 , . . . , βd

Khi đó các giá trị βb1 + βb2 + . . . + βbk sẽ là nghiệm của hệ gồm k phương trình sau:
 Pn
∂f (β
c1 ,βc2 ,...,βck ) 
 = −2 i=1 Y i − β̂1 − β̂ 2 X 2i − . . . − β̂k X ki =0
∂f (βc1 )


 Pn
∂f (β
c1 ,βc2 ,...,βck ) 
= −2 i=1 X 2i Y i − β̂1 − β̂2 X 2i − . . . − β̂k X ki =0
 ∂f (βc2 )
 ∂f (βc1 ,βc2 ,...,βck ) = −2 Pn Xki Yi − β̂1 − β̂2 X2i − . . . − β̂k Xki  = 0


∂f (β
ck ) i=1

Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và
giả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất. Việc
giải hệ phương trình khá dễ dàng qua các phầm mềm thống kê nếu số biến không
quá lớn. Các giá trị ước lượng bằng phương pháp OLS dựa trên số liệu mẫu cụ thể
được xem như là các ước lượng điểm của các hệ số trong tổng thể.
Với mô hình hồi quy bội (hồi quy k biến với k > 2), việc giải hệ phương trình để
tìm các ước lượng hệ sốj (j = 1, 2, 3. . . k) sẽ trở nên khó khăn hơn so với mô hình
hồi quy 2 biến do đó ta sẽ có được các kết quả này với sự giúp của các phần mềm
thống kê.
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để
đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông
qua ý nghĩa các hệ số hồi quy.
Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từ phương pháp
OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp
các ước lượng tuyến tính không chệch. Hay nói một cách khác, nếu giả thiết từ 1
đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốt nhất trong lớp các ước
lượng tuyến tính không chệch.
2.1.4 Đánh giá mức độ phù hợp mô hình hồi quy bội
Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến các ước
lượng hệ số và độ lệch chuẩn của nó thì chưa đầy đủ. Có một con số cũng góp phần
không nhỏ khi đánh giá chất lượng mô hình đó là hệ số xác định.
HK1/2023-2024 4 LỚP P01 - Nhóm 15
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Sau khi ước lượng được mô hình hồi quy trong một khoảng tin cậy, ta muốn biết
hàm hồi quy mẫu phù hợp với số liệu mẫu đến mức nào. Có thể đánh giá điều đó
qua hệ số xác định bội.
Ta có:
Pn 2 2
Pn 2
SST = i=1 (yi ) = i=1 (Yi − Ŷ )
2 b − Ȳ )2
Pn 2
Pn
SSE = i=1 (ŷi ) = i=1 (Yi
Pn 2 2
Pn 2
SSR = i=1 (ei ) = i=1 (Yi − Ybi )

SST (Sum Of Square Total ): Tổng bình phương độ lệch toàn phần. Đo mức độ
biến động các giá trị quan sát Yi xung quanh các giá trị trung bình của chính mẫu.
SST được tạo bởi hai thành phần: SST = SSE + SSR.
SSE (Sum Of Square For Error): Tổng bình phương phần dư do sự chệnh lệch giữa
từng giá trị quan sát với giá trị dự đoán (ước lượng).
SSR (Sum Of Square in Regression): Tổng bình phương độ lệch phần hồi quy, là
sai số do khác biệt giữa đường hồi quy mẫu và trung bình của Y.
SST = SSE + SSR

Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:
SSE SSR
2

R = SST × 100% = 1 − SST × 100%

Do các thành phần SST, SSE, SSR đều không âm, nên từ biểu thức trên có thể
thấy 0 ≤ R2 ≤ 1.
Giá trị R2 là mối tương quan bình phương giữa giá trị kết quả thực tế và giá trị.
Nó giải thích trong 100% sự biến động của Y so với trung bình của nó thì có bao
nhiêu % do các biến X gây ra. Hay tỉ lệ (phần trăm) sự thay đổi của biến phụ
thuộc được giải thích bởi các biến độc lập trong mô hình, Mô hình càng tốt thì chỉ
số càng cao.
Ý nghĩa của hệ số xác định bội. Với mô hình hồi quy k biến, R2 có ý nghĩa như
sau:
R2 là tỷ lệ (hay tỷ lệ phần trăm) sự thay đổi của biến phụ thuộc được giải thích
bởi các biến độc lập trong mô hình.
Với điều kiện 0 ≤ R2 ≤ 1 , ta có hai trường hợp đặc biệt đó là:

• R2 = 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi các
biến độc lập trong mô hình.
• R2 = 0 nghĩa là các biến độc lập không giải thích được một chút nào đối với
sự thay đổi của biến phụ thuộc.

HK1/2023-2024 5 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Rõ ràng, trong thực tế, khi xem xét các mối quan hệ giữa các biến thông qua các
mô hình hồi quy thì R2 thường nằm trong khoảng (0, 1) nhiều hơn.
Một tính chất quan trọng của R2 là nó sẽ tăng khi ta đưa thêm biến độc lập vào
mô hình. Dễ dàng thấy rằng SST không phụ thuộc vào số biến giải thích trong mô
hình nhưng SSR lại giảm. Do đó, nếu tăng số biến biến độc lập trong mô hình thì
R2 cũng tăng. Như vậy, việc đưa thêm một biến số bất kỳ vào mô hình nói chung
sẽ làm gia tăng R2 , không kể nó có giúp giải thích thêm cho biến phụ thuộc hay
không. Điều này ngụ ý rằng R2 chưa phải là thước đo tốt khi muốn so sánh các
mô hình với số biến khác nhau.
Để giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R2 hiệu chỉnh, ký hiệu là
và được định nghĩa như sau:
(n−1)
R̄2 = 1 − (1 − R2 ) (n−k)

Ta thấy rằng khi số biến độc lập (k − 1) tăng lên thì R̄2 cũng tăng lên nhưng tăng
chậm hơn so với R2 .
Giá trị R̄2 thường được sử dụng thay R2 khi so sánh hai mô hình có cùng biến phụ
thuộc nhưng số lượng biến độc lập khác nhau.
Trong thực tế, khi muốn đánh giá sự phù hợp của mô hình thì R̄2 hơn vì R2 rất dể
đưa ra một kết quả lạc quan quá mức cho sự phù hợp của mô hình hồi quy khi số
lượng biến giải thích lớn hơn nhiều số lượng biến ta quan sát. Tuy nhiên, ta không
thể nói trong mọi bài toán R̄2 đều đưa ra mức độ phù hợp của mô hình hồi quy
một cách chính xác nhất mà phải dựa vào đặc trưng của từng bài toán cụ thể mà
thực hiện tính toán sao cho phù hợp.

2.2 Phương pháp kiểm định Shapiro-Wilk

Kiểm định Shapiro-Wilk có thể được sử để xác định xem một mẫu có phân bố bình
thường/phân bố chuẩn hay không.
- Bước 1: Đặt giả thuyết:

• Giả thuyết H0 (giả thuyết không): Dữ liệu tuân theo phân phối chuẩn.
• Giả thuyết H1 (giả thuyết thay thế): Dữ liệu không tuân theo phân phối chuẩn.

- Bước 2: Sử dụng thuật toán để kiểm định

( n (ai xi ))2
P
W = Pni=1 2
i=1 (xi −x̄)

xi giá trị nhỏ nhất của x


ai = hằng số Shapiro-wilk
x̄ : giá trị trunng bình của biến cần kiểm định

HK1/2023-2024 6 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

0 < w < 1 ; w tương tự như hệ số tương quan

• Nếu giá trị p (p-value) nhỏ hơn ngưỡng ý nghĩa α (thường là 0.05), ta bác bỏ
giả thuyết H0 và kết luận rằng dữ liệu không tuân theo phân phối chuẩn.
• Ngược lại, nếu giá trị p lớn hơn ngưỡng ý nghĩa α, ta không đủ bằng chứng
để bác bỏ giả thuyết H0 và kết luận rằng dữ liệu tuân theo phân phối chuẩn.

2.3 Phương pháp kiểm định Breusch-Pagan

Phương pháp kiểm định Breusch-Pagan là một phương pháp kiểm định giả thiết
thống kê về phương sai sai số thay đổi trong mô hình hồi quy tuyến tính cổ điển.

• Giả thiết H0 : Phương sai sai số không thay đổi


• Giả thiết H1 : là phương sai sai số thay đổi

Đầu tiên ta tìm hàm hồi quy cho mô hình Ŷi = β̂1 + β̂2 X2i + . . . + β̂k Xki sau đó
2
tính toán bình phương của các phần dư e2i = (Yi − Ŷi ) . Tiếp theo là tìm hàm hồi
quy mới với e2i là biến phụ thuộc:

e2i = a1 + a2 x2i + . . . + ak xki + vi → Re2 .

Lúc này, ta có giả thuyết H0 : a2 = a3 = . . . = ak = 0


Re2 n−k
Tính toán giá trị quan sát: F = 1− R2e
× k−1 hoặc LM = nRe2 > χ2e (k − 1)
Nếu có quá nhiều biến độc lập nhưng số quan sát lại hạn chế thì ta có thể sử dụng
các biến được dự đoán Ŷi = β̂1 + β̂2 X2i + . . . + β̂k Xki như một dạng thay thế của
kiểm định này. Khi đó:

e2i = a1 + a2 Ŷi + vi → Re2 với H0 : a2 = 0


2
Tính toán giá trị quan sát: F = 1−RRe 2 × n − k hoặc LM = nRe2 > χ2e (1) Tiếp đến
e

ta tìm p-value dựa trên giá trị quan sát và cuối cùng là kết luận:

• Nếu giá trị p (p-value) nhỏ hơn ngưỡng ý nghĩa α, ta bác bỏ giả thuyết H0 và
kết luận rằng sai sai số thay đổi.
• Ngược lại, nếu giá trị p lớn hơn ngưỡng ý nghĩa α, ta không đủ bằng chứng
để bác bỏ giả thuyếtH0 và có thể kết luận rằng sai sai số không thay đổi.

HK1/2023-2024 7 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

3 PHÂN TÍCH VÀ TRỰC QUAN HÓA DỮ LIỆU

3.1 Nhập file dữ liệu vào RStudio

data ← read.csv("D:/archive (1)/data.csv") với địa chỉ file là địa chỉ lưu
project trong máy tính cá nhân.

3.2 Kiểm tra dữ liệu

Đầu tiên, ta sẽ kiểm tra xem dữ liệu có phù hợp cho việc thống kê chưa để đảm
bảo không xảy ra sai sót khi phân tích dữ liệu. Kiểm tra dữ liệu từng cột và toàn
bộ:

Như vậy, dữ liệu cần phân tích không có giá trị rộng (NA). Ta có thể tiếp tục các
bước tiếp theo.
Ta sẽ phải kiểm tra cấu trúc của khung dữ liệu, xem một số hàng đầu tiên của dữ
liệu, và lấy một bản tóm tắt thống kê của dữ liệu. Sử dụng str(date), head(data),
summary(data) để xem xét tổng quan về bộ dữ liệu khi được nhập vào phần mềm
R. Str(data) dùng để xem khung dữ liệu ban đầu, head(data) dùng để xem một số
hàng đầu tiên, và summary(data) dùng để tóm tắt thống kê dữ liệu.
Vì sau khi thử nghiệm thì kết quả của các hàm str() và head() trả về là giống với
bộ dữ liệu cho nên chúng ta sẽ chỉ xem xét kết quả của hàm summary() để từ đó
đưa ra được một số đánh giá sơ bộ.

HK1/2023-2024 8 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

3.3 Thống kê mô tả

Variable name Mean Median Sd Var


layer_height 0.106 0.10 0.06439673 4.146939e − 03
wall_thickness 5.220 5.00 2.92274682 8.542449e + 00
infill_density 53.400 50.00 25.36348009 6.433061e + 02
infill_pattern NA NA NA NA
nozze_temperature 221.500 220.0 14.82035280 2.196429e + 02
bed_temperature 70.000 70.00 7.14285714 5.102041e + 01
print speed 64.000 60.00 29.69229956 8.816327e + 02
material NA NA NA NA
fan speed 50.000 50.00 35.71428571 1.275510e + 03
roughness 170.580 165.50 99.03412935 9.807759e + 03
tension_strength 20.080 19.00 8.92563380 7.96694e + 01
elongation 1.672 1.55 0.78818831 6.212408e − 01

3.4 Trực quan hóa dữ liệu

Cả hai biến đều thể hiện mức độ tập trung và phân tán khác nhau trong dữ liệu,
với wall_thickness tập trung chặt chẽ quanh một giá trị cụ thể, cho thấy một
quy trình sản xuất có sự kiểm soát cao và chuẩn hóa. Mặt khác, layer_height
có phân phối rộng hơn và đa đỉnh, phản ánh sự đa dạng trong quy trình sản xuất
hoặc thiết kế sản phẩm. Đường KDE mượt mà của cả hai biến nêu bật những khác
biệt này và cho thấy rằng trong khi chiều cao lớp có thể được kiểm soát một cách
nhất quán, độ dày tường lại có sự biến thiên lớn hơn, có thể do sự lựa chọn kỹ
thuật hoặc yêu cầu thiết kế đa dạng. Những phát hiện này có thể hướng tới việc
xác định các cơ hội cải tiến trong quy trình kiểm soát chất lượng và tối ưu hóa
thiết kế sản phẩm.

HK1/2023-2024 9 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Biểu đồ histogram với KDE cho inf ill_density và nozzle_temperature cho thấy các
đặc điểm phân phối khác nhau:

• Infill Density: Phân phối có dạng đa đỉnh, với hai giá trị mật độ đổ đầy nổi
bật, phản ánh việc sử dụng hai chuẩn mật độ thông dụng trong quy trình sản
xuất. Điều này có thể liên quan đến việc áp dụng các tiêu chuẩn khác nhau
tùy thuộc vào đặc tính hoặc yêu cầu cụ thể của sản phẩm.
• Nozzle Temperature: Có một phân phối lệch phải với một đỉnh chính, cho
thấy một nhiệt độ đầu phun phổ biến được sử dụng nhiều hơn các giá trị khác.
Sự giảm dần về bên phải có thể chỉ ra rằng việc sử dụng nhiệt độ cao hơn là ít
phổ biến hoặc có thể bị hạn chế do các nguyên nhân kỹ thuật hoặc tiêu chuẩn
an toàn.

Cả hai biểu đồ đều cung cấp thông tin quan trọng về các quyết định và chuẩn mực
trong quy trình sản xuất, từ đó có thể đưa ra các khuyến nghị hoặc điều chỉnh để
tối ưu hóa quy trình và cải thiện chất lượng sản phẩm.

HK1/2023-2024 10 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Dựa trên các biểu đồ histogram và KDE cho bed_temperature và print_speed:

• Bed Temperature: Histogram cho thấy một sự tập trung rất cao của các
quan sát ở khoảng nhiệt độ giường cụ thể, với ít biến đổi, điều này chỉ ra rằng
nhiệt độ giường được kiểm soát nghiêm ngặt và có thể phản ánh một chuẩn
mực hoặc thực hành tối ưu trong quá trình in. Điều này thường quan trọng
để đảm bảo độ bám dính và chất lượng bản in.
• Print Speed: Phân phối tốc độ in phản ánh một mô hình đặc biệt với hai
đỉnh chính, cho thấy rằng có hai tốc độ in được ưa chuộng, có lẽ tương ứng với
hai chế độ in khác nhau: một cho chất lượng cao (tốc độ chậm hơn) và một
cho in nhanh. Đây có thể là một chỉ báo của việc lựa chọn tốc độ dựa trên các
yêu cầu đặc biệt của quy trình in hoặc các tiêu chuẩn sản phẩm.

Cả hai chỉ báo đều rất quan trọng đối với việc hiểu và tối ưu hóa quy trình in 3D,
nơi mà cả nhiệt độ giường và tốc độ in đều có ảnh hưởng đáng kể đến kết quả cuối
cùng và hiệu suất in.

HK1/2023-2024 11 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Dựa trên các biểu đồ histogram và KDE cho roughness và tension_strength:

• Roughness: Biểu đồ cho thấy phân phối của độ nhám có dạng gần đối xứng
và tập trung chủ yếu quanh một khoảng giá trị, điều này có thể phản ánh một
quy trình sản xuất ổn định với độ nhám bề mặt có sự biến thiên giới hạn. Sự
phân bố này cũng cho thấy rằng độ nhám có xu hướng tập trung quanh một
giá trị trung bình với một số biến thiên vừa phải.
• Tension Strength: Phân phối của sức căng có vẻ đa đỉnh, có thể chỉ ra rằng
có sự biến đổi lớn hơn trong các giá trị sức căng, điều này có thể liên quan
đến các loại vật liệu khác nhau hoặc các quy trình sản xuất đa dạng. Sự xuất
hiện của nhiều đỉnh có thể liên quan đến các nhóm sản phẩm có yêu cầu đặc
tính kỹ thuật khác nhau.

Cả hai chỉ số đều quan trọng cho việc đánh giá chất lượng và độ tin cậy của sản
phẩm in 3D.

HK1/2023-2024 12 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Dựa trên biểu đồ histogram và KDE cho f an_speed và elongation:

• Fan Speed: Phân phối cho thấy một xu hướng tăng liên tục không có đỉnh
rõ ràng, điều này có thể báo hiệu rằng tốc độ quạt được sử dụng qua nhiều
cài đặt khác nhau, hoặc rằng tốc độ quạt không bị giới hạn bởi các tham số
cụ thể trong quy trình sản xuất. Điều này có thể phản ánh sự linh hoạt trong
việc điều chỉnh tốc độ quạt để đáp ứng với các yêu cầu khác nhau của quy
trình in 3D.
• Elongation: Phân phối có đỉnh cao và rộng, chỉ ra rằng giá trị kéo dài của
vật liệu thường xuyên xảy ra trong một phạm vi hẹp. Điều này có thể là kết
quả của quy trình sản xuất tốt với sự kiểm soát chất lượng cao, đảm bảo tính
đàn hồi và sức mạnh kéo của sản phẩm. Độ lệch mạnh về phía giá trị thấp có
thể liên quan đến việc ít sản phẩm đạt đến sự kéo dài cực đại do giới hạn của
vật liệu hoặc thiết kế.

Cả hai biểu đồ đều cung cấp cái nhìn sâu sắc về đặc tính kỹ thuật của sản phẩm
và quy trình sản xuất, từ đó có thể rút ra những hiểu biết về cách các tham số này
ảnh hưởng đến chất lượng cuối cùng và đặc tính cơ học của sản phẩm in 3D.

HK1/2023-2024 13 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Nhìn vào biểu đồ và bộ dữ liệu, đây là nhận xét về hai biến định tính inf ill_pattern
và material:

• Infill Pattern: Dữ liệu cho thấy có hai mẫu đổ đầy chính được sử dụng -
"grid" và "honeycomb". Cả hai đều phổ biến như nhau trong bộ dữ liệu này.
Điều này có thể phản ánh sự ưa chuộng không rõ rệt cho một kiểu mẫu cụ
thể, hoặc nó có thể cho thấy rằng lựa chọn mẫu đổ đầy phụ thuộc vào yêu cầu
kỹ thuật cụ thể của từng đối tượng in 3D.
• Material: Có hai loại vật liệu được sử dụng là "abs" và "pla". Cả hai loại vật
liệu này đều xuất hiện với tần suất tương đương nhau trong bộ dữ liệu, điều
này cho thấy sự cân nhắc ngang nhau trong việc lựa chọn vật liệu cho các dự
án in 3D. Sự chia đều này có thể cho thấy rằng cả hai vật liệu đều được ưa
chuộng bởi các thuộc tính đặc biệt hoặc đơn giản là sự sẵn có của chúng.

Từ biểu đồ, có vẻ như không có sự chênh lệch đáng kể về tần suất sử dụng giữa các
mẫu đổ đầy hay giữa hai loại vật liệu, cho thấy rằng trong môi trường sản xuất
hoặc thiết kế hiện tại, không có sự phân biệt rõ ràng về ưu tiên sử dụng. Điều này
có thể quan trọng khi xem xét tác động của các yếu tố này đối với các đặc tính cụ
thể như độ bền, thẩm mỹ, hoặc chi phí của sản phẩm in 3D.

HK1/2023-2024 14 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Dựa vào biểu đồ hộp được cung cấp, dưới đây là nhận xét tổng quan về từng biến
định lượng:
Layer Height: Phân phối có vẻ đều và không có ngoại lệ (outliers) nổi bật. Trung
vị gần giữa của hộp, cho thấy dữ liệu không lệch quá nhiều về một phía.
Wall Thickness: Tương tự như Layer Height, dữ liệu không có outliers và trung
vị cũng nằm ở giữa hộp, dữ liệu phân phối khá đồng đều.
Infill Density: Dữ liệu này có phạm vi (range) rộng hơn so với hai biến trên, và
không có outliers, trung vị nằm gần giữa hộp, cho thấy một sự phân bố đều.
Nozzle Temperature: Có một phạm vi nhiệt độ rộng được sử dụng, không có
outliers. Trung vị nằm gần giữa, dữ liệu phân phối đều.
Bed Temperature: Phân phối nhiệt độ giường có phạm vi hẹp hơn, không có
outliers, và trung vị cũng ở giữa hộp.
Print Speed: Đây là biến duy nhất trong nhóm có outlier, với một giá trị ngoại
lệ thấp. Có thể có một số trường hợp in với tốc độ đặc biệt chậm.
Fan Speed: Không có outliers, dữ liệu phân phối đều với trung vị nằm ở giữa hộp.
Roughness: Dữ liệu có phạm vi rộng, không có outliers, phân phối đều với trung
vị gần giữa.
Tension Strength: Không có outliers và dữ liệu phân phối tương đối đều, trung
vị nằm gần giữa hộp.
Elongation: Có phạm vi thấp và không có outliers, dữ liệu có sự tập trung cao
hơn ở giá trị thấp.
HK1/2023-2024 15 LỚP P01 - Nhóm 15
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Nhận xét chung, dữ liệu cho thấy không có sự biến động lớn về các giá trị ngoại lệ,
và hầu hết các biến đều có sự phân phối đều và tập trung quanh trung vị, ngoại
trừ biến "Print Speed" có một outlier. Điều này cho thấy quy trình hoặc cài đặt
máy có sự ổn định và lặp lại ngoại trừ một vài trường hợp ngoại lệ
Với nhận xét, và kiểm chứng lại bằng phần mềm R thì tìm ra được những điểm
outlier đó. Chúng có chỉ số tại cột thứ 6 trong file dữ liệu và bắt đầu từ chỉ số 22
tới 31. Với nhận xét, và kiểm chứng lại bằng phần mềm R thì tìm ra được những
điểm outlier đó.
outliers[[6]]
[1] 21 22 23 24 25 26 27 28 29 30.
Kết quả từ phần mềm R kết quả về chỉ số sẽ khác bởi vì chỉ số hàng đầu tiên trong
file excel gốc đã được đánh dấu là tỷ số. và tất cả outlier đều có giá trị là 120.Tuy
nhiên, đây là những thông số mà người dùng cài đặt có chủ ý nên ta không cần
loại bỏ.
Tiếp theo để xem xét sự tương quan giữa các biến và để phát hiện ra sự đa cộng
tuyến thì ta sẽ sử dụng một ma trận tương quan để khảo sát. Ma trận tương quan
là một công cụ thống kê rất hữu ích dùng để đánh giá mức độ mạnh mẽ và hướng
của mối quan hệ tuyến tính giữa các biến định lượng trong một tập dữ liệu. Mỗi ô
trong ma trận thể hiện một hệ số tương quan giữa hai biến. Với giá trị nằm trong
khoảng từ -1 tới 1. Giá trị gần -1 thể hiện mối quan hệ tuyến tính âm mạnh, giá
trị gần 1 thể hiện mối quan hệ tuyến tính dương mạnh, và giá trị gần 0 thể hiện
không có hoặc có mối quan hệ tuyến tính yếu.

HK1/2023-2024 16 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Các cặp biến có tính cộng tuyến cao:


layer_height nozzle_temperature bed_temperature tension_strengtht
roughness material f an_speed elongation
0.80134087 -0.7838379 1.00000000 0.838108886

Có thể thấy được rằng giữa bed_temperature và f an_speed có mối quan hệ cộng
tuyến hoàn hảo nên ta có thể loại bỏ một trong hai biến ra khỏi mô hình vì biến
đó có thể suy ra từ biến còn lại nên không có giá trị thống kê. Ta sẽ loại bỏ biến
f an_speed ra khỏi mô hình.

HK1/2023-2024 17 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

4 TRIỂN KHAI MÔ HÌNH HỒI QUY

4.1 Tiền kiểm tra

4.1.1 Sự cộng tuyến

Do tension_strenght và elongation là các biến đầu ra nên ta loại ra khỏi mô hình


dự đoán roughness cùng với biến f an_speed:

Ở đây, ta sẽ sử dụng nhân tử phóng đại phương sai (VIF) để kiểm tra sự đa cộng
tuyến. VIF là thước đo mức độ tăng lên của phương sai của các hệ số hồi quy do
đa cộng tuyến gây ra. Ta có các số liệu sau:

Ta quan sát được nozzle_temperature, bed_temperature và material có VIF rất cao,


nhưng do chúng cũng có ý nghĩa thống kê cao nên ta có thể chấp nhận các hệ số
ước lượng này.

HK1/2023-2024 18 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

4.1.2 Phân tích sai số

Có ba giả định ta cần kiểm tra:


- Sai số có kỳ vọng bằng 0: E (ϵ|Xi ) = 0, ∀i
- Phương sai của sai số là hằng số: V ar (ϵ|Xi ) = σ 2
- Sai số có phân phối chuẩn: ϵ ∼ N (0, σ 2 )

Kỳ vọng của sai số là −1.364533e − 15, mãn giả định.


Chúng ta có thể sử dụng phép kiểm định Shapiro-Wilk để kiểm tra phân phối
chuẩn của sai số và vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo
(fitted values) để phân tích.

Giả thuyết H0 của thử nghiệm này là phần dư có phân bố chuẩn. Do đó, nếu giá
trị p nhỏ hơn mức alpha được chọn (0,05) thì giả thuyết H0 bị bác bỏ và có bằng
chứng cho thấy phần dư không có phân phối chuẩn. Mặt khác, nếu giá trị p lớn
hơn mức alpha được chọn thì giả thuyết H0 không thể bị bác bỏ. Ở đây, do p-value
= 0.9241 lớn hơn 0,05 nên ta không bác bỏ H0 , tức là là phần dư có phân phối
chuẩn.
Ngoài ra, biểu đồ thị Q - Q Residuals cũng cho thấy điều này khi đa số các điểm
đều nằm sát với đường thằng

HK1/2023-2024 19 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Ta có thể dựa vào kiểm định Breusch-Pagan để kiểm tra liệu phương sai của sai
số có phải là hằng số hay không.

Dựa vào kết quả có được, ta không thể bác bỏ giả thuyết H0 (H0 : phương sai không
đổi) nên ta có thể kết luân phương sai của sai số không đổi. Ngoài ra, biểu đồ thị
Scale - Location cũng cho thấy điều này khi giá trị của căn bặc hai cua sai số hiệu
chỉnh đề nằm phân tán tương đối đồng đều xung quanh đường màu đỏ.

4.1.3 Tính tuyến tính

Trong hồi quy tuyến tính, hệ số xác định, thường được gọi là R bình phương (R2 ),
là thước đo thống kê để giải thích trong 100% sự biến động của biến phụ thuộc so
với trung bình của nó thì có bao nhiêu % là do biến các biến độc lập gây ra. R2 có
giá trị nằm trong khoảng từ 0 đến 1. Ở đây, ta có R2 = 0, 8752 (gần 1), có nghĩa là
sự biến động của biến phụ thuộc có thể được giải thích bằng các biến độc lập có
trong mô hình. Vì vậy, chúng ta có thể kết luận rằng có mối quan hệ tuyến tính
giữa roughness và các biến khác. Ngoài ra sự phân bố của các giá trị của phân dư
trong mô hình không theo môt hình mẫu cụ thể nào (parabol, hyperbol,. . . ) mà
nó có tính rải rác nên càng thêm khẳng định tính tuyến tính của dữ liệu.

HK1/2023-2024 20 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

4.1.4 Các điểm có ảnh hưởng cao

Đồ thị cuối cùng về phân dư cho phép xác định những điểm có ảnh hưởng cao
trong bộ dữ liệu, những điểm ảnh hưởng cao này có thể là các điểm outliers. Nếu
như có một số điểm vượt qua đường thẳng Cook’s distance, thì các điểm đó có
ảnh hưởng rất đáng kể và cần được xem xét kỹ lưỡng. Dựa vào biểu đồ ta thấy có
các quan trắc 23, 5 và 24 gây ảnh hưởng mạnh đến bộ dữ liệu dự đoán. Nhưng vì
chúng chưa vượt qua đường Cook’s distance nên ta không cần phải loại bỏ chúng
khi phân tích.

4.2 Hồi quy đa biến

4.2.1. Tách dữ liệu

Trong học máy, việc chia dữ liệu thành các bộ riêng biệt giúp ngăn chặn việc quá
khớp điều này xảy ra khi một mô hình ghi nhớ dữ liệu huấn luyện quá tốt và không
thể tạo những dữ liệu thuần mới, chưa được quan sát. Vì vậy, nhóm chúng em chia
HK1/2023-2024 21 LỚP P01 - Nhóm 15
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

dữ liệu thành thành hai phần là dữ liệu huấn luyện và dữ liệu kiểm tra với tỉ lệ
8 : 2.

Đầu tiên, nhóm sẽ xáo trộn bộ dữ liệu, sau đó tách thành hai phần như đã đề cập.

4.2.2. Xây dựng mô hình hồi quy tuyến tính đa biến

Quan sát kết quả, ta thấy sai số có sự rải rác đáng kể, từ −62.386 là nhỏ nhất cho
đến 85.495 là lớn nhất. Tuy vậy, trung so vị ở mức tương đối nhỏ. Các hệ số (hoặc
tham số) tự do của mô hình cho thấy hướng và độ lớn của mối quan hệ giữa các
biến dự đoán và với biến được dự đoán roughness. Hầu hết các hệ số có giá trị
dương, biểu thị mối quan hệ đồng biến, chỉ trừ biến bed_temperature là có giá trị
âm.
Với giả thuyết mức ý nghĩa 5% , đặt giả thuyết kiểm định hệ số hồi quy ta có:

• H0 : Hệ số hồi quy không có ý nghĩa thống kê

• H1 : Hệ số hồi quy có ý nghĩa thống kê

HK1/2023-2024 22 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Cột cuối cùng của phần hệ số cho ta thấy có ba biến là wall_thickness, inf ill_density
và inf ill_pattern có p-value lớn hơn 0,05 – cho thấy chúng không có ý nghĩa về
mặt thống kê. Ta sẽ cân nhắc loại bỏ các biến này ra khỏi mô hình. Các hệ số còn
lại có hệ số p-value nhỏ, cho thấy chúng đóng vai trò thống kê quan trọng của mô
hình. Có biến layer_height có p-value là 1.02e − 05 cho thấy biến này có vị trí cực
kỳ quan trọng trong việc dự đoán mô hình.

Sai số phần dư được chuẩn hoá (RSE) của mô hình là khoảng 37.97. Hệ số xác
định R2 (0.8908) và R̄2 (0.8627) cho thấy mô hình giải thích một tỷ lệ đáng kể về
sự thay đổi của biến dự đoán. Giá trị F tổng thể (31.62) và giá trị p-value tương
ứng của nó (nhỏ hơn 7.917e − 13) kiểm tra giả thuyết rằng ít nhất một trong các
biến dự đoán hữu ích trong việc giải thích cho biến cần dự đoán. Do giá trị p-value
rất nhỏ, ta bác bỏ giả thuyết H0 , cho thấy rằng có ít nhất một biến dự đoán có
đóng góp đáng kể vào việc dự đoán đầu ra.

4.2.3. Xây dựng lại mô hình

Sau khi phân tích thông tin tổng lược về mô hình trước, ta xây dựng một mô hình
đa biến mới đã loại bỏ các biến wall_thickness, inf ill_density và inf ill_pattern.

Ta sẽ sử dụng kiểm định F cho kết luận về việc loại bỏ ba biến khỏi mô hình ban
đâu. Với giả thuyết mức ý nghĩa 5% , đặt giả thuyết kiểm định độ phù hợp của hai
mô hình hồi quy ta có:

• H0 : Mô hình 2 phù hợp hơn

• H1 : Mô hình 1 phù hợp hơn

HK1/2023-2024 23 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Kết quả kiểm định:

Giá trị P r(> F ) = 0.953 >> 0.05 nên ta không thể bác bỏ giả thiết H0 , tức mô hình
hai phù hợp hơn. Hơn nữa, dựa vào R̄2 = 0.8734 ở mô hình 2 cao hơn R̄2 = 0.8627
ở mô hình 1 nên ta cũng có thể nói mô hình 2 tốt hơn mô hình 1. Vì vậy, ba biến
wall_thickness, inf ill_density và inf ill_pattern không cần thiết và ta có thể loại
bỏ chúng.
4.2.4. Dự đoán

Như vậy, ta đã tìm ra được mô hình hồi quy đa biến phù hợp để dự đoán độ thô
(roughness) cho tập dữ liệu test còn lại.

Nhìn một cách tổng quan, ta thấy có sự chênh lệch không nhỏ giữa kết quả thực
và kết quả được dự đoán. Do mỗi seed sẽ cho ra các bộ giá trị dự đoán khác nhau
nên để đưa ra độ chính xác trung bình, nhóm sẽ sử dụng nhiều seed ngẫu nhiên
khác nhau để tính toán. Cuối cùng, ta có kết quả sau:

Độ chính xác trung bình của mô hình: 80.75%

4.3 Tổng kết

Nhóm sử dụng mô hình hồi quy tuyến tính đa biến để đánh giá các biến dự đoán
cho biến roughness. Tuy nhiên, chỉ có năm biến là được dùng ở mô hình cuối
cùng mà không bao gồm wall_thickness, inf ill_density và inf ill_pattern vì chúng
không có giá trị thống kê.

Năm biến được sử dụng có thể giải thích tới 87,34% sự biến thể của roughness,
dựa trên R̄2 . Chất lượng dự đoán của mô hình rất khác nhau, cho thấy sự cần thiết
HK1/2023-2024 24 LỚP P01 - Nhóm 15
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

của việc xem xét, đánh giá và điều chỉnh lại mô hình một cách so. Tuy nhiên, kết
quả dự đoán có sự chênh lệch tương đối lớn so với giá trị thực tế nên đòi hỏi cần
có sự điều chỉnh và đánh giá lại mô hình.

5 BÀN LUẬN VÀ MỞ RỘNG

5.1 Hồi quy bội

5.1.1 Ưu điểm

Ưu điểm nổi bật nhất của hồi quy tuyến tính đa biến là nó thể mô tả mối quan hệ
giữa biến phụ thuộc và nhiều biến độc lập. Trong hồi quy tuyến tính đơn biến, chỉ
có một biến độc lập được sử dụng để mô tả mối quan hệ với biến phụ thuộc. Điều
này có thể không đủ để mô tả mối quan hệ phức tạp giữa hai biến này.

Ví dụ, giá nhà có thể bị ảnh hưởng bởi nhiều yếu tố, chẳng hạn như vị trí, diện
tích, số phòng ngủ, số phòng tắm,... Hồi quy tuyến tính đa biến có thể sử dụng tất
cả các yếu tố này để mô tả mối quan hệ giữa giá nhà và các yếu tố đó.
5.1.2 Nhược điểm

Dựa vào các giả định: Yêu cầu mô hình dựa trên các giả định như độc lập tuyến
tính, phương sai đồng nhất, không có đa cộng tuyến. Nếu các giả định này không
được đáp ứng, mô hình hồi quy có thể không chính xác. Những giả định này có
thể không được đáp ứng trong mọi tình huống. Ví dụ, nếu các biến độc lập không
độc lập với nhau, thì mô hình có thể phản ánh mối quan hệ giữa các biến độc lập
thay vì mối quan hệ giữa các biến độc lập và biến phụ thuộc.
Nhạy cảm với nhiễu: Hồi quy tuyến tính đa biến có thể bị ảnh hưởng nhiều bởi dữ
liệu nhiễu hoặc giá trị ngoại lai. Dữ liệu nhiễu là dữ liệu không phù hợp với mô
hình, và giá trị ngoại lai là dữ liệu nằm ngoài phạm vi giá trị bình thường. Khi có
dữ liệu nhiễu hoặc giá trị ngoại lai, mô hình hồi quy có thể không chính xác.

Không linh hoạt với mối quan hệ phi tuyến tính: Hồi quy tuyến tính đa biến chỉ
có thể mô hình hóa mối quan hệ tuyến tính giữa các biến. Trong thực tế, nhiều
mối quan hệ giữa các biến là phi tuyến tính. Khi mối quan hệ giữa các biến là phi
tuyến tính, thì hồi quy tuyến tính đa biến có thể không chính xác. Ví dụ, nếu giá
nhà có mối quan hệ phi tuyến tính với số phòng ngủ, thì hồi quy tuyến tính đa
biến có thể không thể mô tả chính xác mối quan hệ này.

HK1/2023-2024 25 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Cần một lượng dữ liệu lớn và chất lượng để xây dựng mô hình. Hồi quy tuyến tính
đa biến cần một lượng dữ liệu lớn và chất lượng để xây dựng mô hình. Nếu dữ liệu
không đủ lớn hoặc không chất lượng, mô hình hồi quy có thể không chính xác. Để
đảm bảo dữ liệu đủ lớn và chất lượng, cần thu thập dữ liệu từ một mẫu đại diện
và đảm bảo dữ liệu không có nhiễu hoặc giá trị ngoại lai.

5.2 Hồi quy đa thức

Trong thực tế, mối tương quan giữa biến phụ thuộc với các biến độc lập có thể
không theo đường thẳng mà theo đường cong, khi đó mô hình hồi quy phi tuyến
sẽ phát huy mức độ hữu dụng. Ta có thể thiết lập mô hình tính toán giá trị cần
dự đoán y dưới dạng đa thức bậc n, thông qua mô hình hồi quy đa thức tổng quát
sau:

Y = β1 + β2 X + β3 X 2 + β4 X 3 + . . . + +βn X n + ε

5.2.1 Triển khai mô hình bậc bốn

HK1/2023-2024 26 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Kết quả này cho thấy biến mục tiêu “roughness” được mô hình hóa dưới dạng hàm
bậc bốn của các biến:

layer_height, wall_thickness, infill_density, nozzle_temperature, bed_temperature,

print_speed và fan_speed. Nhưng trong đó quan sát thấy chỉ có hai biến nozzle_
temperature và layer_height có mối quan hệ cực kỳ quan trọng đối với biến mục
tiêu, khi các biến còn lại tỏ ra tương đối không quan trọng.
Với R2 = 0, 9586 cho thấy khoảng 95,86% biến thể trong “ roughness” được giải thích
bằng các biến đã chọn. Cùng với R2 hiệu chỉnh là 91,02% đã cho thấy độ hiệu quả
tương đối cao của mô hình. “F-statistic” là 19.83 với “p” rất thấp cho thấy có một
biến có mối quan hệ cực kỳ quan trong đối với biến mục tiêu ở mức ý nghĩa 5%.

Ta sẽ sử dụng hồi quy Stepwise để đưa ra mô hình có số biến phù hợp nhất.

Khi áp dụng hồi quy Stepwise, chương trình sẽ thực hiện các bước điều chỉnh với
mô hình đa thức bậc bốn bằng cách tác động lên các biến của mô hình thông việc
thêm bớt từng biến. Căn cứ vào tiêu chuẩn thông tin Akaike AIC, mô hình có AIC
thấp hơn sẽ được lựa chọn. Ban đầu mô hình có AIC là 286,01 và R2 hiệu chỉnh là
0.9102, sau đó quy trình điểu chỉnh sẽ thực hiện các bước loại bỏ, hay thêm bớt
từng biến để đánh giá sự biến động của AIC.

Sau một loại các biến đổi, quy trình kết thúc với việc chỉ giữ lại 2 biến là layer_height
và nozzle_temperature, tại chỉ số AIC là 271,39 và R2 hiệu chỉnh là 0.9307 – cao
hơn so với mô hình ban đầu. Điều cho thấy quy trình hồi quy Stepwise đã cung
một mô hình hồi quy tốt hơn với 2 biến kể trên dựa theo tiêu chuẩn thông tin AIC.
HK1/2023-2024 27 LỚP P01 - Nhóm 15
Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

5.5.2 So sánh

Xem xét về mối quan hệ giữa các biến phụ thuộc và biến cần dự đoán ta dễ
thấy rằng ở mô hình hồi quy bội đa có tới 5 biến có sức ảnh hưởng đến kết quả
dự đoán của biến mục tiêu. Nhưng ở mô hình hồi quy đa thức bậc bốn chỉ hai
biến là “layer_height” và “nozzle_temperature” có mối quan hệ chặt chẽ đến biến
“roughness” đang dự đoán.

Để đánh giá giữa hồi quy đa thức bậc bốn với hồi quy bội, mô hình nào hiệu quả
hơn ta sẽ sử dụng lại tiêu chuẩn thông tin AIC lại một lần nữa.

Qua kết quả trên, ta thấy mô hình hồi quy đa thức bậc bốn hiệu quả hơn đối với
mô hình hồi quy bội với. Ngoài ra khi áp dụng vào việc dự đoán các thông tin.

Độ chính xác của mô hình là PR là : 89.03%

Điều này cho thấy vẫn tồn tại sự chênh lệch giữa giá trị thực và giá trị dự đoạn
và sự chênh lệch nhìn đã giảm đi đáng kể, mà thậm chí còn đạt một mức khá cao.
Cụ thể hơn, độ chính xác đã tăng từ 80,75% lên 89,03% so mô hình trước đó. Mặt
khác, qua biểu đồ, ta có thể thấy độ chính xác cho từng seed của mô hình hồi quy
đa thức (màu đỏ) hầu hết là cao hơn so với mô hình đa bội. Ngoài ra giá trị độ
chính xác của mô hình đa thức cũng thể hiện sự ổn định hơn, trong khi giá trị của
mô hình kia có rất nhiều điểm lệch mạnh.

HK1/2023-2024 28 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

Sự so sánh cho ta một kết quả bất ngờ khi nó càng chứng tỏ thêm vai trò chủ yếu
của hai thông số “layer_height” và “nozzle_temperature” trong việc quyết định độ
nhám của sản phẩm in.

6 CODE VÀ CƠ SỞ DỮ LIỆU

Đường link truy cập code dùng cho bài tập lớn: https://drive.google.com/
file/d/1_tYi2YGMhUJLooA5A34--nib69uh2igX/view?usp=drive_link

Đường link truy cập cơ sở dữ liệu được sử dụng: https://www.kaggle.com/


datasets/afumetto/3dprinter

HK1/2023-2024 29 LỚP P01 - Nhóm 15


Khoa Khoa Học Ứng Dụng Môn Xác Suất Thống Kê

7 TỔNG KẾT

Như vậy, qua bài tập lớn này, nhóm đã kiểm tra tập dữ liệu để làm rõ liệu dữ liệu
đã phù hợp cho việc thực hiện thông kê. Sau đó, nhóm thực hiện một số thao tác
tiền xử lý dữ liệu như chuyển đổi các dữ liệu định tính thành dữ liệu nhị phân và
trực quan hóa kết quả bằng các biểu đồ và đường KDE cho các biến.

Trong phần xây dựng mô hình hồi quy tuyến tính đa bội, nhóm đã kiểm tra các
giả thuyết cần thoả của mô hình như sự đa cộng tuyến hay sai số có phân phối
chuẩn, và vẽ các đồ thị phần dư của mô hình hồi quy. Kế tiếp là công việc cải thiện
mô hình với bước đầu nhóm đã tách dữ liệu thành 2 bộ là bộ để huấn luyện và bộ
để kiểm tra, rồi xây dựng lại mô hình với data mới. Cuối cùng của phần này là sự
đánh giá và so sánh độ chính xác của mô hình bằng cross-validation.

Ở phần cuối cùng, nhóm đã nêu ra một số ưu và nhược điểm của mô hình đa bội
và đi vào phân tích mô hình đa thức. Ở đây, nhóm sử dụng hồi quy Stepwise để
chọn mô hình có các biến phù hợp và so sánh mô hình đa bội và đa thức bằng chỉ
số AIC. Tương tự, nhóm cũng đưa ra đánh giá về độ chính xác của mô hình và so
sánh kết quả với hồi quy đa bội.

Kết quả cho thấy mô hình đa thức có độ chính xác cao hơn và cũng làm nổi bật
lên vai trò của 2 biến nozzle_temperature và layer_height đối với biến roughness
(độ nhám). Nhóm cũng đã nhận thấy mô hình đa thức sẽ cho ra kết quả dự đoán
ổn định hơn so với mô hình đa bội.

Độ chính xác trung bình mô hình MLR (Hồi quy tuyến tính đa bội) :80.75 %

Độ chính xác trung bình mô hình PR (Hồi quy đa thức): 89.03 %

HK1/2023-2024 30 LỚP P01 - Nhóm 15


Tài liệu tham khảo

[1] Nguyen Dinh Huy, Dau The Phiet, Le Xuan Dai, Giao trinh xac xuat thong ke,
[2019], Dai Hoc Quoc Gia TP.HCM.

[2] Zach, A Complete Guide to Stepwise Regression in R, [April 27, 2019],


Link: https://s.net.vn/JXYR

[3] Rebecca Bevans, Akaike Information Criterion | When & How to Use It
(Example), [March 26, 2020],
Link: https://by.tn/kGfv

[4] Cross-validation: evaluating estimator performance, [25/11/2023],


Link: https://s.net.vn/7FU1

[5] k-nearest neighbors algorithm, [15/11/2023],


Link: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

[6] huytuong010101, Thuật Toán K-Nearest Neighbors (KNN) Siêu Cơ Bản,


[15/11/2023],
Link: https://codelearn.io/sharing/thuat-toan-k-nearest-neighbors-knn

[7] Zach, The Breusch-Pagan Test: Definition & Example, [December 31, 2020],
Link: https://www.statology.org/breusch-pagan-test/

[8] Ann Card Anaesth, Descriptive Statistics and Normality Tests for Statistical
Data, [2019]
Link: https://s.net.vn/t06s

[9] Viren Rehal, Breusch Pagan test for Heteroscedasticity, [February 15, 2023],
Link: https://s.net.vn/Rva0

31

You might also like