Bài tập lớn môn Xác suất thống kê

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

-------- --------
BÁO CÁO BÀI TẬP LỚN

MÔN XÁC SUẤT THỐNG KÊ
XÁC ĐỊNH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THÔNG SỐ ĐIỀU CHỈNH
TRONG MÁY IN 3D ĐẾN CHẤT LƯỢNG IN, ĐỘ CHÍNH XÁC VÀ ĐỘ BỀN.
Giáo viên hướng dẫn: Nguyễn Kiều Dung

Nhóm: CK54
STT Họ và tên MSSV Lớp Khoa

1 Hoàng Văn Khoan 2111549 L03 Cơ Khí
2 Nguyễn Sĩ Cường 2112969 L03 Cơ Khí
3 Phạm Minh Trí 2213658 L03 Cơ Khí
4 Phạm Đăng Huy 2211261 L03 Cơ Khí
5 Trần Chí Cường 2110886 L03 Cơ Khí
6 Trần Diễm Trinh 2014838 L03 Cơ Khí
TP. Hồ Chí Minh, tháng 5 năm 2024

BẢNG PHÂN CÔNG CÔNG VIỆC
STT Họ và tên MSSV Nhiệm vụ được Phần trăm
phân công hoàn thành
công việc
1 Hoàng Văn Khoan 2111549 Phần 3, phần 4, 100%

phần 5 bài toán 2
2 Nguyễn Sĩ Cường 2112969 Phần 2 và 100%
Phần 5 bài toán 4
3 Phạm Minh Trí 2213658 Phần 1, tổng hợp, 100%
4 Phạm Đăng Huy 2211261 Phần 3, phần 6 100%
5 Trần Chí Cường 2110886 Phần 4 và phần 5 bài 100%
toán 4
6 Trần Diễm Trinh 2014838 Phần 4 và 100%
MỤC LỤC
PHẦN 1. TỔNG QUAN DỮ LIỆU .............................................................................. 4
PHẦN 2: KIẾN THỨC NỀN ........................................................................................ 4
1.1. Giới thiệu mô hình hồi quy tuyến tính bội ............................................................4
2. Anova một yếu tố. ......................................................................................................5
PHẦN 3: TIỀN XỬ LÝ SỐ LIỆU ................................................................................ 7
1. Đọc dữ liệu ............................................................................................................... 7
2. Làm sạch dữ liệu ...................................................................................................... 8
3. Kiểm tra dữ liệu ngoại lai (outlier) .......................................................................... 9
PHẦN 4: THỐNG KÊ MÔ TẢ ...................................................................................10
1. Tóm tắt dữ liệu: ...................................................................................................... 10
2. Lập bảng tần số cho các biến phân loại. ................................................................ 10
3. Vẽ biểu đồ Histogram .............................................................................................10
4. Vẽ các đồ thị boxplot ..............................................................................................12
5. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến tension_strenght
và các biến liên tục. .................................................................................................... 14
6. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến roughness và
các biến liên tục. ......................................................................................................... 18
7. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến elongation và
các biến liên tục. ......................................................................................................... 21
8. Vẽ đồ thị ma trận tương quan giữa các biến trong bộ dữ liệu ............................... 23
PHẦN 5 : THỐNG KÊ SUY DIỄN ............................................................................ 25
Bài toán 1 mẫu :Tìm khoảng ước lượng cho trung bình tổng thể roughness với độ tin
cậy 0.95 .......................................................................................................................25
Bài toán 2 : Kiểm định so sánh 2 trung bình tổng thể độ nhám khi sử dụng 2 vật liệu
khác nhau là abs và pla dựa trên mẫu đã có, biết 2 mẫu này độc lập với nhau. ....... 26
Bài toán 3: Bài toán phân tích phương sai ................................................................. 30
Bài toán 4: Bài toán Hồi quy tuyến tính đơn ............................................................. 33
PHẦN 6: THẢO LUẬN VÀ MỞ RỘNG ...................................................................40
PHẦN 7. NGUỒN DỮ LIỆU VÀ NGUỒN CODE .................................................. 41
PHẦN 8 :TÀI LIỆU THAM KHẢO ..........................................................................41
PHẦN 1. TỔNG QUAN DỮ LIỆU
Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học Selcuk.
Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số điều chỉnh
trong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in. Bộ dữ liệu
bao gồm 50 quan sát với 9 thông số cài đặt và 3 thông số đầu ra được đo lường.
Dữ liệu gốc được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
layer_height (mm): Độ cao mỗi lớp in
infill_pattern: Mật độ bên trong chi tiết
nozzle_temperature (ºC): Nhiệt độ của mũi in
bed_temperature (ºC): Nhiệt độ bàn in
print_speed (mm/s): Tốc độ in
material: Chất liệu (pla hoặc abs)
roughness (µm): Độ nhám
tension strenght: Sức căng bề mặt
elongation: Độ giãn dài
Các biến liên tục: layer_height, nozzle_temperature, bed_temperature, print_speed,
roughness, tension strenght, elongation.
Các biến phân loại: infill_pattern và material
PHẦN 2: KIẾN THỨC NỀN

1.1. Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
= 1 + 1 1 + 2 2 + ... + 2 2 +
Trong đó Y: biến phụ thuộc
X1: biến độc lập
1 : hệ số tự do (hệ số chặn)
1 : hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y với điều
kiện các biến số khác trong mô hình không đổi. Cụ thể hơn, nếu các biến khác trong
mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai
số ngẫu nhiên.
1.1.1. Độ phù hợp của mô hình
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2
∑( − )2 : TSS- Total Sum of Squares
∑( − )2 : ESS – Explained Sum of Squares
2
∑ : RSS- Residual Sum of Squares
Do ∑ ( − ) = 0 <= ( ∑ = 0; ∑ = 0)
Ta có thể viết: TSS = ESS+ RSS

Ý nghĩa của các thành phần:
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính
xác của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được từ hàm hồi quy.
Người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy: 0  R 2  1
R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ
thuộc y.
2. Anova một yếu tố.
Mục tiêu của phân tích phương sai (Analysis of Variance ANOVA) là so sánh
trung bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát
từ các 12 nhóm này, và thông qua kiểm định giải thuyết để kết luận về sự bằng nhau
của các trung bình tổng thể này. Trong nghiên cứu, phân tích phương sai được dùng
như một công cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến
một yếu tố kết quả (định lượng).
Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng
của một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả
(dạng biến định lượng) đang nghiên cứu.
Bảng 2: Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS
2.1. Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương
pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi
hỏi một số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ hộp và râu là một thay
thế tốt trong tình huống số quan sát ít hơn. Nếu công cụ đồ thị cho thấy tập dữ liệu
mẫu khá phù hợp với phân phối bình thường đã thỏa mãn. Hình dưới mô tả biểu đồ
hộp râu cho tập dữ liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta. Đồ
thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu
hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối. Với số quan sát
không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thể chấp nhận
được.
Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm
nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong
trong mỗi tập dữ liệu mẫu không khác biệt nhau nhiều.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng
nhau là kiểm định Levene về phương sai của các tổng thể. Kiểm định này xuất phát từ
giả thuyết sau.
H0: 2 = 2 =…= 2
1 2
H1: Không phải tất cả các phương sai đều bằng nhau
Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
2
= 2
2 2
Trong đó là phương sai lớn nhất trong các nhóm nghiên cứu và là phương
sai nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị ( ; ); tra được từ bảng phân
phối Hartley Fmax (là bảng số 5 trong phần phụ lục). Trong đó k là số nhóm so sánh,
bậc tự do df tính theo công thức df = n − 1
∑ =1
Trong tình huống các nhóm ni khác nhau thì = (chú ý là nếu kết quả
tính là số thập phân thì ta lấy phần nguyên).
Quy tắc quyết định:
Fmax > ( ; ); thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại.
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho
thấy các giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa
mãn thì một phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định
phi tham số Krusksl-Wallis sẽ được áp dụng. Tuy nhiên trong ví dụ này ở đây, ta có
thể xem các giả định để tiến hành phân tích phương sai đã được thỏa mãn.
PHẦN 3: TIỀN XỬ LÝ SỐ LIỆU

1. Đọc dữ liệu
Đọc dữ liệu của tệp tin vào R và xuất kết quả
Kết quả:
Vẽ bảng phân phối ba biến output: Roughness, Tension strength và Elongation
2. Làm sạch dữ liệu

Tạo data tên data_2 để lọc các dữ liệu output.
Kiểm tra dữ liệu khuyết của dữ liệu vừa tạo :

Nhận xét: Kết quả cho thấy dữ liệu không có ô nào trong bảng không có dữ liệu
3. Kiểm tra dữ liệu ngoại lai (outlier)
Kiểm tra các dữ liệu ngoại lai bằng cách tạo data tên outlier_finding_data, sau đó tìm
các giá trị Q1; Q3; IQR và sau đó in ra kết quả có bao nhiêu biến ngoại lai.
Kết quả
Sau đó lọc biến outliers từ data và data_2
Kết quả:
PHẦN 4: THỐNG KÊ MÔ TẢ
1. Tóm tắt dữ liệu:
2. Lập bảng tần số cho các biến phân loại.

- Infill_pattern:
Dòng lệnh:
Kết quả:
- Material:
Dòng lệnh:
Kết quả:
3. Vẽ biểu đồ Histogram
+ Biểu đồ Histogram thể hiện phân phối cho biến tension_strenght.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên phải.
- Phân bố tần số cao nhất trong khoảng 25 – 30, thấp nhất trong khoảng 35 – 40.
+ Biểu đồ Histogram thể hiện phân phối cho biến elongation.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên phải.
- Phân bố tần số cao nhất trong khoảng 1.0 – 1.5, thấp
nhất trong khoảng 0.0 – 0.5.
+ Biểu đồ Histogram thể hiện phân phối cho biến
roughness.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên trái.
- Phân bố tần số cao nhất trong khoảng 50 – 100 &
150 – 200, thấp nhất trong khoảng 300 – 400.
4. Vẽ các đồ thị boxplot
4.1. Đồ thị boxplot thể hiện phân phối của tension_strenght theo các biến phân
loại.
- Tension_strenght & infill_pattern:
Dòng lệnh:
Kết quả:
Nhận xét: Không có sự khác biệt nhiều về phân

phối của tension_strenght ở 2 nhóm infill_pattern,
ta dự đoán yếu tố infill_pattern không ảnh hưởng
đến tension_strenght.
- Tension_strenght & material:
Dòng lệnh:
Kết quả:
Nhận xét: Có sự khác biệt về phân phối

tension_strenght ở 2 nhóm material (nhóm pla có
khoảng phân bố về tension_strenght thấp hơn so với
nhóm abs), ta dự đoán yếu tố material có ảnh hưởng
đến tension_strenght.
4.2. Đồ thị boxplot thể hiện phân phối của roughness theo các biến phân loại.
- Roughness & infill_pattern:
Dòng lệnh:
Kết quả:
- Roughness & material:
Dòng lệnh:
Kết quả:
4.3. Đồ thị boxplot thể hiện phân phối của elongation theo các biến phân loại.
- Elongation & infill_pattern:
Dòng lệnh:
Kết quả:
- Elongation & material:
Dòng lệnh:
Kết quả:
5. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến
tension_strenght và các biến liên tục.
- Tension_strenght & layer_height:
Dòng lệnh:
Kết quả:
- Tension_strenght & wall_thickness:
Dòng lệnh:
Kết quả:
- Tension_strenght & infill_density:

Dòng lệnh:
Kết quả:
- Tension_strenght & nozzle_temperature:
Dòng lệnh:
Kết quả:
- Tension_strenght & bed_temperature:
Dòng lệnh:
Kết quả:
- Tension_strenght & print_speed:

Dòng lệnh:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến
tính rất yếu với biến tension_strenght.
6. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến roughness và
các biến liên tục.
- Roughness & layer_height:
Dòng lệnh:
Kết quả:
- Roughness & wall_thickness:

Dòng lệnh:
Kết quả:
- Roughness & infill_density:
Dòng lệnh:
Kết quả:
- Roughness & nozzle_temperature:

Dòng lệnh:
Kết quả:
- Roughness & bed_temperature:
Dòng lệnh:
Kết quả:
- Roughness & print_speed:

Dòng lệnh:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến tính rất yếu với biến roughness.
7. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến elongation và
các biến liên tục.
- Elongation & layer_height:
Dòng lệnh:
Kết quả:
- Elongation & wall_thickness:

Dòng lệnh:
Kết quả:
- Elongation & infill_density:

Dòng lệnh:
Kết quả:
- Elongation & nozzle_temperature:

Dòng lệnh:
Kết quả:
- Elongation & bed_temperature:

Dòng lệnh:
Kết quả:
- Elongation & print_speed:

Dòng lệnh:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến tính rất yếu với biến elongation.
8. Vẽ đồ thị ma trận tương quan giữa các biến trong bộ dữ liệu
- Ma trận tương quan giữa các biến:
Dòng lệnh:
Kết quả:
- Vẽ đồ thị ma trận:
Dòng lệnh:
Kết quả:
Từ ma trận tương quan và đồ thị cho thấy:
- Hệ số tương quan giữa biến bed_temperature
và fan_speed = 1 nên có hiện tượng đa cộng
tuyến xảy ra (2 biến độc lập này có mối quan hệ
phụ thuộc) do đó ta sẽ loại bỏ 1 trong 2 biến này
khi xây dựng mô hình.
- Ở bài toán này ta chọn bỏ biến fan_speed. Từ
phần này trở đi, khi ta xây dựng mô hình, sẽ
không đưa biến fan_speed vào mô hình.
PHẦN 5 : THỐNG KÊ SUY DIỄN
Bài toán 1 mẫu :Tìm khoảng ước lượng cho trung bình tổng thể roughness với độ
tin cậy 0.95
1.1. Thông số dữ liệu đề bài

Trung bình mẫu = 170.58
Mẫu = 50
Độ tin cậy 95% → 95 = 12.179
16.004
Độ lệch chuẩn = 16.004 → = = = 2.2633
50
1.2. Giải thủ công

− 95−1 × < < + −1
95 ×
↔ 170.58 – 12.179 x 2.2633 < < 170.58 + 12.179 x 2.2633
↔ 142.4348 < < 198.7252
Vậy khoảng ước lượng cho trung bình tổng thể là (142.4348 ; 198.7252)
1.3. Code, kết quả và giải thích
- Kiểm tra phân phối chuẩn của roughness ta dùng qqplot :
qqnorm(data$roughness)
qqline(data$roughness)
Nhận xét : các chấm tròn phân bố xung quanh đường thẳng nên dữ liệu này có phân
phối chuẩn.
- Ước lượng bằng t test :
t.test(data$roughness,conf.level=0.95)
Kết quả :
* Giải thích
- Giá trị T tính được là 12.179 với bậc tự do là 49 và độ tin cậy là 95%
- Độ tin cậy 95% là nằm ở khoảng ước lượng trung bình mẫu là (142.4348 ; 198.7252)
- Giá trị trung bình của mẫu là 170.58
Bài toán 2 : Kiểm định so sánh 2 trung bình tổng thể độ nhám khi sử dụng 2 vật
liệu khác nhau là abs và pla dựa trên mẫu đã có, biết 2 mẫu này độc lập với nhau.
Giả thiết 0 : không có sự khác biệt về 2 trung bình tổng thể về độ nhám
Giả thiết 1 : có sự khác biệt về 2 trung bình tổng thể về độ nhá
2.1. Tạo 2 tệp dữ liệu con
Tách tệp dữ liệu thành 2 phần dựa trên vật liệu :
Sau đó dùng lệnh print để xem tệp dã chia đúng chưa :

2.2. Kiểm tra phân phối chuẩn
Ta dùng qqplot để kiểm tra phân phối chuẩn của độ nhám làm bằng vật liệu abs :
Kết quả :
Nhận xét : các chấm tròn phân bố xung quanh 1 đường thẳng, nên có phân phối chuẩn.
Ta dùng qqplot để kiểm tra phân phối chuẩn của độ nhám làm bằng vật liệu pla :
Kết quả :
Nhận xét : các chấm tròn phân bố xung quanh đường thẳng, nên có quy luật phân phối
chuẩn.
2.3 Kiểm tra sự khác biệt về phương sai của 2 mẫu
Giả thiết 0 : không có sự khác biệt về phương sai của 2 tổng thể
Giả thiết 1 : có sự khác biệt về phương sai của 2 tổng thể
Với mức ý nghĩa α=5%
Kết quả :
1
Nhận xét : tỉ lệ phương sai là 1.4957 ∈ ; 2 nên coi như không có sự khác biệt về
2
phương sai, p-value = 0.3881 lớn hơn 0.05 nên chưa thể bác bỏ 0. Vậy ta sẽ có thể
giả thiết là 2 mẫu không có khác biệt về phương sai.
2.4 Kiểm định t
Sử dụng t test để kiểm tra giả thiết ban đầu :
Kết quả :
Nhận xét : p-value = 0.298 lớn hơn 0.05 nên chưa thể bác bỏ 0 , khoảng tin cậy 95%
về sự chênh lệch giữa trung bình 2 tổng thể chứa giá trị 0 nên sự khác biệt giữa 2
nhóm là không đáng kể. Qua đó có thể nói không có sự khác biệt về độ nhám
roughness giữa hai nhóm vật liệu abs và pla.
Bài toán 3: Bài toán phân tích phương sai
Giả thuyết
- 0: không có sự khác biệt giữa các nhóm, các yếu tố được so sánh với kết quả
- Đối thiết 1: có sự khác biệt giữa các nhóm
3.1. Rougness
# Kiểm định lại mô hình roughness bằng ANOVA

anova_roughness <- anova(ln_roughness_2)
# Hiển thị kết quả

print("Anova cho roughness")
print(anova_roughness)
Nhận xét
-Nhìn vào bảng kết quả, ta thấy được ba biến layer_height, nozzle_temperature và
material có giá trị p-value rất nhỏ (dưới mức ý nghĩa thống kê 0.05) nên ta bác bỏ giả
thuyết 0 cho ba biến này. Trong khi đó, hai biến bed_temperature và print_speed
có giá trị p-value lớn hơn 0.05, cho thấy không có sự khác biệt đáng kể giữa các nhóm
về hai yếu tố này, nên ta chấp nhận giả thuyết 0 cho hai biến này. Vì vậy, hai biến
bed_temperature và print_speed không có ảnh hưởng đáng kể và không đóng vai
trò quan trọng đến roughness
- Tổng bình phương cho ba biến layer_height, nozzle_temperature và material lớn
hơn so với 2 biến bed_temperature và print_speed. Điều này cho thấy các yếu tố
layer_height, nozzle_temperature và material giải thích một phần lớn biến thiên
của dữ liệu, trong khi bed_temperaturen và print_speed giải thích một phần nhỏ
hơn sự biến thiên
3.2. Tension strength
# Kiểm định lại mô hình tension strength bằng ANOVA
anova_tension_strenght <- anova(ln_tension_strenght_2)

print("Anova cho tension strength")
print(anova_tension_strenght)
Nhận xét: Dựa vào bảng kết quả ANOVA, chúng ta có thể rút ra các nhận xét sau:
- Kết quả cho thấy bốn biến layer_height, wall_thickness, infill_density và
nozzle_temperature có giá trị p-value rất nhỏ (dưới mức ý nghĩa thống kê 0.05) nên
ta bác bỏ giả thuyết 0 cho nhóm này. Trong khi đó , các biến còn lại là
bed_temperature, print_speed và material có giá trị p-value lớn hơn 0.05 cho thấy
sự khác biệt đáng kể giữa các nhóm về ba yếu tố này. Điều này có thể chỉ ra rằng
trong mô hình này, ba yếu tố này không đóng vai trò quan trọng trong việc giải thích
biến động của tension_strenghth
- Tổng bình phương cho các biến layer_height, wall_thickness, infill_density và
nozzle_temperature là lớn hơn so với các biến bed_temperature, print_speed và
material. Điều này cho thấy các biến layer_height, wall_thickness, infill_density và
nozzle_temperature giải thích một phần lớn biến thiên của dữ liệu, trong khi
bed_temperature, print_speed và material giải thích một phần nhỏ hơn.
3.3. Elongation
# Kiểm định lại mô hình elongation bằng ANOVA
anova_elongation <- anova(ln_elongation_2)

print("Anova cho elongation")
print(anova_elongation)
Nhận xét: Dựa vào bảng phân tích phương sai trên, ta có thể rút ra các nhận xét sau:
- Giá trị p-value cho yếu tố layer_height, wall_thickness, nozzle_temperature và
material đều nhỏ hơn mức ý nghĩa thống kê 0.05 nên ta có thể bác bỏ 0 . Trong khi
đó, giá trị p-value cho yếu tố infill_density và bed_temperature lớn hơn mức ý
nghĩa thống kê 0.05. Điều này có nghĩa cho thấy không có đủ bằng chứng để kết luận
về sự khác biệt giữa các nhóm với hai yếu tố này.
*Dự đoán số liệu
Phương trình của 3 biến output có dạng:
Roughness = 1246.0000 × layer_height + 13.4564 × nozzle_temperature – 14.7605 ×
bed_temperature + 0.3640 × print_speed + 275.6474 × material –
2072.9207
Tension_Strenght = 55.29923 × layer_height + 1.00427 × wall_thickness + 0.16587 ×
infill_density – 0.94435 × nozzle_temperature + 0.81706 ×
bed_temperature + 0.10009 × print_speed – 14.73718 × material
+ 68.71971
Elognation = 6.452381 × layer_height + 0.036915 × wall_thickness + 0.008805 ×
infill_density – 0.101491 × nozzle_temperature + 0.089949 ×
bed_temperature – 1.684070 × material + 17.398855
Ta sẽ tạo data để dự đoán số liệu tên test_data và thế giá trị bất kì trong bảng
data.csv vào data mới
# Tạo test case

test_data <- data.frame(
layer_height = 0.15,
wall_thickness = 4,
infill_density = 50,
infill_pattern = 0,
nozzle_temperature = 220,
bed_temperature = 60,
print_speed = 60,
material = 1,
fan_speed = 0
)
# In kết quả dự đoán roughness

print(predict(ln_roughness_2, test_data))
# In kết quả dự đoán tension strength

print(predict(ln_tension_strenght_2, test_data))
# In kết quả dự đoán elongation

print(predict(ln_elongation_2, test_data))
## 1
## 486.2642
## 1
## 8.023634
## 1
## 0.3395485
Bài toán 4: Bài toán Hồi quy tuyến tính đơn
4.1. Mô hình hồi quy tuyến tính đa biến
Đầu tiên, tạo một data tên linear_regression_data cho mô hình hồi quy
linear_regression_data <- replace(data_BTL[data_BTL$print_speed != 120, ], c("grid",
"honeycomb", "abs", "pla"), c(0, 1, 0, 1))
Nhận xét:
Từ đáp án ở trên, ta thấy rằng ba biến wall_thickness, infill_density,
infill_pattern có hệ số p gần về 1, chưa đủ bằng chứng để bác bỏ H0 . Vì thế ta sẽ
loại 3 biến này ra khỏi mô hình.
Ta điều chỉnh lại mô hình:
Nhận xét: Sau khi hiệu chỉnh, ta thấy R2 mô hình 2=0,9065 cao hơn so với R2 ở
mô hình đầu tiên = 0,8988. Từ đó, ta có thể kết luận được rằng mô hình 2 hiệu quả
hơn mô hình 1.
Phân tích sự ảnh hưởng của các thông số đến độ nhám của máy in
- Mô hình hồi quy tuyến tính sau khi dự đoán có dạng:
Roughness= 1246.0000 x layer_height + 13.4564 x nozzle_temperature
- 14.7605 x bed_temperature + 0.3640 x print_speed
+ 275.6474 x material – 2072.9207
2
- Ta có R = 0.965. Nghĩa là 90.65% sự biến thiên độ nhám của máy in 3D được
giải thích bởi các biến input
- Dựa vào bảng Heatmap, ta đã rút ra kết luận được Roughness có quan hệ tuyến
tính mạnh với Layer_height. Nghĩa là, hệ số hồi quy của layer_height là
1246,000 thì với mỗi khi chiều cao mỗi lớp in tăng 1mm, ta có thể kỳ vọng độ
nhám của máy in sẽ tăng lên 1246
Kiểm tra mô hình: Đầu tiên, ta sẽ vẽ đồ thị để kiểm tra giả định mô hình trong
phân tích hồi quy đa biến
plot(ln_roughness_2l)
Nhận xét:
– Đồ thị Residuals vs Fitted: Nhìn vào đường màu đỏ, ta thấy đường màu đỏ
không nằm ngang trùng với đường nét đứt. Vì vậy, Giả định tuyến tính và sai số có
kì vọng bằng 0 không thỏa mãn.
– Đồ thị normal Q-Q: Nhìn vào đồ thị, ta thấy các giá trị nằm dọc theo đường nét
đứt nên giả định sai số phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Nhìn vào đồ thị, ta thấy đường màu đỏ không phải là
đường thẳng nằm ngang và các giá trị phân tán lộn xộn không theo dọc đường
màu đỏ nên giả định sai số có phương sai là hằng số không thỏa mãn.
– Residuals vs Leverage: Điểm 48, 41, 5 là những điểm có thể gây ảnh hưởng cao
trong dữ liệu. Tuy nhiên, các điểm này vẫn còn nằm ở trên, chưa vượt ra khỏi gạch
đứt Cook’s Distances.
4.2. Hồi quy tuyến tính cho tension_strenght
Tiếp theo, ta sẽ nghiên cứu xem mức độ ảnh hưởng của các thông số input trong
máy in 3D đến độ căng của bản in như thế nào.
Nhận xét: Sau khi ra được đáp án hệ số về mô hình, ta nhận thấy biến
infilll_pattern gần về 1 không có ý nghĩa đối với mô hình hồi quy vừa xây dựng,
do đó ta có thể loại bỏ biến này ra khỏi mô hình hồi quy
Ta điều chỉnh lại mô hình
Nhận xét: Từ kết quả trên, ta thấy R2 ở mô hình 2 = 0.5956 lớn hơn R2 ở mô hình
1. Từ đó ta đưa ra kết luận mô hình 2 hiệu quả hơn mô hình 1
Phân tích sự ảnh hưởng của các thống số điều chỉnh đến sức căng của bản in:
– Mô hình hồi quy tuyến tính của tension strength có dạng:
Tension strength = 55.29923 x layer_height + 1.00427 x wall_thickness
+ 0.16587 infill_density – 0.94435 x nozzle_temperature
+ 0.81706 x bed_temperature + 0.10009 x print_speed
- 14.73718 x material + 68.71971
– Hệ số R2 = 0.5956 nghĩa là có 59.26% sự biến thiên của sức căng được giải thích bởi
các biến độc lập
– Nhìn vào bảng kết quả, ta thấy hệ số hồi quy của layer_height 1 = 55. 29923,
nghĩa là khi chiều cao mỗi lớp tăng 1mm, ta có thể kỳ vọng sức căng sẽ tăng lên
55.29923 m về mặt trung bình.
Kiểm định các giả định mô hình: Đầu tiên, ta sẽ sử dụng hàm plot() để vẽ mô hình
kiểm định
plot(ln_tension_strenght_2)
Nhận xét:
– Đồ thị Residuals vs Fitted: Đường màu đỏ không phỉa là đường thẳng nằm ngang
và trùng với đường nét đứt, ta có thể kết luận rằng giả định tuyến tính của dữ liệu và
giả định sai sổ có phương sai là hằng số không thỏa mãn
– Đồ thị Normall Q-Q: Các giá trị nằm dọc theo đường nét đứt kỳ vọng phân phối
chuẩn nên giả định sai số có phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Đường màu đỏ không phải là đường thẳng nằm ngang và
các giá trị không phân tán dọc theo đường màu đỏ nên giả định sai số có phương sai là
hằng số không thỏa mãn
– Đồ thị Residuals vs Leverage:Ta nhận thấy điểm 40,16,11 nằm xa khỏi đường đỏ
nên những điểm này có thể gây ảnh hưởng cao trong bộ dữ liệu. Các điểm này chưa
vượt ra khỏi đường gạch đứt Cook’s Distance.
Cuối cùng, ta sẽ nghiên cứu mức độ ảnh hưởng của các thông số input trong máy in
3D đến độ giãn bản in như thế nào.
Xét phương trình tổng quát của hồi quy đa biến:
= 0 + 1 1 + 2 2 +..+ +
Elongation= 0 + 1. _ℎ ℎ + 2. _ℎ + .. +
8. +
Sau khi viết được chương trình của độ giãn, ta thực hiện ước lượng các hệ số
Nhận xét: Sau khi ra được kết quả, ta nhận thấy biến infill_pattern và print_speed
có giá trị dần về 1. Vì vậy, ta sẽ bỏ 2 biến này ra khỏi mô hình
Ta điều chỉnh lại mô hình.
Nhận xét: Ta thấy R2 ở mô hình 2 = 0.6491 lớn hơn R2 ở mô hình 1, ta có thể kết luận
rằng mô hình 2 hiệu quả hơn mô hình 1.
Phân tích sự ảnh hưởng của các thống số điều chỉnh đến sức căng của bản in:
– Mô hình hồi quy tuyến tính của tension strength có dạng:
Elongation = 6.452381 x layer_height + 0.036915 x wall_thickness
+ 0.008805 x infill_density – 0.101491 x nozzle_temperature
+ 0.089949 x bed_temperature – 1.684070 x material + 17.398855
– Hệ số R2 = 0.6491 nghĩa là có 64.91% sự biến thiên của độ giãn được giải thích bởi
các biến độc lập
– Nhìn vào bảng kết quả, ta thấy hệ số hồi quy của layer_height 1 = 6.452381, nghĩa
là khi chiều cao mỗi lớp tăng 1mm, ta có thể kỳ vọng độ giãn sẽ tăng lên 6.452381 m
về mặt trung bình.
Kiểm định các giả định mô hình: Đầu tiên, ta sẽ sử dụng hàm plot() để vẽ mô hình
kiểm định
plot(ln_elongation_2)
Nhận xét:
– Đồ thị Residuals vs Fitted: Đường màu đỏ không phỉa là đường thẳng nằm ngang
và trùng với đường nét đứt, ta có thể kết luận rằng giả định tuyến tính của dữ liệu và
giả định sai sổ có phương sai là hằng số không thỏa mãn
– Đồ thị Normall Q-Q: Các giá trị nằm dọc theo đường nét đứt kỳ vọng phân phối
chuẩn nên giả định sai số có phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Đường màu đỏ không phải là đường thẳng nằm ngang và
các giá trị không phân tán dọc theo đường màu đỏ nên giả định sai số có phương sai là
hằng số không thỏa mãn
– Đồ thị Residuals vs Leverage:Ta nhận thấy điểm 15,50,40 nằm xa khỏi đường đỏ
nên những điểm này có thể gây ảnh hưởng cao trong bộ dữ liệu. Các điểm này chưa
vượt ra khỏi đường gạch đứt Cook’s Distance.
PHẦN 6: THẢO LUẬN VÀ MỞ RỘNG
Ưu điểm của phương pháp hồi quy chính là một phương pháp thống kê để thiết
lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mô
hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội
(hay còn gọi là hồi quy đa biến).
Bài toán được sử dụng chủ yếu trong bài báo cáo này là phân tích phương sai,
mục đích là kiểm định giả thuyết H0 rằng trung bình của các tổng thể bằng nhau. Sau
khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết H0 hoặc
bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc. Nếu bác bỏ
giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằng nhau.
Nhược điểm là chúng ta phải phân tích sâu hơn để xác định nhóm (tổng thể)
nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Trong chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương
pháp Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly Significant
Differences).
Từ những phương pháp này mà đề tài đã đánh giá được hiệu quả những yếu tố
của biến ảnh hướng đến các sức căng bề in 3D theo như bài toán đã được đặt ra.
PHẦN 7. NGUỒN DỮ LIỆU VÀ NGUỒN CODE
Link dữ liệu: https://www.kaggle.com/afumetto/3dprinter
PHẦN 8 :TÀI LIỆU THAM KHẢO
1.Nguyễn Đình Huy, Đậu Thế Cấp và Lưu Xuân Đại (2019), Giáo trình Xác
suất Thống kê, Nxb. ĐHQG Tp Hồ Chí Minh, Tp Hồ Chí Minh.
2.Nguyễn Tiến Dũng, Đỗ Đức Thái, Nhập môn hiện đại Xác suất & Thống kê, 2015
3.Nguyễn Văn Tuấn, Xử lí số liệu và biểu đồ bằng R.
4. Video hướng dẫn trọn bộ R Thầy Nguyễn Văn Tuấn
Truy cập theo link : https://www.youtube.com/@drnguyenvtuan/playlists

Bài tập lớn môn Xác suất thống kê

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bài tập lớn môn Xác suất thống kê

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN

Giáo viên hướng dẫn: Nguyễn Kiều Dung

STT Họ và tên MSSV Lớp Khoa

TP. Hồ Chí Minh, tháng 5 năm 2024

1 Hoàng Văn Khoan 2111549 Phần 3, phần 4, 100%

PHẦN 2: KIẾN THỨC NỀN

Ta có thể viết: TSS = ESS+ RSS

PHẦN 3: TIỀN XỬ LÝ SỐ LIỆU

Đọc dữ liệu của tệp tin vào R và xuất kết quả

2. Làm sạch dữ liệu

Kiểm tra dữ liệu khuyết của dữ liệu vừa tạo :

Sau đó lọc biến outliers từ data và data_2

2. Lập bảng tần số cho các biến phân loại.

Nhận xét: Không có sự khác biệt nhiều về phân

Nhận xét: Có sự khác biệt về phân phối

- Tension_strenght & infill_density:

- Tension_strenght & print_speed:

- Roughness & wall_thickness:

- Roughness & nozzle_temperature:

- Roughness & print_speed:

- Elongation & wall_thickness:

- Elongation & infill_density:

- Elongation & nozzle_temperature:

- Elongation & bed_temperature:

- Elongation & print_speed:

1.1. Thông số dữ liệu đề bài

1.2. Giải thủ công

Sau đó dùng lệnh print để xem tệp dã chia đúng chưa :

# Kiểm định lại mô hình roughness bằng ANOVA

# Hiển thị kết quả

# Hiển thị kết quả

# Hiển thị kết quả

# Tạo test case

# In kết quả dự đoán roughness

# In kết quả dự đoán tension strength

# In kết quả dự đoán elongation

PHẦN 8 :TÀI LIỆU THAM KHẢO

You might also like