Professional Documents
Culture Documents
Bài tập lớn môn Xác suất thống kê
Bài tập lớn môn Xác suất thống kê
XÁC ĐỊNH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THÔNG SỐ ĐIỀU CHỈNH
TRONG MÁY IN 3D ĐẾN CHẤT LƯỢNG IN, ĐỘ CHÍNH XÁC VÀ ĐỘ BỀN.
của một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả
(dạng biến định lượng) đang nghiên cứu.
Bảng 2: Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS
2.1. Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương
pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi
hỏi một số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ hộp và râu là một thay
thế tốt trong tình huống số quan sát ít hơn. Nếu công cụ đồ thị cho thấy tập dữ liệu
mẫu khá phù hợp với phân phối bình thường đã thỏa mãn. Hình dưới mô tả biểu đồ
hộp râu cho tập dữ liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta. Đồ
thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu
hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối. Với số quan sát
không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thể chấp nhận
được.
Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm
nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong
trong mỗi tập dữ liệu mẫu không khác biệt nhau nhiều.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng
nhau là kiểm định Levene về phương sai của các tổng thể. Kiểm định này xuất phát từ
giả thuyết sau.
H0: 2 = 2 =…= 2
1 2
H1: Không phải tất cả các phương sai đều bằng nhau
Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
2
= 2
2 2
Trong đó là phương sai lớn nhất trong các nhóm nghiên cứu và là phương
sai nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị ( ; ); tra được từ bảng phân
phối Hartley Fmax (là bảng số 5 trong phần phụ lục). Trong đó k là số nhóm so sánh,
bậc tự do df tính theo công thức df = n − 1
∑ =1
Trong tình huống các nhóm ni khác nhau thì = (chú ý là nếu kết quả
tính là số thập phân thì ta lấy phần nguyên).
Quy tắc quyết định:
Fmax > ( ; ); thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại.
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho
thấy các giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa
mãn thì một phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định
phi tham số Krusksl-Wallis sẽ được áp dụng. Tuy nhiên trong ví dụ này ở đây, ta có
thể xem các giả định để tiến hành phân tích phương sai đã được thỏa mãn.
Kết quả:
Vẽ bảng phân phối ba biến output: Roughness, Tension strength và Elongation
Kiểm tra các dữ liệu ngoại lai bằng cách tạo data tên outlier_finding_data, sau đó tìm
các giá trị Q1; Q3; IQR và sau đó in ra kết quả có bao nhiêu biến ngoại lai.
Kết quả
Kết quả:
PHẦN 4: THỐNG KÊ MÔ TẢ
1. Tóm tắt dữ liệu:
- Material:
Dòng lệnh:
Kết quả:
3. Vẽ biểu đồ Histogram
+ Biểu đồ Histogram thể hiện phân phối cho biến tension_strenght.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên phải.
- Phân bố tần số cao nhất trong khoảng 25 – 30, thấp nhất trong khoảng 35 – 40.
+ Biểu đồ Histogram thể hiện phân phối cho biến elongation.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên phải.
- Phân bố tần số cao nhất trong khoảng 1.0 – 1.5, thấp
nhất trong khoảng 0.0 – 0.5.
+ Biểu đồ Histogram thể hiện phân phối cho biến
roughness.
Dòng lệnh:
Kết quả:
Nhận xét:
- Đồ thị có phân phối hơi lệch về phía bên trái.
- Phân bố tần số cao nhất trong khoảng 50 – 100 &
150 – 200, thấp nhất trong khoảng 300 – 400.
4. Vẽ các đồ thị boxplot
4.1. Đồ thị boxplot thể hiện phân phối của tension_strenght theo các biến phân
loại.
- Tension_strenght & infill_pattern:
Dòng lệnh:
Kết quả:
Dòng lệnh:
Kết quả:
4.2. Đồ thị boxplot thể hiện phân phối của roughness theo các biến phân loại.
- Roughness & infill_pattern:
Dòng lệnh:
Kết quả:
- Roughness & material:
Dòng lệnh:
Kết quả:
4.3. Đồ thị boxplot thể hiện phân phối của elongation theo các biến phân loại.
- Elongation & infill_pattern:
Dòng lệnh:
Kết quả:
- Elongation & material:
Dòng lệnh:
Kết quả:
5. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến
tension_strenght và các biến liên tục.
- Tension_strenght & layer_height:
Dòng lệnh:
Kết quả:
- Tension_strenght & wall_thickness:
Dòng lệnh:
Kết quả:
Kết quả:
- Tension_strenght & nozzle_temperature:
Dòng lệnh:
Kết quả:
- Tension_strenght & bed_temperature:
Dòng lệnh:
Kết quả:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến
tính rất yếu với biến tension_strenght.
6. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến roughness và
các biến liên tục.
- Roughness & layer_height:
Dòng lệnh:
Kết quả:
Kết quả:
- Roughness & infill_density:
Dòng lệnh:
Kết quả:
Kết quả:
- Roughness & bed_temperature:
Dòng lệnh:
Kết quả:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến tính rất yếu với biến roughness.
7. Vẽ các đồ thị phân tán thể hiện mối quan hệ tuyến tính giữa biến elongation và
các biến liên tục.
- Elongation & layer_height:
Dòng lệnh:
Kết quả:
Kết quả:
Kết quả:
Kết quả:
Kết quả:
Kết quả:
Nhận xét: Các biến còn lại đều có quan hệ tuyến tính rất yếu với biến elongation.
8. Vẽ đồ thị ma trận tương quan giữa các biến trong bộ dữ liệu
- Ma trận tương quan giữa các biến:
Dòng lệnh:
Kết quả:
- Vẽ đồ thị ma trận:
Dòng lệnh:
Kết quả:
Từ ma trận tương quan và đồ thị cho thấy:
- Hệ số tương quan giữa biến bed_temperature
và fan_speed = 1 nên có hiện tượng đa cộng
tuyến xảy ra (2 biến độc lập này có mối quan hệ
phụ thuộc) do đó ta sẽ loại bỏ 1 trong 2 biến này
khi xây dựng mô hình.
- Ở bài toán này ta chọn bỏ biến fan_speed. Từ
phần này trở đi, khi ta xây dựng mô hình, sẽ
không đưa biến fan_speed vào mô hình.
PHẦN 5 : THỐNG KÊ SUY DIỄN
Bài toán 1 mẫu :Tìm khoảng ước lượng cho trung bình tổng thể roughness với độ
tin cậy 0.95
* Giải thích
- Giá trị T tính được là 12.179 với bậc tự do là 49 và độ tin cậy là 95%
- Độ tin cậy 95% là nằm ở khoảng ước lượng trung bình mẫu là (142.4348 ; 198.7252)
- Giá trị trung bình của mẫu là 170.58
Bài toán 2 : Kiểm định so sánh 2 trung bình tổng thể độ nhám khi sử dụng 2 vật
liệu khác nhau là abs và pla dựa trên mẫu đã có, biết 2 mẫu này độc lập với nhau.
Giả thiết 0 : không có sự khác biệt về 2 trung bình tổng thể về độ nhám
Giả thiết 1 : có sự khác biệt về 2 trung bình tổng thể về độ nhá
2.1. Tạo 2 tệp dữ liệu con
Tách tệp dữ liệu thành 2 phần dựa trên vật liệu :
Nhận xét : các chấm tròn phân bố xung quanh 1 đường thẳng, nên có phân phối chuẩn.
Ta dùng qqplot để kiểm tra phân phối chuẩn của độ nhám làm bằng vật liệu pla :
Kết quả :
Nhận xét : các chấm tròn phân bố xung quanh đường thẳng, nên có quy luật phân phối
chuẩn.
2.3 Kiểm tra sự khác biệt về phương sai của 2 mẫu
Giả thiết 0 : không có sự khác biệt về phương sai của 2 tổng thể
Giả thiết 1 : có sự khác biệt về phương sai của 2 tổng thể
Với mức ý nghĩa α=5%
Kết quả :
1
Nhận xét : tỉ lệ phương sai là 1.4957 ∈ ; 2 nên coi như không có sự khác biệt về
2
phương sai, p-value = 0.3881 lớn hơn 0.05 nên chưa thể bác bỏ 0. Vậy ta sẽ có thể
giả thiết là 2 mẫu không có khác biệt về phương sai.
2.4 Kiểm định t
Sử dụng t test để kiểm tra giả thiết ban đầu :
Kết quả :
Nhận xét : p-value = 0.298 lớn hơn 0.05 nên chưa thể bác bỏ 0 , khoảng tin cậy 95%
về sự chênh lệch giữa trung bình 2 tổng thể chứa giá trị 0 nên sự khác biệt giữa 2
nhóm là không đáng kể. Qua đó có thể nói không có sự khác biệt về độ nhám
roughness giữa hai nhóm vật liệu abs và pla.
Bài toán 3: Bài toán phân tích phương sai
Giả thuyết
- 0: không có sự khác biệt giữa các nhóm, các yếu tố được so sánh với kết quả
- Đối thiết 1: có sự khác biệt giữa các nhóm
3.1. Rougness
Nhận xét
-Nhìn vào bảng kết quả, ta thấy được ba biến layer_height, nozzle_temperature và
material có giá trị p-value rất nhỏ (dưới mức ý nghĩa thống kê 0.05) nên ta bác bỏ giả
thuyết 0 cho ba biến này. Trong khi đó, hai biến bed_temperature và print_speed
có giá trị p-value lớn hơn 0.05, cho thấy không có sự khác biệt đáng kể giữa các nhóm
về hai yếu tố này, nên ta chấp nhận giả thuyết 0 cho hai biến này. Vì vậy, hai biến
bed_temperature và print_speed không có ảnh hưởng đáng kể và không đóng vai
trò quan trọng đến roughness
- Tổng bình phương cho ba biến layer_height, nozzle_temperature và material lớn
hơn so với 2 biến bed_temperature và print_speed. Điều này cho thấy các yếu tố
layer_height, nozzle_temperature và material giải thích một phần lớn biến thiên
của dữ liệu, trong khi bed_temperaturen và print_speed giải thích một phần nhỏ
hơn sự biến thiên
3.2. Tension strength
# Kiểm định lại mô hình tension strength bằng ANOVA
anova_tension_strenght <- anova(ln_tension_strenght_2)
Nhận xét: Dựa vào bảng kết quả ANOVA, chúng ta có thể rút ra các nhận xét sau:
- Kết quả cho thấy bốn biến layer_height, wall_thickness, infill_density và
nozzle_temperature có giá trị p-value rất nhỏ (dưới mức ý nghĩa thống kê 0.05) nên
ta bác bỏ giả thuyết 0 cho nhóm này. Trong khi đó , các biến còn lại là
bed_temperature, print_speed và material có giá trị p-value lớn hơn 0.05 cho thấy
sự khác biệt đáng kể giữa các nhóm về ba yếu tố này. Điều này có thể chỉ ra rằng
trong mô hình này, ba yếu tố này không đóng vai trò quan trọng trong việc giải thích
biến động của tension_strenghth
- Tổng bình phương cho các biến layer_height, wall_thickness, infill_density và
nozzle_temperature là lớn hơn so với các biến bed_temperature, print_speed và
material. Điều này cho thấy các biến layer_height, wall_thickness, infill_density và
nozzle_temperature giải thích một phần lớn biến thiên của dữ liệu, trong khi
bed_temperature, print_speed và material giải thích một phần nhỏ hơn.
3.3. Elongation
# Kiểm định lại mô hình elongation bằng ANOVA
anova_elongation <- anova(ln_elongation_2)
## 1
## 486.2642
## 1
## 8.023634
## 1
## 0.3395485
Bài toán 4: Bài toán Hồi quy tuyến tính đơn
4.1. Mô hình hồi quy tuyến tính đa biến
Đầu tiên, tạo một data tên linear_regression_data cho mô hình hồi quy
linear_regression_data <- replace(data_BTL[data_BTL$print_speed != 120, ], c("grid",
"honeycomb", "abs", "pla"), c(0, 1, 0, 1))
Nhận xét:
Từ đáp án ở trên, ta thấy rằng ba biến wall_thickness, infill_density,
infill_pattern có hệ số p gần về 1, chưa đủ bằng chứng để bác bỏ H0 . Vì thế ta sẽ
loại 3 biến này ra khỏi mô hình.
Ta điều chỉnh lại mô hình:
Nhận xét: Sau khi hiệu chỉnh, ta thấy R2 mô hình 2=0,9065 cao hơn so với R2 ở
mô hình đầu tiên = 0,8988. Từ đó, ta có thể kết luận được rằng mô hình 2 hiệu quả
hơn mô hình 1.
Phân tích sự ảnh hưởng của các thông số đến độ nhám của máy in
- Mô hình hồi quy tuyến tính sau khi dự đoán có dạng:
Roughness= 1246.0000 x layer_height + 13.4564 x nozzle_temperature
- 14.7605 x bed_temperature + 0.3640 x print_speed
+ 275.6474 x material – 2072.9207
2
- Ta có R = 0.965. Nghĩa là 90.65% sự biến thiên độ nhám của máy in 3D được
giải thích bởi các biến input
- Dựa vào bảng Heatmap, ta đã rút ra kết luận được Roughness có quan hệ tuyến
tính mạnh với Layer_height. Nghĩa là, hệ số hồi quy của layer_height là
1246,000 thì với mỗi khi chiều cao mỗi lớp in tăng 1mm, ta có thể kỳ vọng độ
nhám của máy in sẽ tăng lên 1246
Kiểm tra mô hình: Đầu tiên, ta sẽ vẽ đồ thị để kiểm tra giả định mô hình trong
phân tích hồi quy đa biến
plot(ln_roughness_2l)
Nhận xét:
– Đồ thị Residuals vs Fitted: Nhìn vào đường màu đỏ, ta thấy đường màu đỏ
không nằm ngang trùng với đường nét đứt. Vì vậy, Giả định tuyến tính và sai số có
kì vọng bằng 0 không thỏa mãn.
– Đồ thị normal Q-Q: Nhìn vào đồ thị, ta thấy các giá trị nằm dọc theo đường nét
đứt nên giả định sai số phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Nhìn vào đồ thị, ta thấy đường màu đỏ không phải là
đường thẳng nằm ngang và các giá trị phân tán lộn xộn không theo dọc đường
màu đỏ nên giả định sai số có phương sai là hằng số không thỏa mãn.
– Residuals vs Leverage: Điểm 48, 41, 5 là những điểm có thể gây ảnh hưởng cao
trong dữ liệu. Tuy nhiên, các điểm này vẫn còn nằm ở trên, chưa vượt ra khỏi gạch
đứt Cook’s Distances.
4.2. Hồi quy tuyến tính cho tension_strenght
Tiếp theo, ta sẽ nghiên cứu xem mức độ ảnh hưởng của các thông số input trong
máy in 3D đến độ căng của bản in như thế nào.
Nhận xét: Sau khi ra được đáp án hệ số về mô hình, ta nhận thấy biến
infilll_pattern gần về 1 không có ý nghĩa đối với mô hình hồi quy vừa xây dựng,
do đó ta có thể loại bỏ biến này ra khỏi mô hình hồi quy
Ta điều chỉnh lại mô hình
Nhận xét: Từ kết quả trên, ta thấy R2 ở mô hình 2 = 0.5956 lớn hơn R2 ở mô hình
1. Từ đó ta đưa ra kết luận mô hình 2 hiệu quả hơn mô hình 1
Phân tích sự ảnh hưởng của các thống số điều chỉnh đến sức căng của bản in:
– Mô hình hồi quy tuyến tính của tension strength có dạng:
Tension strength = 55.29923 x layer_height + 1.00427 x wall_thickness
+ 0.16587 infill_density – 0.94435 x nozzle_temperature
+ 0.81706 x bed_temperature + 0.10009 x print_speed
- 14.73718 x material + 68.71971
– Hệ số R2 = 0.5956 nghĩa là có 59.26% sự biến thiên của sức căng được giải thích bởi
các biến độc lập
– Nhìn vào bảng kết quả, ta thấy hệ số hồi quy của layer_height 1 = 55. 29923,
nghĩa là khi chiều cao mỗi lớp tăng 1mm, ta có thể kỳ vọng sức căng sẽ tăng lên
55.29923 m về mặt trung bình.
Kiểm định các giả định mô hình: Đầu tiên, ta sẽ sử dụng hàm plot() để vẽ mô hình
kiểm định
plot(ln_tension_strenght_2)
Nhận xét:
– Đồ thị Residuals vs Fitted: Đường màu đỏ không phỉa là đường thẳng nằm ngang
và trùng với đường nét đứt, ta có thể kết luận rằng giả định tuyến tính của dữ liệu và
giả định sai sổ có phương sai là hằng số không thỏa mãn
– Đồ thị Normall Q-Q: Các giá trị nằm dọc theo đường nét đứt kỳ vọng phân phối
chuẩn nên giả định sai số có phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Đường màu đỏ không phải là đường thẳng nằm ngang và
các giá trị không phân tán dọc theo đường màu đỏ nên giả định sai số có phương sai là
hằng số không thỏa mãn
– Đồ thị Residuals vs Leverage:Ta nhận thấy điểm 40,16,11 nằm xa khỏi đường đỏ
nên những điểm này có thể gây ảnh hưởng cao trong bộ dữ liệu. Các điểm này chưa
vượt ra khỏi đường gạch đứt Cook’s Distance.
Cuối cùng, ta sẽ nghiên cứu mức độ ảnh hưởng của các thông số input trong máy in
3D đến độ giãn bản in như thế nào.
Xét phương trình tổng quát của hồi quy đa biến:
= 0 + 1 1 + 2 2 +..+ +
Elongation= 0 + 1. _ℎ ℎ + 2. _ℎ + .. +
8. +
Sau khi viết được chương trình của độ giãn, ta thực hiện ước lượng các hệ số
Nhận xét: Sau khi ra được kết quả, ta nhận thấy biến infill_pattern và print_speed
có giá trị dần về 1. Vì vậy, ta sẽ bỏ 2 biến này ra khỏi mô hình
Ta điều chỉnh lại mô hình.
Nhận xét: Ta thấy R2 ở mô hình 2 = 0.6491 lớn hơn R2 ở mô hình 1, ta có thể kết luận
rằng mô hình 2 hiệu quả hơn mô hình 1.
Phân tích sự ảnh hưởng của các thống số điều chỉnh đến sức căng của bản in:
– Mô hình hồi quy tuyến tính của tension strength có dạng:
Elongation = 6.452381 x layer_height + 0.036915 x wall_thickness
+ 0.008805 x infill_density – 0.101491 x nozzle_temperature
+ 0.089949 x bed_temperature – 1.684070 x material + 17.398855
– Hệ số R2 = 0.6491 nghĩa là có 64.91% sự biến thiên của độ giãn được giải thích bởi
các biến độc lập
– Nhìn vào bảng kết quả, ta thấy hệ số hồi quy của layer_height 1 = 6.452381, nghĩa
là khi chiều cao mỗi lớp tăng 1mm, ta có thể kỳ vọng độ giãn sẽ tăng lên 6.452381 m
về mặt trung bình.
Kiểm định các giả định mô hình: Đầu tiên, ta sẽ sử dụng hàm plot() để vẽ mô hình
kiểm định
plot(ln_elongation_2)
Nhận xét:
– Đồ thị Residuals vs Fitted: Đường màu đỏ không phỉa là đường thẳng nằm ngang
và trùng với đường nét đứt, ta có thể kết luận rằng giả định tuyến tính của dữ liệu và
giả định sai sổ có phương sai là hằng số không thỏa mãn
– Đồ thị Normall Q-Q: Các giá trị nằm dọc theo đường nét đứt kỳ vọng phân phối
chuẩn nên giả định sai số có phân phối chuẩn thỏa mãn
– Đồ thị Scale Location: Đường màu đỏ không phải là đường thẳng nằm ngang và
các giá trị không phân tán dọc theo đường màu đỏ nên giả định sai số có phương sai là
hằng số không thỏa mãn
– Đồ thị Residuals vs Leverage:Ta nhận thấy điểm 15,50,40 nằm xa khỏi đường đỏ
nên những điểm này có thể gây ảnh hưởng cao trong bộ dữ liệu. Các điểm này chưa
vượt ra khỏi đường gạch đứt Cook’s Distance.
PHẦN 6: THẢO LUẬN VÀ MỞ RỘNG
Ưu điểm của phương pháp hồi quy chính là một phương pháp thống kê để thiết
lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mô
hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội
(hay còn gọi là hồi quy đa biến).
Bài toán được sử dụng chủ yếu trong bài báo cáo này là phân tích phương sai,
mục đích là kiểm định giả thuyết H0 rằng trung bình của các tổng thể bằng nhau. Sau
khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết H0 hoặc
bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc. Nếu bác bỏ
giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằng nhau.
Nhược điểm là chúng ta phải phân tích sâu hơn để xác định nhóm (tổng thể)
nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Trong chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương
pháp Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly Significant
Differences).
Từ những phương pháp này mà đề tài đã đánh giá được hiệu quả những yếu tố
của biến ảnh hướng đến các sức căng bề in 3D theo như bài toán đã được đặt ra.
PHẦN 7. NGUỒN DỮ LIỆU VÀ NGUỒN CODE
Link dữ liệu: https://www.kaggle.com/afumetto/3dprinter
1.Nguyễn Đình Huy, Đậu Thế Cấp và Lưu Xuân Đại (2019), Giáo trình Xác
suất Thống kê, Nxb. ĐHQG Tp Hồ Chí Minh, Tp Hồ Chí Minh.
2.Nguyễn Tiến Dũng, Đỗ Đức Thái, Nhập môn hiện đại Xác suất & Thống kê, 2015
3.Nguyễn Văn Tuấn, Xử lí số liệu và biểu đồ bằng R.
4. Video hướng dẫn trọn bộ R Thầy Nguyễn Văn Tuấn
Truy cập theo link : https://www.youtube.com/@drnguyenvtuan/playlists