Professional Documents
Culture Documents
Tieu Luan XSTK
Tieu Luan XSTK
Nội dung
Tập dữ liệu này đã được thu thập trong thời gian thực, sử dụng nhiều API lưu lượng truy
cập. Hiện tại, nó chứa dữ liệu tai nạn được thu thập từ tháng 2 năm 2016 đến tháng 12
năm 2021 cho Hoa Kỳ tiếp giáp.
Cảm hứng: Nghiên cứu chiều dài của phạm vi đường bị ảnh hưởng bởi vụ tai nạn có bị
ảnh hưởng bởi mức độ tai nạn xảy ra hay không? Và mức độ nghiêm trọng của các vụ tai
nạn có bị ảnh hưởng bởi các điều kiện thời tiết hay không?....
+ Dữ liệu định lượng:
Các cột thuộc Thang đo khoảng và Thang đo tỷ lệ
1. Start_Lat: Vĩ độ trong tọa độ GPS của điểm bắt đầu
2. Start_Lng: Kinh độ trong tọa độ GPS của điểm bắt đầu.
3. End_Lat - Vĩ độ trong tọa độ GPS của điểm kết thúc
4. End_Lng- Kinh độ trong tọa độ GPS của điểm kết thúc
5. Distance.mi.: Chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai nạn (Dặm)
6. Temperature.F.: Nhiệt độ (tính bằng F)
7. Wind_Chill.F. : Gió lạnh (tính bằng F)
8. Humidity... Độ ẩm (tính bằng %)
9. Pressure.in.: Áp suất không khí
10. Visibility.mi.: Tầm nhìn (tính bằng dặm)
11. Wind_Speed.mph: tốc độ gió (dặm/giờ)
12. Precipitation.in: Lượng mưa (tính bằng inch)
Lệnh R
tb=read.csv("US_Accidents_Dec21_updated.csv")
attach(tb)
head(tb)
Chọn các biến để phân tích trong toàn bộ bài tiểu luận:
Trung bình:
> mean(DL1)
[1] 0.2027973
Chiều dài TRUNG BÌNH của
phạm vị đường bị ảnh hưởng bởi
vụ tai nạn (dặm) có mức độ
nghiêm trọng là 1 là: 0.2027973
+ Tính các số đo trung tâm, số đo độ phân bố, số đo phân tán chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 2
>DL2=subset(Distance.mi.,Severity==2)
Trung vị Tính phân vị thứ 80 cho Chiều Độ lệch chuẩn Chiều dài
> median(DL2) dài của phạm vị đường bị ảnh của phạm vị đường bị ảnh
[1] 0.232
hưởng bởi vụ tai nạn (dặm) có hưởng bởi vụ tai nạn (dặm)
Ý Nghĩa: Cho biết 50% số vụ tai
nạn giao thông có mức độ nghiêm mức độ nghiêm trọng là 2: có mức độ nghiêm trọng là
trọng là 2 có Chiều dài của phạm > quantile(DL2,0.8) 2:
vị đường bị ảnh hưởng bởi vụ tai 80% > sd(DL2)
nạn (dặm) là 0.232 0.943 [1] 1.393914 (dặm)
80%
Ý nghĩa: độ phân tán của
Chiều dài của phạm vị
0.943
Y/N: Cho biết 80% số vụ tai nạn đường bị ảnh hưởng bởi vụ
giao thông có mức độ nghiêm tai nạn (dặm) có mức độ
trọng là 2 có Chiều dài của phạm
nghiêm trọng là 2 so với
vị đường bị ảnh hưởng bởi vụ tai
nạn (dặm) là 0.943 Chiều dài TRUNG BÌNH
của phạm vị đường bị ảnh
hưởng bởi vụ tai nạn (dặm)
có mức độ nghiêm trọng là
2 là : 1.393914 (dặm)
Phương sai về Chiều dài
của phạm vị đường bị ảnh
hưởng bởi vụ tai nạn (dặm)
có mức độ nghiêm trọng là
2 là:
> var(DL2)
[1] 1.942997
Trung bình:
> mean(DL2)
[1] 0.674301
Chiều dài TRUNG BÌNH của
phạm vị đường bị ảnh hưởng bởi
vụ tai nạn (dặm) có mức độ
nghiêm trọng là 2 là: 0.674301
+ Tính các số đo trung tâm, số đo độ phân bố, số đo phân tán chiều dài của phạm vị
đường bị ảnh hưởng bỏi vụ tai nạn (dặm) có mức độ nghiêm trọng là 3
>DL3=subset(Distance.mi.,Severity==3)
Các số đo trung tâm (hướng Các số đo độ phân bố Các số đo độ phân tán
tâm)
Mode: Tứ phân vị: >quantile(DL3) Khoảng biến thiên: Chiều
> P3=table(DL3) 0% 25% 50% 75% 100% dài của phạm vị đường bị
> which(P3==max(P3))
0 ảnh hưởng bởi vụ tai nạn
1
0 0.004 0.328 0.676 151.525 (dặm) có mức độ nghiêm
Nhận xét: “Chiều dài của phạm vị trọng là 3 là:
đường bị ảnh hưởng bởi vụ tai + Tứ phân vị thứ 1: Cho biết 25%
151.525 -0=151.525
nạn (dặm) có mức độ nghiêm số vụ tai nạn giao thông có mức độ
trọng là 3” xuất hiện nhiều nhất là nghiêm trọng là 3 có Chiều dài của (giá trị lớn nhất trừ giá trị
0 (dặm), nằm ở vị trí thứ 1 trên phạm vị đường bị ảnh hưởng bởi nhỏ nhất)
bảng tần số vụ tai nạn (dặm) là 0.004
Độ trải giữa của Chiều dài
Trung vị Tính phân vị thứ 80 cho Chiều Độ lệch chuẩn Chiều dài
> median(DL3) dài của phạm vị đường bị ảnh của phạm vị đường bị ảnh
[1] 0.328
hưởng bởi vụ tai nạn (dặm) có hưởng bởi vụ tai nạn (dặm)
Ý Nghĩa: Cho biết 50% số vụ tai
nạn giao thông có mức độ nghiêm mức độ nghiêm trọng là 3: có mức độ nghiêm trọng là
trọng là 3 có Chiều dài của phạm > quantile(DL3,0.8) 3:
vị đường bị ảnh hưởng bởi vụ tai 80% > sd(DL3)
nạn (dặm) là: 0.328 0.786 [1] 1.68561 (dặm)
80%
Ý nghĩa: độ phân tán của
Chiều dài của phạm vị
0.786
đường bị ảnh hưởng bởi vụ
Y/N: Cho biết 80% số vụ tai nạn
giao thông có mức độ nghiêm tai nạn (dặm) có mức độ
trọng là 3 có Chiều dài của phạm nghiêm trọng là 3 so với
vị đường bị ảnh hưởng bởi vụ tai
Chiều dài TRUNG BÌNH
nạn (dặm) là 0.786
của phạm vị đường bị ảnh
hưởng bởi vụ tai nạn (dặm)
có mức độ nghiêm trọng là
3 là : 1.68561 (dặm)
Phương sai về Chiều dài
của phạm vị đường bị ảnh
hưởng bởi vụ tai nạn (dặm)
có mức độ nghiêm trọng là
3 là:
> var(DL3)
[1] 2.841281
Trung bình:
> mean(DL3)
[1] 0.6188147
Chiều dài TRUNG BÌNH của
phạm vị đường bị ảnh hưởng bởi
vụ tai nạn (dặm) có mức độ
nghiêm trọng là 3 là: 0.6188147
+ Tính các số đo trung tâm, số đo độ phân bố, số đo phân tán chiều dài của phạm
vị đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 4
>DL4=subset(Distance.mi.,Severity==4)
Các số đo trung tâm (hướng Các số đo độ phân bố Các số đo độ phân tán
tâm)
Mode: Tứ phân vị: >quantile(DL4) Khoảng biến thiên: Chiều
> P4=table(DL4) 0% 25% 50% 75% 100% dài của phạm vị đường bị
> which(P4==max(P4))
0 ảnh hưởng bởi vụ tai nạn
1
0 0.182 0.521 1.426 152.543 (dặm) có mức độ nghiêm
Nhận xét: “Chiều dài của phạm vị trọng là 4 là:
đường bị ảnh hưởng bởi vụ tai + Tứ phân vị thứ 1: Cho biết 25%
152.543 -0=152.543
nạn (dặm) có mức độ nghiêm số vụ tai nạn giao thông có mức độ
trọng là 4” xuất hiện nhiều nhất là nghiêm trọng là 4 có Chiều dài của (giá trị lớn nhất trừ giá trị
0 (dặm), nằm ở vị trí thứ 1 trên phạm vị đường bị ảnh hưởng bởi nhỏ nhất)
bảng tần số vụ tai nạn (dặm) là 0.182
Độ trải giữa của Chiều dài
Trung bình:
> mean(DL4)
[1] 1.448978
Chiều dài TRUNG BÌNH của
phạm vị đường bị ảnh hưởng bởi
vụ tai nạn (dặm) có mức độ
nghiêm trọng là 4 là: 1.448978
+ Sử dụng biểu đồ phân phối tần số để mô tả phân phối: chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 2
>range(DL2)
[1] 0.000 155.186
>hist(DL2,breaks=seq(0,155.190,31.038),include.lowest=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai nạn
(dặm) có mức độ nghiêm trọng là 2 tập trung chủ yếu ở bên trái, không đối xứng, không
đều, cụ thể tập trung chủ yếu trong khoảng từ 0 đến 30
+ Sử dụng biểu đồ phân phối tần số để mô tả phân phối: chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 3.
> range(DL3)
[1] 0.000 151.525
> hist(DL3,breaks=seq(0,151.525,30.305),include.lowest=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai nạn
(dặm) có mức độ nghiêm trọng là 3 tập trung chủ yếu ở bên trái, không đối xứng, không
đều, cụ thể tập trung chủ yếu trong khoảng từ 0 đến 30
+ Sử dụng biểu đồ phân phối tần số để mô tả phân phối: chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 4.
> range(DL4)
[1] 0.000 152.543
> hist(DL4,breaks=seq(0,152.545,30.509),include.lowest=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai nạn
(dặm) có mức độ nghiêm trọng là 4 tập trung chủ yếu ở bên trái, không đối xứng, không
đều, cụ thể tập trung chủ yếu trong khoảng từ 0 đến 30
+ Sử dụng biểu đồ hộp và râu để mô tả giá trị ngoại biên của chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 1
>boxplot(DL1, horizontal=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai
nạn (dặm) có mức độ nghiêm trọng là 1 tập trung chủ yếu ở bên trái, không đối xứng.
Có rất nhiều giá trị ngoại biên ở bên phải
Giá trị tứ phân vị thứ 1: 0
Giá trị tứ phân vị thứ 2: 0
Giá trị tứ phân vị thứ 3: 0
+ Sử dụng biểu đồ hộp và râu để mô tả giá trị ngoại biên của chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 2
>boxplot(DL2,horizontal=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai
nạn (dặm) có mức độ nghiêm trọng là 2 tập trung chủ yếu ở bên trái, không đối xứng.
Có rất nhiều giá trị ngoại biên ở bên phải
Giá trị tứ phân vị thứ 1: 0.053
Giá trị tứ phân vị thứ 2: 0.232
Giá trị tứ phân vị thứ 3: 0.754
+ Sử dụng biểu đồ hộp và râu để mô tả giá trị ngoại biên của chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 3
>boxplot(DL3,horizontal=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai
nạn (dặm) có mức độ nghiêm trọng là 3 tập trung chủ yếu ở bên trái, không đối xứng.
Có rất nhiều giá trị ngoại biên ở bên phải
Giá trị tứ phân vị thứ 1: 0.004
Giá trị tứ phân vị thứ 2: 0.328
Giá trị tứ phân vị thứ 3: 0.676
+ Sử dụng biểu đồ hộp và râu để mô tả giá trị ngoại biên của chiều dài của phạm vị
đường bị ảnh hưởng bởi vụ tai nạn (dặm) có mức độ nghiêm trọng là 4
>boxplot(DL4,horizontal=T)
Nhận xét: Phân phối dữ liệu về chiều dài của phạm vị đường bị ảnh hưởng bởi vụ tai nạn
(dặm) có mức độ nghiêm trọng là 4 tập trung chủ yếu ở bên trái, không đối xứng. Có rất
nhiều giá trị ngoại biên ở bên phải
Giá trị tứ phân vị thứ 1: 0.182
Giá trị tứ phân vị thứ 2: 0.521
Giá trị tứ phân vị thứ 3: 1.426
2.2. Biến định tính: Severity (Mức độ nghiêm trọng của tai nạn) và Weather_Condition
(điều kiện thời tiết)
2.2.1. Phân tích:
- Phân tích bằng đại lượng thống kê mô tả
+ Mode: Mức độ nghiêm trọng của tai nạn xuất hiện nhiều nhất trong dữ liệu là mức độ
2, nằm ở vị trí thứ 2 trên bảng tần số.
Lệnh:
> which(table(Severity)==max(table(Severity)))
2
2
+ Mode: Điều kiện thời tiết xuất hiện nhiều nhất trong dữ liệu là Fair ,nằm ở vị trí thứ
17 trên bảng tần số.
Lệnh:
> which(table(Weather_Condition)==max(table(Weather_Condition)))
Fair
17
- Phân tích bằng biểu đồ
+ Sử dụng biểu đồ tròn để mô tả phân phối của Severity (Mức độ nghiêm trọng của tai
nạn)
> piepercent2 = round(100*table(Severity)/sum(table(Severity)), 1)
>pie(table(Severity),labels = piepercent2,radius = +1,col =c("white", "light blue",
"#FED966","yellow"))
>legend("topright",c("1","2","3","4"),cex=.9,fill=c("white", "light blue",
"#FED966","yellow"))
Nhận xét: Tỷ lệ số vụ tai nạn có mức độ nghiêm trọng ở mức 2 là cao nhất với 89%, thấp
nhất là ở mức 1 với tỷ lệ là 0.9(%), mức 3 và mức 4 có tỷ lệ lần lượt là: 5.5(%) và 4.6(%)
+ Sử dụng biểu đồ thanh để mô tả phân phối: các mức độ nghiêm trọng của tai nạn với
Sunrise_Sunset (Khoảng thời gian trong ngày (tức là ngày hoặc đêm) dựa trên mặt trời
mọc/mặt trời lặn)
>y=table(Severity,Sunrise_Sunset)
>barplot(y)
Nhận xét:
Vào ban ngày (tính từ lúc mặt trời mọc): thì số lượng tai nạn có mức độ nghiêm
trọng là 1 là ít nhất, mức độ 2 là cao nhất, mức độ 3 nhiều hơn mức độ 4 một chút
Vào buổi tối (tính từ lúc mặt trời lặn): thì số lượng tai nạn có mức độ nghiêm trọng
là 1 là ít nhất, mức độ 2 là cao nhất, mức độ 4 nhiều hơn mức độ 3 một chút.
+ Lập bảng tần số chéo cho chia tổ chiều dài của phạm vị đường bị ảnh hưởng bởi
vụ tai nạn (dặm) với mức độ nghiêm trọng của tai nạn
> range(Distance.mi.)
[1] 0.000 155.186
> chiato2=cut(Distance.mi.,breaks=seq(0,155.190,31.038),include.lowest=T)
> table(chiato2,Severity)
Thực hiện bài toán: Tính tỷ lệ số vụ tai nạn có chiều dài của phạm vị đường bị ảnh hưởng
bởi vụ tai nạn từ 0 đến 31 (dặm) chỉ tính trong mức độ nghiêm trong là 2:
Kết quả: 2532649/(2532649+40+12+2+3)*100(%)= 99.99775 (%)
THỐNG KỂ SUY DIỄN:
Lệnh
>tb=read.csv("US_Accidents_Dec21_updated.csv")
>tb=na.omit(tb2)
>attach(tb)
>head(tb)
Bài toán 2: Thực hiện bài toán ước lượng điểm cho tỷ lệ số vụ tai nạn xảy ra có lượng
mưa dưới 0.004346527 (inch) trong dữ liệu điều tra.
Bài làm:
> sum(Precipitation.in.< 0.004346527)/length(Precipitation.in.)*100
[1] 94.13636 (%)
Kết luận: Vậy ước lượng điểm cho tỷ lệ số vụ tai nạn xảy ra có lượng mưa dưới
0.004346527 (inch) trong dữ liệu điều tra là 94.13636 (%)
Bài toán 3: Thực hiện ước lượng điểm cho phương sai Lượng mưa khi có các vụ tai nạn
xảy ra theo dữ liệu điều tra.
> var(Precipitation.in.)
[1] 0.001814428
ước lượng điểm cho phương sai Lượng mưa khi có các vụ tai nạn xảy ra theo dữ liệu điều
tra là: 0.001814428 (inch2)
Bài toán 4: Thực hiện hiện ước lượng điểm cho độ lệch chuẩn của Lượng mưa khi có các
vụ tai nạn xảy ra theo dữ liệu điều tra.
> sd(Precipitation.in.)
[1] 0.0425961
ước lượng điểm cho độ lệch chuẩn của Lượng mưa khi có các vụ tai nạn xảy ra theo dữ
liệu điều tra là: 0.0425961 (inch)
3.2 Ước lượng khoảng
Bài toán 1: Thực hiện ước lượng khoảng 95% cho Lượng mưa trung bình khi có các vụ
tai nạn xảy ra theo dữ liệu điều tra.
>t.test(Precipitation.in.,conf.level=0.95)
Kết luận: Vậy ước lượng khoảng 95% cho Lượng mưa trung bình khi có các vụ tai nạn
xảy ra theo dữ liệu điều tra là: [0.004260748 , 0.004432307]
Bài toán 2: Thực hiện ước lượng khoảng 95% cho tỷ lệ số vụ tai nạn xảy ra có lượng
mưa dưới 0.004346527 (inch) trong dữ liệu điều tra.
Bài làm:
> sum(Precipitation.in.< 0.004346527)
891718
> length(Precipitation.in.)
947262
> prop.test(891718, 947262,conf.level=0.95,correct=F)
Kết luận: Vậy ước lượng khoảng 95% cho tỷ lệ số vụ tai nạn xảy ra có lượng mưa dưới
0.004346527 (inch) trong dữ liệu điều tra là: [0.9408887 , 0.9418350] , tức [94.09(%) ,
94.18(%)]
Bài toán 2: Thực hiện kiểm định tại mức ý nghĩa 5% cho tỷ lệ số vụ tai nạn xảy ra có
lượng mưa dưới 0.004346527 (inch) trong dữ liệu điều tra có là 94.13636 (%) hay
không?
Bài làm:
Gọi p là tỷ lệ số vụ tai nạn xảy ra có lượng mưa dưới 0.004346527 (inch) trong dữ liệu
điều tra
Ho: p = 94.13636 %
H1: p # 94.13636 %
> sum(Precipitation.in.< 0.004346527)
891718
> length(Precipitation.in.)
947262
> prop.test(891718, 947262,p=0.9413636,alt=”t”,correct=F)
Kết luận: p-value = 0.9999 > mức ý nghĩa 0.05 => bác bỏ H1, chấp nhận Ho
Vây tai mức ý nghĩa 5%, đủ bằng chứng thống kê để cho rằng tỷ lệ số vụ tai nạn xảy ra
có lượng mưa dưới 0.004346527 (inch) trong dữ liệu điều tra là 94.13636 (%)
Bài toán 2: Thực hiện kiểm định tỷ lệ số vụ tai nạn xảy ra có lượng mưa dưới
0.004346527 (inch) trong mức độ nghiêm trọng tai nạn là 2 có thấp hơn tỷ lệ này trong
mức độ nghiêm trọng tai nạn là 3 hay không? Tại mức ý nghĩa 5%.
Bài làm:
Gọi p1, p2 lần lượt là tỷ lệ số vụ tai nạn xảy ra có lượng mưa không quá 0.004346527
(inch) trong mức độ nghiêm trọng tai nạn là 2,3
Ho: p1-p2 ≥ 0
H1: p1-p2 < 0
> sum(Precipitation.in.< 0.004346527&Severity==2)
[1] 841883
> sum(Precipitation.in.< 0.004346527&Severity==3)
[1] 12425
> sum(Severity==2)
[1] 893384
> sum(Severity==3)
[1] 13725
> prop.test(c(841883,12425),c(893384,13725),alt="l",correct=F)
Kết luận: p-value = 1 > mức ý nghĩa = 0.05 => bác bỏ H1, chấp nhận Ho.
Vậy tại mức ý nghĩa 5%, không đủ bằng chứng thống kê cho tỷ lệ số vụ tai nạn xảy ra có
lượng mưa dưới 0.004346527 (inch) trong mức độ nghiêm trọng tai nạn là 2 thấp hơn tỷ
lệ này trong mức độ nghiêm trọng tai nạn là 3.
Bài toán 3: Kiểm định độ biến động của lượng mưa khi tai nạn xảy ra ở mức độ
nghiêm trọng là 3 và 4 có như nhau hay không? Tại mức ý nghĩa 5%
Bài làm: gọi sigma2(1) , sigma2(2) lần lượt là độ biến động của lượng mưa khi tai nạn
xảy ra ở mức độ nghiêm trọng là 3, 4
Ho: sigma2(1) = sigma2(2) (như nhau)
H1: sigma2(1) # sigma2(2) (không như nhau)
> LM3=subset(Precipitation.in.,Severity==3)
> LM4=subset(Precipitation.in.,Severity==4)
> var.test(LM3,LM4,alt="t")
p-value < 2.2*10-16 < mức ý nghĩa 5% => bác bỏ Ho, chấp nhận H1.
Tại mức ý nghĩa 5%, không đủ bằng chứng thống kê cho rằng độ biến động của lượng
mưa khi tai nạn xảy ra ở mức độ nghiêm trọng là 3 và 4 là như nhau.
4.3. Bài toán Phân Tích Phương Sai.
Vấn đề đặt ra:
Kiểm định tại mức ý nghĩa 5% Chiều dài của phạm vị đường bị ảnh hưởng do tai nạn có
bị ảnh hưởng bởi mức độ nghiêm trọng của tai nạn hay không? Sau đó lập bảng phân tích
phương sai.
Bài làm:
Gọi µ1,µ2,µ3,µ4 lần lượt là Chiều dài trung bình của phạm vị đường bị ảnh hưởng bởi tai
nạn của các mức độ tai nạn nghiêm trọng 1,2,3,4.
Ho: µ1=µ2=µ3=µ4
H1: ∃ i,j ∈ {1,2,3,4} : µi # µj
> attach(tb)
> D=Severity
> D[Severity==1]="A"
> D[Severity==2]="B"
> D[Severity==3]="C"
> D[Severity==4]="D"
> anova(lm(Distance.mi.~D))
Kết luận: p-value < 2.2*10-16 < mức ý nghĩa= 0.05 => bác bỏ Ho, chấp nhận H1
Vậy tại mức ý nghĩa 5%, đủ bằng chứng thống kê cho rằng Chiều dài của phạm vị đường
bị ảnh hưởng do tai nạn có bị ảnh hưởng bởi mức độ nghiêm trọng của tai nạn.
4.5. Kiểm định tại mức ý nghĩa 5%, điều kiện thời tiết và mức độ nghiêm trọng của
tai nạn có mối liên hệ với nhau hay không?
Bài làm:
Ho: điều kiện thời tiết và mức độ nghiêm trọng của tai nạn độc lập với nhau
H1: điều kiện thời tiết và mức độ nghiêm trọng của tai nạn có mối liên hệ với nhau
> matran=table(Weather_Condition,D)
> chisq.test(matran)
Kết luận: p-value < 2.2*10-16 < mức ý nghĩa 5% => bác bỏ Ho, chấp nhận H1
Tại mức ý nghĩa 5%, đủ bằng chứng thống kê cho rằng điều kiện thời tiết và mức độ
nghiêm trọng của tai nạn có mối liên hệ với nhau.
Tổng kết
So sánh chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn của các mức độ
nghiêm trọng 1 2 3 4
1 2 3 4
Mode 0 0 0 0
Trung bình 0.2027973 0.674301 0.6188147 1.448978
Trung vị 0 0.232 0.328 0.521
Khoảng biến thiên 24.603 155.186 151.525 152.543
Độ trải giữa 0 0.701 0.672 1.244
Độ lệch chuẩn 1.012714 1.393914 1.68561 3.331298
Phương Sai 1.02559 1.942997 2.841281 11.09755
Cao Nhất 24.603 155.186 151.525 152.543
Thấp nhất 0 0 0 0
Kết luận:
Giống nhau:
+ chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn của các mức độ nghiêm trọng 1
2 3 4 xuất hiện nhiều nhất đều là 0 (dặm)
+ chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn của các mức độ nghiêm trọng 1
2 3 4 ngắn nhất đều là 0 (dặm)
Khác Nhau:
+ Ở các đại lượng trung vị, độ lệch chuẩn, Phương Sai: chiều dài của phạm vi đường
bị ảnh hưởng bởi tai nạn của các mức độ nghiêm trọng 1 2 3 4 có sự tăng dần từ 1 đến 4
+ Ở đại lượng trung bình thì: chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn
của các mức độ nghiêm trọng 1 là thấp nhất, 4 là cao nhất và mức độ nghiêm trọng 2 dài
hơn mức độ nghiêm trọng 3.
+ Ở đại lượng khoảng biến thiên thì: chiều dài của phạm vi đường bị ảnh hưởng bởi tai
nạn của các mức độ nghiêm trọng 1 là thấp nhất, 2 là cao nhất và mức độ nghiêm trọng 3
ngắn hơn mức độ nghiêm trọng 4.
+ Ở đại lượng độ trải giữa thì: chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn
của các mức độ nghiêm trọng 1 là thấp nhất, 4 là cao nhất và mức độ nghiêm trọng 2
ngắn hơn mức độ nghiêm trọng 3.
So sánh lượng mưa trung bình của các vụ tai nạn ứng với mức độ nghiêm trọng 1 2
34
> LM1=subset(Precipitation.in.,Severity==1)
> LM2=subset(Precipitation.in.,Severity==2)
> LM3=subset(Precipitation.in.,Severity==3)
> LM4=subset(Precipitation.in.,Severity==4)
> mean(LM1)
[1] 0.002877549
> mean(LM2)
[1] 0.004332583
> mean(LM3)
[1] 0.005712204
> mean(LM4)
[1] 0.0046631
Từ so sánh bằng thống kê mô tả và từ các bài toán kiểm định của thống kê suy diễn,
với phạm vi các biến định lượng và biến định tính mà nhóm đã chọn thì nhóm đưa
ra kết luận “chiều dài của phạm vi đường bị ảnh hưởng bởi tai nạn của các mức độ
nghiêm trọng 1 2 3 4 bị ảnh hưởng bởi các điều kiện thời tiết”
“lượng mưa trung bình khi có các tai nạn xảy ra ứng với các mức độ nghiêm
trọng 1,2,3,4 là khác nhau”
Vậy một trong nhiều nguyên nhân của các vụ tai nạn xảy ra với mức độ nghiêm trọng
tương ứng 1,2,3,4 có thể nói là do Điều Kiện Thời Tiết
Giải pháp cho vấn đề này là:
+ Khi thời tiết xấu những người tham gia giao thông nên giảm tốc độ lưu thông hoặc
dừng lại đợi nếu thời tiết quá xấu do mưa bão, gió to, hay có lốc xoáy.
+ Không vượt đèn đỏ, không lấn làn, lấn chiếm vỉa hè để đi nhanh hơn do thời tiết xấu vì
điều này rất dễ xảy ra tai nạn.