Professional Documents
Culture Documents
2021 THKHSS
2021 THKHSS
2021 THKHSS
1
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
2
Chương 1
1.1.1 R là gì?
R là một phần mềm thống kê được sử dụng để phân tích dữ liệu và vẽ biểu đồ. Thực
ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu
khác nhau, từ tính toán đơn giản, tính toán ma trận, đến các phân tích thống kê phức
tạp.
R là một ngôn ngữ lập trình và môi trường phần mềm cho phân tích thống kê, trình
bày đồ thị và viết báo cáo. R được tạo ra bởi Ross Ihaka và Robert Gentleman tại
Đại Học Auckland, New Zealand và hiện tại được phát triển bởi “R Development Core
Team”.
R xuất hiện lần đầu vào năm 1993. Khi đó một nhóm lớn, các cá nhân đã đóng góp vào
R bằng việc gửi code và báo cáo lỗi. Từ giữa 1997, có một nhóm trụ cột “R Development
Core Team” là những người có thể chỉnh sửa trên kho lưu trữ mã nguồn R.
Ngôn ngữ này được đặt tên R, dựa trên ký tự đầu của tên của hai tác giả (Robert
Gentleman và Ross Ihaka).
3
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
1.2.1 Ưu điểm
2. R là một gói phân tích dữ liệu với nhiều chức năng thống kê tiên tiến.
3. R được sử dụng rộng rãi trong các ngành khoa học chính trị, thống kê, kinh tế
lượng, khoa học bảo hiểm, xã hội học, tài chính, . . .
4. R là một ngôn ngữ lập trình, vì vậy các khả năng của nó có thể được mở rộng một
cách dễ dàng thông qua việc sử dụng các hàm do người dùng định nghĩa. Một tập
hợp các hàm và gói lệnh được đóng góp từ người dùng có thể được tìm thấy trên
CRAN’s Contributed Packages.
5. Chạy trên mọi nền tảng máy tính – Linux, Window, Mac.
6. R là ngôn ngữ hướng đối tượng. Hầu như bất cứ điều gì (chẳng hạn các cấu trúc
dữ liệu phức tạp) có thể được lưu trữ như một đối tượng R.
8. R tạo ra những biểu đồ với chất lượng cao (chuẩn bài báo khoa học).
10. R cung cấp một bộ các phép toán để tính toán trên mảng, danh sách, vector, và
ma trận.
1. Không dễ để bắt đầu các phân tích với R – cần thiết phải học các kiến thức cơ bản
về cú pháp và các lệnh cơ bản.
2. Hầu như không có giao diện đồ họa người dùng (GUI) mà chỉ có dòng lệnh.
3. Ta cần tìm kiếm các lệnh khả thi tốt nhất trong nhiều gói lệnh.
4. Mọi bảng, đồ thị phải được “lập trình” – không được tạo ra bằng cách click chuột.
4
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Truy cập https://cran.r-project.org/ , trong mục “Download and Install R”, ta chọn
một trong các đường dẫn sau để cài đặt R cho các hệ điều hành khác nhau:
Nhấp vào base và chọn Download R 3.x.x Đây là giao diện của R.
Truy cập https://www.rstudio.com, chọn Download RStudio, sau đó chọn mục down-
load free, cuối cùng chọn hệ điều hành phù hợp. Tải về và cài đặt bình thường. Đây là
giao diện của RStudio.
5
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Khi làm việc với R, chúng ta nên viết và thực thi các dòng lệnh trên cửa sổ Editor
(Script).
• Mở cửa sổ Editor (Script): File → New File → R Script hoặc tổ hợp phím
Ctrl+Shift+N.
• Lưu file Script: File → Save → Thư mục lưu trữ → Đặt tên file.
• Mở lại file Script: File → Open Script → Thư mục lưu trữ → file cần mở.
Chú ý: Thực thi dòng lệnh bằng cách đặt con trỏ tại dòng lệnh cần thực thi (bất kỳ
vị trí nào ở dòng đó) và nhấn tổ hợp phím Ctrl+Enter.
6
Chương 2
1) a cộng b: a+b
2) a trừ b: a-b
3) a nhân b: a*b
4) a chia b: a/b
5) phần nguyên của a chia b: a%/%b
6) phần dư của a chia b: a%%b
7) x lũy thừa n: x^n hay x**n
8) a mũ x: a^x
9) e mũ x: exp(x)
10) căn bậc hai của x: sqrt(x) hay x^(1/2)
11) căn bậc n của x: x^(1/n)
12) giá trị tuyệt đối của x: abs(x)
13) logarit cơ số a của x: log(x, base = a) hay logb(x, base = a)
14) logarit cơ số 2 của x: log(x, base = 2) hay log2(x)
15) logarit cơ số 10 của x: log(x, base = 10) hay log10(x)
16) logarit cơ số e của x: log(x, base = exp(1)) hay log(x)
17) các hàm lượng giác: sin(x), cos(x), tan(x)
18) các hàm ngược của hàm lượng giác: asin(x), acos(x), atan(x)
19) hàm tính tổng: sum()
7
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Ví dụ 2.1.
> abs(-30) # gia tri tuyet doi cua -30
[1] 30
> sqrt(36) # can bac hai cua 36
[1] 6
> -8^(1/3) # can bac ba cua -8
[1] -2
> sin(pi/6)
[1] 0.5
> asin(0.5) # arcsin cua 0.5
[1] 0.5235988
> exp(3) # Gia tri cua e^3
[1] 20.08554
> log(exp(3)) # Logarit tu nhien cua e^3
{[1] 3
> log10(10000) # Logarit co so 10 cua 10000
[1] 4
> logb(9,3) # Logarit co so3 cua 9
[1] 2
> x=1:10
> sum(x) # Tong 1+2+3+...+10
[1] 55
> sum(x^2) # Tong binh phuong: 1^2 + 2^2 +...+ 10^2
[1] 385
> sum(x)^2 # Binh phuong cua tong (1+2+3+...+10)^2
[1] 3025
> prod(x) # Tich 1.2.3...10
[1] 3628800
> prod(x^2) # Tich binh phuong 1^2.2^2...10^2
[1] 1.316819e+13
> factorial(5) # Giai thua cua 5
[1] 120
> factorial(5)/factorial(5-2) # Chinh hop cua 5 chap 2
[1] 20
> choose(5,2)# To hop cua 5 chap 2
8
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
[1] 10
1) a bằng b: a == b
2) a không bằng b: a!=b
3) a nhỏ hơn b: a<b
4) a nhỏ hơn hay bằng b: a<=b
5) a lớn hơn b: a>b
6) a lớn hơn hay bằng b: a>=b
7) không phải a: !a
8) a hoặc b: a|b
9) a và b: a&b
Đây là dữ liệu dạng logic (TRUE hoặc FALSE) để xác định chân trị của một vấn đề.
Chú ý: dấu “=” trong R là phép gán giá trị còn dấu “==” mới thật sự là phép so sánh
thông thường.
Ví dụ 2.2.
> 99<100 > 99>100 > 99>=100
[1] TRUE [1] FALSE [1] FALSE
> 100>100 > 100<=100 > (2+2)!=5
[1] FALSE [1] TRUE [1] TRUE
> !((2+2)==5) > !(2<3)
[1] TRUE [1] FALSE
> ((2+2)==4)&((2+2)==5) > ((2+2)==4)|((2+2)==5)
[1] FALSE [1] TRUE
> !(2<3)&(3<=4) > (2!=3)|(2==3)}
[1] FALSE [1] TRUE
- seq(from = ,to = ,by = ) hoặc seq(from = ,to = ,len = ), tạo phần tử liên
tiếp.
- Sắp xếp các thành phần của vector x theo thứ tự giảm dần/ tăng dần:
sort(x,decreasing = TRUE/FALSE)
order(x) hoặc order(-x)
2.1.5 Tổ hợp
Cho tập hợp gồm n phần tử. Mỗi tập con gồm k phần tử (1 ≤ k ≤ n) của A được gọi
là một tổ hợp chập k của n phần tử. Số các tổ hợp chập k của n phần tử được ký hiệu
và xác định bởi
n!
Cnk = .
k!(n − k)!
Câu lệnh trong R:
choose(n,k)
Ngoài ra, ta có thể viết hàm để tính tổ hợp:
C = function(n,k)
{factorial(n)/(factorial(k)*factorial(n-k))}
Cho tập hợp gồm n phần tử. Mỗi tập con gồm k phần tử (1 ≤ k ≤ n), phần tử của A
theo một thứ tự nào đó được gọi là một chỉnh hợp chập k của n phần tử. Số chỉnh hợp
chập k của n phần tử được ký hiệu và xác định bởi
n!
Akn = .
(n − k)!
11
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
A = function(n,k)
{factorial(n)/factorial(n-k)}
a) 3! + 4 · 5! − 6!.
b) 1! + 2! + · · · + 20!.
c) 1 − 2 + 3 − 4 + · · · + 99 − 100.
23 13 7
d) C25 − C15 − 3C10 .
0 1 10
e) C10 + C10 + · · · + C10 .
2 k 10
1 C10 C10 C10
f) C10 + 2 1 + · · · + k k−1 + · · · + 10 9 .
C10 C10 C10
P100 1
g) j=1 j 2 . h) A210 .
A515 + A210
i) A57 − A25 . j) .
A59
P10 k
Q10 k
k) k=1 A10 . l) k=1 A10 .
10
A59 Y 1
m) − 2!A210 . n) √ √ .
4 n=1
n+ n+1
Bài tập 2.1.2.
12
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
A4k+4 143
xk = − , k = 1, . . . , 10.
(k + 2)! 4 · k!
c) Các số hạng không âm là các số hạng thứ bao nhiêu trong dãy.
14
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Trong đó, sep là tham số để tạo ngăn cách các cột, row.names mặc định là TRUE
xuất ra chỉ số thứ tự của các dòng. Do đó, ta phải chọn FALSE không xuất ra các
chỉ số đó.
• Lưu tất cả các công việc đã làm thành file text: File/Save as File. . .
> diem
name age gender group score
1 An 17 male group 1 12
2 Binh 19 male group 1 10
3 Hai 21 male group 1 11
4 Nguyen 37 male group 2 15
5 Trung 18 male group 2 16
6 Thuy 19 female group 2 14
7 Van 47 female group 3 25
8 Mai 18 female group 3 21
9 Thao 19 female group 3 29
Đôi khi, chúng ta đọc các file tài liệu như word, excel, pdf, sách điện tử (nói chung
tài liệu điện tử),. . . và ở đó, chúng ta thỉnh thoảng thấy có một số bảng dữ liệu có sẵn.
Lúc này, nếu ta muốn sao chép chúng để sử dụng thì ta có thể sử dụng hàm scan() sẽ
đỡ mất thời gian gõ từng con số và ký tự. Hãy theo dõi các ví dụ sau:
• Dữ liệu dạng numeric
Trọng lượng của 50 cầu thủ hàng đầu NBA Bộ dữ liệu dưới đây liệt kê về trọng
lượng của 50 cầu thủ hàng đầu NBA (đơn vị: lb).
240 210 220 260 250 195 230 270 325 225
165 295 205 230 250 210 220 210 230 202
250 265 230 210 240 245 225 180 175 215
215 235 245 250 215 210 195 240 240 225
260 210 190 260 230 190 210 230 185 260
tin cậy của mọi người đối với thông tin họ đọc trên Internet. A = tin tưởng vào mọi
thứ họ đọc, M = tin tưởng vào hầu hết những gì họ đọc, H = tin tưởng vào khoảng
một nửa những gì họ đọc, S = tin tưởng vào một phần nhỏ những gì họ đọc. (Dựa trên
thông tin từ Báo cáo Internet UCLA.)
M M M A H M S M H M
S M M M M A M M A M
M M H M M M H M H M
A M M M H M M M M M
Cách làm tương tự như dữ liệu dạng numeric, tuy nhiên thêm đối số what = "string".
• Dữ liệu vừa có numeric vừa có character
17
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 2.2.1. Nhập bảng số liệu sau vào R theo 3 cách
b) Xuất dữ liệu đã nhập và lưu dưới dạng file text và file excel.
- Sắp xếp biến x theo thứ tự tăng dần: x[order(x)] hoặc sort(x, decreasing =
FALSE).
- Sắp xếp biến x theo thứ tự giảm dần: x[order(-x)] hoặc sort(x, decreasing =
TRUE)
Ví dụ 2.7.
Sắp xếp dãy số sau tăng dần: 2;-1.5; 0; 3; 2; 1; 7; 9; 10.
18
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Cho bảng số liệu về điểm thi học kỳ 1 của 10 học sinh như sau:
> id=1:10
> name =c(’Minh’,’Quan’,’Phuc’,’Linh’,’Vy’,’Tu’,’Mai’,’Tram’,’Tien’,’Ngoc’)
> gender=c(rep(’male’,3),rep(’female’,7))
> diem.hk1=c(7.0,8.8,9.0,5.0,6.0,6.8,7.5,8.5,8.0,9.5)
> hk1=data.frame(id,name,gender,diem.hk1)
> hk1
id name gender diem.hk1
1 1 Minh male 7.0
2 2 Quan male 8.8
3 3 Phuc male 9.0
4 4 Linh female 5.0
19
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
5 5 Vy female 6.0
6 6 Tu female 6.8
7 7 Mai female 7.5
8 8 Tram female 8.5
9 9 Tien female 8.0
10 10 Ngoc female 9.5
> sap.xep1=hk1[order(diem.hk1), ]
> sap.xep1
id name gender diem.hk1
4 4 Linh female 5.0
5 5 Vy female 6.0
6 6 Tu female 6.8
1 1 Minh male 7.0
7 7 Mai female 7.5
9 9 Tien female 8.0
8 8 Tram female 8.5
2 2 Quan male 8.8
3 3 Phuc male 9.0
10 10 Ngoc female 9.5
Vì mỗi data frame được xem như một ma trận nên chúng có cột và hàng. Do đó,
chúng ta có thể rút trích ra bất kỳ phần tử nào từ tập dữ liệu ban đầu.
20
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
d) Rút ra các phần tử ở các vị trí từ dòng 1 đến dòng 5, từ cột 2 đến cột 4 trong
dữ liệu hk1
• Rút ra một tập con dữ liệu thỏa mãn điều kiện đặt ra
a) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ
b) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ và có điểm lớn hoặc
bằng 8.0
c) Rút ra một tập con dữ liệu với điều kiện giới tính là nữ hoặc có điểm lớn hoặc
bằng 8.0
Chúng ta có hai bảng số liệu về kết quả điểm học kỳ 1 (bảng dữ liệu ở ví dụ trên) và
bảng dữ liệu học kỳ 2, chúng ta cần hợp hai bảng dữ liệu điểm bằng lệnh merge().
Sau đó, tạo cột điểm trung bình và cột xếp loại cho dataframe ca.nam.
21
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
> ca.nam=merge(hk1,hk2,by=c("id",’gender’,’name’))
> ca.nam
> id = 1:5
> gender = c("Female","Male","Male","Female","Female")
> age = c(25,34,28,52,40)
> diabetes = c("Type1","Type2","Type1","Type1","Type2")
> status = c("Improved","Poor","Excellent","Poor","Poor")
> data1 = data.frame(id,gender,age,diabetes,status)
> id = 6:10
> gender = c("Male","Female","Female","Male","Male")
> age = c(42,62,35,65,27)
> diabetes = c("Type2","Type1","Type2","Type1","Type2")
> status = c("Improved","Excellent","Improved","Poor",
"Excellent")
> data2 = data.frame(id,gender,age,diabetes,status)
> patiendata =rbind(data1,data2)
> patiendata
id gender age diabetes status
1 1 Female 25 Type1 Improved
2 2 Male 34 Type2 Poor
3 3 Male 28 Type1 Excellent
4 4 Female 52 Type1 Poor
22
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Chúng ta cần mã hóa female là 0, male là 1. Chúng ta có thể mã hóa và lưu vào
cột tên là Gioi.tinh như sau
Chúng ta cần xếp loại học lực trung bình, khá, giỏi. Chúng ta có thể mã hóa và
lưu vào cột tên là Xep.loai như sau:
Bài tập 2.4.1. Nhập bảng số liệu sau vào R theo 3 cách
d) Xuất dữ liệu đã nhập và lưu dưới dạng file text và file excel.
Bảng số liệu về thu nhập của 10 người (đơn vị: triệu đồng).
24
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
3. Sắp xếp dữ liệu tăng dần và giảm dần theo thu nhập.
5. Tạo biến mới đổi đơn vị tiền Việt Nam sang tiền USD với tỷ giá 1USD = 22700VND.
Bài tập 2.4.3. Đọc dữ liệu dưới dạng excel có tên là “Obesity.csv” trong thư mục
Datafiles) vào R, rồi gọi tên là “data”.
25
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
2. Tạo ra một biến mới gọi là “osteo”, thỏa điều kiện sau đây: nếu tscore1<=-2.50
thì osteo có giá trị là “Yes”, nếu tscore1 cao hơn -2.50 thì osteo có giá trị là
“No”.
3. Tạo một biến mới và gọi là “obesity”, sao cho obesity có giá trị theo điều kiện
sau đây:
Nếu bmi bằng hoặc cao hơn 30 thì obesity có giá trị là “Obese”.
Nếu bmi từ 25 đến 29.9 thì obesity có giá trị là “Overweight”.
Nếu bmi thấp hơn 25 thì obesity có giá trị là “Normal”.
2.5 Mô tả dữ liệu
- beside: TRUE hoặc FALSE (mặc định là FALSE). Vẽ các cột chồng lên nhau
hay là xếp bên cạnh nhau.
- horiz: TRUE hoặc FALSE (mặc định là FALSE): Vẽ các cột nằm ngang hay là
thẳng đứng (mặc định là thẳng đứng).
- density: tạo mật độ cho các cột bằng các nét gạch chéo.
- main: đặt tên biểu đồ; xlab, ylab: tên trục hoành, trục tung;
Ví dụ 2.9. Bảng số liệu sau đây là phân phối mức độ giáo dục cao nhất cho những
người từ 25 đến 34 tuổi. Vẽ biểu đồ thanh để mô tả biến Percent.
# Input data
> Education = c(’Not HS’, ’HS’, ’College’, ’Associate’, ’Bachelor’,
’Advanced’)
> Education
[1] "Not HS" "HS" "College" "Associate" "Bachelor" "Advanced"
> Count = c(4.6, 11.6, 7.4, 3.3, 8.6, 2.5)
> Count
[1] 4.6 11.6 7.4 3.3 8.6 2.5
> Percent = c(11.1, 30.5, 19.5, 8.7, 22.6, 6.6)
> Percent
[1] 11.1 30.5 19.5 8.7 22.6 6.6
> level.edu = data.frame(Education, Count, Percent)
> level.edu
# Ve tho
> barplot(Percent)
# Them mau sac
> barplot(Percent,col=c(’red’,’blue’,’yellow’,’orange’,’green’,’brown’))
# Them ten cac cot
> barplot(Percent,col=rainbow(6),names.arg=Education)
# Them ten truc Ox
27
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
> barplot(Percent,col=rainbow(6),names.arg=Education,xlab=’Education
Degree’)
# Them ten truc Oy
> barplot(Percent,col=rainbow(6),names.arg=Education,xlab=’Education
Degree’,ylab=’Percent (%)’)
# Them ten cho bieu do
> barplot(Percent,col=rainbow(6),names.arg=Education,xlab=’Education
Degree’,ylab=’Percent (%)’,main=’The distribution of the highest
level of education’)
# Noi rong truc Oy
> barplot(Percent,col=rainbow(6),names.arg=Education,xlab=’Education
Degree’,ylab=’Percent (%)’,main=’The distribution of the highest
level of education’,ylim=c(0,40))
# Tao chu thich
> barplot(Percent,col=rainbow(6),names.arg=Education,xlab=’Education
Degree’,ylab=’Percent (%)’,main=’The distribution of the highest
level of education’,ylim=c(0,40),legend.text = Education)
# Dan cac gia tri
> x = barplot(Percent,col=rainbow(6),names.arg=Education,xlab=
’Education Degree’,ylab=’Percent (%)’,main=’The distribution of
the highest level of education’,ylim=c(0,40),legend.text = Education)
> text(x,y=Percent+1, labels = Percent)
28
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
• Biểu đồ tròn
Biểu đồ thân lá thường được dùng để mô tả phân bố của số liệu có kích thước
nhỏ. Hàm sử dụng: stem(x, scale) hoặc stem.leaf(data, unit) trong package
“aplpack”, trong đó
30
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Ví dụ 2.11. Cho số liệu về tỷ lệ biết chữ của một số quốc gia Hồi giáo
Đọc file literacy rates.csv, thực hiện các yêu cầu sau
8 Libya 71 95
9 Malaysia 85 92
10 Moroco 38 68
11 Saudi Arabia 70 84
12 Syria 68 89
13 Tajikistan 99 100
14 Tunisia 63 83
15 Turkey 78 94
16 Uzbekistan 99 100
17 Yemen 29 70
> stem(literacy$Female, scale=2)
2 | 9
3 | 18
4 | 6
5 |
6 | 038
7 | 0118
8 | 256
9 | 999
> install.packages("aplpack")
> library(aplpack)
> stem.leaf(literacy$Female, unit = 1)
1 | 2: represents 12
leaf unit: 1
n: 17
1 2 | 9
3 3 | 18
32
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
4 4 | 6
5 |
7 6 | 038
(4) 7 | 0118
6 8 | 256
3 9 | 999
#c)
> stem.leaf.backback(literacy$Female, literacy$Male, m = 1, unit = 1)
______________________________
1 | 2: represents 12, leaf unit: 1
literacy$Female
literacy$Male
______________________________
1 9| 2 |
3 81| 3 |
4 6| 4 |
| 5 |0 1
7 830| 6 |88 3
(4) 8110| 7 |08 5
6 652| 8 |3459 (4)
3 999| 9 |24556 8
| 10 |000 3
______________________________
n: 17 17
______________________________
• Biểu đồ phân bố histogram Khác với biểu đồ thân lá, biểu đồ histogram
thường được dùng để mô tả bộ số liệu có kích thước lớn. Để vẽ histogram, ta
dùng lệnh hist()
hist(x, breaks,freq,include.lowest,right,labels, ...)
trong đó,
x: dữ liệu cần vẽ histogram.
33
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Ví dụ 2.12. Cho số liệu về lợi nhuận của các cửa hàng bán lẻ của một công ty như
sau. Đơn vị tính : Triệu đồng
20 35 23 52 47 31 27 44 55 24
34 58 49 60 36 43 22 25 48 56
56 41 24 58 27 46 54 39 35 42
43 22 46 51 48 42 51 44 40 31
29 46 30 49 52 47 33 51 41 43
a) Phân tổ số liệu trên thành 4 tổ và khoảng cách tổ bằng nhau. Trình bày kết
quả trên bảng tần số, tần suất.
> phanto=cut(x,breaks=4,right=F,include.lowest=T)
> tanso = table(phanto)
> tanso
phanto
[20,30) [30,40) [40,50) [50,60]
10 9 19 12
> tansuat=prop.table(tanso)
> tansuat
phanto
[20,30) [30,40) [40,50) [50,60]
0.20 0.18 0.38 0.24
34
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
> ## Histogram cho tan suat va them duong mat do xac suat
> hist(x,breaks=4,freq=F,right=F,labels=T,ylim=c(0,0.05),col="lightblue",
main=c("Histogram of profit"),xlab="Profit")
> lines(density(x),col=’red’)
35
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Tự thực hành ví dụ sau: Cho số liệu về chỉ số IQ của 60 học sinh lớp 5 như sau:
Biểu đồ chuỗi thời gian thường mô tả sự biến động của số liệu theo thời gian, phát
hiện ra xu hướng cũng như tính mùa vị của dữ liệu.
36
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Trong đó, hàm ts() dùng để định nghĩa chuỗi thời gian với thời điểm bắt đầu bằng
start và thời điểm kết thúc bằng end và frequency = 1 (chuỗi thời gian là 1 năm),
12 (chuỗi thời gian là 12 tháng), 4 (chuỗi thời gian là quý). ts: các số liệu chuỗi
thời gian được định nghĩa hàm ts().
type: loại đồ thị cần vẽ.
type = "p": point (vẽ điểm);
type = "l": lines (vẽ đường);
type= "b": both (vẽ cả đường và điểm);
type= "o": overplotted (đường điểm dính liền);
type= "h": histogram (có dạng gậy thẳng đứng);
type= "s": step (dạng bước nhảy);
type= "n": no (không vẽ gì hết);
lty: lines type (nét đường): nét liền, nét đứt, nét chấm chấm, nét gạch gạch,. . .
lwd: lines width (độ dày của đường);
pch: plot character (kiểu ký tự điểm): tròn, tam giác, vuông, kim cương,. . .
Ví dụ 2.13. Cho số liệu về nhiệt độ trung bình hằng năm tại hai thành phố Pasadena
và Redding của bang California (Mỹ). Vẽ biểu đồ chuỗi thời gian cho các biến này.
Đọc file temperature.txt.
37
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
38
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
• Biểu đồ tán xạ
Biểu đồ tán xạ dùng để thể hiện mối quan hệ của hai biến định lượng.
Hàm sử dụng: plot(x, y, type, lty, lwd, pch, main, xlab, ylab, xlim, ylim,
col, ...)
Ví dụ 2.14. Trong package MASS, có một dataset tên là cats, bao gồm các biến
Sex, Bwt (đơn vị kg), Hwt (g).
> library(MASS)
> data(cats)
> cats
> plot(cats$Bwt, cats$Hwt, col=cats$Sex)
> abline(lm(cats$Hwt~cats$Bwt), col = ’blue’) # Duong hoi quy tuyen tinh
> plot(cats$Bwt, cats$Hwt, col=cats$Sex, pch=16)
> abline(lm(cats$Hwt~cats$Bwt), col = ’blue’)
39
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
40
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Lưu ý: Trong R cung cấp tới 9 phương pháp để ước lượng các phân vị thông qua đối
số type. Mặc định type =7, trong khi phương pháp tính toán phân vị được giảng trên
lớp thì tương ứng với type = 2.
Ví dụ 2.15. Here are the scores on the first exam in an introductory statistics course for
10 students:
80 75 92 85 75 98 90 75 80 90
a) Find the mean, median, variance, standard deviation, Q1, Q3, IQR and summary
for these firstexam scores.
b) Make a table of frequency and relative frequency for the data above
41
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
> score
[1] 80 75 92 85 75 98 90 75 80 90
> mean(score) # Tinh trung binh
[1] 84
> median(score) # Tinh trung vi
[1] 82.5
> var(score) # Tinh phuong sai
[1] 67.55556
> sd(score) # Tinh do lech chuan
[1] 8.219219
> quantile(score, probs = 0.25) # Tinh Q1 theo type = 7
25%
76.25
> quantile(score, probs = 0.25, type = 2) # Tinh Q1 theo type = 2
25%
75
> quantile(score, probs = 0.75) # Tinh Q3 theo type = 2
75%
90
> quantile(score, probs = 0.75, type = 2) # Tinh Q3 theo type = 2
75%
90
> IQR(score) # Tinh do trai giua IQR theo type = 7
[1] 13.75
> IQR(score, type = 2) # Tinh do trai giua IQR theo type = 2
[1] 15
> summary(score) # Tom tat so lieu bang mot lenh
Min. 1st Qu. Median Mean 3rd Qu. Max.
75.00 76.25 82.50 84.00 90.00 98.00
# Bang tan so
42
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Biểu đồ hộp được tạo ra từ năm đặc trưng bao gồm Min, Q1, Median, Q3, Max. Trong
đó, Min và Max lần lượt là giá trị nhỏ nhất và giá trị lớn nhất khi đã loại bỏ các outliers
(các giá trị ngoại vi) ra khỏi số liệu. Outliers là các phần tử bất thường quá lớn hoặc
quá bé và chúng được xác định bằng nguyên tắc sau:
43
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Hàm sử dụng: boxplot(x, col, main, xlab, ylab, xlim, ylim,...). Ngoài ra, ta
có thể xuất các đặc trưng Min, Q1, Median, Q3, Max, khoảng ước lượng cho trung vị
và các outliers (nếu có) qua hàm boxplot.stats().
$n
[1] 10
44
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Nhận xét: Biểu đồ hộp cho thấy không có outliers nào và biểu đồ không có râu dưới
vì Min trùng với Q1. Biểu đồ hộp cân xứng với trung vị nằm ngay chính giữa, chứng tỏ
số liệu không bị lệch.
2.3 13.8 16.1 1.6 0.3 0.5 13.1 8.6 1.3 12.7
3.4 72.8 0.3 5.0 11.4 5.8 3.2 26.0 0.1 6.5
> x = c(2.3, 13.8, 16.1, 1.6, 0.3, 0.5, 13.1, 8.6, 1.3, 12.7, 3.4, 72.8,
0.3, 5.0, 11.4, 5.8, 3.2, 26.0, 0.1, 6.5)
> x
[1] 2.3 13.8 16.1 1.6 0.3 0.5 13.1 8.6 1.3 12.7 3.4 72.8
[13]0.3 5.0 11.4 5.8 3.2 26.0 0.1 6.5
> boxplot(x,col = "red")
> boxplot.stats(x)
45
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
$stats
[1] 0.10 1.45 5.40 12.90 26.00
$n
[1] 20
$conf
[1] 1.354729 9.445271
$out
[1] 72.8
Nhận xét: ta thấy có một giá trị outlier là 72.8. Sau khi loại bỏ giá trị oulier này
thì max = 26.0, min = 0.1, Q1 = 1.45, median = 5.4, Q3 = 12.9. Số liệu bị lệch
phải do bên phải có ít số liệu hơn bên trái.
46
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 2.5.1. Đọc dữ liệu Garbage.csv, số liệu một số loại chất thải rắn ở Mỹ.
1. Hãy vẽ biểu đồ cột mô tả về số lượng các loại chất thải và nhận xét thông tin nhận
được.
Bài tập 2.5.2. Đọc dữ liệu SpamTpye, số liệu một số loại thư rác được tổng hợp.
1. Hãy vẽ biểu đồ cột của biến Percent, với các cột được xếp như trong bảng và nhận
xét thông tin nhận được.
2. Hãy vẽ biểu đồ cột của biến Percent, với các cột được xếp từ cao đến thấp.
3. Vẽ biểu đồ tròn thể hiện các loại thư rác có dán số liệu và %.
Bài tập 2.5.3. Favorite colors. What is your favorite color? One survey produced the
following summary of responses to that question: blue, 42%; green, 14%; purple, 14%;
red, 8%; black, 7%; orange, 5%; yellow, 3%; brown, 3%; gray, 2%; and white, 2%. Make
a pei chart of the percents and write a short summary of the major features of your
graph.
Bài tập 2.5.4. Least-favorite colors. Refer to the previous exercise. The same study
also asked people about their least-favorite color. Here are the results: orange, 30%;
brown, 23%; purple, 13%; yellow, 13%; gray, 12%; green, 4%; white, 4%; red, 1%; black,
0%; and blue, 0%. Make a pie chart of these percents and write a summary of the results.
Bài tập 2.5.5. Bệnh tiểu đường và glucose. Người mắc bệnh tiểu đường phải theo dõi
và kiểm soát mức đường huyết của họ. Mục tiêu là duy trì glucose huyết tương trong
khoảng 90 đến 130 miligam mỗi decilit (mg/dl). Dưới đây là mức glucose huyết tương
lúc đói cho 18 bệnh nhân tiểu đường đăng ký vào lớp kiểm soát bệnh tiểu đường, năm
tháng sau khi kết thúc lớp học:
Vẽ biểu đồ thân lá cho dữ liệu trên, và mô tả các đặc trưng chính của phân phối.
47
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Nghiên cứu được mô tả trong bài về việc đo đường huyết lúc đói là 16 bệnh nhân tiểu
đường được hướng dẫn cá nhân về kiểm soát bệnh tiểu đường. Dưới đây là dữ liệu:
Tạo một thân lá back-to-back để so sánh các bệnh nhân lớp hướng dẫn và cá nhân.
Bài tập 2.5.6. Đọc dữ liệu Tonado damage thống kê về thiệt hại tài sản trung bình trên
năm của các tiểu bang ở Mỹ do lốc xoáy gây ra.
1. Liệt kê top 5 tiểu bang bị thiệt hại nhiều nhất, và top 5 tiểu bang bị thiệt hại ít
nhất.
2. Vẽ biểu đồ histogram cho data trên, với khoảng của cột là [0-10), [10-20),... Và viết
vài dòng nhận xét. Hint: breaks = c(0,10,20,30,40,...,90).
Bài tập 2.5.7. Đốt nhiên liệu trong các nhà máy điện hoặc xe cơ giới thải ra carbon
điôxít (CO2), góp phần vào sự nóng lên toàn cầu. Đọc file Carbon dioxide_co2 cung
cấp thông tin về lượng khí thải CO2 trên mỗi người từ các quốc gia có dân số ít nhất 20
triệu người. Vẽ biểu đồ histogram với khoảng của cột là [0,2.5), [2.5,5),.... Hint: breaks
= seq(from = 0,to = 20,by = 2.5).
Bài tập 2.5.8. Thay đổi lựa chọn các lớp có thể thay đổi diện mạo của một biểu đồ.
Dưới đây là một ví dụ trong đó một sự thay đổi nhỏ trong các lớp, không có thay đổi
về số lượng lớp, có ảnh hưởng quan trọng đến biểu đồ. Dữ liệu là mức độ axit (được đo
bằng pH) trong 105 mẫu nước mưa. Nước cất có pH 7.00. Khi nước trở nên axit hơn,
độ pH giảm xuống. Độ pH của nước mưa rất quan trọng đối với các nhà môi trường vì
vấn đề mưa axit. Đọc file Acidity of rainwater và thực hiện các thao tác sau:
1. Vẽ biểu đồ histogram cho pH với 14 khoảng bằng cách dùng giới hạn của các lớp
4.2, 4.4, ..., 7.0.
2. Vẽ biểu đồ histogram cho pH với 14 khoảng bằng cách dùng giới hạn của các lớp
4.14, 4.34, ..., 6.94.
Bài tập 2.5.9. Phụ nữ học nhiều hơn nam giới? Chúng tôi đã hỏi các sinh viên trong
một lớp đại học năm thứ nhất, họ đã học bao nhiêu phút trong một tuần thông thường.
Dưới đây là câu trả lời của các mẫu ngẫu nhiên của 30 phụ nữ và 30 nam giới trong lớp
48
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Women Men
180 120 180 360 240 90 120 30 90 200
120 180 120 240 170 90 45 30 120 75
150 120 180 180 150 150 120 60 240 300
200 150 180 150 180 240 60 120 60 30
120 60 120 180 180 30 230 120 95 150
90 240 180 115 120 200 120 120 180
43 45 53 56 56 57 58 66 67 73 74 79 80 80 81
81 81 82 83 83 84 88 89 91 91 92 92 97 99 99
100 100 101 102 102 102 103 104 107 108 109 113 114 118
121 123 126 128 137 138 139 144 145 147 156 162 174 178
179 184 191 198 211 214 243 249 329 380 403 511 522 598
Bài tập 2.5.11. Tàu lượn siêu tốc Mania. Báo cáo Tổng điều tra Tàu lượn siêu tốc
Thế giới liệt kê số lượng tàu lượn siêu tốc sau đây trên mỗi lục địa. Biểu diễn dữ liệu
bằng đồ thị, sử dụng biểu đồ Pareto và biểu đồ thanh ngang.
Bài tập 2.5.13. Các thành phần của Lớp vỏ Trái đất. Các yếu tố sau đây bao gồm
vỏ trái đất, lớp rắn ngoài cùng. Minh họa thành phần của vỏ trái đất với một biểu đồ
hình tròn.
Oxygen 45.6
Silicon 27.3
Aluminum 8.4
Iron 6.2
Calcium 4.7
Other 7.8
Bài tập 2.5.14. Vẽ biểu đồ chuỗi thời gian để biểu thị dữ liệu về số chuyến khởi hành
của các hãng hàng không (tính bằng triệu) trong những năm nhất định. Trong những
năm qua, số lượng các chuyến khởi hành tăng, giảm hay là như nhau?
Bài tập 2.5.15. Các cuộc tranh luận của Tổng thống. Dữ liệu cho biết số lượng
(tính bằng triệu) người xem đã xem các cuộc tranh luận Tổng thống đầu tiên và thứ
hai. Xây dựng hai biểu đồ chuỗi thời gian và so sánh kết quả.
Bài tập 2.5.16. Những số liệu sau đây đại diện cho nhiệt độ cao kỷ lục tính bằng độ
Fahrenheit (o F ) cho mỗi trong số 50 tiểu bang. Vẽ biểu đồ histogram.
50
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
112 100 127 120 134 118 105 110 109 112
110 118 117 116 118 122 114 114 105 109
107 112 114 115 118 117 118 122 106 110
116 108 110 121 113 120 119 111 104 111
120 113 120 117 105 110 118 112 114 114
Bài tập 2.5.17. Chúng ta thu thập số liệu về độ tuổi và cholesterol từ một nghiên
cứu ở 50 bệnh nhân mắc bệnh cao huyết áp. Các số liệu này được lưu trong một text
file có tên là chol.txt.
Số liệu này như sau: cột 1 là mã số của bệnh nhân, cột 2 là giới tính, cột 3 là body mass
index (tỉ số trọng lượng) (viết tắt là bmi), cột 4 là high density cholesterol (cholesterol
mật độ cao) (viết tắt là hdl), kế đến là low density cholesterol (cholesterol mật độ thấp)
(viết tắt là ldl), total cholesterol (tổng số cholesterol) (viết tắt là tc) và triglycerides
(chất béo trung tính) (viết tắt là tg).
1. Cho biết tần số của giới tính (bao nhiêu nam và bao nhiêu nữ) (dùng hàm table()),
vẽ biểu đồ thể hiện tần số bằng cột và bằng dòng.
2. Chia bệnh nhân thành 4 nhóm dựa theo độ tuổi. (dùng hàm cut()). Có bao nhiêu
bệnh nhân trong từng độ tuổi và từng giới tính. Vẽ biểu đồ cột về tần số của hai
biến này.
51
Chương 3
Chúng ta sẽ tìm hiểu về một số quy luật phân phối xác suất rời rạc thông dụng và có
nhiều ứng dụng thực tế, gồm: phân phối (bố) siêu bội, phân phối nhị thức và phân phối
Poisson. Thật ra, chúng ta có nhiều quy luật phân phối rời rạc, nhưng trong khuôn khổ
chương trình học chúng ta chỉ khảo sát phân phối nhị thức.
i. Phép thử Bernoulli là thí nghiệm hay phép thử chỉ có hai kết quả và thường được
sử dụng để xây dựng một chuỗi các phép thử ngẫu nhiên.
ii. Phép thử n Bernoulli là một nhóm các phép thử Bernoulli thỏa mãn 3 điều kiện:
các phép thử trong chuỗi là độc lập; mỗi phép thử chỉ có 2 kết quả là “thành công”
và “thất bại”; xác suất thành công của mỗi phép thử là p và không đổi.
iii. Biến ngẫu nhiên nhị thức chính là số lần thành công của phép thử n Bernoulli,
tham số 0 < p < 1 với xác suất tương ứng:
52
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
iv. Các đặc trưng thống kê: kỳ vọng và phương sai của X lần lượt được xác định như
sau:
E(X) = np, Var(X) = np(1 − p).
Một số lệnh mặc định trong R cho biến ngẫu nhiên X ∼ B(n; p):
Lưu ý: lower.tail = T tương ứng với dấu < trong biểu thức xác suất (P(X < a)) và
lower.tail = F tương ứng với dấu > trong biểu thức xác suất (P(X > a)).
Ví dụ 3.1. Xác suất để một con gà đẻ trứng trong ngày là 0.6. Nuôi 5 con gà. Tính xác
suất để trong một ngày
b) có 5 con đẻ trứng.
#Code R
# X la so ga de trong mot ngay nen X co pp nhi thuc voi n = 5 va p = 0.6
#a) P(X=0)
dbinom(0, size=5, prob=0.6)
#b) P(X=5)
dbinom(5, size=5, prob=0.6)
#c) P(X>=1) = P(X>1) + P(X=1)
pbinom(1, size=5, prob=0.6, lower.tail = F)+dbinom(1, size=5, prob=0.6)
#d) P(X<=2)
pbinom(2, size=5, prob=0.6)
53
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Ví dụ 3.2. Tung một đồng xu đồng chất liên tiếp 10 lần. Gọi X là số lần xuất hiện mặt
ngửa. Ta có X ∼ B(10; 0.5)
f) Phát sinh ngẫu nhiên 1000 giá trị của X . Vẽ biểu đồ phân bố tần số cho biến X.
Nhận xét?
Giải
#a P(X=6)
dbinom(6,10,0.5)
#b P(X<=8)
pbinom(8,10,0.5)
#c P(X>=3)
pbinom(3,10,0.5,lower.tail = F)+dbinom(3,10,0.5)
#d tim x
qbinom(0.62,10,0.5)
#e
qbinom(0.95,10,0.5, lower.tail = F)
#f
X = rbinom(1000,10,0.5)
tanso = table(X)
tanso
barplot(tanso,xlab="X",ylab="Frequency",main="Frequency of X",col="lightblue")
54
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Nhận xét: Nhìn vào biểu đồ cột thể hiện phân bố tần số của 1000 số liệu ngẫu nhiên
của biến nhị thức X, ta thấy nó có dạng giống hình chuông. Điều đó cho thấy biến nhị
thức xấp xỉ luật phân phối chuẩn khi k càng lớn.
Bài tập 3.1.1. Số liệu thống kê của một hãng sản xuất ô tô cho thấy 10% sản phẩm của
hãng bán ra trong vòng một năm cần được cung cấp dịch vụ bảo hành. Trong tuần qua,
một đại lý của hãng bán được 12 chiếc ô tô. Tính xác suất để trong vòng một năm:
e) Tính trung bình và độ lệch chuẩn của sản phẩm được bảo hành.
55
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 3.1.2. Tung một con xúc xắc liên tiếp 12 lần. Gọi X là số lần xuất hiện mặt 6
chấm. Tính xác suất để X lấy giá trị trong đoạn [7;9].
Bài tập 3.1.3. Một cuộc đều tra gần đây cho biết tỷ lệ sinh viên sử dụng Wikipedia làm
nguồn tài liệu để nghiên cứu và tham khảo là 44.7%. Gọi X là số sinh viên sử dụng
Wikipedia trong số 31 sinh viên được chọn ngẫu nhiên.
Bài tập 3.1.4. Theo bản tin cập nhật thị trường lao động do Bộ LĐ-TB&XH cùng Tổng
cục Thống kê công bố trong quý IV-2013, tỷ lệ thất nghiệp của nhóm lao động có trình
độ đại học trở lên là 4.25%. Chọn ngẫu nhiên 30 sinh viên đã tốt nghiệp đại học trong
năm vừa qua.
Bài tập 3.1.5. Khi tiêm vắc-xin cho một loại bệnh, tỷ lệ trường hợp bị phản ứng lại với
vắc-xin này là 0.001. Dùng loại vắc-xin này tiêm cho 2000 người. Tính xác suất để
Bài tập 3.1.6. Rh là viết tắt của chữ Rhesus, đây là nhóm máu quan trọng sau nhóm
máu OAB, mang đặc điểm di truyền của mỗi cá nhân và tồn tại suốt đời. Nhóm máu
Rh có hai loại là Rh+ và Rh-. Nhóm máu Rh- rất hiếm gặp; ở Việt Nam, nhóm máu
56
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Rh- chỉ chiếm 0.04% dân số, còn nhóm máu Rh+ chiếm đến 99.96% dân số. Đặc điểm
của nhóm máu Rh này là nó chỉ có thể nhận và cho người cùng nhóm máu; đặc biệt
nếu phụ nữ có nhóm máu Rh- thì con rất dễ bị tử vong. Vì thế thai phụ sau khi sinh
đứa bé đầu tiên trong vòng 24h-72h sẽ được tiêm kháng thể và chăm sóc đặc biệt. Một
bệnh viện phụ sản trung bình mỗi ngày tiếp nhận 100 ca sinh. Tính xác suất để
Biến ngẫu nhiên X tuân theo quy luật phân phối Poisson với tham số λ > 0 nếu X
lấy các giá trị 0, 1, . . . và
e−λ λk
P(X = k) = , k = 0, 1, . . .
k!
Ký hiệu: X ∼ P (λ).
Với X ∼ P (λ), kỳ vọng và phương sai của X lần lượt được xác định như sau:
E(X) = Var(X) = λ.
Một số lệnh mặc định trong R cho biến ngẫu nhiên X ∼ P (λ):
Bài tập 3.1.7. Một trung tâm bưu điện nhận được trung bình 3 cuộc gọi điện thoại
trong mỗi phút. Tính xác suất để
57
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 3.1.8. Một cử hàng cho thuê xe ô tô cho biết trung bình có 2 người đến thuê xe
vào ngày thức bảy. Giả sử cửa hàng có 4 chiếc xe ô tô. Gọi X là số khách đến thuê xe
trong ngày thứ bảy.
c) Tính xác suất để cửa hàng không đáp ứng được số lượng ô tô theo yêu cầu của
khách hàng.
d) Vẽ đồ thị hàm khối xác suất và hàm phân phối tích lũy của X.
Biến ngẫu nhiên X được gọi là có phân phối chuẩn với hai tham số µ ∈ R và σ > 0,
viết là X ∼ N (µ, σ 2 ), nếu hàm mật độ của X có dạng
1 (t−µ)2
f (t) = √ e− 2σ2 , t ∈ R.
σ 2π
Trong trường hợp X ∼ N (0, 1), ta còn nói X có phân phối chuẩn tắc. Hàm mật độ của
X ∼ N (0, 1) có dạng
1 −t2
f (t) = √ e 2 , t ∈ R.
2π
Với X ∼ N (µ, σ 2 ), ta có
• Var(X) = σ 2 .
Lưu ý thêm rằng với X ∼ B(n, p) trong đó np ≥ 5 và n(1 − p) ≥ 5, ta có xấp xỉ
X ≈ N (µ, σ 2 ) với µ = np và σ 2 = np(1 − p).
58
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Cho X ∼ N (µ, σ 2 ).
Ví dụ 3.3. Khoảng thời gian từ khi sản phẩm được sử dụng đến khi hư (thời gian sống
hay còn gọi là tuổi thọ) do lỗi của nhà sản xuất của một sản phẩm là biến ngẫu nhiên
X có phân phối chuẩn với trung bình bằng 15 tháng và độ lệch chuẩn là 3 tháng.
b) Nếu quy định thời gian bảo hành là 12 tháng thì tỷ lệ sản phẩm cần bảo hành là
bao nhiêu phần trăm?
c) Nếu muốn tỷ lệ sản phẩm bảo hành là 2.28% thì phải quy định thời gian bảo hành
là bao nhiêu tháng?
f) Phát sinh một mẫu ngẫu nhiên gồm 1000 giá trị từ biến X. Vẽ biểu đồ histogram.
# ta co X co pp chuan mean = 15 va sd = 3
#a)
59
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
60
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 3.2.2. Các kết quả của bài kiểm tra chỉ số thông minh (IQ) cho các học sinh
của một trường tiểu học cho thấy IQ của các học sinh này tuân theo phân phối chuẩn
với các tham số là µ = 100 và σ 2 = 225. Tính tỉ lệ học sinh có điểm IQ nhỏ hơn 91 hoặc
lớn hơn 130 là bao nhiêu?
Bài tập 3.2.3. Đường kính của một chi tiết máy do một máy tiện tự động sản xuất có
phân phối chuẩn với trung bình µ = 50mm và độ lệch chuẩn σ = 0.05mm. Chi tiết máy
được xem là đạt yêu cầu nếu đường kính không sai quá 0.1mm.
b) Lấy ngẫu nhiên 3 sản phẩm. Tính xác suất có ít nhất một sản phẩm đạt yêu cầu.
Bài tập 3.2.4. Trọng lượng X (tính bằng gam) của một loại trái cây có phân phối chuẩn
N (µ, σ 2 ) với µ = 500 (gam) và σ 2 = 16 (gam2 ). Trái cây thu hoạch được phân loại theo
trọng lượng như sau:
a) Công ty ấn định thời gian bảo hành sản phẩm là 980 giờ. Tính tỷ lệ sản phẩm cần
được bảo hành.
b) Mức lãi một sản phẩm được bán là 50 ngàn đồng, nhưng nếu sản phẩm bị hỏng thì
chi phí bảo hành là 500 ngàn đồng. Hãy tính mức lãi trung bình cho mỗi sản phẩm
bán ra.
61
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
c) Công ty muốn giảm tỉ lệ sản phẩm còn một nữa, để đạt được mong muốn thì phải
ấn định thời gian bảo hành sản phẩm là bao nhiêu?
Bài tập 3.2.6. Thời gian mang thai của con người có phân phối xấp xỉ chuẩn với trung
bình là 266 ngày và độ lệch chuẩn là 16 ngày.
b) Có bao nhiêu phần trăm người có thời gian mang thai ít hơn 240 ngày.
c) Có bao nhiêu phần trăm người có thời gian mang thai trong khoảng từ 240 đến 270
ngày.
Bài tập 3.2.7. Horse pregnancies are longer. Bigger animals tend to carry their young
longer before birth. The length of horse pregnancies from conception to birth varies
according to a roughly Normal distribution with mean 336 days and standard deviation
3 days. Answer the following questions.
a) What percent of horse pregnancies are between 327 and 345 days?
Bài tập 3.2.8. High IQ scores. The Wechsler Adult Intelligence Scale (WAIS) is the
most common “IQ test”. The scale of scores is set separately for each age group and
is approximately Normal with mean 100 and standard deviation 15. The organization
MENSA, which calls itself “the high IQ society”, requires a WAIS score of 130 or higher
for membership. What percent of adults would qualify for membership?
Bài tập 3.2.9. Nghiên cứu chiều cao của những người trưởng thành, người ta nhận thấy
rằng chiều cao đó tuân theo quy luật phân phối chuẩn với trung bình là 175 cm và độ
lệch chuẩn là 4 cm. Hãy xác định:
c) tìm h, nếu biết rằng 33% người trưởng thành có chiều cao dưới mức h.
d) giới hạn biến động chiều cao của 90% người trưởng thành xung quanh giá trị trung
bình của nó.
Bài tập 3.2.10. Giá cổ phiếu của các công ty được coi là một biến ngẫu nhiên tuân theo
quy luật phân phối chuẩn với trung bình là 30$ và độ lệch chuẩn là 8.2$.
62
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
a) Tính xác suất để cổ phiếu của một công ty bất kỳ tối thiểu là 40$.
b) Tính xác suất để cổ phiếu của một công ty bất kỳ không quá 20$.
c) Những công ty có giá cổ phiếu cao thuộc top 10% trên thị trường chứng khoán sẽ
được vào nhóm công ty phát đạt. Tính giá cổ phiếu tối thiểu để một công ty được
xếp vào nhóm công ty phát đạt trên.
Bài tập 3.2.11. Thời gian (tính bằng tháng) từ lúc vay đến lúc trả tiền của khách hàng
tại một ngân hàng là biến ngẫu nhiên có phân phối chuẩn với trung bình bằng 18 tháng
và độ lệch chuẩn là 4 tháng.
a) Tính tỷ lệ khách hàng trả tiền cho ngân hàng trong khoảng thời gian 10 đến 19
tháng.
b) Tính tỷ lệ khách hàng trả tiền cho ngân hàng trong khoảng thời gian trên 1 năm.
c) Khoảng thời gian tối thiểu là bao nhiêu để tỷ lệ khách hàng trả tiền cho ngân hàng
trong khoảng thời gian đó không quá 1%.
Bài tập 3.2.12. Trọng lượng của một loại sản phẩm do một nhà máy sản xuất là biến
ngẫu nhiên có phân phối chuẩn với trung bình bằng 50kg và phương sai là 100kg 2 .
Những sản phẩm có trọng lượng từ 45kg đến 70kg được coi là sản phẩm loại A. Tính
tỷ lệ sản phẩm loại A của nhà máy.
63
Chương 4
4.1 Ước lượng và kiểm định giả thuyết cho tham số trung bình của
tổng thể
Trong R về ước lượng và kiểm định cho trung bình được thực hiện chung trong một
hàm t.test():
• mu: là giá trị trung bình cần kiểm định. Mặc định mu=0, đồng nghĩa với giả thuyết
H0 : µ = 0.
• alternative: đối tượng chọn một trong ba loại sau: two.sided, less, greater.
Mặc định là two.sided (hai phía).
• conf.level: độ tin cậy = 1-α, với α là mức ý nghĩa kiểm định. Mặc định conf.level
= 0.95.
Chú ý: Khi chỉ thực hiện ước lượng khoảng hai phía, chúng ta có thể bỏ qua đối số mu
và alternative.
Ví dụ 4.1. Trọng lượng trung bình khi xuất chuồng ở một trang trại chăn nuôi trước
kia là 3.3 kg/con. Năm nay người ta sử dụng một loại thức ăn mới, cân thử 15 con khi
64
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
3.25 2.5 4.0 3.75 3.8 3.9 4.02 3.6 3.8 3.2 3.82 3.4 3.75 4.0 3.5
a) Hãy ước lượng trung bình trọng lượng của các con vật khi nuôi bằng thức ăn mới
với độ tin cậy 95%.
b) Nếu muốn ước lượng với độ tin cậy 99% và sai số không quá 0.2 kg thì cần cân thử
bao nhiêu con?
c) Hãy kết luận về tác dụng của loại thức ăn này với mức ý nghĩa 5%.
d) Nếu trại chăn nuôi báo cáo trọng lượng trung bình khi xuất chuồng là 3.5 kg/con
thì có chấp nhận được không? (với mức ý nghĩa 5%).
a) > trong.luong = c(3.25, 2.5, 4.0, 3.75, 3.8, 3.9, 4.02, 3.6, 3.8, 3.2,
3.82, 3.4, 3.75, 4.0, 3.5)
> t.test(trong.luong, conf.level = 0.95)
data: trong.luong
t = 34.609, df = 14, p-value = 5.785e-15
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3.395035 3.843632
sample estimates:
mean of x
3.619333
Kết luận: Khoảng ước lượng trung bình trọng lượng của con vật sau khi nuôi bằng
thức ăn mới với độ tin cậy 95% là từ 3.40 kg/con đến 3.84 kg/con.
trong đó, s là độ lệch chuẩn của mẫu, zα/2 là phân vị đuôi trên mức α/2 của phân
65
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Kết luận: Nếu muốn ước lượng với độ tin cậy 99% và sai số không quá 0.2 kg thì
cần cân thử 28 con.
c) Mức ý nghĩa α = 5%, suy ra độ tin cậy là 95%. Đây là bài toán kiểm định so sánh
thức ăn mới với thức ăn cũ. Ta có thể đặt giả thuyết:
(
H0 : µ = 3.3
H1 : µ 6= 3.3
data: trong.luong
t = 3.0535, df = 14, p-value = 0.008589
alternative hypothesis: true mean is not equal to 3.3
95 percent confidence interval:
3.395035 3.843632
sample estimates:
mean of x
66
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
3.619333
Kết luận: ta thấy chỉ số p-value= 0.008589 < α = 0.05, nên bác bỏ giả thuyết H0 .
Vậy với mức ý nghĩa 5%, ta có thể kết luận rằng loại thức ăn mới này làm thay đổi
trọng lượng vật nuôi so với thức ăn cũ. Cụ thể nó làm tăng trọng lượng vì trung
bình mẫu x̄ = 3.62 > 3.3 kg.
data: trong.luong
t = 1.1411, df = 14, p-value = 0.273
alternative hypothesis: true mean is not equal to 3.5
95 percent confidence interval:
3.395035 3.843632
sample estimates:
mean of x
3.619333
Kết luận: ta thấy chỉ số p-value= 0.273 > α = 0.05, nên chấp nhận giả thuyết H0 .
Vậy với mức ý nghĩa 5%, ta có thể kết luận rằng trại chăn nuôi báo cáo trọng lượng
trung bình khi xuất chuồng là 3.5 kg/con thì chấp nhận được với mức ý nghĩa 5%.
4.2 Ước lượng và kiểm định giả thuyết cho tham số tỷ lệ của tổng
thể
Trong R về ước lượng và kiểm định cho trung bình được thực hiện chung trong một
hàm prop.test():
• n: cỡ mẫu.
• p: là giá trị tỷ lệ cần kiểm định. Mặc định p=0, đồng nghĩa với giả thuyết H0 : p = 0.
• alternative: đối tượng chọn một trong ba loại sau: two.sided, less, greater.
Mặc định là two.sided (hai phía).
• conf.level: độ tin cậy = 1-α, với α là mức ý nghĩa kiểm định. Mặc định conf.level
= 0.95.
Chú ý: khi thực hiện ước lượng khoảng hai phía, chúng ta có thể bỏ qua đối số p,
alternative, vì chúng không ảnh hưởng tới kết quả ước lượng.
Ví dụ 4.2. Một khu dân cư có 2000 hộ gia đình. Điều tra về nhu cầu tiêu dùng của một
loại hàng hóa, người ta theo dõi 100 gia đình, thấy có 60 gia đình có nhu cầu tiêu dùng
hàng ngày.
a) Với độ tin cậy 95%, hãy ước lượng tỷ lệ hộ và số lượng gia đình trong khu dân cư
có nhu cầu về loại hàng hóa trên.
b) Nếu muốn ước lượng tỷ lệ hộ gia đình trong khu dân cư có nhu cầu về loại hàng
hóa trên với độ tin cậy 99% và sai số không quá 4% thì cần khảo sát bao nhiêu hộ?
c) Nghiên cứu trước đây chỉ ra rằng tỷ lệ hộ gia đình có nhu cầu sử dụng hàng hóa
trên là 58.5%. Hãy kiểm định lại xem hiện nay tỷ lệ này đã thật sự tăng lên hay
không? Kết luận với mức ý nghĩa 5%.
68
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
p
0.6
Kết luận: Với độ tin cậy 95%, khoảng ước lượng tỷ lệ hộ gia đình trong khu dân cư
có nhu cầu tiêu dùng hàng hóa trên dao động từ 49.70% đến 69.52%.
> 2000*0.497
[1] 994
> 2000*0.6952
[1] 1390.4
Tổng số hộ gia đình là 2000 hộ. Vậy số hộ gia đình trong khu dân cư có nhu cầu về
loại hàng hóa trên dao động từ 994 đến 1390 hộ.
trong đó, p là xác suất, zα/2 là phân vị đuôi trên mức α/2 của phân phối chuẩn
tắc. Ta suy ra công thức tìm cỡ mẫu:
p !2
p(1 − p)
n= zα/2 .
m
Theo đề bài, độ tin cậy 99%, suy ra mức ý nghĩa α = 1-0.99 = 0.01. Sai số không
quá 0.04 kg, tức là m ≤ 0.04.
Do đó,
p !2
p(1 − p)
n≥ zα/2 .
m
69
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Kết luận: Nếu muốn ước lượng tỷ lệ hộ gia đình trong khu dân cư có nhu cầu về
loại hàng hóa trên với độ tin cậy 99% và sai số không quá 4% thì cần khảo sát 996
hộ.
Kết luận: ta thấy chỉ số p-value= 0.4196 > α = 0.05, nên chấp nhận giả thuyết
H0 . Vậy với mức ý nghĩa 5%, ta có thể kết luận rằng tỷ lệ hộ gia đình có nhu cầu
hàng hóa trên chưa thực sự tăng lên.
Bài tập 4.3.1. Loại cà phê Robusta đạt tiêu chuẩn xuất khẩu nêu tỷ lệ hạt vỡ là 11%.
Trong một lô hàng người ta chọn 36 mẫu. Tỷ lệ hạt vỡ được ghi nhận như sau:
9 10 12 8 10 12 14 9 9 6 11 8 6 7 9 12 11 10
12 14 10 10 7 5 8 7 10 9 12 14 11 10 8 10 8 7
a) Tìm khoảng tin cậy 95% của tỷ lệ hạt vỡ trung bình của lô hàng.
70
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
b) Nếu muốn ước lượng tỷ lệ hạt vỡ trung bình với độ tin cậy 97% và sai số không
quá 0.5 thì cần khảo sát bao nhiêu mẫu cà phê?
c) Lô hàng trên có đạt tiêu chuẩn xuất khẩu hay không? Kết luận với mức ý nghĩa
2.5%.
Bài tập 4.3.2. Một loại nước chấm muốn thâm nhập vào thị trường X thì hàm lượng
chất 3-MCPD không vượt quá 1.5g/kg. Từ một lô hàng của công ty Y, người ta chọn
ngẫu nhiên 16 sản phẩm, kết quả xác định hàm lượng 3-MCPD của mẫu trên như sau:
1.5 1.6 1.6 1.4 1.6 1.5 1.8 1.3 1.4 1.4 1.4 1.6 1.4 1.8 1.3 1.7
a) Ước lượng khoảng tin cậy 95% cho hàm lượng 3-MCPD của lô hàng.
b) Nếu muốn ước lượng hàm lượng 3-MCPD với độ tin cậy 98% và sai số không quá
0.05 thì cần khảo sát bao nhiêu sản phẩm?
c) Lô hàng trên có đạt tiêu chuẩn để nhập vao thị trường X hay không? Kết luận với
mức ý nghĩa 2.5%.
Bài tập 4.3.3. Hội sinh viên của một trường đại học tìm hiểu số giờ tự học của sinh viên
năm thứ I. Số liệu được tổng hợp trong bảng sau:
a) Hãy tìm khoảng tin cậy 90% của số giờ tự học trung bình của sinh viên năm thứ I.
b) Với xác suất tin cậy 95% , hãy ước lượng tỷ lệ sinh viên có số giờ tự học dưới 12
giờ/tuần.
c) Hội sinh viên nhận định số giờ tự học một tuần của sinh viên năm thứ I là 14 giờ.
Với mức ý nghĩa 5%, hãy kết luận về nhận định trên.
71
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
Bài tập 4.3.4. Một máy sản xuất tự động với tỷ lệ chính phẩm 98%. Sau một thời gian
hoạt động, người ta nghi ngờ tỷ lệ trên bị giảm. Kiểm tra ngẫu nhiên 500 sản phẩm
thấy có 28 phế phẩm.
a) Với α = 0.05, hãy kiểm tra xem chất lượng của máy có còn được như trước hay
không?
c) Nếu muốn ước lượng tỷ lệ chính phẩm với độ tin cậy 99% và sai số không quá 0.02
thì cần khảo sát bao nhiêu sản phẩm?
Bài tập 4.3.5. Theo một nguồn tin thì tỷ lệ hộ dân thích xem dân ca trên TV là 80%.
Thăm dò 36 hộ dân thấy có 25 hộ thích xem dân ca. Với mức ý nghĩa 5%, kiểm định
xem nguồn tin này có đáng tin cậy không?
Bài tập 4.3.6. Tỷ lệ phế phẩm của một nhà máy trước đây là 5%. Năm nay nhà máy áp
dụng một biện pháp kỹ thuật mới. Để nghiên cứu tác dụng của biện pháp kỹ thuật mới
này, người ta lấy ngẫu nhiên gồm 800 sản phẩm để kiểm tra và thấy có 24 phế phẩm.
a) Với α = 1%, hãy kết luận về biện pháp kỹ thuật mới này.
b) Nếu nhà máy báo cáo tỷ lệ phế phẩm sau khi áp dụng biện pháp kỹ thuật mới là
2% thì có chấp nhận được không? Kết luận với α = 1%.
Bài tập 4.3.7. (Doctor Visits). A report by the Gallup Poll stated that on average a
woman visits her physician 5.8 times a year. A researcher randomly selects 20 women
and obtained these data.
3 2 1 3 7 2 9 4 6 6 8 0 5 6 4 2 1 3 4 1
At α = 0.01 can it be concluded that the average is still 5.8 visits per year?
Bài tập 4.3.8. (Television Viewing by Teens). Teens are reported to watch the fewest
total hours of television per week of all the demographic groups. The average television
viewing for teens on Sunday from 1:00 to 7:00 P.M. is 1 hour 13 minutes. A random sam-
ple of local teens disclosed the following times for Sunday afternoon television viewing.
At α = 0.01 can it be concluded that the average is greater than the national viewing
time?
2:30 2:00 1:30 3:20 1:30 1:00 2:15 1:50 2:10 2:30
72
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
485 511 841 725 615 520 535 635 616 582
a) Tìm khoảng ước lượng chiều cao trung bình của các tòa nhà cao ốc có từ 30 tầng
trở lên với độ tin cậy 97.5%.
b) Với mức ý nghĩa 2.5%, ta có thể kết luận rằng báo cáo của nhà nghiên cứu là đúng
hay không?
Bài tập 4.3.11. Một báo cáo nói rằng 50.3% người dân Mỹ có sở hữu cổ phiếu. Một mẫu
ngẫu nhiên gồm 300 chủ hộ thì có 171 người trả lời rằng họ có sở hữu một số cổ phiếu.
a) Với mức ý nghĩa 5%, ta có thể cho rằng tỷ lệ người dân Mỹ có sở hữu cổ phiếu
khác so với báo cáo ở trên hay không?
b) Khoảng ước lượng 95% cho tỷ lệ người Mỹ có sở hữu cổ phiếu là bao nhiêu?
Bài tập 4.3.12. Thống kê doanh số bán của một siêu thị sau một tháng đẩy mạnh chiến
dịch khuyến mãi, số liệu cho trong bảng dưới đây:
73
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
a) Những ngày có doanh số bán từ 400 triệu đồng trở lên là những ngày bán đắt hàng.
Hãy ước lượng tỷ lệ những ngày bán đắt hàng ở siêu thị này với độ tin cậy 90%.
b) Tìm khoảng tin cậy 95% của doanh số bán trung bình một ngày bán hàng.
c) Doanh số trung bình mỗi ngày của siêu thị trước đây là 350 triệu đồng. Từ số liệu
trên có thể nói rằng chiến dịch khuyến mãi đã làm thay đổi doanh số bán không?
Kết luận với mức ý nghĩa 5%
Bài tập 4.3.13. Các nhà nghiên cứu tiến hành đo lường hàm lượng vitamin D của một
số bệnh nhân nữ bị u xơ thần kinh (đơn vị ng/mL) và số liệu ghi nhận như sau:
14.1 15.1 15.1 15.8 15.8 15.8 17.0 17.0 17.0 17.0 18.2 19.1
a) Ước lượng khoảng trung bình hàm lượng vitamin D của nhóm bệnh nhân trên với
độ tin cậy 95% và độ tin cậy 99%.
b) Theo quy định thì một người nữ giới được gọi là có đủ hàm lượng vitamin D nếu
trung bình đạt 20 ng/mL. Kiểm định xem hàm lượng vitamin D của nhóm bệnh
nhân nữ trên có đạt mức tiêu chuẩn hay không? Kết luận với mức ý nghĩa 5%.
Bài tập 4.3.14. Một nhóm các nhà khoa học tiến hành nghiên cứu sự nhạy cảm của
100 sợ noron thần kinh pro-opiomelanocortin (POMC) đối với glucose trên con chuột
và phát hiện có 58 sợ noron thật sự nhạy cảm với glucose.
a) Ước lượng tỷ lệ sợ noron thần kinh PMOC nhạy cảm với glucose với độ tin cậy
95%.
74
TH THỐNG KÊ KHOA HỌC SỰ SỐNG
b) Một loạt các nghiên cứu trước đó chỉ ra rằng tỷ lệ thần kinh POMC nhạy cảm với
glucose là 62%. Kiểm định lại xem các nghiên cứu trước đó có chính xác không?
Kết luận với mức ý nghĩa 5%.
c) Nếu muốn ước lượng với độ tin cậy 99% và sai số không quá 5% thì các nhà nghiên
cứu phải khảo sát tối thiểu bao nhiêu sợi noron thần kinh POMC?
Bài tập 4.3.15. Đo đường kính (đơn vị: mm) của 20 chi tiết do một máy tiện sản xuất,
ta được bảng số liệu sau:
Đường kính 247 248 249 250 251 252 253 256 257 258 260
Số chi tiết 2 2 3 5 1 1 2 1 1 1 1
a) Tìm khoảng ước lượng độ dài trung bình của đường kính chi tiết máy với mức ý
nghĩa 0,05.
b) Các chi tiết có đường kính từ 249 mm đến 251 mm được coi là sản phẩm loại A.
Với độ tin cậy 95%, tìm khoảng ước lượng của tỷ lệ sản phẩm loại A do máy đó
sản xuất.
75