Professional Documents
Culture Documents
XSTK Va Ung Dung 11.2021 - A4
XSTK Va Ung Dung 11.2021 - A4
BÀI GIẢNG
Xác suất và thống kê và ứng dụng đóng vai trò rất quan trọng trong hầu hết
mọi lĩnh vực của thế giới hiện đại, từ khoa học, công nghệ, đến kinh tế, chính trị, sức
khỏe, môi trường,… Trên cơ sở số liệu thực nghiệm đáng tin cậy và mô hình hợp lý –
có được từ việc xử lý số liệu thực nghiệm, thống kê có vai trò cung cấp các thông tin
thống kê trung thực, khách quan, chính xác, đầy đủ, kịp thời phục vụ các cơ quan nhà
nước trong việc đánh giá, dự báo tình hình, hoạch định chiến lược, chính sách, xây
dựng kế hoạch phát triển kinh tế - xã hội ngắn hạn và dài hạn.
Quyển sách này dùng làm tài liệu học tập chính cho các học phần Xác suất thống
kê; Toán chuyên đề 1 và Toán chuyên đề 2. Sách bao gồm 6 chương: Chương 1 gồm
một số khái niệm cơ sở của lý thuyết xác suất; chương 2 là lý thuyết về biến ngẫu
nhiên và luật phân phối xác suất; chương 3 và chương 4 giới thiệu về thống kê toán;
chương 5 trình bày các kiến thức cơ bản về xử lý số liệu thực nghiệm; chương 6 trình
bày ngắn gọn về xích Markov thuần nhất và một số ứng dụng của nó.
Sách được trình bày ngắn gọn, có ví dụ minh họa đầy đủ, và sau mỗi chương có
hệ thống bài tập đa dạng, phong phú được chọn lọc phù hợp để sinh viên tự luyện tập,
góp phần nâng cao khả năng tư duy về logic cho sinh viên.
Tuy đã cố gắng nhiều trong việc biên soạn nhưng chắc chắn không thể tránh
khỏi những sai sót. Nhóm tác giả luôn hoan nghênh và lắng nghe những ý kiến đóng
góp quý báu của các đồng nghiệp và học viên để bài giảng hoàn thiện hơn ở lần tái
bản sau.
Xin chân thành cảm ơn !
Thành phố Hồ Chí Minh, tháng 08 năm 2021
Nhóm tác giả
MỤC LỤC
CHƯƠNG 1
Ví dụ 1.3. Có bao nhiêu tập hợp con gồm ba phần tử của tập hợp gồm năm phần tử
{a,b,c,d,e}.
Giải. Một tập hợp con gồm ba phần tử từ tập gồm năm phần tử {a,b,c,d,e} là một tổ
hợp 5 chọn 3.
5!
Vậy số tập hợp con gồm ba phần tử là: C53 10
3! 2!
Ví dụ 1.4
a) Phép thử tung một đồng xu đồng chất và cân đối lên mặt bàn. Kết qủa nhận được
sẽ là S (được mặt sấp) hay N (được mặt ngửa). Khi đó N và S là những biến cố
ngẫu nhiên.
b) Phép thử tung một con xúc xắc đồng chất và cân đối lên mặt bàn. Ký hiệu
Ai (i 1,...,6) là biến cố được mặt i chấm; A là biến cố được mặt có số chấm
6 ; C là biến cố được mặt có số chấm chẵn; L là biến cố được mặt có số chấm
lẻ; P là biến cố được mặt có số chấm là số nguyên tố. Khi đó: A1 ,..., A6 , C , L, P
là các biến cố ngẫu nhiên; A là biến cố chắc chắn.
c) Quá trình từ lúc đăng ký học phần “Xác suất thống kê” cho đến thi kết thúc học
phần này xong là một phép thử. Các kết cục: “qua môn”, “không qua môn”, đạt
điểm 0; 0.5; 1; 1.5;...;10 là các biến cố ngẫu nhiên.
A B A A B B
A A A A A A
A B B A
A A A
A A A A B B A
Ví dụ 1.6. Xét phép thử tung con xúc xắc trong ví dụ 1.4, ta có:
C A2 A4 A6 PL A3 A5 PC A2
L A1 A3 A5 L C Ai Aj , i j
P A A A A ... A
2 3 5 1 6 LC
Ví dụ 1.7. Một xạ thủ bắn 2 viên đạn vào một mục tiêu. Mục tiêu sẽ bị tiêu diệt nếu có
cả hai viên trúng. Gọi các biến cố :
Ai : “viên đạn thứ i trúng mục tiêu” (i 1, 2) ,
A : “Mục tiêu bị trúng đạn”,
B : “Mục tiêu bị tiêu diệt”.
Khi đó, ta có: A A1 A2 ; B A1 A2
chấm. Khi đó không gian mẫu là: Aij :1 i, j 6 , bao gồm tất cả 36 biến
cố sơ cấp và đồng khả năng.
1.2.5. Quan hệ giữa các biến cố
Xung khắc: Hai biến cố A và B được gọi là xung khắc nếu chúng không đồng thời
xảy ra khi thực hiện phép thử, nghĩa là AB .
Xung khắc từng đôi: Nhóm n biến cố A1 ,..., An được gọi là xung khắc từng đôi
(hay đôi một xung khắc) nếu hai biến cố khác nhau bất kỳ trong n biến cố đó là
xung khắc với nhau, nghĩa là Ai Aj , i j .
Hệ đầy đủ: Hệ n biến cố A1 ,..., An được gọi là hệ (nhóm) biến cố đầy đủ nếu trong
phép thử luôn có ít nhất một biến cố xảy ra.
Khi đó ta có: A1 ... An .
Đối lập: Hai biến cố A và B được gọi là đối lập nếu trong phép thử có đúng một
biến cố xảy ra, nghĩa là: A B ; AB . Biến cố đối lập của biến cố A ký
hiệu là A .
Ví dụ 1.9. Xét phép thử tung con xúc xắc. Ta có:
A1 , A2 xung khắc nhau; C L, L C .
Ví dụ 1.10. Chọn ngẫu nhiên một người từ nhóm gồm 50 người, trong đó có 10 nam
và 40 nữ. Ta thấy rõ ràng rằng khả năng chọn được 1 nữ cao hơn khả năng chọn được
1 nam. Các “khả năng” đó chính là xác suất xuất hiện các biến cố “chọn được 1 nữ”,
“chọn được 1 nam”. Chúng được tính như thế nào, chúng ta nghiên cứu các định nghĩa
về xác suất sau.
1.3.2. Định nghĩa xác suất theo quan điểm cổ điển
Giả sử phép thử có n biến cố sơ cấp đồng khả năng có thể xảy ra, trong số đó có
mA biến cố sơ cấp thuận lợi cho biến cố A.
Khi đó xác suất của biến cố A được tính theo công thức sau:
mA Số biến cố sơ cấp thuận lợi cho A
P( A)
n Tổng số biến cố sơ cấp đồng khả năng
1.3.3. Định nghĩa xác suất theo quan điểm hình học
Độ đo
Ta gọi độ đo của một tập hợp trên đường thẳng là độ dài, trong mặt phẳng là diện
tích, trong không gian là thể tích của tập đó. Trên đường thẳng thì tập hợp các điểm
rời rạc có độ đo bằng không; trong mặt phẳng, các tập hợp trên một đường cong có độ
đo không; trong không gian, các tập hợp trên một mặt cong có độ đo không.
Công thức xác suất theo quan điểm hình học
Giả sử các trường hợp sơ cấp được đặt tương ứng với các điểm của một tập hợp
có độ đo M, các trường hợp thuận lợi cho biến cố A tương ứng với các điểm của một
tập hợp có độ đo m .
Khi đó, người ta định nghĩa xác suất của biến cố A theo quan điểm hình học là:
m
P ( A)
M
Ví dụ 1.13. Hai người hẹn nhau tại một địa điểm xác định vào khoảng 19 đến 20 giờ.
Người đến trước sẽ đợi người kia 15 phút, sau đó nếu không gặp thì sẽ đi khỏi điểm
hẹn. Hãy tìm xác suất để hai người gặp nhau, nếu biết rằng mỗi người có thể đến chỗ
hẹn trong khoảng thời gian quy định một cách ngẫu nhiên và không tùy thuộc vào
người kia đến vào lúc nào.
Giải. Gọi x, y tương ứng là thời điểm người thứ nhất, y x y 1/ 4
người thứ hai đến điểm hẹn. 20 x y 1/ 4
Các điểm
- Tập các điểm (biến cố) đồng khả năng là hình thuận lợi
vuông đơn vị: 19
3/ 4
( x, y) 2
:19 x 20,19 y 20 0 19 20 x
Hình 1.3. Hình vẽ ví dụ 1.13
Có độ đo là M 1
- Tập các điểm thuận lợi cho biến cố A : “Hai người gặp nhau” :
1 1 1 3 3 7
( x, y ) M : x y , có độ đo m 1 2
4 4 2 4 4 16
m 7
Vậy xác suất để hai người gặp nhau là: P ( A) 0, 4375 .
M 16
Ví dụ 1.14. Chọn ngẫu nhiên một điểm A trong hình vuông cạnh a . Tính xác suất để
A thuộc hình tròn nội tiếp hình vuông trên.
Giải. Gọi B là biến cố điểm A thuộc hình tròn nội
tiếp. Áp dụng định nghĩa xác suất theo quan điểm R
a
Hình 1.4
2
A
a / 2 Hình vẽ ví dụ 1.14
2
hình học, ta có: P( B) 0,7854
a2 4
Ví dụ 1.15. Một công ty bảo hiểm muốn tính xác suất để một thanh niên người Mỹ sẽ
bị chết trong năm tới, người ta theo dõi 100000 thanh niên và thấy có 798 người bị
chết trong vòng 1 năm sau đó. Vậy xác suất cần tìm xấp xỉ bằng 0,008.
Ví dụ 1.16. Để nghiên cứu khả năng xuất hiện mặt sấp (S) khi tung một đồng xu,
người ta tiến hành tung đồng xu nhiều lần và thu được kết quả cho ở bảng sau:
Người tung đồng xu Số lần tung Số lần xuất hiện mặt S Tần suất f ( S )
Buyffon 4040 2048 0.5069
Pearson 12000 6019 0.5016
Pearson 24000 12012 0.5005
Nhận xét: Khi số lần tung đồng xu tăng lên thì tần suất f ( S ) cũng dần dần hội tụ về
con số 0,5.
Ví dụ 1.17. Một lô hàng có 10 sản phẩm, trong đó có 2 phế phẩm. Lấy ngẫu nhiên từ
lô hàng ra 6 sản phẩm. Tính xác suất để có không quá 1 phế phẩm trong 6 sản phẩm
được lấy ra.
Giải. Gọi A là biến cố không có phế phẩm; B là biến cố có đúng 1 phế phẩm; C là
biến cố có không quá 1 phế phẩm.
Ta có: A, B là hai biến cố xung khắc nhau, và C A B
xk C86 C21 C85 28 112 2
P(C ) P( A) P( B) 0,66667
C106 C106 210 210 3
Ví dụ 1.18. Trong một lớp học, tỉ lệ sinh viên giỏi Toán là 15%, giỏi Lý là 8%, giỏi
Hoá là 7%, giỏi cả Toán và Lý là 6%, giỏi cả Toán và Hoá là 5%, giỏi cả Lý và Hoá là
4%, giỏi cả ba môn là 3%. Chọn ngẫu nhiên một sinh viên trong lớp. Tính xác suất để
sinh viên đó:
a) Giỏi ít nhất một môn Toán hoặc Lý,
b) Giỏi ít nhất một môn,
c) Giỏi cả 3 môn.
Giải. Gọi T , L, H tương ứng là biến cố chọn được sinh viên giỏi Toán, Lý, Hóa.
a) Gọi A là biến cố được SV giỏi ít nhất một môn Toán hoặc Lý.
Ta có: AT L
P( A) P(T L) P(T ) P( L) P(TL) 0,17
b) Gọi B là biến cố chọn được sinh viên giỏi ít nhất một môn.
Ta có: B T L H
P( B) P(T L H )
P(T ) P ( L) P ( H ) P(TL) P (TH ) P ( LH ) P (TLH )
0,15 0,08 0,07 0,06 0,05 0,04 0,03 0,18
c) Gọi C là biến cố chọn được sinh viên giỏi cả ba môn.
Ta có: C TLH ; P(C ) P(TLH ) 0,03
Xác suất có điều kiện của biến cố A biết biến cố B đã xảy ra (với P( B) 0 ), ký
hiệu P( A / B) , là xác suất của biến cố A nhưng được tính trong trường hợp biến cố B
đã xảy ra.
P( AB)
Công thức : P( A / B)
P( B)
Ví dụ 1.19. Một lô hàng có 100 sản phẩm, trong đó có 95 chính phẩm và 5 phế phẩm.
Lấy ngẫu nhiên lần lượt ra 2 sản phẩm (không hoàn lại). Tìm xác suất để lần thứ 2 lấy
được phế phẩm, biết rằng lần thứ nhất lấy được chính phẩm.
Giải. Gọi Ai , Bi tương ứng là biến cố lần thứ
5 pp 5 pp
i (i 1, 2) lấy được chính phẩm, phế phẩm. 95 cp
1 cp
94 cp
1 sp
5 Lần 1 Lần 2
Ta có: P ( B2 / A1 ) 0,05051 Hình 1.5. Hình vẽ ví dụ 1.19
99
Ví dụ 1.20. Có 50 câu hỏi môn xác suất thống kê được phân bố theo bảng sau:
Số lượng Câu dễ Câu khó
Câu lý thuyết 12 8
Câu bài tập 20 10
Chọn ngẫu nhiên một câu trong 50 câu hỏi. Tính xác suất:
a) Được câu lý thuyết,
b) Được câu bài tập,
c) Được câu dễ,
d) Được câu khó,
e) Được câu khó biết rằng đó là câu lý thuyết,
f) Được câu dễ biết rằng đó là câu bài tập.
Giải. Gọi B, D, K, L tương ứng là biến cố lấy được câu bài tập, câu dễ, câu khó, câu
lý thuyết.
8 12 2 10 20 3
a) P ( L) b) P ( B )
50 5 50 5
12 20 16 8 10 9
c) P ( D ) d) P ( K )
50 25 50 25
8 2 20 2
e) P ( K / L) f) P( D / B)
12 8 5 20 10 3
Ví dụ 1.21. Xét lại ví dụ 1.18.
a) Gọi ngẫu nhiên một sinh viên thì thấy sinh viên này giỏi Toán, tính xác suất sinh
viên này cũng giỏi Hóa.
b) Gọi ngẫu nhiên một sinh viên thì thấy sinh viên này giỏi Toán và Lý, tính xác suất
sinh viên này cũng giỏi cả ba môn.
Giải. a) Xác suất sinh viên giỏi Hoá khi biết sinh viên này giỏi Toán
P (TH ) 0,05 1
P( H / T ) 0,33333
P (T ) 0,15 3
b) Xác suất sinh viên giỏi cả ba môn biết sinh viên này giỏi cả Toán và Lý
P (TLH ) 0,03
P (TLH / TL) 0,5
P (TL) 0,06
với mọi Aj1 , Aj1 ,..., Ajk A1 ,..., An \ { Ai }, i .
Từ định nghĩa trên ta thấy hệ độc lập toàn phần thì độc lập từng đôi nhưng điều
ngược lại nói chung là không đúng. Khi nói họ A1 , A2 ,..., An độc lập mà không nói gì
thêm thì ta hiểu đó là độc lập toàn phần.
Xác suất của tích các biến cố độc lập
(5)
dl
Nếu A, B độc lập thì: P( AB) P( A).P( B)
Nếu hệ các biến cố A1 ,..., An độc lập toàn phần thì
(6)
dl
P( A1 A2 ... An ) ( A1 ).P( A2 )...P( An )
Ví dụ 1.22. Có ba người A, B, C cùng thi tuyển (một cách độc lập) vào một công ty.
Khả năng thi đậu của A, B, C tương ứng là 0,7; 0,8 và 0,6.
a) Tính xác suất cả ba người cùng đậu,
16 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
ln(0,05)
(0,94) n 0,05 n 48, 4156
ln(0,94)
Vậy phải chọn ít nhất là 49 lần.
1.4.4. Công thức xác suất đầy đủ và công thức Bayes
Giả sử các biến cố A1 ,..., An là nhóm các biến cố đầy đủ và xung khắc từng đôi. A
là một biến cố bất kỳ, ta có:
P( A) P( A1 ) P( A / A1 ) ... P( An ) P( A / An ) (1)
P( Ak ).P( A / Ak )
P( Ak / A) (2)
P( A)
Công thức (1) gọi là công thức xác suất đầy đủ, (2) gọi là công thức Bayes.
Ví dụ 1.25. Có 3 lô sản phẩm cùng hình dáng bên ngoài, tỉ lệ phế phẩm của từng lô
tương ứng là 6%, 2%, 1%. Chọn ngẫu nhiên một lô rồi từ lô đã chọn lấy ngẫu nhiên ra
một sản phẩm.
a) Tính xác suất để lấy được một phế phẩm,
b) Giả sử lấy được phế phẩm. Tính xác suất để phế phẩm đó của lô thứ ba.
Giải. Gọi Ai (i 1, 2,3) là biến cố chọn được lô hàng thứ i.
Hệ A1 , A2 , A3 là đầy đủ và xung khắc từng đôi.
P( A1 ) P( A2 ) P( A3 ) 1/ 3
a) Gọi A là biến cố lấy được phế phẩm, ta có:
P( A / A1 ) 0,06; P( A / A2 ) 0,02; P( A / A3 ) 0,01
Áp dụng công thức xác suất đầy đủ, ta có:
P( A) P( A1 ) P( A / A1 ) P( A2 ) P( A / A2 ) P( A3 ) P( A / A3 )
1 1 1
0,06 0,02 0,01 0,03
3 3 3
b) Áp dụng công thức Bayes, ta có:
P( A3 ) P( A / A3 ) (1/ 3) 0,01 1
P( A3 / A)
P( A) 0,03 9
Ví dụ 1.26. Tại một bệnh viện, theo kết quả điều trị thấy rằng những người mắc bệnh
B đến khám tại bệnh viện thì tỉ lệ người mắc bệnh này trong giai đoạn 1, giai đoạn 2,
giai đoạn 3 tương ứng là 35%, 45%, 20%. Biết rằng, nếu mắc bệnh trong giai đoạn 1,
giai đoạn 2, giai đoạn 3 thì xác suất điều trị khỏi bệnh B tương ứng là 95%, 85%,
70%. Một người vào bệnh viện khám thì phát hiện mắc bệnh B.
a) Tính xác suất người này được điều trị khỏi bệnh B,
b) Giả sử được điều trị khỏi bệnh B, tính xác suất người này mắc bệnh ở giai
đoạn 2,
c) Giả sử điều trị không khỏi bệnh B. Hỏi khả năng người đó được phát hiện
bệnh trong giai đoạn nào nhất?
Giải. Gọi Ai là biến cố người đến khám mắc bệnh B ở giai đoạn i (i 1,2,3) .
Hệ A1 , A2 , A3 là đầy đủ và xung khắc từng đôi.
P( A1 ) 0,35; P( A2 ) 0,45; P( A3 ) 0,2
a) Gọi A là biến cố người này được điều trị khỏi bệnh B.
Áp dụng công thức xác suất đầy đủ, ta có:
P( A) P( A1 ) P( A / A1 ) P( A2 ) P( A / A2 ) P( A3 ) P( A / A3 )
0,35 95 0, 45 0,85 0, 2 0,7 0,855
b) Áp dụng công thức Bayes, ta có:
P( A2 ) P( A / A2 ) 0, 45 0,85
P( A2 / A) 0, 44737
P( A) 0,855
c) Ta có: P( A) 1 P( A) 0,145 . Áp dụng công thức Bayes, ta có:
P( Ak ) P( A / Ak )
P( Ak / A) , k 1, 2,3
P ( A)
0,35 0,05
P( A1 / A) 0,12069
0,145
0, 45 0,15
P( A2 / A) 0, 46552
0,145
0, 2 0,3
P( A3 / A) 0, 41379
0,145
Vậy có khả năng được phát hiện bệnh trong giai đoạn 2 nhất.
Xác suất để biến cố A xuất hiện k lần trong n phép thử của dãy phép thử
Bernoulli, ký hiệu là Pn (k , p) , được tính theo công thức sau và gọi là công thức
Bernoulli:
Pn (k , p) Cnk p k (1 p) nk
(n 1) p 1 m0 (n 1) p
Pn (m, p ) Pn (m 1, p ) khi m (n 1) p 1
Suy ra
Pn (m, p ) Pn (m 1, p ) khi m (n 1) p 1
Mặt khác do m là số nguyên nên ta có các trường hợp sau:
Nếu (n 1) p 1 thì xác suất Pn (k , p) đạt giá trị lớn nhất tại k (n 1) p 1
và tại k 1 (n 1) p ; Nếu (n 1) p 1 thì Pn (k , p) đạt giá trị lớn nhất tại một số
nguyên k nằm giữa (n 1) p 1 và (n 1) p .
Vậy nếu m0 là số có khả năng cao nhất thì ta có: (n 1) p 1 m0 (n 1) p .
Ví dụ 1.27. Một bác sĩ có xác suất chữa khỏi bệnh là 0,8. Có người nói rằng cứ 10
người đến chữa thì chắc chắn có 8 người khỏi bệnh. Điều khẳng định đó có đúng
không?
Giải. Ta có thể xem việc chữa bệnh cho 10 người là một dãy gồm n 10 phép phép
thử Bernoulli với xác suất thành công (chữa khỏi bệnh) là p 0,8 .
Áp dụng công thức Bernoulli, ta có:
P10 8;0,8 C108 (0,8)8 (1 0,8)10 2 0,30199
Khả năng có 8 người được chữa khỏi bệnh trong 10 người là khoảng 30,2%. Vậy
không thể có chắc chắn 8 người khỏi bệnh. Điều khẳng định trên là sai.
Ví dụ 1.28. Khả năng nảy mầm của một loại hạt giống là 0,73.
a) Tính xác suất có đúng 15 hạt nảy mầm khi gieo 20 hạt giống,
b) Tính xác suất có nhiều nhất 18 hạt nảy mầm khi gieo 20 hạt giống,
c) Hỏi số hạt nảy mầm có khả năng cao nhất là bao nhiêu khi gieo 20 hạt giống?
Giải. Gọi Ai (i 0,..., 20) là biến cố có i hạt giống nảy mầm, A là biến cố có nhiều
nhất 18 hạt nảy mầm.
Áp dụng công thức Bernoulli với n 20 ; p 0,73 , ta có:
a) P( A15 ) P20 (15;0,73) C20
15
(0,73)15 (1 0,73)5 0,198201
b) A A19 A20 ; P ( A) xk P ( A19 ) P ( A20 )
P( A) C20
19
(0,73)19 (0, 27)1 C2020 (0,73) 20 (0, 27) 0 0,01551
P( A) 1 P( A) 0,98449
c) Ta có: n 20; p 0.73
(n 1) p 1 m0 (n 1) p 14.33 m0 15.33, m0
m0 15
Vậy số hạt giống nảy mầm có khả năng cao nhất là 15 hạt.
Ví dụ 1.29. Một xạ thủ có khả năng bắn trúng mục tiêu là 0,75. Cho xạ thủ này bắn 55
viên đạn. Tính số viên đạn trúng mục tiêu có khả năng cao nhất.
Giải. Ta có: n 55; p 0.75
(n 1) p 1 m0 (n 1) p 41 m0 42, m0
m0 41 m0 42
Vậy số viên đạn trúng mục tiêu có khả năng cao nhất là 41 hoặc 42 viên.
1) Chỉ có người thứ nhất bắn trúng, 6) Có ít nhất một người bắn trúng,
2) Cả ba người đều bắn trúng, 7) Có đúng một người bắn trúng,
3) Người thứ nhất trúng, người thứ ba trượt, 8) Có đúng hai người bắn trúng,
4) Có ít nhất hai người bắn trúng, 9) Không có ai bắn trúng.
5) Có không quá hai người bắn trúng,
Tìm xác suất để khi một người chơi bắn ngẫu nhiên vào phạm vi hình chữ nhật
thì ghi được điểm.
1.18. Hai tàu thủy cập vào một cảng để trả hàng một cách độc lập trong vòng 24h.
Biết rằng thời gian bốc dỡ hàng của tàu thứ nhất là 2h, của tàu thứ hai là 3h. Tính
xác suất để một trong hai tàu trên phải chờ để cập bến.
(không hoàn lại) từng sản phẩm ra ngoài để kiểm tra đến khi gặp đủ 3 sản phẩm lỗi
thì dừng lại. Tính xác suất dừng lại ở lần lấy
a) Thứ ba.
b) Thứ tư.
c) Biết lần thứ nhất lấy được sản phẩm lỗi, tính xác suất dừng lại ở lần lấy thứ tư.
1.26. Một cuộc thi có 3 vòng. Vòng 1 lấy 90% thí sinh; vòng 2 lấy 80% thí sinh đã
qua vòng 1; vòng 3 lấy 70% thí sinh đã qua vòng hai.
a) Tính tỷ lệ thí sinh lọt qua cả 3 vòng.
b) Tính xác suất để một thí sinh bị loại ở vòng 2 nếu biết rằng thí sinh này bị loại.
1.27. Bắn 3 viên đạn vào một cái bia một cách độc lập. Xác suất bắn trúng bia của mỗi
viên đạn lần lượt là 0,7; 0,8; 0,9. Tính xác suất:
a) Có đúng một viên đạn trúng bia.
b) Bia bị trúng đạn.
c) Viên thứ nhất trúng bia, biết rằng bia bị trúng 02 viên.
1.28. Có ba sinh viên cùng làm bài thi môn xác suất thống kê. Xác suất làm được bài
thi của từng người lần lượt là 0,9; 0,8; 0,7.
a) Tìm xác suất để có ít nhất một sinh viên làm được bài thi.
b) Giả sử có một sinh viên làm được bài thi. Tìm xác suất để sinh viên thứ nhất
không làm được bài thi.
1.29. Một mạch điện với các linh kiện được lấp đặt như hình vẽ sau. Biết rằng xác
suất hỏng hóc của các linh kiện A, B, C, D, E, F trong khoảng thời gian T tương
ứng là: 0,05; 0,04; 0,06; 0,07; 0,08; 0,03 và sự hỏng hóc của chúng là độc lập
nhau. Tính xác suất để trong khoảng thời gian T mạch bị ngắt do sự hỏng hóc của
các linh kiện này.
C
A
D F
B
E
Hình 1.7. Sơ đồ mạch điện
1.30. Có ba lô sản phẩm (sp). Lô I có 15 sp trong đó có 3 sp kèm vé thưởng trị giá 20
ngàn đồng; lô II có 20 sp trong đó có 4 sp kèm vé thưởng trị giá 10 ngàn đồng và 2
sp kèm vé thưởng trị giá 20 ngàn đồng; Lô III có 25 sp trong đó có 5 sp kèm vé
thưởng trị giá 10 ngàn đồng. Chọn ngẫu nhiên mỗi lô ra một sản phẩm.
a) Tính xác suất được ít nhất một sp có thưởng.
b) Tính xác suất được ít nhất hai sp không có thưởng.
c) Tính xác suất để tổng giá trị các vé trưởng là 10 ngàn đồng.
d) Tính xác suất để tổng giá trị các vé trưởng là 30 ngàn đồng.
Xác suất thống kê và Ứng dụng – 2021 25
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
c) Tính xác suất lấy được phế phẩm do xí nghiệp 2 sản xuất.
1.37. Một xí nghiệp có 3 phân xưởng cùng sản xuất một loại sản phẩm A với sản
lượng tương ứng theo tỉ lệ 8:7:9. Tỉ lệ sản phẩm đạt tiêu chuẩn xuất khẩu trong
phân xưởng I là 85%, trong phân xưởng II là 75%, trong phân xưởng III là 90%.
a) Tính tỉ lệ đạt tiêu chuẩn xuất khẩu của sản phẩm A trong toàn xí nghiệp.
b) Lấy ngẫu nhiên 1 sản phẩm từ xí nghiệp thì gặp sản phẩm đạt tiêu chuẩn xuất
khẩu. Hãy cho biết khi đó sản phẩm này có khả năng nhất là của phân xưởng
nào ?
1.38. Cửa hàng bán bóng đèn của 3 nhà máy sản xuất. Số bóng đèn của nhà máy A là
40% của nhà máy B là 25% còn lại là của nhà máy C. Theo số liệu kiểm tra ở các
nhà máy thì tỉ lệ phế phẩm của nhà máy A là 0,1% của nhà máy B là 0,2% và của
nhà máy C là 0,3%. Mua ngẫu nhiên 1 bóng đèn ở cửa hàng.
a) Tính xác suất để mua phải bóng đèn hư.
b) Giả sử ta mua phải bóng đèn hư, hỏi bóng đó có khả năng thuộc nhà máy nào
nhất ?
thời gian t cần đến sự chăm sóc của nữ công nhân là 0,3. Tính xác suất trong
khoảng thời gian t :
a) Có 4 máy cần đến sự chăm sóc của nữ công nhân.
b) Số máy dệt cần đến sự chăm sóc của nữ công nhân không bé hơn 3 và không
lớn hơn 6.
1.43. Tỷ lệ khách uống cà phê tại một quán giải khát là 65%.
a) Tính xác suất để trong 6 khách vào quán này có ít nhất 2 khách uống cà phê.
b) Trong số 35 khách vào quán này thì số khách uống cà phê có nhiều khả năng
nhất là bao nhiêu?
1.44. Bắn 6 viên đạn vào bia, xác suất trúng bia của mỗi viên đạn là 0,7. Bia sẽ bị
hỏng nếu có ít nhất 3 viên trúng. Tính xác suất để bia không bị hỏng.
1.45. Tại một siêu thị, người ta lắp đặt một hệ thống chuông báo cháy gồm 4 chuông.
Các chuông này hoạt động độc lập nhau và xác suất trong khoảng thời gian T một
chuông báo cháy khi khu vực có cháy là 95%. Tính xác suất để trong khoảng thời
gian T khu vực này có chuông báo cháy khi có cháy.
1.46. Một bài thi trắc nghiệm gồm có 10 câu, mỗi câu hỏi có 5 phương án trả lời,
trong đó chỉ có 1 phương án đúng. Giả sử mỗi câu trả lời đúng được 4 điểm và câu
trả lời sai bị trừ 2 điểm. Một học sinh kém làm bài bằng cách chọn hú hoạ một
phương án cho mỗi câu hỏi. Tính xác suất để:
a) Anh ta được 4 điểm.
b) Anh ta bị điểm âm.
CHƯƠNG 2
BIẾN NGẪU NHIÊN
2.1.2. Luật phân phối xác suất của biến ngẫu nhiên
a) Khái niệm
Luật phân phối xác suất của biến ngẫu nhiên là một quy tắc làm tương ứng mỗi
giá trị của biến ngẫu nhiên đó với một giá trị xác suất.
b) Bảng phân phối xác suất của biến ngẫu nhiên rời rạc
Xét biến ngẫu nhiên rời rạc X, có X () x1 , x2 ,..., xn với xác suất
P ( X xi ) pi .
Phân phối xác suất của X được biểu diễn dưới dạng bảng sau, và được gọi là
bảng phân phối xác suất:
X x1 x2 ... xn
P p1 p2 ... pn
Trong đó, các xi , pi thỏa mãn ba tính chất sau:
1) x1 x2 ... xn .
2) 0 pi 1, i 1,..., n
3) p1 p2 ... pn 1
Lưu ý:
Các biến cố { X xi }, i 1,..., n lập thành hệ đầy đủ và xung khắc từng đôi.
P( xk X xm ) pk pk 1 ... pm là xác suất để X nhận giá trị trong tập
xk ,..., xm , k m .
Cho biến ngẫu nhiên Y ( X ) (với ( X ) là một hàm số theo biến ngẫu nhiên
X ). Khi đó Y cũng là biến ngẫu nhiên rời rạc.
Các bước lập bảng phân phối xác suất của biến ngẫu nhiên Y:
- Tìm tập giá trị Y () .
- Tính các xác suất P(Y y j )
( xi ) y j
pi với pi P( X xi )
lập nhau và xác suất tìm ra chủng vi rút này ở mỗi lần thí nghiệm là 0,35. Hãy lập
bảng phân hối xác suất cho X.
Giải. X là biến ngẫu nhiên rời rạc có tập giá trị X () {0,1, 2} .
Gọi Ai là biến cố tìm ra chủng vi rút ở lần thí nghiệm thứ i .
Ta có: P( Ai ) 0,35 ; P( Ai ) 0,65 (i 1, 2,3)
dl
P( X 2) P A1 0,35
X 0 1 2
Vậy bảng phân phối của X là:
P 0, 4225 0, 2275 0,35
Ví dụ 2.3. Một người nhằm bắn vào một mục tiêu cho tới khi trúng mục tiêu thì
dừng. Các lần bắn độc lập nhau. Xác suất trúng mục tiêu của mỗi lần bắn là 0,6. Gọi Y
là số viên đại phải dùng. Lập bảng phân phối xác suất của Y.
Giải. Y là biến ngẫu nhiên rời rạc có tập giá trị Y () {1, 2,...} (đây là tập vô hạn đếm
được).
P(Y k ) (1 0,6)k 1 0,6 (0, 4)k 1 0,6 ( k 1 lần đầu trượt, lần thứ k bắn
trúng), k 1, 2,...
Vậy bảng phân phối của Y là:
Y 1 2 3 ... k ...
P 0,6 0, 24 0,096 ... (0, 4) k 1 0,6 ...
Ví dụ 2.4. Cho bnn rời rạc có bảng phân phối xác suất sau:
X 1 0 1 2 3
P a 2a 0,1 2a 0,3
a) Tìm a và tính xác suất P(0 X 2) .
b) Lập bảng phân phối xác suất của Y 2 | X | 3 .
Giải. a) Điều kiện 0 pi 1, i 0 a 0,5
p1 p2 ... p5 1 5a 0,4 1 a 0,12
Vậy bảng phân phối xác suất của X là:
X 1 0 1 2 3
P 0,12 0, 24 0,1 0, 24 0,3
P(0 X 2) P { X 1} { X 2} P( X 1) P ( X 2)
xk
0,1 0, 24 0,34
X 1 0 1 2 3
b) Bảng giá trị của Y là:
Y 2 | X | 3 1 3 1 1 3
Y là biến ngẫu nhiên rời rạc có tập giá trị Y () {1,3} .
P(Y 1) p1 p3 p4 0,46
P(Y 2) p2 p5 0,54
Y 1 3
Bảng phân phối xác suất của Y là:
P 0, 46 0,54
Ví dụ 2.5. Cho hai biến ngẫu nhiên X và Y độc lập nhau và có bảng phân phối xác suất
sau:
X 1 0 1 Y 1 1
P 0, 2 0,5 0,3 P 0, 4 0,6
Hãy lập bảng phân phối xác suất của các biến ngẫu nhiên T X Y và Z XY .
Giải. Lập các bảng cộng và bảng nhân sau:
Bảng cộng T X Y Bảng nhân Z XY
Y Y
-1 1 -1 1
X X
-1 -2 0 -1 1 -1
0 -1 1 0 0 0
1 0 2 1 -1 1
Các biến ngẫu nhiên T , Z là các bnn rời rạc có tập giá trị là:
T () 2; 1;0;1 Z () 1;0;1
Áp dụng tính chất xung khắc, độc lập của các biến cố, ta có:
P(T 2) P( X 1).P(Y 1) 0,08
P(T 1) P( X 0).P(Y 1) 0, 2
P(T 0) P( X 1).P(Y 1) P( X 1).P(Y 1) 0, 24
P(T 1) P( X 0).P(Y 1) 0,3
P(T 2) P( X 1).P(Y 1) 0,18
T 2 1 0 1 2
Bảng phân phối xác suất của T :
P 0,08 0, 2 0, 24 0,3 0,18
c) Hàm mật độ xác suất của biến ngẫu nhiên liên tục
Do biến ngẫu nhiên liên tục có vô số giá trị nên không thể liệt kê như trường hợp
rời rạc mà phải có một đại lượng khác để thay thế, đó là: hàm mật độ xác suất.
Định nghĩa
Hàm số y f ( x), x được gọi là hàm mật độ xác suất của biến ngẫu nhiên
liên tục X nếu thỏa hai điều kiện sau:
1) f ( x) 0, x y
P ( a X b) = diện tích hình
thang H
2) f ( x)dx 1
y f ( x)
Hệ quả
b
1) P a X b f ( x)dx H
a 0 a b x
Ý nghĩa: Hàm mật độ xác suất f ( x) đặc trưng cho mức độ tập trung xác suất của
biến ngẫu nhiên X trên từng khoảng giá trị của nó.
0 ,x 1
Ví dụ 2.6. Cho bnn liên tục X có hàm mật độ: f ( x) k
x 2 , x 1
0 ,x 1
Vậy k 1 , ta có: f ( x) 1
x 2 , x 1
3 3 3
dx 1 1
b) P 2 X 3 f ( x)dx 2
2 2
x x2 6
1 5
c) p P X (2,3) 1 P (2 x 3) 1
6 6
Gọi A là biến cố “có đúng 3 lần X (2,3) ”. Áp dụng công thức Bernoulli với
5
n 4; k 3; p , ta có:
6
3
4 3 5 5 125
P( A) C p (1 p)
3
4
3
4 1 0,3858
6 6 324
kx , 0 x 2
Ví dụ 2.7. Cho bnn liên tục X có hàm mật độ: f ( x) 2k , 2 x 4
0 , x [0, 4]
a) Tìm giá trị của tham số k và vẽ đồ thị hàm số y f ( x) .
b) Tính xác suất P(1 X 3) .
Giải. a) Ta có: f ( x) 0, x k 0
0 2 4
1
f ( x)dx 0dx k xdx 2k dx 0dx
0 2 4
2 2
x 1
k. 2k . x 2 6k k
4
2 0
6
x / 6 , 0 x 2
Khi đó: f ( x) 1 / 3 , 2 x 4
0 , x [0, 4]
y
y 1/ 3
1/3 Tổng diện
y x/6 tích vùng S1
và S2 bằng 1.
S2
S1
y0 y0
0 2 4 x
Hình 2.2. Đồ thị hàm mật độ xác suất y f ( x)
Hàm phân phối F ( x) phản ánh mức độ F ( x) f (t )dt = diện tích hình thang
cong vô hạn
tập trung xác suất về phía bên trái của x.
Nếu F ( x) càng lớn thì càng có nhiều giá trị S ( x) 1 F ( x)
của X nằm về phía bên trái của x. y f ( x)
Lưu ý: Hàm số S ( x) P( X x) 1 F ( x)
được gọi là hàm sống sót (survival function)
0 x x
nó thường được dùng nhiều trong kỹ thuật
và y khoa, hàm S ( x) cho biết xác suất một f ( x) hàm mật độ
Hình 2.3. F ( x) hàm phân phối
thiết bị, một bệnh nhân sẽ sống sót qua một S ( x) hàm sống sót
khoảng thời gian x nào đó.
Tính chất. Hàm phân phối xác suất có các tính chất sau
1) F ( x) không giảm trên
F () lim F ( x) 0
x
2)
F () lim
x
F ( x) 1
Hệ quả
1) 0 F ( x) 1, x
2) F ( x) liên tục trái tại mọi x thuộc .
3) P(a X b) F (b) F (a) .
4) Biến ngẫu nhiên liên tục X có hàm mật độ xác suất f ( x) . Khi đó hàm phân
phối của nó được tính theo công thức:
x
F ( x)
f (t )dt và F ( x) f ( x)
5) Biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X x1 x2 ... xn
P p1 p2 ... pn
Khi đó hàm phân phối của nó được tính theo công thức:
0, x x1
p , x1 x x2
1
F ( x) p1 p2 , x2 x x3
..................... ...
p1 p2 ... pn 1, x xn
Ví dụ 2.8. Cho biến ngẫu nhiên rời rạc X có bảng phân phối xác suất:
X 1 2 3
P 0,6 0,3 0,1
Hãy viết hàm phân phối xác suất F ( x) của X và vẽ đồ thị hàm số y F ( x) .
Giải
Hàm phân phối xác suất: F(x)
1
0 ; x 1 0,9
0,6 ; 1 x 2 0,6
F ( x) x
0,9 ; 2 x 3 0 1 2 3
1 ; x 3 Hình 2.4. Đồ thị hàm phân phối F(x)
Ví dụ 2.9. Cho X là biến ngẫu nhiên liên tục có hàm phân phối xác suất:
F ( x) A B.arctan x . Hãy tìm giá trị các tham số A, B.
Giải. Từ các tính chất của hàm F ( x) , ta có:
B
a) F ( x) không giảm trên F ( x) 0, x B0
1 x2
lim F ( x) 0 A B( / 2) 0 A 1/ 2
x
b)
lim
x
F ( x) 1 A B( / 2) 1 B 1 /
1 1
Vậy F ( x) arctan x
2
Ví dụ 2.10. Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất:
3
x(4 x),0 x 4
f ( x) 32
0 , x [0, 4]
Tìm hàm phân phối xác suất F ( x) của X.
x
c) Với x 0 , ta có: F ( x) 0dt 0
d) Với 0 x 4 , ta có:
x
3 t3 3 x3
0 x
3
F ( x) 0dt t (4 t )dt 2t 2 2 x 2
32 0 32 3 0 32 3
0 4 x
3
e) Với x 4 , ta có: F ( x) 0dt t (4 t )dt 0dt 1
32 0 4
0 ,x 0
1
Vậy F ( x) 6 x 2 x 3 ,0 x 4
32
1 ,x 4
P( X x0 ) 0,5
med ( X ) x0
P( X x0 ) 0,5
Lưu ý:
1) Các giá trị mod( X ),med( X ) luôn tồn tại và có thể không duy nhất.
2) Đối với bnn nhiên liên tục X có hàm phân phối F ( x) và med ( X ) x0 thì x0
thỏa phương trình F ( x) 0,5 .
3) Với X là bnn nhiên liên tục, người ta định nghĩa các giá trị tứ phân vị
(quartile) thứ nhất, thứ nhì (median), thứ ba lần lượt là q1 , q2 , q3 được định
nghĩa như sau: F (q1 ) 0,25 ; F (q2 ) 0,5 ; F (q3 ) 0,75 .
Xác suất thống kê và Ứng dụng – 2021 37
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
Ví dụ 2.11. Tìm mod( X ),med( X ) biết X là biến ngẫu nhiên rời rạc có bảng phân phối
X 1 2 3 4
xác suất:
P 0,05 0, 4 0, 4 0,15
Giải. Nhận thấy rằng giá trị xác suất lớn nhất bằng 0,4 tại X 2 hoặc X 3 . Vậy
mod( X ) 2 hoặc mod( X ) 3 .
P( X 3) 0,05 0, 4 0, 45 0,5
Ta có: med ( X ) 3
P( X 3) 0,15 0,5
Ví dụ 2.12. Tìm mod( X ),med( X ) , biết X là biến ngẫu nhiên rời rạc có bảng phân
X 1 2 3 4
phối xác suất:
P 0, 2 0,3 0, 4 0,1
Giải. mod( X ) 3
P( X 2) 0, 2 0,5
med ( X ) 2
P( X 2) 0,5 0,5
P( X 3) 0,5 0,5
med ( X ) 3
P( X 3) 0,1 0,5
Với 2 m 3
P{ X m} 0,5 0,5
med ( X ) m
P{ X m} 0,5 0,5
Vậy med ( X ) m, m thỏa 2 m 3 .
Ví dụ 2.13. Tìm mod( X ),med( X ) , biết X là biến ngẫu nhiên liên tục có hàm mật độ
3
x(4 x),0 x 4
xác suất: f ( x) 32
0 , x [0, 4]
Giải. a) Tìm mod( X )
Với 0 x 4 , ta có:
3 Bảng biến thiên
f ( x) (4 2 x)
32 x 0 2 4
f ( x) 0 x 2 f ( x) + 0 -
3/8
Vậy Mod ( X ) 2 f ( x)
0 0
b) Tìm med( X ) .
Theo ví dụ 2.10, ta có hàm phân phối của X là:
0 ,x 0
1
F ( x) 6 x 2 x 3 ,0 x 4
32
1 ,x 4
Xét phương trình
1 1 2 1
F ( x) x (6 x) , với 0 x 4
2 32 2
x3 6 x 2 16 0 ; 0 x 4 x 2
Vậy med ( X ) 2
2.2.2. Kỳ vọng toán
Kỳ vọng toán (hay ngắn gọn là kỳ vọng) của biến ngẫu nhiên X, ký hiệu là
E ( X ) , được tính theo công thức sau:
E ( X ) p1 x1 p2 x2 ... pn xn nếu X rời rạc.
E( X ) x. f ( x)dx
nếu X liên tục có hàm mật độ f ( x) .
Ý nghĩa. E ( X ) là giá trị trung bình (theo trọng số xác suất) của biến ngẫu nhiên
X.
Tính chất
1) E (C ) C , C là biến ngẫu nhiên hằng.
2) E (k . X ) k .E ( X ) , k là hằng số.
3) E ( X Y ) E ( X ) E (Y ) .
4) E ( XY ) E ( X ).E (Y ) , trong đó X, Y là hai biến ngẫu nhiên độc lập nhau.
5) Nếu Y ( X ) thì
n
E (Y ) pk . ( xk ) , nếu X rời rạc
k 1
E (Y ) ( x). f ( x)dx ,
nếu X liên tục
Ví dụ 2.14. Cho hai biến ngẫu nhiên rời rạc X , Y độc lập nhau trong ví dụ 2.5. Tính
E ( X ), E (Y ), E ( XY ) và cho nhận xét.
Giải. Ta có: E ( X ) 0, 2 0 0,3 0,1
E (Y ) 0, 4 0,6 0, 2
E ( XY ) E ( Z ) 0, 24 0 0, 26 0,02
Nhận xét: E ( XY ) E ( X ).E (Y ) (đây là tính chất (4))
Ví dụ 2.15. Cho bnn rời rạc X có bảng phân phối xác suất
X 1 2 4 5 7
P a 0, 2 b 0, 2 0,1
a) Tìm giá trị các tham số a, b , biết E ( X ) 3,5 .
b) Tính E ( X 2 ); E (3 X 2 5 X 7) .
Giải. a) Ta có:
0 a , b 1 0 a , b 1
a 0, 2
p1 p2 p3 p4 p5 1 a b 0,5
E ( X ) 3,5 a 4b 1, 4 b 0,3
X 1 2 4 5 7
Vậy
P 0, 2 0, 2 0,3 0, 2 0,1
3 2
( x 2 x), x [0,1]
Ví dụ 2.17. Cho bnn liên tục X có f ( x) 4
0 , x [0,1]
Tính E ( X ), E ( X 2 ), E ( X ) .
Giải
0 1
3 11
E ( X ) x. f ( x)dx 0dx x( x 2 2 x)dx 0dx
40 1
16
1
3 21
E ( X ) x . f ( x)dx x 2 ( x 2 2 x)dx
2 2
40 40
1
3
E( X ) x . f ( x)dx x ( x 2 2 x)dx
40
3 x 7/2 x5/2 57
1 1 1
x 5/2 2 x3/2 dx
3
2
40 47/ 2 0 5 / 2 0 70
2.2.3. Phương sai và độ lệch chuẩn
Định nghĩa phương sai
Phương sai của bnn X, ký hiệu là D( X ) hay Var(X), được định nghĩa nnhư sau:
D ( X ) E X E ( X )
2
Theo các tính chất của kỳ vọng, ta biến đổi phương sai như sau:
D( X ) E X 2 2 X .E ( X ) E ( X )
2
E ( X 2 ) 2 E ( X ).E ( X ) E ( X ) E ( X 2 ) E ( X )
2 2
Do đó, trong thực hành người ta thường dùng công thức sau để tính phương sai:
D( X ) E X 2 E ( X )
2
Lưu ý. D( X ) có đơn vị đo bằng bình phương đơn vị đo của X. Để có một đại lượng
có cùng đơn vị đo với X, người ta đưa ra khái niệm độ lệch chuẩn như sau:
Độ lệch chuẩn: ( X ) D( X )
Ý nghĩa của phương sai: D( X ) và ( X ) phản ánh mức độ tập trung hay phân
tán của các giá trị của X quanh giá trị trung bình E ( X ) .
Tính chất của phương sai
1) D( X ) 0 .
2) D(C ) 0 , với C là biến ngẫu nhiên hằng.
D( X ) E X 2 E ( X ) 15,7 (3,5)2 3, 45
2
2.3. Một số quy luật phân phối xác suất quan trọng
Trong n lần thử độc lập với xác suất thành công p trong mỗi lần thử (xác suất
xuất hiện biến cố A nào đó), gọi X là số lần thành công trong n lần thử thì khi đó X có
phân phối nhị thức với hai tham số n, p.
Phân phối nhị thức rất phổ biến trong thực tế, chẳng hạn: số khách hàng có đặc
điểm A nào đó trong số n khách hàng vào một hệ thống dịch vụ; số sản phẩm đạt tiêu
chuẩn A nào đó trong số n sản phẩm được lấy ngẫu nhiên từ một cơ sở sản xuất; số tín
hiệu có đặc điểm A nào đó trong số n tín hiện nhận được ở một máy thu; số bé gái
chào đời trong n ca sinh ở một bệnh viện,… là các biến ngẫu nhiên có phân phối nhị
thức.
Phân phối Bernoulli
Phân phối nhị thức trong trường hợp n 1 thì được gọi là phân phối Bernoulli
với tham số p (0,1) (xác suất thành công), ký hiệu là X B( p ) . Bảng phân phối xác
X 0 1
suất của X :
P 1 p p
Ví dụ 2.20. Xác suất để một cây sống sau một thời gian trồng là 0,8. Trồng 1000 cây.
Gọi X là số cây sống sau một thời gian trồng.
a) Tìm luật phân phối xác suất của X.
b) Tính xác suất có 750 cây sống sau một thời gian trồng.
c) Tính E ( X ), D( X ) và cho biết số cây sống sau một thời gian trồng có khả năng
cao nhất là bao nhiêu ?
Giải. a) Theo bài thì X có luật phân phối nhị thức với hai tham số n 1000; p 0,8 .
Công thức xác suất :
P X k Cnk p k (1 p)nk C1000
k
(0,8) k (0, 2)1000k ; k 0,1000
b) P X 750 C1000
750
(0,8)750 (0, 2) 250 0,000018
c) E ( X ) np 1000 0,8 800
D( X ) np(1 p) 1000 0,8 0, 2 160
(n 1) p 1 mod( X ) (n 1) p 799,8 mod( X ) 800,8
mod( X ) 800
Số cây sống sau một thời gian trồng có khả năng cao nhất là 800 cây.
Ví dụ 2.21. Một lô hàng chứa rất nhiều sản phẩm, trong đó tỷ lệ sản phẩm đạt chuẩn
là 70%. Chọn ngẫu nhiên từ lô hàng ra 5 sản phẩm. Gọi X là số sản phẩm đạt chuẩn có
trong 5 sản phẩm chọn ra. Hãy lập bảng phân phối xác suất cho X, và tính
E ( X ), D( X ) .
Giải. Ta thấy rằng X có phân phối nhị thức: X B(n, p) với n 5; p 0,7 . Xác suất
NA
p 0,6 ; q 1 p 0, 4
N
Kỳ vọng của X: E ( X ) np 5 0,6 3
N n 10 5 2
Phương sai của X: D( X ) npq 5 0,6 0, 4
N 1 10 1 3
Lưu ý. Bài toán trong ví dụ này có thể làm trực tiếp theo phương pháp liệt kê các giá
trị của X, không nhất thiết phải làm theo phân phối siêu bội (phức tạp).
Ví dụ 2.23. Một lô hàng có 10000 sản phẩm, trong đó có 9000 sản phẩm loại A và
1000 sản phẩm loại B. Lấy ngẫu nhiên 12 sản phẩm từ lô hàng để kiểm tra. Tìm xác
suất lấy được 9 sản phẩm loại A.
Giải. Gọi X là số sản phẩm loại A có trong 12 sản phẩm lấy ra. Khi đó X có phân phối
siêu bội X H ( N , N A , n) với N 10000 , N A 9000 , n 12 . Do n 12 rất nhỏ so
NA
với N nên X xấp xỉ phân phối nhị thức X B(n, p) với p 0,9 .
N
Vậy xác suất chọn được 9 sản phẩm loại A là:
P( X 9) Cn9 p9 (1 p) n9 C129 (0,9)9 (0,1)3 0,085233
k
P X k e ; k 0,1, 2,...
k!
Định lý Poisson
Cho bnn X có phân phối nhị thức X B(n, p) . Giả sử n rất lớn và p rất nhỏ
(thông thường p 0,1 ). Khi đó X được xấp xỉ phân phối Poisson, X P( ) với
np , ta có công thức xấp xỉ:
k
P X k Cnk p k (1 p)nk e
k!
Tính chất. Cho X P( ) . Khi đó:
1) E ( X ) D( X )
2) 1 mod( X )
Mô hình Poisson
Người ta chỉ ra được rằng: số lần xuất hiện biến cố A nào đó trong khoảng thời
gian liên tục (t1 , t2 ) và không gian xác định nào đó là biến ngẫu nhiên có phân phối
Poisson. Chẳng hạn: xét trong khoảng thời gian (t1 , t2 ) nào đó, số khách hàng đến một
hệ thống dịch vụ, số cuộc gọi của một mạng điện thoại di động, số tín hiệu nhận được
ở một máy thu sóng, số trẻ chào đời ở một bệnh viện phụ sản, số xe qua một trạm, số
xe máy đến đổ xăng tại một trạm xăng,… là các biến ngẫu nhiên có phân phối Poisson
với tham số c(t2 t1 ) , với c là cường độ xuất hiện biến cố A.
Ví dụ 2.24. Một máy dệt có 5000 ống sợi, xác suất để trong 1 phút mỗi ống sợi bị
ngưng hoạt động (do sợi bị đứt, bị rối,..) là 0,0004. Gọi X là số ống sợi bị ngưng hoạt
động trong 1 phút.
a) Tìm luật phân phối xác suất của X.
b) Tính xác suất để trong 1 phút có hơn 2 ống sợi bị ngưng hoạt động.
Giải. a) X có phân phối nhị thức X B(n, p) với hai tham số n 5000 và
p 0,0004 . Công thức xác suất:
P X k Cnk p k (1 p ) n k C5000
k
(0,0004) k (0,9996)5000k , (k 0,...,5000)
b) Do n 5000 là rất lớn và p 0,0004 rất nhỏ nên X xấp xỉ phân phối Poisson:
X P( ) với np 2 .
k 2k 2
P X k e
e
k! k!
Xác suất cần tìm là:
P( X 2) 1 P(0 X 2) 1 P( X 0) P( X 1) P( X 2)
20 21 22
1 e 2 e 2 e 2 1 5e 2
0! 1! 2!
Vậy P{ X 2} 1 5e2 0,323324 .
Ví dụ 2.25. Ở trạm xăng H, bình quân mỗi 10 phút có 15 xe máy đến đổ xăng. Biết
rằng số xe máy đến đổ xăng ở trạm xăng này trong khoảng thời gian t phút là biến
ngẫu nhiên có phân phối Poisson.
a) Tìm xác suất để trong khoảng thời gian 10 phút có ít nhất 4 xe máy đến đổ xăng
tại trạm xăng này.
b) Tìm xác suất để trong khoảng thời gian 15 phút có từ 20 đến 24 xe máy đến đổ
xăng tại trạm xăng H.
Giải. Gọi X , Y tương ứng là số xe máy đến đổ xăng ở trạm xăng H trong 10 phút và
15 trong phút.
Theo giả thiết, ta có: X P( ), Y P(1 )
c 1,5
10c 15
1 c.15 22,5
a) Xác suất để trong khoảng thời gian 10 phút có ít nhất 4 xe máy đến đổ xăng:
P{ X 4} 1 P{ X 4}
1 P{ X 0} P{ X 1} P{ X 2} P{ X 3}
0 1 2 3
1 e e e e 0,999789
0! 1! 2! 3!
b) Xác suất để trong khoảng thời gian 15 phút có từ 20 đến 24 xe máy đến đổ xăng:
24 24
1k
P{20 Y 24} P{Y k} k ! e
k 20 k 20
1
0, 403249
f ( x)dx e x dx e x
6
p P( X 6)
0
0
1
Theo bài, ta có: 1 e T 0,15 eT
0,85
1 1
T 1,30015
0,85
ln
5 5 1
0,3333
30 30 3
b) Xác suất để hành khách ít nhất 12 phút.
3 18
P(0 X 3) P(15 X 18) f ( x)dx f ( x)dx
0 15
3 3 1
0, 2
30 30 5
2
tính trực tiếp từ máy tính bỏ túi. Hình 2.7. Hàm Gauss, hàm Laplace
d) Định lý Laplace
Cho biến ngẫn nhiên rời rạc X B(n, p) (phân phối nhị thức). Giả sử n rất lớn
và p không quá gần 0 cũng không quá gần 1 (thường 0,1 p 0,9 ). Khi đó X được
xấp xỉ phân phối chuẩn:
X N ( , 2 ) với np, np (1 p ) .
Công thức xác suất:
1k
P( X k ) , (k 0,..., n)
f
k k1
P(k1 X k2 ) 2
1 x2 /2
Trong đó f ( x) e là hàm Gauss, ( x) là hàm Laplace.
2
Lưu ý. Xác suất tại một điểm còn được tính theo công thức sau:
P( X k ) P(k 0,5 X k 0,5)
k 0,5 k 0,5
e) Giá trị phân vị chuẩn
Cho Z N (0;1) . Khi đó, với mỗi số thực 0 1 có duy nhất một giá trị thực
z thoả mãn: P(Z z ) .
Số thực z được gọi là giá trị phân vị y
Cách 1: Sử dụng hàm Normsinv trong Excel theo công thức sau
z Normsinv( ) với 0,5 1
z Normsinv(1 ) với 0 0,5
x
1
Cách 2: Tra bảng giá trị hàm Laplace ( x) e t /2 dt để tìm z
2
2 0
x 1,645 1,751 1,881 1,960 2,054 2,170 2,326 2,576
( x) 0,45 0,46 0,47 0,475 0,48 0,485 0,49 0,495
Ví dụ 2.29. Trọng lượng của một loại sản phẩm là biến ngẫu nhiên có phân phối
chuẩn N ( ; 2 ) với trọng lượng trung bình 6, 2 kg và độ lệch chuẩn 0, 2 kg.
a) Tính tỷ lệ sản phẩm có trọng lượng từ 5,7 kg đến 6,8 kg.
b) Hãy so sánh tỷ lệ sản phẩm có trọng lượng nhỏ hơn 5,8 kg và sản phẩm có
trọng lượng lớn hơn 6,5 kg.
c) Tìm a sao cho P( X a) 0,758 , biết (0,7) 0, 2580 .
Giải. Gọi X là trọng lượng của loại sản phẩm đã cho.
Theo giả thiết, ta có: X N ( ; 2 ) với 6, 2 kg và 0, 2 kg.
a) Tỷ lệ những sản phẩm có trọng lượng từ 5,7 kg đến 6,8 kg:
6,8 5,7
p P(5,7 X 6,8)
6,8 6, 2 5,7 6, 2
(3) (2,5)
0, 2 0, 2
(3) (2,5) 0, 49865 0, 49379 0,99244
6,5 6, 2
b) p2 P( X 6,5) 0,5 0,5 (1,5) 0,06681
0, 2
5,8 6, 2 0 6, 2
p1 P(0 X 5,8) (2) (31) 0,02275
0, 2 0, 2
Vậy tỷ lệ sản phẩm có trọng lượng nhỏ hơn 5,8 kg nhỏ hơn tỷ lệ sản phẩm có
trọng lượng lớn hơn 6,5 kg.
a 6, 2
c) Ta có: P( X a) 0,5 0,758
0, 2
a 6, 2
0, 258 0,7
0, 2
a 6, 2
0,7 a 6,06
0, 2
Ví dụ 2.30. Sản phẩm do một nhà máy sản xuất được đóng thành từng kiện, mỗi kiện
gồm 10 sản phẩm, trong đó có 6 sản phẩm tốt và 4 sản phẩm lỗi. Khách hàng chọn
cách kiểm tra như sau: từ mỗi kiện chọn ngẫu nhiên ra 3 sản phẩm; nếu thấy có ít nhất
2 sản phẩm tốt thì nhận kiện đó, ngược lại thì loại kiện đó. Kiểm tra 140 kiện trong rất
nhiều kiện. Tính xác suất có:
Xác suất thống kê và Ứng dụng – 2021 53
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
Khi đó bnn X X 12 X 22 ... X n2 được gọi là có phân phối Chi bình phương
với n bậc tự do, ký hiệu là X 2 ( n) .
Hàm mật độ tương ứng sẽ là:
1
x n
1
.e x , khi x 0
2 2
n
f ( x) 2n /2
2
0 , khi x 0
Trong đó
y
t e dt là hàm Gamma
x 1 t
( x)
0 y f ( x)
Các số đặc trưng. Cho X 2 ( n)
E( X ) n
Khi đó:
D ( X ) 2n
0 x
Hình 2.9. Phân phối
Chi bình phương
2.4. Một số kết quả về luật số lớn và các định lý giới hạn
Ký hiệu: X n
P
X ( n ) .
Ý nghĩa của sự hội tụ theo xác suất: Với mọi 0 thì xác suất để sai khác nhau
giữa X n và X không vượt quá càng lớn (càng gần tới 1) khi n tăng lên, hay sai
khác giữa X n và X vượt quá ít có khả năng xảy ra.
2.4.2. Một số kết quả về luật số lớn và các định lý giới hạn
Trong lý thuyết xác suất người ta gọi những định lý khẳng định dãy các biến
ngẫu nhiên nào đó hội tụ theo xác suất về hằng số là những định lý luật số lớn, những
định lý khẳng định về sự hội tụ của dãy hàm phân phối của dãi biến ngẫu nhiên về
hàm phân phối của một biến ngẫu nhiên nào đó là những định lý giới hạn.
Bất đẳng thức Chebyshev
Cho biến ngẫu nhiên X. Với mọi 0 , ta luôn có:
D( X )
P | X E ( X ) | 1
2
D( X )
(hay P | X E ( X ) |
)
2
Ví dụ 2.31. Thu nhập bình quân hàng năm của mỗi người dân một vùng là 2000 USD
với độ lệch tiêu chuẩn là 150 USD. Hãy xác định khoảng thu nhập hàng năm quanh
giá trị trung bình của ít nhất 98% dân cư vùng đó.
Giải. Gọi X là thu nhập hàng năm của một người dân trong vùng.
Ta có: E ( X ) 2000, ( X ) 150 . Ngoài ra chúng ta không biết thông tin về phân
phối xác suất của X.
Áp dụng bất đẳng thức Chebyshev, ta có:
D( X ) 1502
P | X E ( X ) | 1 1 0,98
2 2
1060,66
| X E( X ) | E( X ) X E( X )
939,36 X 3060,66
Vậy ít nhất 98% dân cư của vùng có thu nhập hàng năm trong khoảng
939,36 ; 3060,66 .
e dt
t /2
2
lim P X x
n k 1 2
k
n
Hệ quả 1
Nếu dãy các biến ngẫu nhiên đọc lập X1 , X 2 ,..., X n ... có cùng kỳ vọng và
1 n
phương sai 2 thì
n k 1
X k
P
.
2.5.2. Hàm phân phối xác suất của vector ngẫu nhiên
Định nghĩa
Cho vector ngẫu nhiên vector ngẫu nhiên X ( X1 ,..., X n ) . Ta gọi hàm n biến:
là hàm phân phối xác suất của vector X, hay còn gọi là hàm phân phối xác suất
đồng thời của các biến ngẫu nhiên X 1 ,..., X n .
Tính chất
1) 0 FX ( x1 ,..., xn ) 1, ( x1 ,..., xn ) n
4) lim F ( x, y ) FX ( x) ; lim F ( x, y ) FY ( y )
y x
Trong đó: FX , FY tương ứng là hàm phân phối của biến ngẫu nhiên X , Y .
p yj P Y y j
n m
p
j 1
ij pxi P X xi ; p
i 1
ij
k m m n
pij 1 ;
i 1 j 1
pxi 1 ;
i 1
p
j 1
yj 1
X x1 x2 ... xm
P( X | Y y j ) p1| y j p2| y j ... pm| y j
Trong đó:
P X xi , Y y j
pi| y j P X xi | Y y j
pij
P{Y y j } P{Y y j }
i 1
- Phân phối xác suất có điều kiện của Y với điều kiện X xi
Y y1 y2 ... yn
P(Y | X xi ) p1|xi p2|xi ... pn|xi
Trong đó:
P X xi , Y y j
p j| xi P Y y j | X xi
pij
P{ X xi } P{ X xi }
n
Kỳ vọng có điều kiên: E Y | X xi y j . p j|xi
j 1
Từ hàm mật độ đồng thời có thể suy ra hàm mật độ của từng biến:
f X ( x)
f ( x, y )dy ; fY ( y )
f ( x, y )dx
2) dx f ( x, y)dxdy 1
Hệ quả
x y
1) F ( x, y )
f (u , v)dudv
2) P ( X , Y ) D f ( x, y)dxdy
D
Ví dụ 2.33. Tại một công ty kinh doanh khoáng sản, thống kê cho thấy hàm lượng H
và giá bán G của một loại khoáng sản có bảng phân phối xác suất đồng thời sau:
G
300 340 550
H
0,4 0,20 0,05 0
0,7 0,05 0,20 0,05
0,8 0 0,10 0,35
a) Có bao nhiêu phần trăm khoáng sản được bán với giá 340?
b) Tính giá bán trung bình của công ty.
c) Tính hàm lượng trung bình của khoáng sản.
d) Tính giá bán trung bình của khoáng sản có hàm lượng 0,7.
Giải. a) P G 340 0,05 0, 20 0,10 0,35 35%
b) Ta có bảng phân phối của giá bán G:
G 300 340 550
P 0, 25 0,35 0, 40
Giá bán trung bình của công ty là:
E (G ) 300 0, 25 340 0,35 550 0, 40 414
c) Ta có bảng phân phối của hàm lượng H:
H 0, 4 0,7 0,8
P 0, 25 0,30 0, 45
3) cov( X , X ) D( X )
4) cov( X , Y ) xi E ( X ) y j E (Y ) pij
i j
Y
1 2 3
X
1 0,12 0,15 0,03 0,3
2 0,28 0,35 0,07 0,7
0,4 0,5 0,1 1
1) Lập bảng phân phối xác suất của biến ngẫu nhiên Z X Y .
2) Lập bảng phân phối xác suất của biến ngẫu nhiên T XY .
3) Tìm vector kỳ vọng E ( X ), E (Y ) của vector (X,Y).
4) Tìm bảng phân phối xác suất có điều kiện của X với điều kiện Y 2 và tính
E ( X | Y 2) .
5) Lập ma trận covariance của vector ngẫu nhiên (X,Y).
6) Tính hệ số tương quan XY và cho nhận xét. Lập ma trận tương quan của vector
ngẫu nhiên (X,Y).
Giải.1) Lập bảng cộng của biến ngẫu nhiên Z X Y
Y
1 2 3
X
1 Z 2 Z 3 Z 4
2 Z 3 Z 4 Z 5
P Z 2 P X 1, Y 1 0,12
P Z 3 P X 1, Y 2 P X 2, Y 1 0, 43
P Z 4 P X 1, Y 3 P X 2, Y 2 0,38
P Z 5 P X 2, Y 3 0,07
Vậy phối xác suất của biến ngẫu nhiên Z X Y là:
Z 2 3 4 5
P 0,12 0, 43 0,38 0,07
Y
1 2 3
X
1 T 1 T 2 T 3
2 T 2 T 4 T 6
Tính tương tự câu a), ta có bảng phân phối của T XY là:
T 1 2 3 4 6
P 0,12 0, 43 0,03 0,35 0,07
3) Bảng phân phối riêng của X và của Y là:
X 1 2 Y 1 2 3
P 0,3 0,7 P 0, 4 0,5 0,1
E ( X ) 1,7 ; E(Y ) 1,7
Vậy E ( X ), E (Y ) 1,7;1,7
4) Ta có: P{Y 2} 0,5
P X 1, Y 2 0,15
p1|Y 2 P X 1| Y 2 0,3
P{Y 2} 0,5
P X 2, Y 2 0,35
p2|Y 2 P X 2 | Y 2 0,7
P{Y 2} 0,5
Vậy phân phối xác suất có điều kiện của X với điều kiện Y 2 là:
X 1 2
P( X | Y 2) 0,3 0,7
Bảng phân phối xác suất của biến ngẫu nhiên rời rạc
2.1. Một thùng hàng gồm 10 sản phẩm, trong đó có 6 sản phẩm loại A và 4 sản phẩm
loại B. Mỗi sản phẩm loại A có giá 250 ngàn đồng, mỗi sản phẩm loại B có giá 200
ngàn đồng. Lấy ngẫu nhiên 3 sản phẩm từ thùng hàng. Gọi X là tổng trị giá 3 sản
phẩm được lấy ra.
Hãy lập bảng phân phối xác suất của X .
2.2. Một lô hàng có 7 sản phẩm đạt chuẩn và 3 sản phẩm lỗi. Chọn ngẫu nhiên từ lô
hàng ra 4 sản phẩm. Gọi X là số sản phẩm đạt chuẩn có trong 4 sản phẩm lấy ra.
Hãy lập bảng phân phối xác suất của X và của Y 5 2 X .
2.3. Có 3 thùng hàng vỏ ngoài giống nhau, mỗi thùng đều chứa 10 sản phẩm. Trong
đó: thùng thứ nhất có 1 sản phẩm kèm vé thưởng trị giá 50 ngàn đồng; thùng thứ hai
có 2 sản phẩm kèm vé thưởng trị giá 30 ngàn đồng cho mỗi sản phẩm; thùng thứ ba có
3 sản phẩm kèm vé thưởng trị giá 20 ngàn đồng cho mỗi sản phẩm. Lấy ngẫu nhiên
một thùng và từ thùng đó lấy ngẫu nhiên một sản phẩm.
Gọi X là trị giá tiền thưởng có được từ sản phẩm được lấy ra (nếu sản phẩm lấy
ra không có vé thưởng thì X 0 ). Hãy lập bảng phân phối xác suất cho X.
2.4. Ba khẩu súng cùng bắn vào một mục tiêu độc lập nhau với xác suất bắn trúng của
mỗi khẩu là 0,8; 0,6; 0,7. Gọi X là số viên đạn trúng mục tiêu. Hãy lập bảng phân phối
xác suất của X.
2.5. Một phân xưởng có 4 máy hoạt động với xác suất để mỗi máy bị hỏng trong một
ca sản xuất là 0,1. Gọi X là số máy bị hỏng trong một ca sản xuất. Hãy lập bảng phân
phối xác suất của X.
2.6. Để thử sức chịu nén của một loại vật liệu người ta tiến hành theo ba mức sau:
Mức 1: Tiến hành thử với áp lực 200 kg/cm2. Nếu vật liệu chịu được áp lực này
thì chuyển sang mức hai. Mức 2: Tiến hành thử với áp lực 230 kg/cm2. Nếu vật liệu
chịu được áp lực này thì chuyển sang mức ba. Mức 3: Tiến hành thử với áp lực 250
kg/cm2.
Biết các lần thử độc lập và xác suất để vật liệu chịu được các mức thử trên tương
ứng là 0,9; 0,6 và 0,4. Gọi X là số lần thử, Y là số lần thử thành công. Hãy lập bảng
phân phối xác suất của X và của Y.
2.7. Có hai vận động viên bắn cung A và B tập bắn. Mỗi người bắn hai lần. Xác suất
bắn trúng hồng tâm của A trong mỗi lần bắn là 0,6; của B là 0,55. Gọi X là số lần bắn
trúng hồng tâm của A trừ đi số lần bắn trúng hồng tâm của B.
Hãy lập bảng phân phối xác suất của các biến ngẫu nhiên X và của | X | .
2.8. Khả năng xuất hiện một loại vi trùng (mà ta quan tâm) ở mỗi thí nghiệm là 0,1.
Một cán bộ nghiên cứu đã làm từng thí nghiệm một cho đến khi nào thành công (nhận
được loại vi trùng trên) thì dừng. Nhưng cán bộ này chỉ được cấp kinh phí để làm tối
đa 15 thí nghiệm. Gọi Z là số thí nghiệm không thành công mà cán bộ trên đã làm.
a) Tìm quy luật phân phối xác suất của Z.
b) Tính xác suất cán bộ này thành công trong 5 thí nghiệm đầu.
2.14. Cho biến ngẫu nhiên X có bảng phân phối xác suất:
X 0 1 2 3 4
P 0,3 3a 2a 0, 25 0,05
a) Tìm a và tính các xác suất P(| X | 1), P(| 3 2 X | 2)
ax bx 2 , x [0;1]
2.19. Cho biến ngẫu nhiên liên tục X có hàm mật độ f ( x)
0 , x [0;1]
a) Tìm a, b và tính D( X ) , biết E ( X ) 0,6 .
b) Tìm hàm phân phối xác suất F ( x) .
0 , x 2
2.20. Cho bnn liên tục X có hàm phân phối xác suất F ( x) ax 3 2b , x (2;3]
1 ,x 3
Tìm a, b và tính xác suất P
2 Y 5 với Y 1 X 2 .
2.21. Cho biến ngẫu nhiên liên tục X có hàm mật độ f ( x) trong mỗi trường hợp sau.
Tìm hàm phân phối xác suất F ( x) của X.
4 2 0 , x 100
x (3 x), x [0;3]
a) f ( x) 27 c) f ( x) 100
0 , x [0;3] x 2 , x 100
6
3 5 x, x [0,1]
(1 x ), | x | 1
2
b) f ( x) 4 d) f ( x) 0 , x 0
0 , | x | 1 6
4 ,x 1
5x
ax(4 x), x [0;4]
2.22. Cho bnn liên tục X có hàm mật độ xác suất f ( x)
0 , x [0;4]
a) Tìm a , vẽ đồ thị hàm số y f ( x) và tìm mod( X ) .
b) Tính xác suất P(1 X 3,5) .
c) Tính E ( X ), D ( X ) .
2
, x [1;2]
2.23. Cho biến ngẫu nhiên liên tục X có hàm mật độ: f ( x) x 2
0 , x [1;2]
2
Tính E ( X ), D( X ), E (Y ) với Y X 5
X
2.24. Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất:
k .x 2 (2 x), x [0;2]
f ( x)
0 , x [0;2]
a) Tìm giá trị của tham số k và tính xác suất P 1 X 1,5 .
b) Tính E ( X ), D( X ), ( X ) .
k .x 2e2 x , x 0
2.25. Cho biến ngẫu nhiên liên tục X có hàm mật độ f ( x)
0 ,x 0
a) Tìm giá trị của tham số k và tính mod( X ) .
b) Tìm hàm phân phối F ( x) .
c) Tính E ( X ), D( X ), ( X )
ax , 1 x 3
2.26. Cho biến ngẫu nhiên liên tục X có hàm mật độ f ( x) a , 3 x 7
0 , x [1,7]
68 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
d) Tính E ( X 4 ), E ( X ) .
e) Tính xác suất P(2,5 X 8) .
2ax , x [0;1]
2.27. Cho biến ngẫu nhiên liên tục X có hàm mật độ f ( x) a (3 x), x (1;3]
0 , x [0,3]
a) Tìm a , vẽ đồ thị hàm số y f ( x) .
b) Tìm hàm phân phối xác suất F ( x) , vẽ đồ thị y F ( x) .
c) Tính mod( X ), med ( X ) .
d) Tính E ( X ), D( X ), E ( X ) .
2.28. Cho hai biến ngẫu nhiên X , Y độc lập nhau.
3
(1 x ), | x | 1
2
X có hàm mật độ xác suất: f ( x) 4
0 , | x | 1
Y 3 1 0 1 2
Y có bảng phân phối xác suất:
P 0,07 0, 2 0,35 0,3 0,08
a) Tính E ( X ), D( X ), E (Z ) với Z 2 X 2
b) Tính E (Y ), D(Y ), E (Y )
d) Tìm xác suất để trong 6 khách hàng được phục vụ, có ít nhất một khách hàng
không phải chờ phục vụ quá 1 phút.
2.30. Thu nhập hàng năm của một người dân ở địa phương H là biến ngẫu nhiên liên
0 , x 6
tục X (đơn vị: triệu đồng) có hàm mật độ xác suất f ( x) 1 .
m.x 4 , x 6
làm ra 400 sản phẩm. Sản phẩm làm ra của hai máy đem bán với giá 50 ngàn đồng/
sản phẩm loại 1 và 30 ngàn đồng/ sản phẩm loại 2. Hãy tính kỳ vọng và phương sai
cho tổng số tiền bán được của 1000 sản phẩm này.
Phân phối mũ
2.43. Cho X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f ( x) trong mỗi
trường hợp sau. Hãy tìm k , tìm hàm phân phối F(x), tính E ( X ), D( X ) .
Xác suất thống kê và Ứng dụng – 2021 71
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
b) Tính tỷ lệ người lao động ở thành phố này có mức thu nhập chưa tới 7,4 triệu
đồng/tháng.
c) Hầu hết 99,73% người lao động ở thành phố này có mức thu nhập vào khoảng
bao nhiêu?
2.52. Đường kính của một loại trục máy do cùng một máy sản xuất là biến ngẫu nhiên
có phân phối chuẩn với đường kính trung bình (theo như thiết kế) là 20 mm và độ
lệch tiêu chuẩn 0,04 mm. Trục máy được coi là đạt tiêu chuẩn kỹ thuật nếu
đường kính của nó sai lệch so với đường kính thiết kế không quá 0,072mm. Tìm tỉ lệ
trục máy đạt tiêu chuẩn kỹ thuật của nhà máy.
2.53. Thời gian khách phải chờ được phụ vụ tại một cửa hàng là bnn X N (4,5;1, 21)
(đơn vị: phút).
a) Tính xác suất khách phải chờ từ 3,5 phút đến 5 phút.
b) Tìm giá trị nhỏ nhất của t để cho P( X t ) 0.05 .
2.54. Tuổi thọ của một sản phẩm là bnn X N (4, 2;3, 24) (đơn vị: năm). Thời gian
bảo hành được qui định là 3 năm. Nếu bán một sản phẩm thì lãi 150 ngàn đồng. Nếu
sản phẩm bị hỏng trong thời gian bảo hành thì phải chi mức phí 500 ngàn đồng cho
việc bảo hành. Tính số tiền lãi trung bình khi cửa hàng bán một sản phẩm.
2.55. Thời gian đi từ nhà đến trường là biến ngẫu nhiên X có phân phối chuẩn
N (28; 4) . Biết rằng thời gian vào lớp là 12h30.
a) Anh ta xuất phát từ nhà lúc 12h. Tính xác suất bị trễ học.
b) Nếu muốn xác suất không bị trễ giờ ít nhất là 0,95 thì anh ta phải xuất phát từ
nhà muộn nhất là mấy giờ?
2.56. Trong một đợt thi tuyển viên chức tại Tp.HCM có 1000 người dự thi với tỷ lệ thi
đạt là 80%. Tìm xác suất:
a) Có 172 người không đạt.
b) Có khoảng từ 170 đến 180 người không đạt.
c) Có nhiều nhất 190 người không đạt
d) Có ít nhất 780 người đạt
2.57. Trọng lượng X (đơn vị: kg) của mỗi con bò trong một đàn bò là biến ngẫu nhiên
có phân phối chuẩn N (300;502 ) . Chọn ngẫu nhiên một con bò trong đàn bò. Tính xác
suất để con bò được chọn:
a) Có trọng lượng trên 350 kg.
b) Có trọng lượng từ 250 kg đến 350 kg.
c) Chọn ngẫu nhiên 4 con bò trong đàn bò nói trên. Tính xác suất để 2 trong 4 con
bò được chọn có trọng lượng từ 250 kg đến 350 kg.
2.58. Trong một ngày hội, mỗi chiến sĩ sẽ chọn ngẫu nhiên một trong hai loại súng và
với khẩu súng đã chọn được sẽ bắn 100 viên đạn. Nếu có từ 65 viên trở lên trúng bia
thì được thưởng. Giả sử đối với chiến sĩ A, xác suất bắn 1 viên trúng bia bằng khẩu
súng loại I là 0,6 và bằng khẩu súng loại II là 0,5.
a) Tính xác suất để chiến sĩ A được thưởng.
b) Giả sử chiến sĩ A dự thi 10 lần. Tinh1 số lần được thưởng tin chắc nhất.
c) Chiến sĩ A phải tham gia hội thi ít nhất bao nhiêu lần để xác suất có ít nhất một
lần được thưởng không nhỏ hơn 0,98?
CHƯƠNG 3
LÝ THUYẾT MẪU
VÀ BÀI TOÁN ƯỚC LƯỢNG THAM SỐ
Thống kê là một ngành của toán học, có vai trò rất quan trọng trong đời sống.
Thống kê có thể được hiểu theo nghĩa là tập số liệu được ghi chép lại từ những quan
sát thực tế, chẳng hạn như: giá của một loại cổ phiếu qua các lần giao dịch, số người
nhiễm bệnh sốt xuất huyết ở Việt Nam qua các tháng trong năm, số lượng du khách
đến Việt Nam qua các tháng… Bảng số liệu này mang thông tin cần thiết, trực tiếp
cho người sử dụng như giá trị trung bình của những con số hay mức độ sai lệch giữa
chúng. Ngoài ra, thống kê còn được hiểu là một hệ thống gồm việc thu thập số liệu,
các phương pháp phân tích, xử lý các số liệu nhằm đưa ra những thông tin bản chất
hay tính quy luật của số liệu. Thống kê hiểu theo nghĩa thứ hai rất được quan tâm, có
vai trò quan trọng trong thực tế, bởi vì từ những gì phân tích xử lý số liệu ta có thể
đưa ra những nhận xét, khẳng định hay những tiên đoán.
Từ đó, thống kê thường được chia thành hai loại. Thống kê mô tả ứng với cách
hiểu theo nghĩa thứ nhất “thống kê mô tả là một ngành của thống kê bao gồm việc sắp
xếp, tổng hợp và trình bày dữ liệu”. Thống kê suy diễn ứng với cách hiểu thứ hai
“thống kê suy diễn là một ngành của thống kê bao gồm việc sử dụng mẫu từ tổng thể
để đưa ra những kết luận về tổng thể”. Cơ sở lý thuyết của thống kê suy diễn dựa trên
lý thuyết xác suất, đặc biệt là các định lý giới hạn trong xác suất. Đôi khi ta còn nghe
đến thuật ngữ thống kê ứng dụng hay thống kê Toán. Thống kê ứng dụng được hiểu
là việc sử dụng thống kê vào thực tế, nó bao gồm cả thống kê suy diễn và thống kê mô
tả. Người ta còn chia thành các ngành riêng của thống kê ứng dụng như: thống kê bảo
hiểm, thống kê dân số, thống kê trong giáo dục, thống kê trong y học… Còn về thống
kê Toán lại là lĩnh vực nghiên cứu cơ sở lý thuyết của khoa học thống kê.
Giả sử ta cần nghiên cứu một tính chất nào đó của các cá thể trong một tập hợp
rất nhiều phần tử, tập này gọi là tổng thể hay đám đông. Vì một số lý do nhất định
nào đó mà ta không thể khảo sát toàn bộ các phần tử của nó, nhưng lại muốn có một
kết luận đủ chính xác về tính chất của các cá thể trong tập này. Để giải quyết vấn đề
này, người ta lấy ra một tập hợp các phần tử đại diện của tập lớn. Tập các phần tử đại
diện này gọi là mẫu. Số phần tử của mẫu gọi là kích thước mẫu hay cỡ mẫu, thường
ký hiệu là n.
Ví dụ 3.1. Để nghiên cứu chiều cao trung bình của người Việt Nam ở độ tuổi từ 20
đến 30, người ta tiến hành đo chiều cao của 10000 công dân được chọn ngẫu nhiên
trong độ tuổi đó. Khi đó, tổng thể là toàn bộ công dân Việt Nam ở độ tuổi từ 20 đến
30 và mẫu là 10000 công dân được chọn ra, kích thước mẫu là n 10000 .
3.1.2. Mẫu ngẫu nhiên
Một mẫu ngẫu nhiên kích thước n cho dấu hiệu X của tổng thể là một vector n
chiều ( X1 , X 2 ,..., X n ) , trong đó X 1 ,..., X n là n biến ngẫu nhiên độc lập có cùng phân
phối với X. Khi các X i nhận giá trị cụ thể xi (i 1,..., n) , ta có mẫu cụ thể
( x1 , x2 ,..., xn ) .
của excel xuất hiện Real Statistics. Nhấp vào Real Statistics hoặc nhấn tổ hợp phím
Ctrl – m, chọn Frequency Table.
Bước 3:
InputRange: chọn vùng dữ liệu (dữ liệu dạng cột, cột giá trị đứng trước, tần số
đứng sau)
Chọn Raw data nếu dữ liệu thô, Frequency Table nếu dữ liệu dạng bảng tần số.
Chọn Descriptive stats (thống kê mô tả)
OutputRange : Chọn vị trí chứa kết quả
-
Kurtosis Độ nhọn
0,507937
Skewness 0,299501 Độ nghiêng
Range 0,7 Khoảng biến thiên: xmax xmin
Maximum 5,7 Giá trị lớn nhất: xmax
Minimum 5 Giá trị nhỏ nhất: xmin
Sum 265,7 Tổng: ni xi
Count 50 Kích thước mẫu: n
Geometric Mean 5,311379 Trung bình nhân: n
x1n1 ...xknk
n
Harmonic Mean 5,308771 Trung bình điều hòa:
(ni xi1 )
AAD 0,1368
MAD 0,1
IQR 0,2
Lưu ý: Trong trường hợp số liệu của mẫu cho bởi các lớp (ai , bi ) thì đưa mẫu này về
dạng mẫu thu gọn bằng cách lấy giá trị đại diện cho mỗi lớp là :
xi (ai bi ) / 2, (i 1,..., k )
Ví dụ 3.3. Một hãng sản xuất một loại sản phẩm công bố rằng thời gian hoạt động tốt
X (đơn vị : tháng) của sản phẩm của họ trong điều kiện bình thường trung bình không
dưới 26,3 tháng. Một mẫu điều tra về thời gian hoạt động tốt của một số sản phẩm đã
qua sử dụng của hãng này được cho trong bảng sau:
X [23-24) [24-25) [25-26) [26-27) [27-28) [28-29) [29-30]
Số sản phẩm 7 25 45 60 43 16 4
Hãy tính các đặt trưng mẫu cho X.
Giải. Đặt xi (ai bi ) / 2 . Ta có mẫu thu gọn sau :
X 23,5 24,5 25,5 26,5 27,5 28,5 29,5
Số sản phẩm 7 25 45 60 43 16 4
Chạy Excel, ta có kết quả :
Kích thước mẫu: n 200
Trung bình mẫu: x 26,355
Độ lệch chuẩn (hiệu chỉnh) s 1,3201
3.2. Ước lượng tham số
Trong phần này ta sẽ tìm hiểu về các suy diễn thống kê thông qua một mô hình
thống kê. Một mô hình thống kê được định nghĩa là một cặp ( , ) , với là không
gian mẫu – tập gồm các biến quan sát, và là tập gồm các phân phối xác suất trên
. Đối với thuật ngữ suy diễn thống kê, có thể hiểu là quá trình nghiên cứu về các
đặc trưng của tổng thể từ một mẫu quan sát; đặc trưng của tổng thể được gọi là tham
số (thường ký hiệu là , i - nếu xét nhiều tham số), đặc trưng của mẫu được gọi là
thống kê.
Có thể hiểu mục đích của việc đưa ra mô hình thống kê như sau: giả sử rằng các
dữ liệu quan sát được tạo ra thông qua một phân phối xác suất “thực sự”. Ta chọn
là tập gồm các phân phối thích hợp để xấp xỉ cho phân phối “thực sự” này; tuy nhiên,
trường hợp chứa phân phối “thực sự” là rất hiếm. Tập này luôn được tham số
hóa theo các i : {Pi : i } , với là tập gồm tất cả các tham số của mô hình.
Về mặt thực hành, một mô hình thống kê phải thỏa mãn các đặc tính sau:
- Chứa các công thức toán để biểu diễn các mối quan hệ giữa biến ngẫu nhiên
và các tham số.
- Có các giả thiết về bnn, hoặc thậm chí là các tham số.
- Mô hình cần diễn giải được hầu hết các biến động dữ liệu
- Tổng quát: dữ liệu = mô hình + phần dư; trong đó phần dư chính là phần dữ
liệu mà mô hình không giải thích được.
Trong tài liệu này, ta sẽ tìm hiểu thêm về mô hình thống kê trong chương hồi qui,
tương quan. Về phần suy diễn thống kê, sẽ được làm rõ trong các nội dung tiếp sau, cụ
thể:
Suy diễn thống kê có thể được chia làm hai dạng:
- Ước lượng
- Kiểm định mức ý nghĩa cho giả thiết không.
Trong đó, ước lượng có hai dạng:
- Ước lượng điểm (giá trị hợp lí nhất cho tham số)
- Ước lượng khoảng (còn gọi là khoảng tin cậy cho tham số)
3.2.1. Các khái niệm về ước lượng
a) Khái niệm ước lượng
Ước lượng là dự đoán giá trị chưa biết dựa vào quan sát (thường là quan sát lấy
mẫu). Có hai hình thức ước lượng đó là: ước lượng điểm và ước lượng khoảng tin
cậy. Trong bài này chúng ta ước lượng ba tham số đặc trưng của tổng thể đó là: trung
bình E ( X ) , phương sai 2 D( X ) và tỉ lệ p P ( A) (tỉ lệ các phần tử có tính
chất A của tổng thể).
b) Ước lượng điểm
Cho ( X 1 ,..., X n ) là mẫu ngẫu nhiên kích thước n.
Giả sử là một tham số đặc trưng của tổng thể mà ta chưa biết, dựa vào mẫu,
tìm được số ( X 1 ,..., X n ) gần đúng với . Khi đó, số được gọi là ước lượng
điểm của . Ước lượng này có thể tốt hoặc không tốt, tùy vào hàm mà ta chọn.
Nói chung khi mẫu ngẫu nhiên ( X 1 ,..., X n ) nhận giá trị là các mẫu cụ thể khác
nhau thì ta được các ước lượng là khác nhau. Vì vậy ước lượng ( X 1 ,..., X n )
của là một biến ngẫu nhiên. Người ta gọi hàm số ( X 1 ,..., X n ) là một thống kê
của mẫu ngẫu nhiên ( X 1 ,..., X n ) . Để là ước lượng tốt cho thì phải thỏa các
tính chất sau:
Tính không chệch: Thống kê được gọi là ước lượng không chệch của nếu
E ( )
Tính vững: Thống kê được gọi là ước lượng vững của nếu
( X 1 ,..., X n )
P
.
3.2.2. Bài toán ước lượng khoảng tin cậy cho trung bình
a) Đặt bài toán: Giả sử biến quan sát X N ( , 2 ) , trong đó giá trị trung bình
chưa biết. Hãy ước lượng khoảng tin cậy (KTC) cho với độ tin cậy 1 cho trước.
b) Giải quyết bài toán: Lập mẫu cụ thể kích thước n về biến quan sát X, từ đó tính
được trung bình mẫu x và độ lệch mẫu hiệu chỉnh s . Khi đó khoảng tin cậy cho giá
trị trung bình được chỉ ra tương ứng với mỗi trường hợp sau:
Trường hợp KTC đối xứng KTC bên trái KTC bên phải
x 1 x 1 x 2 x 2
Đã biết 2
1 z /2 . ; 2 z .
n n
x 1 x 1 x 2 x 2
Chưa biết 2 và s s
n 30 1 z /2 .
; 2 z .
n n
x 1 x 1 x 2 x 2
Chưa biết 2 và s s
n 30 1 t /2 (n 1) ; 2 t (n 1)
n n
Trong đó:
z là phân vị mức của phân phối chuẩn tắc Z N (0;1) , thỏa phương trình
P( Z z ) ( z ) 0,5 . Giá trị z tra từ bảng sau:
1
x
Bảng giá trị hàm Laplace ( x) e 0,5.t dt
2
2 0
c) Các chỉ tiêu của bài toán khoảng tin cậy đối xứng
Khoảng tin cậy đối xứng: x ; x
s
Độ chính xác: z /2 (*)
n
Độ tin cậy: 1 , Kích thước mẫu: n
Bài toán 1: Biết 1 , tìm kích thước mẫu cần điều tra m , kích thước mẫu cần
điều tra thêm là m n (với n là kích thước mẫu hiện tại)
Từ công thức (*), thu được công thức xác định m như sau:
z /2 .s 2
m 1 (với [ x] là phần nguyên của x )
Bài toán 2: Biết , n tìm độ tin cậy 1
n
Từ công thức (*), ta suy ra: z /2 1 2 ( z /2 )
s
Ví dụ 3.4. Lượng vitamin có trong trái cây A là bnn X (mg) có độ lệch chuẩn 3,5 mg.
Phân tích 200 trái cây A được lượng vitamin trung bình là 22,5 mg. Với độ tin cậy
95%, hãy ước lượng KTC đối xứng cho lượng vitamin trung bình có trong mỗi trái
cậy A.
Giải. Ta có: X N ( , 2 ) ; 3,5
Các đặc trưng mẫu: n 200 ; x 22,5
Khoảng tin cậy đối xứng cho là: ( x ; x )
Độ tin cậy 1 95% 0,05
( z /2 ) 0,5 0, 475 z /2 1,96
2
Hoặc dùng excel: z /2 normsinv(1 0,025) 1,960
Độ chính xác: z /2 . 0, 485
n
Vậy: ( x ; x ) 22,015 ; 22,985
Ví dụ 3.5. Năng suất X (đơn vị: kg/ha) của một loại giống mới là biến ngẫu nhiên có
phân phối chuẩn N ( , 2 ) . Gieo thử giống hạt này trên 15 mảnh vườn thí nghiệm thu
được số liệu sau.
169, 168, 167, 170, 167, 168, 171, 169, 166, 170, 167, 169, 169, 168, 172.
a) Viết mẫu dưới dạng bảng phân phối tần số (mẫu thu gọn).
b) Với độ tin cậy 99%, hãy ước lượng KTC đối xứng cho năng suất trung bình của
f n (1 f n )
Khoảng tin cậy đối xứng: f n p f n với z /2 .
n
f n (1 f n )
Khoảng tin cậy bên trái: p f n với z .
n
f n (1 f n )
Khoảng tin cậy bên phải: f n p với z .
n
Lưu ý
Bài toán ước lượng khoảng tin cậy bên trái (bên phải) của p thường là bài toán
ước lượng tỷ lệ tối đa (tối thiểu) của p .
n. f n 5
Điều kiện cho bài toán ước lượng tỷ lệ là:
n(1 f n ) 5
c) Các chỉ tiêu của bài toán khoảng tin cậy đối xứng cho tỉ lệ
Khoảng tin cậy đối xứng: f n ; f n
f n (1 f n )
Độ chính xác: z /2 . (*)
n
Độ tin cậy: 1 , Kích thước mẫu: n
Bài toán 1: Biết 1 , tìm kích thước mẫu cần điều tra m .
z /2 2
m f n (1 f n ) 1
Bài toán 2: Biết , n tìm độ tin cậy 1
n
z /2 . 1 2 ( z /2 )
f n (1 f n )
Ví dụ 3.7. Để ước lượng tỉ lệ sản phẩm kém chất lượng trong một lô hàng có 10000
sản phẩm, người ta tiến hành kiểm tra ngẫu nhiên 200 sản phẩm, thấy có 17 sản phẩm
kém chất lượng.
a) Với độ tin cậy 95%, hãy ước lượng khoảng tin cậy đối xứng cho tỷ lệ sản phẩm
kém chất lượng trong lô hàng.
b) Với độ tin cậy 96%, hãy cho biết số lượng sản phẩm kém chất lượng tối đa, tối
thiểu có trong lô hàng là bao nhiêu?
c) Nếu muốn ước lượng khoảng tin cậy đối xứng cho tỷ lệ sản phẩm kém chất lượng
trong lô hàng đảm bảo độ tin cậy 97% và độ chính xác 2% thì cần kiểm tra thêm
bao nhiêu sản phẩm nữa?
d) Nếu sử dụng mẫu này và muốn ước lượng khoảng tin cậy đối xứng cho tỷ lệ sản
phẩm kém chất lượng với độ chính xác 3% thì đảm bảo độ tin cậy là bao nhiêu?
86 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
Giải. Kích thước mẫu n 200 , kích thước tổng thể N 10000 .
17
Tỷ lệ mẫu: f n 0,085
200
a) Gọi p là tỷ lệ sản phẩm kém chất lượng của lô hàng.
Khoảng tin cậy đối xứng cho p là: f n ; f n
Độ tin cậy 1 95% 0,05 z /2 1,960
f n (1 f n )
Độ chính xác: z /2 . 0,0387
n
Vậy: f n ; f n 0,0463;0,1237
b) Gọi N0 là số lượng sản phẩm kém chất lượng có trong lô hàng.
Độ tin cậy 1 96% 0,04 z 1,751
f n (1 f n )
Độ chính xác: z . 0,0345
n
N0
Tỷ lệ tối đa là: p f n 0,1195 max( N 0 ) 1195
10000
N0
Tỷ lệ tối thiểu là: p f n 0,0505 min( N 0 ) 505
10000
Vậy với độ tin cậy 96% thì số lượng sản phẩm kém chất lượng có trong lô hàng tối
đa 1195 sản phẩm, tối thiểu 505 sản phẩm.
c) Độ tin cậy 1 97% 0,03 z /2 2,170
Độ chính xác 0,02 . Kích thước mẫu cần điều tra là:
z /2 2
m nf (1 f n 1 915,587 1 915 1 916
)
Vậy cần phải kiểm tra thêm m n 716 sản phẩm.
d) Độ chính xác 0,03 ; n 200 ; f n 0,085
n
z /2 . 1,5213 1 2 ( z /2 ) 0,8718
f n (1 f n )
Vậy độ tin cậy cần tìm: 1 87,18%
2
n (x )
i i
2
; 2
n (x )
i i
2
1
2 /2 (n) 2
2
1 /2 ( n)
Trường hợp chưa biết trung bình E ( X ) :
(n 1).s 2 (n 1).s 2
12 ; 2
2 /2 (n 1) 2
12 /2 (n 1)
Trong đó: s 2 là phương sai mẫu hiệu chỉnh ; 2 (n) là phân vị của phân phối Chi
bình phương với n bậc tự do thỏa mãn: P 2 2 (n) . Giá trị 2 (n) được tra từ
các phụ lục 2a và 2b cuối tài liệu; hoặc sử dụng hàm Chiinv trong Excel:
2 (n) Chiinv( , n) . Chẳng hạn: 0,05
2
(9) 16,91898 .
Ví dụ 3.8. Mức hao phí nguyên liệu để sản suất ra một sản phẩm là biến ngẫu nhiên X
(kg) có phân phối chuẩn.
X 19,5 20 20,5
Một mẫu gồm 28 sản phẩm có kết quả :
ni 8 18 2
Với độ tin cậy 94%, hãy ước lượng khoảng tin cậy của phương sai 2 trong hai
trường hợp sau:
a) Biết trung bình E ( X ) 19,95(kg )
b) Chưa biết trung bình .
Giải. Kích thước mẫu n 28 ; Độ tin cậy 1 0,94 0,06
2 /2 (n) 0,03
2
(28) 43,6622
2
1 /2 (n) 0,97 (28) 15,7042
2
a) Ta có: n ( x ) n ( x 19,95) 2, 27
i i
2
i i
2
2
n ( x ) 0,0520 ; n ( x )
i i
2
2 i i
2
0,1445
1
2 /2 (n) 2
2
1 /2 ( n)
Vậy khoảng tin cậy của 2 là : 0,0520 ; 0,1445
b) Phương sai mẫu hiệu chỉnh s 2 0,0806878
(n 1).s 2 (n 1).s 2
2
2
0,0520 ; 2 2
2
0,1387
/2 (n 1)
1
1 /2 (n 1)
Vậy khoảng tin cậy của 2 là : 0,0520; 0,1387
88 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
a) Hãy tìm khoảng tin cậy đối xứng cho tỷ lệ gà có chân màu trắng.
b) Tìm số gà có chân màu trắng tối thiểu, tối đa có trong đàn gà.
3.6. Theo điều tra 100 gia đình thấy có 60 gia đình có nhu cầu về loại tủ lạnh do xí
nghiệp A xản xuất. Hãy ước lượng KTC đối xứng cho tỷ lệ gia đình có nhu cầu về mặt
hàng này với độ tin cậy 95%.
3.7. Biết tỷ lệ nảy mầm của một loại hạt giống là 0,9. Với độ tin cậy 97%, nếu muốn
ước lượng KTC cho tỷ lệ hạt nảy mầm có độ chính xác không vượt quá 2% thì cần
phải gieo ít nhất bao nhiêu hạt?
3.8. Kiểm tra ngẫu nhiên 250 sản phẩm trong kho hàng thấy có 21 phế phẩm.
a) Hãy ước lượng khoảng tin cậy đối xứng cho tỷ lệ phế phẩm của kho hàng trên
với độ tin cậy 95%.
b) Nếu muốn ước lượng có 2% với độ tin cậy 96% thì phải quan sát thêm ít
nhất bao nhiêu sản phẩm nữa?
c) Với mẫu ban đầu, nếu muốn ước lượng có sai số là 1,5% thì độ tin cậy đạt được
là bao nhiêu?
3.9. Một công ty than có 10000 công nhân làm việc trực tiếp tại các hầm lò. Để xác
định số công nhân mắc các bệnh về phổi, người ta tiến hành kiểm tra 820 người thấy
có 120 người mắc bệnh về phổi. Với độ tin cậy 98% hãy tìm khoảng tin cậy cho số
công nhân mắc bệnh về phổi trong tổng công ty.
3.10. Một kho hàng chứa 12000 sản phẩm. Để ước lượng số phế phẩm trong kho hàng
người ta kiểm tra 500 sản phẩm thấy có 50 phế phẩm. Với độ tin cậy 94% hãy ước
lượng khoảng tin cậy cho số phế phẩm trong kho.
3.11. Để điều tra số lượng một loài cá trong hồ người ta đánh bắt 400 con cá rồi đánh
dấu mỗi con cá này bằng một vòng nhôm nhỏ sau đó thả vào hồ. Sau một thời gian
người ta bắt lại 150 con thấy trong đó có 50 con đã được đánh dấu.
a) Với độ tin cậy 96%, tìm KTC cho số lượng của loài cá này.
b) Với độ tin cậy 99%, hãy cho biết số lượng cá tối đa, tối thiểu có trong hồ.
Bài toán ước lượng phương sai
3.12. Biết tỷ lệ phần trăm X (%) của một nguyên tố vi lượng trong các mẫu đất thuộc
châu thổ sông Hồng có phân phối chuẩn N ( , 2 ) . Người ta tiến hành phân tích 17
mẫu đất và tính được s 0,3742% . Với độ tin cậy 95%, hãy tìm KTC của 2 .
3.13. Biết khối lượng X (kg) của mỗi con gà tại một trại gà có phân phối chuẩn
N ( , 2 ) . Cân ngẫu nhiên 20 con gà có kết quả sau:
X (kg) 2,1 2,3 2,4 2,6 2,7 2,9 3,1 3,3
Số con gà 1 2 3 3 5 3 2 1
Với độ tin cậy 96%, tìm KTC cho 2 trong hai trường hợp:
CHƯƠNG 4
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Như đã trình bày trong phần trước, suy diễn thống kê gồm hai loại là: ước lượng
tham số và kiểm định mức ý nghĩa, trong phần này, ta sẽ tìm hiểu về bài toán kiểm
định cho tham số của tổng thể với mức ý nghĩa (significance level) cho trước. Đây
là một thủ tục quan trọng bậc nhất trong thống kê, và có ứng dụng rộng rãi trong đời
sống cũng như hầu hết các lĩnh vực khoa học.
4.1. Các khái niệm về kiểm định giả thiết thống kê
2) Một nhân viên kinh doanh cho rằng: “tỉ lệ sản phẩm loại II của lô hàng là 12%”.
Đây được coi là một giả thiết thống kê, giả thiết này nói về một tham số đặc trưng
(tỉ lệ tổng thể) của biến ngẫu nhiên biểu thị tỉ lệ sản phẩm loại II của lô hàng.
Gọi p là tỉ lệ sản phẩm loại II của lô hàng. Đặt giả thiết H 0 : p 12% ; giả thiết
đối là H1 : p 12% .
Nếu nhân viên kinh doanh phát biểu rằng: “ tỉ lệ sản phẩm loại II của lô hàng
dưới 12%”. Khi đó giả thiết H 0 : p 12% đối thiết H1 : p 12% .
Hay một khách hàng sử dụng sản phẩm nghi ngờ rằng: “tỉ lệ sản phẩm loại II lớn
hơn 12%”. Khi đó giả thiết H 0 : p 12% đối thiết H1 : p 12% .
3) Một kết luận nói rằng: “chi tiêu cho tiêu dùng cá nhân không phụ thuộc vào giới
tính”. Đây là giả thiết thống kê nói về tính độc lập của các biến ngẫu nhiên. Gọi X
là chi cho tiêu dùng cá nhân, Y là giới tính của cá nhân đó.
Giải thiết thống kê H 0 : X và Y độc lập nhau.
Giả thiết đối H1 : X và Y phụ thuộc nhau.
4.2.1. Bài toán kiểm định giả thuyết về giá trị trung bình
a) Đặt bài toán: Giả sử biến quan sát X N ( , 2 ) , trong đó giá trị trung bình
E ( X ) chưa biết, nhưng dựa vào những thông tin có được, người ta có các ý kiến
sau: 0 , 0 , 0 , 0 . Với mức ý nghĩa cho trước, hãy xác minh
xem ý kiến nào đúng.
b) Giải quyết bài toán: Chọn giả thiết thống kê H 0 : 0 và đối thiết H1 là một
trong các ý kiến còn lại.
Lập mẫu kích thước n về biến quan sát X , từ đó tính được trung bình mẫu x và
độ lệch mẫu hiệu chỉnh s .
Bài toán được giải quyết bằng việc chỉ ra miền bác bỏ giả thiết H 0 tương ứng
với các trường hợp của giả thiết đối H1 được cho trong bảng sau:
dụng làm giảm chỉ tiêu X của những sản phẩm loại B với mức ý nghĩa 4% .
Giải. Tính các đặc trưng mẫu:
n 100; x 26,36 ; s 7, 483
Các đặc trưng mẫu của sản phẩm B:
nB 17; xB 15,118 ; sB 2,058
a) Gọi là giá trị trung bình của chỉ tiêu X.
Đặt giả thiết H 0 : 0 29 ; đối thiết H1 : 0
Cỡ mẫu n 100 30 , 2 chưa biết.
( x 0 ) n (26,36 29) 100
Tính thống kê: T 3,528
s 7, 483
Mức ý nghĩa 2% 0,02 z /2 2,326
Điều kiện T z /2 là đúng nên bác bỏ giả thiết H 0 và chấp nhận đối thiết H1 .
Kết luận: với mức ý nghĩa 2%, tình hình sản xuất không bình thường vì giá trị
trung bình của chỉ tiêu X không đúng tiêu chuẩn.
b) Đặt giả thiết H 0 : 0 25 ; đối thiết H1 : 0
Cỡ mẫu n 100 30 , 2 chưa biết.
( x 0 ) n (26,36 25) 100
Tính thống kê : T 1,817
s 7, 483
Trường hợp mức ý nghĩa 5% 0,05 z 1,645
Điều kiện T z là đúng nên bác bỏ giả thiết H 0 và chấp nhận đối thiết H1 .
Kết luận: với mức ý nghĩa 5%, các sản phẩm do máy sản xuất có chỉ tiêu X cao
hơn qui định.
Trường hợp mức ý nghĩa 3% 0,03 z 1,881
Điều kiện T z là sai nên chấp nhận giả thiết H 0 và bác bỏ đối thiết H1 .
Kết luận: với mức ý nghĩa 3%, không thể kết luận rằng các sản phẩm do máy
trên sản xuất có chỉ tiêu X cao hơn qui định.
c) Gọi B là giá trị trung bình chỉ tiêu X của những sản phẩm loại B.
Đặt giả thiết H 0 : B 0 16 ; đối thiết H1 : B 0
Cỡ mẫu nB 17 30 , 2 chưa biết.
( xB 0 ) nB (15,118 16) 17
Tính thống kê: TB 1,767
sB 2,058
Mức ý nghĩa 1% 0,01
a) Với mức ý nghĩa 4% hãy kiểm định giả thiết “tỉ lệ bao xi măng đạt chuẩn là 96%”.
b) Tỉ lệ bao xi măng đạt chuẩn trước đây là 91%. Các số liệu trên được kiểm tra sau
khi áp dụng công nghệ đóng bao mới. Với mức ý nghĩa 3%, có thể kết luận kỹ
thuật mới làm tăng tỉ lệ bao xi măng đạt chuẩn hay không?
Giải. Cỡ mẫu n 250
237
Tỉ lệ mẫu các bao xi măng đạt chuẩn: f n 0,948
250
Gọi p là tỉ lệ bao xi măng đạt chuẩn của phân xưởng.
a) Đặt giả thiết H 0 : p p0 0,96 ; đối thiết H1 : p p0
( f n p0 ) n
Tính thống kê: T 0,968
p0 (1 p0 )
Mức ý nghĩa 0,04 z /2 2,054
Điều kiện | T | z /2 là sai nên chấp nhận giả thiết H 0 , bác bỏ đối thiết H1 .
Kết luận: với mức ý nghĩa 4% có thể kết luận rằng tỉ lệ bao xi măng đạt chuẩn
của phân xưởng là 96%.
b) Đặt giả thiết H 0 : p p0 0,91 ; đối thiết H1 : p p0
( f n p0 ) n
Tính thống kê T 2,0995
p0 (1 p0 )
Mức ý nghĩa 0,03 z 1,881
Điều kiện T z là đúng nên bác bỏ giả thiết H 0 , chấp nhận đối thiết H1 .
Kết luận: với mức ý nghĩa 3% có thể kết luận kỹ thuật mới làm tăng tỉ lệ bao xi
măng đạt chuẩn.
4.2.3. Bài toán kiểm định giả thiết về phương sai
a) Đặt bài toán: Giả sử biến quan sát X N ( , 2 ) ,trong đó phương sai 2 D( X )
chưa biết, nhưng dựa vào những thông tin có được, người ta có các ý kiến:
2 02 , 2 02 , 2 02 , 2 02 . Với mức ý nghĩa cho trước, hãy xác minh xem
ý kiến nào đúng.
b) Giải quyết bài toán: Chọn giả thiết thống kê H 0 : 2 02 và đối thiết H1 là một
trong các ý kiến còn lại.
Lập mẫu kích thước n về biến quan sát X , từ đó tính được độ lệch mẫu hiệu
chỉnh s .
(n 1) s 2
Tính thống kê 2
0
02
Mức ý nghĩa 0,5 và n 1 bậc tự do, sử dụng hàm 2 (n) Chiinv( , n) trong
Excel để tìm các phân vị Chi bình phương
12 /2 (n 1) 12 (n 1) 2 (n 1) 2 /2 (n 1)
Khi đó bài toán được giải quyết bằng việc chỉ ra miền bác bỏ giả thiết H 0 tương
ứng với các trường hợp của đối thiết H1 được cho trong bảng sau:
Bài toán kiểm định Điều kiện bác bỏ H 0
H 0 : 2 02 , H1 : 2 02 02 12 (n 1)
H 0 : 2 02 , H1 : 2 02 2 (n 1) 02
02 12 /2 (n 1)
H 0 : , H1 :
2 2 2 2
hoặc 2 /2 (n 1) 02
0 0
Ví dụ 4.5. Đường kính của một loại chi tiết máy là biến ngẫu nhiên X có phân phối
chuẩn. Người ta đo ngẫu nhiên đường kính của 28 chi tiết máy do một máy sản xuất
và tìm được phương sai mẫu hiệu chỉnh s 2 (2,1053) 2 (cm 2 ) .
a) Khi máy hoạt động bình thường thì độ lệch chuẩn của X của các chi tiết máy do
máy sản xuất là 1,65 cm. Với mức ý nghĩa 1%, hãy xét xem máy có hoạt động
bình thường không?
b) Theo quy định, nếu độ lệch chuẩn của X lớn hơn 1,72 cm thì phải điều chỉnh lại
máy. Với mức ý nghĩa 5%, có phải điều chỉnh lại máy không?
Giải. Đặt 2 D( X )
a) Đặt giả thiết H 0 : 2 02 (1,65) 2 ; đối thiết H1 : 2 02
Kích thước mẫu n 28
Phương sai mẫu hiệu chỉnh s 2 (2,1053)2
(n 1) s 2
Tính thống kê 2
43,9566
0
02
Mức ý nghĩa 0,01
2 (n 1) chiinv( , n 1) 46,9629
Điều kiện 2 (n 1) 02 là sai nên chấp nhận giả thiết H 0 , bác bỏ đối thiết H1 .
Kết luận: với mức ý nghĩa 1%, máy hoạt động bình thường.
b) Đặt giả thiết H 0 : 2 02 (1,72) 2 ; đối thiết H1 : 2 02
(n 1) s 2
Tính thống kê 2
40, 4515
0
02
4.2.4. Bài toán kiểm định so sánh hai giá trị trung bình
a) Đặt bài toán: Giả sử X và Y là hai biến quan sát độc lập nhau, X N ( 1 , 12 ),
Y N ( 2 , 22 ) , trong đó các giá trị trung bình 1 E ( X ), 2 E (Y ) chưa biết. Dựa
vào những thông tin có được, người ta có các ý kiến sau: 1 2 , 1 2 , 1 2 ,
1 2 . Với mức ý nghĩa cho trước, hãy xác minh xem ý kiến nào đúng.
b) Giải quyết bài toán: Chọn giả thiết H 0 : 1 2 và đối thiết H1 là một trong các ý
kiến còn lại.
Lập mẫu kích thước m về biến quan sát X , tính được x , sx . Lập mẫu kích
thước n về biến quan sát Y , tính được y , s y .
Bài toán được giải quyết bằng việc chỉ ra miền bác bỏ giả thiết H 0 tương ứng
với các trường hợp của đối thiết H1 được cho trong bảng sau:
Trường hợp Bài toán kiểm định Điều kiện bác bỏ H 0
H 0 : 1 2 ; H1 : 1 2 T1 z
Đã biết 12 , 22 H 0 : 1 2 ; H1 : 1 2 T1 z
H 0 : 1 2 ; H1 : 1 2 T1 z /2
Chưa biết H 0 : 1 2 ; H1 : 1 2 T2 z
12 , 22 , H 0 : 1 2 ; H1 : 1 2 T2 z
m 30, n 30 H 0 : 1 2 ; H1 : 1 2 T2 z /2
Chưa biết H 0 : 1 2 ; H1 : 1 2 T3 t (k )
12 , 22 , H 0 : 1 2 ; H1 : 1 2 T3 t (k )
m 30, n 30 H 0 : 1 2 ; H1 : 1 2 T3 t /2 (k )
xy xy
Trong đó: T1 ; T2
12 22 2
sx2 s y
m n m n
xy (m 1) sx2 (n 1) s y2
Khi 1 2 thì T3 với s
s. m 1 n 1 mn2
Khi 1 2 thì T3 T2
Bậc tự do k m n 2
Ví dụ 4.6. Theo dõi giá cổ phiếu của hai công ty A và B trong 31 ngày (mỗi ngày một
giá trị cho mỗi công ty), người ta tính được các số liệu:
Trung bình mẫu Độ lệch mẫu hiệu chỉnh
Công ty A 38,24 2,2
Công ty B 37,10 1,5
Vậy với mức ý nghĩa 1%, có thể nói rằng có sự khác biệt thực sự về giá cổ phiếu
trung bình của hai công ty A và B hay không? (Giả sử các giá cổ phiếu có phân phối
chuẩn).
Giải. Gọi A , B tương ứng là giá cổ phiếu trung bình của công ty A và công ty B.
Đặt giả thiết H 0 : A B ; đối thiết H1 : A B
Vì nA nB 31 30 và A2 , B2 chưa biết nên ta tính thống kê
x A xB
T 2,3838
s A2 s A2
nA nB
Mức ý nghĩa 1% z /2 2,576
Điều kiện T z /2 là sai nên chấp nhận giả thiết H 0 , bác bỏ đối thiết H1 .
Kết luận: với mức ý nghĩa 1%, có thể nói rằng giá cổ phiếu trung bình của hai
công ty A và B là như nhau.
a) Đặt bài toán: Giả sử p1 là tỉ lệ các phần tử có tính chất A trong tổng thể 1 và p2
là tỉ lệ các phần tử có tính chất B trong tổng thể 2 . Các tỉ lệ p1 và p2 chưa biết,
nhưng dựa vào những thông tin có được, người ta có các ý kiến sau:
p1 p2 ; p1 p2 ; p1 p2 ; p1 p2 . Với mức ý nghĩa cho trước, hãy xác minh xem ý
kiến nào đúng.
b) Giải quyết bài toán: Chọn giả thiết H 0 : p1 p2 và đối thiết H1 là một trong các ý
kiến còn lại.
Lập mẫu kích thước m quan sát tính chất A, tính được tỉ lệ mẫu f m . Lập mẫu
ngẫu nhiên kích thước n quan sát tính chất B, tính được tỉ lệ mẫu f n .
Khi đó bài toán được giải quyết bằng việc chỉ ra miền bác bỏ giả thiết H 0 tương
ứng với các trường hợp của đối thiết H1 được cho trong bảng sau:
4.2.6. Kiểm định giả thiết về tính độc lập hai biến ngẫu nhiên
a) Đặt bài toán: Giả sử X , Y là hai biến quan sát trong cùng một tổng thể. Dựa vào
những thông tin có được, người ta có các ý kiến sau: “ X và Y độc lập nhau”; “ X và
Y phụ thuộc nhau”. Với mức ý nghĩa cho trước, hãy xác minh xem ý kiến nào
đúng.
b) Giải quyết bài toán: Chọn giả thiết thống kê H 0 : “ X và Y độc lập nhau ”, đối
thiết H1 : “ X và Y phụ thuộc nhau”.
Lập mẫu ngẫu nhiên kích thước n về hai biến quan sát X và Y , bảng phân phối
mẫu có dạng sau:
Y
y1 y2 … yk mX
X
x1 n11 n12 … n1k m1
x2 n21 n22 … n2k m2
... … … … … …
xh nh1 nh 2 … nhk mh
nY n1 n2 … nk n
Trong đó x1 ,..., xk , y1 ,..., yh tương ứng là tập giá trị của X và của Y ; mi là
số lần X nhận xi , n j là số lần Y nhận y j ; nij là số lần đồng thời X nhận xi và Y
nhận y j ( i 1, h , j 1, k ).
k h
mi nij ; n j nij ; n m1 ... mh n1 ... nk
j 1 i 1
h k nij2
Tính thống kê n 2
n
i 1 j 1 m n
0
i j
Tính phân vị khi bình phương 2 (k 1)(h 1) .
Ta thấy 2 (k 1)(h 1) 02 nên bác bỏ giả thiết H 0 , chấp nhận đối thiết H1 .
Kết luận: với mức ý nghĩa 5% thì số ngày nghỉ việc phụ thuộc vào giới tính.
4.1. Giả sử biến quan sát X N ( , 2 ) với 5, 2 . Lấy mẫu cỡ n 120 và tính
được x 27,56 . Với mức ý nghĩa 5%, hãy kiểm định cặp giả thiết H 0 : 26 và
H1 : 26 .
4.2. Một loại phương tiện vận tải được nhận định là có mức tiêu thụ nhiên liệu bình
quân trên tuyến đường CD (khi chở đúng trọng tải quy định) là 200 lít. Qua theo
dõi 100 chuyến vận tải trên tuyến CD đối với loại phương tiện này, có bảng số liệu
về mức tiêu thụ nhiên liệu X (đơn vị: lít) như sau:
X [188;193) [193;198) [198;203) [203;208) [208;213) [213;218]
Số chuyến 3 19 42 23 11 2
Với mức ý nghĩa 4%, hãy xác minh xem nhận định nói trên có phù hợp với thực
tế hay không ? (giả sử X có phân phối chuẩn)
4.3. Một hãng sản xuất một loại sản phẩm công bố rằng thời gian hoạt động tốt của
sản phẩm của họ trong điều kiện bình thường trung bình lớn hơn 24,5 tháng. Một
mẫu điều tra về X (tháng) là thời gian hoạt động tốt của một số sản phẩm đã qua sử
dụng của hãng này được cho trong bảng sau:
X [22;23) [23;24) [24;25) [25;26) [26;27) [27;28) [28;29]
Số sp 9 26 50 70 52 9 4
Với mức ý nghĩa 3%, hãy xác minh xem công bố của hãng này có chấp nhận
được hay không? (giả sử X có phân phối chuẩn)
4.4. Tiền vé X (triệu đồng/ ngày) thu được hàng ngày ở một điểm du lịch là biến ngẫu
nhiên có phân phối chuẩn. Chính quyền địa phương nhận định rằng trung bình mỗi
ngày tiền bán vé thu được chưa tới 4,91 triệu đồng. Qua theo dõi tiền vé thu được
một số ngày ở điểm du lịch này, có bảng số liệu sau:
X [4,1;4,3) [4,3;4,5) [4,5;4,7) [4,7;4,9) [4,9;5,1) [5,1;5,3) [5,3;5,5]
Số ngày 6 14 23 37 19 11 5
a) Với mức ý nghĩa 4%, hãy cho nhận xét về nhận định nói trên của chính quyền địa
phương.
b) Những ngày có tiền vé chưa tới 4,5 triệu được coi là “vắng khách”. Với mức ý
nghĩa 3%, hãy kiểm định giả thiết “tiền vé bình quân mỗi ngày vắng khách là 4,2
triệu đồng”.
4.5. Theo dõi thời gian hoàn thành T (đơn vị: phút) của công việc A của một số công
nhân trong một công ty, có kết quả sau:
Thời gian T [24;26) [26;28) [28;30) [30;32) [32;34) [34;36) [36;38]
Số công nhân 59 10 20 55 35 12 3
a) Công ty đưa ra định mức thời gian hoàn thành công việc A cho mỗi công nhân
bình quân là 28 phút. Với mức ý nghĩa 5%, có thể kết luận rằng định mức của công
ty gây khó khăn cho công nhân hay không?
b) Trước đây thời gian hoàn thành công việc A cho mỗi công nhân bình quân là 31,5
phút Số liệu trên được thu thập sau khi áp dụng công nghệ mới. Với mức ý nghĩa
4%, có thể kết luận rằng công nghệ mới làm rút ngắn thời gian bình quân hoàn
thành công việc A hay không?
4.6. Số liệu thống kê về doanh thu (đơn vị: triệu đồng/ngày) mỗi ngày của một siêu
thị như sau:
Doanh thu Số ngày Doanh số Số ngày
[20;40) 2 [80;90) 15
[40;50) 3 [90;100) 10
[50;60) 6 [100;110) 8
[60;70) 8 [110;130] 3
[70;80) 10
Trước đây doanh thu trung bình 73 triệu đồng/ngày. Số liệu trên được thu thập
sau khi siêu thị áp dụng phương thức bán hàng mới. Với mức ý nghĩa 2%, có thể kết
luận rằng phương thức bán hàng mới là tăng doanh thu mỗi ngày của siêu thị hay
không?
4.7. Hãng H sản xuất một loại xe máy nhận định rằng mức tiêu hao nhiên liệu X (đơn
vị: lít/km), khi xe lưu thông bình thường trên tuyến đường AB, trung bình là 0,018
(lít/km). Theo dõi 200 xe máy của hãng H chạy trên tuyến đường AB có kết quả
sau. Giả sử X có phân phối chuẩn.
a) Với mức ý nghĩa 1%, hãy cho biết nhận định X (lít/km) Số xe
của hãng H có phù hợp với thực tế hay [0,014 ; 0,016) 15
không? [0,016 ; 0,018) 35
b) Có ý kiến cho rằng mức tiêu hao nhiên liệu [0,018 ; 0,020) 75
trung bình là hơn 0,019 (lít/km). Với mức ý [0,020 ; 0,022) 45
nghĩa 3%, hãy xác minh ý kiến trên. [0,022 ; 0,024) 20
[0,024 ; 0,026] 10
Kiểm định tỷ lệ
4.8. Theo báo cáo, tỉ lệ phế phẩm trong kho hàng là 10%. Kiểm tra ngẫu nhiên 250
sản phẩm thấy có 38 phế phẩm. Hỏi báo cáo trên có chấp nhận được ở mức ý nghĩa
5% hay không ?
4.9. Tỉ lệ phế phẩm trước đây là 7%. Sau khi áp dụng kỹ thuật mới, người ta chọn
ngẫu nhiên 200 sản phẩm để kiểm tra thì thấy có 9 phế phẩm. Với mức ý nghĩa
5%, có thể kết luận rằng việc áp dụng kỹ thuật mới có hiệu quả hơn hay không ?
106 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
4.10. Một hãng sản xuất yêu cầu các phân xưởng trực thuộc phải có tỉ lệ sản phẩm đạt
tiêu chuẩn xuất khẩu không nhỏ hơn 75%. Một mẫu ngẫu nhiên với 500 sản phẩm
của phân xưởng A được kiểm tra cho thấy số sản phẩm đạt tiêu chuẩn xuất khẩu là
360 sản phẩm.Với mức ý nghĩa 5%, hãy xác minh xem phân xưởng A đã đáp ứng
được yêu cầu nói trên của hãng hay không?
dụng do hãng B sản xuất thì tuổi thọ trung bình của chúng là 3465 giờ, độ lệch
mẫu trên đó là 100 giờ. Với mức ý nghĩa 2%, hãy xác minh xem có sự khác nhau
về tuổi thọ trung bình của loại linh kiện này của hai hãng A và B hay không?
4.15. Bảng số liệu thống kê của công ty dịch vụ B&G về nhu cầu tiêu dùng (X -
kg/tháng) của sản phẩm K tại địa phương A như sau:
X (kg) 0 [1;3) [3;5) [5;7) [7;9) [9;11) [11;13)
Số hộ 15 18 25 26 13 9 4
a) Hãy ước lượng khoảng tin cậy đối xứng cho tỷ lệ hộ gia đình có nhu cầu tiêu
dùng sản phẩm K.
b) Công ty cũng tiến hành khảo sát nhu cầu tiêu dùng sản phẩm K trên một mẫu
gồm 200 hộ tại địa phương B; được các số liệu mẫu như sau: trung bình mẫu
xB 6,5 kg; phương sai mẫu sB2 5,5 , công ty đưa ra kết luận rằng nhu cầu
tiêu dùng về sản phẩm K ở hai địa phương là khác nhau; kết luận này có chấp
nhận được không, với mức ý nghĩa 5% ?
4.16. Một hãng hàng không giá rẻ A khẳng định rằng “thời gian khởi hành bị trễ X
(phút) so với lịch bay trung bình mỗi chuyến là không quá 30 phút”. Theo dõi 200
chuyến bay của hãng A, có kết quả cho trong bảng sau:
X [0-20) [20-30) [30-40) [40-50) [50-60) [60-90]
Số chuyến 30 90 40 20 16 4
a) Với độ tin cậy 98%, dựa vào kết quả quan sát, hãy tìm khoảng tin cậy đối xứng
cho tỷ lệ các chuyến bay của hãng A có thời gian khởi hành trễ chưa tới 40
phút.
b) Theo dõi 150 chuyến bay của hãng hàng không giá rẻ B, tính được thời gian
khởi hành bị trễ so với lịch bay bình quân là 27,23 phút và độ lệch mẫu hiệu
chỉnh trên đó là 12 phút. Với mức ý nghĩa 4%, hãy so sánh thời gian khởi hành
bị trễ so với lịch bay bình quân của hai hãng A và B.
nặng hơn 3 kg, trong số 200 trẻ sơ sinh ở nông thôn có 98 cháu nặng hơn 3 kg. Với
mức ý nghĩa 2% có thể kết luận rằng tỉ lệ trẻ sơ sinh có trọng lượng trên 3 kg ở
thành phố lớn hơn ở nông thôn hay không?
4.20. Chỉ số đường huyết X (mg/dl) trước bữa ăn của một nhóm người trong độ tuổi
từ 20 đến 30 tuổi như sau:
X (mg/dl) [60,80) [80,100) [100,120) [120,140) [140,160]
Số người 20 35 66 44 35
a) Dựa vào bảng trên hãy ước lượng khoảng tin cậy đối xứng cho chỉ số đường
huyết trung bình của những người trong độ tuổi trên với độ tin cậy 97%.
b) Nếu chỉ số đường huyết nằm ngoài khoảng [80;140) thì sẽ có nguy cơ mắc
bệnh tiểu đường. Hãy ước lượng khoảng tin cậy đối xứng cho tỷ lệ người có
nguy cơ mắc bệnh tiểu đường trong độ tuổi trên với độ tin cậy 95%.
c) Khảo sát chỉ số đường huyết của một nhóm 300 người trong độ tuổi 30 đến 40
thì thấy có 78 người có nguy cơ mắc bệnh tiểu đường; dựa vào kết quả này, có
thể cho rằng tỉ lệ người có nguy cơ mắc bệnh tiểu đường ở hai nhóm là giống
nhau không, mức ý nghĩa 5%?
a) Với mức ý nghĩa 5%, có thể kết luận rằng thời gian chờ phục vụ của mỗi khách
hàng ở hệ thống phục vụ A trung bình chưa tới 25 phút hay không?
b) Với mức ý nghĩa 3%, có thể cho rằng hệ B phục vụ nhanh hơn hệ A không?
c) Với mức ý nghĩa 4%, hãy xác minh khẳng định “có hơn 60% khách hàng của
hệ thống phục vụ A có thời gian chờ phục vụ chưa tới 25 phút”.
d) Với mức ý nghĩa 2%, có thể cho rằng tỉ lệ khách hàng có thời gian chờ phục vụ
chưa tới 20 phút ở hệ B cao hơn ở hệ A hay không ?
4.26. Chiều cao của một giống cây trồng là biến ngẫu nhiên X (cm) có phân phối
chuẩn. Với phương pháp canh tác mới, người ta quan sát một mẫu và có kết quả
cho bảng sau. Những cây trồng có chiều cao 105 X 125 được gọi là những
“cây loại A”.
X (cm) [95;105) [105;115) [115;125) [125;135) [135;145) [145;155) [155;165]
Số cây 10 10 15 30 10 10 15
a) Một báo cáo cho rằng chiều cao trung bình của giống cây trên sau khi áp dụng
phương pháp mới là 127cm (hơn 125 cm ; chưa tới 134 cm). Hãy cho kết luận về
báo cáo này với mức ý nghĩa 2%.
b) Trước đây bằng phương pháp canh tác cũ, người ta tính được chiều cao trung bình
110 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
của những cây loại A là 114,7 cm (là 118,5 cm). Hãy kết luận xem phương pháp
canh tác mới có làm giảm tăng (làm giảm) chiều cao trung bình của cây loại A hay
không với mức ý nghĩa 4%?
c) Trước đây bằng phương pháp canh tác cũ, người ta tính được tỷ lệ cây loại A là
20,2% (28,7%). Hãy kết luận xem phương pháp mới có làm tăng (làm giảm) tỷ lệ
cây loại A hay không với mức ý nghĩa 3%?
d) Khi canh tác theo phương pháp cũ thì phương sai của chiều cao X là 300 cm2. Hãy
nhận định về tình hình canh tác mới với mức ý nghĩa 4%.
e) Trước đây bằng phương pháp canh tác cũ, phương sai của chiều cao X là 350 cm2
(310 cm2). Với mức ý nghĩa 5%, hãy xét xem phương pháp canh tác mới có làm
chiều cao của giống cây trồng trên ít biến động hơn (biến động hơn) so với phương
pháp cũ hay không?
4.27. Để khảo sát đường kính của một chi tiết máy, người ta kiểm tra một số sản phẩm
của hai nhà máy. Trong kết quả sau đây, X , Y (cùng đơn vị: cm) tương ứng là
đường kính của chi tiết máy do nhà máy I, nhà máy II sản xuất. Những sản phẩm
có chi tiết máy nhỏ hơn 19cm được xếp vào loại C.
X (cm) [11;15) [15;19) [19;23) [23;27) [27;31) [31;35) [35;39]
Số sản phẩm 9 19 20 26 16 13 18
a) Có thể kết luận rằng đường kính trung bình của chi tiết máy do hai nhà máy sản
xuất bằng nhau hay không với mức ý nghĩa 2%?
b) Có thể cho rằng đường kính trung bình của chi tiết máy do nhà máy I sản xuất lớn
hơn đường kính trung bình của chi tiết máy do nhà máy II sản xuất hay không với
mức ý nghĩa 3%?
c) Với mức ý nghĩa 4%, tỉ lệ sản phẩm loại C do hai nhà máy sản xuất có như nhau
hay không?
d) Với mức ý nghĩa 1%, có thể cho rằng tỉ lệ sản phẩm loại C do nhà máy I sản xuất
lớn hơn tỉ lệ sản phẩm loại C do nhà máy II sản xuất hay không?
CHƯƠNG 5
Trong thực tế, hầu hết các quy luật, các hiện tượng trong Kinh tế, Xã hội, Kỹ
thuật,… chúng ta hoàn toàn không biết một cách chính xác được. Dựa vào các số liệu
thực nghiệm về đối tượng nghiên cứu và áp dụng các công cụ toán học, chúng ta xây
dựng các mô hình toán học phù hợp. Từ các mô hình này, sẽ ước lượng các giá trị hay
các quy luật của hiện tượng được nghiên cứu.
Các vấn đề được đặt ra là:
1) Số liệu thực nghiệm đã được làm sạch chưa (có đáng tin cậy không)?
2) Các mô hình được lựa chọn có phù hợp không?
3) Các giá trị ước lượng cho đại lượng nghiên cứu có tốt nhất ứng với mô hình được
lựa chọn không (sai số có nhỏ nhất không)?...
Giải quyết các vấn đề trên được gọi là xử lý số liệu thực nghiệm.
trị số của nó chứ không thể tìm kiếm và khử các nhuyên nhân gây ra nó.
c) Sai số thô: Trong quá trình đo lường, những sai số do vi phạm điều kiện cơ bản
trong thực nghiệm, hay do sơ xuất của người thực hiện (như: đọc sai, ghi chép sai,
thao tác sai, vô ý làm sai,…) được gọi là sai số thô. Sai số đó làm cho số đo được khác
hẳn với các số đo khác, thường có trị số rất lớn hoặc rất nhỏ (outlier) và hoàn toàn
không có quy luật.
Khi phát hiện sai số thô, cần bỏ ngay kết quả và thực hiện lại công việc (nếu điều
kiện cho phép), hoặc thực hiện các phương pháp toán học loại bỏ sai số thô với độ tin
cậy và hiệu quả nhất định sao cho bảng số liệu cuối cùng đảm bảo không còn sai số
thô.
5.1.2. Biểu diễn giá trị đo và sai số đo
Giả sử cần ước lượng điểm cho tham số của một đại lượng X , người ta tiến
hành đo n lần, các giá trị thu được ký hiệu là: x1 , x2 ,..., xn (các giá trị này được ghi
chép trực tiếp từ mỗi lần đo nên chúng có thể trùng nhau, và gọi là số liệu thô).
Khi đó giá trị ước lượng điểm của là: x x , ta viết: x x
Trong đó:
1 n
x xi là giá trị trung bình mẫu.
n 1
s
x là sai số chuẩn (Standard Error)
n
1 n
s
n 1 i 1
( xi x ) 2 là độ lệch mẫu hiệu chỉnh
Lưu ý: Khi đo nhiều lần cho cùng một đại lượng X , ta tính trung bình của các lần đo,
khi đó sai số chuẩn x chính là độ lệch chuẩn của các trung bình. Trong khi đó s lại
cho biết mức độ phân tán (mức độ trải rộng) của các giá trị đo trong cùng một mẫu so
với giá trị trung bình x .
Ví dụ 5.1. Đo chiều dài của một đại lượng X mười lăm lần với các kết quả đo như
sau:
17,62 17,62 17,615 17,62 17,61
17,61 17,62 17,625 17,62 17,6
17,61 17,615 17,61 17,605 17,61
1 n
Trung bình mẫu: x xi 17,614
n 1
1 n
Độ lệch chuẩn mẫu hiệu chỉnh: s
n 1 i 1
( xi x ) 2 0,00687
s
Sai số chuẩn: x 0,002
n
Vậy ước lượng tốt nhất cho chiều dài của đại lượng X là:
x 17,614 0,002
5.1.3. Một số phương pháp khử sai số thô
Khi thu được kết quả thực nghiệm, ta nhận ra một vài kết quả khác bất thường so
với các kết quả khác (outlier) như quá lớn hoặc quá nhỏ, khi đó các số liệu này có thể
chứa sai số thô.
Sự hiện diện của outlier có thể do lỗi trong quá trình lấy mẫu chẳng hạn như do
sai lệch của dụng cụ, do phương pháp đo, hoặc một ý kiến được ghi nhận một cách sai
lệch, hoặc khi dữ liệu không phù hợp với các giả thuyết đề ra.
Các outlier có thể được xử lí như sau:
(1) Giữ nguyên, xem như các điểm dữ liệu bình thường.
(2) Thay đổi giá trị để nó gần các điểm dữ liệu khác.
(3) Loại bỏ nó khỏi mẫu.
Các cách trên đều có nguy cơ làm cho ước lượng ta quan tâm bị kém chính xác,
thậm chí hoàn toàn sai lệch. Cách (2) và (3) có thể làm ước lượng bị chệch, trong khi
đó, cách (1) có thể làm cho ước lượng bị thay đổi đáng kể so với giá trị tham số tổng
thể. Do đó, phải cẩn thận khi đánh giá các giá trị đáng ngờ này bằng các phương pháp
thống kê phù hợp trước khi đi đến quyết định có loại bỏ chúng hay không.
Giả sử ta có một mẫu gồm n số liệu thực nghiệm cho một đại lượng nghiên cứu
nào đó là : x1 , x2 ,..., xn , trong đó có chứa số liệu bất thường xi . Có nhiều phương pháp
để xác định xem đó có phải là một outlier hay không.
a) Quy tắc kinh nghiệm
Tính các đặc trưng : n, x , s
Nếu độ lệch tuyệt đối giữa xi so với trung bình mẫu x mà lớn hơn 3s thì xi được
xem là một outlier (tức là xi chứa sai số thô), nghĩa là :
| xi x | 3s
Trong đó:
ki [(n 1)ai ] - là phần nguyên của (n 1)ai .
ri {(n 1)ai } - là phần lẻ của (n 1)ai .
a1 0,25; a2 0,5; a3 0,75 .
Có thể sử dụng hàm Excel: qi quartile(array, i)
c) Phương pháp hiệu chỉnh Thompson (tau):
Các bước thực hiện:
Tính các đặc trưng : n, x , s
(n 1).tn/22
Tính giá trị tau:
n n 2 (tn/22 ) 2
Tính độ lệch tuyệt đối i | xi x | . Điểm dữ liệu có i lớn nhất là điểm đáng nghi
là một outlier nhất.
Nếu i s thì điểm dữ liệu là một outlier.
Nếu i s thì điểm dữ liệu không phải là outlier.
Trong đó: là mức ý nghĩa cho trước; tn/22 là phân vị của phân phối Student,
được tính bởi hàm Excel: tn/22 tinv( , n 2) .
Như vậy với phương pháp này, ta sẽ xét từng điểm dữ liệu. Đương nhiên khi
điểm dữ liệu có độ lệch tuyệt đối lớn nhất không phải là outlier thì các điểm còn lại
cũng không phải. Khi có xk nào đó là outlier, ta sẽ loại bỏ nó ra khỏi mẫu, lần lượt
thực hiện lại các bước trên (tính lại x , s, ) cho tới khi tất cả outlier trong mẫu bị loại
bỏ.
d) Phương pháp MAD (median absolute deviation):
Khác với những phương pháp trước thường quan tâm độ lệch so với trung bình
mẫu, phương pháp này chỉ quan tâm độ lệch so với giá trị trung vị q2 medX (cũng
là giá trị tứ phân vị thứ hai). Việc sử dụng trung vị giúp xử lí được bài toán ngay cả
khi mẫu có chứa giá trị vô hạn. Do đó, giá trị MAD có tính vững (robust) tức là sẽ
không bị ảnh hưởng nhiều cho dù mẫu có chứa outlier. Giá trị MAD có công thức sau:
MAD b.Med | xi q2 |
Trong đó b 1, 4826 nếu mẫu được chọn từ tổng thể có phân phối chuẩn; và
b q31 , ( q3 là giá trị tứ phân vị thứ ba) nếu mẫu được chọn từ tổng thể có phân phối
khác.
Khi đó, những giá trị xi thỏa: | xi q2 | 3MAD là outlier.
Ngoài các phương pháp trên còn có rất nhiều phương pháp khác như: Dixon,
Chauvenet, Grubbs, Cochran, Brown-Forsythe,…
Ví dụ 5.2. Cho mẫu thực nghiệm có n 24 số liệu trong bảng sau.
145 155 153 158 161 148 155 154
147 146 155 159 160 172 160 156
157 153 147 154 157 158 149 152
Hãy chỉ ra các số liệu chứa sai số thô (nếu có) :
a) Bằng quy tắc kinh nghiệm.
b) Bằng phương pháp IQR .
c) Bằng phương pháp Thompson với mức ý nghĩa 5% .
d) Bằng phương pháp MAD, biết rằng mẫu được chọn từ tổng thể có phân phối
chuẩn.
Giải. Ta có: n 24; x 154,625; s 5,9986
a) Sắp xếp số liệu mẫu theo thứ tự có giá trị không giảm:
145 146 147 147 148 149 152 153
153 154 154 155 155 155 156 157
157 158 158 159 160 160 161 172
Khi số liệu thực nghiệm đã được sắp thứ tự, ta lần lượt xét các số từ biên vào
trong của dãy số liệu (các số có độ lệch tuyệt đối lớn).
Số x1 145 có | x1 x | 9,625 3s 17,9958
Số x24 172 có | x24 x | 17,375 3s
Vậy dãy số liệu thực nghiệm không chứa outlier.
b) Tính các tứ phân vị q1 , q3
Tính q1 : k1 [(24 1).0,25] [5,75] 5; r1 {5,75} 0,75
116 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
Trường hợp biến quan sát X là rời rạc, ta thay khoảng xi 1 xi bởi giá trị
xi 1 xi
xi/ .
2
Trường hợp biến quan sát X là liên tục, ta thay khoảng đầu x0 x1 bằng
(, x1 ) và thay khoảng cuối xk 1 xk bằng ( xk 1 , ) .
Dựa vào phân phối lý thuyết F * ( x) , tính các xác suất sau:
pi* P X xi/ nếu X rời rạc
Nếu có những lớp mà ni* 1 thì ta thực hiện ghép lớp này vào các lớp liền
kề để cho ni* 1 .
k
(ni npi* )2
Tính thống kê: g
i 1 npi*
Với mức ý nghĩa , tính giá trị phân vị 2 (k r 1) theo công thức Excel:
2 (k r 1) chiinv( , k r 1)
- Nếu g 2 (k r 1) thì bác bỏ H 0 , chấp nhận H1 .
- Nếu g 2 (k r 1) thì chấp nhận H 0 , bác bỏ H1 .
Lưu ý: Từ các công thức n1 ... nk n và p1* ... p*k 1 , ta có:
k
ni2 2nni pi* n 2 pi* 2 k
ni2 k k
g 2 ni n pi*
i 1 np *
i i 1 np *
i i 1 i 1
k
ni2
Suy ra: g n
i 1 ni*
b) Phân phối mũ
- Giả thiết H 0 : X có phân phối mũ E ( )
- Số tham số: r 1
n 1
- Ước lượng:
nx
- Các xác suất được tính theo phân phối mũ E ( )
pi* P xi 1 X xi F * ( xi ) F * ( xi 1 )
1 e x , x 0
Trong đó F ( x)
*
là hàm phân phối của phân phối mũ E ( ) .
0 , x0
c) Phân phối Poisson
- Giả thiết H 0 : X có phân phối Poisson P ( )
- Số tham số: r 1
- Ước lượng: x
k
- Công thức xác suất: pi* P X k e
k!
Ví dụ 5.3. Đo đường kính ( X : mm) của một số sản phẩm tiện cùng loại có kết quả
trong bảng bên.
Đường kính X Số sp ni Đường kính X Số sp ni
[20,0;20,1) 9 [20,4;20,5) 27
[20,1;20,2) 18 [20,5;20,6) 11
[20,2;20,3) 40 [20,6;20,7) 6
[20,3;20,4) 55 [20,7;20,8] 2
Với mức ý nghĩa 3%, có thể coi dãy số liệu bên tuân theo luật phân phối chuẩn
không?
Giải. Tính các đặc trưng mẫu:
1 1
n 168; x
n
ni xi 20,3333 ; sˆx2 ni ( xi x ) 2 (0,14337) 2 .
n
Kiểm định cặp giả thiết:
2 0
Biến quan sát X là liên tục nên ghép lớp đầu tiên [20;20,1) thành lớp (;20,1)
và lớp cuối [20,7;20,8) thành lớp [20,7; ) .
Lập bảng tính:
STT Đường kính X Tần số thực Tần số lý thuyết
lớp (mm) nghiệm ni ni* npi* 1
1 (;20,1) 9 8.7056
2 [20,1;20,2) 18 20.8944
3 [20,2;20,3) 40 38.9569
4 [20,3;20,4) 55 45.5203
5 [20,4;20,5) 27 33.3393
6 [20,5;20,6) 11 15.3007
7 [20,6;20,7) 6 4.3971
8 [20,7; ) 2 0,8857
Nhận thấy rằng trong lớp thứ tám, tần số lý thuyết nhỏ hơn 1 nên ta ghép lớp thứ
tám vào lớp thứ bảy (cộng hai cột cuối). Lớp thứ bảy mới sẽ là:
7 [20,6; ) 8 5,2828
Số lớp k 7 , số tham số r 2 .
k
ni2
Tính thống kê: g n 6, 2248
i 1 ni
*
Ta có: G 2 (k r 1)
Vậy ta chấp nhận H 0 , nghĩa là dãy số liệu trên tuân theo luật phân phối chuẩn.
Sử dụng phần mềm Mathematica:
Trong đoạn code sau, ta chỉ nhập vào các điểm biên xi và các tần số ni . Kết quả
xuất ra lần lượt là: số lớp k , kích thước mẫu n , trung bình mẫu x , độ lệch mẫu sˆx ,
Xác suất thống kê và Ứng dụng – 2021 121
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
dãy tần số lý thuyết ni* npi* ; cuối cùng là giá trị thống kê g .
Kết quả
Ví dụ 5.4. Quan sát tuổi thọ (X : giờ) của một số con côn trùng cùng loại có kết quả
bảng sau:
X (giờ) [1;3) [3;5) [5;7) [7;9) [9;11) [11;13) [13;15]
Số côn trùng 40 19 11 7 6 4 1
Với mức ý nghĩa 5%, có thể coi dãy số liệu bên tuân theo luật phân phối mũ
không?
Giải. Ta có: n 88; x 4,5455 .
Kiểm định cặp giả thiết:
H 0 : X có phân phối mũ E ( ) ,
H1 : X không có phân phối mũ E ( ) .
n 1
Ước lượng: 0, 2175
nx
Tính các xác suất lý thuyết theo phân phối mũ:
pi* P xi 1 X xi F * ( xi ) F * ( xi 1 )
1 e x , x 0
Trong đó: F ( x)
*
0 , x0
Lưu ý: F * () 1
Biến quan sát X là liên tục nên ghép lớp đầu tiên [1;3) thành lớp (0;3) và lớp
cuối [13;15] thành lớp [13; ) .
Ta có: g 2 (k r 1)
Vậy ta chấp nhận H 0 , nghĩa là dãy số liệu trên tuân theo luật phân phối mũ.
Sử dụng phần mềm Mathematica:
Ví dụ 5.5. Người ta khảo sát số khách hàng (X) đến một siêu thị trong mỗi phút tại
TP. HCM. Giả sử số liệu được ghi lại thành 500 khoảng một phút với số khách hàng
tương ứng trong mỗi khoảng như sau:
Số khách hàng 0 1 2 3 4 5 6 7 8 9
Số lần lặp lại 65 93 42 98 77 54 30 24 12 5
Với mức ý nghĩa 2%, có thể coi dãy số liệu trên tuân theo luật phân phối Poisson
không?
Giải. Ta có: n 500; x 3,076
Kiểm định cặp giả thiết
H 0 : X có phân phối Poisson P ( ) ,
H1 : X không có phân phối Poisson P ( ) .
Ước lượng: x 3,076
Tính các xác suất lý thuyết theo phân phối Poisson:
k (3,076)k 3,076
p P X k
*
i e
e ; k 0,1, 2,...
k! k!
Lập bảng tính:
STT Số khách Tần số thực Tần số lý thuyết
lớp hàng (X) nghiệm ni ni* npi* 1
1 0 65 23.072
2 1 93 70.969
3 2 42 109.15
4 3 98 111.915
5 4 77 86.063
6 5 54 52.946
7 6 30 27.144
8 7 24 11.928
9 8 12 4.5862
10 9 5 2.2294
* n ( n* n* ... n* )
Lưu ý: n10 1 2 9
Số lớp k 10 , số tham số r 1 .
k
ni2
Tính thống kê: g n 155
i 1 ni*
Giá trị phân vị 2 (k r 1) 0,02
2
(10 1 1) 18,168
Ta có: g 2 (k r 1)
Vậy ta bác bỏ H 0 chấp nhận H1 , nghĩa là dãy số liệu trên không theo luật phân
phối Poisson.
1 n 1 n 2
sˆ ( X i X ) X i ( X ) 2
2
X
2
n i 1 n i 1
1 n 1 n 2
sˆY2
n i 1
(Yi Y ) 2
n i 1
Yi (Y ) 2
Trong mẫu (1) có thể có một số bộ số ( xi , yi ) trùng nhau. Trong trường hợp mẫu
có kích thước lớn và có các bộ số ( xi , yi ) trùng nhau thì ta có thể biểu diễn mẫu dưới
dạng tần số:
Xi X1 X2 Xk
Yi Y1 Y2 Yk (2)
Tần số ni n1 n2 nk
Khi đó : n n1 ... nk
1 k 1 k 1 k
X i i
n i 1
n X ; Y ii
n i 1
n Y ; XY ni X iYi
n i 1
1 k 1 k
ˆs X2 ni X i2 ( X )2 ; sˆY2 niYi 2 (Y )2
n i 1 n i 1
Tính chất của hệ số tương quan mẫu:
1 r 1 .
r dùng để ước lượng hướng và độ mạnh của mối quan hệ phụ thuộc tương
quan tuyến tính giữa X và Y.
| r | 0,8 : phụ thuộc tương quan tuyến tính mạnh,
0, 4 | r | 0,8 : tương quan trung bình,
| r | 0,4 : tương quan yếu.
0 r 1 : tương quan tuyến tính thuận (đồng biến),
1 r 0 : tương quan tuyến tính nghịch (nghịch biến).
r là ước lượng điểm của .
Sử dụng Excel để tìm r (đối với mẫu (1)):
r = Correl(array1,array2)
c) Kiểm định giả thiết về ρ
Kiểm định giả thiết về ρ là kiểm định giả thiết nói về sự phụ thuộc tương quan
tuyến tính của hai biến ngẫu nhiên X và Y.
Ta cần kiểm định cặp giả thiết:
H 0 : 0 (không có sự phụ thuộc tương quan tuyến tính)
H1 : 0 (có sự phụ thuộc tương quan tuyến tính)
Lấy mẫu cụ thể có dạng (1) hoặc (2), tính được hệ số tương quan mẫu r .
r n2
Tính thống kê: g
1 r2
Với mức ý nghĩa , tính giá trị phân vị theo phân phối Student với n 2 bậc tự
do: t /2 (n 2) (có thể tra bảng hoặc sử dụng Excel: t /2 (n 2) tinv( , n 2) ).
Nếu | g | t /2 (n 2) thì bác bỏ H 0 .
Ví vụ 5.6. Để nghiên cứu sự phụ thuộc tương quan giữa chiều cao X (mét) và câng
nặng Y (kg) của một người, người ta tiến hành khảo sát 10 người có số liệu trong bảng
sau:
Xi 1 1,2 1,3 1,3 1,4 1,5 1,5 1,6 1,7 1,8
Yi 35 32 40 46 50 47 55 62 75 69
a) Hãy xác định hệ số tương quan mẫu r và cho nhận xét mức độ về mức độ phụ
thuộc tương quan tuyến tính của X và Y.
b) Giữa X và Y có sự tương quan tuyến tính không với mức ý nghĩa 5%?
Giải
a) Ta có: n 10, X 1, 43; Y 51,1; XY 75,91
1 n 2 20,97
sˆX2
n i 1
X i ( X )2
10
(1, 43)2 0,0521
1 n 2 27929
sˆY2
n i 1
Yi (Y ) 2
10
(51,1)2 181,69
XY X .Y 75,91 1, 43 51,1
r 0,922094
sˆ .sˆ
2
X
2
Y
0,0521 181,69
Ta có : 0,8 r và rất gần với 1 nên X và Y có phụ thuộc tương quan tuyến tính
khá cao. Sự phụ thuộc này là đồng biến.
b) Gọi là hệ số tương quan của X và Y, ta kiểm định :
H 0 : 0 ; H1 : 0
r n2
g 6,7398
1 r2
t /2 (n 2) t0,025 (8) 2,306
Ta có: | g | t /2 (n 2) nên bác bỏ H 0 , chấp nhận H1 .
Vậy với mức ý nghĩa 5%, X và Y có phụ thuộc tương quan tuyến tính.
Vẽ đồ thị phân tán (Scatter) bằng Excel
Kết quả hiển thị lần lượt là: n, X , Y , XY , sˆX2 , sˆY2 , rXY
Ví vụ 5.8. Cho bảng số liệu thực nghiệm sau về hai biến ngẫu nhiên X và Y :
Xi 0 1 2 3 4
Yi 6 7 8 9 4
a) Hãy xác định hệ số tương quan mẫu.
b) Giữa X và Y có sự tương quan tuyến tính không với mức ý nghĩa 4%? Cho
nhận xét mức độ về mức độ phụ thuộc tương quan tuyến tính của X và Y.
Giải
a) Tính các đặc trưng mẫu:
n 5; X 2; Y 6,8; XY 13, 2; sˆX2 2 ; sˆY2 2,96
Hệ số tương quan mẫu
XY X .Y 13, 2 2 6,8
r 0,164399
sˆ .sˆ
2
X
2
Y
2 2,96
5.3.3. Hàm hồi quy tổng thể, hàm hồi quy mẫu
5.3.4. Ước lượng các hệ số hồi quy bằng phương pháp bình phương tối thiểu
Cần ước lượng các hệ số hồi quy ˆ1 , ˆ2 trong trong hàm SRF: Yˆ ˆ1 ˆ2 X , ta
lấy mẫu cụ thể kích thước n : ( X 1 , Y1 ),...,( X n , Yn ) . Ứng với mỗi ( X i , Yi ) , đặt
ei Yi Yˆi Yi ( ˆ1 ˆ2 X i ) thì ei được gọi là phần dư (Residual) giữa giá trị quan
sát Yi và giá trị ước lượng Yˆi nhận được từ hàm hồi quy mẫu.
n n
Q( ˆ1 , ˆ2 ) ei2 Yi ˆ1 ˆ2 X i
2
min 0 Xi X
i 1 i 1
Hình 5.2. Đường hồi quy mẫu
Theo lý thuyết hàm nhiều biến, hàm Q( ˆ1 , ˆ2 ) đạt giá trị nhỏ nhất tại điểm
( ˆ1 , ˆ2 ) là nghiệm của hệ phương trình:
Q n
ˆ
1
0
i 1
2 Yi 1 2 X i 0
ˆ ˆ
n
Q 0
ˆ2
2
i 1
Yi ˆ1 ˆ2 X i X i 0
ˆ XY X .Y
nˆ1 ˆ2 X i Yi 2
sˆX2
ˆ1 X i ˆ2 X i X iYi ˆ
2
ˆ
1 Y 2 X
Vậy các hệ số của hàm hồi quy mẫu được tính theo công thức sau:
XY X .Y ˆ
ˆ2 ; 1 Y ˆ2 X
ˆs X2
Ví dụ 5.9. Bảng sau cho số liệu về mức chi tiêu cho tiêu dùng (Y – usd/tuần) và thu
nhập (X – usd/tuần) của một mẫu gồm 10 gia đình. Giả sử Y và X có mối quan hệ
tương quan tuyến tính.
Xi 80 100 120 140 160 180 200 220 240 260
Yi 70 65 90 95 110 115 120 140 155 150
a) Hãy tìm hàm hồi quy mẫu của Y theo X và nêu ý nghĩa kinh tế của các hệ số hồi
quy.
b) Từ số liệu mẫu, hãy tìm ước lượng điểm cho mức chi tiêu tiêu dùng bình quân
Vậy hàm hồi quy mẫu cần tìm là: Yˆ 24, 4545 0,509091X
Ý nghĩa kinh tế của các hệ số hồi quy:
E (Y / X 0) ˆ 24,4545 .
1 1
Mức chi tiêu cho tiêu dùng bình quân mỗi tuần của một hộ gia đình không có thu
nhập (giả sử các yếu tố khác không đổi) là 1 , xấp xỉ khoảng 24,455 usd/tuần.
E (Y / X 1) E (Y / X ) 2 ˆ2 0,509091 .
Khi thu nhập tăng 1 usd/tuần (trong điều kiện các yếu tố khác không đổi) thì chi
tiêu cho tiêu dùng bình quân của một hộ gia đình tăng lên 2 , xấp xỉ khoảng 0,509091
usd/tuần.
b) Thay X 195 vào hàm Yˆ 24, 4545 0,509091X , thu được:
E (Y / X 195) Yˆ 123,727
Vậy mức chi tiêu cho tiêu dùng bình quân khi thu nhập 195 (usd/tuần) khoảng
123,727 (usd/tuần).
Kết quả hiển thị lần lượt là: n, X , Y , XY , sˆX2 , ˆ1 , ˆ2 , ei2
Ví dụ 5.10. Một nghiên cứu khảo sát về mối quan hệ giữa lưu lượng xe giờ cao điểm
theo bề rộng mặt cắt ngang đường được cung cấp như bảng sau:
Xi 5,7 6,5 7,3 9,6 12,8
Yi 3,01 4,22 4,23 6,45 7,58
X : bề rộng mặt cắt ngang đường (m),
Y : lưu lượng xe (nghìn xe qđ/giờ).
a) Hãy tìm hàm hồi quy mẫu Yˆ ˆ1 ˆ2 X cho số liệu thống kê trên. Nêu ý nghĩa
kinh tế của các hệ số hồi quy ˆ1 , ˆ2 .
b) Từ dữ liệu thống kê trên, hãy tìm ước lượng cho lưu lượng xe ứng với bề mặt
cắt ngang đường 10m.
Giải. a) Hàm hồi quy tổng thể: E (Y / X ) 1 2 X
Hàm hồi quy mẫu: Yˆ ˆ1 ˆ2 X
Các đặc trưng mẫu:
n 5, X 8,38 ; Y 5,098; XY 46,882; sˆX2 6,5816
Các hệ số hồi quy
XY X .Y 46,882 8,38 5,098
ˆ2 0,63218
sˆX2 6,5816
ˆ Y ˆ X 0,19967
1 2
Vậy hàm hồi quy mẫu cần tìm là: Yˆ 0,19967 0,63218 X
E (Y / X 0) 1 ˆ1 0,19967
Hệ số 1 trong trường hợp này không có ý nghĩa kinh tế vì không có mặt đường
nào có bề ngang bằng không.
E (Y / X 1) E (Y / X ) 2 ˆ2 0,63218 .
Khi bề rộng mặt đường tăng thêm 1m (trong điều kiện các yếu tố khác không
đổi) thì lưu lượng xe tăng bình quân là 2 , xấp xỉ khoảng 0,63218 (nghìn xe qđ/giờ).
5.3.5. Một số dạng hàm hồi quy tuyến tính hóa được
Giả sử ta có hai biến quan sát X và Y phụ thuộc tương quan. Từ mẫu thực
nghiệm, nếu giá trị tuyệt đối của hệ số tương quan mẫu rất gần 0 thì ta không thể dùng
hàm hồi quy tuyến tính được. Khi đó X , Y có phụ thuộc tương quan phi tuyến. Một số
dạng hàm hồi quy phi tuyến sau đây có thể tuyến tính được.
theo một hàm số :
Xét hàm hồi quy tổng thể (PRF): E (Y / X ) f ( X )
1
a) Hồi quy dạng nghịch đảo: f ( X ) 1 2
X
1
Hồi quy mẫu: Yˆ ˆ1 ˆ2
X
1
Đặt Z thì ta có hàm hồi quy tuyến tính mẫu:
X
Ŷ ˆ ˆ Z
1 2 (1)
Áp dụng phương pháp bình phương tối thiểu đối với số liệu thực nghiệm
( Z i , Yi ) (1 / X i , Yi ), i 1, n tìm được ˆ1 , ˆ2 từ hàm (1).
b) Hồi quy dạng logarit: f ( X ) 1 2 ln X
Ước lượng (4) từ mẫu ( X i ,Wi ), i 1, n với Wi ln Yi thu được bˆ1 , bˆ2 . Suy ra:
ˆ1 e b ; ˆ2 bˆ2 .
ˆ
1
1. X
e) Hồi quy dạng phân thức hữu tỉ : f ( X )
X 2
ˆ . X 1 1 ˆ 1
Hồi quy mẫu: Yˆ 1 2
X ˆ2 Yˆ ˆ1 ˆ1 X
1 1 ˆ 1 ˆ ˆ2
Đặt Wˆ ; Z b1 ; b2 , thu được:
Yˆ X ˆ1 ˆ1
Ŵ bˆ1 bˆ2 X (5)
Ví vụ 5.11. Cho bảng số liệu thực nghiệm sau về hai biến ngẫu nhiên X và Y :
Xi 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
Yi 10 7 5 3 1 4 9 13
a) Hãy xác định hệ số tương quan mẫu r và cho biết giữa X và Y có sự tương
quan tuyến tính không với mức ý nghĩa 5%?
b) Từ số liệu mẫu, hãy tìm hàm hồi quy mẫu Yˆ ˆ ˆ X 2 . 1 2
Giải
a) Ta có: n 8; X 0,9; Y 6,625; XY 6, 225;
sˆX2 0, 21 ; sˆY2 14, 2344
XY X .Y 6, 225 0,9 6,625
r 0,15183
sˆX2 .sˆY2 0, 21 14, 2344
5.3.6. Ước lượng khoảng tin cậy và kiểm định các hệ số hồi quy
a) Độ chính xác của các ước lượng
Ta thấy rằng với hai mẫu thực nghiệm khác nhau thì các ước lượng ˆ1 , ˆ2 cũng
có thể khác nhau. Do đó ˆ1 , ˆ2 là các biến ngẫu nhiên. Vì phương sai hay sai số chuẩn
đặc trưng cho độ phân tán của biến ngẫu nhiên nên ta dùng chúng để đo độ chính xác
của các ước lượng. Người ta chứng minh được các công thức sau:
n2
n n n
Trong đó: ei2 (Yi Y )2 ˆ22 ( X i X )2
i 1 i 1 i 1
ˆ ˆ 2 . X i2
var( 1 )
n. ( X i X ) 2
Phương sai của các ước lượng:
var( ˆ ) ˆ 2
2
( X i X )2
se( ˆ ) var( ˆ )
1 1
Sai số chuẩn (Standard error):
se( ˆ2 ) var( ˆ2 )
j ˆ j t /2 (n 2).se( ˆ j ) ; ˆ j t /2 (n 2).se( ˆ j ) , j 1, 2
Trong đó: t /2 (n 2) là phân vị của phân phối Student, được tính bởi hàm Excel:
t /2 (n 2) tinv( , n 2) .
H 0 : j *j , H1 : j *j t j t (n 2)
H 0 : j *j , H1 : j *j t j t (n 2)
(X
i 1
i X ) nsˆ 33000; (Yi Y ) 2 8890
2 2
X
i 1
n n n
Suy ra: ei2 (Yi Y )2 ˆ22 ( X i X )2 337, 273
i 1 i 1 i 1
a) Ta có: ˆ 2
e 2
i
42,1591
n2
ˆ 2 . X i2
var( ˆ ) 41,1367 se( ˆ1 ) 6,41379
n. ( X i X )2
1
ˆ 2
var( ˆ2 ) 0,00127754 se( ˆ2 ) 0,03574
(X i X) 2
ˆ t
1 /2
(n 2).se( ˆ1 ); ˆ1 t /2 (n 2).se( ˆ1 ) 9,6643; 39, 2447
ˆ
2
t /2 (n 2).se( ˆ2 ); ˆ2 t /2 (n 2).se( ˆ2 ) 0, 4267; 0,5915
Từ ý nghĩa của 2 , ta có thể kết luận rằng: với đều kiện các yếu tố khác không
đổi, khi thu nhập tăng 1 usd/tuần thì chi tiêu cho tiêu dùng trung bình của một hộ gia
đình tăng trong khoảng từ 0,4267 đến 0,5915 usd/tuần.
H : 2* 0, 4
b) Kiểm định cặp giả thiết 0 2
H1 : 2 0, 4
ˆ2 2* 0,509091 0, 4
Ta có: t2 3,05235
se( ˆ2 ) 0,03574
t /2 (n 2) t0,025 (8) 2,306
Điều kiện | t2 | t /2 (n 2) là đúng nên bác bỏ giả thiết H 0 , chấp nhận giả thiết
H1 .
Hướng dẫn sử dụng Excel cho bài toán phân tích hồi quy
Bước 1. Mở chương trình Excel và nhập dữ liệu dạng cột.
Bước 2. Mở Real Statistics (hoặc nhất tổ hợp phím Ctrl - m), sau đó chọn Linear
Regrssion (hồi quy tuyến tính). Nhấp OK.
Bước 3. Chọn vùng dữ liệu của X, Y.
Alpha (mặt định của chương trình là 0.05 , khi cần chúng ta thay đổi số
khác).
Lưu ý: nếu chọn Column headings included with data thì việc chọn vùng dữ liệu phải
chứa ô có chữ X, Y.
Trong bảng:
R Square : Hệ số xác định R 2 0,962062
2
Adjusted R Square : Hệ số xác định điều chỉnh R 0.957319256
2 n 1
Công thức tính là R 1 (1 R 2 )
nk
Trong đó: n là kích thước mẫu, k là số biến của mô hình.
Standard Error: Sai số chuẩn của hồi quy (Standard Error of regression)
ˆ 6.493003227
Observations: số lượng quan sát (hay kích thước mẫu) n 10
Regression (SS): Tổng bình phương các sai số giữa giá trị ước lượng dựa vào hàm hồi
quy và trung bình mẫu
(n 2).R 2
F (F-statistic): Thống kê F0 202.8679 (dùng để kiểm định sự phù hợp
1 R2
của hàm hồi quy).
p-value (probability value): Giá trị xác suất theo phân phối Fisher với hai bậc tự do 1
và n 2 (hay hai bậc tự do k 1 và n k đối với hồi quy bội k biến). Giá trị này dùng
để kiểm định sự phù hợp của hàm hồi quy theo phươg pháp giá trị xác suất.
p value P ( F F0 ) FDIST F0 ,1, n 2 5,75.107
Phần cuối của kết quả Excel: để mô tả hàm hồi quy mẫu
( SRF ) Yˆ ˆ ˆ X 1 2
Std err (standard error): Sai số chuẩn của các hệ số hồi quy mẫu
se( ˆ ) 6,413817; se( ˆ ) 0,035743
1 2
p-value: Giá trị xác suất theo phân phối T (Student) với n 2 bậc tự do (hay n k
bậc tự do đối với hồi quy bội k biến).
p value P | T | | t j | Excel TDIST | t j |, n 2, 2
Giá trị p-value dùng để kiểm định cặp giả thiết H 0 : j 0 , H1 : j 0 theo phương
pháp giá trị xác suất.
Lower, upper: tương ứng là cận dưới và cận trên của khoảng ước lượng của hệ số hồi
quy tổng thể j
5.1. Kết quả thí nghiệm nén ép (X, đơn vị: kN/cm2) của 12 mẫu bê tông cùng loại có
kết quả sau: 1; 1,39; 0,9; 1; 0,95; 1; 0,9; 1,1; 1,1; 0,95; 0,9; 0,9. Hãy kiểm tra và
loại bỏ (nếu có) các giá trị của X chứa sai số thô bằng mỗi phương pháp sau:
a) Quy tắc kinh nghiệm.
b) Phương pháp IQR.
c) Phương pháp hiệu chỉnh Thompson (với mức ý nghĩa 4%).
d) Phương pháp MAD (giả sử mẫu được chọn từ tổng thể có phân phối chuẩn).
5.2. Yêu cầu như câu 5.1 đối với kết quả thí nghiệm xác định dung trọng tự nhiên (X -
kN/m3) của 12 mẫu đất như sau: 16,4; 16,4; 17; 16; 17,4; 17; 16; 16,5; 16,3; 18,1;
19,2; 18,1.
5.3. Quan sát năng suất X (tấn/ha) của một giống lúa thử nghiệm trên 100 thửa ruộng
(cùng diện tích) có kết quả sau:
X [8;9) [9;10) [10;11) [11;12) [12;13) [13;14) [14;15]
Số thửa 8 15 21 23 16 9 8
Với mức ý nghĩa 5%, có thể xem năng suất X là biết ngẫu nhiên tuân theo luật
phân phối chuẩn không?
5.4. Với mức ý nghĩa 4%, có thể coi dãy số liệu thực nghiệm sau về biến quan sát X có
tuân theo luật phân phối chuẩn không?
X Số quan sát X Số quan sát
[10;12) 1 [20;22) 310
[12;14) 2 [22;24) 230
[14;16) 20 [24;26) 92
[16;18) 92 [26;28) 20
[18;20) 230 [28;30] 2
5.5. Với mức ý nghĩa 5%, có thể coi dãy số liệu thực nghiệm sau về biến quan sát X có
tuân theo luật phân phối mũ không?
X Số quan sát X Số quan sát
[60;80) 103 [160;180) 17
[80;100) 71 [180;200) 12
[100;120) 50 [200;220) 8
[120;140) 35 [220;240) 6
[140;160) 24 [240;260] 4
5.6. Với mức ý nghĩa 2%, có thể coi dãy số liệu thực nghiệm sau về biến quan sát X có
tuân theo luật phân phối Poisson không?
142 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
X 0 1 2 3 4 5 6 7 8 9 10
Số quan sát 50 149 224 224 168 101 50 22 8 3 1
5.7. Quan sát trong một số ngày về số tai nạn giao thông X xảy ra mỗi ngày ở một
thành phố ta có được số liệu sau:
Số tai nạn X 0 1 2 3 4 5
Số ngày 10 23 46 35 20 13
Với mức ý nghĩa 1%, có thể xem X là biết ngẫu nhiên có tuân theo luật phân phối
Poisson không?
5.8. Để tìm hiểu lượng mũ X (gam) của cây cao su trong một ngày, ghi nhận ở 100 cây
có kết quả sau:
X [200;210) [210;220) [220;230) [230;240) [240;250) [250;260) [260;270]
Số cây 2 8 14 30 25 12 9
Với mức ý nghĩa 1%, có thể xem lượng mủ cao su X là biến ngẫu nhiên có tuân
theo luật phân phối chuẩn không?
5.9. Giả sử có số liệu thống kê về lãi suất ngân hàng (X – %/năm), tổng vốn đầu tư (Y
– tỷ đồng) trên địa bàn của tỉnh A qua 10 năm liên tiếp có kết quả sau:
Xi 7 6,5 6,5 6,0 6,0 6,0 5,5 5,5 5,0 4,5
Yi 28 32 30 34 32 35 40 42 48 50
a) Tính hệ số tương quan mẫu.
b) Giữa X và Y có sự tương quan tuyến tính không với mức ý nghĩa 5%? Cho
nhận xét mức độ về mức độ phụ thuộc tương quan tuyến tính của X và Y.
c) Tìm hàm hồi quy tuyến tính mẫu Yˆ ˆ ˆ X . Nêu ý nghĩa kinh tế của các hệ
1 2
số hồi quy. Tìm ước lượng điểm cho tổng vốn đầu tư trên địa bàn của tỉnh A
trong năm tiếp theo khi lãi suất là 8,2%.
d) Tính tổng bình phương các phần dư.
e) Tìm khoảng tin cậy cho các hệ số hồi quy với độ tin cậy 97%.
H 0 : 2 10,5
f) Kiểm định cặp giả thiết và với mức ý nghĩa 4%.
1 2
H : 10,5
5.10. Để nghiên cứu về mối quan hệ giữa thời gian tự học bình quân (X: giờ/tuần) và
điểm thi (Y) của một sinh viên đối với môn Toán chuyên đề. Khảo sát một số sinh
viên có kết quả trong bảng sau
Xi 0 0 1 1 1 2 3 4 5
Yi 3 6 6 5 8 7 9 8 10
Số sinh viên 7 18 25 19 30 20 15 9 3
a) Tính hệ số tương quan mẫu và kiểm định sự phụ thuộc tương quan tuyến tính
giữa X và Y với mức ý nghĩa 4%.
b) Cho nhận xét mức độ về mức độ phụ thuộc tương quan tuyến tính của X và Y.
Hãy giải thích nguyên nhân dẫn đến sự phụ thuộc tương quan tuyến tính của X
và Y là không cao.
c) Tìm hàm hồi quy tuyến tính mẫu Yˆ ˆ ˆ X . Nêu ý nghĩa kinh tế của các hệ
1 2
số hồi quy.
d) Tìm ước lượng điểm cho điểm thi trung bình của những sinh viên có thời gian
tự học bình quân là 2,5 (giờ/tuần).
e) Tìm khoảng tin cậy cho các hệ số hồi quy với độ tin cậy 98%. Nêu ý nghĩa của
các khoảng tin cậy này.
5.11. Lượng khách đi xe buýt Y (triệu lượt người/năm) phụ thuộc vào tiền vé X (ngàn
đồng). Ta có bảng số liệu sau:
Xi 2 3 4 2 3 3 4 3 3 2
Yi 10 6 5 8 7 8 7 7 8 9
a) Tính hệ số tương quan mẫu và kiểm định sự phụ thuộc tương quan tuyến tính
giữa X và Y với mức ý nghĩa 3%. Cho nhận xét mức độ về mức độ phụ thuộc
tương quan tuyến tính của X và Y.
b) Tìm hàm hồi quy tuyến tính mẫu Yˆ ˆ1 ˆ2 X . Nêu ý nghĩa kinh tế của các hệ
số hồi quy. Hãy ước lượng số lượt khách đi xe buýt bình quân khi giá vé là 5
ngàn đồng.
c) Xác định khoảng tin cậy của 1 , 2 với độ tin cậy 95%.
d) Theo bạn thì tiền vé có ảnh hưởng đến lượng khách đi xe buýt không, kết luận
với mức ý nghĩa 3% ?
e) Kiểm định giả thiết H 0 : 2 1,4, H1 : 2 1,4 , 4% .
5.12. Tìm hiểu mối liên hệ giữa cước phí Yi
20 25 30 35
vận chuyển Y (ngàn đồng) của một Xi
loại hàng và giá xăng X (ngàn đồng/ 17 4 10
17,5 2 8 5
lít) trong cùng thời điểm ở các đơn
18 5 15 4
vị vận tải trong thành phố A qua các 18,5 2 12 15
chuyến vận tải, có bảng số liệu bên: 19 8 16
a) Tính hệ số tương quan mẫu và kiểm định sự phụ thuộc tương quan tuyến tính
giữa X và Y với mức ý nghĩa 2%. Cho nhận xét mức độ về mức độ phụ thuộc
tương quan tuyến tính của X và Y.
b) Tìm hàm hồi quy tuyến tính mẫu Yˆ ˆ ˆ X . Nêu ý nghĩa kinh tế của các hệ
1 2
số hồi quy. Hãy ước lượng cước phí vận chuyển bình quân khi giá xăng là 20
(ngàn đồng/ lít).
số hồi quy.
c) Nếu thêm một ngày chờ chế biến thì bình quân hàm lượng đường giảm bao
nhiêu?
5.14. Khảo sát lượng thức ăn (Y – kg/người/tháng) của một loại thức ăn A đắt tiền và
thu nhập ( X – triệu đồng/ tháng) của người đó. Bảng sau cho kết quả khảo sát của
10 người.
Xi 10 12
12 15 17 20 25 27 35 50
Yi 0,2 0,1
0,5 0,7 0,8 1,0 1,2 1,1 1,4 1,3
a) Tìm hàm hồi quy mẫu Yˆ ˆ1 ˆ2 (1 / X ) . Nêu ý nghĩa kinh tế của hệ số ˆ1 .
b) Hãy ước lượng lượng thức ăn trung bình của những người có thu nhập 70 (triệu
đồng/ tháng).
5.15. Cho bảng số liệu thực nghiệm sau về hai biến ngẫu nhiên X và Y. Giả sử rằng
bảng số liệu này có hàm hồi quy tổng thể dạng f ( X ) a. X b .
Xi 2,2 3,8 7,0 7,7 11,5 15,2 18,0
Yi 3,6 5,0 7,0 7,7 9,3 11,3 12,2
Dựa vào mẫu, hãy tìm hàm hồi quy Yˆ aˆ. X b .
ˆ
5.16. Khảo sát lượng cam bán được Y (tấn/tháng) theo giá cam X 2 (ngàn đồng/kg) và
giá quýt X 3 (ngàn đồng/ kg) có số liệu sau:
Y 14 13 12 10 8 9 8 7 6 6
X2 2 2 3 4 5 5 6 7 8 9
X3 7 6 7 6 5 6 4 5 4 5
a) Dựa vào mẫu, hãy tìm hàm hồi quy mẫu Yˆ ˆ1 ˆ2 X 2 ˆ3 X 3 . Nêu ý nghĩa
kinh tế của các hệ số hồi quy.
b) Với độ tin cậy 96%, hãy tìm khoảng tin cậy cho 1 , 2 , 3 .
c) Biến X 3 có ảnh hưởng đến Y hay không, với 3% ?
d) Kiểm định giả thiết H 0 : 2 2 ; H1 : 2 2 , với 4% .
Xác suất thống kê và Ứng dụng – 2021 145
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
CHƯƠNG 6
XÍCH MARKOV VÀ ỨNG DỤNG
Chẳng hạn: Số lượng một loài sinh vật; Số lượng các linh kiện của một hệ thống
kỹ thuật cần thay thế,… xét theo thời gian là các quá trình Markov.
c) Xích Markov
Nếu không gian trạng thái E gồm một số hữu hạn hoặc vô hạn đếm được các
trạng thái thì quá trình Markov X (t ), t T được gọi là xích Markov. Lúc này, có
thể ký hiệu E 1, 2,3... , tức là các trạng thái được đánh số. Như vậy, xích Markov
chỉ là một trường hợp riêng của quá trình Markov khi mà ta có thể đánh số được cho
các trạng thái.
Hơn nữa:
Nếu tập các giá trị t là tập hợp đếm được (chẳng hạn: t 0,1, 2,... ) thì ta có xích
Markov với thời gian rời rạc hay xích Markov rời rạc. Khi đó tập các giá trị t
được đồng nhất với tập hợp {0,1, 2,3,...} , và xích Markov tương ứng sẽ được ký
hiệu ngắn gọn là X n n 0 , ở đây X n được hiểu là trạng thái của hệ tại thời điểm
thứ n .
Nếu t [0, ) thì ta có xích Markov với thời gian liên tục, hay xích Markov liên
tục.
Ví dụ 6.1. Nghiên cứu về vấn đề nghiện hút thuốc lá của người dân ở địa phương H
theo thời gian (đơn vị thời gian là một quý – 3 tháng). Ký hiệu trạng thái 0 là không
nghiện và trạng thái 1 là nghiện của một người. Tại thời điểm t 0 (thời điểm hiện tại
– quý 1), người ta thống kê được tỷ lệ người dân nghiện hút thuốc lá là 14,5%. Ký
hiệu X 0 là trạng thái về hút thuốc lá của người dân ở địa phương H tại thời điểm
t 0 , thì X 0 là một biến ngẫu nhiên rời rạc có thể nhận các giá trị 0 hoặc 1 với xác
suất tưởng ứng là 0,855 và 0,145.
Tại các thời điểm tiếp theo, chẳng hạn: t 1 (quý hai), t 2 (quý ba),… tình
trạng hút thuốc lá ở địa phương H được mô tả bởi các biến ngẫu nhiên X1 , X 2 ,... với
các bảng phân phối xác suất tương ứng.
Khi đó, ta có một xích Markov rời rạc thời gian X n n 0 với không gian trạng
thái là E {0,1} .
6.1.2. Xác suất chuyển trạng thái, xích Markov thuần nhất
Xét xích Markov X (t ), t T .
Ta nói: P X (t ) j | X ( s) i là xác suất chuyển trạng thái, xác suất có điều
kiện để hệ (hay quá trình) tại thời đểm s ở trạng thái i , đến thời điểm t s
chuyển sang trạng thái j .
Nếu có đẳng thức:
Xác suất thống kê và Ứng dụng – 2021 147
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
P X (t h) j | X ( s h) i P X (t ) j | X ( s) i
Thì ta nói xích Markov X (t ), t T thuần nhất theo thời gian.
Do giới hạn chương trình nên trong chương này chúng ta chỉ xét xích Markov
thuần nhất và rời rạc thời gian.
6.1.3. Phân phối của hệ và ma trận xác suất chuyển
Xét xích Markov X n n 0 rời rạc thuần nhất với không gian các trạng thái E là
pij (n) P X m n j | X m i P X n j | X 0 i
U (0) (u1 , u2 ,..., ud ) , vơi ui P ( X 0 i )
U (n) u1 (n), u2 ( n),..., ud ( n) , với ui (n) P( X n i)
Ta gọi:
P P (1) pij d d là ma trận xác suất chuyển sau một bước (hoặc nói gọn là ma
trận xác suất chuyển)
P (n) pij (n) là ma trận xác suất chuyển sau n bước.
d d
Thỏa mãn p
jE
ij 1 và p ( n) 1
jE
ij
Định lý 6.1
Phân phối đồng thời của vector ngẫu nhiên ( X 0 , X1 ,..., X n ) được hoàn toàn xác
định từ phân phối ban đầu và xác suất chuyển. Cụ thể ta có:
P( X 0 i0 , X 1 i1 ,..., X n in ) ui0 pi0i1 ... pin 1in
Chứng minh:
Theo công thức nhân xác suất, ta có:
P( X 0 i0 , X 1 i1 ,..., X n in )
P( X 0 i0 ) P( X 1 i1 | X 0 i0 ) ... P( X n in | X 0 i0 , X 1 i1 ,..., X n1 in1 )
P( X 0 i0 ) P( X 1 i1 | X 0 i0 ) ... P( X n in | X n1 in1 )
ui0 pi0i1 ... pin 1in .
Chứng minh:
Hệ { X n k : k E} là hệ đầy đủ và xung khắc từng đôi
{ X n m j} { X n m j}{ X n k}
kE
P X n k | X 0 i P X n m j | X n k , X 0 i
kE
Từ phương trình Chapman – Kolmogorov, xem U (n) là một ma trận hàng, viết
dưới dạng tích các ma trận ta có hệ quả sau:
Hệ quả 6.1
1) U (m 1) U (m) P
2) U (m n) U (m) P n
3) U (n) U (0) P n
4) P(n) P n
Ví dụ 6.2. (Xét lại ví dụ 6.1)
Nghiên cứu về vấn đề nghiện hút thuốc lá của người dân ở địa phương H theo
thời gian (đơn vị thời gian là một quý – 3 tháng). Ký hiệu trạng thái 0 là không nghiện
và trạng thái 1 là nghiện của một người. Tại thời điểm hiện tại – quý 1 năm 2018,
người ta thống kê được tỷ lệ người dân nghiện hút thuốc lá là 14,5%. Thống kê trong
nhiều năm qua cho thấy xác suất để một người không nghiện sau một quý vẫn không
nghiện là 0,985 và xác suất để một người nghiện sau một quý vẫn tiếp tục nghiện là
0,872.
Theo ví dụ 6.1, ta có xích Markov thuần nhất rời rạc thời gian X n n 0 với không
0,34 0,39 0, 27
P(2) P 0,33 0, 4 0, 27
2
0, 29 0, 43 0, 28
0,32 0, 407 0, 273
P(3) P P P 0,321 0, 406 0, 273
3 2
phần tử và P là ma trận xác suất chuyển. Phân phối U (u1 , u2 ,..., ud ) được gọi là
phân phối dừng của hệ nếu thỏa mãn phương trình U .P U .
b) Định lý 6.3
Giả sử U (u1 , u2 ,..., ud ) là phân phối của hệ ở thời điểm m và là phân phối
dừng, nghĩa là U (m) U và U .P U . Khi đó ta có: U (n) U , n m .
Chứng minh: Theo hệ quả 6.1, ta có:
U (m 1) U (m).P U .P U
Bằng quy nạp toán học, thu được: U (n) U , n m .
c) Tìm phân phối dừng
Để tìm phân phối dừng U (u1 , u2 ,..., ud ) , ta giải hệ phương trình sau:
U .P U
(thỏa điều kiện ui 0, i )
u1 u2 ... ud 1
Ví dụ 6.4. Cho xích Markov { X n }n0 rời rạc thuần nhất có không gian trạng thái
E {1, 2,3} với ma trận xác suất chuyển là:
1 / 3 1 / 3 1 / 3
P 1 / 4 1 / 2 1 / 4
1 / 6 1 / 3 1 / 2
Hãy tìm phân phối dừng của hệ.
Giải. Gọi U ( x, y, z ) là phân phối dừng của hệ
U .P U
Giải hệ phương trình:
x y z 1
x y z
3 4 6 x
8 x 3 y 2 z 0
y
x y z x 0, 24
2 x 3 y 2 z 0
3 2 3 y 0, 4
x y z 4 x 3 y 6 z 0 z 0,36
z x y z 1
3 4 2
x y z 1
Vậy phân phối dừng của hệ là: U (0, 24;0, 4;0,36)
6.2. Một số ứng dụng của xích Markov rời rạc thuần nhất
Xích Markov rời rạc thuần nhất có nhiều ứng dụng trong Kinh tế, Kỹ thuật, Sinh
học, Xã hội học, Công nghệ thông tin,… Trong mục này, chúng ta sẽ xem xét các ứng
dụng như kiểm kê hàng hóa dự trữ, tìm cân bằng thị phần, xác định chính sách thay
thế vật tư thiết bị.
6.2.1. Kiểm kê hàng hóa dự trữ
Một hệ dịch vụ cần phải dự trữ trong kho một loại hàng nào đó để đáp ứng nhu
cầu liên tục của khách hàng. Hàng được nhập kho tại cuối các chu kỳ n 0,1, 2,...
Tổng số lượng hàng cần phải đáp ứng nhu cầu trong chu kỳ n là biến ngẫu nhiên Yn có
phân phối độc lập với thời gian như sau:
P(Yn k ) ak , k 0,1, 2,... ; ak 1 (1)
k 0
Mức hàng dự trữ được kiểm kê tại cuối mỗi chu kỳ. Nguyên tắc nhập hàng căn
cứ vào hai mức chỉ số s và S ( s S ) như sau:
Nếu ở cuối mỗi chu kỳ mà lượng hàng dự trữ hiện có không vượt quá s thì phải
nhập thêm hàng để có lượng dự trữ mới là S, nếu ở cuối mỗi chu kỳ mà lượng hàng dự
trữ hiện có vượt quá s thì không cần nhập thêm hàng.
Gọi X n là lượng hàng hiện có vào cuối chu kỳ n khi kiểm kê (tức là trước khi
đưa ra quyết định có nhập thêm hàng hay không). Khi đó tập giá trị của X n (không
gian các trạng thái) là:
E {..., 2, 1,0,1, 2,..., S 1, S} (2)
trong đó giá trị âm là nhu cầu không được thỏa mãn mà sẽ được đáp ứng ngay sau khi
nhập hàng.
X n Yn1 , khi s X n S
Ta có: X n1 (3)
S Yn1 , khi X n s
Có thể xem các biến ngẫu nhiên Y1 , Y2 ,... là độc lập với nhau và có cùng phân
phối (1). Trong (3) ta thấy rằng X n 1 chỉ phụ thuộc vào X n mà không phụ thuộc vào
các chu kỳ trong quá khứ. Vì vậy dãy { X n }n0 lập thành một xích Markov rời rạc và
thuần nhất với không gian trạng thái E (xác định bởi (2)) và xác suất chuyển:
P Yn1 i j , khi s i S
pij P X n1 j | X n i (4)
P Yn1 S j , khi i s
Ví dụ 6.5. Cho mô hình kiểm kê hàng hóa dự trữ với các mức căn cứ nhập hàng:
s 0, S 2 , và Yn là lượng hàng khách yêu cầu trong chu kỳ n có phân phối xác suất
như sau:
Xác suất thống kê và Ứng dụng – 2021 153
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
Yn 0 1 2
P 0,6 0,3 0,1
Xét xích Markov { X n }n0 , trong đó X n là số hàng hóa còn lại tại cuối chu kỳ n .
Giả sử tại cuối chu kỳ đầu tiên, số hàng hóa còn lại là một trong các trạng thái của E
với xác suất như nhau.
a) Tìm không gian trạng thái E.
b) Tìm ma trận xác suất chuyển trạng thái của hệ.
c) Tìm các ma trận xác suất chuyển sau 2,3 và 4 bước.
d) Tìm phân phối ban đầu và phân phối tại các chu kỳ n 2, n 3 của hệ.
e) Tính các xác suất P( X 4 1| X 0 2); P( X 5 1| X 3 1) .
f) Tính xác suất P( X 0 1, X1 2, X 2 0, X 4 1) .
Giải. a) Gọi d n là lượng hàng dự trữ (sau khi kiểm kê và bổ sung) ở cuối chu kỳ n .
Ta có bảng sau:
dn Yn 1 X n 1 d n1
0 2 2
2 1 1 1
2 0 2
0 1 1
1 1 0 2
2 -1 2
Vậy không gian trạng thái của xích Markov { X n }n0 là: E 1,0,1, 2
b) Ma trận xác suất chuyển trạng thái của hệ: P pij 44 , với các pij được tính trong
bảng sau:
X1
-1 0 1 2
X 0 ; d0
-1 ; 2 0 0,1 0,3 0,6
0;2 0 0,1 0,3 0,6
1;1 0,1 0,3 0,6 0
2;2 0 0,1 0,3 0,6
0 0,1 0,3 0,6
0 0,1 0,3 0,6
Vậy: P
0,1 0,3 0,6 0
0 0,1 0,3 0,6
c) Ma trận xác suất chuyển sau 2, 3 và 4 bước lần lượt là:
154 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
có thể cạnh tranh nhau, tăng cường quảng cáo và nâng cao chất lượng phục vụ để thu
hút khách hàng. Ký hiệu X n là dịch vụ mà một khách hàng (xem như phần tử đại diện
cho N khách hàng) chọn ở chu kỳ thời gian thứ n.
Khi đó { X n }n0 là một xích Markov thuần nhất có không gian trạng thái
E {1, 2,..., d } và phân phối ban đầu của hệ chính là tỷ lệ khách hàng vào từng hệ dịch
vụ ở chu kỳ đầu tiên ( n 0 ).
Xác suất chuyển pij P X m 1 j | X m i chính là xác suất để khách hàng hiện
tại đang vào hệ dịch vụ i, sang chu kỳ tiếp theo vào hệ dịch vụ j, đó là tỷ lệ khách
hàng vào hệ dịch vụ j trong chu kỳ thời gian sau trong số các khách hàng ở hệ dịch vụ
i của chu kỳ ngay trước đó. Ma trận xác suất chuyển là một ma trận vuông cấp d:
P pij .
d d
Ví dụ 6.6. Giả sử có 3 cửa hàng (ký hiệu là 1, 2 và 3) cùng bán một loại sản phẩm nào
đó. Khách hàng có thể chọn mua sản phẩm tại một trong 3 cửa hàng tùy theo sở thích
của họ và trong từng tháng họ không thay đổi chỗ mua hàng. Gọi X n là cửa hàng mà
khách hàng chọn mua sản phẩm ở tháng thứ n .
Ta có xích Markov thuần nhất { X n }n0 có 3 trạng thái E {1, 2,3} . Cho ma trận
xác suất chuyển như sau:
0,8 0,1 0,1
P 0,07 0,9 0,03
0,08 0,07 0,85
Giả sử tháng giêng cửa hàng 1 chiếm 20% khách hàng, của hàng 2 chiếm 50%
khách hàng và cửa hàng 3 chiếm 30% khách hàng.
a) Tìm phân phối khách hàng ở tháng 2, 6 và tháng 12.
b) Tìm tỷ lệ khách hàng cân bằng dừng (phân phối dừng) của hệ
Giải. a) Phân phối ban đầu (tỷ lệ khách hàng trong tháng giêng - n 0 ) là:
U (0) 0, 2;0,5;0,3 .
Phân phối khách hàng ở tháng 2 ( n 1 ):
U (1) U (0) P 0, 219;0, 491;0, 29
Phân phối khách hàng ở tháng 6 ( n 5 ):
U (5) U (0) P 5 0, 25525;0, 47148;0, 27327
Phân phối khách hàng ở tháng 12 ( n 11 ):
U (11) U (0) P11 0, 26716;0, 46254;0, 27030
b) Gọi U ( x, y, z ) là phân phối dừng của hệ
Vậy tỷ lệ khách hàng cân bằng dừng của số khách hàng vào các cửa hàng 1,2 và
3 lần lượt là: 29,931% , 45,929% và 27,14%.
6.2.3. Xác định chính sách thay thế thiết bị
Trong một hệ thống kỹ thuật, có 1500 thiết bị cùng một loại được phân ra các
tình trạng: vừa mới thay, còn tốt, vẫn dùng được và đã bị hỏng. Xét hai phương án
thay thế thiết bị như sau:
Phương án 1: Chỉ thay mới khi thiết bị đã bị hỏng.
Phương án 2: Thay mới khi thiết bị ở trạng thái vẫn dùng được.
Theo số liệu thống kê, ta có ma trận xác suất chuyển trạng thái sau một tháng là:
Mới thay Dùng được
Còn tốt Bị hỏng
Giả sử rằng chi phí thay mới một thiết bị là 60 ngàn đồng và thất thu khi mỗi một
thiết bị hỏng là 45 ngàn đồng.
Hãy tính số tiền trung bình mà hệ thống phải chi cho một thiết bị trong một tháng
tương ứng với mỗi phương án thay thế thiết bị. Từ đó hãy chọn phương án thay thế
thiết bị có lợi hơn và số tiền tiết kiệm được từ việc lựa chọn này.
Giải. Lúc đầu khi hệ thống mới đi vào hoạt động, các thiết bị (có thể) được trang bị
mới. Sau một thời gian nhất định, tình trạng các thiết bị trong toàn hệ thống sẽ ổn
định, nghĩa là tình trạng thiết bị sẽ ở trạng thái dừng.
Xét phương án 1:
Gọi U ( x, y, z, t ) là phân phối dừng của hệ
U .P U
Giải hệ:
x y z t 1
t x x t
0,8 x 0,6 y y 2 x y 0
0, 2 x 0, 4 y 0,5 z z 2 x 4 y 5 z 0
0,5 z t z 2t 0
x y z t 1 x y z t 1
x t
y 2t x 1 / 6
1 1 1 1
y z 1/ 3 U ; ; ;
z 2t t 1 / 6 6 3 3 6
x y z t 1
Vậy mỗi tháng hệ thống phải chi trung bình cho một thiết bị số tiền là:
1 1
60 45 17,5 (ngàn đồng).
6 6
Xét phương án 2:
Ma trận xác suất chuyển trạng thái sẽ là:
Mới thay Dùng được
Còn tốt
1 1 1
U ; ;
4 2 4
Vậy mỗi tháng hệ thống phải chi trung bình cho một thiết bị số tiền là:
1
60 45 0 15 (ngàn đồng).
4
So sánh các kết quả trên, ta thấy rằng áp dụng phương án 2 sẽ có lời hơn. Khi đó
số tiền tiết kiệm được trong một tháng của toàn hệ thống là: 1500 (17,5 15) 3750
(ngàn đồng).
6.1. Cho xích Markov rời rạc thuần nhất { X n }n0 có không gian các trạng thái là
E {1, 2,3} với ma trận xác suất chuyển là:
0,1 0, 2 0,7
P 0,9 0,0 0,1
0,1 0,8 0,1
Biết phân phối ban đầu của X 0 là U (0) (0,3;0, 4;0,3) .
a) Tìm các ma trận xác suất chuyển sau 2 bước, 4 bước
b) Tìm phân phối của hệ tại các thời điểm n 2, n 4, n 10 .
c) Tính các xác suất P( X 3 1| X 0 1); P( X 6 2 | X 2 2) .
d) Tính xác suất P( X 0 1, X1 2, X 2 1, X 3 2) .
e) Tìm phân phối dừng của hệ.
6.2. Cho xích Markov rời rạc thuần nhất { X n }n0 có không gian các trạng thái là
E {1, 2,3} với ma trận xác suất chuyển là:
0,1 0,5 0, 4
P 0,6 0, 2 0, 2
0,3 0, 4 0,3
Biết phân phối ban đầu của X 0 là U (0) (0,1;0,6;0,3) .
a) Lập bảng phân phối xác suất của X 3 .
b) Tính xác suất P( X 0 1, X1 3, X 2 3, X 3 2) .
c) Tìm phân phối dừng.
6.3. Người ta truyền một bức điện gồm các tín hiệu 0, 1 thông qua kênh có nhiều trạm
và mỗi trạm nhận đúng tín hiệu với xác suất a. Ký hiệu X 0 là tín hiệu truyền đi và
X n là tín hiệu nhận được ở trạm n. Biết rằng { X n }n0 lập thành xích Markov rời
rạc thuần nhất với ma trận xác suất chuyển:
a 1 a
P
1 a a
Giả sử tín hiệu truyền đi là tín hiệu 0.
a) Tính xác suất để không nhận sai tín hiệu cho tới trạm n 2
b) Tính xác suất để nhận đúng tín hiệu của trạm n 2
c) Tính xác suất để nhận đúng tín hiệu của trạm n 5
6.4. Mỗi người dân của thị trấn H có 1 trong 3 nghề A, B, C. Con cái của họ nối tiếp
nghề của cha mình với xác suất tương ứng là 3 / 5, 2 / 3,1/ 4 . Nếu không theo nghề
của cha mình thì chúng chọn một trong hai nghề còn lại với xác suất như nhau.
Giả sử thế hệ hiện tại có 20% theo nghề A, 30% theo nghề B và 50% theo nghề C.
a) Tìm phân phối nghề nghiệp ở thế hệ tiếp theo.
b) Tìm phân phối giới hạn theo nghề nghiệp của cư dân thị trấn H trong tương lai
xa.
6.5. Tại một vùng dân cư, thời điểm hiện tại là tháng 9/2019 tỉ lệ người không có việc
làm, có việc làm tạm thời, có việc làm ổn định lần lượt là 10%, 25%, 65%. Xây
dụng mô hình xích Markov {X n }n0 với không gian trạng thái E {0,1,2} , trạng
thái 0 ứng với không việc làm, trạng thái 1 ứng với có việc làm tạm thời, trạng
tháng 2 ứng với có việc làm ổn định. Cho ma trận xác suất chuyển (các bước
chuyển với thời gian là một tháng, X n là trạng thái ở tháng thứ n sau thời điểm
hiện tại X 0 )
0 1 2
0 0,6 0,3 0,1
1 0,1 0,8 0,1 P
0 0,1 0,9
2
a) Hãy cho biết tình trạng việc ở tháng 1/2020.
b) Cho biết vùng dân cư này có 2 triệu dân trong độ tuổi lao động, hãy ước lượng
số người không có việc làm, có việc làm tạm thời, có việc làm ổn định trong
tháng 3/ 2020.
c) Tìm phân phối dừng của quá trình Markov trên. Nêu ý nghĩa của phân phối
dừng trong trường hợp này.
6.6. Trong phân tích thị trường, các xu hướng cơ bản bao gồm: xu hướng tăng (thị
trường bò), xu hướng giảm (thị trường gấu) và xu hướng đi ngang. Xét các xu
hướng này thay đổi một cách ngẫu nhiên theo tuần và có tính Markov. Qua phân
tích kỹ thuật từ dữ liệu lịch sử cho ta xác suất chuyển đổi giữa các xu hướng ở hai
tuần liên tiếp trong bảng sau:
Đến
Tăng Giảm Ngang
Từ
Tăng 0,9 0,065 0,035
Giảm 0,15 0,75 0,1
Ngang 0,25 0,25 0,5
Đặt { X n }n0 là quá trình Markov với không gian trạng thái E {0,1,2} , trong đó
trạng thái 0 ứng với tăng, 1 ứng với giảm, 2 ứng với ngang. Trong đó, X n là trạng thái
ở tuần thứ n sau tuần hiện tại X 0 . Cho biết tuần hiện tại có xu hướng tăng, tức
U (0) (1,0,0) .
a) Viết ma trận xác suất chuyển của quá trình Markov trên.
b) Đánh giá xu hướng thị trường (tỉ lệ của các xu hướng) ở tuần thứ 3, thứ 4 sau
đó.
c) Sử dụng phần mềm Mathematica để tìm phân phối của X100 , X110 , X 200 . Từ đó
đưa ra nhận xét về xu hướng của thị trường này sau một thời gian xa trong
tương lai.
6.7. Một hãng xe kinh doanh vận chuyển hành khách ở ba quận trong một thành phố
với nhiều xe. Thời điểm 6 giờ sáng trong ngày, tỉ lệ xe ở quận 1, quận 2, quận 3
lần lượt là 20%, 35%, 45%. Qua thống kê trong quá khứ, hãng xe có đánh giá xác
suất chuyển đổi xe trong các quận giữa hai giờ liên tiếp nhau được cho trong bảng
sau:
Đến
Quận 1 Quận 2 Quận 3
Từ
Quận 1 0,7 0,2 0,1
Quận 2 0,1 0,85 0,05
Quận 3 0,1 0,15 0,75
(Giả sử sự chuyển đổi xe giữa các quận theo giờ có tính Markov).
a) Viết ma trận xác suất chuyển cho quá trình Markov trên.
b) Tính tỉ lệ xe ở các quận lúc 9 giờ, 11 giờ trong ngày.
c) Tìm phân phối dừng của quá trình Markov, nêu ý nghĩa của phân phối dừng
trong trường hợp này.
6.8. Cho mô hình kiểm kê hàng hóa dự trữ với các mức căn cứ nhập hàng: s 1, S 3 ,
và Yn là lượng hàng khách yêu cầu trong chu kỳ n có phân phối xác suất:
Yn 0 1 2
. Xét xích Markov { X n }n0 , trong đó X n là số phụ tùng còn
P 0.2 0.45 0.35
lại tại cuối chu kỳ n . Giả sử tại cuối chu kỳ đầu tiên, số phụ tùng còn lại là một
trong các trạng thái của E với xác suất như nhau.
a) Tìm không gian trạng thái E.
b) Tìm ma trận xác suất chuyển trạng thái của hệ.
c) Tìm các ma trận xác suất chuyển sau 2,3 và 4 bước.
d) Tìm phân phối ban đầu và phân phối tại các chu kỳ n 2, n 3, n 4 của hệ.
e) Tính các xác suất P( X 4 3 | X 0 0); P( X 5 2 | X 2 2) .
f) Tính xác suất P( X 0 0, X1 3, X 2 2, X 4 1) .
6.9. Xét mô hình kiểm kê phụ tùng dự trữ có nhu cầu về số đơn vị phụ tùng thay thế là
Yn 0 1 2
bnn Yn có bảng phân phối xác suất , và hai mức chỉ số tiêu
P 0.4 0.3 0.3
chuẩn là s 0 và S 3 . Xét xích Markov rời rạc thuần nhất { X n }n0 , trong đó
X n là số phụ tùng còn lại tại cuối chu kỳ n . Giả sử tại cuối chu kỳ đầu tiên, số
phụ tùng còn lại là một trong các trạng thái của E với xác suất như nhau.
a) Tìm không gian trạng thái E.
b) Tìm ma trận xác suất chuyển trạng thái của hệ.
c) Tìm các ma trận xác suất chuyển sau 2 bước, 3 bước.
d) Tìm phân phối ban đầu và phân phối tại các chu kỳ n 2, n 3 của hệ.
e) Tính các xác suất P( X 2 2 | X 0 1); P( X 3 3 | X1 3) .
f) Tính xác suất P( X 0 1, X1 3, X 2 1, X 3 2) .
6.10. Xét mô hình tìm cân bằng thị phần với 3 hệ dịch vụ (DV) ở một khu vực có 1000
khách hàng cố định. Kết quả điều tra như sau:
Hệ Khách Tình hình khách ở tháng hai
dịch Tháng Thêm từ hệ DV Mất cho hệ DV Tổng
vụ Giêng 1 2 3 1 2 3 khách
1 250 0 35 25 0 45 55 210
2 350 45 0 15 35 0 25 350
3 400 55 25 0 25 15 0 440
a) Tìm ma trận xác suất chuyển.
b) Tìm phân phối khách hàng ở tháng 3, 7, 11.
c) Tính xác suất P( X1 1, X 2 2, X 3 3, X 4 1) .
d) Tìm tỷ lệ khách hàng cân bằng dừng (phân phối dừng) của hệ
6.11. Chỉ số tiêu thụ điện năng (theo từng tháng) là biến ngẫu nhiên có phân phối tại
thời điểm ban đầu như sau:
X0 50 [50,100) [100,150) 150
Tỷ lệ % 5% 40% 40% 15%
Biết ma trận xác suất chuyển là
0,85 0,10 0,05 0
0,05 0,85 0,08 0,02
P
0,02 0,03 0,90 0,05
0,05 0,05 0,10 0,80
a) Hãy giải thích ý nghĩa của ma trận P .
b) Tìm phân phối lượng điện năng tiêu thụ sau tháng thứ 2, thứ 4, thứ 6.
c) Tìm phân phối dừng của xích Markov thời gian rời rạc trên đây và cho biết ý
nghĩa của kết quả thu được.
162 Xác suất thống kê và Ứng dụng – 2021
Bộ môn Toán – Trường ĐH.GTVT TP. Hồ Chí Minh
0 t (n) x
0.005 0.01 0.015 0.02 0.025 0.03 0.04 0.05
n
1 63.657 31.821 21.205 15.895 12.706 10.579 7.916 6.314
2 9.925 6.965 5.643 4.849 4.303 3.896 3.320 2.920
3 5.841 4.541 3.896 3.482 3.182 2.951 2.605 2.353
4 4.604 3.747 3.298 2.999 2.776 2.601 2.333 2.132
5 4.032 3.365 3.003 2.757 2.571 2.422 2.191 2.015
6 3.707 3.143 2.829 2.612 2.447 2.313 2.104 1.943
7 3.499 2.998 2.715 2.517 2.365 2.241 2.046 1.895
8 3.355 2.896 2.634 2.449 2.306 2.189 2.004 1.860
9 3.250 2.821 2.574 2.398 2.262 2.150 1.973 1.833
10 3.169 2.764 2.527 2.359 2.228 2.120 1.948 1.812
11 3.106 2.718 2.491 2.328 2.201 2.096 1.928 1.796
12 3.055 2.681 2.461 2.303 2.179 2.076 1.912 1.782
13 3.012 2.650 2.436 2.282 2.160 2.060 1.899 1.771
14 2.977 2.624 2.415 2.264 2.145 2.046 1.887 1.761
15 2.954 2.602 2.397 2.249 2.131 2.034 1.878 1.753
16 2.921 2.583 2.382 2.235 2.120 2.024 1.869 1.746
17 2.898 2.567 2.368 2.224 2.110 2.015 1.862 1.740
18 2.878 2.552 2.356 2.214 2.101 2.007 1.855 1.734
19 2.861 2.539 2.346 2.205 2.093 2.000 1.850 1.729
20 2.845 2.528 2.336 2.197 2.086 1.994 1.844 1.725
21 2.831 2.518 2.328 2.189 2.080 1.988 1.840 1.721
22 2.819 2.508 2.320 2.183 2.074 1.983 1.835 1.717
23 2.807 2.500 2.313 2.177 2.069 1.978 1.832 1.714
24 2.797 2.492 2.307 2.172 2.064 1.974 1.828 1.711
25 2.787 2.485 2.301 2.167 2.060 1.970 1.825 1.708
0.005 0.01 0.015 0.02 0.025 0.03 0.04 0.05
n
26 2.779 2.479 2.296 2.162 2.056 1.967 1.822 1.706
27 2.771 2.473 2.291 2.158 2.052 1.963 1.819 1.703
28 2.763 2.467 2.286 2.154 2.048 1.960 1.817 1.701
29 2.756 2.462 2.282 2.150 2.045 1.957 1.814 1.699
30 2.750 2.457 2.278 2.147 2.042 1.955 1.812 1.697
35 2.724 2.438 2.262 2.133 2.030 1.944 1.803 1.690
40 2.704 2.423 2.250 2.123 2.021 1.936 1.796 1.684
45 2.690 2.412 2.241 2.115 2.014 1.929 1.791 1.679
50 2.678 2.403 2.234 2.109 2.009 1.924 1.787 1.676
55 2.668 2.396 2.228 2.104 2.004 1.920 1.784 1.673
60 2.660 2.390 2.223 2.099 2.000 1.917 1.781 1.671
65 2.654 2.385 2.219 2.096 1.997 1.914 1.778 1.669
70 2.648 2.381 2.215 2.093 1.994 1.912 1.776 1.667
75 2.643 2.377 2.212 2.090 1.992 1.910 1.775 1.665
80 2.639 2.374 2.209 2.088 1.990 1.908 1.773 1.664
85 2.635 2.371 2.207 2.086 1.988 1.906 1.772 1.663
90 2.632 2.368 2.205 2.084 1.987 1.905 1.771 1.662
95 2.629 2.366 2.203 2.082 1.985 1.904 1.770 1.661
100 2.626 2.364 2.201 2.081 1.984 1.902 1.769 1.660
105 2.623 2.362 2.200 2.080 1.983 1.901 1.768 1.659
110 2.621 2.361 2.199 2.078 1.982 1.900 1.767 1.659
115 2.619 2.359 2.197 2.077 1.981 1.900 1.766 1.658
120 2.617 2.358 2.196 2.076 1.980 1.899 1.766 1.658
200 2.601 2.345 2.186 2.067 1.972 1.892 1.760 1.653
500 2.586 2.334 2.176 2.059 1.965 1.885 1.754 1.648
1000 2.581 2.330 2.173 2.056 1.962 1.883 1.752 1.646
2.576 2.326 2.170 2.054 1.960 1.881 1.751 1.645
0
2 (n) x
0.995 0.990 0.975 0.950 0.900
n
1 0.000039 0.000157 0.000982 0.003932 0.015791
2 0.010025 0.020101 0.050636 0.102587 0.210721
3 0.071722 0.114832 0.215795 0.351846 0.584374
4 0.206989 0.297109 0.484419 0.710723 1.063623
5 0.411742 0.554298 0.831212 1.145476 1.610308
6 0.675727 0.872090 1.237344 1.635383 2.204131
7 0.989256 1.239042 1.689869 2.167350 2.833107
8 1.344413 1.646497 2.179731 2.732637 3.489539
9 1.734933 2.087901 2.700390 3.325113 4.168159
10 2.155856 2.558212 3.246973 3.940299 4.865182
11 2.603222 3.053484 3.815748 4.574813 5.577785
12 3.073824 3.570569 4.403789 5.226029 6.303796
13 3.565035 4.106915 5.008751 5.891864 7.041505
14 4.074675 4.660425 5.628726 6.570631 7.789534
15 4.600916 5.229349 6.262138 7.260944 8.546756
16 5.142205 5.812213 6.907664 7.961646 9.312236
17 5.697217 6.407760 7.564186 8.671760 10.085186
18 6.264805 7.014911 8.230746 9.390455 10.864936
19 6.843971 7.632730 8.906517 10.117013 11.650910
20 7.433844 8.260398 9.590778 10.850812 12.442609
21 8.033653 8.897198 10.282898 11.591305 13.239598
22 8.642716 9.542492 10.982321 12.338015 14.041493
23 9.260425 10.195716 11.688552 13.090514 14.847956
24 9.886234 10.856362 12.401150 13.848425 15.658684
25 10.519652 11.523975 13.119720 14.611408 16.473408
26 11.160237 12.198147 13.843905 15.379157 17.291885
27 11.807587 12.878504 14.573383 16.151396 18.113896
28 12.461336 13.564710 15.307861 16.927875 18.939243
29 13.121149 14.256455 16.047072 17.708366 19.767744
30 13.786720 14.953457 16.790772 18.492661 20.599235
PHỤ LỤC 2b Phân phối Khi bình phương 2 (n) (tiếp theo)
0.100 0.050 0.025 0.010 0.005
n
1 2.7055 3.8415 5.0239 6.6349 7.8794
2 4.6052 5.9915 7.3778 9.2104 10.5965
3 6.2514 7.8147 9.3484 11.3449 12.8381
4 7.7794 9.4877 11.1433 13.2767 14.8602
5 9.2363 11.0705 12.8325 15.0863 16.7496
6 10.6446 12.5916 14.4494 16.8119 18.5475
7 12.0170 14.0671 16.0128 18.4753 20.2777
8 13.3616 15.5073 17.5345 20.0902 21.9549
9 14.6837 16.9190 19.0228 21.6660 23.5893
10 15.9872 18.3070 20.4832 23.2093 25.1881
11 17.2750 19.6752 21.9200 24.7250 26.7569
12 18.5493 21.0261 23.3367 26.2170 28.2997
13 19.8119 22.3620 24.7356 27.6882 29.8193
14 21.0641 23.6848 26.1189 29.1412 31.3194
15 22.3071 24.9958 27.4884 30.5780 32.8016
16 23.5418 26.2962 28.8453 31.9999 34.2671
17 24.7690 27.5871 30.1910 33.4087 35.7184
18 25.9894 28.8693 31.5264 34.8052 37.1564
19 27.2036 30.1435 32.8523 36.1908 38.5821
20 28.4120 31.4104 34.1696 37.5663 39.9969
21 29.6151 32.6706 35.4789 38.9322 41.4009
22 30.8133 33.9245 36.7807 40.2894 42.7957
23 32.0069 35.1725 38.0756 41.6383 44.1814
24 33.1962 36.4150 39.3641 42.9798 45.5584
25 34.3816 37.6525 40.6465 44.3140 46.9280
26 35.5632 38.8851 41.9231 45.6416 48.2898
27 36.7412 40.1133 43.1945 46.9628 49.6450
28 37.9159 41.3372 44.4608 48.2782 50.9936
29 39.0875 42.5569 45.7223 49.5878 52.3355
30 40.2560 43.7730 46.9792 50.8922 53.6719
[1] Nguyễn Cao Văn, Trần Thái Ninh, Lý thuyết xác suất và Thống kê toán, NXB
Khoa học Kỹ thuật, 1996.
[2] Trần Văn Ngũ, Lý thuyết thực nghiệm, Đại học Bách Khoa TPHCM, 1997.
[3] Đặng Hùng Thắng, Thống kê và ứng dụng, NXB Giáo dục, 1999.
[4] Conover, W.J. Practical nonparametric statistics. 3rd Edn. John Wiley &
Sons, New York, 1999.
[5] Nguyễn Duy Tiến, Các mô hình xác suất và ứng dụng. Phần I: Xích Markov
và ứng dụng, Nhà xuất bản Đại học Quốc gia Hà Nội 2000.
[6] Nguyễn Minh Tuyển, Quy hoạch thực nghiệm, NXB Khoa học và Kỹ thuật,
2005.
[7] Đào Hữu Hồ, Xác suất thống kê, NXB Đại học Quốc gia Hà nội, 2006.
[8] Đăng Hùng Thắng, Quá trình ngẫu nhiên và tính toán ngẫu nhiên, NXB Đại
học Quốc gia Hà nội, 2006.
[9] Lê Sĩ Đồng, Xác suất thống kê và ứng dụng, NXB Giáo dục Việt Nam, 2011.
[10] Ron Larson, Betsy Farber, Elementary Statistics, 5th ed,Prentice Hall, 2012.
BÀI GIẢNG
TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI THÀNH PHỐ HỒ CHÍ MINH
Số 2 - Võ Oanh, Phường 25, Quận Bình Thạnh, TP. Hồ Chí Minh
ĐT: (028) 38992862 – 38991373 * Fax: (028) 38980456 - 35120567
Website: http://www.ut.edu.vn * Email: ut-hcmc@ut.edu.vn
Phát hành năm 2021