Professional Documents
Culture Documents
NLTK LT
NLTK LT
- Một nhánh của toán học liên quan đến việc thu thập, trình bày và phân tích các dữ
liệu.
- Gồm một hệ thống các phương pháp từ việc thu thập, trình bày, tóm tắt dữ liệu đến
các phương pháp phân tích và dự đoán
- Tổng thể (population) là tập hợp tất các các đối tượng mà ta nghiên cứu.
- Các đơn vị (hay phần tử - elements) tạo thành tổng thể được gọi là đơn vị tổng thể.
- Mẫu (sample) là một bộ phận lấy ra từ tổng thể
- Tổng thể gồm nhiều phần tử, khó nghiên cứu nên nghiên cứu mẫu rồi suy ra tổng thế
Ví dụ:
a) Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường Đại học Hoa Sen,
người ta đã xét bảng điểm của 250 sinh viên. (tổng thể: những sinh viên Hoa Sen có
học môn toán, mẫu: 250 bảng điểm)
b) Nghiên cứu tỉ lệ bị bệnh lao ở tỉnh Lào Cai, người ta đã khám cho 1520 người thì
thấy có 7 người bị lao. (tổng thể: tất cả người dân của tỉnh Lào Cai, mẫu: 1520 người)
b. Biến
- Biến định tính thể hiện tính chất của đơn vị được khảo sát
- Biến định lượng thể hiện bằng các số
Ví dụ:
a) Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường Đại học Hoa
Sen, người ta đã xét bảng điểm của 250 sinh viên. (ĐL: bảng điểm môn Toán)
b) Nghiên cứu tỉ lệ bị bệnh lao ở tỉnh Lào Cai, người ta đã khám cho 1520 người thì
thấy có 7 người bị lao. (ĐT: Có hay không bị lao)
c) Thống kê ngành học của sv một trường đại học (ĐT)
d) Thống kê điểm thi môn toán của sv khoa X (ĐL)
I. Nguồn dữ liệu
- Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công
bố hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới.
- Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí, gọi là dữ liệu thứ cấp. (Các
báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản xuất, tiêu
thụ, tài chính,…Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân
số, việc làm, mức sống dân cư, tài nguyên, … Báo, tạp chí, mạng internet,…), phải
trích nguồn
- Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu gọi là dữ liệu sơ cấp. (Thu thập
qua các cuộc điều tra khảo sát.)
- Quan sát
- Phỏng vấn trực tiếp
II.2. Gián tiếp (câu hỏi khảo sát phải rõ ràng, chính xác, cảm tính)
- Người khảo sát giới thiệu mục đích nghiên cứu và cam đoan thông tin của ng được
khảo sát sẽ được bảo mật và chỉ phục vụ mục đích nghiên cứu
- Câu hỏi liên quan đến thông tin ng được khảo sát
- Câu hỏi liên quan đến đề tài nghiên cứu, bao gồm ĐT và ĐL
- Câu hỏi mở rộng
- Lời cảm ơn
- Là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia chúng thành từng
nhóm (lớp) khác nhau.
- Gồm 3 cột:
Mô tả các biểu hiện hoặc Mô tả tần số tương ứng với
các giá trị (hay khoảng giá các biểu hiện hoặc giá trị Các tần suất (tỉ lệ %).
trị) của dữ liệu đó.
Ví dụ: Lớp NLKT có 80 sv, trong đó có: 12 sv ngành NHKS, 24 sv ngành QTKD, 9
sv ngành KDQT, còn lại là sv ngành DL
Số sinh
Ngành Tần suất (%)
viên
NHKS 12 15
QTKD 24 30
KDQT 9 11,25
DL 35 43,75
Tổng 80 100
BIỂU ĐỒ SỐ SV LỚP NLKT
050%
045%
040%
035%
030%
Axis Title
025%
020%
015%
010%
005%
000%
NHKS QTKD KDQT DL
Axis Title
Axis Title
20%
15%
10%
05%
00%
[150-155) [155-160) [160-165) [165-170) [170-175)
Axis Title
4. Cách lập bảng tần số kết hợp hai đặc điểm thống kê
- Biểu đồ phân phối tần số (Histogram): sử dụng để chuyển hoá thông tin trên bảng
tần số thành hình ảnh trực quan, là một loại đồ thị biểu diễn sự phân phối tần số bằng
các cột sao cho diện tích của cột tỉ lệ với tần số.
- Đa giác tần số:
+Vẽ bằng cách nối các trung điểm của cạnh đỉnh của các cột trong Histogram lại
với nhau bằng các đoạn thẳng
+ Không muốn đường biểu diễn lơ lửng, thêm vào hai bên hai nhóm có tần số 0
- Biểu đồ nhánh và lá:
+ Là một công cụ để tóm lược và trình bày tập dữ liệu, giúp thấy được dữ liệu
gốc và cách thức phân tán nó.
+ Để trình bày dữ liệu theo phương pháp nhánh và lá, mỗi trị số được tách thành
hai phần:
○ Phần nhánh: bao gồm một hay nhiều chữ số đầu tiên, được đặt ở cột đầu
tiên theo thứ tự tăng dần. Số nhánh < số lá. (5-20)
○ Phần lá: gồm các chữ số còn lại, sắp xếp theo thứ tự tăng dần, có thể chia
đôi một nhánh thành nhánh trên và nhánh dưới khi có quá nhiều lá.
+ Vd:
Chieu dai Stem-and-Leaf Plot
Frequency Stem&Leaf
12 30 . 000112334444
10 30 . 5557889999
13 31 . 0000012222234
1 31 . 8
4 32 . 0000
Stem width: 0.5 cm
Each leaf: 1 case(s)
=> Có 22 sp từ 30 đến dưới 31, 14 sp từ 31 đến dưới 32, 4sp từ 2 trở lên
+ Số lượng quan sát lên đến hàng trăm -> Histogram phù hợp hơn
* Lưu ý đối với dữ liệu định lượng:
- Số nhóm cần chia phải là số nguyên, nếu số lẻ thì làm tròn
- Khoảng cách của từng nhóm là số nguyên hay thập phân tùy vào dữ liệu của mẫu.
Luôn làm tròn lên để đảm bảo bao quát hết dữ liệu
- Vẽ histogram phải vẽ các cột liền nhau
- Được xác định bằng cách cộng tất cả các giá trị của từng phần tử (các quan sát), sau
đó đem chia cho tổng số phần tử (tổng số quan sát).
- Có hai loại trung bình cộng là trung bình cộng đơn giản và trung bình cộng có trọng
số:
a. Đơn giản
- Trung bình tổng thể: Giả sử tổng thể có N phần tử (quan sát), Xi là giá trị của phần
b. Trọng số
- Là trường hợp đặc biệt của đơn giản khi giá trị Xi xuất hiện nhiều lần
c. Đặc điểm
a. Khái niệm: Là giá trị xuất hiện nhiều nhất trong dãy số (M0)
Ví dụ: Tài liệu tổng hợp về doanh số bán hàng trong một tháng của 50 trạm xăng dầu
thuộc tỉnh X như sau:
Doanh số bán (Triệu đồng) Số trạm
200 -300 8
300-400 10
400-500 20
500-600 7
600-700 5
Tổng 50
- Phân nhóm có khoảng cách không đều: Vẫn được tính theo công thức nhưng việc
xác định nhóm có mốt căn cứ vào mật độ phân phối.
Ví dụ: Có tài liệu tổng hợp về doanh thu của 79 cửa hàng như sau:
Doanh số bán (Triệu đồng) Số trạm
200 -400 8
400-500 12
500-600 25
600-800 25
800-1000 9
Tổng 79
- Ta lập bảng tính thêm khoảng cách và mật độ phân phối của các nhóm
Doanh số bán (Triệu Số trạm Khoảng cách nhóm Mật độ phân phối
đồng) (fi) (hi) (di = fi/hi)
200 -400 8 200 0,04
400-500 12 100 0,12
500-600 25 100 0,25
600-800 25 200 0,125
800-1000 9 200 0,045
Tổng 79
- Thay tần số bở mật độ phân phối, ta được:
5. Trung vị
- Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị (Me) là giá
trị đứng giữa của tập dữ liệu.
b. Đặc điểm
- Trung vị là đặc trưng đo lường khuynh hướng tập trung ít bị ảnh hưởng bởi các giá
trị đột biến.
- Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng.
n+ 1
- Tứ phân vị thứ nhất chứa trong nhóm có tần số tích lũy ≥ = 20
4
3 (n+1)
- Tứ phân vị thứ ba chứa trong nhóm có tần số tích lũy ≥ = 60
4
- Được sử dụng trong thực tế khi người ta muốn biết mức đạt cao nhất của 1/4 hay
1/10 số đơn bị xếp từ thấp lên hoặc ngược lại
- Chênh lệch giữa giá trị lớn nhất và giá trịn nhỏ nhất
- Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều, số trung bình càng có tính
đại diện cao và ngược lại.
- Nhược điểm của khoảng biến thiên là chỉ phụ thuộc vào giá trị lớn nhất và giá trị
nhỏ nhất của dãy lượng biến.
- Thể hiện độ phân tán của 50% dữ liệu giữa của dãy số
- Số trung bình cộng của các độ lệch tuyệt đối giữa các lượng biến và số trung bình
cộng của các lượng biến đó.
- Độ lệch tuyệt đối trung bình càng nhỏ, tổng thể càng đồng đều, tính chất đại diện
của số trung bình càng cao.
- Độ lệch tuyệt đối trung bình có ưu điểm hơn khoảng biến thiên vì nó xét đến tất cả
các lượng biến trong dãy số.
Ví dụ:
Tổ I: 200, 250, 300, 350, 400
Tổ II: 280, 290, 300, 310, 320
Ta tính được độ lệch tuyệt đối trung bình cho từng tổ như sau:
4. Phương sai
- Số trung bình cộng của bình phương các độ lệch giữa các lượng biến và số trung
bình cộng của các lượng biến đó
- Cách xác định:
+Từ tổng thể chung:
+Mẫu:
- Bất kì một tổng thể nào với trung bình là μ và độ lệch tiêu chuẩn là σ đều có ít nhất
- Người ta nhận thấy rằng nếu dữ liệu có phân phối đối xứng (hình chuông cân đối)
thì có một quy tắc thực nghiệm như sau:
Theo VD 8 ta có: trung bình μ = 33,5 (triệu đồng), độ lệch tiêu chuẩn σ = 1,554 (triệu
đồng).
Ví dụ: Quy tắc thực nghiệm ước đoán có xấp xỉ 68% (tức khoảng 0,687 5 người)
mức lương rơi vào khoảng μ± σ, tức là từ 31,946 đến 35,054 (triệu đồng), có khoảng
95% (tức khoảng 7 người) mức lương rơi vào khoảng μ± 2σ, tức là từ 30,392 đến
36,608 (triệu đồng).
- Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá trị bất thường trong một
tập dữ liệu.
- Lưu ý: Đối với những tập dữ liệu à phân phối không phải là hình chuông cân đối thì
không nên sử dụng quy tắc thực nghiệm mà nên dùng quy tắc Tchebychev.
6. Hệ số biến thiên
- Hai tập dữ liệu có cùng giá trị trung bình, tập dữ liệu nào có độ lệch tiêu chuẩn lớn
hơn thì biến thiên nhiều hơn
- Nếu hai tập dữ kiệu có giá trị trung bình khác nhau thì không thể làm cách trên. Lúc
này ta dùng hệ số biến thiên
- Công thức tính hệ số biến thiên cho tập dữ liệu tổng thể:
- Khi hệ số biến thiên của hai tập dữ liệu được so sánh với nhau, hệ số biến thiên của
tập nào lớn hơn thì tập đó biến động nhiều hơn.
- Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ liệu có đơn vị đo
khác nhau
- Khi làm việc với dữ liệu định lượng, đôi khi ta cần biến đổi chúng thành dữ liệu ở
một thang đo chuẩn.
- Giá trị dữ liệu đã chuẩn hoá cho biết một giá trị quan sát trong tập dữ liệu gốc sẽ sai
lệch khỏi trung bình của nó gấp mấy lần độ lệch tiêu chuẩn.
- Dữ liệu tổng thế:
- Dữ liệu mẫu:
II. Ước lượng giá trị trung bình của tổng thể
- Gọi μ là GTTB của tổng thể, cần ước lượng độ tin cậy 1-α cho trước.
- Phương pháp
+ Xét mẫu định lượng lấy ra từ tổng thể. Tính kích thước mẫu n, trung bình mẫu
X, độ lệch mẫu hiệu chỉnh S
+Tra một trong hai bảng sau đâu:
Bảng Laplace
α
Bảng Student tìm T (ở dòng n-1, cột α /2) nếu n<30 và không biết
2
phương sai tổng thể:
Tính sai số bởi một trong ba công thức sau:
δ S S
ε =Z α . hoặc ε =Z α . hoặc ε =T n− 1. α .
2 √n 2 √n 2 √n
δ 32
- Tính sai số: ε =Z α . = 1,96. =16,1942
2 √n √15
- Kết luận: μ= X ± ε = 267± 16,1942 hay khoảng ước lượng μlà (250,8058; 283,1942)
Ví dụ 2:
Gọi μlà chiều cao trung bình của học sinh lớp một. Ta cần ước lượng μ với độ tin cậy
97%
- Tính mẫu: Theo đề bài ta có n=28, X=115,8, σ 2=25 suy ra σ =5
1− α
- Tra bảng: Vì đã biết phương sai của tổng thể nên tra bảng Laplaceφ (Z α /2 )= =
2
δ 5
- Tính sai số: ε =Z α . = 2,17. =¿2,0504
2 √n √28
- Kết luận: μ= X ± ε = 115 , 8 ± 2,0504 hay khoảng ước lượng μlà (113,7496;
117,8504)
Ví dụ 3: Khảo sát 100 sinh viên chọn ngẫu nhiên trong trường, điểm trung bình môn
toán là 7,12 và phương sai mẫu hiệu chỉnh là 0,0676
a) Ước lượng điểm trung bình môn toán của sinh viên với độ tin cậy 97%
b) Muốn sai số ở câu a giảm đi một nửa và độ tin cậy 98% thì cần khảo sát thêm bao
nhiêu sinh viên
A) Gọi μlà điểm trung bình môn toán của sinh viên. Ta cần ước lượng μ với độ tin
cậy 97%
- Tính mẫu: Theo đề bài ta có n=100, X=7,12 , σ 2=¿0,0676 suy ra σ =¿0,26
1− α
- Tra bảng: Vì đã biết phương sai của tổng thể nên tra bảng Laplaceφ (Z α /2 )= =
2
δ 0 ,26
- Tính sai số: ε =Z α . = 2,17. =¿0,0564
2 √n √ 28
- Kết luận: μ= X ± ε = 7 , 12± 0,0564hay khoảng ước lượng μlà (7,0636; 7,1764)
B) Gọi n’ là số sinh viên cần khảo sát. Ta cần tìm n sao cho độ tin cậy 1-α =0 , 98 và
0,0564
ε '= =0,0282
2
- Tra bảng hàm số Laplace:
1− α 0 , 98
φ (Z α /2 )= = = 0,49 => Z α / 2=2,33
2 2
- Tính sai số:
S 0 ,26 2 ,33. 0 , 26
2
ε '=Z α . = 2,33. = 0,282 => n’ = ( ) = 461
2 √n ' √ n' 0,0282
- Kết luận: Số sinh viên cần khảo sát thêm là: n’-n=461-100=361
Ví dụ 6: Khảo sát lượng sữa (kg/ngày) của một số trong trại chăn nuôi, người ta có số
liệu sau:
7-
Sản lượng sữa 9-11 11-13 13-15 15-17
9
Số con 12 18 40 20 10
A) Hãy ước lượng sản lượng sữa trung bình của đàn bò với độ tin cậy 90,106%
B) Muốn sai số giảm đi một nửa và độ tin cậy 95% thì cần khảo sát thêm bao nhiêu
con bò?
A) X= 11,96
σ =¿2,2556
Gọi μlà sản lượng sữa trung bình của đàn bò. Ta cần ước lượng μ với độ tin cậy
90,106%
- Tính mẫu: Theo đề bài ta có n=100, X=11,96 , S=¿2,256
1− α
- Tra bảng: Vì đã biết phương sai của tổng thể nên tra bảng Laplaceφ (Z α /2 )= =
2
S 2,256
- Tính sai số: ε =Z α . = 1,65. =¿0,3722
2 √n √ 100
- Kết luận: μ= X ± ε = 11, 96 ± 0,3722 hay khoảng ước lượng μlà (11,5878; 12,3322)
B) Gọi n’ là số sinh viên cần khảo sát. Ta cần tìm n sao cho độ tin cậy 1-α =0 , 95 và
0,3722
ε '= =0 ,1861
2
- Tra bảng hàm số Laplace:
1− α 0 , 95
φ (Z α /2 )= = = 0,475 => Z α / 2=1,96
2 2
- Tính sai số:
S 2,256 1 ,96.2,256
2
ε '=Z α . = 1.96. = 0,1861=> n’ = ( ) = 564
2 √n ' √ n' 0,1861
- Kết luận: Số sinh viên cần khảo sát thêm là: n’-n=564-100=464
- Từ công thức tính độ chính xác của bài toán ước lượng tỷ lệ, ta có:
- Nếu kết quả không phải số nguyên, lấy phần nguyên cộng 1
- Từ công thức tính độ chính xác của bài toán ước lượng giá trị trung bình, ta có:
*Đo ngẫu nhiên 10 sản phẩm có chiều dài trung bình 10,02 (m), độ lệch mẫu hiệu
chỉnh 0,04 (m), ước lượng chiều dài trung bình của sản phẩm với độ tin cậy 95%
X= 10,02
N=10. S=0,04
Gọi μlà chiều dài trung bình của sản phẩm. Ta cần ước lượng μ với độ tin cậy 1-α =
0,95 (suy ra α = 0,05)
- Tính mẫu: Theo đề bài ta có n=10, X=10,02, S=¿0,04
- Tra bảng: Vì n<30 và không biết phương sai tổng thể nên ta tra bảng phân phối
α
Student dòng n-1=9, cột =¿ 0,025, ta được T n −1. α = 2,262
2 2
S 0 , 04
- Tính sai số: ε =T n− 1. α . = 2,262. =¿ 0,0286 (m)
2 √n √ 10
- Kết luận: μ= X ± ε = 10 , 02± 0,0286 hay khoảng ước lượng μlà (9,9914; 10,0486)
*Khảo sát 25 sinh viên đại học X, thời gian tự học trung bình là 68 phút một ngày và
độ lệch mẫu hiệu chỉnh 12p/ngày. Ước lượng thời gian tự học trung bình của sinh
viên toàn trường với độ tin cậy 99%, cho biết thời gian tự học trung bình của sinh
viên
Gọi μlà thời gian tự học trung bình của sinh viên. Ta cần ước lượng μ với độ tin cậy
1-α = 0,99 (suy ra α = 0,01)
- Tính mẫu: Theo đề bài ta có n=25, X=68, S=¿12
- Tra bảng: Vì n<30 và không biết phương sai tổng thể nên ta tra bảng phân phối
α
Student dòng n-1=24, cột =¿ 0,005, ta được T n −1. α = 2,797
2 2
S 12
- Tính sai số: ε =T n− 1. α . = 2,797. =¿6,7128 (p)
2 √n √25
- Kết luận: μ= X ± ε = 68 ± 0,0286 hay khoảng ước lượng μlà (61,2872;74,7128)
4.7
Gọi μlà khối lượng trung bình của trái cây ở nông trang. Ta cần ước lượng μ với độ
tin cậy 90,106% suy ra 1-α =0,9106
- Tính mẫu: Theo đề bài ta có n=124, X=98,1579 , S=¿28,4708
- Tra bảng: Vì n>30 và chưa biết phương sai của tổng thể nên tra bảng Laplace
1− α
φ (Z α /2 )= = 0,45053 suy ra Z α =¿1,65
2 2
S 28,4708
- Tính sai số: ε =Z α . = 1,65. =¿4,3998
2 √n √ 114
- Kết luận: μ= X ± ε = 98,1579 ± 4,3998 hay khoảng ước lượng μlà
(93,7581;102,5577)
4.2
Gọi μlà thời gian trunhg bình của một cuộc điện đàm đường dài vào những ngày cuối
tuần. Ta cần ước lượng μ với độ tin cậy 99% suy ra 1-α =0,99 (suy ra α = 0,01)
- Tính mẫu: Theo đề bài ta có n=25, X=15,8 , S=¿5,1
- Tra bảng: Vì n<30 và không biết phương sai tổng thể nên ta tra bảng phân phối
α
Student dòng n-1=24, cột =¿ 0,005, ta được T n −1. α = 2,797
2 2
S 5 ,1
- Tính sai số: ε =T n− 1. α . = 2,797. =¿2,8529
2 √n √25
- Kết luận: μ= X ± ε = 98,1579 ± 2,8529
4.6
A) * Gọi μlà chiều ca0 trunhg bình của cây con loại 1. Ta cần ước lượng μ với độ tin
cậy 99% suy ra 1-α =0,9 (suy ra α = 0,1)
- Tính mẫu: Cây con loại 1 có chiều cao từ 18 cm trở lên, suy ra : n=25, X=15,8 , S=¿
5,1
- Tra bảng: Vì n<30 và không biết phương sai tổng thể nên ta tra bảng phân phối
α
Student dòng n-1=20, cột =¿ 0,05, ta được T n −1. α = 1,725
2 2
S 0,3732
- Tính sai số: ε =T n− 1. α . = 1,725. =¿0,1405
2 √n √ 21
- Kết luận: μ= X ± ε = 21 ± 0,1405
* Gọi μlà tỷ lệ cây con loại 1 trong vườn ươm. Ta cần ước lượng μ với độ tin cậy 1-α
=0,9 (suy ra α = 0,1)
- Tính mẫu: Theo đề bài ta có n=40, F= 21/40 = 0,525
1− α
- Tra bảng Laplace(Tính tỷ lệ bắt buộc ℒ ):φ (Z α /2 )= = 0,45 suy ra Z α =¿1,65
2 2
0,1302
ε '= =0,0651
2
2
2 √ f (1− f )
n
=¿1,96.
√
0525(1− 0,525)
n'
suy ra n’=
I. Khái niệm
- Các đặc trưng của mẫu ngoài việc sử dụng để ước lượng các đặc trưng của tổng thể
còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai.
Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả
thuyết.
II. Giả thuyết H0 và giả thuyết H1
- Giả sử tổng thể có đặc trưng θ chưa biết. Với giá trị cụ thể θ0 cho trước nào đó, ta
cần kiểm định giả thuyết H0: θ = θ0 (kiểm định hai bên) hoặc θ ≥ θ0 hay θ ≤ θ0 (kiểm
định một bên).
- Giả thuyết H1 là kết quả ngược lại của giả thuyết H0. Nếu H1 đúng thì H0 sai và
ngược lại
1. Kiểm định hai bên: H0: θ=θ0 H1: θ ≠ θ0 (miền bác bỏ nằm về hai phía của miền
chấp nhận)
- Kiểm định bên phải: H0: θ ≤ θ0 H1: θ ≥ θ0 (miền bác bỏ nằm về phía bên phải của miền
chấp nhận
- Kiểm định bên trái: H0: θ ≥ θ0 H1: θ ≤ θ0 (miền bác bỏ nằm về phía nên trái của miền
chấp nhận)
Giả sử ta có một mẫu gồm n quan sát được chọn từ tổng thể. Gọi μ, σ2, X ̅, S2 lần lượt
là trung bình, phương sai của tổng thể; trung bình, phương sai mẫu hiệu chỉnh. Ta cần
kiểm định giả thuyết: H0: μ=μ 0 H1: μ ≠ μ 0
( μ0 là một giá trị cụ thể) với mức ý nghĩa α cho trước. Việc kiểm định được thực hiện
như sau:
X − μ0
- Công thức tính giá trị kiểm định: Z= √n
σ
- Quy tắc quyết định: Bác bỏ H0 ở mức ý nghĩa α nếu |Z|> Z α (ngược lại ta chấp nhận
2
H0 ở mức ý nghĩa α )
- Ta nhận thấy có sự liên hệ giữa ước lượng và kiểm định giả thuyết, cụ thể, giả thuyết
H0 bị bác bỏ với mức ý nghĩa α khi và chỉ khi khoảng ước lượng (với độ tin cậy (1 –
α) của μ không chứa số μ0.
Ví dụ 1. Một máy đóng mì gói tự động quy định khối lượng trung bình là 75 gam, độ
lệch tiêu chuẩn là 15 gam. Sau một thời gian sản xuất, kiểm tra 80 gói ta có khối
lượng trung bình mỗi gói là 72 gam. Hãy kết luận về tình hình sản xuất với mức ý
nghĩa 5%. Tìm giá trị p.
Giải.
Tổng thể là toàn bộ số gói mì do máy đó đóng gói. Theo quy định thì khối lượng
trung bình của mỗi gói phải là 75 gam, nhưng trên thực tế thì khối lượng trung bình là
μ chưa biết. Ta có giả thuyết: H0: μ=75 H1: μ ≠75
(đúng như quy định). Nếu giả thuyết đúng thì tình hình sản xuất bình thường. Nếu giả
thuyết sai thì tình hình sản xuất không bình thường. Ta cần kiểm định giả thuyết đó ở
mức ý nghĩa 5%.
Theo đề bài ta có X=72, n=80
Phương sai của tổng thể đã biết, do đó giá trị kiểm định:
X − μ0 72− 75
Z= √ n = 15 √ 80 = -1,78875 ≈ −1 , 79
σ
Từ mức ý nghĩa α = 0,05, tra bảng hàm số Laplace, ta có:
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì |Z| = 1,79 < Z α nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở
2
mức ý nghĩa 5%
Bây giờ ta thấy giả thuyết H0 sẽ bị bác bỏ ở bất kì giá trị nào của α sao cho Z α < 1,79.
2
3. Giá trị p
- Giả sử khi kiểm định một giả thuyết H0 nào đó, ta đã kết luận bác bỏ nó ở mức ý
nghĩa 10%.
- Khi đó ta cũng có thể bác bỏ ở mức ý nghĩa cao hơn, chẳng hạn, 12%, 15%. Vấn đề
đặt ra là liệu có thể bác bỏ ở mức ý nghĩa nhỏ hơn 10%? Nói cách khác, ta cần xác
định mức ý nghĩa nhỏ nhất mà ở đó giả thuyết H0 bị bác bỏ.
- Mức ý nghĩa nhỏ nhất đó gọi là giá trị p. Giá trị p được xem như một “mức ý nghĩa
tiêu chuẩn”, gắn liền với từng trường hợp cụ thể. Do vậy, thay vì định trước mức ý
nghĩa α, người ta thường xác định giá trị p. (Khi việc tính toán được thực hiện bằng
các chương trình xử lí dữ liệu thì kết quả tính được bằng máy tính luôn thể hiện giá trị
p).
Ví dụ 2. Một hãng sản xuất lốp xe ôtô tuyên bố sản phẩm của hãng có thể sử dụng
100.000 km, độ lệch tiêu chuẩn bằng 12.000 km. Một công ty vận tải mua 64 lốp xe,
sau một thời gian sử dụng thấy độ bền trung bình là 98.500 km. Hãy kết luận về tuyên
bố của hãng sản xuất lốp xe với mức ý nghĩa 5%.
Theo đề bài ta có X=98500, n=64
Phương sai của tổng thể đã biết, do đó giá trị kiểm định:
X − μ0 98500 −100000
Z= √n = √64 = -1
σ 12000
Từ mức ý nghĩa α = 0,05, tra bảng hàm số Laplace, ta có:
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì |Z| = 1 < Z α nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở
2
mức ý nghĩa 5%
Bây giờ ta thấy giả thuyết H0 sẽ bị bác bỏ ở bất kì giá trị nào của α sao cho Z α < 1.
2
Ví dụ 3. Một hãng sản xuất lốp xe ôtô tuyên bố sản phẩm của hãng có thể sử dụng
không dưới 100.000 km, độ lệch tiêu chuẩn bằng 12.000 km. Một công ty vận tải mua
64 lốp xe, sau một thời gian sử dụng thấy độ bền trung bình là 98 500 km. Hãy kết
luận về tuyên bố của hãng sản xuất lốp xe với mức ý nghĩa 5%.
Theo đề bài ta có X=98500, n=64
Phương sai của tổng thể đã biết, do đó giá trị kiểm định:
X − μ0 98500 −100000
Z= √n = √64 = -1
σ 12000
Từ mức ý nghĩa α = 0,05, tra bảng hàm số Laplace, ta có:
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì Z = -1 < Zα nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở mức
ý nghĩa 5%
X − μ0
- N ≥ 30: Z= √ n (quy tắc quyết định như đã biết phương sai của tổng thể)
S
X − μ0
- N < 30: T = √n
S
Chú ý: Trong tất cả trường hợp, giả thuyết H0: μ ≠ μ 0 thì
+ Với X > μ0 ta kết luận μ> μ0
+ Với X < μ0 ta kết luận μ< μ0
Bảng tóm tắt trường hợp kiểm định hai bên và một bên khi n ≥ 30:
Giả thuyết Bác bỏ H0 khi
Ví dụ 3. Một nhà máy sản xuất đèn chụp hình cho biết tuổi thọ trung bình của sản
phẩm là 100 giờ. Người ta chọn ngẫu nhiên 15 bóng thử nghiệm thấy tuổi thọ trung
bình là 99,7 giờ, phương sai mẫu hiệu chỉnh là 0,15. Giả sử tuổi thọ của đèn có phân
phối chuẩn. Cho kết luận về tình hình sản xuất của nhà máy với mức ý nghĩa 1%
Giải:
Ta có giả thuyết: H0: μ=100 ; H1: μ ≠100
Ta có n=15; X=99,7; S2 = 0,15; α = 0,01 suy ra α/2 = 0,005
Tra bảng Student dòng 14, cột 0,005: T14;0,005 = 2,977
X − μ0 99 ,7 − 100
Suy ra T = √n = √ 15 = -3
S √ 0 ,15
Vì |T |>¿ T14;0,005 = 2,977 nên ta bác bỏ H0
Vậy tuổi thọ bóng đèn thấp hơn 100h (X=99,7 <100 = μ0)
Ví dụ 4. Một loại đèn chiếu được nhà sản xuất quảng cáo có tuổi thọ trung bình thấp
nhất là 65 giờ. Kết quả kiểm tra ngẫu nhiên 21 đèn cho thấy tuổi thọ trung bình là
62,5 giờ, S=3 giờ. Với mức ý nghĩa 1% có thể kết luận gì về lời quảng cáo đó?
Giải:
Ta có giả thuyết: H0: μ ≥ 65; H1: μ<65
Ta có n=21; X=62,5; S=3; α = 0,01 suy ra α/2 = 0,005
Tra bảng Student dòng 20, cột 0,005: T14;0,005 = 2,845
X − μ0 62 ,5 −65
Suy ra T = √n = √ 21= -3,8188
S 3
Vì |T |>¿ T14;0,005 = 2,845 nên ta bác bỏ H0
Vậy tuổi thọ bóng đèn thấp hơn 65h (X=62,5 < 65 = μ0)
Ví dụ 5. Năng suất lúa trung bình ở vụ trước là 4,5 tấn/ha. Vụ lúa năm nay người ta áp
dụng biện pháp kĩ thuật mới cho toàn bộ diện tích trồng lúa trong vùng. Theo dõi 100
ha, ta có bảng năng suất lúa sau đây
Năng suất (tạ/ha) Diện tích (ha) Năng suất (tạ/ha) Diện tích (ha)
30 -35 7 50-55 20
35-40 12 55-60 8
40-45 18 60-65 5
45-50 27 65-70 3
X − μ0 47 , 5 − 45
Suy ra Z= √ n = 8,3131 √ 100= 3,007
S
Vì Z = 3 > - Zα nên giả thuyết H0 đúng. Vậy biện pháp lỹ thuật mới cho ra năng suất
cao hơn biện pháp kỹ thuật cũ.
5. Kiểm định trung bình của tổng thể trên hai mẫu
- Hai mẫu X và Y ngẫu nhiên, độc lập từ hai tổng thể có phân phối chuẩn.
- nx , ny là kích thước hai mẫu
- μ x , μ y ; σ 2x , σ 2y ; X , Y ; S 2x , S2y lần lượt là trung bình của tổng thể, phương sai của tổng
thể, trung bình mẫu, phương sai mẫu hiệu chỉnh tương ứng với hai mẫu đó.
- Cần kiểm định giả thuyết với mức ý nghĩa α
H0: μ x =μ y ; H1: μ x ≠ μ y
H0: μ x ≥ μ y ; H1: μ x < μ y
H0: μ x ≤ μ y ; H1: μ x > μ y
b. Trường hợp chưa biết phương sai của tổng thể mà n ≥ 30:
X A − XB 2 , 2− 1 ,2
Z=
√ √
2 2
Giá trik kiểm định S A S B = 1 ,25 2 1 ,022 = 4,179
+ +
nA nB 50 40
Vì Z > Z α nên ta ác bỏ giả thuyết H0 , nghĩa là hiệu quả của hai loại thức ăn khác
2
nhau.
Mặt khác ta thấy XA > XB nên μ A > μ B, nghĩa là khối lượng trung bình của một con gà
nuôi bằng thức ăn A lớn hơn so với nuôi bằng thức ăn B. Vậy thức ăn A có hiệu quả
hơn (ở mức ý nghĩa 1%)
Ví dụ 7. Nghiên cứu về hai nhãn hiệu pin X và Y. Chọn ngẫu nhiên mỗi loại 100 pin,
kết quả ghi nhận được như sau. Pin X có thời gian sử dụng trung bình là 308 phút, độ
lệch mẫu hiệu chỉnh là 54 phút. Đối vối pin Y các chỉ số tương ứng là 286 và 40 phút.
Có ý kiến cho rằng thời gian sử dụng trung bình của pin X lớn hơn pin Y. Với mức ý
nghĩa = 0,01 bạn có nhận xét gì về ý kiến trên?