NLTK LT

Chương 1: Giới thiệu môn học
I. Khái niệm và chức năng

1. Khái niệm
- Một nhánh của toán học liên quan đến việc thu thập, trình bày và phân tích các dữ
liệu.
- Gồm một hệ thống các phương pháp từ việc thu thập, trình bày, tóm tắt dữ liệu đến
các phương pháp phân tích và dự đoán
2. Khái niệm cơ bản
a. Tổng thể, đơn vị tổng thể, mẫu
- Tổng thể (population) là tập hợp tất các các đối tượng mà ta nghiên cứu.
- Các đơn vị (hay phần tử - elements) tạo thành tổng thể được gọi là đơn vị tổng thể.
- Mẫu (sample) là một bộ phận lấy ra từ tổng thể
- Tổng thể gồm nhiều phần tử, khó nghiên cứu nên nghiên cứu mẫu rồi suy ra tổng thế
Ví dụ:
a) Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường Đại học Hoa Sen,
người ta đã xét bảng điểm của 250 sinh viên. (tổng thể: những sinh viên Hoa Sen có
học môn toán, mẫu: 250 bảng điểm)
b) Nghiên cứu tỉ lệ bị bệnh lao ở tỉnh Lào Cai, người ta đã khám cho 1520 người thì
thấy có 7 người bị lao. (tổng thể: tất cả người dân của tỉnh Lào Cai, mẫu: 1520 người)
b. Biến
- Biến định tính thể hiện tính chất của đơn vị được khảo sát
- Biến định lượng thể hiện bằng các số
Ví dụ:
a) Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường Đại học Hoa
Sen, người ta đã xét bảng điểm của 250 sinh viên. (ĐL: bảng điểm môn Toán)
b) Nghiên cứu tỉ lệ bị bệnh lao ở tỉnh Lào Cai, người ta đã khám cho 1520 người thì
thấy có 7 người bị lao. (ĐT: Có hay không bị lao)
c) Thống kê ngành học của sv một trường đại học (ĐT)
d) Thống kê điểm thi môn toán của sv khoa X (ĐL)
Chương 2: Thu thập dữ liệu
I. Nguồn dữ liệu
- Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công
bố hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới.
- Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí, gọi là dữ liệu thứ cấp. (Các
báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản xuất, tiêu
thụ, tài chính,…Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân
số, việc làm, mức sống dân cư, tài nguyên, … Báo, tạp chí, mạng internet,…), phải
trích nguồn
- Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu gọi là dữ liệu sơ cấp. (Thu thập
qua các cuộc điều tra khảo sát.)
II. Phương pháp

II.1. Trực tiếp
- Quan sát
- Phỏng vấn trực tiếp
II.2. Gián tiếp (câu hỏi khảo sát phải rõ ràng, chính xác, cảm tính)
- Phỏng vấn điện thoại

- Phương pháp gửi thư, email, online,…
III. Cấp bậc đo lường và thang đo dữ liệu

- Bốn cấp bậc đo lường theo mức độ thông tin tăng dần, đó là thang đo: định danh,
thứ bậc, khoảng và tỉ lệ.
a) Thang đo định danh: Phân biệt đơn vị mẫu, không so sánh, sử dụng cho định tính.
b) Thang đo thứ bậc: Thể hiện sự hơn kém nhưng không biết chính xác mức độ, sử
dụng cho DLĐT.
c) Thang đo khoảng: Có mức độ hơn kém, giá trị 0 không có ý nghĩa, mang tính ước
lệ. Xem như thang đo thức bậc có khoảng cách đều nhau. Sử dụng cho ĐT và ĐL
d) Thang đo tỉ lệ (cao nhất): dùng cho các dữ liệu định lương, có tính chất của thang
đo khoảng, giá trị 0 có ý nghĩa
IV. Kỹ thuật chọn mẫu

- Bảo đảm mẫu phản ánh sự trung thưc, đại diện cho toàn bộ tổng thế
- Có 4 phương pháp:
a) PP chọn mẫu ngẫu nhiên đơn giản: Mỗi đơn vị của tổng thể được chọn với sự
ngẫu nhiên như nhau. (sai sót)
b) PP chọn mẫu hệ thống: Chọn ngẫu nghiên một đơn vị trong danh sách được lập
và đánh số thứ tự, sau đó cứ cách đều k đơn vị chọn ra 1 đơn vị vào mẫu.
c) PP chọn mẫu cả khối: Chia tổng thế thành nhiều khối, lấy ngẫu nhiên m khối và
khảo sát hết các đối tượng trong khối.
d) PP chọn mẫu phân tầng: Khi các đơn vị quá khác nhau về tính chất kq đến vấn đề
ng/c và kh/s. Phân tầng và chọn số lượng theo tỉ lệ của tổng thể.
Ví dụ:
─ Để nghiên cứu tỉ lệ trẻ em được tiêm phòng ở tỉnh X, người ta chọn ngẫu nhiên
10 xã trong tỉnh để điều tra toàn bộ (cả khối)
─ Để thăm dò tỉ lệ yêu thích sản phẩm A của mọi đối tượng khách hàng, công ty
yêu cầu khảo sát ngẫu nhiên 1000 người, trong đó 50% nam và 50% nữ, 50% trên
40 tuổi và 50% trong độ tuổi từ 15 đến 40. (phân tầng)
─ Để kiểm tra mức độ chính xác của thông tin về 800 khách hàng do các nhân viên
thu thập, nhà quản lý dựa vào danh sách quyết định chọn 80 khách hàng để kiểm
tra lại thông tin. (ngẫu nhiên đơn giản)
II. Nội dung phiếu câu hỏi khảo sát

1.
- Người khảo sát giới thiệu mục đích nghiên cứu và cam đoan thông tin của ng được
khảo sát sẽ được bảo mật và chỉ phục vụ mục đích nghiên cứu
- Câu hỏi liên quan đến thông tin ng được khảo sát
- Câu hỏi liên quan đến đề tài nghiên cứu, bao gồm ĐT và ĐL
- Câu hỏi mở rộng
- Lời cảm ơn
Chương 3: Trình bày dữ liệu
I. Trình bày dữ liệu định tính

2. Bảng tần số, tần suất
- Là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia chúng thành từng
nhóm (lớp) khác nhau.
- Gồm 3 cột:
Mô tả các biểu hiện hoặc Mô tả tần số tương ứng với
các giá trị (hay khoảng giá các biểu hiện hoặc giá trị Các tần suất (tỉ lệ %).
trị) của dữ liệu đó.
Ví dụ: Lớp NLKT có 80 sv, trong đó có: 12 sv ngành NHKS, 24 sv ngành QTKD, 9
sv ngành KDQT, còn lại là sv ngành DL
Số sinh
Ngành Tần suất (%)
viên
NHKS 12 15
QTKD 24 30
KDQT 9 11,25
DL 35 43,75
Tổng 80 100
BIỂU ĐỒ SỐ SV LỚP NLKT
050%
045%
040%
035%
030%
Axis Title
025%
020%
015%
010%
005%
000%
NHKS QTKD KDQT DL
Axis Title
3. Cách lập bảng tần số, tần suất
- Có hai trường hợp:

+ Ít giá trị: Bảng tần số cũng có ba cột tương tự trường hợp dữ liệu định tính, nhưng
cột thứ nhất ghi các giá trị (lượng biến) của dữ liệu.
+ Nhiều giá trị: Phân nhóm các giá trị rồi lập bảng trên cơ sở dữ liệu đã phân nhóm
- Lưu ý, khoảng cách của các nhóm có thể không đều nhau. Tuy nhiên, trên thực tế
người ta thường phân nhóm với khoảng cách đều nhau.
k: Số nhóm Xmax: GTLN

h: khoảng cách giữa các Xmin: GTNN
nhóm n: số phần tử
- Thực tế khi xác định cận trên và cận dưới của các khoảng người ta có thể xử lý linh
động hơn để đảm bảo tính khoa học và mỹ thuật
- Mỗi khoảng thể hiện sự tồn tại của các giá trị quan sát xi sao cho : Cận dưới ≤ xi
<Cận trên
Ví dụ 3: Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng như sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179
n=40
Xmax = 179, Xmin = 153
k= √3 2 n = √3 2.40= √3 80=4 ,3 ≈ 4
Xmax − Xmin 179− 153
h= = = 6,5 ≈ 7 (tạ/ha)
k 4
Tần
Năng suất (tạ/ha) Tần suất (%)
số
[153 - 160) 7 17,5
[160 -167) 19 47,5
[167 - 174) 8 20
[174-181) 6 15
Tổng 40 100
Ví dụ 4: Chiều cao của một số sv trường X
150 152 154 154 156 157 158 158 159 160
160 160 161 161 162 162 163 163 163 164
164 164 164 165 165 166 166 167 167 168
168 168 170 170 170 170 171 171 171 172
172 173 173 173 174 174 174
n= 47 Xmax = 150 Xmin = 174
n= √3 2 n = √3 2.47=√3 94=4 , 5 ≈ 5
Xmax − Xmin 174 −150
h= = = 4,8 ≈ 5 (cm)
k 5
Chiều cao (cm) Tần số Tần suất (%)
[150-155) 4 8,5
[155-160) 5 10,6
[160-165) 14 29,8
[165-170) 9 19,1
[170-175) 15 31,9
Tổng 47 100
Biểu đồ chiều cao của một số SV
trường X
35%
30%
25%
Axis Title
20%
15%
10%
05%
00%
[150-155) [155-160) [160-165) [165-170) [170-175)
Axis Title
Phân nhóm, lập bảng, vẽ biểu đồBài tập 2.1, 2.2 GT

*Một số điều kiện phải tuân theo;
- Các nhóm không được trùng nhau, mỗi giá trị chỉ thuộc về một nhóm.
- Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu.
- Không có nhóm rỗng (tức là nhóm không có phần tử nào).
4. Cách lập bảng tần số kết hợp hai đặc điểm thống kê
- Có thể dùng để mô tả hai đặc điểm thống kê

- Có thể được xoay theo chiều khác, hoặc tách riêng thông tin về tần số, tần suất thành
hai bảng riêng biệt.
III. Đồ thị thống kê

1. Cho dữ liệu định lượng
- Biểu đồ phân phối tần số (Histogram): sử dụng để chuyển hoá thông tin trên bảng
tần số thành hình ảnh trực quan, là một loại đồ thị biểu diễn sự phân phối tần số bằng
các cột sao cho diện tích của cột tỉ lệ với tần số.
- Đa giác tần số:
+Vẽ bằng cách nối các trung điểm của cạnh đỉnh của các cột trong Histogram lại
với nhau bằng các đoạn thẳng
+ Không muốn đường biểu diễn lơ lửng, thêm vào hai bên hai nhóm có tần số 0
- Biểu đồ nhánh và lá:
+ Là một công cụ để tóm lược và trình bày tập dữ liệu, giúp thấy được dữ liệu
gốc và cách thức phân tán nó.
+ Để trình bày dữ liệu theo phương pháp nhánh và lá, mỗi trị số được tách thành
hai phần:
○ Phần nhánh: bao gồm một hay nhiều chữ số đầu tiên, được đặt ở cột đầu
tiên theo thứ tự tăng dần. Số nhánh < số lá. (5-20)
○ Phần lá: gồm các chữ số còn lại, sắp xếp theo thứ tự tăng dần, có thể chia
đôi một nhánh thành nhánh trên và nhánh dưới khi có quá nhiều lá.
+ Vd:
Chieu dai Stem-and-Leaf Plot
Frequency Stem&Leaf
12 30 . 000112334444
10 30 . 5557889999
13 31 . 0000012222234
1 31 . 8
4 32 . 0000
Stem width: 0.5 cm
Each leaf: 1 case(s)
=> Có 22 sp từ 30 đến dưới 31, 14 sp từ 31 đến dưới 32, 4sp từ 2 trở lên
+ Số lượng quan sát lên đến hàng trăm -> Histogram phù hợp hơn
* Lưu ý đối với dữ liệu định lượng:
- Số nhóm cần chia phải là số nguyên, nếu số lẻ thì làm tròn
- Khoảng cách của từng nhóm là số nguyên hay thập phân tùy vào dữ liệu của mẫu.
Luôn làm tròn lên để đảm bảo bao quát hết dữ liệu
- Vẽ histogram phải vẽ các cột liền nhau
2. Cho dữ liệu định tính
- Biểu đồ dạng thanh (Bar chart):

+ Mỗi thanh đại diện cho một trạng thái của biến, chiều dài thanh thể hiện tần số,
chiều rộng bằng nhau
+ Khác với Histogram: Một thể hiện định lượng, một thể hiện định tính. Giữa
các thanh Histogram không có khoảng cách, Bar có khoảng cách vì mỗi thanh là một
biểu hiện của biến phân loại.
- Biểu đồ hình tròn:
+Dùng mô tả %
+ Toàn bộ hình tròn chia thành hình rẻ quạt, S mỗi mảnh tương ứng với tỷ lệ của
phân loại mà nó đại diện toàn thể và mang mỗi nàu khách nhau
+Thứ tự sắp xếp theo chiều kim đồng hồ
Chương 4: Tóm tắt dữ liệu
I. Đặc trưng đo lường khuynh hướng tập trung

3. Trung bình cộng
- Được xác định bằng cách cộng tất cả các giá trị của từng phần tử (các quan sát), sau
đó đem chia cho tổng số phần tử (tổng số quan sát).
- Có hai loại trung bình cộng là trung bình cộng đơn giản và trung bình cộng có trọng
số:
a. Đơn giản
- Trung bình tổng thể: Giả sử tổng thể có N phần tử (quan sát), Xi là giá trị của phần
tử thứ i. Khi đó trung bình cộng của tổng thể là:

- Trung bình mẫu: Giả sử mẫu có n phần tử (hay còn nói cỡ mẫu là n), khi đó trung
bình cộng của mẫu (hay trung bình mẫu) là :
b. Trọng số
- Là trường hợp đặc biệt của đơn giản khi giá trị Xi xuất hiện nhiều lần
(fi là trọng số, tần số của gá trị Xi)
c. Đặc điểm
- Dùng để so sánh giữa hai hay nhiều tổng thể

- Tổng độ lệch giữa Xi với trung bình cộng X bằng 0
- Nhạy cảm với các đột biến, sẽ kém tiêu biểu nếu có giá trị đột biến
4. Mốt (Mode)
a. Khái niệm: Là giá trị xuất hiện nhiều nhất trong dãy số (M0)
b. Cách xác định:
- Không phân nhóm: Là giá trị có tần số lớn nhất

- Phân nhóm có khoảng cách đều nhau:
+ Nhóm chứa mốt là nhóm có tần số lớn nhất
+ Được xác định gần đúng bởi công thức:
Ví dụ: Tài liệu tổng hợp về doanh số bán hàng trong một tháng của 50 trạm xăng dầu
thuộc tỉnh X như sau:
Doanh số bán (Triệu đồng) Số trạm
200 -300 8
300-400 10
400-500 20
500-600 7
600-700 5
Tổng 50
- Phân nhóm có khoảng cách không đều: Vẫn được tính theo công thức nhưng việc
xác định nhóm có mốt căn cứ vào mật độ phân phối.
Ví dụ: Có tài liệu tổng hợp về doanh thu của 79 cửa hàng như sau:
Doanh số bán (Triệu đồng) Số trạm
200 -400 8
400-500 12
500-600 25
600-800 25
800-1000 9
Tổng 79
- Ta lập bảng tính thêm khoảng cách và mật độ phân phối của các nhóm
Doanh số bán (Triệu Số trạm Khoảng cách nhóm Mật độ phân phối
đồng) (fi) (hi) (di = fi/hi)
200 -400 8 200 0,04
400-500 12 100 0,12
500-600 25 100 0,25
600-800 25 200 0,125
800-1000 9 200 0,045
Tổng 79
- Thay tần số bở mật độ phân phối, ta được:
c. Đặc điểm của mốt
- Không bị ảnh hưởng bởi các giá trị đột biến

- Có thể xác định co dữ liệu sử dụng các thang đo khác nhau
- Một tập dữ liệu có thể không có mốt, có thể có nhiều mốt
5. Trung vị
- Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị (Me) là giá
trị đứng giữa của tập dữ liệu.
a. Cách xác định trung vị
- Không phân nhóm:

+Số lẻ: Me=X(n+1)/2
Ví dụ: 89,5 98,7 123,4 136,3 138,8 139,2 144,3 145,7 146,0 147,9 154,1
n=11; (n+1)/2= 6; Me = M6 = 139,2
+Số chẵn: Me=( Xn/2+Xn/2+1)/2
Ví dụ: 12,4 12,8 13,1 13,2 13,6 14,6 14,9 16,2 16,5 16,8 17,4 17,5 17,5
n=12; n/2=6; n/2+1=7; Me= (X6+X7)/2= 14,75
- Phâm nhóm có khoảng cách:
+ Tính tần số tích lũy
+ Xác định nhóm chứ trung vị là nhóm có tần số tích lũy nhỏ nhất ≥ (n+1)/2
+ Áp dụng công thức:

XMe min : giới hạn nhóm dưới của Me
Ví dụ 1: Tính trung vị của mẫu dữ liệu sau:
Khối lượng Số sản phảm (fi) Tần số tích lũy
(gam)
484-490 5 5
490-496 10 5+10=15
496-502 15 15+15=30
502-508 13 13+30=43
508-514 7 7+43=50
Tổng 50
Me ∈ [496;502) vì nhóm này có TSTL > (n+1)/2 = 25,5
n= 50; n/2=50/2=25
XMemin = 496, hMe = 6
Me= XMemin + hMe . (n/2 - SMe -1)/fMe = 496 + 6.(50/2 - 15)/15 = 500
Ví dụ 2:
Doanh thu bán (Triệu đồng) Số sản phảm (fi) Tần số tích lũy
200-300 8 8
300-400 10 18
400-500 17 35
500-600 9 44
600-700 5 49
Tổng 49
Me ∈ [400-500) vì nhóm này có TSTL > (n+1)/2 = 25
n= 49; n/2=49/2=24,5
XMemin = 400, hMe = 100
Me= XMemin + hMe . (n/2 - SMe -1)/fMe = 400 + 100.(49/2 - 18)/17 = 438,23
b. Đặc điểm
- Trung vị là đặc trưng đo lường khuynh hướng tập trung ít bị ảnh hưởng bởi các giá
trị đột biến.
- Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng.
6. Tứ phân vị - thập phân vị
- Là chỉ tiêu đo lường độ phân tán

- Cách tính tương tự như tính trung vị
- Phân vị thứ hai của tứ phân vị chính là trung vị
a. Tứ phân vị: Chia dãy số thành bố phần
- Cách xác định

+ Dữ liệu không phân nhóm:
n+1
 Q1 =
4
n+1
 Q2 =
2
3(n+1)
 Q3 =
4
+ Nếu n+1 không chia hết cho 4 thì xác định bằng cách thêm vào
+ Do đó, tứ phân vị thứ nhất bằng lượng biến ở vị trí thứ ba cộng với 1/4 giá trị
chêch lệch giữa lượng biến ở vị trí thứ ba và thứ tư. Còn tứ phân vị thứ ba bằng lượng
biến ở vị trí thứ chín cộng với 3/4 giá trị chênh lệch giữa lượng biến ở vị trí thứ chín
và thứ mười.
Ví dụ: Cho dãy số: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800
có số phần tử là n = 8 nên
+Dữ liệu phân nhóm có khoảng cách:
XQi min :giới hạn dưới của nhóm chứa Qi

hQi: khoảng cách của nhóm chứa Qi
SQi-1:tần số tích luỹ của nhóm đứng trước nhóm chứa Qi
fQi: tần số của nhóm chứa Qi
Ví dụ: Tính các tứ phân vị của bảng dữ liệu sau đây:
Doanh thu Số cửa hàng Tần số tích lũy
200 - 400 8 8
400 - 500 12 20
500 - 600 25 45
600 - 800 25 70
800 - 1000 9 79
Tổng 79
n+ 1
- Tứ phân vị thứ nhất chứa trong nhóm có tần số tích lũy ≥ = 20
4
3 (n+1)
- Tứ phân vị thứ ba chứa trong nhóm có tần số tích lũy ≥ = 60
4
b. Thập phân vị: chia dãy số thành 10 phần bằng nhau
- Tương tự cách tính tứ phân vị:
- Được sử dụng trong thực tế khi người ta muốn biết mức đạt cao nhất của 1/4 hay
1/10 số đơn bị xếp từ thấp lên hoặc ngược lại
IV. Các đặc trưng đo lường độ phân tán

- Các chỉ tiêu đo độ phân tán: khoảng biến thiên, tứ phân vị, độ trái giữa, độ lệch tuyệt
đối trung bình, phương sai, độ lệch tiêu chuẩn.
1. Khoảng biến thiên (R)
- Chênh lệch giữa giá trị lớn nhất và giá trịn nhỏ nhất
- Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều, số trung bình càng có tính
đại diện cao và ngược lại.
- Nhược điểm của khoảng biến thiên là chỉ phụ thuộc vào giá trị lớn nhất và giá trị
nhỏ nhất của dãy lượng biến.
2. Độ trải giữa: (RQ’)
- Chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ nhất
- Thể hiện độ phân tán của 50% dữ liệu giữa của dãy số
3. Độ lệch tuyệt đối trung bình ( )
- Số trung bình cộng của các độ lệch tuyệt đối giữa các lượng biến và số trung bình
cộng của các lượng biến đó.
- Độ lệch tuyệt đối trung bình càng nhỏ, tổng thể càng đồng đều, tính chất đại diện
của số trung bình càng cao.
- Độ lệch tuyệt đối trung bình có ưu điểm hơn khoảng biến thiên vì nó xét đến tất cả
các lượng biến trong dãy số.
Ví dụ:
Tổ I: 200, 250, 300, 350, 400
Tổ II: 280, 290, 300, 310, 320
Ta tính được độ lệch tuyệt đối trung bình cho từng tổ như sau:
4. Phương sai
- Số trung bình cộng của bình phương các độ lệch giữa các lượng biến và số trung
bình cộng của các lượng biến đó
- Cách xác định:
+Từ tổng thể chung:
+Mẫu:
+Mẫu hệu chỉnh:
5. Độ lệch tiêu chuẩn
- Căn bậc hai của phương sai

- Ý nghĩa: Thể hiện độ lệch trung bình của tất cả các lượng biến so với giá trị trung
bình. Đặc trưng này được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể,
trong trường hợp đơn vị tính giống nhau và giá trị trung bình bằng nhau.
- Ngoài ra độ lệch chuẩn còn cho biết sự phân phối của các lượng biến trong một tổng
thể, thể hiện trên hai quy tắc sau đây
a. Quy tắc Tchebychev:
- Bất kì một tổng thể nào với trung bình là μ và độ lệch tiêu chuẩn là σ đều có ít nhất
giá trị rơi vào khoảng μ±mσ, với m>1.

Ví dụ:
m 1,5 2 2,5 3
1 55,6 75% 84 88,9%
100(1 - 2) %
m % %
Từ bảng ta thấy, với m = 1,5 có ít nhất 55,6% giá trị rơi vào khoảng μ±1,5σ.
Tiền lương hàng năm (triệu đồng) của 7 công nhân một xí nghiệp là:
34,5 ; 30,7 ; 32,9 ; 36,0 ; 34,1 ; 33,8 ; 32,5
Ta tính được tiền lương trung bình và độ lệch tiêu chuẩn của 7 người đó là:
Theo quy tắc Tchebychev, đối với tổng thể trên, có ít nhất 55,6% (tức có khoảng
0,556x7≈ 4 người) mức lương rơi vào khoảng 33,5±1,5.1,554, tức là từ 31,169 đến
35,831 (triệu đồng).
b. Quy tắc thực nghiệm:
- Người ta nhận thấy rằng nếu dữ liệu có phân phối đối xứng (hình chuông cân đối)
thì có một quy tắc thực nghiệm như sau:
+ Khoảng 68% giá trị rơi vào khoảng ± σ.
+ Khoảng 95% giá trị rơi vào khoảng ± 2σ.
+ Khoảng 99,7% giá trị rơi vào khoảng ± 3σ
Theo VD 8 ta có: trung bình μ = 33,5 (triệu đồng), độ lệch tiêu chuẩn σ = 1,554 (triệu
đồng).
Ví dụ: Quy tắc thực nghiệm ước đoán có xấp xỉ 68% (tức khoảng 0,687 5 người)
mức lương rơi vào khoảng μ± σ, tức là từ 31,946 đến 35,054 (triệu đồng), có khoảng
95% (tức khoảng 7 người) mức lương rơi vào khoảng μ± 2σ, tức là từ 30,392 đến
36,608 (triệu đồng).
- Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá trị bất thường trong một
tập dữ liệu.
- Lưu ý: Đối với những tập dữ liệu à phân phối không phải là hình chuông cân đối thì
không nên sử dụng quy tắc thực nghiệm mà nên dùng quy tắc Tchebychev.
6. Hệ số biến thiên
- Hai tập dữ liệu có cùng giá trị trung bình, tập dữ liệu nào có độ lệch tiêu chuẩn lớn
hơn thì biến thiên nhiều hơn
- Nếu hai tập dữ kiệu có giá trị trung bình khác nhau thì không thể làm cách trên. Lúc
này ta dùng hệ số biến thiên
- Công thức tính hệ số biến thiên cho tập dữ liệu tổng thể:
- Khi hệ số biến thiên của hai tập dữ liệu được so sánh với nhau, hệ số biến thiên của
tập nào lớn hơn thì tập đó biến động nhiều hơn.
- Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ liệu có đơn vị đo
khác nhau
7. Chuẩn hóa dữ liệu
- Khi làm việc với dữ liệu định lượng, đôi khi ta cần biến đổi chúng thành dữ liệu ở
một thang đo chuẩn.
- Giá trị dữ liệu đã chuẩn hoá cho biết một giá trị quan sát trong tập dữ liệu gốc sẽ sai
lệch khỏi trung bình của nó gấp mấy lần độ lệch tiêu chuẩn.
- Dữ liệu tổng thế:
- Dữ liệu mẫu:
- z gần đến 0: quan sát ở rất gần trung bình

- z=-1: quan sát ở vị trílệch tiêu chuẩn so với trung bình về bên trái
-z=1: quan sát ở vị trílệch tiêu chuẩn so với trung bình về bên phải
Ví dụ: Một học sinh có điểm thi môn Toán là 8,9 (thang điểm 10) và điểm thi Anh
văn là 89 (thang điểm 100). Ta muốn biết em đó học môn nào khá hơn so với các học
sinh trong lớp. Giả sử điểm trung bình và độ lệch mẫu của hai môn đó (tính cho tập
dữ liệu là điểm của tất cả học sinh trong lớp) như sau.
Toán: , Anh Văn:

Dùng pp chuẩn hóa dữ liệu:
- Kết quả chuẩn hoá cho thấy điểm Toán của học sinh này cao hơn trung bình của lớp
tới 2 lần độ lệch tiêu chuẩn, trong khi điểm Anh văn chỉ cao hơn có 1,4 lần. Như vậy,
so với học sinh trong lớp thì em học sinh đó học Toán khá hơn.
V. Khảo sát hình dáng phân phối của dữ liệu:

1. PP so sánh số trung bình và trung vị:
- Phân phối đối xứng: μ = Me (hoặc ).
- Phân phối lệch phải khi μ > Me (hoặc ).
- Phân phối lệch trái khi μ < Me (hoặc ).
2. PP tính hệ số lệch Pearson
a. Hệ số lệch xác định cho mẫu:
- Sk là hệ số lệch, S ̂là độ lệch mẫu, Me là số trung vị.

- Hệ số lệch Pearson có giá trị trong khoảng từ - 3 đến 3:
- Hệ số lệch có giá trị gần – 3: phân phối của dãy số lệch trái.
- Hệ số lệch có giá trị gần 3: phân phối của dãy số lệch phải.
- Hệ số lệch gần bằng 0: phân phối của dãy số đối xứng.
Chương 5: Ước lượng các tham số
I. Bài toán ước lượng

- Giả sử X = {x1, x2,...,xn} là một mẫu ngẫu nhiên kích thước n lấy từ tổng thể. θ là
một đặc trưng của tổng thể mà ta chưa biết. Ta dùng một hàm nào đó của mẫu này để
ước lượng cho θ, kí hiệu là θ’= F(x1, x2,...,xn)
- Khoảng (c, d) được gọi là khoảng ước lượng của θ nếu ta coi θ ∈ π (c , d )
- Xác suất P ¿được gọi là độ tin cậy của ước lượng. (α: mức ý nghĩa)
- Nếu θ ' l à một ước lượng điểm (không chệch) của θ thì khoảng ước lượng của θ có
dạng (θ ' − ε ,θ ' + ε ) khoảng này được gọi là khoảng ước lượng đối xứng. Số ε > 0
được gọi là độ chính xác (hay sai số) của ước lượng.
- Nếu (θ ' − ε ,θ ' + ε ) là khoảng ước lượng đối xứng của θ với độ tin cậy 1–α thì xác
suất P[θ ∈(θ ' − ε ,θ '+ ε )=P(|θ − θ '|< ε)=1− α
II. Ước lượng giá trị trung bình của tổng thể
- Gọi μ là GTTB của tổng thể, cần ước lượng độ tin cậy 1-α cho trước.
- Phương pháp
+ Xét mẫu định lượng lấy ra từ tổng thể. Tính kích thước mẫu n, trung bình mẫu
X, độ lệch mẫu hiệu chỉnh S
+Tra một trong hai bảng sau đâu:
 Bảng Laplace
α
 Bảng Student tìm T (ở dòng n-1, cột α /2) nếu n<30 và không biết
2
phương sai tổng thể:
 Tính sai số bởi một trong ba công thức sau:
δ S S
 ε =Z α . hoặc ε =Z α . hoặc ε =T n− 1. α .
2 √n 2 √n 2 √n
+Kết luận: μ= X ± ε hay μ ∈(X − ε , X + ε )

Lưu ý:
Ví dụ 1:
Gọi μlà số trang tài liệu trung bình được chuyển đi mỗi ngày. Ta cần ước lượng μ với
độ tin cậy 95%
- Tính mẫu: Theo đề bài ta có n=15, X=267, σ =¿ 32
1− α
- Tra bảng: Vì đã biết phương sai của tổng thể nên tra bảng Laplacφ (Z α /2 )= =
2
0,475 suy ra Z α =1, 96

2
δ 32
- Tính sai số: ε =Z α . = 1,96. =16,1942
2 √n √15
- Kết luận: μ= X ± ε = 267± 16,1942 hay khoảng ước lượng μlà (250,8058; 283,1942)
Ví dụ 2:
Gọi μlà chiều cao trung bình của học sinh lớp một. Ta cần ước lượng μ với độ tin cậy
97%
- Tính mẫu: Theo đề bài ta có n=28, X=115,8, σ 2=25 suy ra σ =5
1− α
- Tra bảng: Vì đã biết phương sai của tổng thể nên tra bảng Laplaceφ (Z α /2 )= =
2
0,485 suy ra Z α =¿2,17

2
δ 5
- Tính sai số: ε =Z α . = 2,17. =¿2,0504
2 √n √28
- Kết luận: μ= X ± ε = 115 , 8 ± 2,0504 hay khoảng ước lượng μlà (113,7496;
117,8504)
Ví dụ 3: Khảo sát 100 sinh viên chọn ngẫu nhiên trong trường, điểm trung bình môn
toán là 7,12 và phương sai mẫu hiệu chỉnh là 0,0676
a) Ước lượng điểm trung bình môn toán của sinh viên với độ tin cậy 97%
b) Muốn sai số ở câu a giảm đi một nửa và độ tin cậy 98% thì cần khảo sát thêm bao
nhiêu sinh viên
A) Gọi μlà điểm trung bình môn toán của sinh viên. Ta cần ước lượng μ với độ tin
cậy 97%
- Tính mẫu: Theo đề bài ta có n=100, X=7,12 , σ 2=¿0,0676 suy ra σ =¿0,26
1− α
2
0,485 suy ra Z α =¿2,17

2
δ 0 ,26
- Tính sai số: ε =Z α . = 2,17. =¿0,0564
2 √n √ 28
- Kết luận: μ= X ± ε = 7 , 12± 0,0564hay khoảng ước lượng μlà (7,0636; 7,1764)
B) Gọi n’ là số sinh viên cần khảo sát. Ta cần tìm n sao cho độ tin cậy 1-α =0 , 98 và
0,0564
ε '= =0,0282
2
- Tra bảng hàm số Laplace:
1− α 0 , 98
φ (Z α /2 )= = = 0,49 => Z α / 2=2,33
2 2
- Tính sai số:
S 0 ,26 2 ,33. 0 , 26
2
ε '=Z α . = 2,33. = 0,282 => n’ = ( ) = 461
2 √n ' √ n' 0,0282
- Kết luận: Số sinh viên cần khảo sát thêm là: n’-n=461-100=361
Ví dụ 6: Khảo sát lượng sữa (kg/ngày) của một số trong trại chăn nuôi, người ta có số
liệu sau:
7-
Sản lượng sữa 9-11 11-13 13-15 15-17
9
Số con 12 18 40 20 10
A) Hãy ước lượng sản lượng sữa trung bình của đàn bò với độ tin cậy 90,106%
B) Muốn sai số giảm đi một nửa và độ tin cậy 95% thì cần khảo sát thêm bao nhiêu
con bò?
A) X= 11,96
σ =¿2,2556
Gọi μlà sản lượng sữa trung bình của đàn bò. Ta cần ước lượng μ với độ tin cậy
90,106%
- Tính mẫu: Theo đề bài ta có n=100, X=11,96 , S=¿2,256
1− α
2
0,4508 suy ra Z α =¿1,65

2
S 2,256
- Tính sai số: ε =Z α . = 1,65. =¿0,3722
2 √n √ 100
- Kết luận: μ= X ± ε = 11, 96 ± 0,3722 hay khoảng ước lượng μlà (11,5878; 12,3322)
B) Gọi n’ là số sinh viên cần khảo sát. Ta cần tìm n sao cho độ tin cậy 1-α =0 , 95 và
0,3722
ε '= =0 ,1861
2
- Tra bảng hàm số Laplace:
1− α 0 , 95
φ (Z α /2 )= = = 0,475 => Z α / 2=1,96
2 2
- Tính sai số:
S 2,256 1 ,96.2,256
2
ε '=Z α . = 1.96. = 0,1861=> n’ = ( ) = 564
2 √n ' √ n' 0,1861
- Kết luận: Số sinh viên cần khảo sát thêm là: n’-n=564-100=464
III. Ước lượng tỉ lệ

- Giả sử tổng thể có hai loại phần tử, một trong hai loại có tính chất A nào đó. Ta cần
ước lượng tỉ lệ P các phần tử có tính chất A của tổng thể với độ tin cậy 1 – α cho
trước. Giả sử ta có một mẫu ngẫu nhiên gồm n phần tử của tổng thể (n ≥ 30) và f là
tỉ lệ các phần tử có tính chất A trong mẫu.
- Tính bởi công thức ε =Z α .
2 √ f (1− f )
n
(tra bảng Laplace)
- Khoảng ước lượng của f là (f-ε ;f+ε )
IV. Xác định cỡ mẫu

1. Trường hợp ước lượng tỉ lệ
- Từ công thức tính độ chính xác của bài toán ước lượng tỷ lệ, ta có:
- Nếu kết quả không phải số nguyên, lấy phần nguyên cộng 1
2. Trường hợp ước lượng giá trị trung bình
- Từ công thức tính độ chính xác của bài toán ước lượng giá trị trung bình, ta có:
*Đo ngẫu nhiên 10 sản phẩm có chiều dài trung bình 10,02 (m), độ lệch mẫu hiệu
chỉnh 0,04 (m), ước lượng chiều dài trung bình của sản phẩm với độ tin cậy 95%
X= 10,02
N=10. S=0,04
Gọi μlà chiều dài trung bình của sản phẩm. Ta cần ước lượng μ với độ tin cậy 1-α =
0,95 (suy ra α = 0,05)
- Tính mẫu: Theo đề bài ta có n=10, X=10,02, S=¿0,04
- Tra bảng: Vì n<30 và không biết phương sai tổng thể nên ta tra bảng phân phối
α
Student dòng n-1=9, cột =¿ 0,025, ta được T n −1. α = 2,262
2 2
S 0 , 04
- Tính sai số: ε =T n− 1. α . = 2,262. =¿ 0,0286 (m)
2 √n √ 10
- Kết luận: μ= X ± ε = 10 , 02± 0,0286 hay khoảng ước lượng μlà (9,9914; 10,0486)
*Khảo sát 25 sinh viên đại học X, thời gian tự học trung bình là 68 phút một ngày và
độ lệch mẫu hiệu chỉnh 12p/ngày. Ước lượng thời gian tự học trung bình của sinh
viên toàn trường với độ tin cậy 99%, cho biết thời gian tự học trung bình của sinh
viên
Gọi μlà thời gian tự học trung bình của sinh viên. Ta cần ước lượng μ với độ tin cậy
1-α = 0,99 (suy ra α = 0,01)
- Tính mẫu: Theo đề bài ta có n=25, X=68, S=¿12
α
2 2
S 12
- Tính sai số: ε =T n− 1. α . = 2,797. =¿6,7128 (p)
2 √n √25
- Kết luận: μ= X ± ε = 68 ± 0,0286 hay khoảng ước lượng μlà (61,2872;74,7128)
4.7
Gọi μlà khối lượng trung bình của trái cây ở nông trang. Ta cần ước lượng μ với độ
tin cậy 90,106% suy ra 1-α =0,9106
- Tra bảng: Vì n>30 và chưa biết phương sai của tổng thể nên tra bảng Laplace
1− α
φ (Z α /2 )= = 0,45053 suy ra Z α =¿1,65
2 2
S 28,4708
- Tính sai số: ε =Z α . = 1,65. =¿4,3998
2 √n √ 114
- Kết luận: μ= X ± ε = 98,1579 ± 4,3998 hay khoảng ước lượng μlà
(93,7581;102,5577)
4.2
Gọi μlà thời gian trunhg bình của một cuộc điện đàm đường dài vào những ngày cuối
tuần. Ta cần ước lượng μ với độ tin cậy 99% suy ra 1-α =0,99 (suy ra α = 0,01)
α
2 2
S 5 ,1
- Tính sai số: ε =T n− 1. α . = 2,797. =¿2,8529
2 √n √25
- Kết luận: μ= X ± ε = 98,1579 ± 2,8529
4.6
A) * Gọi μlà chiều ca0 trunhg bình của cây con loại 1. Ta cần ước lượng μ với độ tin
cậy 99% suy ra 1-α =0,9 (suy ra α = 0,1)
- Tính mẫu: Cây con loại 1 có chiều cao từ 18 cm trở lên, suy ra : n=25, X=15,8 , S=¿
5,1
α
2 2
S 0,3732
- Tính sai số: ε =T n− 1. α . = 1,725. =¿0,1405
2 √n √ 21
- Kết luận: μ= X ± ε = 21 ± 0,1405
* Gọi μlà tỷ lệ cây con loại 1 trong vườn ươm. Ta cần ước lượng μ với độ tin cậy 1-α
=0,9 (suy ra α = 0,1)
- Tính mẫu: Theo đề bài ta có n=40, F= 21/40 = 0,525
1− α
- Tra bảng Laplace(Tính tỷ lệ bắt buộc ℒ ):φ (Z α /2 )= = 0,45 suy ra Z α =¿1,65
2 2
- Tính sai số: ε =Z α .

2 √ f (1− f )
n
=¿1,65.
√
0525(1− 0,525)
40
= 0,1303
- Kết luận: μ= X ± ε = 0,525 ± 0,1303

B) Gọi n’ là số cây cần khảo sát thêm khi sai số giảm đi 1 nửa và độ tin cậy 95%
- Tra lại bảng Laplace, suy ra: Z α =¿1,96

2
0,1302
ε '= =0,0651
2
- Sai số: ε '=Z α .
2
2 √ f (1− f )
n
=¿1,96.
√
0525(1− 0,525)
n'
suy ra n’=
1, 96 .0,525 .(1 −0,525)

=226 (cây)
0,06512
Số cây cần khảo sát thêm là: n=226-40= 186 (cây)
Chương 6: Kiểm định giả thuyết
I. Khái niệm
- Các đặc trưng của mẫu ngoài việc sử dụng để ước lượng các đặc trưng của tổng thể
còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay sai.
Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả
thuyết.
II. Giả thuyết H0 và giả thuyết H1
- Giả sử tổng thể có đặc trưng θ chưa biết. Với giá trị cụ thể θ0 cho trước nào đó, ta
cần kiểm định giả thuyết H0: θ = θ0 (kiểm định hai bên) hoặc θ ≥ θ0 hay θ ≤ θ0 (kiểm
định một bên).
- Giả thuyết H1 là kết quả ngược lại của giả thuyết H0. Nếu H1 đúng thì H0 sai và
ngược lại
1. Kiểm định hai bên: H0: θ=θ0 H1: θ ≠ θ0 (miền bác bỏ nằm về hai phía của miền
chấp nhận)
2. Kiểm định một bên:
- Kiểm định bên phải: H0: θ ≤ θ0 H1: θ ≥ θ0 (miền bác bỏ nằm về phía bên phải của miền
chấp nhận
- Kiểm định bên trái: H0: θ ≥ θ0 H1: θ ≤ θ0 (miền bác bỏ nằm về phía nên trái của miền
chấp nhận)
III. Sai lầm loại 2, sai lầm loại 2

- Chỉ dựa vào một mẫu để kết luận tổng thể nên ta có thể phạm sai lầm khi đưa ra kết
luận về giả thuyết H0.
- Sai lầm loại một: Giả thuyết H0 đúng nhưng ta bác bỏ nó.
- Sai lầm loại hai: Giả thuyết H0 sai nhưng ta chấp nhận nó.
- Khi kiểm định, người ta mong muốn khả năng mắc sai lầm loại một không vượt quá
một số α cho trước, nghĩa là xác suất bác bỏ H0 khi nó đúng là α thì xác suất chấp
nhận nó là 1–α. Ta gọi α là mức ý nghĩa của kiểm định.
- Trong một bài toán kiểm định, nếu khả năng phạm sai lầm loại một giảm thì khả
năng phạm sai lầm loại hai lại tăng lên. Do đó người ta thường chọn α trong khoảng
từ 1% đến 10%
IV. Các bước thực hiện

Bước 1. Thiết lập giả thuyết H0 và H1.
Bước 2. Tính giá trị kiểm định. (Mỗi loại kiểm định có công thức riêng nhằm đánh giá
giả thuyết).
Bước 3. Chọn mức ý nghĩa α và xác định miền bác bỏ giả thuyết (nếu giá trị kiểm
định nằm trong miền này thì H0 bị bác bỏ).
Bước 4. Đưa ra kết luận về mặt thống kê, nghĩa là ở một mức ý nghĩa α nào đó ta sẽ
bác bỏ hay chấp nhận giả thuyết H0.
Bước 5. Kết luận cuối cùng về nội dung bài toán nhằm trả lời một cách rõ ràng câu
hỏi mà bài toán đặt ra (không dùng thuật ngữ thống kê).
V. Kiểm định giả thuyết về trung bình của tông thể

1. Bài toán
Giả sử ta có một mẫu gồm n quan sát được chọn từ tổng thể. Gọi μ, σ2, X ̅, S2 lần lượt
là trung bình, phương sai của tổng thể; trung bình, phương sai mẫu hiệu chỉnh. Ta cần
kiểm định giả thuyết: H0: μ=μ 0 H1: μ ≠ μ 0
( μ0 là một giá trị cụ thể) với mức ý nghĩa α cho trước. Việc kiểm định được thực hiện
như sau:
2. Trường hợp đã biết phương sai của tổng thể
X − μ0
- Công thức tính giá trị kiểm định: Z= √n
σ
- Quy tắc quyết định: Bác bỏ H0 ở mức ý nghĩa α nếu |Z|> Z α (ngược lại ta chấp nhận
2
H0 ở mức ý nghĩa α )
- Ta nhận thấy có sự liên hệ giữa ước lượng và kiểm định giả thuyết, cụ thể, giả thuyết
H0 bị bác bỏ với mức ý nghĩa α khi và chỉ khi khoảng ước lượng (với độ tin cậy (1 –
α) của μ không chứa số μ0.
Ví dụ 1. Một máy đóng mì gói tự động quy định khối lượng trung bình là 75 gam, độ
lệch tiêu chuẩn là 15 gam. Sau một thời gian sản xuất, kiểm tra 80 gói ta có khối
lượng trung bình mỗi gói là 72 gam. Hãy kết luận về tình hình sản xuất với mức ý
nghĩa 5%. Tìm giá trị p.
Giải.
Tổng thể là toàn bộ số gói mì do máy đó đóng gói. Theo quy định thì khối lượng
trung bình của mỗi gói phải là 75 gam, nhưng trên thực tế thì khối lượng trung bình là
μ chưa biết. Ta có giả thuyết: H0: μ=75 H1: μ ≠75
(đúng như quy định). Nếu giả thuyết đúng thì tình hình sản xuất bình thường. Nếu giả
thuyết sai thì tình hình sản xuất không bình thường. Ta cần kiểm định giả thuyết đó ở
mức ý nghĩa 5%.
Theo đề bài ta có X=72, n=80
Phương sai của tổng thể đã biết, do đó giá trị kiểm định:
X − μ0 72− 75
Z= √ n = 15 √ 80 = -1,78875 ≈ −1 , 79
σ
Từ mức ý nghĩa α = 0,05, tra bảng hàm số Laplace, ta có:
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì |Z| = 1,79 < Z α nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở
2
mức ý nghĩa 5%
Bây giờ ta thấy giả thuyết H0 sẽ bị bác bỏ ở bất kì giá trị nào của α sao cho Z α < 1,79.
2
Tra bảng hàm số Laplace, ta có:

1− α
φ (1 ,79)=0,4633= =¿ α=1 −2 x 0,4633=0,0734
2
Suy ra giả thuyết H0 sẽ bị bác bỏ ở bất kì ý nghĩa nào lớn hơn 7,346%. Vậy p=0,0736.
3. Giá trị p
- Giả sử khi kiểm định một giả thuyết H0 nào đó, ta đã kết luận bác bỏ nó ở mức ý
nghĩa 10%.
- Khi đó ta cũng có thể bác bỏ ở mức ý nghĩa cao hơn, chẳng hạn, 12%, 15%. Vấn đề
đặt ra là liệu có thể bác bỏ ở mức ý nghĩa nhỏ hơn 10%? Nói cách khác, ta cần xác
định mức ý nghĩa nhỏ nhất mà ở đó giả thuyết H0 bị bác bỏ.
- Mức ý nghĩa nhỏ nhất đó gọi là giá trị p. Giá trị p được xem như một “mức ý nghĩa
tiêu chuẩn”, gắn liền với từng trường hợp cụ thể. Do vậy, thay vì định trước mức ý
nghĩa α, người ta thường xác định giá trị p. (Khi việc tính toán được thực hiện bằng
các chương trình xử lí dữ liệu thì kết quả tính được bằng máy tính luôn thể hiện giá trị
p).
Ví dụ 2. Một hãng sản xuất lốp xe ôtô tuyên bố sản phẩm của hãng có thể sử dụng
100.000 km, độ lệch tiêu chuẩn bằng 12.000 km. Một công ty vận tải mua 64 lốp xe,
sau một thời gian sử dụng thấy độ bền trung bình là 98.500 km. Hãy kết luận về tuyên
bố của hãng sản xuất lốp xe với mức ý nghĩa 5%.
X − μ0 98500 −100000
Z= √n = √64 = -1
σ 12000
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì |Z| = 1 < Z α nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở
2
mức ý nghĩa 5%
Bây giờ ta thấy giả thuyết H0 sẽ bị bác bỏ ở bất kì giá trị nào của α sao cho Z α < 1.
2
Tra bảng hàm số Laplace, ta có:

1 −α
φ (1)=0,3413= =¿ α =1− 2 x 0,3413=¿0,3174
2
Suy ra giả thuyết H0 sẽ bị bác bỏ ở bất kì ý nghĩa nào lớn hơn 31,74%. Vậy p=0,3174.
Bảng tóm tắt trường hợp kiểm định hai bên và một bên:
Giả thuyết Bác bỏ H0 khi
H0: μ=μ 0; H1: μ ≠ μ 0 |Z|> Z α

2
H0: μ ≥ μ 0; H1: μ< μ0 Z < -Zα

H0: μ ≤ μ 0; H1: μ> μ0 Z > Zα
Ví dụ 3. Một hãng sản xuất lốp xe ôtô tuyên bố sản phẩm của hãng có thể sử dụng
không dưới 100.000 km, độ lệch tiêu chuẩn bằng 12.000 km. Một công ty vận tải mua
64 lốp xe, sau một thời gian sử dụng thấy độ bền trung bình là 98 500 km. Hãy kết
luận về tuyên bố của hãng sản xuất lốp xe với mức ý nghĩa 5%.
X − μ0 98500 −100000
Z= √n = √64 = -1
σ 12000
1 α 1 −0 , 05
φ ¿) = − = =0,475=¿ Z α =1, 96
2 2 2 2
Vì Z = -1 < Zα nên giả thuyết H0 đúng. Vậy tình hình sản xuất vẫn bình thường ở mức
ý nghĩa 5%
4. Chưa biết phương sai của tổng thể
X − μ0
- N ≥ 30: Z= √ n (quy tắc quyết định như đã biết phương sai của tổng thể)
S
X − μ0
- N < 30: T = √n
S
Chú ý: Trong tất cả trường hợp, giả thuyết H0: μ ≠ μ 0 thì
+ Với X > μ0 ta kết luận μ> μ0
+ Với X < μ0 ta kết luận μ< μ0
Bảng tóm tắt trường hợp kiểm định hai bên và một bên khi n ≥ 30:
H0: μ=μ 0; H1: μ ≠ μ 0 |Z|> Z α

2
H0: μ ≥ μ 0; H1: μ< μ0 Z < -Zα

H0: μ ≤ μ 0; H1: μ> μ0 Z > Zα
Trường hợp n< 30 chưa biết phương sai, ta có bảng:

H0: μ=μ 0; H1: μ ≠ μ 0 |T |>T α

n −1 ,
2
H0: μ ≥ μ 0; H1: μ< μ0 T < -T n −1 ,α

H0: μ ≤ μ 0; H1: μ> μ0 T > T n −1 ,α
Ví dụ 3. Một nhà máy sản xuất đèn chụp hình cho biết tuổi thọ trung bình của sản
phẩm là 100 giờ. Người ta chọn ngẫu nhiên 15 bóng thử nghiệm thấy tuổi thọ trung
bình là 99,7 giờ, phương sai mẫu hiệu chỉnh là 0,15. Giả sử tuổi thọ của đèn có phân
phối chuẩn. Cho kết luận về tình hình sản xuất của nhà máy với mức ý nghĩa 1%
Giải:
Ta có giả thuyết: H0: μ=100 ; H1: μ ≠100
Ta có n=15; X=99,7; S2 = 0,15; α = 0,01 suy ra α/2 = 0,005
Tra bảng Student dòng 14, cột 0,005: T14;0,005 = 2,977
X − μ0 99 ,7 − 100
Suy ra T = √n = √ 15 = -3
S √ 0 ,15
Vì |T |>¿ T14;0,005 = 2,977 nên ta bác bỏ H0
Vậy tuổi thọ bóng đèn thấp hơn 100h (X=99,7 <100 = μ0)
Ví dụ 4. Một loại đèn chiếu được nhà sản xuất quảng cáo có tuổi thọ trung bình thấp
nhất là 65 giờ. Kết quả kiểm tra ngẫu nhiên 21 đèn cho thấy tuổi thọ trung bình là
62,5 giờ, S=3 giờ. Với mức ý nghĩa 1% có thể kết luận gì về lời quảng cáo đó?
Giải:
Ta có giả thuyết: H0: μ ≥ 65; H1: μ<65
Ta có n=21; X=62,5; S=3; α = 0,01 suy ra α/2 = 0,005
Tra bảng Student dòng 20, cột 0,005: T14;0,005 = 2,845
X − μ0 62 ,5 −65
Suy ra T = √n = √ 21= -3,8188
S 3
Vì |T |>¿ T14;0,005 = 2,845 nên ta bác bỏ H0
Vậy tuổi thọ bóng đèn thấp hơn 65h (X=62,5 < 65 = μ0)
Ví dụ 5. Năng suất lúa trung bình ở vụ trước là 4,5 tấn/ha. Vụ lúa năm nay người ta áp
dụng biện pháp kĩ thuật mới cho toàn bộ diện tích trồng lúa trong vùng. Theo dõi 100
ha, ta có bảng năng suất lúa sau đây
Năng suất (tạ/ha) Diện tích (ha) Năng suất (tạ/ha) Diện tích (ha)
30 -35 7 50-55 20
35-40 12 55-60 8
40-45 18 60-65 5
45-50 27 65-70 3
Với α=0,01 hãy kết luận về biện pháp kĩ thuật mới.

Ta có giả thuyết: H0: μ ≥ 45; H1: μ<¿ 45
Ta có n=100; X=47,5; S=8,3131; α = 0,01
1 α 1 −0 , 01
φ ¿) = − = =0,495=¿ Z α =¿ 2,57
2 2 2 2
X − μ0 47 , 5 − 45
Suy ra Z= √ n = 8,3131 √ 100= 3,007
S
Vì Z = 3 > - Zα nên giả thuyết H0 đúng. Vậy biện pháp lỹ thuật mới cho ra năng suất
cao hơn biện pháp kỹ thuật cũ.
5. Kiểm định trung bình của tổng thể trên hai mẫu
- Hai mẫu X và Y ngẫu nhiên, độc lập từ hai tổng thể có phân phối chuẩn.
- nx , ny là kích thước hai mẫu
- μ x , μ y ; σ 2x , σ 2y ; X , Y ; S 2x , S2y lần lượt là trung bình của tổng thể, phương sai của tổng
thể, trung bình mẫu, phương sai mẫu hiệu chỉnh tương ứng với hai mẫu đó.
- Cần kiểm định giả thuyết với mức ý nghĩa α
H0: μ x =μ y ; H1: μ x ≠ μ y
H0: μ x ≥ μ y ; H1: μ x < μ y
H0: μ x ≤ μ y ; H1: μ x > μ y
a. Trường hợp đã biết phương sai của hai tổng thể:
b. Trường hợp chưa biết phương sai của tổng thể mà n ≥ 30:
Hai trường hợp trên có nguyên tắc bác bỏ sau:

H0: μ x =μ y ; H1: μ x ≠ μ y |Z|> Z α

2
H0: μ x ≥ μ y ; H1: μ x < μ y Z < -Zα

H0: μ x ≤ μ y ; H1: μ x > μ y Z > Zα
- Trong trường hợp giả thuyết H0: μ x =μ y bị bác bỏ:
+ Nếu X > Y thì ta kết luận μ x > μ y
+ Nếu X < Y thì ta kết luận μ x < μ y
Ví dụ 6. Một trại chăn nuôi chọn một giống gà để tiến hành nghiên cứu hiệu quả của
hai loại thức ăn A và B. Sau một thời gian nuôi thử nghiệm người ta chọn 50 con gà
nuôi bằng thức ăn A thì thấy khối lượng trung bình là 2,2 kg, độ lệch mẫu hiệu chỉnh
là 1,25 kg. Chọn 40 con gà nuôi bằng thức ăn B thì thấy khối lượng trung bình 1,2 kg,
độ lệch mẫu hiệu chỉnh 1,02 kg. Hãy đánh giá hiệu quả của hai loại thức ăn đó với
mức ý nghĩa 1%.
Giải:
Gọi μ A , μB lần lượt là khối lượng trung bình của một con gà nuôi bằng thức ăn A,B.
Ta đặt giả thuyết: H0: μ A =μB ; H1: μ A ≠ μB
Nếu giả thuyết H0 đúng thì hiệu quả của hai loại thức ăn như nhau. Nếu giả thuyết H0
sai thì có sự khác biệt. Ta kiểm định giả thuyết ở mức ý nghĩa 1%.
Theo đề bài: nA = 50; XA = 2,2; SA = 1,25
nB = 40; XB = 1,2; SB = 1,02; Z α =2,58

2
X A − XB 2 , 2− 1 ,2
Z=
√ √
2 2
Giá trik kiểm định S A S B = 1 ,25 2 1 ,022 = 4,179
+ +
nA nB 50 40
Vì Z > Z α nên ta ác bỏ giả thuyết H0 , nghĩa là hiệu quả của hai loại thức ăn khác
2
nhau.
Mặt khác ta thấy XA > XB nên μ A > μ B, nghĩa là khối lượng trung bình của một con gà
nuôi bằng thức ăn A lớn hơn so với nuôi bằng thức ăn B. Vậy thức ăn A có hiệu quả
hơn (ở mức ý nghĩa 1%)
Ví dụ 7. Nghiên cứu về hai nhãn hiệu pin X và Y. Chọn ngẫu nhiên mỗi loại 100 pin,
kết quả ghi nhận được như sau. Pin X có thời gian sử dụng trung bình là 308 phút, độ
lệch mẫu hiệu chỉnh là 54 phút. Đối vối pin Y các chỉ số tương ứng là 286 và 40 phút.
Có ý kiến cho rằng thời gian sử dụng trung bình của pin X lớn hơn pin Y. Với mức ý
nghĩa  = 0,01 bạn có nhận xét gì về ý kiến trên?

NLTK LT

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

NLTK LT

Uploaded by

Copyright:

Available Formats

Chương 1: Giới thiệu môn học

I. Khái niệm và chức năng

2. Khái niệm cơ bản

a. Tổng thể, đơn vị tổng thể, mẫu

Chương 2: Thu thập dữ liệu

II. Phương pháp

- Phỏng vấn điện thoại

III. Cấp bậc đo lường và thang đo dữ liệu

IV. Kỹ thuật chọn mẫu

II. Nội dung phiếu câu hỏi khảo sát

Chương 3: Trình bày dữ liệu

I. Trình bày dữ liệu định tính

3. Cách lập bảng tần số, tần suất

- Có hai trường hợp:

k: Số nhóm Xmax: GTLN

Phân nhóm, lập bảng, vẽ biểu đồBài tập 2.1, 2.2 GT

- Có thể dùng để mô tả hai đặc điểm thống kê

III. Đồ thị thống kê

2. Cho dữ liệu định tính

- Biểu đồ dạng thanh (Bar chart):

I. Đặc trưng đo lường khuynh hướng tập trung

tử thứ i. Khi đó trung bình cộng của tổng thể là:

bình cộng của mẫu (hay trung bình mẫu) là :

(fi là trọng số, tần số của gá trị Xi)

- Dùng để so sánh giữa hai hay nhiều tổng thể

b. Cách xác định:

- Không phân nhóm: Là giá trị có tần số lớn nhất

c. Đặc điểm của mốt

- Không bị ảnh hưởng bởi các giá trị đột biến

a. Cách xác định trung vị

- Không phân nhóm:

+ Áp dụng công thức:

6. Tứ phân vị - thập phân vị

- Là chỉ tiêu đo lường độ phân tán

a. Tứ phân vị: Chia dãy số thành bố phần

- Cách xác định

+Dữ liệu phân nhóm có khoảng cách:

XQi min :giới hạn dưới của nhóm chứa Qi

b. Thập phân vị: chia dãy số thành 10 phần bằng nhau

- Tương tự cách tính tứ phân vị:

IV. Các đặc trưng đo lường độ phân tán

1. Khoảng biến thiên (R)

2. Độ trải giữa: (RQ’)

- Chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ nhất

3. Độ lệch tuyệt đối trung bình ( )

+Mẫu hệu chỉnh:

5. Độ lệch tiêu chuẩn

- Căn bậc hai của phương sai

a. Quy tắc Tchebychev:

giá trị rơi vào khoảng μ±mσ, với m>1.

b. Quy tắc thực nghiệm:

+ Khoảng 68% giá trị rơi vào khoảng ± σ.

+ Khoảng 95% giá trị rơi vào khoảng ± 2σ.

+ Khoảng 99,7% giá trị rơi vào khoảng ± 3σ

7. Chuẩn hóa dữ liệu

- z gần đến 0: quan sát ở rất gần trung bình

Toán: , Anh Văn:

V. Khảo sát hình dáng phân phối của dữ liệu:

- Phân phối đối xứng: μ = Me (hoặc ).

- Phân phối lệch phải khi μ > Me (hoặc ).

- Phân phối lệch trái khi μ < Me (hoặc ).

2. PP tính hệ số lệch Pearson

a. Hệ số lệch xác định cho mẫu:

- Sk là hệ số lệch, S ̂là độ lệch mẫu, Me là số trung vị.