XSTK Lý Thuyết Mẫu

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

Bài 4: LÝ THUYẾT MẪU

* Giảng viên:
1. Đỗ Thị Phương Quỳnh
2. Đỗ Thị Hồng Nga
3. Lê Thị Huyền My
Mục tiêu học tập:
Kiến thức:

1. Trình bày được các tham số đặc trưng của mẫu.

2. Vận dụng kiến thức về lý thuyết mẫu để xử lý dữ liệu trong bài toán cụ thể.

Kĩ năng:

3.Tính được các tham số đặc trưng của mẫu.

Nội dung bài giảng:


4.1. Tổng thể và mẫu
Trong thực tế thường phải nghiên cứu một tập hợp các phần tử đồng nhất theo một
hay nhiều dấu hiệu định tính hoặc định lượng đặc trưng cho các phần tử đó. Chẳng hạn
một bệnh viện phải nghiên cứu tập hợp các bệnh nhân thì dấu hiệu định tính có thể là
mức độ hài lòng của bệnh nhân đối với bệnh viện, còn dấu hiệu định lượng là số lượng
bệnh nhân có nhu cầu đến khám.
 Định nghĩa 4.1 (Định nghĩa tổng thể)
Toàn bộ tập hợp các phần tử đồng nhất theo một định tính hoặc định lượng nào
đó được gọi là tổng thể.
Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể, ký hiệu là
N. Kích thước của tổng thể có thể hữu hạn hoặc vô hạn.
Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua dấu hiệu
 đặc trưng cho tổng thể đó.
Trong thực tế vì các điều kiện hạn chế ta không thể sử dụng phương pháp nghiên
cứu toàn bộ tức là nghiên cứu trên tập hợp tất cả các đối tượng của tổng thể, (phương
pháp này thường chỉ được áp dụng đối với các tập hợp có quy mô nhỏ), mà chủ yếu sử
dụng phương pháp chọn mẫu, tức là từ tập hợp cần nghiên cứu chọn ra một số phần tử
(gọi là mẫu), phân tích các phần tử này và dựa vào đó mà suy ra các kết luận về tổng thể
cần nghiên cứu. Số phần tử của tập hợp mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu
là n.
 Định nghĩa 4.2 (Định nghĩa mẫu ngẫu nhiên)
Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc lập
X 1 , X 2 ,..., X n được thành lập từ biến ngẫu nhiên X trong tổng thể nghiên cứu và có cùng

quy luật phân phối xác suất với X. Ký hiệu W   X 1 , X 2 ,..., X n  .


Cần lấy mẫu ngẫu nhiên, khách quan sao cho tính chất của tập hợp mẫu phản ánh
đúng tính chất của tổng thể.
Có hai cách lấy các phần tử ra để nghiên cứu:
Lấy mẫu ngẫu nhiên có hoàn lại: Rút ngẫu nhiên từ một tập nào đó ra một phần
tử. Ghi lại các số liệu cần thiết, sau đó trả nó trở lại tập ban đầu trước khi rút tiếp ngẫu
nhiên lần sau.
Lấy mẫu ngẫu nhiên không hoàn lại: Tương tự như trên, chỉ khác ở chỗ các phần
tử được rút ra sẽ không được trả lại tập ban đầu.
4.2. Phân bố thực nghiệm
 Trường hợp ít số liệu: Nếu dung lượng mẫu nhỏ, ta trình bày mẫu dưới dạng
bảng:
Giá trị xi x1 x2 ... xk ......
Số lần lặp ( mi ) m1 m2 ... mk .......
k
Với  mi  n là dung lượng mẫu (cỡ mẫu).
i 1

Các giá trị x1 , x 2 ,..., x n được sắp xếp theo chiều tăng dần hoặc giảm dần.
 Trường hợp nhiều số liệu: Với những nghiên cứu có kích thước mẫu n rất lớn, để
tính các tham số mẫu thuận tiện mà sai số không đáng kể, có thể phân chia số liệu thành
nhiều lớp.
Nếu gọi k là số lớp định chia, x max là giá trị lớn nhất trong mẫu, x min là giá trị nhỏ
nhất trong mẫu thì độ dài mỗi lớp được xác định:
x max  x min
d (4.1)
k
Khi đó: lớp thứ nhất chứa số liệu từ x min  x min  d
lớp thứ hai chứa số liệu từ x min  d  x min  2d
lớp thứ k chứa số liệu từ x max  d  x max
Chú ý:
Để tránh trường hợp số liệu có thể vừa rơi vào lớp này vừa rơi vào lớp bên cạnh,
ta quy ước dùng nửa khoảng.
Nếu số liệu mẫu đã làm tròn đến đơn vị, độ dài mỗi lớp là h đơn vị,thì sẽ lấy mút
d d
trái của lớp đầu là x min  ; mút phải lớp cuối cùng là x max  .
2 2
Ví dụ 4.1. Trong một mẫu có dung lượng 100, với: x min  103 ; x max  157
Ta định chia mỗi lớp có độ dài d  3 . Khi đó:
d 3
Lớp đầu tiên chứa số liệu trong khoảng x min   103   101,5  104,5
2 2
Lớp thứ hai chứa số liệu từ 104,5  107,5
Lớp cuối cùng chứa số liệu từ 155,5  158,5
Các số liệu của mẫu sau khi đã được chia thành lớp, ta sẽ lấy trung bình của lớp đó
làm số đại diện cho toàn lớp. Số số liệu xuất hiện trong mẫu là số lần lặp của số liệu trung
bình của lớp. Khi đó ta có bảng phân bố thực nghiệm trình bày như ở trường hợp ít số
liệu.
4.3. Đa giác tần suất và tổ chức đồ
Để mô tả số liệu mẫu một cách rõ ràng hơn cho phép đưa ra những nhận xét sơ bộ
ban đầu về tổng thể, người ta còn xây dựng các loại đồ thị khác nhau của phân bố thực
nghiệm.
 Định nghĩa 4.3
Đa giác tần số là một đường gãy khúc mà các đoạn thẳng của nó nối các điểm
(x1 , m1 ),(x 2 , m2 ),...,(x n , mn ) trên mặt phẳng.
Đa giác tần suất là một đường gãy khúc mà các đoạn thẳng của nó nối các điểm
mi
(x1 ,f1 ),(x 2 ,f 2 ),...,(x n ,f n ) trên mặt phẳng. Trong đó fi  .
n
Ví dụ 4.2. Vẽ đa giác tần suất của phân bố thực nghiệm cho ở bảng sau:
xi 17 19 20 22 24
mi 1 2 4 2 1
fi 0,1 0,2 0,4 0.2 0,1

fi

0.4

0.3

0.2

0.1

O xi
17 19 20 22 24

Hình 4.1. Đa giác tần suất.


Đa giác tần suất thường được dùng để mô tả các số liệu mẫu theo thời gian.
Khi dấu hiệu nghiên cứu có phân phối liên tục thì nên xây dựng biểu đồ tần số hay
biểu đồ tần suất còn gọi là tổ chức đồ.
 Định nghĩa 4.4
Tổ chức đồ:Nếu số liệu được chia thành lớp, thì mỗi lớp được biểu diễn bằng một
mi
hình chữ nhật có đáy là độ dài d của lớp đó đặt trên trục OX và chiều cao là (với biểu
d
fi m
đồ tần số) hay (với biểu đồ tần suất và fi  i ) của lớp đó.
d n
Ví dụ 4.3. Vẽ biểu đồ tần số của phân bố thực nghiệm cho ở bảng sau:
mi
Đoạn giá trị độ dài d=5 Tần số mi
d
5-10 10 2
10-15 26 5,2
15-20 56 11,2
20-25 64 12,8
25-30 30 6
30-35 14 2,8

13 mi
12 d
11
10
9
8
7
6
5
4
3
2
1
O 5 10 15 20 25 30 35 xi

Hình 4.2. Biểu đồ tần số.


4.4. Tham số mẫu
4.4.1. Trung bình mẫu
 Định nghĩa 4.5
Cho mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên gốc X:

Wx   X 1 , X 2 ,..., X n  . Trung bình mẫu là một thống kê, ký hiệu là X và là trung bình số

học của các giá trị mẫu:


1 1 n
X   X1  X 2  ...  X n    Xi (4.2)
n n i1
Khi mẫu nhận một giá trị cụ thể w   x1 , x 2 ,..., x n  thì trung bình mẫu cũng nhận

1 n 1 k
giá trị cụ thể bằng: X  
n i 1
x i hoặc X   mi x i ( mi là các tần số tương ứng của xi).
n i 1
Ví dụ 4.4. Cho bảng số liệu sau:
xi 35,6 35,9 36,1 36,2 36,6
ni 1 3 3 2 1

1.35,6  3.35,9  3.36,1  2.36,2  1.36,6


Khi đó: X   36,06
10
 Tính chất:Nếu đại lượng ngẫu nhiên gốc Xcó kỳ vọng E ( X )   và phương sai

2
D( X )   2 , thì thống kê X có: E ( X )   và D( X )  .
n

Do vậy, bất kể đại lượng ngẫu nhiên gốc phân phối theo quy luật nào, thống kê X
cũng có kỳ vọng bằng kỳ vọng của đại lượng ngẫu nhiên gốc X, còn phương sai của nó
nhỏ hơn n lần phương sai của đại lượng ngẫu nhiên gốc X. Do đó các giá trị có thể có của
X ổn định xung quanh kỳ vọng toán ahơn các giá trị có thể có của X.
4.4.2. Phương sai mẫu
 Định nghĩa 4.6
Cho mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên gốc X:
Wx   X 1 , X 2 ,..., X n  . Phương sai mẫu là một thống kê, ký hiệu là S 2 và xác định bởi
công thức:
1 n 1 n
 
2
S2  (X i  X) 2
 Xi  X (4.3)
n i1 n i 1
Xét ví dụ 4.4, ta có:
1
S2  1.(35,6  36,06)2  3.(35,9  35,06) 2  ...  1.(36,6  36,06)2   0,0624
10
Trong thống kê toán, ngoài phương sai mẫu, còn dùng phương sai mẫu điều chỉnh S' 2
.
n 2 1 n
  
2
S' 2  S  Xi  X (4.4)
n 1 n  1 i1
Nếu lấy căn bậc hai của phương sai mẫu S 2 và phương sai S '2 , ta có các thống kê
tương ứng gọi làđộ lệch tiêu chuẩn mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh:

1 n
 Xi  X   1 n

 Xi  X 
2 2
S S  2
và S  S 
' '2
(4.5)
n i1 n  1 i1

4.4.3. Phương pháp tính các giá trị của các thống kê thông dụng X ; S2
Giả sử có mẫu ngẫu nhiên cụ thể: w    x1 , x 2 ,..., x n  .

 Nếu tần số của các xi đều bằng 1 thì sử dụng cặp công thức:
 1 n
X  n  x i
i 1
 n n
(4.6)
2 1 2 1
S   (x  X)   x  (X)
2 2
 n i 1
i
n i 1
i

Ví dụ 4.5. Tính X ; S ; S' của một mẫu Wx   6,5,1 .

Giải: Từ mẫu đã cho ta lập được bảng sau:

 x  X
2
X xi  X i

6 (6 - 4)=2 4
5 1 1
1 -3 9

12 14

1 1 14 n 2 3 14
Ta có: X  .12  4 S2  .14   S' 2  S  .  7;
3 3 3 n 1 2 3
14
S  2.16; S'  7  2,65 ;
3

 Nếu đối với x i có tần số là n i ( ni  1 ) thì X và S 2 được tính theo công thức:
 1 k
 X   ni xi
n i 1
 (4.7)
   
k
S2  1  n x  X 1 k
  nixi2  X
2 2

 n i 1
i i
n i 1
Ví dụ 4.6. Gọi X là áp lực động mạch phổi thời tâm trương người bình thường. Đo 30
người thu được kết quả sau:
Giá trị x i (mm Hg) 3 4 5 6 7 8

Số người mi 5 7 8 2 5 3

Hãy tính các tham số X và S' .


Giải: Từ số liệu đã cho, ta lập bảng tính toán sau:
xi mi mi x i mi x i2
3 5 15 45
4 7 28 112
5 8 40 200
6 2 12 72
7 5 35 245
8 3 24 192

 mi  30  mi xi  154  mi xi2  866

Ta có:
1 1
X 154  5,13 ; S2  866  5,132  2,55
30 30
30
S'2  .2,55  2,64  S'  2,64  1,62
29
4.4.4. Mẫu thu gọn. Phương pháp đổi biến
Trong thực tế, khi các giá trị x i rất gần nhau và các tần số mi rất lớn thì việc sử
dụng các công thức trên trở nên rất khó khăn. Ta thường sử dụng mẫu thu gọn bằng cách
chia nhóm sau đây:
Giả sử từ đại lượng ngẫu nhiên X lấy ra một mẫu kích thước n được xác định cụ
thể w   x1 , x 2 ,..., x n  . Ta phân chia các số liệu (n số liệu):  x1 , x 2 ,..., x n  thành k khoảng

(k < n). Các khoảng có độ dài bằng nhau (= d) và điểm giữa mỗi khoảng là
 n  t t
t i (i  1,2,...,k) với tần số tương ứng là m1 ,m2 ,...,mk   n i  n  . Gọi h i  i 0 . Trong
 i 1  d
đó t 0 là một giá trị trong các t i (i  1,2,...,k) sao cho ứng với nó là tần số mi lớn nhất.

 1 k d k
 X 
n
 n t
i i  t 0 
n
 nihi
 i 1 i 1
Khi đó:  2  k
(4.8)
2

S2  d   n h 2  1   n h  
k

n  i 1
i i
 n  i 1
i i
 

Ví dụ 4.7. Đo chiều cao của 1948 thanh niên tuổi 17, ta được 1948 số liệu (tính
bằng cm) từ 152 đến 175 được chia thành 8 khoảng cho ở bảng sau:
Khoảng [152,155) [155,158)[158,161) [161,164)[164,167) [167,170)
chiều cao [170,173) [173,176)
Số người 263 460 540 385 204 70 20
6

Hãy tính số trung bình và phương sai của mẫu trên.


Giải: Ta thấy [158,161) có tần số 540 là lớn nhất nên ta chọn t0 trong khoảng đó
161  158
t0  t3   159,5 . Độ dài mỗi khoảng d  3 . Sử dụng công thức đổi biến
2
ti  t0
hi  (i  1,8) . Lập bảng tính toán sau:
d
Phạm vi Tần số thuộc
ti hi nihi n i h i2
khoảng khoảng ( n i )
[152,155) 153.5 263 -2 -526 1052
[155,158) 156.5 460 -1 -460 460
[158,161) 159.5 540 0 0 0
[161,164) 162.5 385 1 385 385
[164,167) 165.5 204 2 408 816
[167,170) 168.5 70 3 210 630
[170,173) 171.5 20 4 80 320
[173,176) 174.5 6 5 30 150
8 8 8
 n i  1948  n i h i  127  n i h i2  3813
i 1 i 1 i 1

Khi đó:
d k 3
X  t0  
n i1
n i h i  159.5 
1948
.127  159.7(cm)

d2 k 1 k  
2
32  1 
S   n i h i    n i h i     3813  (127) 2   17.58
2 2

n  i 1 n  i 1   1948  1948 

Ví dụ 4.8. Để nghiên cứu trọng lượng trẻ sơ sinh trong một vùng, người ta cân thử
6000 cháu, thu được số liệu sau đây:
Trọng 2500- 2600- 2700- 2800- 2900- 3000- 3100-
lượng 2600 2700 2800 2900 3000 3100 3200
Số
425 892 961 1533 1226 734 229
cháu

Tính trọng lượng trung bình và phương sai trọng lượng trẻ sơ sinh ở vùng đó.
ti  t0
Giải: Với số liệu đã cho ta có: d = 100, t 0  2850 , h i  (i  1,7)
d
Lập bảng tính toán sau:
Trọng lượng (g) ni ti hi nihi nihi2
2500 - 2600 425 2250 -3 -1275 3825
2600 - 2700 982 2650 -2 -1784 3568
2700 - 2800 961 2750 -1 -961 961
2800 - 2900 1533 2850 0 0 0
2900 - 3000 1226 2950 1 1226 1226
3000 - 3100 734 3050 2 1468 2936
3100 - 3200 229 3150 3 687 2061
Tổng 6000 - 639 14.577

100
X  2800  (639)  2839,35(gam)
Khi đó: 6000

1002 
 639    24181,58
1
S  14577 
2 2


6000  6000 

You might also like