Download as pdf or txt
Download as pdf or txt
You are on page 1of 227

HỌC VIÊN BÁO CHÍ VÀ TUYÊN TRUYỀN

GIÁO TRÌNH
THỐNG KÊ VÀ XỬ LÝ DỮ LIỆU
LƯU HÀNH NỘI BỘ

CHỦ BIÊN
ĐỖ HUYỀN TRANG

HÀ NỘI - 2014
Lời nói đầu

Thống kê là một khoa học nghiên cứu các phương pháp thu thập, tổ chức và
phân tích dữ liệu một cách khách quan, đáng tin cậy, từ đó phát hiện ra các
thông tin chân thực về đối tượng và vấn đề nghiên cứu, nhằm phục vụ cho quá
trình phân tích dự đoán và ra quyết định. Hiện nay thống kê đã được ứng dụng
rộng rãi trong hầu hết các hoạt động của con người, từ khoa học tự nhiên, kinh
tế, nông nghiệp, y học cho tới các khoa học xã hội và nhân văn.
Với định hướng cải tiến chương trình và nội dung gắn liền với thực tiễn, Học
viện Báo chí và Tuyên truyền đã bắt đầu giảng dạy môn Thống kê và xử lý dữ
liệu cho một số chuyên ngành đào tạo cử nhân của Học viện như: Kinh tế, Báo
chí, Quan hệ công chúng, Quảng cáo, Chính sách công, Công tác xã hội, Xã hội
học …. Môn học này được giảng dạy theo hướng ứng dụng trong lĩnh vực kinh
tế - xã hội và thực hành trên máy vi tính.
Giáo trình Thống kê và xử lý dữ liệu được biên soạn nhằm đáp ứng nhu cầu về
một tài liệu giảng dạy và học tập môn học phù hợp với đối tượng sinh viên Học
viện Báo chí và Tuyên truyền. Bên cạnh đó, theo xu hướng hội nhập với khu
vực và thế giới chương trình đào tạo đại học cần đổi mới, trong đó thời gian lên
lớp được giới hạn và sinh viên được khuyến khích tự tham khảo tài liệu và tự
học. Điều này cần có những tài liệu được biên soạn kỹ lưỡng và chi tiết để sinh
viên có thể tự nghiên cứu. Nội dung giáo trình được viết theo hướng ứng dụng,
nhằm cung cấp kiến thức cơ bản về các phương pháp cũng như các kỹ thuật
chuẩn bị và xử lý số liệu trong các mô hình thống kê. Tài liệu này được xây
dựng với định hướng trong kinh tế -xã hội với các ví dụ và bài tập gần gũi thực
tế, được sử dụng để giải quyết nhiều vấn đề thực tế nhờ sự phát triển của máy
vi tính. Ngày nay, cùng với sự phát triển mạnh mẽ của các công cụ tính toán
như máy vi tính, các phần mềm chuyên biệt cho phép việc tính toán trở nên dễ
dàng và nhanh chóng hơn. Trong giáo trình này, chúng tôi chủ yếu giới thiệu

2
phần mềm Excel như một công cụ để giải quyết các bài toán thống kê thông
dụng.
Giáo trình được biên soạn theo chương trình môn học “ Thống kê và xử lý dữ
liệu” với thời lượng 45- 60 tiết tương ứng với từng chuyên ngành đào tạo khác
nhau của Học viện, nhằm giúp cho người học hiểu các vấn đề lý thuyết và biết
cách vận dụng phân tích các bài toán thống kê.
Giáo trình gồm bốn chương và phần phụ lục. Trong mỗi chương, ngoài
phần cơ sở lý thuyết, còn trình bày một cách chi tiết hệ thống các ví dụ minh
họa mang tính ứng dụng thực tế để người học hiểu được kiến thức dễ dàng hơn.
Cuối mỗi chương có phần bài tập nhằm giúp người học tự kiểm tra kiến thức
của mình sau mỗi phần học. Phần phụ lục gồm hai phần: Hướng dẫn sử dụng
phần mềm Excel và SPSS trong xử lý dữ liệu thống kê và các bảng số.
Chương 1: Cơ sở lý thuyết mẫu.
Chương 2: Các khái niệm cơ bản của lý thuyết xác suất.
Chương 3: Ước lượng tham số của tổng thể.
Chương 4: Kiểm định giả thuyết thống kê.
Phụ lục: Các bảng số.và hướng dẫn sử dụng phần mềm Excel và SPSS trong
xử lý dữ liệu thống kê.
Lần đầu tiên biên soạn, mặc dù rất cố gắng, song cũng khó tránh khỏi những
sai sót, rất mong nhận được ý kiến đóng góp của độc giả. Xin chân thành cám
ơn.

3
Chƣơng 1
CƠ SỞ LÝ THUYẾT MẪU

1.1. Tổng quan về thống kê và xử lý dữ liệu


1.1. 1. Khái niệm về thống kê
Trước đây thuật ngữ thống kê (Statistics) theo nghĩa thông thường được hiểu là
các thu thập dữ liệu, quan sát hay lập các bảng tổng hợp các dữ liệu, những đồ
thị biểu diễn các dữ liệu về tự nhiên và kinh tế- xã hội nhằm phản ánh các hiện
tượng về tự nhiên và các hiện tượng về kinh tế- xã hội. Chẳng hạn như thống kê
tai nạn giao thông, thống kê về giá cả sinh hoạt, thống kê về vốn đầu tư nước
ngoài vào Việt Nam, thống kê về nhiệt độ trung bình cả năm, lượng mưa trung
bình cả năm ở thủ đô Hà Nội…
Hiện nay nghĩa thông thường trên không thể diễn tả đầy đủ của thống kê hiện
đại vì thống kê không còn giới hạn trong việc thu thập dữ liệu hay lập các bảng
tổng hợp dữ liệu. Thống kê còn bao gồm các phương pháp của thống kê suy
diễn nhằm phục vụ cho quá trình phân tích, dự đoán và ra quyết định (quá trình
xử lý dữ liệu).
Thống kê là một hệ thống phương pháp bao gồm thu thập, tổng hợp, trình bày
số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phân tích dự
đoán và ra quyết định trong các lĩnh vực kinh doanh và quản lý.
Như vậy thống kê bao gồm cả hai lĩnh vực: Thống kê mô tả và thống kê suy
diễn (hay quá trình xử lý dữ liệu).
1.1.2.Thống kê mô tả (Descriptive Statistics)
Thống kê mô tả bao gồm các phương pháp sử dụng để thu thập số liệu, tóm tắt
dữ liệu, mô tả dữ liệu mẫu dưới dạng số hay đồ họa, tính toán các đặc trưng
khác nhau để phản ánh tổng quát về đối tượng nghiên cứu.

4
1.1.3.Thống kê suy diễn (quá trình xử lý dữ liệu)
Thống kê suy diễn là các phương pháp mô hình hóa trên các dữ liệu quan sát để
giải thích được những biến thiên có tính ngẫu nhiên và tính không chắc chắn
của các quan sát và rút ra kết luận về tổng thể nghiên cứu mà chúng ta thường
không có điều kiện khảo sát hết. Thống kê suy diễn bao gồm các phương pháp
thông dụng như sau: phương pháp ước lượng các đặc trưng của tổng thể, phân
tích mối liên hệ (phân tích tương quan) hay mô hình hóa mối liên hệ (hồi quy),
dự đoán hoặc ra quyết định ( kiểm định giả thuyết) trên cơ sở dữ liệu thu thập.
Ngoài ra còn nhiều kỹ thuật mô hình hóa khác nữa như chuỗi thời gian và khai
thác dữ liệu… mà không có điều kiện trình bày đầy đủ trong giáo trình này. Các
phương pháp thống kê suy diễn được trình bày trong các chương 3,4,5,6.
1.2. Một số khái niệm thƣờng sử dụng trong thống kê
1.2.1. Dữ liệu, thông tin và tri thức
Dữ liệu (Data) bao gồm các biểu hiện dùng để phản ánh thực tế của đối tượng
nghiên cứu. Các biểu hiện này bao gồm con số, từ ngữ hay hình ảnh.
Thông tin (Information) là kết quả của việc xử lý, sắp xếp và tổ chức dữ liệu, đó
là nội dung của dữ liệu đã thu thập. Qua đó cho người đọc hiểu biết về đối
tượng nghiên cứu.
Tri thức (Knowledge) dùng để hàm ý về những hiểu biết tin chắc về một sự vật,
có thể dùng hiểu biết này để thực hiện một mục tiêu nào đó.
1.2.2. Tổng thể thống kê (Population)
Tổng thể thống kê là tập hợp các đối tượng (đơn vị hay phần tử) thuộc hiện
tượng nghiên cứu, cần được quan sát, thu thập và phân tích theo một số đặc
trưng nào đó.
Mỗi đối tượng gọi là đơn vị hay phần tử của tổng thể. Số đơn vị hay phần tử của
tổng thể gọi là kích thước của tổng thể, ký hiệu là N.
Chẳng han, muốn tính thời gian tự học trung bình/ tuần của sinh viên trường đại
học A thì tổng thể thống kê sẽ là toàn bộ các sinh viên của trường đại học này.
Mỗi sinh viên của trường đai học A là một đơn vị hay phần tử của tổng thể đó.

5
Tổng thể bao gồm các đơn vị (hay phần tử) mà ta có thể trực tiếp quan sát hoặc
nhận biết được, ta gọi là tổng thể bộc lộ. Ví dụ như tổng thể sinh viên của một
trường đại hoc, tổng thể các doanh nghiệp nhà nước…
Khi các phần tử của tổng thể không trực tiếp quan sát hoặc nhận biết được, ta
gọi là tổng thể tiềm ẩn. Ví dụ như tổng thể những người thích xem đá bóng;
tổng thể người thích xem một chương trình truyền hình nào đó…
Tổng thể trong đó bao gồm các đơn vị (hay các phần tử) giống nhau ở một hay
một vài đặc điểm chủ yếu có liên quan đến mục đích nghiên cứu được gọi là
tổng thể đồng chất. Các kết luận rút ra từ nghiên cứu thống kê chỉ có ý nghĩa
khi nghiên cứu trên tổng thể đồng chất. Ngược lại nếu tổng thể trong đó bao
gồm các đơn vị (hay phần tử) không giống nhau những đặc điểm chủ yếu có
liên quan đến mục đích nghiên cứu được gọi là tổng thể không đồng chất. Ví dụ
mục đích nghiên cứu là tìm hiểu về hiệu quả sử dụng vốn của các doanh nghiệp
tại một địa phương. Tổng thể các doanh nghiệp xây dựng trên trên địa bàn là
tổng thể đồng chất. Nhưng tổng thể tất cả các doanh nghiệp trên địa bàn là tổng
thể không đồng chất. Bởi vì các doanh nghiệp ở những ngành kinh tế khác nhau,
tùy theo tính chất sản xuất, quy mô vốn đầu tư ban đầu… sẽ có hiệu quả sử
dụng vốn không so sánh được với nhau. Việc xác định một tổng thể đồng chất
hay không đồng chất là tùy thuộc vào mục đích nghiên cứu cụ thể.
Có tổng thể là hữu hạn, cũng có tổng thể được coi là vô hạn do không thể hoặc
khó xác định được số phần tử của nó, chẳng hạn như tổng thể trẻ sơ sinh. Cho
nên khi xác định tổng thể thống kê không những phải xác định tổng thể nghiên
cứu là tổng thể gì, mà còn phải xác định tổng thể tồn tại ở thời gian nào, không
gian nào.
1.2.3.Đặc điểm thống kê (Characteristic)
Đặc điểm thống kê (hay còn gọi là tiêu thức thống kê) là các đặc điểm,
tính chất quan trọng của các phần tử trong tổng thể liên quan trực tiếp đến nội
dung nghiên cứu.

6
Ví dụ khi nghiên cứu về sinh viên, mỗi sinh viên có các đặc điểm (dấu hiệu)
như giới tính, tuổi tác, dân tộc, quê quán, kết quả học tập, mức chi tiêu hàng
tháng…
Đặc điểm nghiên cứu được chia thành hai loại:
Đặc điểm định lượng: là đặc điểm thống kê của các phần tử của tổng thể biểu
hiện trực tiếp bằng các con số. Ví dụ như tuổi, chiều cao, trọng lượng của con
người là các đặc điểm định lượng.
Đặc điểm định tính là tính chất của các phần tử của tổng thể, không biểu hiện
trực tiếp bằng các con số. Ví dụ như giới tính, nghề nghiệp, tình trạng hôn nhân,
dân tộc của con người là các đặc điểm định tính.
Các trị số quan sát của đặc điểm định lượng có thể là rời rạc hay liên tục.
Trị số rời rạc là các giá trị có thể của nó là hữu hạn hay vô hạn có thể đếm được.
Ví dụ như số sinh viên của một trường đại học, số lỗi trong một trang in, số tai
nạn giao thông xảy ra…
Trị số liên tục là các giá trị của nó có thể nhận bất kỳ trong một khoảng nào đó
(hay các giá trị của nó lấp kín một khoảng trên trục số). Ví dụ như trọng lượng,
chiều cao của sinh viên, năng suất của một loại cây trồng…
1.2.4.Các phương pháp nghiên cứu tổng thể
Phương pháp nghiên cứu toàn bộ
Thống kê toàn bộ tổng thể đó và phân tích từng phần tử của nó theo đặc điểm
nghiên cứu.
Ví dụ, để nghiên cứu dân số của một nước theo các đặc điểm thống kê như tuổi
tác, trình độ văn hóa, địa bàn cư trú, cơ cấu nghề nghiệp… thì ta nghiên cứu
toàn bộ tức là tiến hành tổng điều tra dân số và phân tích từng người theo dấu
hiệu trên, từ đó tổng hợp thành dấu hiệu chung cho toàn bộ dân số của nước đó.
Ưu điểm của phương pháp nghiên cứu toàn bộ là kết luận rút ra chính xác.
Tuy nhiên trong thực tế việc áp dụng phương pháp này gặp phải những khó
khăn chủ yếu sau:

7
Nếu quy mô tổng thể quá lớn thì việc nghiên cứu toàn bộ sẽ đòi hỏi chi phí về
vật chất và thời gian, có thể xảy ra các trường hợp trùng hoặc bỏ sót dẫn đến sai
sót trong quá trình thu thập thông tin ban đầu, hạn chế độ chính xác của kết quả
phân tích.
Trong một số trường hợp ta gặp trường hợp tổng thể ẩn nên không thể nắm bắt
được các phần tử của nó, do đó không thể tiến hành nghiên cứu toàn bộ.
Có những trường hợp các phần tử của tổng thể bị phá hủy trong quá trình
nghiên cứu thì phương pháp nghiên cứu toàn bộ sẽ trở thành vô nghĩa. Ví dụ
như điều tra chất lượng đồ hộp, chất lượng vũ khí, khí tài …
Phương pháp điều tra mẫu: Từ tổng thể nghiên cứu chọn ra một số phần tử và
phân tích các phần tử này theo dấu hiệu nghiên cứu và dựa vào đó suy diễn cho
tổng thể nghiên cứu.
Mẫu là tập hợp một số phần tử (đơn vị) được chọn ra từ tổng thể theo một
phương pháp nào đó. Các đặc trưng của mẫu được sử dụng để suy rộng cho các
đặc trưng của tổng thể. Số lượng phần tử được chọn ra từ tổng thể gọi là kích
thước của mẫu, ký hiệu là n.
Nếu mẫu được chọn ra một cách ngẫu nhiên và được xử lý bằng các phương
pháp xác suất thì vừa thu được kết luận một cách nhanh chóng, đỡ tốn kém mà
vẫn đảm bảo độ chính xác cần thiết. Như vậy, phương pháp điều tra mẫu khắc
phục được những hạn chế của phương pháp nghiên cứu toàn bộ. Tuy nhiên, các
kết luận được rút ra theo phương pháp này cho tổng thể nghiên cứu sẽ có sai số
nhất định và sai số đó phụ thuộc vào phương pháp chọn mẫu và kích thước của
mẫu.
Vì vậy trong thực tế, phương pháp nghiên cứu toàn bộ ít được sử dụng hoặc chỉ
sử dụng đối với các tổng thể có quy mô nhỏ mà chủ yếu dùng phương pháp điều
tra mẫu.
1.2.5. Tham số của tổng thể
Tham số (parameter) là giá trị quan sát được của tổng thể và dùng để mô tả đặc
trưng của vấn đề nghiên cứu. Tham số của tổng thể có ba tham số cụ thể sau:

8
a) Trung bình tổng thể (ký hiệu là )
Giả sử nghiên cứu một tổng thể theo đặc điểm định lượng X nào đó. Theo dấu
hiệu này, các phần tử của tổng thể có các trị số x1, x2, … , xN. Khi đó trung bình
tổng thể được xác định như sau:
x1  x2  ....  x N 1 N

N
hay  
N
x
i 1
i

Như vậy  là giá trị trung bình của các giá trị x1, x2, … , xN.

b) Phương sai và đô lệch chuẩn của tổng thể (ký hiệu là σ2)
 Phương sai của tổng thể (ký hiệu là σ2)
( x1   ) 2  ( x 2   ) 2  ...  ( x N   ) 2 1 N
 
2

N
hay  2 
N
 (x
i 1
i  )2

Như vậy σ2 là giá trị trung bình của bình phương các độ lệch giữa các giá trị x1,
x2, … , xN so với trung bình . Do đó σ2 dùng để đo độ phân tán của các giá trị
x1, x2, … , xN xung quanh giá trị trung bình .
 Độ lệch chuẩn của tổng thể (ký hiệu là σ)
  2
c) Tỷ lệ (cơ cấu) của tổng thể (ký hiệu là P)
Giả sử nghiên cứu tổng thể theo đặc điểm định tính A. Khi đó tỷ lệ của tổng thể
được xác định như sau:
M
P
N
Trong đó M là số lượng các phần tử của tổng thể có đặc điểm định tính A.
Ký hiệu tham số của tổng thể  (  ,  2 , P)
Nếu điều tra toàn bộ tổng thể thì tham số  là các số hoàn toàn xác định và cố
định với mỗi tổng thể nghiên cứu. Tuy nhiên, nếu điều tra mẫu thì tham số chưa
biết. Vấn đề đặt ra cần ước lượng (xác đinh gần đúng) giá trị của  từ mẫu điều
tra.

9
1.2.6. Thống kê mẫu (Statistic)
Thống kê (hay tham số mẫu) là các trị số tính toán được của một mẫu và dùng
để suy rộng cho tham số của tổng thể.
Thống kê mẫu gồm trung bình mẫu, phương sai mẫu, tần suất mẫu, trung vị,
mốt,…
Ký hiệu thống kê mẫu ˆ( X , S 2 , Pˆ )
1.3. Thu thập dữ liệu
1. 3.1. Các phƣơng pháp thu thập dữ liệu sơ cấp
Những phương pháp thu thập dữ liệu sơ cấp thường dùng nhất là phương pháp
thực nghiệm, khảo sát qua điện thoại, thư hỏi, quan sát trực tiếp và phỏng vấn
cá nhân.
Phương pháp thực nghiệm là người nghiên cứu (các công ty và các tổ chức…)
thực hiện các thực nghiệm hoặc nhóm các thí nghiệm để thu thập dữ liệu. Chẳng
hạn, để đánh giá năng suất của một loại cây trồng theo các phương pháp canh
tác khác nhau người ta tiến hành trồng loại cây đó trên hai thửa ruộng và theo 2
phương pháp canh tác và ghi lại năng suất của cây trồng trên hai thửa ruộng đó.
Phương pháp gửi thư và những dạng khảo sát dạng viết khác
Đối với phương pháp gửi thư thì điều tra viên gửi bản câu hỏi đến đối tượng
cung cấp thông tin qua đường bưu điện. Phương pháp này có thể thu thập thông
tin với khối lượng lớn và ít tốn kém so với các phương pháp khác. Tuy nhiên tỷ
lệ trả lời theo phương pháp này tương đối thấp (khoảng từ 5% đến 20%). Để có
thể sử dụng phương pháp gửi thư thì điều tra viên cần có danh sách đối tượng
điều tra. Thí dụ, để nghiên cứu ý kiến khách hàng về một loại ô tô trong một
cuộc triển lãm về ô tô, người ta có thể tiến hành cho đăng ký danh sách khách
đến xem triển lãm. Khi đó tiến hành điều tra thăm dò ý kiến của khách hàng
thông qua danh sách này.
Đối với khảo sát dạng viết thì bản câu hỏi khảo sát được phát trực tiếp cho
người trả lời nên có thể hy vọng tỷ lệ trả lời cao hơn. Thí dụ sinh viên thường

10
được đề nghị điền vào một bảng đánh giá khóa học vào cuối kỳ, bản đánh giá
được phát tận tay cho từng sinh viên và đa số họ sẽ điền đầy đủ vào bảng đó.
Trong bảng hỏi bao gồm các câu hỏi đóng và mở. Câu hỏi đóng là câu hỏi yêu
cầu người trả lời lựa chọn câu trả lời từ một số lựa chọn xác định. Thí dụ một
câu hỏi đóng như sau: Nhà bạn có kết nối Internet hay không? Trả lời: có hoặc
không. Câu hỏi mở là câu hỏi cho phép người được hỏi tự do trả lời theo đánh
giá, ngôn ngữ, nhận định của chính họ
Để nâng cao chất lượng thông tin thì bảng câu hỏi cần được xây dựng sao cho
đầy đủ, hợp lý, logic và phù hợp tâm lý: C©u hái ph¶i râ rµng, dÔ hiÓu, tr¸nh
c¸c c©u hái cã tÝnh ®Þnh hướng, hướng dÉn tr¶ lêi; tr¸nh tõ ng÷ tèi nghÜa, m¬ hå,
kh«ng râ nghÜa, ch¼ng h¹n, c¸c tõ ®Þa phương hoÆc c¸c tõ ng÷ thay ®æi theo
nhãm x· héi; tr¸nh c¸c c©u hái qu¸ dµi, qu¸ phøc t¹p hoÆc cïng mét lóc gåm
nhiÒu ý. Trong bảng hỏi cần có phát biểu ngắn ở phần đầu giải thích mục đích
của khảo sát, tiếp đến đưa ra các câu hỏi (đóng hoặc mở) có liên quan đến nội
dung trọng tâm của khảo sát. Phần cuối liên quan đến câu hỏi về thông tin cá
nhân người trả lời phỏng vấn (như giới tính, mức thu nhập, trình độ học vấn).
Hiện nay, ở một số nước người ta đã xây dựng những thư viện mẫu về các câu
hỏi điển hình cho các đối tượng khác nhau và nội dung khác nhau.
Khảo sát qua điện thoại là phương pháp khá đơn giản để thu thập thông tin một
cách nhanh chóng. Phương pháp này ngày càng được sử dụng rộng rãi, đặc biệt
là tại các nước đang phát triển vì có số người sử dụng điện thoại rất lớn. Khảo
sát qua điện thoại thường phải ngắn gọn trong vòng 1 đến 3 phút vì người được
khảo sát không muốn nói chuyện lâu qua điện thoại. Do vậy các câu hỏi phỏng
vấn thường là những câu hỏi đóng. Tuy nhiên khi khảo sát theo phương pháp
này thì một số người được hỏi có thể từ chối trả lời, một số người không thể
liên lạc được vì lý do này hoặc lý do khác. Do vậy mẫu dự định ban đầu được
hoàn thành không như dự kiến.
Quan sát trực tiếp và phỏng vấn trực tiếp cũng là một phương pháp để thu thập
thông tin. Quan sát trực tiếp quá trình thu thập dữ liệu được thực hiện qua

11
quan sát bằng mắt và dữ liệu được người thu thập ghi lại. Ví dụ như cân trọng
lượng của các trẻ sơ sinh hoặc để thu thập dữ liệu về hành vi của con người thì
cần quan sát họ. Ví dụ một giảng viên muốn đánh giá xem một phương pháp
dạy học mới có hiệu quả hay không thì tổ chức một buổi giảng và quan sát phản
ứng và nhận xét về bài giảng của các sinh viên khi kết thúc buổi giảng.
Trong phỏng vấn trực tiếp có hai hình thức: phỏng vấn cá nhân và phỏng vấn
nhóm. Phỏng vấn cá nhân là cách thu thập dữ liệu bằng cách người điều tra gặp
đối tượng điều tra đưa ra các câu hỏi mở hoặc đóng để đối tượng điều tra trả lời.
Trong phương pháp này người phỏng vấn có thể đưa ra các câu hỏi đã được
soạn sẵn thành bảng hỏi để đối tượng điều tra trả lời, hoặc người phỏng vấn bắt
đầu có thể đưa ra một số câu hỏi chung, rồi phát triển những câu hỏi sâu hơn
dựa trên những câu trả lời đã được trả lời như thế nào. Trong phỏng vấn nhóm
điều tra viên tiến hành phỏng vấn từng nhóm (thường từ 6 đến 10 người) để
thảo luận một vấn đề nào đó, chẳng hạn như đánh giá chất lượng của một loại
sản phẩm, dịch vụ hay về vấn đề quảng cáo … Trong phương pháp này, để thu
được kết quả có giá trị thì người điều tra cũng như người được phỏng vấn phải
có sự hiểu biết nhất định về chủ đề thảo luận. Phương pháp phỏng vấn trực tiếp
thường cho kết quả điều tra chính xác, nó thích hợp cho những cuộc điều tra cần
phải thu thập nhiều thông tin và nội dung của các thông tin tương đối phức tạp
cần phải thu thập một cách chi tiết. Ví dụ, trong các cuộc điều tra khảo sát mức
sống của các tầng lớp dân cư phải thu thập nhiều thông tin.
Ngoài các phương pháp thu thập thông tin nêu trên thì hiện nay người ta sử
dụng kỹ thuật mới dể thu thập thông tin. Ví dụ, người ta thu thập dữ liệu về
hành vi mua sắm của khách hàng một cách tự động bằng cách quét mã vạch trên
các sản phẩm khách hàng mua. Không chỉ có bảng kê hàng được cập nhật, mà
thông tin về hành vi của người mua cũng được ghi lại. Khi người mua hàng sử
dụng thẻ tín dụng hay thẻ ghi nợ, dữ liệu được các nhà bán lẻ cập nhật một cách
tự động, hệ thống máy vi tính có thể lưu trữ và xử lý dữ liệu để cung cấp thông
tin theo ý muốn của người sử dụng.

12
1.3.2. Các phƣơng pháp chọn mẫu
Do đối tượng điều tra trong khoa học xã hội nói chung là rất lớn, nên ta không
có đủ điều kiện thời gian và tài chính để điều tra mọi đối tượng. Như vậy cần
chọn những đối tượng nào để điều tra và cách chọn ra sao. Đó là vấn đề chọn
mẫu. Hiện nay có nhiều phương pháp khác nhau để chọn mẫu, nhưng khó có thể
nói rằng phương pháp nào là tốt nhất. Việc lựa chọn phương pháp lấy mẫu phụ
thuộc vào tổng thể nghiên cứu, mục đích nghiên cứu, ngoài ra nó còn phụ thuộc
vào thói quen và sở trường của nhà nghiên cứu. Người nghiên cứu phải am hiểu
tường tận các phương pháp chọn mẫu, từ đó lựa chọn phương pháp chọn mẫu
thích hợp cho chủ đề nghiên cứu khảo sát.
Có hai chủ đề chính mà chúng ta hay quan tâm trong nghiên cứu khảo sát là câu
hỏi “ bao nhiêu” và mô tả “chân dung”. Chọn lựa phương pháp lấy mẫu nào
sẽ tùy thuộc vào dạng chủ đề mà chúng ta nghiên cứu. Một trong những vấn đề
phổ biến mà nhà nghiên cứu muốn biết là các thông số như: số trung bình
(chẳng hạn mức thu nhập trung bình của người dân hàng năm); tỷ lệ (tỷ lệ người
dân ủng hộ dự luật A nào đó). Để đưa ra các dự đoán về các vấn đề trên, nhà
nghiên cứu cần có dạng dữ liệu “bao nhiêu”.
Một chủ đề phổ biến khác của nghiên cứu là cần nắm bắt được các đặc tính của
một nhóm người nhất định. Có thể là nhóm riêng rẽ, nhóm gia đình, công ty hay
bất cứ ai trong tầm quan tâm của chủ đề nghiên cứu. Nhà nghiên cứu có thể
nghiên cứu các đặc tính của những nhóm người đó như dữ liệu về nhân chủng
học, về cách suy nghĩ của họ (tâm lý, thái độ…), hay dữ liệu về hành vi. Như
vậy nhà nghiên cứu cần biết bức “chân dung” của những người được điều tra.
Có hai kỹ thuật chính để thiết lập mẫu: bằng điều tra ngẫu nhiên (chọn mẫu theo
phương pháp xác suất) dẫn đến thành lập các mẫu ngẫu nhiên; bằng điều tra có
lập luận (chọn mẫu phi xác suất), tạo ra các mẫu có suy luận.

13
a) Các phương pháp chọn mẫu ngẫu nhiên
Trong kỹ thuật chọn mẫu ngẫu nhiên người ta quan tâm tới hai phương thức
chọn mẫu: Chọn mẫu không hoàn lại (mẫu không lặp) và chọn mẫu hoàn lại
(mẫu có lặp).
Trong phương thức chọn mẫu không hoàn lại, mỗi phần tử của tổng thể
sau khi được chọn vào mẫu không hoàn trả lại tổng thể, do vậy mỗi phần tử
được chọn vào mẫu nhiều nhất một lần. Theo phương thức này các phần tử của
tổng thể có khả năng (xác suất) được chọn vào mẫu không bằng nhau.
Trong phương thức chọn mẫu có hoàn lại mỗi phần tử của tổng thể sau khi chọn
vào mẫu được trả lại tổng thể. Như vậy tổng thể không bị thay đổi trong quá
trình thành lập mẫu, do đó một phần tử của tổng thể có thể được chọn vào mẫu
nhiều lần và cơ hội các phần tử được chọn bằng nhau.
Nếu kích thước tổng thể tương đối lớn và kích thước mẫu khá bé so với tổng thể
thì kết quả lấy mẫu theo các phương thức nêu trên sai lệch không đáng kể.
Trong kỹ thuật chọn mẫu ngẫu nhiên gồm các phương pháp chọn mẫu ngẫu
nhiên đơn giản, chọn mẫu hệ thống, chọn mẫu phân tầng, chọn mẫu cụm và
chọn mẫu nhiều cấp.
(1) Phương pháp chọn mẫu ngẫu nhiên đơn giản (Simple random sampling)
Phương pháp này có tính chất mọi mẫu cùng kích cỡ có khả năng được chọn
như nhau và mọi phần tử của tổng thể có cơ hội (khả năng) như nhau được chọn
vào mẫu. Để việc chọn hoàn toàn ngẫu nhiên ta có thể tiến hành theo cách bốc
thăm hoặc dùng bảng số ngẫu nhiên.
Theo phương pháp này, đầu tiên ta định vị các phần tử của tổng thể theo cách
nào đó để không có sự lẫn lộn các phần tử với nhau. Chẳng hạn có thể đánh số
thứ tự các phần tử của tổng thể từ 1 đến N.
Để rút thăm thì ta viết số hiệu các phần tử lên N lá thăm (mảnh giấy) và bỏ vào
một cái hộp, sau đó rút ngẫu nhiên ra n lá thăm. Phần tử nào có số hiệu hoặc tên
trong n lá thăm sẽ được chọn vào mẫu.

14
Khi kích trước của tổng thể tương đối lớn (vài trăm hoặc vài ngàn hay nhiều
hơn) thì việc viết tên hay in danh sách ra các phần tử của tổng thể lên các lá
thăm trở nên nặng nề và phức tạp, khi đó có thể dùng bảng số ngẫu nhiên để
chọn mẫu. Các bảng số ngẫu nhiên gồm các bảng Tippett gồm 4 chữ số, các
bảng của Fisher và Yates, các bảng của Kendall và Babinton Smith gồm các số
có 5 chữ số…Chẳng hạn ta có một bảng số ngẫu nhiên gồm 5 chữ số sau:
18068 54879 36271 24773 63615 60309 30550 16184 71605 64267
32512 08155 27597 59844 95648 71896 63075 86078 61746 26669
21339 99336 18200 57564 39356 15173 53051 87654 13346 62350
67124 38202 10706 65647 19870 15499 46540 44897 53548 08521
07444 58069 35758 41422 82031 35465 72508 77079 81768 32854
78097 95307 65668 21280 75514 68955 57328 74675 67958 37864
13240 79748 67309 46843 19734 45248 20434 77530 06735 53622
Bảng 1-1
Theo cách này thì sau khi đánh số thứ tự các phần tử của tổng thể từ 1 đến N, ta
lấy theo các hàng và các cột cho đủ n số. Phần tử nào có số hiệu trong các số
lấy ra từ bảng số ngẫu nhiên sẽ được chọn vào mẫu. Cần lưu ý khi ta lấy một số
trong bảng vượt quá số thứ tự của các phần tử tổng thể thì bỏ qua số đó và
chuyển sang số khác hoặc nếu số lấy ra đã gặp (điều này ít có khả năng xảy ra)
thì ta nên bỏ qua nếu như ta dùng cách lấy không hoàn lại.
Ví dụ 1.1: Cần nghiên cứu tình hình kinh doanh điện thoại di động của một công
ty kinh doanh điện thoại hoạt động tại 30 tỉnh, thành phố ở Việt Nam. Người ta
chọn ra một mẫu ngẫu nhiên gồm 10 tỉnh, thành phố để khảo sát bằng cách
dùng bảng số ngẫu nhiên.
Đầu tiên ta đánh số 30 tỉnh, thành phố như sau:
1. An Giang; 2. An Giang; 3. Bắc Ninh; 4. Bình Dương; 5. Bình Định;
6. Bình Thuận; 7. Cà Mau; 8. Cần Thơ; 9. Đà Nẵng; 10. Đắc Lắc;
11. Đồng Nai; 12. Đồng Tháp; 13. Hà Giang; 14. Hải Phòng; 15. Huế;
16. Quảng Ninh; 17. Ninh Bình; 18. Nghệ An; 19. Nam Định; 20. Lào

15
Cai; 21. Lạng Sơn; 22. Quảng Bình; 23. Quảng Nam; 24. 24. Tây Ninh;
25. Tiền Giang; 26.Thái Bình; 27.Thái Nguyên; 28. Thanh Hóa;
29. Vĩnh Long; 30.Vĩnh Phúc.
Từ bảng số ngẫu nhiên gồm 5 chữ số nêu trên ta quy ước lấy 2 chữ số cuối của
mỗi số trong bảng và lấy các số lần lượt theo từng hàng:
Hàng thứ nhất lấy số 15 là thành phố Huế, lấy số 09 là thành phố Đà Nẵng và
lấy số 05 là tỉnh Bình Định. Bỏ qua các số 68,79, 71, 73, 50, 84, 67.
Hàng thứ hai lấy số 12 là tỉnh Đồng Tháp. Bỏ qua các số 55, 97, 44, 48, 96, 75,
78, 46, 69.
Hàng thứ ba bỏ qua các số vì hai chữ số cuối của mỗi số đều lớn hơn 30.
Hàng thứ tư lấy số 24 là tỉnh Tây Ninh, lấy số 02 là tỉnh Bắc Cạn, lấy số 06 là
tỉnh Bình Thuận, lấy số 21 là tỉnh Lạng Sơn. Bỏ qua các số 55, 47, 70, 99, 40,
97, 48.
Hàng thứ năm lấy số 22 là tỉnh Quảng Bình, lấy số 08 là thành phố Cần Thơ. Bỏ
qua các số 44, 69, 58, 31, 65, 79, 68, 54.
Như vậy phương pháp dùng bảng số ngẫu nhiên cũng đảm bảo tính ngẫu nhiên
của mẫu nên mẫu có tính đại diện cao. Tuy nhiên phương pháp này đòi hỏi phải
biết toàn bộ các phần tử của tổng thể nên chi phí chọn mẫu khá lớn.
(2) Phương pháp chọn mẫu hệ thống (Systematic sampling)
Theo cách này phần tử đầu tiên được chọn vào mẫu một cách ngẫu nhiên, sau
đó dựa trên danh sách các phần tử của tổng thể đã được định vị để chọn ra các
phần tử tiếp theo vào mẫu theo một thủ tục nào đó. Quy trình lấy mẫu hệ thống
gồm các bước sau:
Định vị các phần tử của tổng thể theo một cách nào đó, chẳng hạn đánh số các
phần tử của tổng thể từ 1 đến N.
- Xác định cỡ mẫu gồm n quan sát.
N
- Chia N phần tử của tổng thể thành k nhóm theo công thức k  ( k gọi
n
là khoảng cách chọn mẫu).

16
- Trong k phần tử thuộc nhóm đầu tiên của tổng thể chọn ngẫu nhiên ra
một phần tử (có thể chọn bằng cách rút thăm hay dùng bảng số ngẫu nhiên),
phần tử này là phần tử đầu tiên của mẫu, các phần tử tiếp theo cách đều nhau
một khoảng là k phần tử: k, 2k, 3k, …
Ví dụ 1.2: Giả sử một khóa học ở một trường đại học có 2000 sinh viên, cần lấy
một mẫu gồm 200 sinh viên theo phương pháp chọn mẫu hệ thống như sau:
Trước hết đánh số thứ tự các sinh viên của khóa học đó từ 1 đến 2000 (có thể
sắp xếp thứ tự tên sinh viên theo vần A, B, C,…). Khi đó chia các số thứ tự này
thành 10 nhóm (2000/200=10). Chọn ngẫu nhiên một số trong nhóm đầu tiên từ
số thứ tự 1 đến 10. Chẳng hạn chọn được số 6 là phần tử đầu tiên của mẫu, khi
đó các phần tử tiếp theo của của mẫu cách đều 10 số thứ tự: 16, 26, 36, 46, 56,
…. và lấy cho đủ 200 số . Phần tử nào của tổng thể có số hiệu trong 200 số được
lấy ra sẽ được chọn vào mẫu.
Một nhược điểm chính của phương pháp này là dễ mắc sai số hệ thống khi danh
sách của tổng thể không được sắp xếp một cách ngẫu nhiên mà theo một trật tự
chủ quan nào đó, nên dẫn đến một loạt kết quả quan sát bị sai lệch một khoảng
nào đó.
N
Trong phương pháp chọn mẫu hệ thống, khi xác định k nhóm ( k  ) thì k có
n
thể là số nguyên (N chia hết cho n ) thì gọi là lấy mẫu hệ thống đường thẳng
(linear systematic sampling), như ví dụ nêu trên.
Khi N không chia hết cho n thì các phần tử của tổng thể không có cùng cơ hội
chọn vào mẫu thì để ước lượng trung bình tổng thể rất có khả năng bị chệch. Để
khắc phục ta lấy mẫu quay vòng (Circular systematic sampling) như sau:
N
Trước tiên ta cũng tính khoảng cách chọn mẫu là k  , sau đó chọn ngẫu
n
nhiên một số trong khoảng từ 1 đến N. Phần tử mẫu đầu tiên có số thứ tự là số
đã được chọn ra. Các phần tử mẫu tiếp theo cách đều nhau một khoảng là k: 1k,
2k, … Nếu đến hết danh sách tổng thể mà chưa đủ n phần tử mẫu thì ta quay lại

17
đầu danh sách với quy ước: N+ 1 tương ứng với phần tử thứ nhất và N+2 tương
ứng với phần tử thứ hai trong danh sách.
200
Ví dụ 1.3: N= 200; n= 35. Khi đó khoảng cách chọn mẫu k   5,71 nên ta
35
chọn k=6. Tiếp theo ta lấy ngẫu nhiên một số trong khoảng từ 1 đến 200, chẳng
hạn chọn được số 31 thì các phần tử của mẫu tương ứng với số thứ tự là:
31, 37, 43, 49, 55, 61, 67, 73, 79, 85, 91, 97, 103, 109, 115, 121, 127, 133,
139, 145, 151, 157, 163, 169, 175, 181, 187, 193, 199, 5, (199+6- 200=5), 11,
17, 23, 29, 35. (khi số thứ tự lớn hơn N thì sô thứ tự tiếp theo được chọn vào
mẫu = Số thứ tự- N).
Như vậy cả hai phương pháp chọn mẫu ngẫu nhiên và chọn mẫu hệ thống đều
đòi hỏi phải có danh sách đầy đủ các phần tử của tổng thể. Mà điều đó không
phải tổng thể nào cũng xác định được đầy đủ các phần tử nó. Do vậy hai
phương pháp này thường được áp dụng trong một giai đoạn nào đó hay trong
giai đoạn cuối cùng của những thủ tục chọn mẫu khác mà sẽ trình bày tiếp theo.
(3) Phương pháp chọn mẫu phân tầng(Stratified sampling)
Theo phương pháp này các phần tử của tổng thể được chia thành một số
tầng/lớp theo một tiêu chuẩn nào đó sao cho mỗi phần tử của tổng thể chỉ thuộc
vào một tầng/lớp và các phần tử ở mỗi tầng/lớp có độ thuần nhất cao về dấu
hiệu nghiên cứu (các phần tử trong mỗi tầng/lớp càng ít khác nhau càng tốt).
Sau đó từ mỗi tầng/lớp đã chia (được coi là một tổng thể nhỏ) chọn ngẫu nhiên
ra một số phần tử theo phương pháp chọn mẫu ngẫu nhiên đơn giản hoặc chọn
mẫu hệ thống. Khi đó tập hợp các phần tử được chọn ra từ mỗi lớp tạo thành
một mẫu phân tầng/lớp. Khi chọn mẫu phần tầng/lớp có hai vấn đề cần quan
tâm: Phân tầng/lớp theo tiêu chí nào và phân bổ số lượng phần tử mẫu của mỗi
tầng/lớp là bao nhiêu.
Tiêu chí để phân chia thành các tầng/lớp cần liên quan hay ảnh hưởng đến nội
dung nghiên cứu, khảo sát. Số phần tử mẫu trong từng tầng/lớp có thể bằng
nhau hay theo tỷ lệ của từng tầng/lớp hay phân bổ vừa theo quy mô của tầng/lớp

18
và theo mức độ đồng đều của các phần tử trong cùng một tầng/lớp. Khi đó
chúng ta cần thông tin đáng tin cậy về cơ cấu của tổng thể theo các tầng/lớp để
áp cơ cấu này vào mẫu lấy ra. Định mức (quota) số lượng phần tử cho từng
tầng/lớp được xác định dựa trên quy mô của tổng thể theo cơ cấu của các lớp
tầng/lớp đã chia, chẳng hạn tỷ lệ thuận với số phần tử của mỗi tầng/lớp: tổng thể
chia thành k tầng/lớp thì số phần tử trong mỗi tầng/lớp đã chia tương ứng là N1,
N2, …, Nk thỏa mãn: N1+ N2 + …+ Nk =N và từ mỗi tầng/ lớp chọn ngẫu nhiên
tương ứng ra n1, n2, …, nk với n1, n2, …, nk phụ thuộc vào mức độ đại diện của
mỗi tầng/lớp, chẳng hạn số phần tử lấy ra từ mỗi tầng tỷ lệ thuận với số phần tử
n1 n n n
của mỗi tầng:  2  ...  k 
N1 N 2 Nk N

Ví dụ 1.4: Để đánh giá trình độ ngoại ngữ của 2000 sinh viên năm thứ nhất ở
một trường đại học B, người ta chia 2000 sinh viên thảnh 4 tầng/ lớp như sau:
thành phố, thị trấn, nông thôn; miền núi vùng sâu, vùng xa cụ thể như sau: 600
sinh viên thành phố; 400 sinh viên thị trấn; 800 sinh viên nông thôn và 200 sinh
viên miền núi, vùng sâu vùng xa. Sở dĩ chia các sinh viên thành 4 nhóm nêu
trên vì trình độ ngoại ngữ của sinh viên ở 4 vùng này có sự khác biệt lớn. Nếu
phân bổ mẫu vào từng tầng/lớp theo tỷ lệ 10% phần tử mẫu ở mỗi tầng ta có: từ
600 sinh viên ở thành phố chọn ngẫu nhiên ra 60 sinh viên; từ 400 sinh viên ở
thị trấn chọn ngẫu nhiên ra 40 sinh viên; từ 800 sinh viên nông thôn chọn ngẫu
nhiên 80 sinh viên; từ 200 sinh viên ở miền núi, vùng sâu, vùng xa chọn ngẫu
nhiên ra ra 20 sinh viên. Như vậy ta chọn được mẫu phân tầng có kích thước
200.
Như vậy, phương pháp chọn mẫu phân tầng/lớp cũng đòi hỏi phải có đầy
đủ danh sách các phần tử của tổng thể. Người ta thường dùng phương pháp này
khi các phần tử trong tổng thể có sự sai khác lớn về dấu hiệu nghiên cứu. Hạn
chế của phương pháp là tính chủ quan khi phân chia tầng/lớp. Do vậy nhà
nghiên cứu phải có hiểu biết nhất định về cấu trúc của tổng thể để phân các
tầng/lớp cho hợp lý. Sai số lấy mẫu của phương pháp chọn mẫu phân tầng sẽ

19
nhỏ hơn so với hai phương pháp chọn mẫu ngẫu nhiên đơn giản và chọn mẫu hệ
thống. Do vậy, phương pháp này thường được sử dụng nhiều do cách thức đơn
giản khi làm việc với các nhóm bé và thuần nhất.
(4) Phương pháp chọn mẫu cụm/khối (Cluster sampling)
Khi các phần tử của cơ sở điều tra (tổng thể) bị phân tán về mặt địa lý và đồng
thời cần nghiên cứu nhiều dấu hiệu thì chi phí điều tra sẽ gắn với chiều dài của
việc dịch chuyển, để tiện cho việc nghiên cứu người ta thường dùng phương
pháp chọn mẫu cụm, quy diện nghiên cứu gọn về một số khu vực nhất định.
Theo phương pháp này, trước tiên phân chia tổng thể điều tra thành nhiều cụm
nhỏ (m cụm) theo nguyên tắc:
- Mỗi phần tử của tổng thể chỉ được phân vào một cụm.
- Mỗi cụm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiên cứu
sao cho có độ phân tán như của tổng thể.
- Phân chia các cụm tương đối đồng đều về quy mô
Sau đó từ các cụm đã chia chọn ngẫu nhiên ra một số cụm (chọn ra k cụm với k
< m) theo phương pháp chọn mẫu ngẫu nhiên đơn giản hay phương pháp chọn
mẫu hệ thống. Nếu số lượng phần tử trong mỗi cụm đã chọn tương đối nhỏ thì
ta khảo sát tất cả các phần tử trong các cụm. Khi đó gọi là mẫu cụm theo một
tầng. Còn nếu số phần tử trong mỗi cụm đã chọn
khá lớn thì từ mỗi cụm lại chọn ngẫu nhiên ra một số phần tử theo tỷ lệ:
n1 n n
 2  ...  k ,
N1 N 2 Nk

với N1, N2, …, Nk là số phần tử tương ứng của k cụm chọn ra và n1, n2, …, nk là
số lượng phần tương ứng được chọn từ k cụm (n1+n2+…+nk = n). Khi đó gọi là
mẫu cụm theo hai tầng.
Ví dụ 1.5: Để nghiên cứu về điều kiện sinh hoạt ăn ở của sinh viên có ảnh
hưởng như thế nào đến kết quả học tập của họ ở một trường đại học A, người ta
sử dụng chọn mẫu cụm một giai đoạn như sau: Trước tiên, từ 100 lớp của

20
trường đó chọn ngẫu nhiên ra 5 lớp và ta tiến hành điều tra khảo sát về điều kiện
ăn ở sinh hoạt của tất cả 200 sinh viên của 5 lớp đã chọn.
Một ví dụ khác: Để tìm hiểu mức tiêu thụ một loại hàng ở một khu dân cư gồm
20 nhà chung cư cao tầng , ta chọn mẫu cụm 2 giai đoan như sau: từ 20 chung
cư cao tầng ta có thể dùng phương pháp chọn mẫu ngẫu nhiên đơn giản hoặc
chọn mẫu hệ thống để chọn ra 5 chung cư, sau đó từ mỗi chung cư được chọn,
lại chọn ngẫu nhiên ra 20 hộ. Như vậy chọn được một mẫu gồm 100 hộ để điều
tra.
Do có sự đồng đều cao hơn giữa các cụm nên khả năng lặp lại thông tin, vì vậy
sai số chọn mẫu của phương pháp chọn mẫu cụm có thể cao hơn phương pháp
chọn mẫu ngẫu nhiên đơn giản với cùng kích cỡ mẫu. Song phương pháp này
vẫn được sử dụng vì đỡ tốn kém chi phí và thích hợp với việc nghiên cứu theo
nhiều dấu hiệu cùng một lúc.
(5) Chọn mẫu nhiều cấp hay chọn mẫu nhiều giai đoạn (Multi- stage sampling)
Theo phương pháp này có nhiều loại đơn vị/phần tử mẫu với quy mô khác nhau
ở mỗi giai đoạn/cấp chọn mẫu: đơn vị chọn mẫu cấp 1, cấp 2, cấp 3, … Mỗi đơn
vị/phần tử mẫu gắn với mỗi giai đoạn/cấp nhất định. Việc chọn mẫu ở mỗi giai
đoạn/cấp có thể tiến hành theo phương pháp chọn mẫu ngẫu nhiên đơn giản,
mẫu hệ thống, mẫu phân tầng hay mẫu cụm. Theo phương pháp này để chọn
mẫu ở mỗi giai đoạn/ cấp chỉ cần có thông tin về phân bố của dấu hiệu nghiên
cứu ở giai đoạn/cấp đó là đủ.
Ví dụ 1.6: Để nghiên cứu về thu nhập của người dân tại một thành phố A, người
ta sử dụng phương pháp chọn mẫu nhiều giai đoạn/cấp như sau:
Từ 15 quận của thành phố A chọn ngẫu nhiên ra 5 quận (có thể dùng phương
pháp chọn mẫu ngẫu nhiên đơn giản, hay chọn mẫu hệ thống), gọi là mẫu giai
đoạn 1/cấp 1. Trong 5 quận có 60 phường. Từ 60 phường của 5 quận, chọn ngẫu
nhiên ra 20 phường là mẫu giai đoạn 2/ mẫu cấp 2. Trong 20 phường đã chọn có
200 tổ dân phố. Từ 200 tổ dân phố chọn ngẫu nhiên ra 20 tổ dân phố là mẫu giai

21
đoạn 3/mẫu cấp 3. Từ 20 tổ dân phố chọn ngẫu nhiên ra 200 hộ, gọi là mẫu giai
đoạn 4. Khi đó ta điều tra thu nhập của 200 hộ đó.
Phương pháp chọn mẫu cụm hay chọn mẫu nhiều giai đoạn/nhiều cấp không
yêu cầu phải có danh sách cụ thể các phần tử mẫu/ khung chọn mẫu ngay từ đầu.
b) Các phương pháp chọn mẫu phi xác suất hay chọn mẫu suy luận
Trong thực tế nhiều khi chúng ta không có điều kiện về thời gian, chi phí,
không có đầy đủ danh sách các phần tử của tổng thể và không biết rõ cơ cấu của
tổng thể, thì chúng ta có thể sử dụng kỹ thuật lấy mẫu phi xác suất. Mẫu phi xác
suất không đại diện để ước lượng cho toàn bộ tổng thể, nhưng được chấp nhận
trong nghiên cứu khám phá và trong kiểm định giả thuyết.
(1) Chọn mẫu thuận tiện
Đặc trưng của mẫu này là các phần tử mẫu được chọn tại một điạ điểm thời
gian định trước. Cụ thể là người nghiên cứu đến những nơi có nhiều khả năng
gặp được đối tượng cần khai thác thông tin mà họ thấy tiện lợi. Do đó, mẫu
thuận tiện cho phép người nghiên cứu dễ dàng tập hợp được các đối tượng cần
nghiên cứu và muốn có một ước lượng sơ bộ về kết nghiên cứu mà không
muốn mất nhiều thời gian và chi phí. Vì vậy trong thực tế phương pháp chọn
mẫu thuận tiện được sử dụng khá phổ biến trong nghiên cứu khám phá. Do
phương pháp này không tuân thủ tính ngẫu nhiên nên ta không thể chắc chắn
tính sát thực của nó. Về mặt thống kê ta không thể xác định được mức độ chính
xác của các thông số ước tính của mẫu vì không thể biết được sai số lấy mẫu.
Ngoài ra mẫu thuận tiện còn dùng trong các trường hợp không có sẵn và đầy đủ
danh sách các phần tử của tổng thể hoặc không có sự phân chia khu vực địa bàn
rõ ràng để tiến hành lấy mẫu.
Ví dụ 1.7: Một công ty muốn lấy ý kiến của người tiêu dùng về một sản phẩm
bột giặt mới của công ty do bộ phận nghiên cứu và phát triển tạo ra, thì công ty
có thể chọn mẫu thuận tiện như sau: Công ty cho chính các nhân viên của
mình dùng thử loại bột giặt đó và lấy ý kiến đánh giá sơ bộ của các nhân viên.
Ở đây không cần yêu cầu các nhân viên đánh giá chi tiết về sản phẩm hoặc so

22
sánh với các sản phẩm cạnh tranh khác mà chỉ yêu cầu nhân viên đưa ra những
nhận xét, cảm giác chung nhất về sản phẩm. Một ví dụ tương tự khác, bạn muốn
lấy ý kiến của sinh viên ở một trường đại học đánh giá về thư viện của trường
thì bạn hỏi những sinh viên đang trong thư viện thì bạn sẽ nhận được nhiều câu
trả lời xác đáng và phong phú hơn là bạn hỏi các sinh viên đang trong căng tin
của trường.
(2) Chọn mẫu định mức
Mẫu định mức được xây dựng dựa trên giả thiết có một số nhân tố nào đó ảnh
hưởng đến vấn đề nghiên cứu. Mỗi nhân tố có thể xem như các dạng thức khác
nhau của tổng thể. Khi đó ta buộc mẫu phải có cấu trúc như dạng thức của tổng
thể. Sau đó ta cần xác định hạn mức (số phần tử cần phải điều tra) cho mỗi dạng
thức trong mẫu. Khi hạn mức đã được xác định thì người điều tra có thể tự do
lựa chọn các phần tử mẫu.
Ví dụ 1.8: Cần điều tra về tình hình mắc bệnh SIDA ở một địa phương (tỉnh,
thành phố), người ta thấy nghề nghiệp, công việc có ảnh hưởng đến việc mắc
bệnh này. Do vậy, người ta chia dân cư của địa phương đó thành các nhóm xã
hội (dạng thức) khác nhau như: nhóm học sinh, sinh viên; nhóm cán bộ viên
chức; nhóm người lao động tự do; nhóm lực lượng vũ trang đóng tại địa phương
(bộ đội, công an); nhóm người nghiện hút; nhóm gái mại dâm. Khi đó trong
mẫu cần có có đủ các nhóm như trên. Sau đó ta xác định số người điều tra và
tự do lựa chọn người cần điều tra của mỗi nhóm mà không cần tuân thủ tính
ngẫu nhiên. Ở đây nhóm có nguy cơ cao như nhóm nghiện hút và nhóm gái mại
dâm thì chọn nhiều hơn, chứ không chọn theo tỷ lệ các phần tử trong từng
nhóm ở địa phương đó.
Như vậy phương pháp chọn mẫu định mức có những nét giống phương pháp
chọn mẫu phân tầng/lớp như mỗi dạng thức khác nhau của tổng thể được coi là
một lớp. Trong chọn mẫu phân tầng/lớp thì các phần tử mẫu được chọn ra một
cách ngẫu nhiên từ mỗi tầng/lớp. Còn trong phương pháp chọn mẫu định mức
có thể tự do lựa chọn các phần tử mẫu để điều tra cho từng nhóm không cần

23
tuân thủ tính ngẫu nhiên. Như vậy, việc tự do lựa chọn các phần mẫu làm cho
phương pháp chọn mẫu định mức khác về cơ bản phương pháp chọn mẫu phân
tầng/lớp. Hơn thế nữa, trong phương pháp chọn mẫu định mức thì tổng thể (cơ
sở điều tra) chưa xác định rõ hoặc không cần xác định rõ và không có đầy đủ
danh sách các phần tử của từng nhóm.
(3) Chọn mẫu phán đoán
Trong phương pháp này người nghiên cứu phải sử dụng phán xét của riêng
mình để lựa chọn phần các phần tử mẫu sao cho mẫu được chọn có thể đại diện
cho tổng thể theo dấu hiệu nghiên cứu.
Ví dụ 1.9: Để đánh giá về việc đi du học của học sinh, sinh viên ở nước ta hiện
nay, người nghiên cứu cần phỏng vấn một số học sinh, sinh viên chuẩn bị đi du
học, đã từng đi du học, các phụ huynh của học sinh và các
nhà tư vấn du học, các nhà giáo duc…
(4) Chọn mẫu quy tụ (mẫu tăng nhanh)
Mẫu quy tụ là một dạng đặc biệt của mẫu phán đoán. Chọn mẫu quy tụ bắt đầu
một vài đối tượng có những phẩm chất cần tìm, rồi phỏng vấn các đối tượng này
và nhờ họ giới thiệu cho những đối tượng khác thích hợp cho mục tiêu nghiên
cứu. Loại mẫu này thích hợp cho những nghiên cứu, giải thích, khám phá mà
người nghiên cứu thực sự không biết được những đối tượng nào cần đưa vào
mẫu. Cách tiếp cận như vậy đặc biệt thích hợp cho việc nghiên cứu các tệ nạn
xã hội như mại dâm, ma túy…
Ví dụ 1.10: Cần nghiên cứu về tệ nạn cá cược bóng đá, đánh bạc trong sinh viên.
Trước tiên cần tìm hiểu một vài sinh viên hay đánh bạc, rồi nhờ họ giới thiệu
cho các sinh viên khác cũng đánh bạc mà họ biết.
Như vậy, các phương pháp chọn mẫu phi ngẫu nhiên có hạn chế cơ bản là
không tuân thủ tính ngẫu nhiên, nên tính khách quan của loại mẫu này khó được
đảm bảo, từ đó kết luận được đưa ra mang tính chủ quan. Tất nhiên, điều đó
không có nghĩa là không nên dùng phương pháp này. Mặc dù có những hạn chế,
nhưng trong nhiều trường hợp nó vẫn tỏ ra có hiệu quả, đặc biệt trong các

24
nghiên cứu phát hiện, khám phá tìm ra các ý tưởng mới. Theo phương pháp này
thì chất lượng mẫu phụ thuộc vào trình độ của người nghiên cứu và kinh
nghiệm của họ.
Tóm lại, mỗi phương pháp chọn mẫu đều có ưu điểm và hạn chế nhất định. Tùy
theo mục đích nghiên cứu mà người nghiên cứu sẽ lựa chọn kiểu thiết kế mẫu
thích hợp. Người nghiên cứu cần hiểu rõ những đặc điểm lý tưởng của từng kiểu
mẫu để đáp ứng tốt nhất mục tiêu nghiên cứu. Để đảm bảo tính khả thi và giảm
chi phí, nhà nghiên cứu có thể bỏ qua một số đặc điểm nào đó của thiết kế mẫu
lý tưởng. Song bất kể chọn kiểu thiết kế mẫu nào thì người nghiên cứu cũng cần
phải giải thích chính xác, cặn kẽ quá trình xây dựng mẫu, cảnh báo những vấn
đề cần lưu ý của quá trình thực hiện và khả năng điều chỉnh tối ưu để thiết kế
được mẫu phù
hợp nhất với mục đích nghiên cứu.
1.3.3. Các giai đoạn trong nghiên cứu thống kê
Quá trình nghiên cứu thống kê thường bao gồm 6 bước (giai đoạn) được minh
họa bằng sơ đồ sau đây: (hình 1-1)

25
Xác định vấn đề cần
nghiên cứu

Xác định tổng thể

Lựa chọn phương pháp


lấy mẫu- Kích thước mẫu

Thu thập dữ liệu

Xử lý dữ liệu- Suy luận


các tham số của tổng thể

Kết luận về tổng thể

Hình 1-1

26
Bước 1: Xác định vấn đề cần nghiên cứu
Trong bước này cần nêu rõ mục đích nghiên cứu. Đây là một việc rất quan trọng
của một nghiên cứu, là điểm khởi đầu và động lực của quá
trình nghiên cứu và tiền đề các bước/giai đoạn sau.
Bước 2: Xác định tổng thể
Trong bước này cần chỉ rõ phạm vi nghiên cứu, đối tượng nghiên cứu mà thông
tin cần được thu thập phù hợp với mục đính nghiên cứu. Các đối tượng nghiên
cứu có thể là các cá nhân, công ty, trường học, hoặc cửa hàng…
Có thể xác định tổng thể thông qua các đặc điểm về địa lý (thành phố, quốc
gia…), nhân khẩu (những thanh niên độ tuổi từ 18-25 hay những người chưa lập
gia đình…) hay sự nhận biết hoặc sử dụng sản phẩm (chẳng hạn như trong
nghiên cứu maketing, người ta quan tâm các khách hàng đã biết đến sản phẩm
của công ty qua quảng cáo và muốn tìm hiểu xem mẫu quảng cáo có ảnh hưởng
ra sao đến hành vi tiêu dùng của họ).
Cần lưu ý rằng, muốn nghiên cứu, rút ra kết luận về tổng thể nào thì cần lấy
mẫu từ tổng thể đó. Nếu quy tắc căn bản này bị vi phạm nghĩa là lấy mẫu từ
tổng thể không thích hợp thì dẫn đến khá nhiều kết luận có rất ít giá trị hoặc sai
lầm. Chẳng hạn, một câu chuyện đã xảy ra vào năm 1936, trước cuộc bầu cử
tổng thống Mỹ, tờ báo Literary Digest đưa ra một dự đoán một cách tự tin rằng
Alfred Landon sẽ thắng Franklin Roosevelt trong cuộc bầu cử tổng thống. Trên
thực tế Roosevelt đã thắng cử với một tỷ lệ cao. Nguyên nhân của dự đoán sai
lầm này là do tờ báo Digest đã lấy mẫu từ tổng thể danh sách điện thoại và
đăng ký xe hơi. Tổng thể này chỉ đại diện cho một bộ phận người giàu dân Mỹ
ở thời kỳ đó, không đại diện cho những người nghèo, vốn đa số ủng hộ cho
Đảng Dân chủ.
Bước 3: Chọn lựa phương pháp lấy mẫu- Xác định kích thước mẫu

27
Có thể sử dụng một trong các phương pháp chọn mẫu đã trình bày ở trên hoặc
kết hợp các phương pháp đó để lựa chọn các phần tử mẫu. Sử dụng phương
pháp nào là tùy thuộc vào mục đích, tính chất và nguồn lực nghiên cứu.
Các phương pháp cần dùng để dự đoán chính xác các thông số (tỷ lệ, trị số trung
bình) trong loại hình nghiên cứu “ bao nhiêu” thường đòi hỏi kỹ thuật lấy mẫu
ngẫu nhiên. Dạng câu hỏi “chân dung” thường ít dùng kỹ thuật lấy mẫu ngẫu
nhiên vì tính ngẫu nhiên không cần thiết trong việc định hình “chân dung”. Hơn
nữa, kỹ thuật lấy mẫu ngẫu nhiên thường tốn kém chi phí. Vì vậy đối với chủ đề
“chân dung” thường dùng kỹ thuật chọn mẫu phi ngẫu nhiên.
Trong giai đoạn này cần xác định kích thước mẫu. Điều này chủ yếu phụ thuộc
vào yếu tố chi phí và mức độ chính xác (sai số) mà nghiên cứu đòi hỏi.
Bước 4: Thu thập dữ liệu
Cần xác định rõ những dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu
này. Để xác định dữ liệu cần thu thập thì xuất phát từ tìm hiểu kỹ vấn đề nghiên
cứu và mục đích nghiên cứu. Vấn đề nghiên cứu và mục tiêu nghiên cứu càng
cụ thể thì xác định dữ liệu cần thu thập càng dễ dàng.
Lựa chọn phương pháp nào để thu thập dữ liệu tùy thuộc vào điều kiện và tính
chất của cuộc điều tra. Khi thu thập dữ liệu có hai điều cần quan tâm:
Thứ nhất là tỷ lệ trả lời. Khi điều tra mẫu nhận được tỷ lệ trả lời càng cao càng
tốt. Nếu tỷ lệ trả lời không trả lời cao thì kết luận đưa ra chưa chắc đã đại diện
được cho tổng thể. Rất có thể những người không trả lời lại là những người có
nhiều kinh nghiệm và ý kiến của họ lại rất khác so với ý kiến mà ta thu thập
được. Để tăng tỷ lệ trả lời, cần chú ý đến việc thiết kế lượng câu hỏi thích hợp
và cách thức tiếp xúc với đối tượng điều tra.
Thứ hai, sự chính xác và thành thật của các câu trả lời. Nếu dựa trên dữ liệu
thống kê thu thập được không đáng tin cậy thì các suy luận thống kê với các
phương pháp thống kê vô cùng phức tạp và khoa học sẽ là vô nghĩa. Để nhận
được các câu trả lời chính xác và thành thật thì cần lựa chọn phương pháp thu
thập dữ liệu phù hợp. Đặc biệt cần thiết kế các câu hỏi phải rõ ràng, dễ hiểu, từ

28
ngữ không tối nghĩa,… và nghệ thuật của người hỏi sao cho người được hỏi trả
lời thành thật với sự thoải mái, hài lòng, nhất là các vấn đề nhạy cảm, tế nhị.
Tóm lại, sự thành bại của một cuộc điều tra chủ yếu phụ thuộc vào việc thu
thập dữ liệu như thế nào chứ không phụ thuộc nhiều vào phương pháp chọn
mẫu.
Bước 5: Sử dụng các thông tin từ mẫu để suy luận các đặc trưng của tổng thể
(quá trình xử lý dữ liệu)
Đây là vấn đề có tính kỹ thuật, thể hiện ở việc sử dụng các phương pháp thống
kê như phương pháp ước lượng, phương pháp kiểm định giả thuyết, phương
pháp phân thích tương quan và hồi quy…
Cần chú ý là tùy theo nội dung, bản chất của vấn đề nghiên cứu và tính chất của
số liệu thu thập để sử dụng phương pháp thống kê thích hợp. Chẳng hạn, muốn
nghiên cứu về mức sống của người dân ở một địa phương thì ta sử dụng phương
pháp ước lượng để xác định mức thu nhập trung bình/người trong một
tháng/năm. Hay để đánh giá một chiến dịch tuyên truyền chống hút thuốc là có
hiệu quả hay không ta sử dụng phương pháp kiểm định giả thuyết…
Bước 6: Đưa ra kết luận về tổng thể.
Đây là giai đoạn cuối cùng, thể hiện kết quả của quá trình nghiên cứu. Các kết
quả này phải thỏa mãn những yêu cầu, mục tiêu đặt ra cho vấn đề nghiên cứu đã
nêu ra ở bước đầu tiên. Trong bước này cần thể hiện tóm tắt, trình bày các kết
quả nghiên cứu đạt được thông qua các bảng thống kê, đồ thị hoặc báo cáo phân
tích. Rất có thể nảy sinh những vấn đề mới, đòi hỏi phải tiếp tục nghiên cứu,
phân tích sâu hơn. Khi đó ta lại tiếp tục một nghiên cứu thống kê mới (liên hệ
giữa bước 1 và bước 6 được trong hình (2-1).
1.4. Tóm tắt và trình bày dữ liệu bằng bảng dữ liệu
Bảng tần số là một bảng tổng hợp các biểu hiện có thể có của đặc điểm quan sát
(đối với dạng dữ liệu định tính) hoặc các giá trị hay khoảng giá trị mà trong
phạm vi dữ liệu (đối với dữ liệu định lượng) có thể rơi vào và số quan sát tương
ứng với mỗi biểu hiện hoặc khoảng giá trị dữ liệu. Ở dạng cơ bản nhất, bảng tần

29
số thường gồm 3 cột: cột đầu tiên mô tả các biểu hiện hoặc các giá trị hay
khoảng giá trị được xác định cho dữ liệu, cột thứ hai mô tả tần số tương ứng với
mỗi biểu hiện hoặc giá trị hay khoảng giá trị, còn cột thứ ba là các tần suất (tỷ
lệ %).
Bảng tần số có thể được đưa thêm vào một số cột dữ liệu nữa phục vụ cho các
mục đích tìm hiểu sâu hơn.
1.4.1. Bảng tần số cho dữ liệu định lƣợng
a) Bảng tần số cho dữ liệu định lượng của đặc điểm quan tâm có ít biểu hiện/
giá trị dạng rời rạc (hay còn gọi là bảng tần số rút gọn)
Trong trường hợp đặc điểm quan tâm có ít biểu hiện/giá trị, chẳng hạn số con
của một cặp vợ chồng trẻ ở thành thị, thì dữ liệu định lượng đó có rất ít giá trị
bao gồm: 0, 1, 2, hiếm gặp 3 và có lẽ tối đa chỉ đến 4. Khi đó có thể lập bảng
tần số rút gọn giống như cách lập bảng tần số cho dữ liệu định tính đã nêu ở
trên. Tuy nhiên, lúc này mỗi giá trị của đặc điểm quan tâm xem như một biểu
hiện có thể của dữ liệu định tính. Đặc biệt hơn là tại cột đầu tiên của bảng,
chúng ta có thể xác định đơn vị tính cho mỗi giá trị. Trong bảng tần số các giá
trị của đặc điểm quan tâm được sắp xếp theo trật tự tăng dần.
Ngoài ra đối với dữ liệu định lượng nói chung khi thiết lập bảng tần số chúng ta
có thể thiết lập thêm cột tần số tích lũy và cột tần suất tích lũy để cung cấp thêm
thông tin cho người đọc. Dữ liệu của cột tần số tích lũy được tính bằng cách
cộng dồn các tần số từ trên xuống cho đến đúng vị trí tương ứng với giá trị mà
ta đang muốn tính tần số tích lũy. Tương tự, dữ liệu của cột tần suất tích lũy
được tính bằng cách cộng dồn các tần suất từ trên xuống cho đến đúng vị trí
tương ứng với giá trị mà ta đang muốn tính tần suất tích lũy.
Ví dụ 1.11: Người ta khảo sát một mẫu gồm 30 cặp vợ chồng trẻ ở thành thị về
số con của họ, số liệu thu được là dữ liệu định lượng với đặc điểm quan tâm (số
con) có ít giá trị. Khi đó bảng tần số rút gọn được lập như sau:

30
Số con của cặp vợ Tần số Tần suất Tần số tích Tần suất
chồng trẻ ở thành thị (Số cặp) (%) lũy (cặp) tích lũy(%)
0 1 3,33 1 3,33
1 10 33,33 11 36,67
2 15 50 26 86,67
3 3 10 29 96,67
4 1 3,3 30 100
Tổng 30 100

Bảng 1-3
Từ bảng, nhìn vào cột tần số tích lũy và cột tần suất tích lũy ta thấy trong mẫu
khảo sát có 26 cặp vợ chồng có không quá 2 con, tương ứng với 86,67% các cặp
vợ chồng có không quá 2 con.
Nhìn vào cột tần số và tần suất cho biết trong mẫu điều tra tình trạng phổ biến
nhất có 2 con (15 cặp), tương ứng với 50% số cặp có 2 con. Hiếm khi gặp 0 con
hoặc 4 con (1 cặp), tương ứng với 3,3% số cặp.
b) Bảng tần số cho dữ liệu định lượng của đặc điểm quan tâm có nhiều biểu
hiện/giá trị (hay còn gọi là bảng tần số phân lớp/tổ)
Trong tình huống đặc điểm quan tâm có quá nhiều biểu hiện/giá trị thì trình bày
như ở bảng tần số rút gọn ở trên sẽ rất cồng kềnh, không có tác dụng tóm lược
thông tin, từ đó làm cho người quan sát không thuận lợi trong việc nhận thức
vấn đề cần nghiên cứu. Cho nên khi gặp tình huống như vậy, cần tiến hành phân
lớp cho các biểu hiện/giá trị rồi sau đó mới lập bảng tần số trên cơ sở dữ liệu đã
phân lớp/tổ này.
Phân lớp dữ liệu là căn cứ vào một hay một số đặc điểm nào đó để sắp xếp các
số liệu quan sát vào các lớp/tổ, sao cho mỗi lớp có tính chất khác nhau. Chẳng
hạn, ta có thể chia điểm của 100 bài thi môn Thống kê theo phân loại điểm yếu,
trung bình, khá và giỏi vào 4 lớp/tổ như sau: Lớp thứ nhất từ 0 điểm đến 4

31
điểm; lớp thứ hai từ 4 điểm đến 6 điểm; lớp thứ ba từ 6 điểm đến 8 điểm và lớp
thứ tư từ 8 điểm đến 10 điểm.
Mỗi lớp có giới hạn trên (cận trên) là trị số lớn nhất của lớp và giới hạn dưới
(cận dưới) là trị số nhỏ nhất của lớp. Chênh lệch giữa giới hạn dưới và giới hạn
trên là trị số khoảng cách lớp.
Một số nguyên tắc phân lớp/tổ:
- Các biểu hiện/giá trị được sắp xếp vào mỗi lớp phải có tính chất giống nhau
hoặc gần giống nhau. Các lớp không được trùng nhau để cho mỗi quan sát bất
kỳ chỉ thuộc vào một lớp.
- Tất cả các lớp được phân chia phải đảm bảo bao quát hết tất cả các giá trị hiện
có của tập dữ liệu.
- Tránh phân chia lớp mà không có quan sát nào thuộc về lớp đó.
Khi phân lớp dữ liệu, tùy theo mục đích thể hiện cũng như đặc điểm phân bố
đều đặn hay không đều đặn của dữ liệu mà có thể tiến hành phân lớp/tổ đều hay
không đều. Đối với các hiện tượng nghiên cứu khi lượng biến thay đổi khá đều
đặn trên các phần tử như: năng suất thu hoạch, trọng lượng,…thì khi đó các
quan sát thường được phân lớp có khoảng cách đều nhau. Khi phân lớp có
khoảng cách đều nhau thì thực hiện các bước sau:
Bước 1: Xác định số lớp/tổ cần chia
Một công thức tham khảo để xác định số tổ cần chia là
k= (2*n)1/3 (2-2)
với k là số lớp cần chia; n là là kích thước của tập dữ liệu.
Nếu kết quả được tính là số lẻ thì phải làm tròn (có thể làm tròn lên hoặc làm
tròn xuống đều được) vì công thức trên chỉ có tính tham khảo, nhưng phải đảm
bảo nguyên tắc phân lớp đã nêu trên.
Nếu phân chia có số lớp ít quá thì có xu hướng làm cho số liệu “bị nén quá
chặt” nên có thể làm mất đi nhiều thông tin. Theo kinh nghiệm thì nên chia
khoảng từ 5 tổ đến dưới 15 lớp tùy theo tập dữ liệu có ít quan sát hay nhiều
quan sát.

32
Bước 2: Xác định khoảng cách h giữa các tổ/lớp theo công thức sau
xmax  xmin
h , (2-3)
k
với xmax là giá trị lớn nhất và xmin là giá trị nhỏ nhất của tập dữ liệu; k là số lớp
định chia. Nếu h tính được là số lẻ thì cũng được làm tròn.
Bước 3: Xác định cận trên và cận dưới của các lớp
- Xác định giá trị cận dưới của lớp đầu tiên phải nhỏ hơn hoặc bằng xmin để lớp
đó có thể bao quát được giá trị này và giá trị cận trên của lớp cuối cùng phải lớn
hơn xmax để lớp này bao quát được giá trị xmax.
- Các lớp được xác định liên tục: giá trị cận trên của lớp trước trùng với giá trị
cận dưới của lớp sau liền kề. Cụ thể là:
Lớp thứ nhất: (xmin; xmin+h)
Lớp thứ hai: (xmin+h; xmin+h+ h) = (xmin+h; xmin+ 2h)
Lớp thứ ba: (xmin+h; xmin+ 2h+ h ) = (xmin+h; xmin+ 3h)
……….
Tuy nhiên trong thực tế khi xác định các cận trên và dưới của các lớp người ta
có thể xử lý linh động hơn để đảm bảo tính khoa học và thẩm mỹ.
Bước 4: Phân chia các giá trị quan sát từ tệp dữ liệu vào các lớp đã chia
Quan sát có giá trị phù hợp (rơi) vào lớp nào thì ta xếp nó vào lớp đó.
Có thể quy ước là một quan sát có giá trị đúng bằng cận trên của một lớp thì
xếp quan sát đó vào chính lớp đó hoặc có thể quy ước một quan sát có giá trị
đúng bằng cận trên của một lớp thì xếp quan sát đó vào lớp kế tiếp.
Chú ý: Có thể phân chia lớp đầu hoặc lớp cuối dưới dạng các khoảng mở:
Có thể mở giới hạn dưới của lớp đầu tiên hoặc mở giới hạn trên của lớp cuối
cùng hoặc mở đồng thời cả giới hạn dưới của lớp đầu tiên với giới hạn trên của
lớp cuối cùng. Mục đích của việc phân chia lớp mở để lớp đầu tiên và lớp cuối
cùng chứa được các quan sát có giá trị bé hoặc lớn bất thường so với các giá trị
còn lại trong tập dữ liệu và tránh được việc hình thành quá nhiều lớp.

33
Ví dụ 1.12: Chúng ta có số liệu của một mẫu điều tra về tuổi của 30 học viên hệ
chính quy không tập trung đang học năm thứ nhất ngành Báo chí như sau:
28 23 30 24 19 21 39 22 22 31 37 33 20 30 35
21 26 27 25 29 27 21 25 28 26 29 29 22 32 27
Để tóm lược lại dữ liệu này chúng ta tiến hành phân lớp/tổ dữ liệu rồi mới lập
bảng tần số.
- Xác định số lớp cần chia: k  2  n1/ 3  2  301/ 3  3,9  4 (lớp)
( xmax  xmin ) 39  19
- Xác định khoảng cách h giữa các lớp: h    5 (tuổi)
k 4
- Xác định cận trên và cận dưới của của các lớp:
Lớp 1: (19 - 24); Lớp 2: (24 - 29); Lớp 3: (29 - 34); Lớp 4: (34 - 39).
Nếu phân chia các quan sát vào các lớp với quy ước là một quan sát có
giá trị đúng bằng cận trên của một lớp thì xếp quan sát đó vào chính lớpđó, ta có
bảng phân lớp như sau:
Độ tuổi Số học viên
19 – 24 10
24 – 29 12
29 – 34 5
34 – 39 3
Tổng 30
Bảng 1-4
Trên cơ sở phân lớp này bảng tần số được thiết lập như sau:

Tần số Tần suất tích lũy


Độ tuổi (tuổi) Tần suất (%)
(Số học viên) (%)
19 – 24 10 33,33 33,33
24 – 29 12 40,00 73,33
29 – 34 5 16,67 90,00
34 – 39 3 10,00 100,00
Tổng 30 100,00
Bảng 1-5

34
Từ ví dụ trên, nếu quy ước một quan sát có giá trị đúng bằng cận trên của một
lớp thì xếp quan sát đó vào lớp kế tiếp thì tại lớp cuối cùng có giá trị cận dưới là
39 đúng bằng giá trị xmax. Khi đó, theo quy ước này thì giá trị 39 phải xếp vào
lớp kể tiếp với lớp từ 34 -39, nhưng ta không có lớp đó, nên ta giải quyết bằng
mở lớp cuối cùng như sau:

Độ tuổi Số học viên


19 – 24 9
24 – 29 10
29 – 34 8
34 trở lên ( 34) 3
Tổng 30

Bảng 1-6
Khi đó bảng tần số được thiết lập như sau:

Tần số Tần suất tích lũy


Độ tuổi (tuổi) Tần suất (%)
(Số học viên) (%)
19 – 24 9 30,00 30,00
24 – 29 10 33,33 63,33
29 – 34 8 26,67 90,00
34 trở lên 3 10,00 100,00
Tổng 30 100,00
Bảng 1-7
c) Bảng tần số kết hợp hai biến định lượng
Để mô tả đặc điểm mẫu kết hợp hai đặc điểm định lượng có nhiều biểu

hiện/ giá trị thì khi đó ta có thể thiết lập bảng tần số có thể kết cấu phức
tạp hơn nữa.
Ví dụ 1.13: Bảng dưới đây mô tả kết hợp hai đặc điểm là thâm niên công tác và
mức lương của 453 nhân viên của một công ty:

35
Mức lƣơng
2000$ 3000$ 4000$ 5000$ Tổng
Thâm niên
1 năm 87 57 11 3 158

3 năm 39 45 14 19 117

5 năm 15 36 47 25 123

8 năm 8 14 24 9 55

Tổng 119 152 96 56 453

Bảng 1-8
1.4.2. Bảng tần số cho dữ liệu định tính
a) Bảng tần số đối với một dấu hiệu định tính
Đối với mộtdữ liệu định tính như giới tính, dân tộc, vùng địa lý, ngành học…
chúng ta lập bảng tần số như sau:
Cột thứ nhất liệt kê tất cả các biểu hiện có thể có của đối tượng (phần tử) theo
đặc điểm mà ta đang muốn lập bảng. Chẳng hạn, nếu đặc điểm quan tâm là giới
tính thì nó phải có hai biểu hiện là Nam hoặc Nữ; nếu đặc điểm quan tâm là
khoa đào tạo trong khối nghiệp vụ ở Học viện Báo chí và Tuyên truyền thì có
thể được phân chia thành 7 khoa sau: khoa Báo chí, khoa Phát thanh truyền hình,
khoa Xuất bản, khoa Quan hệ công chúng và quảng cáo, khoa Xã hội học, khoa
Ngoại ngữ, khoa Quan hệ quốc tế.
Cột thứ hai là cột tần số được điền số liệu bằng cách đếm xem có bao
nhiêu quan sát có cùng một biểu hiện.
Cần lưu ý rằng tổng của cột tần số phải đúng bằng số quan sát của tập dữ liệu.
Cột thứ ba là cột tần suất. Các tần suất được tính bằng cách lấy các tần số chia
cho tổng các quan sát của tập dữ liệu, đem kết quả nhân cho 100%, rồi ghi vào
cột tần suất.
Ví dụ 1.14: Khảo sát một mẫu 600 sinh viên khối nghiệp vụ tại Học viện Báo
chí và Tuyên truyền với 7 khoa : Báo in, Phát thanh truyền hình, Quan hệ Công

36
chúng và Quảng cáo (QHCC &QC) , Quan hệ quốc tế, Xã hội học, Xuất bản,
Biên dịch tiếng Anh ta có bảng tổng hợp số liệu được lập dưới dạng bảng tần số
như sau:
Số sinh viên Tỷ lệ phần trăm(%)
Khoa đào tạo
(Tần số) (Tần suất)
Khoa Báo in 130 21,7
Khoa phát thanh truyền hình 200 33,3
Khoa QHCC &QC 80 13,3
Quan hệ quốc tế 45 7,5
Khoa Xã hội học 60 10
Khoa Xuất bản 50 8,3
Khoa Ngoại ngữ 35 5,9
Bảng 1-9
b) Bảng tần số kết hợp hai biến định tính (bảng tiếp liên)
Để mô tả đặc điểm mẫu kết hợp hai đặc điểm định tính được phân tách ra thành
các biểu hiện khác nhau thì khi đó ta có thể thiết lập bảng tần số liên hợp các
dấu hiệu (bảng tiếp liên) có thể kết cấu phức tạp hơn nữa.
Ví dụ 1.15. Mét nhµ x· héi häc muèn t×m hiÓu quan hÖ gi÷a dạng téi
phạm vµ tr×nh ®é v¨n ho¸ cña ph¹m nh©n. Chän ngÉu nhiªn mét sè ph¹m
nh©n trong hå s¬ thô ¸n vµ thu ®-îc số liệu dạng bảng tiếp liên như sau :
Trình độ VH
Trên đại
THPT cơ sở THPT Đại hoc
học
Dạng tội phạm
Hình sự 75 15 7 3
Dân sự 40 22 6 2
Bảng 1-10
1.5. Trình bày dữ liệu bằng đồ thị
1.5.1. Trình bày dữ liệu bằng đồ thị đối với dữ liệu định lƣợng
a) Biểu đồ tần số hình gậy và biểu đồ tần suất hình gậy (đồ thị hình gậy)
Đồ thị hình gậy thường dùng để biểu diễn cho dữ liệu định lượng của đặc
điểm quan tâm có ít biểu hiện/ giá trị dạng rời rạc. Xuất phát từ bảng tần số rút
gọn, ta biểu diễn các giá trị xi lên trục nằm ngang và biểu diễn tần số (hay tần
suất) lên trục thẳng đứng. Ta vẽ các đoạn thẳng có gốc là điểm (xi; 0) và đầu là

37
điểm (xi; mi) hay điểm (xi; mi/n), với i= 1, 2, …, n. Khi đó tập hợp các đoạn
thẳng như vậy gọi là đồ thị hình gậy.
Ví dụ 1.16: Từ bẳng tần số rút gọn được cho ở ví dụ 2.11, ta có đồ thị hình gậy
tần số (hình 2-2) và đồ thị hình gậy dạng tần suất (hình 2-3) biểu diễn số con
của các cặp vợ chồng trẻ ở thành thị như sau:
mi
15 fi
50%
10 33,3%

3 10%
1 3,33%
0 1 2 3 4 x 0 1 2 3 4
x
Hình 1-2 Hình 1-3
b) Đồ thị phân phối tần số (Histogram)
Đồ thị phân phối tần số có mối liên hệ chặt chẽ về thông tin với bảng tần số
phân lớp. Khi xây dựng đồ thị này, các lớp giá trị được thể hiện trên trục nằm
ngang, còn tần số hay tần suất của mỗi lớp thể hiện trên trục đứng. Nếu phân
lớp đều nhau thì đồ thị phân phối tần số hoặc tần suất gồm các cột có bề rộng
bằng nhau và chiều cao của các cột là tần số hay tần suất của mỗi lớp.
Ví dụ 1.17: Xây dựng đồ thị phân phối tần số từ bảng tần số phân lớp
được cho ở bảng 2-7 như sau:

38
Histogram

14

12

10

Frequency
8
Frequency
6

0
24 29 34 39 More
Do tuoi

Hình 1-4
Để xây dựng đồ thị phân phối tần suât từ bảng tần số phân lớp thì đồ thị tương
tự như đồ thị trên nhưng trục đứng biểu thị tần suất của mỗi lớp.
c) Đa giác tần số- Đa giác tần suất
Người ta vẽ Đa giác tần số (hay Đa giác tần suất) bằng cách nối đầu của các
đoạn thẳng trong biểu đồ hình gậy hoặc nối các trung điểm của cạnh đỉnh của
các cột trong đồ thị phân phối tần số (Histogram) lại với nhau bằng các đoạn
thẳng.
Thí dụ 1-18: Vẽ đa giác tần số và đa giác tần suất từ ví dụ 1-15 và ví dụ 1-16
nêu trên.
mi
15 fi
50%
10 33,3%

3 10%
1 3,33%
0 1 2 3 4 x 0 1 2 3 4 x
Hình 1-5 Hình 1-6

39
Histogram

14

12

10

Frequency
8
Frequency
6

0
24 29 34 39 More
Do tuoi

Hình 1-7
1.5.2. Trình bày dữ liệu bằng đồ thị đối với dữ liệu định tính dạng phân
loại
Đối với dữ liệu định tính dạng phân loại người ta thường trình bày 2 dạng đồ
thị cơ bản là đồ thị hình thanh (gồm đồ thị thanh đứng, đồ thị thanh ngang) và
đồ thị hình tròn.
a) Đồ thị dạng thanh (Bar Chart)
Trên đồ thị này mỗi thanh đại diện cho một phân loại của dữ liệu định tính mà
ta quan tâm, chiều dài của thanh thể hiện tần số hay tỷ lệ phần trăm của các
quan sát thuộc về phân loại đó. Đồ thị dạng hình thanh có hai loại là đồ thị
thanh đứng (Colum) và đồ thị thanh ngang (Bar). Sự lựa chọn giữa hai dạng
thanh này do tính thẩm mỹ và khoa học của người dựng đồ thị quyết định.
* Các bước vẽ đồ thị:
- Xác định phân loại của đặc điểm định tính mà ta quan tâm.
- Xác định số quan sát thuộc về từng phân loại.
- Đối với đồ thị thanh đứng ta biểu diễn từng phân loại lên trục nằm ngang, còn
biểu diễn số quan sát thuộc về các phân loại lên trục đứng, hoặc với đồ thị thanh
ngang thì chức năng của hai trục đảo lại.
- Dựng các thanh đồ thị theo nguyên tắc bề rộng của các thanh bằng nhau còn
chiều dài của các thanh tương ứng với số quan sát thuộc về từng phân
loại mà thanh đại diện.

40
Thí dụ 1.19: Từ bảng dữ liệu được cho ở bảng 1-9 ở ví dụ 1.15, ta có hai đồ thị
thanh đứng và thanh ngang được xây dựng như sau:

Hình 1-8

Các khoa nghiệp vụ

Khoa Ngoại ngữ

Khoa Xuất bản

Khoa Xã hội học


Khoa

Quan hệ quốc tế Series1

Khoa QHCC&QC

Khoa PTTH

Khoa Báo in

0 50 100 150 200 250


Tần số (Số SV)

Hình 1-9
Chú ý: Cần phân biệt giữa đồ thị phân phối tần số (Histogram) và đồ thị
dạng thanh đứng (Colum) mặc dù hai dạng rất giống nhau nhưng thực ra đây

41
là hai công cụ thống kê khá khác biệt. Histogram thể hiện phân phối tần số
của dữ liệu định lượng. Khi vẽ Histogram giữa các thanh đứng của đồ thị
không có khoảng cách. Ngược lại đồ thị hình thanh đứng (colum) chủ yếu
dùng cho dữ liệu định tính dạng phân loại, giữa các thanh đồ thị phải có
khoảng cách vì mỗi thanh biểu hiện của một biến phân loại.
b) Đồ thị hinh tròn (Pie Chart)
Trên đồ thị này, toàn bộ diện tích hình tròn được chia thành nhiều mảnh nhỏ
hình rẻ quạt, diện tích mỗi rẻ quạt tương đương với tỷ lệ của các phân loại
của dữ liệu định tính và mang màu sắc khác nhau. Thứ tự của các phân loại
trên đồ thị hình tròn (theo chiều kim đồng hồ) là thứ tự của các phân loại
được sắp xếp trong bảng tổng hợp.
Ví dụ 1.20: Từ bảng dữ liệu tổng hợp được cho trong bảng 1-9 ta xây dựng
được đồ thị hình tròn như sau:

Các khoa nghiep vụ

6%
8% 22%
Khoa Báo in
10% Khoa PTTH
Khoa QHCC&QC
Khoa Quan hệ quốc tế
8% Khoa Xã hội học
Khoa Xuất Bản
Khoa Ngoại ngữ
13% 33%

Hình 1-10
Nhìn vào đồ thị ta thấy tỷ lệ sinh viên khoa PTTH là cao nhất vì ứng với rẻ quạt
có diện tích lớn nhất. Tỷ lệ sinh viên khoa Xã hội học chỉ bằng gần nửa sinh

42
viên khoa Báo chí bằng cách ước lượng diện tích của mỗi mảnh đại diện. Đồ thị
hình tròn cho thấy rõ ràng là tổng tỷ trọng của tất cả các phân loại bằng 100%.
Việc chọn đồ thị hình tròn hay đồ thị hình thanh phụ thuộc vào ý định thể hiện
thông tin của người dựng đồ thị. Nếu mục đích chủ yếu để so sánh phân loại
thì dùng đồ thị hình thanh là tốt nhất, còn nếu muốn thể hiện tỷ trọng của từng
phân loại trong toàn thể đối tượng thì ta dùng đồ thị hình tròn.
1.6. Các thống kê đặc trƣng của mẫu
1.6.1. Số trung bình mẫu (Mean) - ký hiệu là x
Nếu tập dữ liệu mẫu gồm n giá trị khác nhau x1, x2, …, xn thì trung bình mẫu
x (trung bình cộng đơn giản) được xác định như sau:

x1  x2  ...  xn 1 n
x hay x   xi
n n i 1

Nếu tập dữ liệu mẫu có k loại giá trị quan sát là x1, x2, …, xk với tần số

(số lần lặp) tương ứng của mỗi loại là m1, m2, …, mk thì trung bình mẫu (trung

bình trọng số) được xác định như sau:

x1m1  x2 m2  ...  xk mk 1 k
x hay x   xi mi
n n i 1

Như vậy, số trung bình là một sự san bằng bù trừ tất cả các giá trị trong tập dữ
liệu. Do vậy, người ta dùng nó để mô tả độ tập trung của tập dữ liệu.
Ví dụ 1.21: Để tính điểm trung bình học tập của một sinh viên trong một học kỳ
với nhiều môn có số tín chỉ khác nhau người ta làm như sau: đem nhân điểm
kết thúc của từng môn học với số tín chỉ tương ứng, rồi cộng các kết quả lại với
nhau và chia cho tổng số tín chỉ . Chẳng hạn kết quả cụ thể các môn học của
một sinh viên A trong một kỳ được cho như sau:

43
Môn học Số tín chỉ Điểm
Triết học 4 5,2
Ngoại ngữ 4 6,4
Pháp luật đai cương 3 6,7
Tin học 3 7,3
Thống kê& xử lý dữ liệu 2 5,8
Lịch sử thế giới 2 7,5
Khi đó điểm trung bình học tập của một sinh viên trong một học kỳ của sinh
viên đó bằng:
4  5,2  4  6,4  3  6,7  3  7,3  2  5,8  2  7,5
x  6,04
18
Cách tính này sẽ đánh giá chính xác hơn là tính theo kiểu trung bình cộng đơn
giản, tức là đem cộng điểm tổng kết các môn lại rồi chia đều cho số môn học.
Cần lưu ý rằng, không được tính đại lượng trung bình cho dữ liệu định tính.
Mặc dù dữ liệu định tính với nhiều phân loại đã được mã hóa bởi các con số
nhưng số trung bình được tính toán sẽ không có ý nghĩa. Những người quen sử
dụng các phần mềm Excel, SPSS…để tính toán rất dễ nhầm lẫn tính số trung
bình, trung vị, … cho tất cả các biến trong tập dữ liệu kể cả biến định tính. Sau
đó dựa trên các bảng kết quả được các phần mềm đưa ra họ viết hàng loạt các
báo cáo thì các báo đó sẽ vô nghĩa.
1.6.2. Số trung vị (Median)- ký hiệu là xmed
Số trung vị là giá trị đứng giữa chia tập dữ liệu thành hai phần bằng nhau, khi
tập dữ liệu có các giá trị được sắp theo trật tự tăng dần. Nghĩa là có 50% số
quan sát của tập dữ liệu có giá trị lớn hơn số trung vị và có 50% số quan sát của
tập dữ liệu có giá trị bé hơn số trung vị.
Khi tập dữ liệu có xuất hiện giá trị ngoại lệ (giá trị bất thường) thì số trung
bình tính được khác nhiều với bản chất của nó, làm sai lệch cảm nhận về mức
độ tập trung của tập dữ liệu. Khi đó người ta dùng số trung vị để mô tả độ tập

44
trung của tập dữ liệu và nó được sử dụng đồng thời cùng với số trung bình nhằm
giúp “điều chỉnh” sai lệch trong cảm nhận về mức độ tập trung của tập dữ liệu.
Để tính số trung vị của tập dữ liệu mẫu thì trước tiên ta sắp xếp lại n giá
trị quan sát theo thứ tự tăng dần, sau đó xác định số trung vị theo quy tắc:
- NÕu n lµ sè lÎ th× xmed lµ gi¸ trÞ thø (n+1)/2.
- NÕu n lµ sè ch½n th× xmed lµ gi¸ trÞ trung b×nh céng cña hai gi¸ trÞ ë gi÷a.
VÝ du 1.22: Gi¶ sö cã d÷ liÖu mÉu sau: 240, 220, 210, 225, 235, 225, 270, 250,
280.
Trước tiên ta s¾p xÕp các giá trị ®ã theo thø tù t¨ng dÇn: 210, 220,225, 225, 235,
240, 250, 270, 280.
ë ®©y n=9. Khi ®ã xmed lµ gi¸ trÞ thø (9+1)/2=5, nghÜa lµ xmed = 235.
VÝ du 1.23 : Gi¶ sö cã d÷ liÖu mÉu sau: 240, 220, 210, 225, 235, 225,
270, 250, 280, 200.
Ta s¾p xÕp d÷ liÖu ®ã theo thø tù t¨ng dÇn: 210, 220,225, 225, 235, 240, 250,
270, 280, 200.
ë ®©y n=10. Khi ®ã xmed lµ trung b×nh céng cña hai gi¸ trÞ n»m ë gi÷a, nghÜa lµ
xmed = (235+240)/2= 237,5.
1.6.3. Mốt (Mode)- ký hiệu là xmod
Số xmod là giá trị có tần số lớn nhất (hay là giá trị lặp nhiều lần nhất) trong tập
dữ liệu.
Có tập dữ liệu có duy nhất một xmod, có tập dữ liệu không có xmod, cũng có tập
dữ liệu có nhiều xmod.
VÝ du 1.24: Với tập dữ liệu mẫu có các giá trị quan sát là 32, 33, 25, 20, 22, 21,
25, 20, 18, 19, 20, 21, 20, 31, 20 19, 20. Ta thấy xmod= 20.
Như vậy, các số trung bình, trung vị và mốt là các đại lượng đo lường mức độ
tập trung của tập dữ liệu.
1.6.4. Khoảng biến thiên (Range)- Ký hiệu R
R= xmax - xmin ,
trong đó xmax là giá trị lớn nhất và xmin là giá trị nhỏ nhất trong tập dữ liệu mẫu.

45
Như vậy, khoảng biến thiên chỉ phụ thuộc vào hai giá trị lớn nhất và bé nhất của
tập dữ liệu nên nó thay đổi rất nhạy theo các giá trị quan sát ngoại lệ. Do đó,
nếu trong tập dữ liệu có những giá trị bất thường (ngoại lai) thì khoảng biến
thiên sẽ bỏ qua thông tin về cách phân bố nội bộ của tập dữ liệu mẫu. Vì vậy
khoảng biến thiên được xem là đại lượng đo lường sự phân tán yếu.
1.6.5. Phương sai và độ lệch chuẩn của mẫu
a) Phương sai mẫu: Ký hiệu là MS
( x1  x ) 2 m1  ( x 2  x ) 2 m2  ...  ( x k  x ) 2 mk 1 k
MS  hay MS   ( xi  x )mi
n n i 1

Trong tính toán người ta thường công thức tương đương như sau:
1 k 2
MS  
n i 1
x i mi  ( x ) 2

- Phương sai mẫu có hiệu chỉnh (Sample Variance)- Ký hiệu là s2


( x1  x ) 2 m1  ( x 2  x ) 2 m2  ...  ( x k  x ) 2 mk
s 
2

n 1
1 k
s2   ( x i  x ) mi
n  1 i 1

Ta có
n
s2   MS
n 1

Trong thống kê người ta thường sử dụng phương sai mẫu có hiệu chỉnh s2, vì
vậy khi nói đến phương sai mẫu thì thường hiểu là phương sai mẫu hiệu chỉnh
s2.
b) Độ lệch chuẩn của mẫu (Standard Deviation)- Ký hiệu là s
s  s2

Độ lệch chuẩn có cùng đơn vị tính với dữ liệu gốc, còn đơn vị tính phương sai
được bình phương đơn vị tính của dữ liệu gốc. Do làm việc với đơn vị gốc sẽ
đơn giản hơn đơn vị đã được bình phương nên độ lệch chuẩn được sử dụng phổ
biến nhất.

46
Như vậy, khoảng biến thiên, phương sai và độ lệch chuẩn đo lường mức độ
phân tán của các giá trị quan sát. Các đại lượng này dùng để đánh giá độ biến
thiên của tập dữ liệu. Trong đó phương sai và độ lệch chuẩn đo lường mức độ
biến thiên của các quan sát xung quanh trung bình.
1.6.6. Tỷ lệ mẫu (Proportion)- Ký hiệu là p̂
m
pˆ  ,
n
trong đó m là số phần tử của mẫu có dấu hiệu định tính A và n là kích cỡ mẫu.
Ngoài các đại lượng đã trình bày ở trên còn một số đại lượng mô tả kiểu
(hình dáng) phân phối của tập dữ liệu là hệ số bất đối xứng (Skewness) và
hệ số nhọn (Kurtosis).
Trong các kết quả mà phần mềm Excel tính toán về các đại lượng thống kê mẫu
sẽ được trình bày ở mục 1.6
Ví dụ 1.25: Số liệu về điểm của 100 bài thi môn Thống kê và phân tích dữ liệu
của sinh viên một trường đại học được cho như sau:

5 6 5 6 4 5 5 6 6 5
3 7 5 6 5 4 7 7 5 6
7 4 6 2 7 5 5 3 6 5
7 6 8 6 8 4 6 7 4 7
8 5 5 1 6 8 5 6 8 6
9 6 8 5 5 6 8 3 6 2
7 4 5 6 3 8 5 8 4 8
2 6 9 6 5 9 4 5 9 5
7 7 1 6 7 4 9 3 7 6
5 6 7 4 5 6 5 6 5 7

Hãy tính các số đặc trưng của mẫu: x , s 2 , pˆ ( A) , trong đó A là dấu hiệu diểm khá,
giỏi. Ta có mẫu thu gọn sau:

Điểm (xi) 1 2 3 4 5 6 7 8 9
Số SV (m i) 2 3 5 10 25 25 15 10 5

47
Lập bảng tính:
xi mi xi m i xi2mi
1 2 2 2
2 3 6 12
3 5 15 45
4 10 40 160
5 25 125 625
6 25 150 900
7 15 105 735
8 10 80 640
9 5 45 405
mi = n =100 mixi=568 mixi2 = 3524

1 k 1
Từ bảng ta có: x  
n i 1
x i mi 
100
 568  5,68

1 k 2 3524
MS  
n i 1
x i mi  ( x ) 2 
100
 (5,68) 2  2,9776

n 100
s2   MS   2,9776  3,0076; s  s 2  3,0076  1,734 .
n 1 99
m=15 + 10 + 5= 30 (số bài thi có điểm khá, giỏi) trong 100 bài.
m 30
pˆ    0,30 .
n 100
Chú ý : Đối với bảng mẫu phân lớp, để tính giá trị các số đặc trưng của mẫu,
người ta lấy giá trị trung tâm của lớp làm đại diện cho lớp đó để tính toán (giá
trị trung tâm của lớp bằng trung bình cộng của giá trị đầu và giá trị cuối của lớp),

sau đó đưa về bảng tính đã nêu trên để tính x , s…


Khoảng giá trị xi a1 – a2 a2 – a3 ... ai – ai+1
Tần số (mi) m1 m2 … mk

48
Bài tập chƣơng 1

Bài 1: Sô liệu về năng suất (ta/ha) của một loại cây trồng quan sát trên 40 điểm
thu hoạch như sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179

a) Lập bảng phân phối tần số, tần suất ghép lớp của năng suất của loại cây
trồng nêu trên.
b) Vẽ biểu đồ tần số (Histogram) của bảng số liệu trên.
c) Xác định trung bình, trung vị, phương sai, độ lệch chuẩn của số liệu trên.
Bài 2: Đo chiều cao một số sinh viên nữ của một trường đại học (đơn vị: inch)
ta có số liệu sau:
62 64 66 67 65 68 61 65 67 65 64 63 67
68 64 66 68 69 65 67 62 66 68 67 66 65
69 65 70 65 67 68 65 63 64 67 67

a) Lập bảng phân phối tần số, tần suất ghép lớp của chiều cao của sinh viên nữ
của mẫu trên.
b) Vẽ biểu đồ tần số (Histogram) của bảng số liệu trên.
c) Xác định trung bình, trung vị, phương sai, độ lệch chuẩn của số liệu trên.
Bài 3: Điều tra mẫu ngẫu nhiên 200 sinh viên của một trường đại học thấy có
60 sinh viên nhà ở thành phố, 40 sinh viên nhà ở thị trấn, 80 sinh viên ở nông
thôn và 20 sinh viên ở vùng sâu, vùng xa. Hãy vẽ biểu đồ hình thanh và biểu đồ
hình tròn của số liệu mẫu nêu trên.
Bài 4: Điều tra doanh số hàng tháng của 100 hộ kinh doanh một ngành hàng,
người ta thu được số liệu sau:

49
Doanh số xi
10,1 10,2 10,4 10,5 10,7 10,8 10,9 11,0 11,3 11,4
(tr đ/tháng)
Số hộ
2 3 8 13 25 20 12 10 6 1
(mi)

a) Hãy vẽ biểu đồ hình gậy dạng tần số, dạng tần suất, đa giác tần số, đa giac tần
suất của số liệu trên.
b) Tính trung bình, phương sai và độ lệch chuẩn của mẫu.
Bài 5: Để nghiên cứu tuổi thọ (X) của một loại bóng đèn người ta thắp thử 100
bóng và thu được số liệu sau:
Tuổi
1010- 1030- 1050- 1070- 1090- 1110- 1130- 1150- 1170- 1190-
thọ
1030 1050 1070 1090 1110 1130 1150 1170 1190 1210
(giờ)
Số hộ 2 3 8 13 25 20 12 10 6 1

a) Vẽ biểu đồ phân phối tần số (Histogram) của số liệu trên.


b) Tính trung bình, phương sai và độ lệch chuẩn của mẫu.
Bài 6: Người ta tiên hành đo chỉ số thông minh của 50 học sinh lứa tuổi 12-15
của trường A có số liệu sau:
Chỉ số IQ (X) 76-78 78-80 80- 82 82- 84 84- 86 86- 88
Số học sinh 3 8 9 12 10 8

a) Hãy tính chỉ số IQ trung bình và độ lệch chuẩn của mẫu nêu trên.
b) Tính tỷ lệ học sinh có chỉ số IQ trên 86.

50
Chƣơng 2
CÁC KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT XÁC SUẤT

2-1 Biến cố ngẫu nhiên và xác suất


2.1.1. Không gian mẫu và các biến cố (Sample Space and Events)
a) Phép thử ngẫu nhiên
Phép thử (Experiments) thường được hiểu là một thí nghiệm, một công việc
hay một quan sát dùng để nghiên cứu, khảo sát một đối tượng hay một hiện
tượng nào đó. Phép thử do một nhóm điều kiện xác định tạo nên. Phép thử
ngẫu nhiên (Random Experiments): là phép thử mà kết quả cụ thể của nó không
thể biết trước được, tuy nhiên ta có thể dự đoán được tập hợp tất cả các kết quả
có thể xảy ra.
Chẳng hạn, gieo một con xúc xắc, chọn ngẫu nhiên một sản phẩm từ một lô sản
phẩm… là các phép thử ngẫu nhiên.
Kết quả đơn giản: là kết quả không thể phân chia nhỏ hơn được nữa.
Kết quả phức hợp là kết quả do nhiều kết quả đơn giản tạo nên.
b) Không gian mẫu (Sample Space)
Tập hợp tất cả các kết quả đơn giản có thể xảy ra trong phép thử gọi là không
gian mẫu. Ký hiệu là S.
Nếu tập các kết quả của phép thử ngẫu nhiên là tập hữu hạn hoặc vô hạn đếm
được thì gọi là không gian mẫu rời rạc (Discrete Sample Space)
Nếu tập các kết quả của phép thử ngẫu nhiên là một khoảng hữu hạn hoặc vô
hạn của các số thực thì gọi là không gian mẫu liên tục (Continuous Sample
Space).
Thí dụ 2.1 : Gieo một con xúc sắc. Khi đó không gian mẫu S  1,2,3,4,5,6
Gieo 2 đồng xu. Khi đó không gian mẫu S  S  S , S  N , N  S , N  N
c) Biến cố (Event)
Tập con E bất kỳ của không gian mẫu S gọi là biến cố.

51
Mỗi kết quả đơn giản gọi là biến cố đơn giản. Mỗi kết quả phức hợp gọi là biến
cố phức hợp.
d) Biểu đồ hình cây
Không gian mẫu có thể xây dựng theo một vài bước như sau:
Bước 1: Có thể biểu diễn n1 cách của bước đầu tiên bởi n1 nhánh.
Bước 2: Từ cuối mỗi nhánh của bước thứ nhất ta biểu diễn n2 nhánh.
Bước 3: Từ cuối mỗi nhánh của bước thứ hai ta biểu diễn n3 nhánh.
Quá trình cứ tiếp tục như vậy…
e) Biến cố giao (intersection)
Biến cố giao của hai biến cố A và B là một biến cố bao gồm tất cả các kết quả
trong cả A và B. Ký hiệu là: A ⋂ B.
Nghĩa là biến cố giao A ⋂ B xảy ra khi đồng thời cả hai biến cố A và B cùng
xảy ra.
f) Biến cố hợp (Union)
Biến cố hợp của hai biến cố là một biến cố bao gồm tất cả các kết quả của một
trong hai biến cố A hoặc B hoặc cả A và B. Ký hiệu là A⋃ B.
Nghĩa là biến cố A⋃ B xảy ra nếu có ít nhất một trong hai biến cố A, B xảy ra.
Ví dụ 2.3: Gieo một con xúc sắc. Gọi A  1,2,3; B  2,3,5 . Khi đó các biến
cố : A  B  2,3; A  B  1,2,3,5.
Tổng quát:
Giao của nhiều biến cố A1, A2,…, An… là một biến cố (ký hiệu
 An (n  1,2,...) ) xảy ra khi và chỉ khi tất cả các biến cố A1, A2,…, An… cùng

xảy ra.
Hợp của nhiều biến cố A1, A2,…, An…là một biến cố (ký hiệu  An (n  1,2,...) )
xảy ra khi và chỉ khi có ít nhất một trong các biến cố A1, A2,…, An… xảy ra.
g) Biến cố chắc chắn: là biến cố nhất định phải xảy ra trong phép thử. Không
gian mẫu S là biến cố chắc chắn.

52
h) Biến cố rỗng (Ký hiệu là ∅): là biến cố không bao gồm bất cứ một kết quả

nào. Hay biến cố rỗng là biến cố không bao giờ xảy ra trong phép thử.

Ví dụ 2.4: Gieo một con xúc sắc. Gọi A  1,3,5; B  2,4,6. Khi đó A  B  ∅

i) Các biến cố xung khắc

Cho hai biến cố A vầ B bất kỳ. Nếu A  B  ∅ thì ta nói rằng A và B xung khắc

với nhau. Nghĩa là A và B không đồng thời xảy ra trong phép thử.

Ngược lại, nếu A  B  ∅ thì ta nói rằng A và B không xung khắc với nhau.

Nghĩa là A và B có thể cùng xảy ra trong một phép thử.


Ví dụ 2.5: Gieo một con xúc sắc. Gọi A  1,2,3; B  2,3,5.Khi đó A và B không
xung khắc với nhau. C  1,3,5; D  2,4,6. Khi đó C và D xung khắc với nhau.
Các biến cố xung khắc từng đôi: Các biến cố A1, A2,…, An…gọi là xung khắc

từng đôi nếu Ai  A j  ∅, i≠j, i, j= 1,2, ….

j) Biến cố đối (Biến cố bù - Complemet)


Biến cố đối (biến cố bù) của biến cố A, ký hiệu là A hoặc A’ là biến cố bao gồm
các kết quả trong không gian mẫu S mà không có trong A. Nghĩa là trong phép
thử A xảy ra thì A không xảy ra hoặc ngược lại.

Như vậy : A  A  ∅ và A  A  S

2.1.2. Một số yếu tố của giải tích tổ hợp


a) Quy t¾c ®Õm c¬ b¶n (luËt tÝch) : Cho hai biÕn cè, trong ®ã biÕn cè thø nhÊt
x¶y ra theo m c¸ch vµ biÕn cè thø hai x¶y ra theo n c¸ch, th× nh÷ng
biÕn cè nµy sÏ cã thÓ cïng nhau x¶y ra theo (m . n ) c¸ch.
b) Chỉnh hợp chập k của n phần tử
Quy ước: Sử dung n phần tử khác nhau (quy tắc này không áp dụng được nếu
một vài phần tử giống nhau); Chúng ta chọn k phần tử trong n phần tử .

53
i) Một chỉnh hợp (không lặp) chập k của n phần tử (k < n) là một tập hợp có thứ
tự gồm k phần tử khác nhau được lấy từ n phần tử đã cho.
Số chỉnh hợp không lặp chập k của n phần tử, ký hiệu là Ank
n!
Ank   n(n  1)(n  2)....( n  k  1) .
(n  k ) !

ii) Một chỉnh hợp lặp chập k của n phần tử là một tập hợp có thứ tự gồm k phần
tử (có thể giống nhau) được lấy từ n phần tử đã cho.
k
Số chỉnh hợp lặp chập k của n phần tử, ký hiệu là An

Ank  n k

c) Hoán vị không lặp của n phần tử


Cho n phần tử khác nhau. Một hoán vị không lặp của n phần tử là một tập hợp
có thứ tự gồm n phần tử đó.
- Số hoán vị thẳng ( n phần tử được sắp thẳng): Pn = n!
- Số hoán vị tròn (n phần tử được sắp thành vòng tròn) : (n-1)!
d) Tổ hợp chập k của n phần tử :
Quy ước: Sử dụng n phần tử khác nhau. (quy tắc này không áp dụng được
nếu một vài phần tử giống nhau); Chúng ta chọn k trong n phần tử.
Một tổ hợp chập k của n phần tử (k  n) là một tập hợp (không phân biệt thứ
tự) gồm k phần tử khác nhau được lấy từ n phần tử đã cho.
Số tổ hợp chập k của n phần tử :
n!
Cnk 
k !(n  k )!

2.1.3. Xác suất của biến cố và các phương pháp cơ bản tính xác suất
Khi thực hiện một phép thử, khả năng xuất hiện của mỗi biến cố thường
khác nhau. Người ta đo lường khả năng xảy ra của biến cố bởi một số, thì số
đó được gọi là xác suất của biến cố.

Khi đó số P(E) được gọi là xác suất của biến cố E.

P – Ký hiệu xác suất ; E, A, B, C –Ký hiệu các biến cố.

54
P (E) - Ký hiệu xác suất của biến cố E.

Tuỳ từng trường hợp cụ thể mà xác suất của biến cố được xác định một cách
hợp lý. Sau đây là một số phương pháp xác định P(A): phương pháp cổ điển
tính xác suất, phương pháp tính xác suất xấp xỉ bằng tần suất.

a) Phương pháp cổ điển về xác suất (định nghĩa cổ điển về xác suất)

Giả sử trong phép thử ngẫu nhiên, không gian mẫu là một tập hữu hạn gồm n
biến cố đơn giản khác nhau và mỗi biến cố đơn giản có khả năng xảy ra bằng
nhau và bằng 1/n

Nếu m là số biến cố mà A có thể xảy ra (số trường hợp thuận lợi của A) trong n
biến cố đơn giản khác nhau của không gian mẫu S (số trường hợp đồng khả
năng) thì:

m
P ( A)  , (2-1)
n

Phương pháp cổ điển dựa trên hai giả thiết quan trọng:

- Số các biến cố đơn giản trong không gian mẫu S (các kết cục có thể xảy ra
trong phép thử ) là hữu hạn;

- Các biến cố đơn giản trong không gian mẫu S (các kết cục có thể xảy ra trong
phép thử) là đồng khả năng.

Ưu điểm của phương pháp cổ điển là công thức tính đơn giản và chỉ cần tiến
hành phép thử một cách giả định chứ không cần thực hiện phép thử trên thực tế.
Ngoài ra nếu đáp ứng đầy đủ yêu cầu của phương pháp thì nó cho phép ta tìm
được một cách chính xác giá trị của xác suất.

Hạn chế của phương pháp này là yêu cầu các biến cố đơn giản trong không gian
mẫu của phép thử ngẫu nhiên có khả năng xảy ra bằng nhau. Tuy nhiên, trong
thực tế có nhiều hiện tượng xảy ra mà việc tìm xác suất của chúng không đảm
bảo yêu cầu của phương pháp. Chẳng hạn việc tính xác suất xuất hiện mặt sấp

55
trong phép thử gieo đồng xu thiếu cân đối và đồng chất, tính xác suất sinh con
trai (con gái), đoán thời tiết… Các biến cố đơn giản (các kết cục) trong không
gian mẫu của các phép thử đó không đồng khả năng. Vì vậy để tính xác suất của
các biến cố nêu trên không thể dùng phương pháp cổ điển được. Tính “đồng khả
năng” chỉ áp dụng cho một số ít phép thử có dạng như: tung đồng xu đều đặn và
đồng chất, hoặc gieo một con xúc xắc cân đối và đồng chất hoặc lấy ngẫu nhiên
k phần tử từ một tập hợp có n phần tử.

Ngoài ra, trong thực tế có những phép thử mà số kết cục đồng khả năng và số
kết cục thuận lợi có thể vô hạn. Trong trường hợp này ta không thể tính xác
suất bằng phương pháp cổ điển.

Như vậy, việc tính xác suất theo phương pháp này quy về việc xác định (đếm)
số các biến cố đơn giản trong không gian mẫu S (n) và số các biến cố đơn giản
thuận lợi cho biến cố A xảy ra (m). Để việc xác định thực hiện một cách chính
xác nhanh chóng, ta cần sử dụng một số kiến thức về giải tích tổ hợp và suy
luận số học.

Ví dụ 2.6 : Tung một con xúc xắc cân đối và đồng chất. Gọi A là biến cố “xúc
xắc xuất hiện mặt lẻ chấm”. Ta tìm xác suất của biến cố A.

Khi tung con xúc xắc cân đối và đồng chất ta thấy có 6 kết cục (6 biến cố sơ
cấp) có thể xảy ra: Mặt 1 chấm xuất hiện, mặt 2 chấm xuất hiện, …, mặt 6 chấm
xuất hiện. Những kết cục này có tính chất duy nhất và có khả năng xảy ra như
nhau. Trong 6 kết cục đồng khả năng đó, ta thấy chỉ có 3 kết cục (1 chấm, 3
chấm, 5 chấm) thuận lợi cho A (nghĩa là 3 kết cục này mà xảy ra làm cho biến
3
cố A xảy ra). Khi đó tỷ số là khả năng xảy ra (xác suất) của biến cố A. Đó
6
chính là cách tính xác suất theo phương pháp cổ điển.

Ví dụ 2.7: Bảng sau đây thống kê về nhân sự của một công ty như sau:

56
Trình độ Chưa Trên
Đại học
Giới tính đại học đại học

Nam 125 100 25

Nữ 110 75 15

Bảng 3-1

Chọn ngẫu nhiên một người của công ty đó. Tính xác suất để:

a) Người chọn ra là Nam. Con số tìm được có phải là tỷ lệ nam của công ty
đó không?

b) Người chọn ra có trình độ đại học.

c) Người chọn ra có trình độ trên đại học.

d) Người chọn ra là Nữ có trình độ đại học.

e) Người chọn ra là Nam chưa có trình độ đại học.

Giải:

a) Gọi A là biến cố “Người chọn ra là Nam”

m( A) 125  100  25 250


P( A)     0,555
n 125  100  25  110  75  15 450

Như vậy tỷ lệ nam ở công ty này bằng 55,5%.

b) Gọi B là biến cố “người chọn ra có trình độ đại học”


m( B ) 100  75 175
P( B)     0,389 (38,9%)
n 450 450

c) Gọi C là biến cố “ Người chọn ra có trình độ trên đại học”

m(C ) 25  15 40
P(C )     0,089 (8,9%)
n 450 450

d) Gọi D là biến cố “ Người chọn ra là Nữ có trình độ đại học”

57
m( A  B) 75
P( D)  P( A  B)    0,1666 (16,6%)
n 450

e) Gọi E là biến cố “Người chọn ra là Nam chưa có trình độ đại học”


Gọi G là biến cố “ Người chọn ra chưa có trình độ đại học”

m( A  G ) 125
P( E )  P( A  G )    0,277 (27,7%)
n 450
Ví dụ 2.8: Gieo 2 đồng xu đều đặn và đồng chất. Tính xác suất của các biến cố
sau:

a. Nhận được hai mặt sấp.

b. Nhận được 2 mặt ngửa.

c. Nhận được một mặt sấp và một mặt ngửa.

Để xác định các kết cục có thể xảy ra trong phép thử khi gieo hai đồng xu, ta có
thể lập sơ đồ hình cây: (Hình 2-1)

Đồng xu thứ nhất


N S

Đồng xu thứ hai


S N S
N

Hình 2-1

Nhìn vào sơ đồ hình cây ta thấy có 4 kết cục đồng khả năng có thể xảy ra:

(SS), (S,N), (N,S), (N,N)

Ta có:

Xác suất để có hai mặt sấp xuất hiện là 1/4 (trong 4 kết cục đồng khả

năng chỉ có 1 kết cục thuận lợi cho biến cố “ 2 mặt sấp xuất hiện” là (SS)).

Xác suất để có hai mặt ngửa xuất hiện là 1/4 (trong 4 kết cục đồng khả

58
năng chỉ có 1 kết cục thuận lợi cho biến cố “2 mặt ngửa xuất hiện” là (NN)).
Xác suất để có một mặt sấp và một mặt ngửa xuất hiện là 1/2 (trong 4 kết cục
đồng khả năng có 2 kết cục thuận lợi cho biến cố “một mặt sấp và một mặt
ngửa xuất hiện ” là (SN) và (NS).

Ví dụ 2.9. Một lớp có 40 sinh viên, trong đó có 11 sinh viên tham gia đội sinh
viên tình nguyện, 12 sinh viên tham gia câu lạc bộ tiếng Anh, 15 sinh viên tham
gia đội văn nghệ. Có 5 sinh viên tham gia đội sinh viên tình nguyện và câu lạc
bộ tiếng Anh, 8 sinh viên tham gia câu lạc bộ tiếng Anh và đội văn nghệ, 6
sinh viên tham gia đội văn nghệ và đội thanh niên tình nguyện, 3 sinh viên tham
gia đội sinh viên tình nguyện, tham gia câu lạc bộ tiếng Anh và tham gia đội
văn nghệ. Chọn ngẫu nhiên 1 sinh viên của lớp. Tính xác suất để sinh viên đó
tham gia một trong các hoạt động nói trên.

Giải: Gọi A là biến cố “Chọn ngẫu nhiên một sinh viên tham gia một trong các
hoạt động nói trên”. Số kết cục đồng khả năng có thể xảy ra trong phép thử là n
= 40.

Để xác định số kết cục thuận lợi cho biến cố A ta dùng sơ đồ Venn dạng tập hợp
như sau:

3
2 2
Số SV
tình Số SV
nguyện 3 Tiếng
3 5 Anh

Số SV
văn nghệ

Hình 2-2

Nhìn vào sơ đồ trên ta thấy:

- Số sinh viên chỉ tham gia đội tình nguyện là : 11– (2+3+3) =3.

59
- Số sinh viên chỉ tham gia Câu lạc bộ tiếng Anh là: 12 – (2+3+5) = 2.

- Số sinh viên chỉ tham gia Đội văn nghệ là: 15 – ( 3+3+5) = 4.

Vậy số kết cục thuận lợi cho A là m = 3+2+4 = 9 (số sinh viên tham gia một
hoạt động trong 3 hoạt động nói trên của lớp). Vậy :

m 9
P ( A)    0,225 .
n 40

Ví dụ 2.10: Trong một hộp có 6 tấm thẻ như nhau được ghi các số từ 1 đến 6.
Rút ngẫu nhiên lần lượt 3 thẻ, rồi đặt theo thứ tự từ trái qua phải. Tính xác suất
để:

a) Số lập được trên 3 tấm thẻ là số chẵn.

b) Số lập được trên 3 tấm thẻ có số cuối cùng là bội của 3.

Giải: a) Gọi A là biến cố “ Ba thẻ rút ra lập nên một số chẵn”. Do rút ra 3 thẻ
khác nhau đặt theo thứ tự từ trái qua phải trong 6 thẻ đã được đánh số từ hộp đó
thì số cách rút sẽ bằng số chỉnh hợp không lặp chập 3 của 6 phần tử. Do đó số
kết cục đồng khả năng bằng A63  120 .

Để rút được 3 thẻ lập nên một số chẵn thì ta có thể rút tấm thẻ thứ ba một cách
tùy ý trong 3 tấm thẻ có số hiệu 2 hoặc 4 hoặc 6 (nghĩa là tấm thẻ thứ ba có 3
cách chọn) và rút 2 tấm (thẻ thứ nhất và tấm thẻ thứ hai) trong 5 tấm còn lại
(nghĩa là số cách rút ra 2 tấm thẻ đầu bằng số chỉnh hợp không lặp chập 2 của 5:
A52  5  4  20 ). Do đó số kết cục thuận lợi của A : m(A) = 20  3  60 . Như vậy:

m( A) 60
P ( A)    0,5
n 120

c) b) Gọi B là biến cố “Số lập được trên 3 tấm thẻ có số cuối cùng là bội của
3.

Tương tự như phần a), ta có số kết cục đồng khả năng n = 120. Để rút

60
đựoc 3 thẻ lập nên một số có số cuối cùng là bội của 3(chia hết cho 3) ta rút thẻ
thứ ba một cách tuỳ ý trong 2 thẻ có số hiệu là 3 hoặc 6 và rút hai thẻ trong 5
thẻ còn lại đặt vào vị trí đầu và thứ hai. Do đó số kết cục thuận lợi của B:
m( B)  A52  2  20  2  40 . Do đó:

m( B) 40
P( B)    0,33
n 120

Ví dụ 2.11: Một Password gồm 7 ký tự, mỗi ký tự là một trong 26 chữ cái (từ A
đến Z) hoặc một trong các số từ 0 đến 9. Tính xác suất để Hacker chọn ngẫu
nhiên đúng được Password của bạn.

Giải: Mỗi password có thể thiết lập được là một tập hợp có thứ tự gồm 7 ký tự
được lấy từ 36 ký tự mà trong 7 ký tự đó có thể có một số ký tự lặp. Vậy số
trường hợp đồng khả năng của phép thử bằng số chỉnh hợp lặp chập 7 của 36:
n= A367  36 7 . Số kết cục thuận lợi để Hacker chọn ngẫu nhiên đúng được
Password của bạn là m= 1. Vậy:

1
P( A)   1,27609/ 1011
367

Ví dụ 2.12: Có 5 người bạn A, B, C, D, E ngồi một cách ngẫu nhiên vào một
chiếc ghế dài. Tính xác suất:

a) C ngồi chính giữa.

b) A và B ngồi ở hai đầu ghế.

Giải: a) Gọi A là biến cố “C ngồi chính giữa “. Ta có số kết cục đồng khả năng
là số cách sắp xếp 5 người A, B, C, D, E vào các vị trí bất kỳ trong ghế dài, nên
số cách sắp xếp là hoán vị thẳng của 5 phần tử. Do đó: n  P5  5! 120 . Do sắp C
vào vị trí cố định ở chính giữa nên chỉ cần sắp xếp 4 người còn lại, vậy số kết
cục thuận lợi cho A là m( A)  P4  4! 24 .

m( A) 24
P ( A)    0,2
n 120

61
b) Gọi B là biến cố “A và B ngồi ở hai đầu ghế”. Lập luận tương tự như trên ta
có n  P5  5! 120 . Do sắp A và B ngồi cố định ở hai đầu ghế ta chỉ cần sắp 3
người còn lại, ngoài ra còn sắp xếp A và B ở đầu này hoặc đầu kia của ghế nên
số kết cục thuận lợi cho B là m(B)  P3  2! 3! 2! 12 . Do đó :

m( B) 12
P( B)    0,1 .
n 120

Ví dụ 2.13: Một hộp đựng 10 sản phẩm loại I, 7 sản phẩm loại II và 3 sản phẩm
loại III. Chọn ngẫu nhiên ra 3 sản phẩm. Tính xác suất để trong 3 sản phẩm
chọn ra:

a. Có 1 sản phẩm loại I.

b. Không có sản phẩm loại III.

c. Có ít nhất một sản phẩm loại I.

d. Có cùng chất lượng.

Giải: a) Gọi A là biến cố “3 sản phẩm chọn ngẫu nhiên ra có 1 sản phẩm loại I
và 2 sản phẩm là loại II và III”
1
m( A) C10  C102 450
P ( A)   3
  0,39
n C20 1140

b) Gọi B là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra không có sản phẩm loại
III”, nghĩa là 3 sản phẩm chọn ra là loại I và loại II.

m( B) C173 680
P( B)   3   0,596
n C20 1140

c) Gọi C là biến cố “ Trong 3 sản phẩm chọn ngẫu nhiên ra có ít nhất một

sản phẩm loại I”.

Khi đó C là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra không có sản phẩm loại
I” Nghĩa là 3 sản phẩm chọn ra là loại II và III.

62
m(C ) C103 120
P(C )   3   0,105 .
n C20 1140

P(C )  1  P(C )  1  0,105  0,895

d) Gọi D là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra có cùng chất lượng”

Gọi D1 là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra cùng loại I”

Gọi D2 là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra cùng loại II”

Gọi D3 là biến cố “ 3 sản phẩm chọn ngẫu nhiên ra cùng loại III”

D  D1  D2  D3 , mà D1 , D2 , D3  xung khắc từng đôi, nên:

P ( D )  P ( D1  D2  D3 )  P ( D1 )  P ( D2 )  P ( D3 )

C103 C 73 C33 156


P( D)  3  3  3   0,137
C 20 C 20 C 20 1140

b) Phương pháp xấp xỉ xác suất bởi tần suất

Tiến hành n phép thử lặp đi lặp lại trong những điều kiện như nhau.

i) Tần suất xuất hiện biến cố A bằng tỉ số giữa số phép thử mà A xuất hiện với
tổng số phép thử lặp được thực hiện.

Ký hiệu tần suất xuất hiện biến cố A là f(A) thì:

k
f ( A)  (2-2)
n

trong đó n là tổng số phép thử lặp ; k là số phép thử mà biến cố A xuất hiện.

Ví dụ 2.14: Theo thống kê trong một thời gian tại một thành phố có 568 vụ tai
nạn giao thông thì có 412 vụ do xe máy gây ra.

Khi đó gọi A là biến cố “Tai nạn do xe máy” thì tần suất “ tai nạn do xe máy”
là:

63
k 412
f ( A)    0,7253(72,53%)
n 568

Ví dụ 2.15: Để nghiên cứu khả năng xuất hiện mặt sấp khi tung một đồng xu,
hai nhà toán học Buffon và Pearson tiến hành tung một đồng xu tuỳ ý nhiều lần
và thu được kết quả cho ở bảng dưới đây:

Người làm thí Số lần nhận Tần suất xuất hiện


Số lần tung
nghiệm được mặt sấp (k) mặt sấp f ( A)  k
(n)
n

Buffon 4040 2048 0,5069


Pearson 12 000 6019 0,5016
Pearson 24 000 12 012 0,5005

Bảng 2.2

Qua thí dụ này ta thấy, khi số phép thử tăng lên, tần suất xuất hiện mặt sấp tiến
dần đến 0,5.

ii) Định nghĩa thống kê về xác suất:

Xác suất xảy ra biến cố A khi thực hiện phép thử là một số p không đổi mà tần
suất xuất hiện biến cố đó trong n phép thử sẽ hội tụ theo xác suất về p khi số
phép thử n tăng lên vô hạn.

Ta có: f(A)  P(A) khi số phép thử lặp n + hay


lim f ( A)  P( A) .
n

Ta chú ý rằng, ở đây tần suất f hội tụ theo xác suất về p chứ không phải hội tụ
theo nghĩa thông thường của giải tích toán học. Điều đó có nghĩa là với mọi 
>0, bé tuỳ ý ta luôn có:

lim P ( f  p   )  1 (2-3)
n

Cơ sở lý thuyết của sự hội tụ theo (2-3) được chứng minh một cách chặt chẽ
trong luật số lớn- Định lý Bernoulli.

64
Như vậy, trên thực tế với số phép thử n đủ lớn ta có thể lấy tần suất làm giá trị
gần đúng của xác suất. Nghĩa là :

P( A)  f ( A) , với n khá lớn. (2-4)

Công thức (3-5) là công thức tính xác suất xấp xỉ bằng tần suất.

Ví dụ 2.16: Xác định xác suất của biến cố “ Tai nạn do xe máy” ở thí dụ 3.14.
Ta có xác suất cần tìm: P(A)  f (A)  0,7253

Như vậy, xác suất để tai nạn giao thông do xe máy gây xấp xỉ bằng 0,7253.
Xác suất đó chính là tỷ lệ xe máy gây tai nạn giao thông và xấp xỉ bằng 72,53% .

2.1.4. Cac tính chất của xác suất

(1) E là biến cố bất kỳ của không gian mẫu S thì : 0 ≤ P(E) ≤ 1

(2) P(∅) =0

(3) P(S)=1

2.2. Các quy tắc tính xác suất

2.2.1. Công thức cộng xác suất

Nếu A,B là 2 biến cố bất kỳ (A, B không xung khắc) thì:


P(A ⋃ B) = P(A) +P(B) – P(A∩B) (2-5)

I II III

Khi A∩B≠∅

Hình 2-3

65
Khi A∩B= ∅
Hình 2-4

Nếu A, B, C là 3 biến cố bất kỳ (không xung khắc từng đôi) thì:

P( A  B  C )  P( A)  P( B)  P(C )  P( A  B)  P( B  C )  P( A  C )  P( A  B  C )

(2-6)

C B

Hình 2-5

Tổng quát: Cho n biến cố bất kỳ A1, A2, …, An thì:


n
P( A1  A2  ...  An )   Ai   P( Ai  A j )   P( A  A
i j  Ak )  ....
i 1 i j i j k

 (1) n 1 P( A1  A2  ...  An ) ( 2  7)

Ví dụ 2.17: Trở lại bảng thống kê về nhân sự trong ví dụ 2.7, ta chọn ngẫu
nhiên một người của công ty đó. Tính xác suất để:

a) Người chọn ngẫu nhiên ra là Nam hoặc có trình độ đại học.

66
b) Người chọn ngẫu nhiên ra là Nữ hoặc chưa có trình độ đại học.

Giải: a) Gọi A là biến cố “Người chọn ra là nam”

Gọi B là biến cố người chọn ra có trình độ đại học”

Gọi F là biến cố “ Người chọn ngẫu nhiên ra là Nam hoặc có trình độ

đại học”. ta có F  A  B  P( A  B)  P( A)  P( B)  P( A  B); do A  B ≠∅ (hay

A, B không xung khắc)

250 175 100 325


P( A  B)      0,722(72,2%)
450 450 450 450

Gọi H là biến cố “ Người chọn ra là nữ hoặc chưa có trình độ đại học”. Ta có:

H  A  G  P( A  G)  P( A )  P(G)  P( A  G); do A  G ≠∅ (hay A và G không

xung khắc)

200 235 110 325


P( A  G )      0,722
450 450 450 450
Ví dụ 2.18: Một lớp có 50 sinh viên, trong đó có 30 người học tiếng Anh, 20
người học tiếng Nhật và 15 người học tiếng Trung quốc. Trong đó có 10 người
học tiếng Anh và Nhật, 5 người học tiếng Nhật và tiếng Trung quốc, 8 người
học tiếng Anh và Trung quốc, 3 người học cả tiếng Anh, Nhật, Trung. Chọn
ngẫu nhiên một sinh viên của lớp. Tính xác suất để sinh viên đó học ít nhất một
trong 3 ngoại ngữ kể trên.
Giải: Ta có thể dùng lược đồ Venn dạng tập hợp để tính các số liệu. Tuy nhiên
ta có thể dùng công thức cộng xác suất như sau:
Gọi A là biến cố “sinh viên chọn ngẫu nhiên ra học tiếng Anh”.
Gọi B là biến cố “sinh viên chọn ngẫu nhiên ra học tiếng Nhật”.
Gọi C là biến cố “sinh viên chọn ngẫu nhiên ra học tiếng Trung Quốc”
Gọi D là biến cố “sinh viên chọn ngẫu nhiên ra học ít nhất một trong ba ngoại
ngữ nêu trên”. Ta có:
D  A  B  C , do A, B, C không xung khắc từng đôi nên:

67
P( A  B  C )  P( A)  P( B)  P(C )  P( A  B)  P( B  C )  P( A  C )  P( A  B  C )

30 20 15 10 5 8 3 45
=         0,9 .
50 50 50 50 50 50 50 50

2.2.2. Xác suất điều kiện và công thức nhân xác suất
a) Xác suất điều kiện
Ví dụ 2.19 : Gieo lần lượt hai con xúc xắc cân đối và đồng chất. Tính xác suất
để tổng số chấm xuất hiện trên hai con xúc xắc bằng 6. Biết rằng con xúc xắc
thứ nhất xuất hiện mặt 4 chấm.
Ký hiệu A là biến cố “con xúc xắc thứ nhất xuất hiện mặt 4 chấm” và B là
biến cố “ Tổng số chấm xuất hiện trên 2 con xúc xắc bằng 6”. Như vậy A
xảy ra trước B.
Khi con xúc xắc xuất hiện mặt 4 chấm (biến cố A đã xảy ra) thì xác suất để
tổng số chấm xuất hiện trên hai con xúc xắc bằng 6 được gọi là xác suất điều
kiện của biến cố B khi biến cố A đã xảy ra. Ký hiệu là P(B/A).
Khi con xúc xắc thứ nhất đã xuất hiện mặt 4 chấm thì không gian mẫu sẽ chỉ
còn 6 kết quả (6 biến cố) sau đây: (4,1); (4,2); (4,3); (4,4); (4,5); (4,6). Suy ra
P(B/A) = P(4,2)=1/6 .
Xác suất điều kiện của biến cố B đối với biến cố A là xác suất để xảy ra biến
cố B trong điều kiện biến cố A đã xảy ra. Ký hiệu là P(B/A).
Công thức tính:
P( A  B)
P ( B / A)  , (2-8)
P ( A)

trong đó biến cố A đã xảy ra trước, còn biến cố B xảy ra sau và P(A) >0.
Hay
P( A  B)
P( A / B)  , (2-9)
P( B)

trong đó biến cố B đã xảy ra trước, còn biến cố A xảy ra sau và P(B) >0.
Trường hợp đặc biệt khi không gian mẫu có các kết quả đồng khả năng thì:

68
P( A  B) m ( A  B)
P( B / A)   , (2-10)
P( A) m( A)

trong đó m ( A  B) là số các trường hợp thuận lợi của biến cố ( A  B) ; m(A) là số


các trường hợp thuận lợi của A.

Ví dụ 2-20: Trở lại bảng thống kê về nhân sự trong ví dụ 2.7. Chọn ngẫu nhiên
ra một người ở công ty đó.

a) Tính tỷ lệ người có trình độ trên đại học của nữ.

b) Tính tỷ lệ nam của những người chưa có trình độ đại học.

Giải:

a) Gọi C là biến cố “người chọn ra có trình độ trên đại học”; Gọi A là biến cố
“người chọn ra là nữ”. Cần tính P(C / A ). Ta có:

m ( A  C ) 15
P(C / A )    0,075 (7,5%)
m( A ) 200

b) Gọi A là biến cố “ người chọn ra là Nam”; G là biến cố “người chọn ra chưa


có trình độ đại học”. Ta có:

m ( A  G ) 125
P( A / G )    0,532
m(G ) 235

b) Công thức nhân xác suất tổng quát


P(A∩B) = P(A) P(B/A); Khi A xảy ra trước B. (2-11)
P(A∩B) = P(B) P(A/B); Khi B xảy ra trước A.
Tổng quát: Cho A1, A2, …, An là các biến cố bất kỳ và lần lượt các biến cố A1,
A2, …, An xảy ra thì:
P(A1 ∩A2 ∩ …. ∩An)= P(A1) P(A2 /A1 ) P[A3 /(A1 ∩ A2)] …
P[An / (A1 ∩ A2 … ∩ An-1 )] (2-12)
Ví dụ 2.21: Trong một bình có 7 cầu đen và 5 cầu trắng. Từ bình đó ta lấy ngẫu
nhiên lần lượt ra các quả cầu (lấy không hoàn lại) Giả thiết mỗi quả cầu được
lấy từ bình có khả năng xảy ra bằng nhau. Tính xác suất:

69
a) Hai quả đầu lấy ra là trắng.
b) Cả ba quả đầu lấy ra là trắng
Giải
a) Gọi A là biến cố”hai quả đầu lấy ra là trắng ” ; Gọi A1 là biến cố “ Quả thứ
nhất lấy ra là trắng”; A2 là biến cố “quả thứ hai lấy ra là trắng”; A3 là biến cố
“quả thứ ba lấy ra là trắng”.
Như vậy A  A1  A2
5 4 20
P( A1  A2 )  P( A1 ) P( A2 / A1 )     0,1515
12 11 132
b) Gọi B là biến cố cả ba quả đầu lấy ra là trắng”. Ta có:
B  A1  A2  A3 (A1, A2, A3 không độc lập)

5 4 3 60
P( B)  P( A1  A2  A3 )  P( A1 ) P( A2 / A1 ) P( A3 /( A1  A2 )      0,045
12 11 10 1320
c) Các biến cố độc lập
Hai biến cố A và B gọi là độc lập nếu:
P(A∩ B) = P(A) P(B) (2-13)
Như vậy, nếu A, B độc lập thì P(B/A)= P(B) hoặc P(A/B)=P(A)
Nghĩa là, việc xảy ra hay không xảy ra của biến cố này không ảnh hưởng đến
xác suất của biến cố khác.

Nếu P(A∩B) ≠ P(A). P(B) thì A, B gọi là phụ thuộc.

Ví dụ 2-22:
Gieo lần lượt hai con xúc xắc cân đối và đồng chất.
a) Gọi A là biến cố tổng số chấm xuất hiện trên hai con xúc xắc bằng 6, B là
biến cố con xúc xắc thứ nhất xuất hiên mặt 4 chấm. Khi đó A và B có độc lập
hay không?
Ta có: P(A)= 5/36; P(B)= 6/36 ; P( A  B)  1 / 36 .

Dễ thấy P(A∩B) ≠ P(A) P(B). Vậy A, B không độc lập (A, B phụ thuộc)

b) Gọi C là biến cố tổng số chấm xuất hiện trên hai con xúc xắc bằng 7. Khi đó
B và C có độc lập với nhau không?

70
Ta có: P(B)= 6/36; P(C)=6/36; P( B  C )  1 / 36 . Dễ thấy P(A∩ B) = P(A) P(B).
Vậy A, B độc lập.
Tổng quát: Các biến cố A1, A2, …, An gọi là độc lập trong toàn bộ nếu bất kỳ
tập hợp con A1’ , A2’ …., Ar’ , r ≤ n của các biến cố đó, ta có:
P(A1’∩A2’∩…∩Ar’) = P(A1’) P(A2’) … P(Ar’)
Bằng trực giác, các biến cố A1, A2, … An là độc lập nếu việc xảy ra của của bất
kỳ một trong các biến cố đó không tác động đến xác suất của một biến cố khác.
Nếu các biến cố A1, A2, …, An độc lập trong toàn bộ thì:
P(A1∩ A2… ∩ An)= P(A1) P(A2) … P(An) (2-14)
Chú ý:
- Việc xét tính độc lập của các biến cố chủ yếu dựa vào trực quan hoặc phụ
thuộc vào điều kiện của phép thử quy định.
- Người ta đã chứng minh được rằng:
Nếu hai biến cố A và B độc lập với nhau thì các cặp biến cố sau cũng độc lập
với nhau: A, B ; A, B; A, B . Nếu A, B, C độc lập trong toàn bộ thì bộ các
biến cố sau cũng độc lập trong toàn bộ:
A , B, C; A, B , C; A, B, C ; A, B , C; A, B , C ; A , B, C ; A, B , C 
Ví dụ 2.23: Để được nhập kho, sản phẩm của nhà máy phải qua 3 phòng kiểm
tra chất lượng. Xác suất phát hiện ra phế phẩm ở các phòng theo thứ tự là 0,8;
0,9; 0,99. Tính xác suất để phế phẩm được nhập kho (các phòng kiểm tra hoạt
động độc lập với nhau).
Giải: Gọi A1 là biến cố “phòng thứ nhất phát hiện ra phế phẩm”; Gọi A2 là biến
cố “phòng thứ hai phát hiện ra phế phẩm”;Gọi A3 là biến cố “phòng thứ ba phát
hiện ra phế phẩm”.
Gọi A là biến cố “phế phẩm được nhập kho”. Ta có:
A  A1  A2  A3 , mà A1 , A2 , A3 độc lập nên :

P( A)  P( A1 ) P( A2 ) P( A3 )  (1  0,8)(1  0,9)(1  0,99)  0,0002

71
2.2.3. Công thức Bernoulli
a) Dãy phép thử Bernoulli (bài toán lược đồ Bernoulli)
Các phép thử ngẫu nhiên bao gồm n phép thử thỏa mãn:
(1) Các phép thử là độc lâp.
(2) Trong mỗi phép thử chỉ có một trong hai trường hợp xảy ra: “Thành
công”( A xảy ra) hoặc “Thất bại” (A xảy ra).
(3) Xác suất “Thành công” ký hiệu là p (P(A) =p ) trong mỗi phép thử không
đổi.
gọi là dãy phép thử Bernoulli.
Cần tính xác suất để trong n phép thử độc lập biến cố “thành công” (biến cố A)
xuất hiện x lần. Ký hiệu xác suất đó là Pn(x)
b) Công thức Bernoulli:
Pn ( x)  Cnx p x qn  x , trong đó q= 1-p (2-15)
Thí dụ 2.24 : Cho một người bắn lần lượt 5 viên đạn vào một mục tiêu. Biết xác
suất bắn trúng mỗi viên của người đó đều bằng 0,7. Tính xác suất:
a) Người đó bắn trúng 2 viên.
b) Người đó bắn trúng 3 viên.
c) Người đó bắn trúng ít nhất 1 viên.
Giải :Bài toán là dãy phép thử Bernoulli :
(1) n=5 phép thử độc lập.
(2) Trong mỗi phép thử chỉ xảy ra một trong 2 biến cố: A (bắn trúng) hoặc A
(bắn không trúng)
(3) Xác suất bắn trúng (P(A)) bằng 0,7 không đổi trong mỗi viên bắn.
a) Cần tính P5 (2)  C52 x 0,7 2 0,33  0,441

b) Cần tính P5 (3)  C5 0,7 0,3  0,3087


3 3 2

c) Gọi B là biến cố “người đó bắn trúng ít nhất một viên” . Khi đó B là biến cố
“ Người đó không bắn trúng viên nào”.
P( B )  P5 (0)  C50 (0,7)0 (0,3)5  0,00243. Suy ra :

72
P( B)  1  P( B )  1  0.00243  0,99757

2.2.4. Công thức xác suất toàn phần và công thức Bayes (*)
a) Công thức xác suất toàn phần
i) Xét trường hợp đơn giản: Cho các biến cố A và B . Chúng ta có thể biểu diễn
B như sau:

B = (A∩ B) ∪ (A ∩ B )

Hình 2-6

P(B)= P(A∩B) + P(A∩B ) = P(A) P(B/A)+P(A ) P(B/A )


P(B)= P(A) P(B/A) + P(A) P(B/A ) ( 2-16)
Ví dụ 2-25: Trong một bình có 7 cầu đen và 5 cầu trắng. Từ bình đó ta lấy ngẫu
nhiên lần lượt ra 2 quả cầu (lấy không hoàn lại) Giả thiết mỗi quả cầu được lấy
từ bình có khả năng xảy ra bằng nhau. Tính xác suất để quả thứ hai lấy ra là
trắng.
Giải: Gọi A là biến cố “Quả thứ nhất lấy ra màu trắng”; thì A là biến cố “Quả
thứ nhất lấy ra màu đen”
Gọi B là biến cố “Quả thứ hai lấy ra màu trắng”. Ta có:
B  ( A  B)  ( A  B) .

5 4 7 5 55
P(B)= P(A) P(B/A) + P(A ) P(B/A )=      0,416
12 11 12 11 132

ii) Trường hợp tổng quát:


- Cho k biến cố {E1, E2, …Ek } làp thành nhóm đầy đủ các biến cố nếu:

73
+ Ei ∩ Ej = ∅ , với i≠ j; i, j = 1, 2, …,k (xung khắc từng đôi)

+ E1∪ E2 ∪… ∪ Ek = S, (chắc chắn trong phép thử một trong k biến cố E1,

E2, …Ek xảy ra)


Ta có: P(E1) + P(E2)+ … +P(Ek) =1
- Cho B là một biến cố bất kỳ của không gian mẫu S :

Hình 2-7

P(B)=P(E1).P(B/E1)+ P(E2). P(B/E2)+…+P(Ek). P(B/Ek) (2- 17)


Ví dụ 2.26: Có 3 hộp đựng sản phẩm bề ngoài giống hệt nhau. Hộp thứ
nhất có 7 chính phẩm và 3 phế phẩm; Hộp thứ hai có 6 chính phẩm và 4 phế
phẩm; Hộp thứ ba có 5 chính phẩm và 5 phế phẩm. Từ 3 hộp, chọn ngẫu
nhiên ra một hộp, sau đó từ hộp đã chọn lại chọn ngẫu nhiên ra một sản phẩm.
Tính xác suất để sản phẩm chọn ra là chính phẩm.
Giải: Gọi E1 là biến cố “Chọn ngẫu nhiên được hộp thứ nhất”; E2 là biến cố
“Chọn ngẫu nhiên được hộp thứ hai”; E3 là biến cố “Chọn ngẫu nhiên được
hộp thứ ba”; E1, E2, E3 lập thành nhóm biến cố đầy đủ; B là biến cố “ Sản
phẩm chọn ngẫu nhiên ra từ hộp đã chọn là chính phẩm”.
Dễ thấy B có thể cùng xảy ra với một trong 3 biến cố : E1, E2, E3

B = (B∩ E1) ∪ (B ∩ E2) ∪ (B ∩ E3 )

P(B)=P(E1).P(B/E1)+ P(E2). P(B/E2)+P(E3). P(B/E3)

74
1 7 1 6 1 5 18
P( B)         0,6
3 10 3 10 3 10 30
ii) Công thức Bayes
Cho E1, E2, …Ek lập thành nhóm đầy đủ các biến cố . B là một biến cố bất kỳ,
ta có:
P ( Ei ) P ( B / Ei )
P ( Ei / B )  , (i  1,2,...k ) (2-18)
P( B)

Trong đó : P(B)=P(E1).P(B/E1)+ P(E2). P(B/E2)+…+P(Ek). P(B/Ek)


Ví dụ 2.27: Trở lại thí dụ 2.26, nếu sản phẩm lấy ra từ hộp đã chọn là chính
phẩm. Tính xác suất để chính phẩm đó là của hộp thứ nhất.
Giải: Cần tính xác suất điều kiện P(E2/B). Ta có:
1 7

P( E1 ) P( B / E1 ) 3 10
P( E1 / B)    0.388
P( B) 18
30
Chú ý: Các xác suất P(E1), P(E2), … , P(Ek) được gọi là các xác suất tiên
nghiệm (trước thí nghiệm). Sau khi quan sát được rằng biến cố B đã xảy ra, các
xác suất Ei được tính trên thông tin này (tức là các xác suất điều kiện P(E1/B),
P(E2/B), …, P(Ek/B)) được gọi là các xác suất hậu nghiệm. Vì thế công thức
Bayes gọi là công thức xác suất hậu nghiệm.
2.3. Biến ngẫu nhiên rời rac ((Discrete random variable)
2.3.1. Biến ngẫu nhiên và phân loại biến ngẫu nhiên
Biến ngẫu nhiên là đại lượng có giá trị bằng số, nó được xác định một
cách ngẫu nhiên, tùy thuộc vào mỗi kết quả của phép thử ngẫu nhiên.
Ký hiệu biến ngẫu nhiên: X, Y, Z, …. , X1, X2, … , Xk, ….
Ký hiệu các giá trị của biến ngẫu nhiên: x, y, z, .., x1, x2,... , xk ..…
Ví dụ 2.28:
- Gọi X là số bé trai trong 30 bé mới được sinh ra tại một bệnh viện trong một
ngày. X là biến ngẫu nhiên:X= 0, 1,2, … , 30.

75
- Cho một người bắn liên tiếp từng viên đạn vào một mục tiêu, bắn cho đến viên
đầu tiên trúng thì dừng. Biết xác suất bắn trúng mỗi viên là p. Gọi Y là số viên
đạn mà người đó đã bắn. Y là biến ngẫu nhiên: Y= 1, 2,..,n, ….
- Gọi Z là thời gian truy cập mạng Internet của một người trong một ngày.

Z là biến ngẫu nhiên: Z∈ [0 ; 24]

a) Biến ngẫu nhiên rời rạc (Discrete random variable)


Là biến ngẫu nhiên với miền giá trị là hữu hạn hoặc vô hạn đếm được.
b) Biến ngẫu nhiên liên tục (Continuous random variable)
Là biến ngẫu nhiên mà các giá trị của nó lấp đầy một khoảng nào đó trên trục số.
Nghĩa là miền giá trị của nó là một khoảng (hữu hạn hoặc vô hạn) của các số
thực.
Dễ thấy, biến ngẫu nhiên X và Y trong ví dụ 2-28 là các biến ngẫu nhiên rời rạc,
còn biến ngẫu nhiên Z trong ví dụ 2-28 là biến ngẫu nhiên liên tục.
2.3.2. Phân phối xác suất của biến ngẫu nhiên rời rạc
a) Hàm xác suất (Probability Mass Functions)
Cho biến ngẫu nhiên rời rạc X với các giá trị có thể là x1, x2, … , xk....
Hàm xác suất của biến ngẫu nhiên rời rạc X (ký hiệu p(x)) được xác định như
sau:
p(x)= P(X=x) với x = x1, x2, … , xk....
Tính chất của hàm xác suất:
(1) p(x) ≥ 0
(2) ∑ p(xi ) = 1, (x = x1, x2, … , xk....)
Ví dụ 2.29 : Gieo con xúc xắc cân đối và đồng chất 1 lần. Gọi X là số chấm xuất
hiên. X là biến ngẫu nhiên rời rạc với các giá trị 1, 2, … ,6. Khi đó hàm xác suất
tương ứng là:
p(1)= P(X=1)=1/6 p(2)= P(X=2)=1/6 p(3)= P(X=3)= 1/6
p(4)= P(X=4)=1/6 p(5)= P(X=5)= 1/6 p(6)= P(X=6)=1/6

76
Bảng phân phối xác suất

X (xi) x1 x2 …. xk

P(xi) p(x1) p(x2) …. p(xk)

Từ tính chất của hàm xác suất ta có:

 0≤ p(xi) ≤ 1

 p(x1)+ p(x2)+ … + p(xk)= 1


Ví dụ 2.30: Một lô sản phẩm có 8 chính phẩm và 2 phế phẩm. Chọn ngẫu nhiên
ra 3 sản phẩm. Gọi X là số phế phẩm trong 3 sản phẩm chọn ra. Lập bảng phân
phối xác suất của X.
Giải: Dễ thấy X là biến ngẫu nhiên rời rạc với các giá trị 0, 1, 2.
Ta có hàm xác suất được tính như sau:
C82 56 C 21  C82 56
p (0)  P ( X  0)  3  ; p (1)  P ( X  1)  3
 ;
C10 120 C10 120
C 22  C81 8
p (2)  P ( X  2)  3

C10 120

Dễ thấy: 0 ≤ p(xi) ≤ 1 và p(0)+ p(1)+ p(2)=1

Ta có bảng phân phối xác suất như sau:

X(xi) 0 1 2

P(xi) 56/120 56/120 8/120

Đồ thị phân phối xác suất


Đồ thị của phân phối xác suất được thể hiện như sau:
- Biểu diễn các giá trị có thể của biến ngẫu nhiên nằm trên trục ngang (trục
hoành)

77
- Biểu diễn các xác suất của các biến cố tương ứng với các giá trị đó nằm trên
trục thẳng đứng (trục tung). Khi đó đồ thị xác suất được biểu diễn bởi đoạn
thẳng (thanh thẳng đứng) mà độ cao của nó bằng xác suất.
Từ bảng phân phối xác suất ta có đồ thị xác suất được cho bởi hình sau:

56/120

8/120

0 1 2
Hình 2-8
b) Hàm phân phối xác suất (hàm phân phối tích lũy- Cumulative Distribution
function)
Hàm phân phối xác suất (hàm phân phối tích lũy) của biến ngẫu nhiên rời rạc X,
ký hiệu là F(x) được xác định như sau:
F ( x)  P ( X  x)   p ( xi ) , với x∈ (-∞; +-∞) (2-19)
xi  x

Nếu biến ngẫu nhiên rời rạc X với các giá trị có thể là x1, x2,…, xk và các xác
suất tương ứng là p(x1), p(x2), …, p(xk) thì biểu thức cụ thể của hàm phân phối
tích lũy được cho như sau:

0 khi x  x1
 p (x ) x1  x  x 2
 1

 p ( x1 )  p ( x 2 ) x 2  x  x3
F ( x)  
 .......... ....
 p ( x1 )  p ( x 2 )  ...  p( x k 1 ) x k 1  x  x k

 1 xk  x

78
Hàm phân phối tích lũy của biến ngẫu nhiên rời rạc là hàm không liên tục (gián
đoạn tại các giá trị có thể của nó). Đồ thị của hàm phân phối tích lũy có dạng
hình bậc thang.
Thí dụ 2.31: Biến ngẫu nhiên rời rạc X ở ví dụ 2.30 có hàm phân phối tích lũy
được cho như sau:
 0 khi x  0
 56
 0  x 1
 120
F ( x)  
 112 1 x  2
 120
 1 2 x

Đồ thị của hàm được cho trong hình 2-9 sau:

1
112/120

56/120

0 1 2 x
Hình 2- 9
Tính chất
(1) 0≤ F(x) ≤ 1

(2) F(x) là hàm không giảm (nghĩa là x2> x1 thì F(x2) ≥ F(x1)).

(3) P( a < X < b) = F(b) – F(a)

(4) lim F ( x)  0 (F(-∞)=0); lim F ( x)  1 (F(+∞)= 1)


x  x 

Giá trị của hàm phân phối tích lũy F(x) tại x cho biết có bao nhiêu
phần trăm các giá trị có thể của biến ngẫu nhiên X phân bố trên đoạn
(- ; x].

79
2.3.3. Các số đặc trưng của biến ngẫu nhiên rời rạc
a) Kỳ vọng -Trung bình (Mean- Expect)
Cho phân phối xác suất của biến ngẫu nhiên rời rạc X với các giá trị có thể là x1,
x2, … xk …và hàm xác suất tương ứng là p(x1), p(x2), … , p(xk) … Khi đó kỳ

vọng (giá trị trung bình) của X là , ký hiệu là E(X) hoặc μ là:

  E ( X )   xi p ( xi ) (2- 20)
xi

Kỳ vong của biến ngẫu nhiên rời rạc X là trung binh có trọng số của các giá trị
có thể của biến ngẫu nhiên X, với trọng số chính là hàm xác suất p(xi) tương
ứng.
Tính chất của kỳ vọng
(1) E(c) = c ( c là hằng số).
(2) E(cX) = c. E(X).
(3) E(X ± Y) = E(X) ± E(Y).
Tổng quát:
E( X1+X2+ … + Xn)= E(X1)+ E(X2)+ … +E(Xn)
(4) Nếu X và Y là 2 biến ngẫu nhiên độc lập thì:
E(X.Y) = E(X) . E(Y)
Tổng quát: Nếu X1,X2, … , Xn là các biến ngẫu nhiên độc lập thì:
E( X1 .X2 … Xn)= E(X1). E(X2) … E(Xn)
*Ứng dụng thực tế của kỳ vọng : Hiện nay khái niệm kỳ vọng được áp dụng
rộng rãi trong nhiều lĩnh vực kinh doanh và quản lý như một tiêu chuẩn để ra
quyết định trong tình huống cần lựa chọn giữa nhiều chiến lược kinh doanh
khác nhau. Tiêu chuẩn này thường được biểu diễn dưới dạng lợi nhuận kỳ vọng
hay doanh số kỳ vọng.
b) Phương sai (Variance) và độ lệch chuẩn (Standard deviation)
Phương sai của biến ngẫu nhiên rời rạc X, ký hiệu σ2 hay V(X) là giá trị trung
bình trọng số (kỳ vọng) của bình phương các sai lệch giữa các giá

80
trị x1, x2, … ,xk của biến ngẫu nhiên X với giá trị trung bình μ của nó:

 2  V ( X )  E ( X   ) 2   ( xi   ) 2 p ( xi )   xi2 p ( xi )   2 (2- 21)


xi xi

Phương sai đo lường độ phân tán của các giá trị có thể có của biến ngẫu nhiên X
xung quanh giá trị trung bình (giá trị kỳ vọng) của nó.
Dễ thấy, phương sai là một số không âm. Từ định nghĩa ta thấy phương sai
không cùng đơn vị đo với biến ngẫu nhiên (đơn vị của phương sai bằng bình
phương đơn vị đo của biến ngẫu nhiên)
Độ lệch chuẩn của X, ký hiệu σ (X), là:
 (X )  V (X )   2   (2- 22)
Dễ thấy độ lệch chuẩn có cùng đơn vị đo với biến ngẫu nhiên, nên độ lệch
chuẩn được dùng thường xuyên hơn phương sai.
Tính chất của phương sai và độ lệch chuẩn

(1) V (c) = 0 , ( c là hằng số)

(2) V (cX) = c2 V(X.); σ(cX) = c σ(X)

(3) Nếu X và Y độc lập thì:

V ( X + Y) = V (X ) + V(Y); σ(X+Y) = 2 (X)  2 (Y) .

Tổng quát : Nếu X1, X2, … , Xn là các biến ngẫu nhiên độc lập thì :

V(X1 + X2 + … + Xn) = V(X1) + V(X2) + … +V(Xn).

Hệ quả:

V(X- Y)= V(X) +V(Y)

V(c+ X)= V(X)

Ví dụ 2.32 : Tính kỳ vọng, phương sai và độ lệch chuẩn của phân phối xác suất
dược cho sau đây :

81
X(xi) 1 3 5
p(xi) 0,5 0,2 0,3

μ= E(X)= 1. 0,5 +3.0,2 +5. 0,3= 2,6

σ2= V(X)= (12.0,5+ 22.0,2+52.0,3)- (2,6)2= 3,04


  V ( X )  3,04  1,74

Trong lĩnh vực quản lý và kinh doanh, nếu kỳ vọng toán được coi là một tiêu
chuẩn ra quyết định trong tình huống cần lựa chọn giữa nhiều chiến lược khác
nhau (tiêu chuẩn dưới dạng lợi nhuận kỳ vọng) thì phương sai đặc trưng cho
mức độ rủi ro của các quyết định.

c) Mốt (Mode)- Ký hiệu xmod

Mốt của biến ngẫu nhiên rời rạc X là một số thỏa mãn P(X=x mod) là lớn nhất.
Nghĩa là xmod là số có khả năng xảy ra nhiều nhất.

Có biến ngẫu nhiên có một mốt, có biến ngẫu nhiên có nhiều mốt, hay có biến
ngẫu nhiên không có mốt.

2.3.4. Một số phân phối rời rạc thông dụng


a) Phân phối nhị thức (Binomial Distribution)- ký hiệu là X ~ B(n, p)
Biến ngẫu nhiên rời rạc X được gọi là có phân phối nhị thức với hai tham số n
và p nếu X nhận các giá trị có thể có là các số nguyên không âm: 0, 1, 2, … , n
và hàm xác suất được tính theo công thức Bernuolli:

Pn(x) = Cnx px. qn-x , với x = 0, 1, … , n

Ta có bảng phân phối xác suất của X như sau:

X 0 1 … n

P Cn0 p0qn Cn1 p qn-1 … Cnn pn q0

Từ nhị thức Newton ta có:

Cn0 p0qn + Cn1 p qn-1 + … + Cnn pn q0 = (p+q)n =1 (do p + q = 1)

82
Các số đặc trưng của phân phối nhị thức

Định lý 1 : Nếu biến ngẫu nhiên X có phân phối nhị thức với hai tham số n và
p thì : E(X) = np ; V (X) = npq; np-q xmod  np+ p.

Thí dụ 2.33: Theo thống kê người ta thấy chỉ có 40% sinh viên chuẩn bị bài khi
đến lớp. Chọn ngẫu nhiên một lớp có 50 sinh viên .

a) Hãy chỉ rõ phân phối xác suất của X – số sinh viên có chuẩn bị bài khi đến
lớp

b) Trong lớp dã chọn thì trung bình có bao nhiêu sinh viên có chuẩn bị bài khi
đến lớp? Số sinh viên có chuẩn bị bài khi đến lớp có khả năng xảy ra nhiều nhất
là bao nhiêu?

Giải: a) Gọi X là số sinh viên có chuẩn bị bài khi đến lớp. X là biến ngẫu nhiên
rời rạc, X = 0, 1. … , 50.

Bài toán thoả mãn dãy phép thử Bernuolli, nên

P (X=x) = Pn(x) = Cnx px. qn-x , với x = 0, 1, … , 50.

Vậy X có phân phối nhị thức: X  B (50 ; 0,4).

b) Số sinh viên trung bình chuẩn bị bài khi đến lớp xấp xỉ bằng kỳ vọng của X.
Ta có: E(X) = n p = 50.0,4 =20.

Số sinh viên chuẩn bị bài có khả năng nhất là Mốt xmod của X. Ta có:

np-q xmod  np+ p  19,4  xmod  20,4. Vậy xmod= 20.

b) Phân phối Poisson (Poisson Distribution)

Xuất phát từ dãy phép thử Bernoulli, tuy nhiên nếu số phép thử n quá lớn mà
xác suất p quá nhỏ thì việc tính toán Pn(x) bằng công thức Bernoulli sẽ gặp
nhiều khó khăn. Vì vậy trong trường hợp nếu số phép thử n rất lớn xác suất p
nhỏ (p<0,005) và tích np =λ <5 không đổi thì để tính các xác suất Pn (x) có thể
thay thế bằng công thức xấp xỉ Poisson :

83
 x
Pn ( x)  Px  e  (2- 23)
x!

Trong thực tế , công thức Poisson có thể dùng thay thế cho công thức Bernoulli
nếu thoả mãn điều kiện np≈ npq.

i) Định nghĩa

Biến ngẫu nhiên rời rạc X được gọi là có phân phối Poisson với tham số λ, ký
hiệu là X  P (λ ), nếu X nhận các giá trị có thể có là các số nguyên không âm:
0, 1, 2, … , n và các suất tương ứng được tính theo công thức xấp xỉ Poisson.

 x
Pn ( x)  Px  e  , = np\
x!

ii) Các số đặc trưng của phân phối Poisson

Định lý 2: Nếu X có phân phối Poisson (X  P (λ )) thì :

E(X) = λ ; V(X) = λ

iii) Đặc điểm của phân phối Poisson


Xét một biến cố A (“Thành công”) xuất hiện ở những thời điểm ngẫu nhiên.
Giả thiết rằng X số lần biến cố “Thành công” xảy ra trong một đơn vị thời gian
hay không gian xác định gọi là một phân đoạn. Khi đó X có phân phối Poisson.
Chẳng hạn, số lỗi trên một trang đánh máy; số khách hàng dến giao dịch tại
ngân hàng trong khoảng thời gian cụ thể (trong một giờ); số cuộc gọi khẩn cấp
nhận được trong 15 phút… đều có phân phối Poisson.
- Xác suất của biến cố “Thành công”cho mỗi một phân đoạn là tương tự
cho tất cả các phân đoạn có cùng kích thước.
- Số biến cố “thành công” xảy ra trong một phân đoạn này độc lập với số biến
cố “thành công” xảy ra trong phân đoạn khác.
- Nếu chia phân đoạn thành những phân khúc ngày càng nhỏ thì xác xuất biến
cố “thành công” xảy ra trong mỗi phân khúc rất nhỏ sẽ rất bé
(P(A) <0,005)

84
- Giả sử số biến cố “thành công” trung bình trên một đơn vị phân đoạn được
chọn là một số λ thi số biến cố “thành công” trung bình trên một phân đoạn cỡ t
là λt (λt và t phải cùng đơn vị đo) .
Ví dụ 2.34: Các cuộc gọi đến một tổng đài bưu điện trong một phút xuất hiện
ngẫu nhiên độc lập có phân phối Poisson với 2 cuộc gọi trung binh trong 1 phút.
a) Trong khoảng thời gian 2 phút thì trung binh có bao nhiêu cuộc gọi đến tổng
đài đó? Trong khoảng thời gian 30 giây thi trung binh có bao nhiêu cuộc gọi?
b) Tính xác suất để trong 30 giây không có cuộc gọi nào dến tổng đài.
c) Tính xác suất để trong 2 phút có 3 cuộc gọi đến tổng đài.
Giải
a) Gọi X là số cuộc gọi đến tổng đài trong 1 phút. Theo giả thiết X có phân phối
Poisson với trung bình λ = 2 ( X~ P(2)).
Goi Y là số cuộc gọi đến tổng đài trong 2 phút, Y có phân phối Poisson với
trung bình λ1= 4 cuộc gọi (Y~ P(4)).
Gọi Z là số cuộc gọi dến tổng đài trong 30 giây, Z có phân phối Poisson với
trung bình λ2 = 1 (Z ~ P(1)).
02  2 10 1
b) Cần tính : P ( Z  0)  P0  e  e  0,359
0! 0!

13 4 3 4
c) Cần tính: P (Y  3)  P3  e  1  e  0,178
3! 3!

2.4 . Biến ngẫu nhiên liên tục (Continuous random variable)


2.4.1. Phân phối xác suất của biến ngẫu nhiên liên tục
a) Hàm mật độ xác suất (Probability Density Functions)
Cho biến ngẫu nhiên liên tục X, hàm mật độ xác suất ký hiệu là f(x)
là hàm thỏa mãn:
(1) f ( x)  0 ,  x

(2)  f ( x)dx  1

b
(3) P(a  X  b)   f ( x)dx , với a, b bất kỳ và a< b
a

85
Hình 2-10 : Xấp xỉ đồ thị của hàm mật độ

f(x)

Hình 2-11: Xác suất đƣợc xác định


b)Tính chất:
(1) Nếu X là biến ngẫu nhiên liên tục thì: P(X=x0)= 0, với x0 tùy ý.
(2) Nếu X là biến ngẫu nhiên liên tục thì với x1 và x2 bất kỳ:
P( x1  X  x2 )  P( x1  X  x2 )  P( x1  X  x2 )  P( x1  X  x2 )
Ví dụ 2.35 : Cho hàm số:
 x2
 voi x  0,3
f ( x)   9

 0  x  0,3

1 2

- f(x)=0 0 f(x)=x2/9 3 f(x)=0 +

a) Hàm trên có phải là hàm mất độ xác suất không?

86
b) Nếu có thì hãy tính xác suất để X nhận giá trị trong khoảng (1, 2)

Giải: a) Hiển nhiên ta thấy f(x) ≥ 0, ∀ x. Mặt khác ta xét:

 0 3  3
x2
 f ( x) dx   f ( x)dx   f ( x)dx   f ( x)   9 dx  1 .
  0 3 0

Vậy hàm f(x) đã cho là hàm mật độ xác suất.

b) Theo tiên đề 3, ta có:


2 2
x2 7
P(1  X  2)   f ( x)dx   dx   0,259  Có 25,9 % các giá trị của BNN
1 1
9 27

liên tục X phân bố trong khoảng (1,2)

b) Hàm phân phối tích lũy (Cumulative Distribution Functions)


Hàm phân phối tích lũy của biến ngẫu nhiên liên tục X, ký hiệu là F(x), là hàm
sau: với    x   .
x
F ( x )  P( X  x )   f (t )dt

(2-24)

Ta có : F ( x  f ( x) (từ định lý giá trị trung bình của tích phân xác định)
Thí dụ 2.36 : Cho biến ngẫu nhiên liên tục X có hàm mật độ như sau:
f(x) = 0 với x∉ [0,20]
0,05 với x∈ [0,20]
a) Xác định hàm phân phối tích lũy F(x).
b) Tính F(15), F(0)
Giải:
x
- Khi x < 0 (x∈ (- ∞; 0)) thì F ( x)  P( X  x)   0dt  0
x  0 x
- Khi 0 ≤ x < 20 thì F ( x)  P( X  x)   f (t ) dt   0 dt   0,05 dx  0,05x
  0
- Khi 20≤ x (x∈ [20; +∞) thì:
x 0 20 
F ( x)  P( X  x)   f (t )dt   0dt   0,05dx   0dx  1
  0 20

87
Ta có biểu thức của hàm phân phối tích lũy được xác định như sau:
 0 khi x  0

F ( x)   0,05x khi 0  x  20
 1 khi 20  x

Đồ thị của F(x) được cho bởi hình 2-12


F(x)
1

0 20
Hình 2-12
2.4.2. Các số đặc trưng của biến ngẫu nhiên liên tục
a) Kỳ vọng
Giả sử f(x) là hàm mật độ xác suất của biến ngẫu nhiên liên tục X thì kỳ vọng

(giá trị trung bình) của X , ký hiệu là μ hay E(X), được định nghĩa:

  E( X )   x f ( x)dx

(2- 25)
b) Phương sai và độ lệch chuẩn
Phương sai của X , ký hiệu là σ2 hay V(X), được định nghĩa:

 
  V ( X )   ( x   ) f ( x)dx   x 2 f ( x)dx   2
2 2
(2- 26)
 

Độ lệch chuẩn của X, ký hiệu là σ được xác định:

  2.

Ví dụ 2.37: Xác định kỳ vong, phương sai và độ lệch chuẩn của biens ngẫu
nhiên liên tục X được cho ở thí dụ 3.35:

88
 0 3 
x2
E( X )  

x f (x) dx  

x .0 dx   x .
0
9
dx   x . 0 dx
3
3
1 3 1 4 1 81
  x dx   . 34   2,25.
3
x 0
90 36 36 36
 0 3 
x2
V ( X )   x f ( x) dx  E ( X )   x . 0 dx   x dx     x 2 . 0. dx  2,25
2 2 2 2 2

  0 9 3

 3,9375
    2  3,9375.  1,984
2. 4. 3. Một số phân phối liên tục thông dụng
a) Phân phối chuẩn (Normal Distribution)- Ký hiệu X ~ N(,2).
Biến ngẫu nhiên liên tục X với hàm mật độ xác suất được cho như sau:
( x )2
1 
f ( x)  e 2 2
, x  (;) ( 2- 27)
 2
gọi là biến ngẫu nhiên phân phối chuẩn với các tham số  và 2.
Đồ thị của hàm mật độ f(x) của phân phối chuẩn với hai tham số  và 2 có
dạng hình chuông được cho bởi hình 2- 13.

Hình 2-13

* Hàm phân phối tích lũy của phân phối chuẩn


( x )2
1
x (2- 28)
F ( x)  P( X  x) 
 2 
e 2 2
dx

89
* Các số đặc trưng của phân phối chuẩn:
EX   ; V ( X )   2

* Các tính chất của phân phối chuẩn


1. Có 68,26 % các giá trị có thể của biến ngẫu nhiên X phân phối chuẩn nằm

trong khoảng từ μ-σ đến μ+σ .

2. Có 95,44% các giá trị có thể của biến ngẫu nhiên X phân phối chuẩn nằm

trong khoảng từ μ-2σ đến μ +2σ.

3. Có 99,74% các giá trị có thể của biến ngẫu nhiên X phân phối chuẩn nằm
trong khoảng từ μ-3σ đến μ +3σ.
Minh họa các tính chất trên bởi hình 2-14 và hình 2-15

Hình 2-14

Hình 2-15

90
b) Phân phối chuẩn tắc(Standard Normal RandomVariable)

Phân phối chuẩn với kỳ vọng μ =0 và phương sai σ2= 1, gọi là phân phối chuẩn

tắc ký hiệu là Z ~ N (0; 1).


i) Hàm mật độ xác suất của phân phối chuẩn tắc có dạng:
z2
1
 ( z)  e ,    z  
2

2 (2- 29)
φ(z) còn được gọi là hàm Gauss, nó là hàm chẵn và giá trị của nó được cho
trong bảng 1- Phần phụ lục

φ(z)

0 z
Hình 2- 16
ii) Hàm phân phối tích lũy của phân phối chuẩn tắc, ký hiệu là (z)
t 2
z 2
e
 ( z )  P( Z  z )  
 2
dt .

Về mặt hình học (z) được cho bởi hình 2-17


Giá trị của (z) được cho trong bảng 2

Hình 2-17

91
c) Công thức chuyển đổi từ phân phối chuẩn sang phân phối chuẩn tắc

Nếu biến ngẫu nhiên X có phân phối chuẩn N(μ, σ2) thì phân phối của biến

ngẫu nhiên Z được xác định:


X 
Z

có phân phối chuẩn tắc N (0; 1). Minh họa bởi hình 2- 18

Hình 2-18

Nếu biến ngẫu nhiên X có phân phối chuẩn N (μ, σ2) thì:

x
P( X  x)     (2- 30)
  

b  a
P (a  X  b)        (2- 31)
     
Với giá trị của ф(z) được cho trong bảng 2
Ví du 2.38: Tuổi thọ của một loại sản phẩm là biến ngẫu nhiên có phân phối
chuẩn với trung bình là 11 năm và độ lệch chuẩn là 2 năm.
a) Nếu quy định thời gian bảo hành là 10 năm thì tỷ lệ sản phẩm phải bảo hành
bằng bao nhiêu?
b) Nếu muốn tỷ lệ sản phẩm bảo hành là 10% thì phải quy định thời gian

92
bảo hành là bao nhiêu?
Giải: Gọi X là tuổi thọ của loại sản phẩm đó, X có phân phối chuẩn với trung

bình μ= 11 (năm) và độ lệch chuẩn σ= 2 (năm)

a) Tỷ lệ sản phẩm phải bảo hành bằng P(X≤ 10). Ta có:

 10     10  11 
P ( X  10)         (0,5)  0,277 (27,7%)
    2 
(tra bảng 2-Bảng giá trị hàm phân phối tích lũy phân phối chuẩn tắc)
b) Goi t là thời gian quy định bảo hành sản phẩm ứng với tỷ lệ sản phẩm phải
bảo hành là 10%. Ta có:
t    t  11 
P( X  t )      0,1 hay P ( X  t )      0,1
    2 

 t  11   t  11 
    (1,28)     1,28,  t =13,56 (năm)
 2   2 

(tra bảng 2-Bảng giá trị hàm phân phối tích lũy phân phối chuẩn tắc)
Quy luật chuẩn được áp dụng rộng rãi trong thực tế. Hầu hết các biến ngẫu
nhiên đặc trưng cho các hiện tượng ở các lĩnh vực của kinh tế -xã hội, địa chất,
sinh học, y học, khí tượng thuỷ văn, …có phân phối chuẩn hoặc gần chuẩn.
Chẳng hạn, thu nhập bình quân/năm của người lao động ở một khu dân cư,
điểm thi của sinh viên, hàm lượng của các nguyên tố hoá học trong mẫu, hàm
lượng khoáng vật trong đất đá, chiều cao cây giống, sai số ngẫu nhiên …
thường có phân phối chuẩn. Trong công nghiệp, người ta đã xác định được kích
thước các chi tiết do máy sản xuất ra sẽ có phân phối chuẩn nếu quá trình sản
xuất diễn ra bình thường. Trong nông nghiệp, năng suất của một loại cây trồng
tại các thửa ruộng khác nhau có phân phối chuẩn. Nhu cầu về các loại hàng hoá
khác nhau cũng có phân phói chuẩn. Các năng lực về trí tuệ và thể lực của
người cũng có phân phối chuẩn. Một số chỉ tiêu về sinh lý của người cùng giới
tính (chiều cao, vòng ngực, chiều dài cánh tay) cũng có phân phối chuẩn.

93
d) Xấp xỉ phân phối chuẩn của phân phối nhị thức và phân phối Poisson
i) Xấp xỉ phân phối chuẩn của phân phối nhị thức
Giả sử X là biến ngẫu nhiên có phân phối nhị thức X ~ B(n, p). Nếu np>5 và
n(1-p)>5 thì phân phối nhị thức có thể xấp xỉ tốt bởi phân phối chuẩn với
trung bình = np và phương sai σ2= npq.

1  x  np 
Pn ( x)    
npq  npq  (2- 32)

Với φ (x) là hàm Gauss- Giá trị của nó được cho trong bảng 1

Do ta đã xấp xỉ một phân phối rời rạc bằng một phân phối liên tục, nên ta cần
một sự “hiệu chỉnh” để sai số nhỏ đi. Cụ thể ta có thể hiệu chỉnh sau:

 x  0,5  np   x  05  np 
P( X  x)  P Z    (2-33)
 np(1  p)    
  np(1  p) 
x  0.5  np (2- 34)
P( X  x)  P( Z  )
np(1  p)

 k  0,5  np   
Pn (k1 ; k 2 )    2     k1  0,5  np  ( 2-35)
 np(1  p)   np(1  p) 
   

ii) Xấp xỉ phân phối chuẩn của phân phối Poisson


Giả sử X là biến ngẫu nhiên có phân phối Poisson P(λ) mà >5 thì X có phân
phối xấp xỉ chuẩn với = và σ2= . Như vậy :
X 
Z

sẽ có xấp xỉ phân phối chuẩn tắc. Nên ta có:

 x  x
P ( X  x)  P Z     
      (2-36)
k  k  
Pn (k1 ; k 2 )    2     1  (2-37)
    ) 
 

94
Với (x) được cho trong bảng 2- Phần phụ lục
e) Phân phối Chi bình phương
Cho biến ngẫu nhiên liên tục X có hàm mật độ được cho như sau:
0 khi x  0

 1
x1 k
1
f ( x)   e 2 x2 , x0
 2 k / 2  k 
 2


trong đó (x)   t x 1 e t dt là hàm Gamma, gọi là có phân phối Chi bình


0

phương , ký hiệu  (k )
2

Đồ thị của hàm mật độ xác suất của phân phối tương ứng với các bậc tự do k cụ
thể được cho bởi hình 3-19

Hình 2-19
Người ta chứng minh dược rằng : E(χ2) = n ; V(χ2)= 2n.

Với P (2   ; n )   thì giá trị tới hạn  ; n được cho trong bảng phân phối χ2
2 2

(Bảng 4)
f) Phân phối Student
Cho biến ngẫu nhiên liên tục X với hàm mật độ xác suất như sau:
k 1
( )
2 1
f ( x)  k 1
,    x  
k  (k / 2) x2
(  1) 2
k

95
gọi là có phân phối Student với k bậc tự do, Ký hiệu là T(k)
Đồ thị của nó ứng với k bậc tự do được cho bởi hình 3-20

Hình 2-20
k
Với P( T  tk )   , thì giá trị tới hạn t được cho trong bảng phân phối Student
(bảng 3- phần phụ lục)

Người ta chứng minh được rằng khi n đủ lớn (n≥ 30) thì phân phối Student sẽ

xấp xỉ phân phối chuẩn tắc.


g) Phân phối Fisher - snedecor
Xét biến ngẫu nhiên Y1 ~ 2 (m) và Y2 ~ 2 (n); Y1 và Y2 độc lập với nhau. Khi
đó biến ngẫu nhiên F được xác định như sau:
Y1 m
F
Y2 n
gọi là có phân phối Fisher – Snedecor với (m; n) bậc tự do. Ký hiệu: F ~ F (m;
n). Hàm mật độ của phân phối Fisher với các bậc tự do khác nhau được cho bởi
hình 3- 21:

96
Hình 2-21
Các phân phối chuẩn tắc, phân phối Student, phân phối “ Chi bình phương” ,
phân phối Fisher được sử dụng nhiều trong thống kê.
2. 5. Phân phối mẫu
2.5.1. Mẫu ngẫu nhiên và thống kê
a) Mẫu ngẫu nhiên (Random Sample)
Tiến hành n quan sát (phép thử) độc lập về biến ngẫu nhiên gốc X . Gọi Xi là
quan sát lần i về biến ngẫu nhiên X (i= 1, 2, …, n)
Một mẫu ngẫu nhiên kích thước n là tập hợp n biến ngẫu nhiên X1, X2,..., Xn

được thành lập từ biến ngẫu nhiên X gốc (có E(X)= μ và V(X)= σ2) thỏa mãn:

 X1, X2,..., Xn là các biến ngẫu nhiên độc lập.


 X1, X2,..., Xn cùng phân phối xác suất với biến ngẫu nhiên gốc X: cùng dạng

phân phối xác suất và E(Xi)= E(X)= μ và V(Xi)= V(X)= σ2 (i=1, 2, …,n)

Ký hiệu là mẫu ngẫu nhiên: W = (X1, X2, ... , Xn)


Việc thực hiện phép thử đối với mẫu ngẫu nhiên W chính là việc thực hiện một
phép thử đối với mỗi thành phần của Xi của mẫu (nghĩa là X1 nhận giá trị x1, X2
nhận giá trị x2, ..., Xn nhận giá trị xn). Khi đó tập hợp các giá trị x1, x2, ... xn là
n giá trị cụ thể quan sát được và gọi là một mẫu cụ thể, ký hiệu w = (x1, x2...,xn).
Cần chú ý rằng khi nói đến mẫu ngẫu nhiên kích thước n được rút ra từ biến
ngẫu nhiên gốc X, ta sẽ hiểu đó là gồm n biến ngẫu nhiên độc lập cùng phân
phối và ta chỉ muốn nghiên cứu tính chất chung của mẫu, và các đặc trưng có
tính chất tổng quát của mẫu mà không quan tâm đến kết quả cụ thể quan sát.

97
Còn khi nói đến mẫu cụ thể, ta sẽ hiểu đó là n giá trị quan sát được và ta cần
tính toán cụ thể.
b) Thống kê (Statistic)
Cho mẫu ngẫu nhiên W= (X1, X2, … Xn). Hàm của các biến ngẫu nhiên Xi (i=
1, 2, …, n) của mẫu ngẫu nhiên, gọi là thống kê mẫu, ký hiệu là

ˆ  f ( X 1 , X 2 ..., X n ) .
Thống kê trung bình mẫu:
X  X 2  ...  X n  1 n 
X 1 ,  X   Xi 
n  n i 1 

Thống kê phương sai mẫu: Ký hiệu là MS


( X 1  X ) 2  ( X 2  X ) 2  ....  ( X n  X ) 2
MS 
n
Thống kê phương sai mẫu có hiệu chỉnh: Ký hiệu là S2
( X1  X )2  ( X 2  X )2    ( X n  X )2  1 n 
S2 
n 1
, S2 


n  1 i 1
( X i  X )2 

n
S2   MS
n 1
Thống kê độ lệch chuẩn của mẫu : ký hiệu là S
S  S2

Thống kê tần suất (tỷ lệ) mẫu. Ký hiệu là P̂ (hay F)


X
pˆ 
n
Trong đó :
 Xi là số lần xuất hiện đặc tính A trong phép thử thứ i (i=1, 2, ..., n).
 X là tổng số lần xuất hiện đặc tính A trong n phép thử (trong mẫu)
Như vậy, các thống kê mẫu X , S 2 , Pˆ là các biến ngẫu nhiên có phân phối xác suất

xác định. Ký hiệu: ˆ  ( X , S , Pˆ )


2

2.5.2. Phân phối mẫu và định lý giới hạn trung tâm

98
Phân phối mẫu (Sampling Distribution) là phân phối xác suất của thống kê
mẫu.
Phân phối mẫu phụ thuộc vào phân phối xác suất của tổng thể, phụ thuộc vào cỡ
mẫu và phụ thuộc vào phương pháp chọn mẫu.
a) Phân phối của thống kê trung bình mẫu X
Giả sử cho mẫu ngẫu nhiên kích thước n: W=(X1, X2, …, Xn) được lấy từ tổng

thể có phân phối chuẩn với trung bình là μ và phương sai là σ2. Mỗi quan sát Xi

là các biến ngẫu nhiên độc lập có phân phối chuẩn với trung bình là μ và

phương sai là σ2. Khi đó thống kê mẫu trung bình mẫu (hàm tuyến tính)
X 1  X 2  ...  X n
X  cũng có phân phối chuẩn với trung bình  X   , phương
n

2  
sai V ( X )  và độ lệch chuẩn  X  ( X  còn gọi là sai số chuẩn của
n n n

X - Standard Eror (SE)


b) Định lý giới hạn trung tâm (Central limit theorem)
Giả sử cho mẫu ngẫu nhiên kích thước n: W= (X1, X2, …, Xn) được lấy từ

tổng thể X có phân phối bất kỳ (hoặc tổng thể X không có phân phối chuẩn) và
X là thống kê trung bình mẫu , thì giới hạn của đại lượng:

X 
Z (2-38)
/ n

sẽ có phân phối chuẩn tắc N (0;1) khi n→ ∞

Như vậy khi cỡ mẫu n đủ lớn (n 30) thì phân phối của thống kê trung bình
mẫu X sẽ xấp xỉ phân phối chuẩn bất chấp tổng thể có phân phối gì. Khi đó đại
X 
lượng Z  sẽ có phân phối xấp xỉ chuẩn tắc N(0; 1).
/ n
Chẳng han, các phân phối của số chấm trung bình nhận được khi gieo con xúc
sắc cho bởi hình (1- 22) như sau:

99
Hình 2-22
VÝ dô 2.39 : Thời gian tự học/tuần của sinh viên một trường đại học A là biến
ngẫu nhiên có phân phối chuẩn với thời gian tự học trung bình 19,2 giờ và độ
lệch chuẩn là 4 giờ. Tính xác suất để một mẫu ngẫu nhiên gồm 25 sinh viên của
trường thì có thời gian tự học trung bình/tuần dưới 17 giờ.

100
Giải: Theo giả thiết ta có phân phối của thời gian tự học/tuần X của sinh viên là

chuẩn với trung bình μ= 19,2 và độ lệch chuẩn σ= 4 nên phân phối của thời

gian tự học trung bình/tuần X cũng chuẩn với


4
E ( X )   X  19,2;  X   0,8 . Cần tính xác suất P( X  17)
25
17  19,2
Đặt z   2,75 , ta có P( X  17)  P( Z  2,75)   (2,75)  0,00298
0,8

c) Phân phối của thống kê tần suất (tỷ lệ) mẫu P̂


Nếu tổng thể nghiên cứu theo dấu hiệu định tính A.
X
Pˆ 
n
Gọi X là số lần “thành công” trong n phép thử (X là số phần tử của mẫu có dấu
hiệu định tính A). Khi đó X có phân phối nhị thức với trung bình  X  np ;

 X  np(1  p) .

Nếu kích thước mẫu n đủ lớn thỏa mãn : np > 5 và n(1- p)>5 thì X có phân
phối xấp xỉ chuẩn. Vận dụng biến đổi về chuẩn tắc ta có đại lượng :
X  np
Z
np(1  p )

có phân phối xấp xỉ chuẩn tắc.


X  np
Chia cả tử và mẫu của biểu thức cho n ta được:
np(1  p )

X
p
X  np n Pˆ  p
Z  
np(1  p) p(1  p) p(1  p)
n n

Có phân phối chuẩn tắc N(0;1).


Như vậy, khi n đủ lớn thỏa mãn np > 5 và n(1- p)>5 thì tỷ lệ mẫu P̂ có phân
p(1  p)
phối xấp xỉ chuẩn với  Pˆ  p ;  ( Pˆ )  và đại lượng:
n

101
Pˆ  p (2-39)
Z
p(1  p)
n

có phân phối chuẩn tắc N(0 ;1).


d) Phân phối của thống kê hiệu 2 trung bình X 1  X 2
Nghiên cứu hai tổng thể độc lập theo cùng một dấu hiệu định lượng X. Tổng
thể thứ nhất có trung bình 1 và phương sai  12 . Tổng thể thứ hai có trung bình
2 và phương sai  22 . Giả sử cả hai tổng thể đều có phân phối chuẩn. Từ hai
mẫu ngẫu nhiên độc lập được lấy từ hai tổng thể có kích thước n1 và n2 lần lượt
là ( X 1(1) , X 2(1) ,..., X n(1) ) và ( X 1( 2) , X 2( 2) ,..., X n( 2 ) , trong đó X 1 và X 2 lần lượt là thống kê
1 2

trung bình mẫu của hai mẫu ngẫu nhiên nêu trên. Khi đó thống kê mẫu X 1  X 2
có phân phối chuẩn với trung bình
 X  X   X   X  1   2
1 2 1 2

và phương sai và độ lệch chuẩn (sai số chuẩn)


 12  22  12  22
 X2  X   X2   X2   và  X  X  
1 2 1 2
n1 n2 1 2
n1 n2

Vận dụng biến đổi về chuẩn tắc ta có


X 1  X 2  ( 1   2 )
Z
 12  22

n1 n2

có phân phối chuẩn tắc.


Từ định lý giới hạn trung tâm ta có kết luận sau:
Nếu có hai tổng thể độc lập có phân phối bất kỳ với trung bình 1, 2 và phương
sai  12 ,  22 và nếu X 1 và X 2 là thống kê trung bình mẫu của hai mẫu ngẫu nhiên
độc lập với kích thước n1 và n2 từ hai tổng thể, khi đó với n1 và n2 đủ lớn thì
phân phối của
X 1  X 2  ( 1   2 ) (2-40)
Z
 2
 2
1
 2

n1 n2

có phân phân phối xấp xỉ chuẩn tắc N(0;1).

102
Bài tập chƣơng 2

Bài 1: Một người gọi điện thoại cho bạn nhưng quên mất 2 chữ số cuối của số
điện thoại chỉ nhớ rằng 2 chữ sô này là khác nhau. Tính xác suất để người đó
bấm ngẫu nhiên gọi đúng số hiệu điện thoại của bạn.
Đáp số: 0,011
Bài 2: Trong một hộp có 15 tấm thẻ như nhau được đánh số từ số 1 đến số 15.
Rút ngẫu nhiên lần lượt ra 2 tấm thẻ rồi đặt theo thứ tự từ trái qua phải. Tính
xác suất để:
a) Rút được hai thẻ lập nên một số có hai chữ số.
b) Rút được hai tấm thẻ lập nên một số chia hết cho 5.
Đáp số: a) 0,343; b) 0,2
Bài 3: Thang máy của tòa nhà giảng đường 10 tầng của một trường đại học
xuất phát từ tầng một với 3 sinh viên. Tính xác suất để:
a) Cả ba sinh viên cùng ra ở một tầng.
b) Mỗi người ra ở mỗi tầng khác nhau
Đáp số: a) 0,0123; b) 0,691
Bài 4: Gieo đồng thời hai con xúc xắc đều đặn và đồng chất. Tính xác suất để
nhận được hai mặt:
a) Có tổng số chấm bằng 6.
b) Có tổng số chấm bằng 7
c) Có tổng số chấm nhỏ hơn 8.
d) Có số chấm như nhau.
e) Có ít nhất một mặt 6 chấm.
Đáp số: a) 0,1388; b) 0,166; c) 0,583; d) 0,1666; e) 0,3055
Bài 5: Nếu gieo đồng thời 3 con xúc xắc cân đối và đồng chất. Tính xác suất để
nhận được 3 mặt:
a. Có số chấm như nhau
b. Có tổng số chấm bằng 4

103
c. Nếu gieo đồng thời n con xúc xắc cân đối và đồng chất. Tính xác suất để
nhận được tổng số chấm bằng (n+1).
Đáp số: a) 0,02777; b) 0,0139; c) n/6n
Bài 6: Một gia đình dự định sinh 3 con. Tính xác suất để sinh đươc:
a. Con gái đầu lòng
b. Có một trai
c. Không quá 2 trai
Giả thiết xác suất sinh con trai và con gái bằng nhau.
Đáp số: a) 1/2; b) 3/8; c) 1/2
Bài 7: Một trường đại học có 60% sinh viên học tiếng Anh, 40% sinh viên học
tiếng Pháp và 30% sinh viên học tiếng Nhật. Trong đó có 20% sinh viên vừa
học tiếng Anh và tiếng Pháp; 15% sinh viên vừa học tiếng Anh và tiếng Nhật;
10% sinh viên vừa học tiếng Pháp và tiếng Nhật; 5% sinh viên học cả 3 thứ
tiếng Anh, Pháp, Nhật. Tính xác suất để chọn ngẫu nhiên một sinh viên của
trường đại học đó thi:
a. Chỉ học tiếng Pháp
b. Chỉ học một trong 3 thứ tiếng
c. Chỉ học Tiếng Anh và tiếng Nhật
d. Học ít nhất một trong 3 thứ tiếng nói trên.
Đáp số: a) 0,15; b) 0,45; c) 0,1; d) 0,8.
Bài 8: Có 10 người trong đó có 2 người trùng tên.. Tính xác suất khi sắp ngẫu
nhiên để 2 người trùng tên đứng cạnh nhau nếu:
a. Họ xếp thành hàng ngang
b. Họ xếp thành vòng tròn
c. Cũng các câu hỏi trên nhưng có n người trong đó có k người trùng tên (k<m).
Đáp số: a) 1/5; b) 2/9
Bài 9: Rút ngẫu nhiên 2 quân bài từ bộ bài có 52 quân. Tính xác suất:
a. Cả 2 quân đều là Át
b. Có một quân Át trong hai quân

104
c. Có ít nhất một quân át.
Đáp số : a) 6/1326 ; b) 192/1326 ; c) 198/1326.
Bài 10: Ngân hàng đề thi môn học có 30 câu. Một đề thi gồm 2 câu được chọn
ngẫu nhiên trong đề cương. Một sinh viên chỉ học thuộc 12 câu. Tính xác suất
để sinh viên đó thi đỗ. Biết rằng muốn thi đỗ sinh viên phải thuộc ít nhất một
câu trong đề thi.
Đáp số : 0,648.
Bài 11: Trong một vùng dân cư tỷ lệ người mắc bệnh tim là 9%, mắc bệnh
huyết áp là 12% và mắc cả hai bệnh là 7%. Tính xác suất để chọn ngẫu nhiên
một người ở vùng đó đều không mắc cả hai bệnh trên.
Đáp số: 0,86.
Bài 12: Có 20 phế phẩm trong 100 sản phẩm. Chọn ngẫu nhiên lần lượt ra 2 sản
phẩm. Tính xác suất:
a. Sản phẩm thứ nhất là phế phẩm.
b. Sản phẩm thứ hai là phế phẩm khi sản phẩm thứ nhất là phế phẩm.
c. Cả hai sản phẩm lấy ra đều là phế phẩm.
Đáp số: a) 0,2; b) 19/99; c) 19/495.
Bài 13: Có hai hộp đựng sản phẩm. Hộp thứ nhất có 7 sản phẩm loại I và 3 sản
phẩm loại II; hộp thứ hai có 8 sản phẩm loại I và 4 sản phẩm loại II. Từ mỗi hộp
chọn ngẫu nhiên ra một sản phẩm. Tính xác suất:
a. Lấy được 2 phẩm loại I
b. Lấy được ít nhất một phẩm loại II. I
c. Lấy được 2 sản phẩm cùng loại.
d. Nếu từ hộp thứ nhất lấy ngẫu nhiên ra 2 sản phẩm và từ hộp thứ hai lấy ngẫu
nhiên ra 1 sản phẩm thì xác suất lấy được cả ba sản phẩm đều là sản phẩm loại
I bằng bao nhiêu? Xác suất để 3 sản phầm cùng loại là bao nhiêu?
Đáp số: a) 0,466; b) 0,9; c) 0,566.
Bài 14: Một phòng có 3 máy tính hoạt động độc lập. Xác suất hỏng trong một
tháng của mỗi máy tương ứng là 0,1; 0,2; 0,3. Tính xác suất:

105
a. Cả ba máy hỏng trong tháng.
b. Có một máy hỏng trong tháng.
c. Có hai máy hỏng trong tháng.
d. Có ít nhất một máy hỏng trong tháng.
e) Máy thứ ba bị hỏng. Biết rằng trong tháng có 2 máy bị hỏng.
Đáp số: a) 0,006; b) 0,398; c) 0,092; d) 0,496; e) 0,85.
Bài 15: Một tín hiệu thông tin được phát 3 lần một cách độc lập với xác suất thu
được mỗi lần bằng 0,4.
a. Tính xác suất để nhận được tín hiệu thông tin đó.
b. Nếu muốn xác suất thu được tín hiệu thông tin đó lên tới 0,9 thì cần phát bao
nhiêu lần?
Đáp số: a) 0,784; b) 5 lần.
Bài 16: Một gia đình dự định sinh 3 con. Tính xác suất để :
a. Trong số con sinh ra có một trai
b. Trong số con sinh ra có không quá 2 trai.
c. Trong số con sinh ra có số con trai nhiều hơn số con gái.
Giả thiết xác suất sinh con trai bằng 0,53.
Đáp số: a) 0,316; b) 0,815; c) 0,604.
Bài 17: Một bác sỹ có tỷ lệ chữa khỏi một bệnh A là 8/10. Có ý kiến cho rằng
xác suất để 10 người mắc bệnh A đến đến chữa bác sỹ đó thì có 8 người khỏi
bằng 8/10 có đúng không? Tại sao?
Bài 18: Một đề thi trắc nghiệm có 12 câu hỏi, mỗi câu có 5 phương án, trong đó
chỉ có một phương án đúng. Giả sử mỗi câu trả lời đúng được 4 điểm còn mỗi
câu trả lời sai bị trừ 1 điểm. Một học sinh học kém không học gì làm bài bằng
cách chọn hú họa một phương án trả lời cho mỗi câu. Tính xác suất:
a. Học sinh đó được 13 điểm.
b. Học sinh đó bị điểm âm.
Đáp số: a) 0,053; b) 0,558.

106
Bài 19: Một hộp có 8 chính phẩm và 2 phế phẩm. Từ hộp đó lấy ngẫu nhiên lần
lượt ra 5 sản phẩm (lấy có hoàn lại). Tính xác suất để trong 5 sản phẩm lấy ra:
a. Có 3 phế phẩm.
b. Có ít nhất 3 phế phẩm.
Đáp số: a) 0,052; b) 0,058.
Bài 20: Có hai hộp đựng phiều thi, mỗi phiếu ghi một câu hỏi. Hộp thứ nhất có
15 phiếu và hộp thứ hai có 9 phiếu. Sinh viên A đi thi chỉ thuộc 10 câu ở hộp
thứ nhất và 8 câu ở hộp thứ hai.
a. Thầy giáo rút ngẫu nhiên từ mỗi hộp ra một phiếu thi, sau đó cho sinh viên A
rút ngẫu nhiên ra 1 phiếu từ 2 phiếu mà thầy giáo đã rút. Tính xác suất để sinh
viên A trả lời được câu hỏi trong phiếu .
b) Thầy giáo rút ngẫu nhiên ra 1 phiếu từ hộp thứ nhất bỏ vào hộp thứ hai, sau
đó cho sinh viên A rút ngẫu nhiên ra 1 phiếu từ hộp thứ hai. Tính xác suất để
sinh viên trả lời được câu hỏi trong phiếu.
c) Thầy giáo rút ngẫu nhiên ra 2 phiếu từ hộp thứ nhất bỏ vào hộp thứ hai, sau
đó cho sinh viên A rút ngẫu nhiên ra 2 phiếu từ hộp thứ hai.
c1) Tính xác suất để sinh viên A trả lời được cả hai câu hỏi trong 2 phiếu rút ra .
c2) Tính xác suất để sinh viên A thi đỗ. Biết rằng muốn thi đỗ sinh viên A phải
trả lời được ít nhất một câu.
Bài 21: Tỷ lệ người nghiện thuốc là ở một vùng dân cư là 30%. Biết rằng tỷ lệ
người bị viêm họng trong những người nghiện thuốc là 60%, còn tỷ lệ người bị
viêm họng trong những người không nghiện thuốc là 30%.
a. Khám ngẫu nhiên một người thì thấy người đó bị viêm họng. Tính xác suất để
người đó nghiện thuốc.
b. Nếu người đó không bị viêm họng. Tính xác suất để người đó nghiện thuốc.
Bài 22: Một người có 3 chỗ ưa thích như nhau để câu cá. Xác suất câu được cá
ở mỗi chỗ lần lượt là 0,7; 0,8; 0,9. Biết rằng mỗi chỗ người đó thả câu 3 lần thì
chỉ có một lần câu được cá. Người đó đã câu được một con cá. Tính xác suất để
côn cá câu được ở chỗ thứ nhất.

107
Bài 23: Tan giờ học buổi chiều một sinh viên có 60% về nhà ngay, nhưng do
giờ cao điểm nên có 30% ngày bị tắc đường nên bị về nhà muộn (từ 30 phút trở
lên) còn 20% số ngày sinh viên đó vào quán Internet cạnh trường để chơi
Games, những ngày này xác suất về nhà muộn là 80%. Còn lại những ngày khác
sinh viên đó đi chơi với bạn bè có xác suất về muộn là 90%.
a. Tính xác suất để trong một ngày nào đó sinh viên không về muộn..
b. Hôm nay sinh viên đó về muộn. Tính xác suất để để sinh viên đó đi chơi với
bạn bè.
Bài 24: Một nhóm học sinh có 10 em, trong đó có 2 em học giỏi, 4 em học khá
còn lại là học trung bình. Từ nhóm đó chọn ngẫu nhiên ra 3 em. Gọi X là số học
sinh giỏi trong 3 em chọn ra.
a) Lập bảng phân phối xác suất của X
b) Viết biểu thức hàm phân phối tích lũy của X và vẽ đồ thị.
c) Tính kỳ vọng và độ lệch chuẩn của X.
d) Tính xác suất để trong số em chọn ra có ít nhất một học sinh giỏi.
Bài 25: Một siêu thị có 2 chuông báo cháy hoạt động độc lập. Xác suất hỏng
trong một năm của mỗi chuông lần lượt bằng 0,1 và 0,2. Gọi X là số chuông
hỏng trong năm tới ở siêu thị đó.
a) Lập bảng phân phối xác suất của X
b) Viết biểu thức của hàm phân phối xác suất của X và vẽ đồ thị.
c) Tính E(2X-3) và V(3- 2X).
d) Tính xác suất để có không quá một chuông bị hỏng trong năm tới.
Bài 26: Một công ty có 3 ô tô tải hoạt động độc lập. Xác suất để các ô tô không
bị hỏng trong một năm lần lượt bằng 0,7; 0,8 và 0,9. Gọi X là số ô tô không bị
hỏng trong năm tới ở công ty đó.
a) Lập bảng phân phối xác suất của X.
b) Viết biểu thức của hàm phân phối tích lũy của X và vẽ đồ thị.
c) Tính kỳ vọng và độ lệch chuẩn của X

108
d) Nếu mỗi ô tô bị hỏng thì công ty phải chi phí sửa chữa trung bình khoảng
2,5 triệu đồng. Tính số tiền trung bình mà công ty chi để sửa ô tô.
Bài 27: Một sinh viên đi từ nhà đến trường phải đi qua 3 ngã tư. Xác suất gặp
đèn đỏ ở mỗi ngã tư đều bằng 0,4. Gọi X là số ngã tư mà sinh viên đó gặp đèn
đỏ.
a) Lập bảng phân phối xác suất của X.
b) Viết biểu thức của hàm phân phối tích lũy của X và vẽ đồ thị.
c) Tính E(4- 3X) và V( 3X- 5)
d) Nếu mỗi ngã tư gặp đèn đỏ phải chờ khoảng 1,2 phút thì thời gian trung
bình mà sinh viên đó phải chờ khi gặp đèn đỏ là bao nhiêu?
Bài 28: Có hai lô hàng, lô thứ nhất có 7 chính phẩm và 3 phế phẩm, lô thứ hai
có 8 chính phẩm và 2 phế phẩm. Từ mỗi lô chọn ngẫu nhiên ra 1 sản phẩm. Gọi
X là số chính phẩm trong các sản phẩm lấy ra.
a) Lập bảng phân phối xác suất của X.
b) Viết biểu thức hàm phân phối tích lũy và vẽ đồ thị.
c) Tính kỳ vọng và độ lệch chuẩn của X
d) Tính xác suất để trong số sản phẩm lấy ra có ít nhất một chính phẩm.
Bài 29: Trong một hộp có 10 tấm thẻ, trong đó có 4 tấm thẻ ghi số 1, 3 tấm thẻ
ghi số 2, 2 tấm thẻ ghi số 3 và 1 tấm thẻ ghi số 4. Chọn ngẫu nhiên ra 2 tấm thẻ
từ hộp đó.
a) Lập bảng phân phối xác suất của X- là tổng của 2 số thu được trên hai
tấm thẻ lấy ra.
b) Lập bảng phân phối xác suất của Y- là tích của 2 số thu được trên hai tấm
thẻ lấy ra.
Bài 30: Tỷ lệ người dân tham gia trên mạng lưới giao thông có hiểu biết về luật
giao thông là 90%. Tại một nút giao thông có 5 người vi phạm luật giao thông.
Gọi X là số người hiểu biết luật nhưng cố tình vi phạm luật trong 5 người đó.
a) Lập bảng phân phối xác suất của X.
b) Tính E(3- 5X) và V(3X-2).

109
c) Nếu có 30 người vi phạm luật thì trung bình có bao nhiêu người hiểu biết
luật nhưng cố tình vi phạm? Có bao nhiêu người vi phạm luật do người
không hiểu biết luật?
Bài 31: Tỷ lệ tai nạn giao thông đường bộ do xe máy gây nên là 70%. Điều tra
ngẫu nhiên 50 vụ tai nạn giao thông đường bộ tại một số địa phương.
a) Số vụ tai nạn trung bình do xe máy gây nên là bao nhiêu? Số vụ tai nạn
do xe máy gây nên có khả năng xảy ra nhiều nhất là bao nhiêu ?
b) Tính xác suất để trong 50 vụ tai nạn giao thông đường bộ có không quá
30 vụ do xe máy gây nên.
c) Tính xác suất để trong 50 vụ tai nạn giao thông đường bộ có từ 30 đến 35
vụ tai nạn do xe máy gây nên.
Bài 32: Tỷ lệ sinh viên khá giỏi ở một trường đại học là 30%. Gọi X là điểm thi
môn Thống kê xã hội của các sinh viên loại khá giỏi của trường đại học đó. Giả
sử X có bảng phân phối xác suất như sau:
X 5 6 7 8 9 10
P 0,05 0,1 0,2 ? 0,1 0,1

a) Tính E(X), V(X).


b) Tính xác suất để chọn ngẫu nhiên ra một sinh viên khá giỏi của trường thì
sinh viên đó:
- Đạt điểm giỏi về môn Thống kê và xử lý dữ liệu.
- Đạt điểm khá giỏi.
- Bị thi lại.
c) Nếu chọn ngẫu nhiên ra 150 sinh viên của trường thì trung bình có bao
nhiêu sinh viên đạt loại khá giỏi? Số sinh viên đạt loại khá giỏi có khả
năng xảy ra nhiều nhất là bao nhiêu?
Bài 33: Một lô hàng có 8 sản phẩm loai I và 2 sản phẩm loại II. Lấy ngẫu nhiên
lần lượt ra 5 sản phẩm theo phương thức hoàn lại. Gọi X là số sản phẩm loại II
trong 5 sản phẩm lấy ra.

110
a) X có phân phối gì?
b) Tính kỳ vọng và phương sai của X.
c) Tính số sản phẩm loại II trung bình trong số sản phẩm lấy ra và tính khả năng
để xảy ra điều đó.
d) Nếu lấy lần lượt ra 64 sản phẩm từ lô hàng đó (vẫn lấy theo phương thức
hoàn lại) thì trung bình lấy được bao nhiêu sản phẩm loại II? Số sản phẩm loại
II có khả năng xảy ra nhất là bao nhiêu?

Bài 34 : Lưu lượng giao thông theo cách truyền thống được coi là có phân phối
Poisson. Một trạm kiểm soát điều khiển lưu lượng giao thông ở một nút giao
thông với trung bình 6 xe một phút. Để thiết lập thời gian cho đèn tín hiệu thì
các xác suất sau đây được sử dụng:

a) Tính xác suất để không có xe nào đi qua nút giao thông trong 30 giây.

b) Tính xác suất có 3 xe hoặc nhiều hơn 3 xe đi qua nút giao thông.

c) Nếu phương sai của số xe đi qua nút giao thông này trong một phút là 20 thì
phân phối Poisson có phải là phân phối thích hợp không? Tại sao?
Bài 35: Số cuộc gọi điện thoại đến trung tâm tổng đài thường được mô tả là một
biến ngẫu nhiên Poisson. Biết rẳng trung bình có 10 cuộc điện thoại gọi tới
trong 1 giờ.
a) Xác suất có đúng 5 cuộc điện thoại gọi tới trong 1 giờ là bao nhiêu?
b) Xác suất có 3 hoặc nhiều hơn 3 cuộc điện thoại gọi tới trong 1 giờ là bao
nhiêu?
c) Xác suất có đúng 15 cuộc điện thoại gọi tới trong 2 giờ là bao nhiêu?
d) Xác suất có đúng 5 cuộc điện thoại gọi tới trong 30 phút là bao nhiêu?
Bài 36: Nhu cầu hàng năm về loại hàng hóa A là biến ngẫu nhiên liên tục X có
hàm mật độ xác suất như sau: (đơn vị: ngàn sản phẩm)

111
 k (30  x) voi x  0,30
f ( x)  
 0 x  0,30

a) Tìm hệ số k.
b) Tìm nhu cầu trung bình hàng năm về loại hàng hóa đó.
Tìm xác suất để nhu cầu hàng năm về loại hàng hóa đó không vượt quá 12 ngàn
sản phẩm.
Bài 37: Thời gian xếp hàng chờ mua hàng của khách hàng là biến ngẫu
nhiên liên tục với hàm phân phối tích lũy được cho như sau: (đơn vị là phút)
 0 voi x  0

F ( x)   kx 3  3x 2  2 x 0  x 1
 1 1 x

a) Tìm hệ số k.
b) Tìm thời gian xếp hàng trung bình.
c) Tính xác suất để có 3 người xếp hàng thì có không quá 2 người phải chờ
hơn 0,5 phút.
Bài 38 : Giả sử Z có phân phối chuẩn tắc. Sử dụng bảng 2 để xác định giá trị
của z trong mỗi trường hợp sau đây:
a) P(-z <Z< z)=0.95 b) P(-z <Z< z)=0.99
c) P(-z <Z< z)= 0,68 d) P(-z <Z< z)=0.9973
Bài 39: Giả sử X có phân phối chuẩn với trung bình là 5 và độ lệch chuẩn là 4.
a) Xác định các xác suất sau:
P(X<11); P(X>0); P(3< X< 7); P(-2< X< 9); P(2< X< 8)
b) Xác định giá trị của x sao cho:
P(X>x)=0.5; P(X>x)= 0.95; P(x<X<9)=0.2; P(3< X<x)=0.95; P(-x<X-5<x)=
0.99.
Bài 40: Thời gian sạc pin của laptop trong điều kiện bình thường là biến ngẫu
nhiên có phân phối chuẩn với thời gian trung bình là 260 phút và độ lệch tiêu
chuẩn là 50 phút.
a) Tính tỷ lệ laptop có thời gian sạc pin trên 4 giờ.

112
b) Thời gian sạc pin cần thiết là bao nhiêu để 95% laptop có thời gian sạc pin
không vượt quá thời gian đó.
Đáp số: a) 65,54%; b) 342,5
Bài 41: Gọi X là chỉ số đo độ thông minh (IQ) của sinh viên- X có phân phối
chuẩn với chỉ số IQ trung bình bằng 85 và độ lệch chuẩn bằng 5.
a) Tính tỷ lệ sinh viên rất thông minh (X> 90).
b) Trong một lớp có 50 sinh viên (được coi là phân ngẫu nhiên) thì trung bình
có bao nhiêu sinh viên rất thông minh?
c) Tính xác suất để trong lớp có 10 sinh viên rất thông minh.
d) Tính xác suất để trong lớp có từ 10 đến 12 sinh viên rất thông minh.
Đáp số: b) 0,16; c) 8; d) 0,11; e) 0,129.
Bài 42: Thời gian đi từ nhà đến trường của một sinh viên A là biến ngẫu nhiên
có phân phối chuẩn. Biết rằng có 65% số ngày sinh viên A đến trường mất hơn
20 phút, 8% số ngày sinh viên A đến trường mất hơn 30 phút.
a) Tình thời gian trung bình và độ lệch chuẩn của thời gian đi từ nhà đến
trường của sinh viên A.
b) Nếu sinh viên A xuất phát từ nhà trước giờ học 25 phút thì tỷ lệ ngày đi
học muộn là bao nhiêu?
c) Muốn tỷ lệ ngày đi học muộn chỉ là 10% thì sinh viên A cần xuất phát từ
nhà trước giờ học là bao nhiêu phút.
Đáp số: a) 22,12; b) 5,56; c) 29,24
Bài 43: Một ký túc xá của một trường đại học có 650 sinh viên. Xác suất để
một sinh viên nội trú đến đọc sách tại thư viện trong một ngày bằng 0,7.
a) Tính xác suất để số sinh viên đến đọc sách tại thư viện trong ngày ít hơn
440 sinh viên.
b) Thư viện cần phải chuẩn bị bao nhiêu ghế ngồi để với xác suất 0,99 có
thể đảm bảo đủ ghế chỗ cho sinh viên đến đọc sách.
Đáp số: a) 29,11; b) 842

113
Chƣơng 3
ƢỚC LƢỢNG THAM SỐ CỦA TỔNG THỂ
Một trong những mục tiêu cơ bản của việc nghiên cứu tổng thể theo một dấu
hiệu nào đó là xác định các tham số đặc trưng của nó như trung bình, phương
sai, tỷ lệ của tổng thể theo dấu hiệu nghiên cứu.
Giả sử tổng thể theo một dấu hiệu nghiên cứu nào đó được đặc trưng bởi một
biến ngẫu nhiên X (ta gọi X là biến ngẫu nhiên gốc), khi đó bằng phân tích lý
thuyết ta xác định được dạng phân phối xác suất của X, nhưng chưa biết các
tham số đặc trưng của X như kỳ vọng, phương sai… Như vậy, vấn đề xác định
các tham số đặc trưng của tổng thể được quy về bài toán xác định các tham số
đặc trưng của biến ngẫu nhiên gốc X.
Chương này sẽ đề cập đến việc xác định các tham số đặc trưng của tổng thể
(hay các đặc trưng của biến ngẫu nhiên gốc) bằng phương pháp mẫu. Do dựa
trên mẫu để xác định các tham số đặc trưng của tổng thể nên việc xác định
chúng chỉ cho giá trị gần đúng.
Như vậy, vấn đề nêu trên được phát biểu dưới dạng bài toán sau:
Cho biến ngẫu nhiên gốc X với quy luật phân phối xác suất của nó nói chung đã
biết song chưa biết tham số θ nào đó của nó (có thể chưa biết
E (X) hoặc V(X),... ). Hãy ước lượng (xác định một cách gần đúng) giá trị của
θ .
Có nhiều phương pháp ước lượng θ như phương pháp ước lượng điểm, phương
pháp ước luợng khoảng, phương pháp ước lượng hợp lý cực đại… Trong giáo
trình này, chỉ đề cập tới hai phương pháp ước luợng thông dụng: phương pháp
ước lượng điểm, phương pháp ước luợng khoảng.
3.1. Các phƣơng pháp ƣớc lƣợng
3.1.1. Ước lượng diểm (hàm ước lượng)
Phương pháp ước lượng điểm được hiểu là dùng một giá trị để ước lượng
cho tham số θ chưa biết của tổng thể . Thông thường giá trị được chọn là
một thống kê ˆ của mẫu ngẫu nhiên.

114
Giả sử cần ước lượng tham số của biến ngẫu nhiên gốc X. Từ X lập một mẫu
ngẫu nhiên kích thước n: W = (X1, X2 ..., Xn).
Thống kê ˆ = g (X1, X2 ..., Xn) được gọi là ước lượng điểm của tham số θ. Với
các giá trị cụ thể của các biến X i cho ta một mẫu cụ thể ứng với tham số ˆ của
mẫu đó: w = (x1, x2, ..., xn) thì ˆ = g(x1, x2, ..., xn) là một điểm trên trục số thực,
điểm ấy được dùng thay cho θ. Cần chú ý rằng ˆ chỉ phụ thuộc vào (X1, X2, ...,
Xn) mà không phụ thuộc vào θ .
Một số kết luận về phương pháp ước lượng điểm:
X 1  X 2  ...  X n
- Sử dụng thống kê trung bình mẫu X  làm ước lượng điểm
n

cho trung bình  của tổng thể.


X
- Sử dụng tỷ lệ mẫu Pˆ  làm ước lượng điểm cho tỷ lệ p của tổng thể.
n

( X1  X )2  ( X 2  X )2    ( X n  X )2
- Sử dụng phương sai mẫu S 2  làm
n 1
ước lượng điểm cho phương sai  2 của tổng thể.
Thí dụ 3.1: Cho mẫu cụ thể kích thước n=10 được lấy từ tổng thể X như sau : 1,
4, 7, 3, 5, 7, 9, 8, 5, 6. Hãy tìm ước lượng điểm ˆ  ( X , S 2 , pˆ ) cho  (, 2, p) của
tổng thể.
Ta có :
1 4  7  3  5  7  9  8  5  6
X   5.5 là ước lượng điểm cho trung bình tổng
10

thể .
(1  5.5) 2  (4  5.5) 2    (5  5.5) 2  (6  5.5) 2
S 
2
 5.833
9
là ước lượng điểm cho phương sai 2 của tổng thể.
Gọi p là tỷ lệ các phần tử của tổng thể có giá trị lớn hơn hoặc bằng 5. Ta có :
7
pˆ   0.7 là ước lượng điểm của p.
10

115
3.1.2. Ước lượng khoảng
Phương pháp ước lượng khoảng được hiểu là xác đinh khoảng (L, U) chứa
tham số  với xác suất γ= 1- . Nghĩa là:

P( L ≤  ≤ U)= γ= 1- 

Khi đó khoảng (L, U) gọi là khoảng tin cậy (Confidence Interval) viết
tắt CI.
Sai lệch giữa  và ˆ được biểu diễn bởi hệ thức:   ˆ  E (E >0, nhỏ

tùy ý). Khi đó số E gọi là sai số (Error) hay độ chính (Precision) xác của ước
lượng.
Từ P(   ˆ  E )    1   ta có :

 
P ˆ  E    ˆ  E    1  

Khoảng ˆ  E    ˆ  E  là khoảng tin cậy đối xứng. Người ta chứng minh
được rằng khoảng tin cậy đối xứng là khoảng tin cậy ngắn nhất chứa .
Độ dài khoảng tin cậy đối xứng: I= 2E


Xác suất γ= 1-  = P( L ≤  ≤ U) hay   1    P ˆ  E    ˆ  E  gọi là độ

tin cậy (confidence level) của ước lượng.

Khi ước lượng khoảng thì yêu cầu sai số E càng nhỏ và đồng thời độ tin cậy γ=

1-  càng lớn thì ước lượng càng chính xác.


Tuy nhiên E càng nhỏ thì khoảng tin cậy ˆ  E    ˆ  E  càng ngắn. Khi đó
tham số θ cần ước lượng sẽ ít có khả năng để rơi vào khoảng tin cậy
ˆ  E    ˆ  E  . Nghĩa là độ tin cậy ϒ (xác suất tin cậy) càng nhỏ. Vì vậy khi
ước lượng θ bằng khoảng tin cậy thì người ta thường ấn định trước độ tin cậy
  1   ở mức cao (ϒ  90%) và xây dựng công thức ước lượng sao cho sai số

E là nhỏ nhất.

116
3.2. Khoảng tin cậy của giá trị trung bình  trong phân phối chuẩn.
Giả sử tổng thể được xét theo dấu hiệu định lượng X và được đặc trưng bởi

biến ngẫu nhiên gốc X có phân phối chuẩn với trung bình E(X)= μ và phương

sai V(X)=σ2, nhưng chưa biết trung bình μ. Căn cứ vào mẫu ngẫu nhiên kích

thước n , hãy ước lượng μ (xác định khoảng tin cậy đối xứng chứa μ) với độ tin

cậy γ= 1-  cho trước.


3.2.1. Khi đã biết phương sai 2 ( hoặc độ lệch chuẩn ) của tổng thể
Nếu tổng thể có phân phối chuẩn : X~ N (, 2) thì thống kê X cũng có phân
phối chuẩn với trung bình E ( X )   , sai số chuẩn.
X 
Ta có: Z  ~ N (0, 1), chúng ta cần tìm số thực z / 2 thỏa mãn:
/ n
X 
P (  z / 2   z / 2 )  1  
/ n
 
P ( X  z / 2    X  z / 2 )
n n
 
X  z    X  z (3-1)
2 n 2 n


Với độ tin cậy  thì : ( z  )= 1  , với = 1-, tra bảng phân phối chuẩn tắc
2
2

(bảng 2), xác định được z  .


2

117
3.2.2. Khi chưa biết phương sai 2 của tổng thể
Nếu chưa biết phương sai 2 của tổng thể thì ước lượng điểm của  (X ) là
S
ˆ X  , với S là độ lệch chuẩn của mẫu.
n

* Phân phối Student : Nếu (X1, X2, …, Xn) là mẫu ngẫu nhiên được lấy từ tổng
thể có phân phối chuẩn với trung bình  chưa biết và phương sai σ2 chưa biết.
Khi đó biến ngẫu nhiên :
X 
T
S
n

có phân phối Student với (n- 1) bậc tự do.

Hình 3-2
Ta có :
X 
P(t   t )    1
; ( n 1) S/ n ( n 1)
2 2

S S
P( X  t     X  t )   1 
;( n 1) n ( n 1) n
2 2

S S
X  t ;( n 1)
   X  t ;( n 1)
(3-2)
2 n 2 n
trong đó t ; ( n 1)
được xác định từ bảng Student. (Bảng 3)
2

Chú ý
 Phân phối Student (phân phối t) có dạng hình chuông cân đối với hai đuôi dài
hơn đuôi của phân phối chuẩn tắc Z và mức độ tập trung ở trung tâm kém

118
hơn, bởi lẽ khi dùng độ lệch chuẩn của mẫu S thay cho σ. Ngoài ra có cả một
họ phân phối t theo các bậc tự do, trong khi đó chỉ có duy nhất một đường
cong ứng với phân phối Z. Khi cỡ mẫu nhỏ (tức bậc tự do nhỏ) phân phối t
khá khác biệt với phân phối Z.

 Với n dủ lớn (n≥ 30) phân phối Student sẽ xấp xỉ phân phối chuẩn tắc.

X 
Khi đó T  có phân phối xấp xỉ chuẩn tắc Z ~ N (0 ;1).
S
n

Hình 3-3
Do đó ta có :
S S
X  z    X  z (3-3)
2 n 2 n

Thí dụ 3.2: Một trường đại học người quản lý muốn ước lượng tuổi trung binh
của sinh viên của trường hiện nay. Trong một mẫu ngẫu nhiên có 20 sinh viên
với tuổi trung bình tính được là 22.9 năm . Qua nghiên cứu thì tổng thể có phân
phối chuẩn và độ lệch chuẩn là 1,5 năm. Xây dựng khoảng tin cậy 90% của tuổi
trung bình của sinh viên của trường.

Giải: Cần ước lượng tuổi trung bình μ của sinh viên của trường đại học, khi đã

biết độ lệch chuẩn của tổng thể σ= 1,5 (năm). Với độ tin cậy ϒ=90% thì ta có


α=0,10. Từ  ( z / 2 )  1   0,95, tra bảng hàm phân bố chuẩn tắc (bảng 2) ta
2

nhận được z / 2  1,645 . Vậy khoảng tin cậy của μ là:

119
1,5 1,5
22,9  1,645    22,9  1,645
20 20

22.3 ≤ μ ≤ 23.5
22,9
22,3 x 23,5
Thí dụ 3.3 : Tuổi thọ trung bình của 10 bóng đèn điện được chọn ngẫu nhiên là
4000 giờ, độ lệch chuẩn của mẫu là 200 giờ. Giả thiết phân bố tuổi thọ bóng đèn
là phân phối chuẩn. Với độ tin cậy 95% hãy ước lượng khoảng tin cậy của tuổi
thọ trung bình của bóng đèn.
Giải:Với độ tin cậy 95%, từ bảng phân phối Student với bậc tự do bằng 9 ta có:
t ; ( n 1)
 2.262 , do đó khoảng tin cậy sẽ là:
2

S S
X  t ;( n 1)
   X  t ;( n 1)
2 n 2 n
200 200
4000  2.262    4000  2.262
10 10

3857 (giờ) ≤  ≤ 4143 (giờ)


Với độ tin cậy 95%, thì tuổi thọ của loại bóng đèn nêu trên nằm trong khoảng
[3857;4143]
Chú ý: Trong trường hợp khi tổng thể không có phân phối chuẩn mà chưa biết
phương sai và kích thước mẫu khá lớn (n≥30), thì ta có thể sử dụng công thức
(3-3) để ước lương .
Thí dụ 3.4: Một trường đại học A nghiên cứu về vấn đề tự học của sinh viên.
Một mẫu ngẫu nhiên gồm 200 sinh viên được chọn phỏng vấn và người ta tính
được số giờ tự học trung bình một tuần của họ là 18,36 giờ và độ lệch chuẩn của
mẫu là 3,92 giờ.Với độ tin cậy 95% hãy ước lượng số giờ tụ học trung bình/tuần
của sinh viên trường đại học đó.
Giải: Số giờ tự học/tuần của sinh viên trường đại học A lập thành biến ngẫu
nhiên X mà phân phối của X chưa biết và chưa biết trung bình  và phương sai

120
σ2 của X, nhưng kích thước mẫu n =200 >30 nên ta sử dụng công thức (3-3) để
ước lượng .
Với độ tin cậy 95% thì tra bảng phân phối chuẩn tắc ta có z  1.96 . Khi đó
2

khoảng tin cậy của số giờ tự học trung bình/tuần :


S S
X  z    X  z
2 n 2 n
3,92 3,92
18,36  1,96    18,36  1,96
200 200
17,817    18,903

Kết luận: Với độ tin cậy 95%, số giờ tự học trung bình/tuần của sinh viên
trường đại học đó nằm trong khoảng [17,817; 18,903].
3. 3. Khoảng tin cậy của tỷ lệ p với mẫu lớn
Giả sử A là dấu hiệu định tính có liên quan đến biến ngẫu nhiên gốc X trong
tổng thể, mỗi phần tử (cá thể) của tổng thể có thể mang hay không mang dấu
hiệu A. Gọi p là tỷ lệ phần tử có đặc tính A trong tổng thể. Căn cứ trên một mẫu
điều tra có kích thước n, trong đó có m phần tử mang đặc tính A (nghĩa là trong
n lần quan sát độc lập về X có m lần xuất hiện A), hãy ước lượng tỷ lệ p (xác
định khoảng tin cậy đối xứng chứa p) với một độ tin cậy   1   cho trước.
Để tìm khoảng tin cậy của tỷ lệ p của biến ngẫu nhiên gốc X, từ tổng thể ta lập
một mẫu ngẫu nhiên kích thước n : W = (X1, X2, ..., Xn). Khi đó ta lấy thống kê
X
tỷ lệ mẫu Pˆ  mẫu làm ước lượng điểm cho tỷ lệ p. Do đó:
n

P ( Pˆ  p  E )    1  

Pˆ  p
Theo mục 2.3.4.2. thì Z  là biến ngẫu nhiên sẽ có phân bố xấp xỉ
p(1  p)
n

chuẩn tắc N (0,1). Với độ tin cậy   1   thì tra bảng 2A tìm được z / 2 thỏa
mãn:

121
Pˆ  p
P (  z / 2  1
 z / 2 ) ~
p (1  p )
n

p(1 p) p(1 p) ~
P(Pˆ  z / 2  p  Pˆ  z / 2 ) 1
n n
Nếu npˆ  5 và n(1  pˆ )  5 đủ lớn thì ta có thể xấp xỉ p (1 - p) bởi
pˆ (1  pˆ ) mà sai số không đáng kể. Khi đó ta có:

 Pˆ (1  Pˆ ) Pˆ (1  Pˆ ) 
P Pˆ  z / 2  p  Pˆ  z / 2    1
 n n 
 

Với độ tin cậy  =1- α cho trước thì khoảng tin cậy cụ thể của tỷ lệ p là:

pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z  p  pˆ  z (3-4)
2 n 2 n
Ví dụ 3-5: Điều tra 1219 người Mỹ thì có 354 người nói rằng họ thích xem đá
bóng. Với độ tin cậy 95%, hãy ước lượng tỷ lệ người thích xem đá bóng ở Mỹ.
354
Giải: Ta có pˆ   0.29 . Ta có npˆ  1219 0,29  354  5 và
1219

n(1  pˆ )  1219 0,71  835  5 . Với độ tin cậy 95%, từ bảng phân phối chuẩn ta có

z   1,96 . Do đó khoảng tin cậy của p sẽ là:


2

0,0,29(1  0,29) 0,29(1  0,29)


0,29  1,96  p  0,29  1,96
1219 1219
0,285  p  0,315

Kết luận: Với độ tin cậy 95%, thì tỷ lệ người thích xem đá bóng ở Mỹ nằm
trong khoảng từ 28,5% đến 31,5%.
M
Chú ý: Ta đã biết cơ cấu của tổng thể p = , trong đó M là số phần tử của tổng
N
thể mang đặc tính A và N là kích thước của tổng thể. Tuy nhiên có những
trường hợp người ta không yêu cầu trực tiếp ước lượng tỷ lệ p mà yêu cầu ước
lượng M khi biết N (hoặc ước lượng N khi biết M). Khi đó ta lập luận đưa về
ước lượng tỉ lệ p, từ đó suy ra M hoặc N.

122
Thí dụ 3.6: Tại một vùng rừng nguyên sinh, người ta đeo vòng cho 1000 con sếu.
Sau một thời gian bắt lại 300 con thì có 60 con có đeo vòng. Hãy ước lượng số
con sếu trong vùng rừng nguyên sinh với độ tin cậy 95% .
Giải: Gọi N là số con sếu ở vùng đó. Cần ước lượng N với độ tin cậy 95%.
1000
Gọi p là tỷ lệ sếu đeo vòng ở vùng đó. Ta có p  (p chưa biết vì N chưa
N
biết). Vậy ta đưa về bài toán ước lượng tỷ lệ p.
60
Ta có n = 300, x = 60, pˆ   0,2
300
npˆ = 300.0,2 = 60 > 10 ; n(1  pˆ ) = 300 . 0,8 = 240 > 10; z / 2 =1,96

Khi đó, theo công thức (4) khoảng tin cậy cụ thể của tỷ lệ p là :
0,2 . 0,8 0,2 . 0,8
0,2  1,96  p  0,2  1,96
300 300
0,155  p  0,245

1000
0,155   0,245
N
Suy ra
4081  N  6451

3-4. Xác định kích thƣớc mẫu cần thiết trong bài toán ƣớc lƣợng
3.4.1. Xác định kích thước mẫu cần thiết trong bài toán ước lượng trung
bình tổng thể 
Giả thiết tổng thể có phân phối chuẩn với độ lệch chuẩn σ đã biết.

Để ước lượng μ với độ tin cậy = 1-, và sai số E cho trước (   X  E ) thì

kích thước mẫu cần thiết là:

z  
2

n    /2 
 E  (3-5)
Nếu chưa biết phương sai σ2 thì sử dụng độ lệch chuẩn của mẫu S thay thế cho
phương sai, tuy nhiên ta chưa có mẫu nên chưa biết S. Do đó trong trường hợp
này bài toán xác định kích thước mẫu cần thiết là ít đặt ra.

123
3.4.2. Xác định kích thước mẫu cần thiết trong bài toán ước lượng tỷ lệ

Nếu p̂ là ước lượng điểm cho p thì để ước lượng p với độ tin cậy = 1-α và

sai số E cho trước ( p  pˆ  E ) thì:


2
 z 
 
n 2  p (1  p)
 E 
 
1
Theo bất đẳng thức Cô si thì ( p(1  p)  , vậy p(1  p) đạt max khi nó bằng 1/4.
4
Do đó kích thước mẫu cần thiết là:
2
z 
n   /2  (3-6)
 2E 
Trong các cuộc điều tra nhằm ước lượng tỷ lệ, để tránh tốn kém người ta có thể
điều tra thử một mẫu sơ bộ, từ đó xác định được tỷ lệ mẫu p̂ của mẫu sơ bộ.

Khi đó với độ tin cậy = 1-α và sai số E cho trước thì kích thước mẫu cần thiết

là:
2
 z 
 
n 2  pˆ (1  pˆ ) (3-7)
 E 
 

Khi đó n được xác định theo công thức (4-8) sẽ nhỏ hơn rất nhiều so với được
xác định theo công thức (3-7).
Ví dụ 3.7: Người ta muốn ước lượng tỷ lệ mắc bệnh A tại vùng dân cư với độ
tin cậy 95% và sai số không vượt quá 0,02 thì cần phải khám cho bao nhiêu
người?
Giải: Nếu không điều tra trước mẫu sơ bộ, thì độ tin cậy γ= 1-= 0,95,
nên z   1,96 và sai số E= 0,02, theo công thức (3-6) ta có kích thước mẫu tối
2

thiểu là:
2
 1,96 
n   2401(người).
 2  0,02 

124
Nếu trước cuộc điều tra ta điều tra một mẫu sơ bộ cụ thể là khám cho 100 người
thì thấy có 15 người mắc bệnh A, nên tỷ lệ mắc bệnh của mẫu sơ bộ là
15
pˆ   0,15 . Với độ tin cậy γ= 1-= 0,95, nên z   1,96 và sai số E= 0,02, theo
100 2

công thức (3-7) thì kích thước mẫu tối thiểu là:
2
 1,96 
n  0,15(1  0,15)  1225 (người).
 0,02 

125
Bài tập chƣơng 3

Bài 1: Để khảo sát chiều cao trung bình của thanh niên ở một vùng, một mẫu
ngẫu nhiên gồm 16 thanh niên được chọn. Chiều cao của các thanh niên này
được cho như sau:
172 173 173 174 174 175 176 166
166 167 165 173 171 170 171 170
Với độ tin cậy 90% , hãy ước lượng chiều cao trung bình của thanh niên vùng
đó. Giả thiết chiều cao của thanh niên có phân phối chuẩn.
Bài 2: Trong một cuộc khảo sát đến ăn ở một tiệm ăn nhanh về thời gian chờ
phục vụ, người ta thu được kết quả sau:
Thời gian (phút)- xi 1-3 3-5 5-7 7-9 9-11 11-13 13-15

Số khách hàng (mi) 5 10 35 20 20 8 2

Với độ tin cậy 95%, hãy ước lượng thời gian trung bình chờ được phục vụ tại
tiệm ăn nhanh này.
Bài 3: Điều tra ngẫu nhiên thu nhập hàng năm của một số gia đình ở một bản
miền núi, người ta thu được bảng số liệu sau:
Thu nhập -xi
4 4,5 5 5,5 6 6,5 7 7,5 8
( triệu đ/năm)
Số hộ gia đình
3 5 6 6 8 8 7 4 3
(mi)
Giả thiết thu nhập/năm của các gia đình trong bản là biến ngẫu nhiên có phân
phối chuẩn.
a) Với độ tin cậy 95%, hãy ước lượng mức thu nhập trung bình hàng năm của
mỗi gia đình.
b) Với độ tin cậy 90%, hãy ước lượng số gia đình nghèo trong bản . Một gia
đình được coi là nghèo nếu có thu nhập dưới 5,5 triệu đổng/năm. Biết rằng bản
đó có 200 gia đình.

126
Bài 4: Để định mức lượng xăng hao phí cho một loại ô tô từ A đến B người ta
cho loại ô tô này chạy thử 30 lần trên đoạn đường đó và ghi lại lượng xăng hao
phí như sau:
10,2- 10,4-
Lượng xăng hp(lít) 9,6- 9,8 9,8- 10 10- 10,2
10,4 10,6
Số lần (mi) 3 5 10 8 4

Với độ tin cậy 99%, hãy ước lượng lượng xăng hao phí trung bình cho loại ô tô
đó. Giả thiết lượng xăng hao phí là biến ngẫu nhiên có phân phối chuẩn.
Bài 5: Điều tra ngẫu nhiên doanh thu hàng tháng của 100 hộ kinh doanh một
loại mặt hàng, ta có số liệu, người ta thu được bảng số liệu sau:
Doanh số xi
10,1 10,2 10,4 10,5 10,7 10,8 10,9 11,0 11,3 11,4
(tr đ/tháng)
Số hộ
2 3 8 12 25 20 12 10 6 2
(mi)

Với độ tin cậy 95%, hãy ước lượng doanh thu trung bình hàng tháng của các hộ
kinh doanh mặt hàng nói trên. Giả thiết doanh thu hàng tháng của các hộ là biến
ngẫu nhiên có phân phối chuẩn.
Bài 6: Sô liệu về năng suất (ta/ha) của một loại cây trồng quan sát trên 40 điểm
thu hoạch được cho trong bài tập 1- chương 1. Với độ tin cậy 90%, hãy ước
lượng năng suất trung bình của loại cây trồng đó. Giả thiết năng suất của cây
trồng là biến ngẫu nhiên phân phối chuẩn.
Bài 7: Đo chiều cao một số sinh viên nữ của một trường đại học (đơn vị: inch)
ta có số liệu được cho trong bài tập 2- chương 1. Với độ tin cậy 95 %, hãy ước
lượng chiều cao trung bình của sinh viên nữ của trường đại học đó. Giả thiết
chiều cao của sinh viên là biến ngẫu nhiên phân phối chuẩn.
Bài 8: Người ta tiên hành đo chỉ số thông minh của 50 học sinh lứa tuổi 12-15
của trường A có số liệu được cho trong bài tập 6- chương 1. Với độ tin cậy

127
95 %, hãy ước lượng chỉ số IQ trung bình của học sinh trường A. Giả thiết chỉ
số IQ của học sinh là biến ngẫu nhiên phân phối chuẩn.
Bài 9: Để nghiên cứu tuổi thọ (X) của một loại bóng đèn người ta thắp thử 100
bóng và thu được số liệu được cho trong bài tập 5- chương 1. Với độ tin cậy
95 %, hãy ước lượng tuổi thọ trung bình của loại bong đèn đó. Giả thiết tuổi tho
của bóng đèn là biến ngẫu nhiên phân phối chuẩn.
Bài 10: Một cuộc nghiên cứu được tiến hành nhằm xác định lương trung bình
của các luật sư ở Mỹ dựa trên số liệu điều tra.
a) Cần lấy mẫu với kích thước tối thiểu là bao nhiêu để sai số không vượt quá
100 USD với độ tin cậy 95%.
b) Với độ tin cậy 99% thì kích thước mẫu là bao nhiêu?
Biết rằng độ lệch tiêu chuẩn của tổng thể là 1000USD.
Bài 11: Trong đợt bầu cử tổng thống, người ta phỏng vấn ngẫu nhiên 1600 cử
tri thì được biết 960 người trong số đó sẽ bỏ phiếu cho ứng cử viên A. Với độ
tin cậy 95%, ứng cử viên A chiếm khoảng bao nhiêu phần trăm phiếu bầu?
Bài 12: Để điều tra nhu cầu tiêu dùng một loại hàng hóa tạ một vùng dân cư,
người ta khảo sát 100 hộ gia đình thì thấy có 60 gia đình có nhu cầu về loại
hàng hóa nói trên. Với độ tin cậy 90%, hãy ước lượng số hộ gia đình trong vùng
có nhu cầu về loại hàng hóa đó. Biết rằng ở vùng đó có 2000 hộ gia đình.
Bài 13: Để ước lượng trữ lượng cá trong hồ, người ta đánh bắt 2000 con và
đánh dấu chúng lại và thả chúng xuống hồ. Sau một thời gian người ta bắt lại
400 con thì thấy có 80 con bị đánh dấu. Với độ tin cậy 95% thì số cá trong hồ
có khoảng bao nhiêu con?
Bài 14: Để nghiên cứu bệnh đau mắt hột tại một địa phương, người ta đã khám
ngẫu nhiên cho 250 người thì thấy có 50 người mắc bệnh đó.
a) Với độ tin cậy 95%, hãy ước lượng tỷ lệ mắc bệnh đau mắt hột ở địa phương
đó.
b) Cần khám cho bao nhiêu người để có thể nhận định được tỷ lệ mắc

128
bệnh đau mắt hột ở địa phương đó với sai số không quá 1% và với độ tin cậy
99%.
Bài 15: Cần ước lượng tỷ lệ người bị chết ở một độ tuổi với độ tin cậy 99% và
sai số không quá 1/200 thì cần quan sát ít nhất bao nhiêu người ở độ tuổi đó.

129
Chƣơng 4
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
4-1 Giới thiệu chung về kiểm định giả thuyết thống kê
4.1.1. Giả thuyết thống kê (statistical hypothesis)
Giá thuyết thống kê: là giả thuyết (mệnh đề) về phân phối xác suất của một hay
nhiều tổng thể.
Nếu phân bố của được đặc trưng bởi các tham số (trung bình, phương sai, độ
lệch chuẩn…) thì giả thuyết thống kê là giả thuyết về tham số của phân bố đó.
Như vậy giá thuyết thống kê là giả thuyết về tham số của một hay nhiều tổng thể.
a) Giả thuyết kiểm định (Null hypothesis) hay gọi là giả thuyết không ( Ký
hiệu là H0)
Giả thuyết kiểm định là giả thuyết đưa ra để kiểm nghiệm tính đúng sai của nó,
đó là giả thuyết mà ta nghi ngờ và muốn bác bỏ.
b) Giả thuyết đối (Alternative Hypothesis ,) ký hiệu là H1.
Giả thuyết đối là mệnh để trái ngược với giả thuyết H0. Giả thuyết đối H1 sẽ
được thừa nhận khi H0 bị bác bỏ.
Chú ý: Trong kiểm định tham số thì giả thuyết kiểm định H0 bao giờ cũng chứa
“dấu bằng” cụ thể là: “=” hoặc “” hoặc “”. Giả thuyết đối H1 có các dạng:
“ ” gọi là đối thuyết hai phía hoặc có dạng “>” hoặc “<” gọi là đối thuyết một
phía.
Thí dụ 4.1: Giả sử chúng ta quan tâm tới mức sống của người dân Việt Nam
hiện nay. Đưa ra giả thuyết: GDP trung bình/người/năm có bằng 2000 USD hay
không?

H0: = 2000 USD; H1:  2000 USD


Giả thuyết đối hai phía

Giả thuyết không Giả thuyết đối

130
H0: = 2000 USD; H1:  > 2000 USD
H0: = 2000 USD; H1:  < 2000 USD Giả thuyết đối một phía

4.1.2. Kiểm định giả thuyết thống kê


Kiểm định giả thuyết thống kê là một kỹ thuật dựa vào thông tin mẫu cho phép
đưa ra kết luận là bác bỏ hay thừa nhận giả thuyết liên quan đến tổng thể với
một sai số cho trước.
Cơ sở để bác bỏ giả thuyết dựa trên nguyên lý sau:” Nếu một biến cố có xác

suất rất nhỏ (≤ 0,05) thì trong một phép thử hoặc một vài phép thử biến cố đó

sẽ không xảy ra ”
4.1.3. Tiêu chuẩn kiểm định (Test statistic)
Dựa vào mẫu ngẫu nhiên và giả thuyết H0 đưa ra và giả sử giả thuyết H0 đúng,
người ta xác định được một thống kê G (G là biến ngẫu nhiên có quy luật phân

phối xác suất xác định, song chưa biết một tham số θ nào đó của nó). Khi đó,

với số α cho trước (α≤ 0,05), người ta tìm được một miền (tập hợp), ký hiệu là

Wα, W ⊂ R thỏa mãn:

P ( G ∈ W ) = α
Khi đó thống kê G gọi là tiêu chuẩn kiểm định(Test statistic)
4.1.4. Miền bác bỏ giả thuyết, miền thừa nhận giả thuyết
a). Miền bác bỏ (Critical region)

Là tập Wα ⊂ R, thỏa mãn: P(G W )  

b) Miền thừa nhận giả thuyết (Acceptance region): là phần bù của miền

bác bỏ Wα (là tập R\ Wα).

Chú ý: Miền bác bỏ có một trong các dạng sau: Miền bác bỏ hai phía, miền bác
bỏ một phía (miền bác bỏ phía phải, miền bác bỏ phía trái)
Minh họa các dạng miền bác bỏ bởi các hình 4-1, 4-2, 4-3

131
Hình 4-1

Hình 4-2

Hình 4-3

132
c) Giá trị tới hạn (Critical value): là giá trị ranh giới giữa miền bác bỏ và miền
thừa nhận.
4.1.5. Giá trị quan sát của tiêu chuẩn kiểm định
Giá trị quan sát của tiêu chuẩn kiểm định (Observed value of the test statistisc
là giá trị được xác định từ mẫu và từ tiêu chuẩn kiểm định được chọn, ký hiệu là
g0 (g0 là giá trị ước lượng điểm của thống kê G: g0= g(x1, x2,…,xn)).
4.1.6. Quy tắc kiểm định (theo cách truyền thống)
Kết luận bác bỏ giả thuyết H0 hay thừa nhận giả thuyết H0 theo quy tắc sau:

- Nếu giá trị quan sát g0Wα thì ta bác bỏ H0 (reject ), nghĩa là H0 không phù

hợp và do đó thừa nhận giả thuyết đối H1.


- Nếu g0 ∉ Wα thì g0  miền thừa nhận R\ W nên không bác bỏ H0 (Fail to
reject) nghĩa là chưa có cơ sở để bác bỏ H0 hay thừa nhận H0.
4.1.7. Sai lầm (Error)
a) Sai lầm loại I (Type I error): Bác bỏ giả thuyết H0 khi thực ra H0 đúng.
b) Sai lầm loại II (Type II error): Thừa nhận giả thuyết H0 khi thực ra H0 sai.
Ví dụ 4.2: Ta quan tâm tới chất lượng xử án. Oan sai và chạy án đều là sai lầm.

Ký hiệu α là mức xác suất mắc sai lầm loại I; Ký hiệu β là mức xác suất

mắc sai lầm loại II.

α= P(sai lầm loại I)= P (bác bỏ H0 , khi H0 đúng)

β= P(Sai lầm loại II)= P(Thừa nhận H0, khi H0 sai)

133
Thực tế
H0 đúng H0 sai
Kết luận

Chấp nhận H0 Kết luận đúng Sai lầm loại II

Bác bỏ H0, thừa nhận H1 Sai lầm loại I Kết luận đúng

Bảng 4-1
Sai lầm loại I và sai lầm loại II có mối liên hệ với nhau: Nếu β ↓ thì α ↑ và α
↓ thì β ↑ , với điều kiện là size mẫu n được ấn định trước.
Để kiểm định chính xác thì yêu cầu α nhỏ và đồng thời β nhỏ. Trong các bài
toán kiểm định theo cách truyền thống thì người ta thường ấn định trước xác

suất mắc sai lầm loại I là α ở mức nhỏ (α ≤ 0,05) để kiểm soát nó (vì người ta

thường có xu hướng coi sai lầm loại I chịu nhiều tổn thất hơn sai lầm loại II) và

xây dựng tiêu chuẩn kiểm định sao cho xác suất mắc sai lầm loại II β nhỏ nhất.

4.1.8. Các bước kiểm định (theo cách truyền thống)


Bước 1: Thành lập giả thuyết kiểm định (giả thuyết H0) và gỉả thuyết đối (H1).
Bước 2: Thiết lập tiêu chuẩn kiểm định G (Thống kê G- là biến ngẫu nhiên có
quy luật phân phối xác suất xác định). Qua mẫu ta tính giá trị quan sát g0 dựa
trên thống kê G đã thiết lập.
Bước 3: Với mức ý nghĩa  cho trước (mức xác suất mắc sai lầm loại 1), xác
định miền tiêu chuẩn (miền bác bỏ giả thuyết )- Ký hiệu là Wα (thực chất là xác
định các giá trị tới hạn bằng cách tra bảng tương ứng với phân
phối xác suất của thống kê G).
Bước 4: Đưa ra quyết định: bác bỏ giả thuyết H0 hay thừa nhận nó dựa trên quy
tắc sau:

134
 Nếu giá trị quan sát g0 thuộc miền bác bỏ Wα thì bác bỏ giả thuyết H0 và
thừa nhận H1.
 Nếu giá trị quan sát g0 không thuộc miền bác bỏ Wα thì chưa có cơ sở để bác
bỏ giả thuyết H0 ( thừa nhận H0), bác bỏ H1.
4-2. Kiểm định giả thuyết dùng một mẫu
4.2.1. Kiểm định giả thuyết về giá trị trung bình trong phân phối chuẩn.
Giả sử xét một tổng thể có phân phối chuẩn N (, 2), trong đó trung bình 
chưa biết, từ mẫu kích thước n: w= (x1, x2, … , xn) thu được từ n quan sát độc
lập (X1, X2, …, Xn), ta cần kiểm định về giá trị của trung bình  với mức ý nghĩa
 cho trước.
a) Trường hợp đã biết phương sai 2 của tổng thể
 Cần kiểm định giả thuyết H0: =0, với đối thuyết hai phía:

H1:  0, hoặc đối thuyết một phía H1: :  >0 hay H1:  <0

X  0
 Test thống kê Z  , Z có phân phối chuẩn tắc N (0;1). Qua mẫu tính

n

x  0
giá trị quan sát z0 
 n

 Với mức ý nghĩa  ta tra bảng hàm phân bố chuẩn tắc (bảng 1) tìm z ( nếu
2

đối thuyết hai phía) hoặc z (nếu đối thuyết một phía). Khi đó miền bác bỏ
giả thuyết là:

W  (; z )  ( z ;) nếu đối thuyết hai phía  0.


2 2

W  ( z ;) , nếu đối thuyết một phía H1:  >0

W  (; z ), nếu đối thuyết một phía H1:  <0.

135

Chú ý: Xác định z và z như sau:  ( z )  1  ; hoặc (z )= 1- 
2 2 2

 Kết luận: Nếu giá trị quan sát z0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu z0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1. Minh họa
miền bác bỏ trong trường hợp này bởi hình (4-4)

Hình 4-4

b) Trường hợp chưa biết phương sai 2 của tổng thể

X  0
 Test thống kê T  , T có phân phối Student với (n-1) bậc tự do. Qua
S
n
x  0
mẫu tính giá trị quan sát t0 
s n

 Với mức ý nghĩa  ta tra bảng hàm phân bố Student (bảng 3) tìm t ; ( n 1)
2

nếu đối thuyết hai phía) hoặc t ;( n 1) (nếu đối thuyết một phía).

W  (;t ; ( n 1)
)  (t ; ( n 1)
;) , nếu đối thuyết hai phía  ≠ 0.
2 2

W  (t ;( n 1) ;) , nếu đối thuyết một phía H1:  >0

W  (;t ;( n 1) ), nếu đối thuyết một phía H1:  <0.

Với mức ý nghĩa α cho trước, tra bảng Student để xác định t ;( n 1)
và t ;( n 1) .
2

136
 Kết luận: Nếu giá trị quan sát t0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu t0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1.

Minh họa miền bác bỏ trong trường hợp này bởi hình 5-5 sau:

Hình 4-5
Chú ý:
- Khi

kích thước mẫu đủ lớn ( n≥ 30) thì phân phối Student sẽ xấp xỉ phân phối chuẩn

tắc. Vì vậy khi kểm định giá trị trung bình tổng thể μ khi chưa biết phương sai

X  0
σ2 của tổng thể mà n≥ 30, thì ta sử dụng Test thống kê T   Z , Z có
S n

phân phối xấp xỉ chuẩn tắc N(0; 1).

- Nếu tổng thể có phân phối bất kỳ (không chuẩn) mà chưa biết phương

sai σ2 của tổng thể mà n≥ 30 thì ta vẫn có thể sử dụng Test thống kê xấp

X  0
xỉ Z  (Z có phân phối chuẩn tắc N(0; 1)) để kiểm định μ.
S n

Ví dụ 4.3: Một báo cáo của một sở điện lực khẳng định rằng trung bình một hộ
hàng tháng phải trả 125 nghìn. Người ta muốn đánh giá xem khẳng định trên có
đúng không nên đã điều tra 400 hộ gia đình và tính được trung bình mỗi hộ

137
hàng tháng phải trả 124 nghìn đồng tiền điện. Với mức ý nghĩa 5%, báo cáo của
sở điện lực có đúng không ? Giả thiết số tiền điện mà các hộ phải trả hàng tháng
là biến ngẫu nhiên X có phân phối chuẩn với độ lệch chuẩn σ= 5 nghìn đồng.
Giải: Ở đây đã biết σ = 5.

 Giả thuyếtt H0 : μ = 125 nghìn (μ 0= 125 nghìn) ; Giả thuyết đối H1: μ ≠

125 nghìn.

X  0
 Test thống kê Z  , Z có phân phối chuẩn tắc N (0;1).

n

Từ mẫu cụ thể ta có: n = 400 ; x = 124 ta tính giá trị quan sát
x  0 124  125
z0    4
 n 5 / 400

 Với α = 0,05 , ta xác định z  bằng cách tra bảng hàm phân bố chuẩn tắc
2

(bảng 2), ta được z  = 1,96. Ta có:


2

W = (-∞, -1,96) ∪ (1,96 ; +∞)

 Ta thấy z0= - 4 < -1,96 nên z0 ∈W, , do đó ta bác bỏ giả thiết H0, thừa

nhận H1. Như vậy báo cáo của sở không đúng.

Ví dụ 4.4: Một loại bóng đèn điện tử được nhà sản xuất tuyên bố có tuổi thọ
trung bình thấp nhất bằng 65 giờ. Kết quả kiểm tra từ một mẫu ngẫu nhiên 21
bóng đèn cho thấy tuổi thọ trung bình của mẫu bằng 62,5 giờ và độ lệch chuẩn
của mẫu bằng 3 giờ.Với mức ý nghĩa 1% có thể kết luận gì về tuyên bố của nhà
sản xuất? Giả thiết tuổi thọ của loại bóng đèn đó là biến ngẫu nhiên có phân
phối chuẩn.

138
Giải: Ta cần kiểm định giả thuyết: H0: μ ≥ 65 với giả thuyết đối H1: μ< 65. Ta

X  0
chọn Test thống kê T  , T có phân phối Student với (n-1) bậc tự do. Ta
S
n
x  0 62,5  65
tính được giá trị quan sát t0    3,82 .
s 3,0
n 21

Với α=0,01 ta tra bảng Student (bảng 2) tìm được t ;n1  t0,01;20  2,53

Khi đó miền bác bỏ giả thuyết W  (;  2,53) .

Ta thấy t0 = - 3,82 < - 2,53, nên t0 ∈ Wα . Do đó bác bỏ H0, thừa nhận H1, nghĩa

là μ< 65. Vậy tuyên bố của nhà sản xuất là sai.

Ví dụ 4.5: Theo báo cáo của một phường A thì thu nhập trung bình /năm của các
hộ gia đình ở phường đó là 60 triệu đồng. Điều tra ngẫu nhiên 50 gia đình ở
phường đó thu được thu nhập trung bình của mỗi hộ là 58 triệu đồng và độ lệch

chuẩn là 5,5 triệu. Với mức ý nghĩa α = 0,05, có thể cho rằng báo cáo đó là

đúng hay không?

Giải: Cần kiểm định giả thuyết H0: μ = 60 triệu đồng (μ 0= 60 triệu đồng) và giả

thuyết đối H1: μ ≠ 60 triệu đồng.

X  0
Test thống kê xấp xỉ Z  , Z có phân phối xấp xỉ chuẩn tắc
S n

x  0 58  60
Từ mẫu tính giá trị quan sát z0    2,57
S n 5,5 / 50

139
Với mức ý nghĩa α = 0,05 ta tìm z  bằng cách tra bảng hàm phân bố chuẩn tắc
2

(bảng 2A), ta được z  = 1,96. Wα = ( -∞; -1,96) ∪ (1,96 ; +∞ )


2

Ta thấy z0= -2,57< - 1,96 nên z0 ∈ Wα . Do đó bác bỏ H0, thừa nhận H1, nghĩa

là μ ≠ 60 triệu đồng. Vậy báo cáo của phường là sai.


4.2.2. Kiểm định giả thuyết về tỷ lệ p

Giả sử nghiên cứu một tổng thể theo dấu hiệu định tính A. Gọi p là tỷ lệ các
phần tử của tổng thể có dấu hiệu A (p chưa biết). Ta cần kiểm định giá trị của
p qua một mẫu kích thước n trong đó có m phần tử có dấu hiệu A với mức ý

nghĩa α cho trước.

 Cần kiểm định giả thuyết H0: p = p0, với giả thuyết đối hai phía:

H1: p ≠ p0 hoặc giả thuyết đối một phía H1: : p > p0 hay H1: p < p0.

Pˆ  p0
 Test thống kê Z  , có phân phối chuẩn tắc N(0; 1).
p0 (1  p0 )
n

pˆ  p0
- Từ mẫu ta xác định giá trị quan sát z 0 
p0 (1  p0 )
n

 Với mức ý nghĩa  ta tra bảng hàm phân bố chuẩn tắc tìm z (nếu giả
2

thuyết đối hai phía) hoặc z (nếu giả thuyết đối một phía). Khi đó miền bác
bỏ giả thuyết là:

W  (; z )  ( z ;) nếu giả thuyết đối hai phía p≠ p0


2 2

W  ( z ;) , nếu giả thuyết đối một phía H1: : p > p0

140
W  (; z ), nếu giả thuyết đối một phía H1: p < p0.


Xác định z và z như sau:  ( z )  1  ; hoặc (z)= 1-
2 2 2

 Kết luận: Nếu giá trị quan sát z0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu z0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1.

Ví dụ 4.6: Trước khi có NĐ36/CP tỷ lệ tai nạn giao thông do xe máy gây ra là
35%. Sau khi có NĐ36/CP, người ta khảo sát ở một thành phố có 580 trường
hợp tai nạn giao thông, trong đó có 172 trường hợp do xe máy gây ra. Với mức
ý nghĩa 5% có thể khẳng định sau khi có NĐ36/CP tai nạn giao thông do xe
máy gây nên có giảm đi hay không?

Giải: Cần kiểm định giả thuyết H0: p= 0,35 (p0= 0,35); Giả thuyết đối: H1: p <
0,35.

Pˆ  p0
Test thống kê Z  , có phân phối chuẩn tắc N(0; 1).
p0 (1  p0 )
n

172
Từ mẫu ta có : p0   0,296 . Từ đó xác định giá trị quan sát:
580

Pˆ  p0 0,296  0,35
z0    2,73
p0 (1  p0 ) 0,35  0,65
n 580

Với mức ý nghĩa = 0,05 ta tra bảng hàm phân bố chuẩn tắc (bảng 1) tìm được

z  1,65 , khi đó W  (;1,65) Ta có z0  2,73  1,65 nên z0 ∈ W . Do

đó bác bỏ H0, thừa nhận H1, nghĩa là p< 0,35. Vậy sau khi có NĐ36/CP thì tai
nạn giao thông do xe máy gây nên có giảm xuống.

141
4.2.3. Cách tiếp cận p-value trong kiểm định giả thuyết

Kỹ thuật kiểm định mà được trình bày trong các mục trên gọi là kiểm định theo
cách tiếp cận cổ điển (truyền thống). Trong những năm gần đây với sự phát
triển của các phần mềm thống kê, một phương pháp khác được các nhà thống kê
sử dụng khá rộng rãi là cách tiếp cận p- value

trong quy tắc quyết định bác bỏ giả thuyết H0.


P- value là mức xác suất nhỏ nhất mà giả thuyết H0 có thể bị bác bỏ. Nghĩa là
p-value là xác suất phạm sai lầm loại 1 tối đa khi bác bỏ giả thuyết H0 với tập
dữ liệu mẫu quan sát. P-value được gọi là mức ý nghĩa quan sát.
Ví dụ 4.8: Trở lại ví dụ 4.6, khi có NĐ36/CP tai nạn giao thông do xe máy gây
nên có giảm đi hay không?
Ta có H0: p= 0,35 (p0= 0,35); H1: p < 0,35. Trong ví dụ trên, giá trị quan sát
được tính là z 0  2,73 . Như vậy có thể bác bỏ giả thuyết H0 ở bất kỳ mức ý
nghĩa  nào tương ứng với giá trị tới hạn -z lớn hơn -2,73.
Từ bảng phân phối chuẩn tắc ta thấy ứng với z0=-2,73 thì
P( Z  2,73)   (2,73)  0,0032 (0,032%). Đó chính là giá trị p- value của kiểm

định. Do vậy giả thuyết H0 sẽ bị bác bỏ ở bất kỳ mức ý nghĩa  nào lớn hơn hay
bằng 0,0032. Do đó bác bỏ H0, thừa nhận H1, nghĩa là p < 0,35.
Minh họa bởi hình 4-6 và hình 4-7 như sau:
p- value   
0,0032 0,005 0,05 0,1
0,5
-2,73 -2,58 -1,65 -1,28
z0 -z -z
Hình 4-6

142
=0,05

p- value= 0,0032

0
Bác bỏ H0 Không bác bỏ H0
-2,73 -1,64
Hình 4-7
Như vậy, khi giá trị quan sát tính được càng ở về phía xa của đuôi phân phối thì
giá trị p- value càng nhỏ, và do vậy càng cho thấy giả thuyết H0 là sai nên bác
bỏ H0. Ngược lại, khi giá trị quan sát tính được càng ở gần trung tâm của phân
phối thì giá trị p- value càng lớn, ta càng có ít khả năng bác bỏ H0, và do vậy ta
chấp nhận H0.
Quy tắc quyết định bác bỏ giả thuyết H0 theo cách tiếp cận p- value là:

 Nếu p- value ≤ α thì bác bỏ giả thuyết H0..

 Nếu p- value > α thì không bác bỏ giả thuyết H0 ( thừa nhận H0).

Chẳng hạn, ta cần kiểm định về giá trị trung bình tổng thể trong phân phối
chuẩn khi đã biết phương sai σ2 thì p- value được xác định như sau:

2[1- Ф(l z0 l )] với đối thuyết hai phía H1:  0,

p- value = 1- Ф (z0) với đối thuyết một phía H1: :  >0

Ф (z0) với đối thuyết một phía H1:  <0.

143
Chú ý: Với các kiểm định cụ thể thì các phần mềm thống kê đã tính toán giá trị
quan sát và cả giá trị p- value. Khi đó ta chỉ cần so sánh p- value với  để
quyết định có bác bỏ H0 hay không.

Cách kiểm định theo P- value


 Bước 1: Thành lập giả thuyết kiểm đinh (giả thuyết H0) và gỉả thuyết đối (H1).

 Bước 2: Thiết lập tiêu chuẩn kiểm định G (Test thống kê G ) ( thực chất G là
biến ngẫu nhiên có quy luật phân phối xác suất xác định). Qua mẫu ta tính
giá trị quan sát g0 dựa trên test thống kê G đã thiết lập.

 Bước 3: Xác định p- value từ giá trị quan sát g0.

 Bước 4: Quyết định bác bỏ giả thuyết H0 theo quy tắc:

- Nếu p- value  α thì bác bỏ giả thuyết H0, thừa nhận H1.

- Nếu p- value > α thì không bác bỏ giả thuyết H0 (thừa nhận H0), bác bỏ H1.

Ví dụ 4.9: Trở lại ví dụ 4.3, hãy kiểm định p-value.

Giả thiết H0 : μ = 125 (μ 0= 125 nghìn) ; Giả thuyết đối H1: μ ≠ 125 (nghìn).
X  0
Test thống kê Z  , Z có phân phối chuẩn tắc N (0;1).

n

Từ mẫu cụ thể ta có: n = 400 ; x = 124 ta tính giá trị quan sát z0 = - 4

p- value= 2[1- (lz0l)]= 2[1- (l-4l)]= 2[1- (4)]=0,000; (do (4)≈1)


p- value= 0,00 <0,05= α nên bác bỏ H0, thừa nhận H1. Nghĩa là
H1: μ ≠ 125 nghìn. Vậy báo cáo của sở không đúng.

4-3. Kiểm định dùng hai mẫu


4.3.1. Kiểm định sự bằng nhau của hai giá trị trung bình
a) Trường hợp hai mẫu độc lập
Xét hai tổng thể theo cùng một dấu hiệu định lượng. Ký hiệu X, Y lần

144
lượt là các biến ngẫu nhiên gốc đặc trưng cho mỗi tổng thể theo dấu hiệu
định lượng đó. Giả sử X và Y độc lập đều có phân phối chuẩn:

(X~ N (μ1, σ12); Y ~ N (μ2, σ22)). Từ hai mẫu được rút ra từ mỗi tổng thể: w1=

(x1, x2,…, xn1); w2= (y1, y2,…, yn2), hãy kiểm định sự bằng nhau của hai giá trị

trung bình (kỳ vọng) μ1, μ2 với mức ý nghĩa α cho trước.

i) Trường hợp đã biết hai phương sai σ12 và σ22 của hai tổng thể

 Cần kiểm định giả thuyết H0: μ1= μ2; với giả thuyết đối hai phía

H1: μ1≠ μ2 hoặc giả thuyết đối một phía μ1> μ2 hoặc μ1< μ2.
X Y
 Chọn Test thống kê Z  , Z có phân phối chuẩn tắc.
 12  22

n1 n2
xy
Tính giá trị quan sát: z0 
 12  22

n1 n2

 Với mức ý nghĩa  ta tra bảng hàm phân bố chuẩn tắc tìm z ( nếu giả
2

thuyết đối hai phía) hoặc z (nếu giả thuyết đối một phía).

Khi đó miền bác bỏ giả thuyết là:

W  (; z )  ( z ;) nếu đối thuyết hai phía μ1≠ μ2


2 2

W  ( z ;) , nếu đối thuyết một phía H1: μ1> μ2

W  (; z ), nếu đối thuyết một phía H1: . μ1< μ2

 Kết luận: Nếu giá trị quan sát z0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu z0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1.

145
ii) Trường hợp chưa biết hai phương sai σ12 và σ22 của hai tổng thể.
Giả thiết hai phương sai σ12 và σ22 chưa biết nhưng bằng nhau.
(1) Trường hợp kích thước của hai mẫu nhỏ (n1<30; n2<30)
X Y
T
 Khi đó chọn Test thống kê  1 1 , T có phân phối Student với (n1+
S 2   
n2- 2) bậc tự do.  n1 n2 
xy
Qua hai mẫu tính giá trị quan sát : t0  ,
1 1
trong đó s2 là phương sai gộp: s 2   
 n1 n2 
(n1  1) s12  (n2  1) s22
s 
2

( n1  n2  2)

 Với mức ý nghĩa  ta tra bảng Student (bảng 3) tìm t ; ( n1  n 2  2 )


2

(nếu đối thuyết hai phía) hoặc t ; ( n1  n 2  2 ) (nếu đối thuyết một phía). Khi đó
miền bác bỏ giả thuyết là:

W  (;t  ; ( n1  n2  2 )
)  (t  ; ( n1  n2  2 )
;) , nếu đối thuyết hai phía 1 ≠ 2
2 2

W  (t ;( n1n2 2) ;   ) , nếu đối thuyết một phía H1: :  >0

W   ( ;  t ;(n1 n2 2) ), nếu đối thuyết một phía H1:  <0.

 Kết luận: Nếu giá trị quan sát t0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu t0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1.

ii) Trường hợp kích thước hai mẫu lớn ((n1 ≥ 30; n2≥ 30)

Ta vẫn có thể dùng công thức và quy tắc kiểm định như khi đã biết phương sai
 12 ,  22 của hai tổng thể với các phương sai mẫu S12 , S 22 thay cho 2 phương sai

 12 ,  22 , kể cả khi phân phối của cả hai tổng thể không có tính chuẩn. Khi đó, ta
X Y
có Test thống kê: Z 
S12 S 22

n1 n2

146
b) Trường hợp hai mẫu phụ thuộc dưới dạng mẫu cặp

Cho biến ngẫu nhiên hai chiều (X, Y) . Giả sử X và Y không độc lập

và có phân phối chuẩn (X~ N (μ1, σ12); Y ~ N (μ2, σ22)). Từ n quan sát đồng thời

về X và Y, ta có 2 mẫu có cùng kích thước n: (x1, x2, …, xn) và (y1, y2, …, yn)
dưới dạng mẫu cặp: (x1, y1),(x2,y2),..,(xn, yn), hãy kiểm định sự bằng nhau của hai

giá trị trung bình μ1 và μ2 với mức ý nghĩa  cho trước. (thường gặp kích thước

mẫu n< 30 mà cả hai phương sai σ12, σ22 chưa biết).

Để giải quyết bài toán này ta đưa về xét biến ngẫu nhiên Z= X-Y, ta có: μz = μ1-

μ2 và zi= xi- yi (i=1, 2, …,n). Khi đó cho ta một mẫu gồm n quan sát về biến

ngẫu nhiên Z. Khi đó đưa bài toán này về bài toán kiểm định giá trị của giá trị
trung bình một mẫu của Z khi chưa biết phương sai  Z2 ). Do vậy thủ tục kiểm
định được tiến hành như kiểm định một mẫu.

H0:  Z  0 hay 1   2  0 (1= 2), với giả thuyết đối H1:  Z  0 hay
1   2  0 ( 1 2); hoặc H1:  Z  0 hay 1   2  0 (1> 2), hoặc  Z  0 hay

1   2  0 (1< 2).

Z 0 X Y
 Test thống kê T   , T có phân phối Student với (n-1) bậc tự
SZ / n SZ / n

do. Từ mẫu cặp đã cho ta tính:

1 n 1 n
1 n 2 1 n
zxy 
n i 1
zi 
n
 (x
i 1
i  yi ) ; s Z2  
n i 1
z i  ( z ) 2   ( xi  yi ) 2  ( z ) 2 Sau
n i 1

z 0 xy
đó ta tính giá trị quan sát t 0  
sZ / n sZ / n

Với mức ý nghĩa  ta tra bảng hàm phân bố Student tìm t ; ( n 1)
(nếu giả
2

147
thuyết đối hai phía) hoặc t ;( n 1) (nếu giả thuyết đối một phía). Khi đó miền bác
bỏ giả thuyết là:

W  (;t ; ( n 1)
)  (t ; ( n 1)
;) , nếu đối thuyết hai phía 1 ≠ 2.
2 2

W  (t ;( n 1) ;) , nếu đối thuyết một phía H1: : 1 >2

W  (;t ;( n 1) ), nếu đối thuyết một phía H1: 1 <2.

 Bác bỏ H0 hay thừa nhận H0 theo quy tắc đã cho.

Ví dụ 4.10: Để so sánh chiều cao trung bình của thanh niên nam ở hai vùng dân
cư A và B, người ta chọn ngẫu nhiên 10 thanh niên vùng A và 12 thanh niên
vùng B. Số đo chiều cao của hai nhóm thanh niên này được cho như sau: (đơn
vị cm)

Vùng A: 165, 167, 174, 172, 165, 167, 168, 172, 170, 173.

Vùng B: 172, 170, 167, 169, 171, 167, 173, 165, 163, 174, 175, 173.

Với mức ý nghĩa 1% hãy đánh giá xem chiều cao trung bình của thanh niên nam
hai vùng dân cư A và B có khác nhau không? Giả thiết chiều cao của thanh niên
nam hai vùng A và B là các biến ngẫu nhiên có phân phối chuẩn với 2 phương
sai bằng nhau.

Giải: Chiều cao của thanh niên nam ở hai vùng dân cư A và B lần lượt là các
biến ngẫu nhiên có phân phối chuẩn: X~ N (1, σ12) và Y~ N (2, σ22). Ở đây
hai tổng thể X và Y độc lập. Ta cần kiểm định giả thuyết: H0: 1= 2 (hay 1-
2= 0) và H1: 1 2 (hay 1- 2 0).
X Y
Khi đó chọn Test thống kê T , T có phân phối Student với
1 1
S   
2

 n1 n2 
(n1+ n2- 2) bậc tự do.

148
Qua hai mẫu độc lâp đã cho tính được:
n1  10 ; x  1,69,3 ; s12  (3,335) 2 ; n2  10 ; y  169,917 ; s 22  (3,777) 2 .

Từ đó tính phương sai gộp:

(n1  1) s12  (n2  1) s 22 9  (3,335) 2  11 (3,777) 2


s 
2
  12,851
(n1  n2  2) 20

xy 169,3  169,917


Tính giá trị quan sát :t 0    0,4.
1 1 1 1
s 2    12,851   
 n1 n2   10 12 

Với mức ý nghĩa =0,01 ta tra bảng Student (bảng 3) tìm


t ;( n1  n2 2 )
 t0,005; 20  2,845 . Khi đó miền bác bỏ giả thuyết là
2

W= ( ;2,845)  (2,845;) . Ta có giá trị quan sát t0= -0,4 W, nên ta thừa
nhận H0, bác bỏ H1. Nghĩa là chiều cao trung bình của thanh niên nam 2 vùng A
và B không khác nhau.

Ví dụ 4.11: Người ta chọn ngẫu nhiên 7 sinh viên của một trường đại học và
điều tra điểm trung bình của họ ở năm thứ nhất và năm thứ hai, kết quả được
cho như sau:

Sinh viên 1 2 3 4 5 6 7

Điểm năm I (xi) 7,5 7,78 9,15 9,61 6,15 4,84 8,61

Điểm năm II (yi) 7,25 7,62 9,34 9,45 6,55 4,58 8,7

Với mức ý nghĩa 5%, hãy nhận định xem có sự khác nhau về điểm trung bình
năm thứ I và năm thứ II của sinh viên ở trường đại học đó không? Giả thiết
điểm năm I và năm II của sinh viên là các biến ngẫu nhiên có phân phối chuẩn.

149
Giải: Điểm của sinh viên năm I và năm II lần lượt là các biến ngẫu nhiên có
phân phối chuẩn với X~ N (1, σ12) và Y~ N (2, σ22). Ở đây hai tổng thể X và
Y không độc lập (phụ thuộc). ta cần kiểm định giả thuyết:

 H0: 1= 2 (1- 2= 0 hay Z =0) với H1: 1 2 (1- 2 0 hayZ  0).

X Y
 Chọn Test thống kê: T  , T có phân phối Student với (n-1) bậc tự do.
SZ / n

Từ 2 mẫu phụ thuộc được cho dưới dạng mẫu cặp (xi, yi) với i= 1, 2, … , n ta
tính:

1 n 1 n 1
z 
n i 1
z i  
n i 1
( xi  y i )  .0,15  0,02143;
7
1 n 2 1
MS Z  
n i 1
z i  ( z ) 2  .0,388  (0,02143) 2  0,055
7
n 7
s 22  MS  .0,055  0,06 ; s Z  s Z2  0,055  0,25
n 1 6

z 0,02143
Từ đó ta tính giá trị quan sát t 0    0,224.
sZ / n 0,25 / 7

 Với =0,05, tra bảng Student tìm t / 2 ;( n1)  t 0,025;6  2,447. Khi đó miền bác bỏ

giả thuyết W= ( ;  2,447)  (2,447;  ) .


 Ta thấy giá trị quan sát t0= 0,224  W (t0 R\ W), vậy không bác bỏ H0
(thừa nhận H0), nghĩa là điểm trung bình năm I và năm II của sinh viên là như
nhau (không có sự khác nhau)
4.3.2. Kiểm định sự bằng nhau của hai tỷ lệ
Bài toán: Xét hai tổng thể về một đặc tính A (dấu hiệu định tính A) mà mỗi
phần tử của cả hai tổng thể có hoặc không có đặc tính A. Gọi p1 và p2 là các tỷ
lệ các phần tử có đặc tính A tương ứng trong tổng thể thứ nhất và thứ hai. Từ
mỗi tổng thể lấy một mẫu có kích thước tương ứng là n1, n2 trong đó có x1, x2

150
lần lượt là số phần tử mang đặc tính A của mỗi mẫu. Cần kiểm định sự bằng

nhau của hai tỷ lệ p1, p2 với mức ý nghĩa α cho trước.

 Kiểm định giả thuyết H0: p1= p2; với giả thuyết đối H1: p1 ≠ p2 hoặc p1> p2

hoặc p1 < p2 .
Pˆ1  Pˆ2
Z
 Chọn Test thống kê : 1 1 , Z có phân phối chuẩn tắc
Pˆ (1  Pˆ )  
 n1 n2 

Qua hai mẫu tính:


x1 x x x
pˆ 1  ; pˆ 2  2 ; pˆ  1 2
n1 n2 n1  n2

pˆ 1  pˆ 2
Tính giá trị quan sát : z0 
1 1
pˆ (1  pˆ )  
 n1 n2 

 Với mức ý nghĩa  ta tra bảng hàm phân bố chuẩn tắc tìm z ( nếu đối
2

thuyết hai phía) hoặc z (nếu đối thuyết một phía). Khi đó miền bác bỏ giả
thuyết là:

W  (; z )  ( z ;) nếu đối thuyết hai phía p1 ≠ p2


2 2

W  ( z ;) , nếu đối thuyết một phía H1: : p1 >p2

W  (; z ), nếu đối thuyết một phía H1: p1 < p2.


Chú ý: Xác định z và z như sau:  ( z )  1  ; hoặc (z)= 1-
2 2 2

 Kết luận: Nếu giá trị quan sát z0  miền bác bỏ W thì bác bỏ H0, thừa nhận
H1; Nếu z0  W thì không bác bỏ H0 ( thừa nhận H0), bác bỏ H1.
Thí du 4.12: Có hai loại thuốc A và B cùng điều trị một bệnh nào đó. Qua theo
dõi trong số 160 người dùng thuốc A có 120 khỏi bệnh, còn trong số 56 người

151
dùng thuốc B có 40 người khỏi bệnh. Hỏi tác dụng của hai loại thuốc trên trong
việc chữa bệnh có như nhau hay không? Yêu cầu kết luận với mức ý nghĩa 5%.
Giải: Gọi p1 là tỷ lệ người khỏi bệnh khi dùng thuốc A; p2 là tỷ lệ người
khỏi bệnh khi dùng thuốc B.

 Cần kiểm định giả thuyết: H0: p1= p2; giả thuyết đối H1: p1 ≠ p2

 Chọn Test thống kê : Z  Pˆ1  Pˆ2


1 1
Pˆ (1  Pˆ )  
 n1 n2 
Z có phân phối chuẩn tắc.
x1 120 x 40
Qua hai mẫu tính: pˆ 1    0,75 ; pˆ 2  2   0,714
n1 160 n2 56
x1  x2 120  40
pˆ    0,7407
n1  n2 160  56
pˆ 1  pˆ 2 0,75  0,714
Tính giá trị quan sát : z0    0,529
1 1  1 1
pˆ (1  pˆ )   0,74  (1  0,74)    
 n1 n2   160 56 

 Với mức ý nghĩa =0,05, ta tra bảng hàm phân bố chuẩn tắc tìm z =1,96.
2

Khi đó Wα = ( -∞; -1,96) ∪ (1,96 ; +∞ )

 Ta thấy z0= - 0,529 > - 1,96 nên z0  Wα . Do đó thừa nhận H0, bác bỏ H1,
nghĩa là p1 = p2. Vậy tác dụng của hai loại thuốc A và B trong việc chữa
bệnh đó là như nhau.
4.3.3. Kiểm định sự bằng nhau của hai phương sai
Xét hai tổng thể , ký hiệu X, Y lần lượt là các biến ngẫu nhiên gốc đặc trưng
cho mỗi tổng thể theo dấu hiệu định lượng nào đó. Giả sử X và Y có phân phối

chuẩn (X~ N (μ1, σ12); Y ~ N (μ2, σ22)). Từ mỗi tổng thể lấy một mẫu: w1= (x1,

x2,…, xn1); w2= (y1, y2,…, yn2). Hãy kiểm định sự bằng nhau của hai giá trị

phương sai σ12, σ2 2 với mức ý nghĩa α cho trước ( ta xét trường hợp cả hai giá

trị trung bình μ1 và μ2 đều chưa biết).

152
 Cần kiểm định giả thuyết H0: σ12= σ22 với H1: σ12≠ σ22 hoặc

σ12> σ22 hoặc σ12< σ22.


S12
 Chọn Test thống kê F  2 ,
S2
S 1
2

 S22 , F có phân phối Fisher với bậc tự

do (n1 -1; n2-1) bậc tự do.


s12
 Từ hai mẫu tính giá trị quan sát f 0  Với  đã cho, tra bảng Fisher tìm
s 22

F / 2 (n1  1; n2  1) và F1 / 2 (n1  1; n2  1) (nếu giả thuyết đối hai phía) hoặc

tìm F (n1  1; n2  1) và F1 (n1  1; n2  1) (nếu giả thuyết đối một phía).

W  0; F1 / 2 (n1  1; n2  1)  ( F / 2 (n1  1; n2  1);) nếu H1: σ1 2 ≠ σ22

W  ( F (n1  1; n2  1);) nếu H1: σ12> σ22

 Nếu f 0  W thì bác bỏ H0. Nếu f 0  W thì không bác bỏ H0 (thừa nhận
H0).
1
Ta có: F1 (n1  1; n 2  1) 
F (n1  1; n 2  1)

, S 22  S12  . Khi đó cần tìm


S 22
Nếu σ12< σ22 (hay σ22> σ12) thì đặt F  2
S 1

F (n 2  1; n1  1) .

4.4. Phân tích phƣơng sai một nhân tố (*)


Phân tích phương sai (Analysis of Variance- ANOVA) được sử dụng như một
công cụ để xem xét ảnh hưởng của các yếu tố nguyên nhân (biến định tính) đến
một yếu tố kết quả (biến định lượng). Chẳng hạn kết quả (điểm thi) môn ngoại
ngữ của sinh viên bị ảnh hưởng bởi yếu tố như sĩ số của lớp (đông hay ít), thời
gian tự học của sinh viên (ít, bình thường, nhiều)… Yếu tố nguyên nhân được
dùng để phân loại các quan sát thành các nhóm (tổng thể) khác nhau. Mục tiêu
của phân tích phương sai là kiểm định sự bằng nhau của các giá trị trung bình
của các nhóm/ tổng thể này dựa trên các mẫu quan sát được rút ra từ các

153
nhóm/tổng thể nêu trên. Nếu yếu tố nguyên nhân thực sự không có ảnh hưởng
đến yếu tố kết quả thì các trung bình của các tổng thể sẽ bằng nhau hoặc ngược
lại.
Trong giáo trình này chỉ đề cập đến mô hình phân tích phương sai một yếu tố
(One- way ANOVA). Mô hình được sử dụng trong trường hợp phân tích ảnh
hưởng chỉ của một yếu tố nguyên nhân đến một yếu tố kết quả. Ví dụ như xem
xét ảnh hưởng của yếu tố thời gian tự học đến kết quả học tập của sinh viên
(điểm trung bình học tập). Thời gian tự học được chia thành 3 cấp độ: ít (dưới 9
giờ/tuần); bình thường (9 đến 18 giờ/tuần); nhiều (trên 18 giờ/tuần). Tương ứng
với 3 cấp độ của thời gian tự học thì các sinh viên được chia thành 3 nhóm (hay
3 tổng thể) với thời gian tự học/tuần khác nhau. Từ ba mẫu ngẫu nhiên đại diện
cho các nhóm/ tổng thể, ta cần kiểm định xem điểm trung bình học tập của 3
nhóm/tổng thể sinh viên với thời gian tự học khác nhau có thực sự khác nhau
hay bằng nhau không. Từ đó kết luận liệu có hay không ảnh hưởng của yếu tố
thời gian tự học đến kết quả học tập của sinh viên.
Tổng quát, giả sử có k tổng thể X1, X1, …, Xk với giả thiết các tổng thể này độc
lập và đều có phân phối chuẩn với các phương sai bằng nhau. Ký hiệu trung
bình của các tổng thể lần lượt là 1, 2, … k. Từ k mẫu ngẫu nhiên độc lập với
kích thước lần lượt là n1, n2, …, nk được rút ra từ k tổng thể độc lập nêu trên, ta
cần kiểm định:
Giả thuyết H0: 1 = 2 = …= k với giả thuyết đối H1: Tồn tại ít nhất một cặp
trung bình tổng thể khác nhau (i  j, i  j).
Nếu bác bỏ H0 thì kết luận yếu tố nguyên nhân có ảnh hưởng đến yếu tố kết
quả hoặc ngược lại.
Bảng số liệu gồm k mẫu được lấy từ k tổng thể được cho dưới dạng sau:

154
k mẫu được lấy từ k tổng thể
1 2 …. k
x11 x21 … xk1
x12 x22 … xk2
… … … …
x1,n1 x2,n2 … xk,nk

- Từ mẫu k mẫu, ta tính trung bình của từng mẫu x1 , x2 ,..., xk theo công thức:
ni
1
xi 
ni
x
j 1
ij , i  1, 2 ,..., k

- Tính trung bình chung của k mẫu (trung bình chung của toàn mẫu khảo sát):
ni k

 x
j 1 i 1
ij

x k

n
i 1
i

- Tổng bình phương các chênh lệch trong nội bộ nhóm (Sum of square
withthin group), ký hiệu là SSW được xác định như sau:
SSW= SSW1+ SSW2+…+SSWk,
Trong đó SSWi tổng bình phương các chênh lệch giữa các giá trị quan sát của
mẫu i với trung bình xi của mẫu i (i=1, 2, …, k):
n1 n2 nk
SSW1   ( x1 j  x1 ) , SSW2   ( x2 j  x2 ) , …, SSWk   ( xk j  xk ) 2 ,
2 2

j 1 j 1 j 1

k ni
hay SSW   ( xi j  xi ) 2
i 1 j 1

Như vậy SSW phản ánh phần biến thiên của yếu tố kết quả do các ảnh hưởng
của các yếu tố khác, không phải do yếu tố nguyên nhân.
- Tổng bình phương chênh lệch giữa các nhóm (Sum of square between group),
ký hiệu là SSG được xác định như sau:
SSG  SSG1  SSG2  ...  SSGk ,

155
Trong đó SSGi tổng bình phương các chênh lệch giữa các giá trị trung
bình của mẫu i với trung bình chung x của k mẫu (của tất cả các quan sát).
n1 n2 nk
SSG1   n1 ( x1  x ) 2 , SSG2   n2 ( x2  x ) 2 , … , SSGk   nk ( xk  x ) 2 ,
i 1 i 1 i 1

k
hay SSG   ni ( xi  x ) 2
i 1

Như vậy SSG thể hiện biến thiên của yếu tố kết quả do sự khác nhau của các
nhóm, tức là biến thiên do yếu tố nguyên nhân (yếu tố dùng để phân chia nhóm).
- Tổng bình phương các chênh lệch giữa từng quan sát với trung bình chung của
tất cả các quan sát (Tolal sum of square), ký hiệu là SST được xác định như sau:
k n j

SST   ( xi j  x ) 2
i 1 j 1

Ta thấy rằng:
SST= SSW+SSG
Như vậy SST là tổng cộng của biến thiên được giải thích bởi yếu tố nguyên
nhân (SSG) và biến thiên do các yếu tố khác mà ta không đề cập đến trong mô
hình (SSW). Do đó nếu giả thuyết H0 là đúng (tức là trung bình của k
nhóm/tổng thể bằng nhau), thì SSW và SSG có thể dùng làm căn cứ để ước
lượng cho phương sai chung của k nhóm/tổng thể.
- Tính trung bình của tổng bình phương chênh lệch trong nội bộ nhóm, ký hiệu
là MSW:
SSW
MSW 
nk
- Tính trung bình của tổng bình phương chênh lệch giữa các nhóm, ký hiệu là
MSG:
SSG
MSW 
k 1
Như vậy, nếu giả thuyết H0 là đúng, ta có MSW và MSG là hai giá trị ước
lượng cho phương sai chung của k tổng thể. Do đó nếu H0 là đúng, nghĩa là

156
MSG
trung bình của k tổng thể bằng nhau thì tỷ số gần tới giá trị 1. Ngược lại,
MSW
khi các giá trị của k tổng thể không bằng nhau thì MSG >MSW nên tỷ số
MSG
1
MSW
MSG
- Người ta chứng minh được rằng biến ngẫu nhiên: F  ,
MSW
có phân phối Fisher với (k-1; n-k) bậc tự do. Từ k mẫu đã cho tính giá trị quan
MSG
sát f 0 
MSW

- Với mức ý nghĩa , tra bảng Fisher tìm giá trị F(k-1; n-k). Khi đó:
W= (F(k-1; n-k); +)
- Kết luận bác bỏ H0 hay thừa nhận H0 tùy theo giá trị quan sát f0 có thuộc miền
bác bỏ hay không.
Tóm tắt kết quả phân tích phương sai trong bảng ANOVA sau:
Biến thiên Tồng bình Bậc Trung bình của tổng Giá trị kiểm
phương các tự do bình phương các định F
chênh lệch chênh lệch
Giữa các SSG k-1 MSG 
SSG
F
MSG
k 1 MSW
nhóm
Trong nội bộ SSW n-k MSG 
SSW
nk
nhóm
Tổng cộng SST n-1

Kỹ thuật phân tích phương sai yêu cầu một khối lượng tính toán lớn và khá
phức tạp. Do vậy, hiện nay các phần mềm thống kê thông dụng như Excel, hoặc
chuyên dụng như SPSS cho ra các kết quả tính toán một cách nhanh chóng và
chính xác.
Ví dụ 4.13: Một nhà tâm lý học muốn nghiên cứu ảnh hưởng của quê quán đối
với thời gian cần thiết (tính bằng phút) để một sinh viên có thể trả lời một câu

157
đố. Có 4 nhóm sinh viên từ 4 vùng khác nhau (nội thành, ngoại thành, thị trấn,
nông thôn) được khảo sát với kết quả thu được như sau:
Nội thành: 16,5; 5,2; 12,1; 14,3.
Ngoại thành: 10,9; 5,2; 10,8; 8,9; 16,1.
Thị trấn: 18,6; 8,1; 6,4.
Nông thôn: 14,2; 24,5; 14,8; 24,9; 5,1.
Với mức ý nghĩa 5%, hãy kiểm định xem nhân tố quê quán có ảnh hưởng đến
thời gian trả lời câu đố của sinh viên không? Giả thiết rằng thời gian trả lời câu
đố của các nhóm sinh viên là các biến ngẫu nhiên có phân phối chuẩn với
phương sai bằng nhau.
Giải: Gọi X1, X2, X3, X4 lần lượt là thời gian trả lời câu đố của sinh viên nội
thành, ngoại thành, thị trấn và nông thôn.
Theo giả thiết X1, X2, X3, X4 là các biến ngẫu nhiên có phân phối chuẩn (X1
N(1,σ12);
X2 N(2,σ22); X3 N(3,σ32); X4 N(4,σ42)) với các phương sai bằng nhau
(σ12= σ22= σ32 =σ42).
Ta cần kiểm định giả thuyết: H0: 1= 2= 3 =4 (nghĩa là yếu tố quê quán
không ảnh hưởng đến thời gian trả lời câu đố của sinh viên) và đối thuyết H1:
Có ít nhất một cặp i  j với i  j (nghĩa là yếu tố quê quán có ảnh hưởng đến
thời gian trả lời câu đố của sinh viên).
Từ 4 mẫu đã cho ta tính được: x1  12,025 ; x2  10,38 ; x3  11,033 x4  16,7 và
x  12,7412 . Kết quả được tóm tắt trong bảng ANOVA sau:

Tổng bình Bậc Trung bình của tổng Giá trị kiểm
Biến thiên phương các tự do bình phương các định F
chênh lệch chênh lệch
Giữa các SSG 3 MSG  39,013 f 0  1,027
nhóm 117,039
Trong nội bộ SSW 13 MSW  37,984
nhóm 493,802
SST 16
Tổng cộng
610,841

158
Khi đó giá trị quan sát f0= 1,026.
Với mức ý nghĩa = 0,05, tra bảng Fisher ta tìm được F0,05(3;13)= 3,41. Khi đó
W= (3,41; +). Ta thấy giá trị quan sát f0= 1,026 < 3,41 nên f0 W. Vậy
thừa nhận H0, bác bỏ H1, nghĩa là thời gian trung bình trả lời các câu đố của các
nhóm sinh viên là như nhau. Do đó yếu tố quê quán không ảnh hưởng đến thời
gian trả lời câu đố của sinh viên.
Chú ý: Các tiêu chuẩn (Test thống kê) dùng để kiểm định sự bằng nhau của các
giá trị trung bình được trình bày ở trên gọi là kiểm định có tham số (Parametric
test). Các tiêu chuẩn đó phải dựa trên giả thiết quan trọng là các biến ngẫu nhiên
(hay tổng thể) được xét phải có tính chuẩn hoặc kích thước mẫu khá lớn, hơn
nữa còn đòi hỏi nếu các phương sai chưa biết phải bằng nhau.

Để kiểm tra giả định phân phối chuẩn có thể vẽ biểu đồ hình hộp để đánh giá
hoặc dùng tiêu chuẩn “Chi bình phương” do Poisson đưa ra. Hiện nay trong các
phần mềm thống kê (chẳng hạn như phần mềm SPSS) người ta còn dùng tiêu
chuẩn phù hợp Kolmogorov hoặc tiêu chuẩn Lilliefors để kiểm định tính chuẩn
của các tổng thể.

Để kiểm tra giả định sự bằng nhau của các phương sai ta dùng tiêu chuẩn F
trong mục 5.3.3
Nếu giả định về phân phối chuẩn không được thỏa mãn thì ta sẽ dùng kiểm định
phi tham số (tiêu chuẩn Mann-Whitney hoặc Wilconxon) thay thế cho cho kiểm
định tham số. Ngoài ra kiểm định phi tham số cũng dùng trong các trường hợp
dữ liệu có dạng định tính (gồm dữ liệu định danh hoặc dữ liệu thứ bậc).
Nói chung, các kiểm định phi tham số đòi hỏi ít điều kiện chặt chẽ hơn và
chúng cũng dùng ít thông tin từ dữ liệu mẫu hơn so với kiểm định tham số. Điều
đó làm cho kiểm định phi tham số không mạnh bằng các kiểm định tham số
(hay kém “ưu thế” hơn so với kiểm định tham số) do nó bỏ qua một số thông
tin có giá trị. Thành thử nếu điều kiện cho phép dùng kiểm định tham số được

159
thỏa mãn thì ta nên dùng kiểm định có tham số. Sau đây chúng ta sẽ xét một số
tiêu chuẩn kiểm định phi tham số thông dụng.
4.5. Kiểm định phi tham số- Tiêu chuẩn “Chi bình phƣơng”
4.5.1. Kiểm định tính độc lập của hai dấu hiệu định tính- Tiêu chuẩn “Chi
bình phương”
Giả sử cần nghiên cứu hai dấu hiệu định tính A và B trên cùng một tổng thể.
Dấu hiệu định tính A có r dấu hiệu thành phần: A1, A2, …, Ar và dấu hiệu định
tính B có s dấu hiệu thành phần: B1, B2, …, Bs. Qua 1 mẫu kích thước n dưới
dạng mẫu liên hợp các dấu hiệu ( bảng tiếp liên), hãy kiểm định tính độc lập của
hai dấu hiệu định tính A và B với mức ý nghĩa  cho trước. Ta có bảng bảng
tiếp liên như sau:

B
B1 B2 Bj ... Bs Tổng
A
A1 m11 m12 … m1j ... m1s n
m1 .   m1 j
j 1

A2 m21 m22 … m2j .... m2s n


m2 .   m2 j
j 1

... ... ... … … ... ...

Ai mi1 mi2 … mij ... mis n


mi .   mi j
j 1

... ... ... … … ... ...


Ar mr1 mr2 … mrj ... mrs n
mr .   mr j
j 1

Tổn r r r r r s

g
m. 1   mi `1 m. 2   mi `2 m. j   m i j m. s   mi s  m
i 1 j 1
ij 1
i 1 i 1 i 1 i 1

Trong đó mij là số phần tử của mẫu đồng thời mang dấu hiệu A ở dấu hiệu
thành phần Ai và mang dấu hiệu B ở dấu hiệu thành phần Bj. (mij gọi tần số thực
nghiệm).

160
 Cần kiểm định giả thuyết H0: dấu hiệu A và B độc lập (A và B không có mối
liên hệ) và giả thuyết đối H1: dấu hiệu A và B không độc lập ( A và B phụ
thuộc hay A và B có mối liên hệ với nhau).

r s (m i j  n pˆ i j ) 2
 Chọn Test thống kê “Chi bình”: 2= 
i 1 j 1 n pˆ i j
, 2 có phân phối “Chi

bình phương” với (r-1)(s-1). Trong đó

mi . m. j mi . . m. j
pˆ ij   ; npˆ ij   mˆ ij m̂ i j gọi là tần số kỳ vọng (expected frequency).
n n n

r s (mi j  mˆ i j ) 2  r s
m2i j 
 Tính giá trị quan sát    2
hay  02  n    1

mˆ i j
0
i 1 j 1 
i 1 j 1 mi. m.j 

 Xác định miền bác bỏ giả thuyết W với  đã cho: tra bảng “Chi bình phương
(2) , ta tìm được điểm tới hạn 2 (r  1)(s  1) . Khi đó miền bác bỏ W=

( 2 (r  1)(s  1) ; +).

 Kết luận bác bỏ H0 hay thừa nhận H0 theo quy tắc đã nêu.

Ví dụ: 4.14: Nghiên cứu sự ảnh hưởng của hoàn cảnh gia đình (HCGĐ) đến
tình trạng phạm tội (TTPT) của trẻ em ở tuổi vị thành niên qua điều tra 148 em
nhỏ, thu được số liệu sau: (Số liệu giả định)

HCGĐ Bố hoặc Bố mẹ ly Còn cả bố


mẹ đã chết hôn mẹ Tổng
TTPT

Không phạm tội 20 25 18 m1.= 63

Phạm tội 29 43 13 m1.= 85

Tổng m.1= 49 m.2= 68 m.3= 31 n= 148

Với độ tin cậy  = 0,05 có thể kết luận xem hoàn cảnh gia đình có mối liên hệ
với tình trạng phạm tội của trẻ vị thành niên hay không?

161
Giải: Cần kiểm định H0: Hoàn cảnh gia đình độc lập với tình trạng phạm tội
của trẻ em ở tuổi vị thành niên; Giả thuyết đối H1: Hoàn cảnh gia đình không
độc lập với tình trạng phạm tội của trẻ em ở tuổi vị thành niên hay có mối liên
hệ giữa hoàn cảnh gia đình với tình trạng phạm tội của vị thành niên. Tính giá
trị quan sát :

 20 2 252 182 29 2 432 132 


 02  148        1  4,043
 63  49 63  68 63  31 85  49 85  68 85  31 

Với mức ý nghĩa 5%, tra bảng “Chi bình phương” ta có:
 2 (r  1)(s  1)   02,05 (2)  5,99 . Vậy miền bác bỏ W= (5,99; +).

Ta thấy giá trị quan sát  02  4,043  5,99 do đó  02  W, nên không bác bỏ H0,
(thừa nhận H0). Vậy hoàn cảnh gia đình độc lập với tình trạng phạm tội của trẻ
vị thành niên.

4.5.2 Kiểm định sự bằng nhau của nhiều tỷ lệ

Giả sử có k tổng thể mà mỗi phần tử của các tổng thể này có dấu hiệu định tính
A hoặc không có dấu hiệu A (có dấu hiệu A ). Gọi p1, p2, …, pk lần lượt là tỷ lệ
các phần tử có dấu hiệu A của tổng thể 1, 2, …, k. Từ k mẫu kích thước dưới
dạng mẫu tiếp liên hãy kiểm định sự bằng nhau của các tỷ lệ p1, p2, …, pk với
mức ý nghĩa  cho trước.

Bảng mẫu tiếp lien


Tổng thể
1 2 ... k Tổng
Dấu hiệu
k
m11 m12 ... m1s
A m1. =  m 1 j
j 1
k
m21 m22 ... m2s
A m2. =  m 2 j
j 1
2 k
m.1= m .2= ... m.s=
2 2 2
n =  mi j
Tổng
m
i 1
i1 m
i 1
i2 m
i 1
is
i 1 j 1

162
Cần kiểm định giả thuyết H0: p1 = p2 = … = p k với giả thuyết đối H1: Có ít
nhất hai tỷ lệ nêu trên khác nhau ( pi  pj , i j).

Nếu 2 dấu hiệu A và A độc lập với k tổng thể, nghĩa là k các tỷ lệ đó bằng nhau,
còn nếu 2 dấu hiệu A và A phụ thuộc vào các tổng thể thì các tỷ lệ đang xét sẽ
thay đổi theo các tổng thể. Vì vậy tiêu chuẩn kiểm định của bài toán này như
tiêu chuẩn của kiểm định tính độc lập. Khi đó Test thống kê
2 k (m i j  n pˆ i j ) 2
  
2
có phân phối “Chi bình phương” với (k-1) bậc tự do.
i 1 j 1 n pˆ i j

Ví dụ 4.15: Kiểm tra chất lượng sản phẩm do 3 nhà máy sản xuất, người ta thu
được số liệu sau:

Nhà máy
Nhà máy 1 Nhà máy 2 Nhà máy 3
Chất lượng

Đạt 125 91 84

Chưa đạt 17 16 17

Với mức ý nghĩa α= 0,05 kết luận xem chất lượng sản phẩm của nhà máy có
như nhau hay không?

Giải: Gọi p1, p2, p3 lần lượt là tỷ lệ sản phẩm đạt yêu cầu của các nhà máy 1, 2
và 3. Cần kiểm định giả thuyết H0: p1= p2= p3 với giả thuyết đối H1: Có ít nhất 2
 r s m2i j 
tỷ lệ khác nhau. Tương tự như ví dụ 5.16, ta có:   n   2
0  1  1,194 .

 i 1 j 1 mi . .m. j 

Với = 0,05 tra bảng “Chi bình phương” ta tìm được  2 (k  1)   02,05 (2)  5,99.

Vậy miền bác bỏ W= (5,99; +). Ta thấy giá trị quan sát  02  W, nên thừa
nhận H0, bác bỏ H1. Nghĩa là tỷ lệ sản phẩm đạt tiêu chuẩn của 3 nhà máy đều
bằng nhau hay chất lượng sản phẩm của ba nhà máy không có sự khác nhau.

163
5.5.3 So sánh nhiều phân phối

Giả sử nghiên cứu k tổng thể theo dấu hiệu định tính A, dấu hiệu A gồm có r
dấu hiệu thành phần A1, A2, …, Ar. Cần xét xem các tỷ lệ pi(j) tương ứng với
mỗi dấu hiệu thành phần trong các tổng thể có bằng nhau hay không? (i=1, 2, …,
r; j= 1,2,…, k). Qua mẫu phân loại các kết quả quan sát vào r nhóm (ứng với r
dấu hiệu thành phần, nghĩa là ta có bảng mẫu tiếp liên như sau:

Tổng thể
1 2 … j … k
Dấu hiệu A

A1 m11 m12 … m1j … m1k

A2 m21 m22 … m2j … m2k

… … … … … … …

Ai mi1 mi2 … mij … mik

… … … … … … …

Ar mr1 mr2 … mrj … mrk

Tổng n1 n2 … nj … n

Khi đó ta có tương ứng một bảng gồm (r.k) xác suất p i( j ) của các tổng thể như
sau:

164
Tổng thể
1 2 j ... k
Các dấu hiệu
A1 p1(1) p1(2) … p1(j) ... p1(k)
A2 p2(1) p2(2) … p2(j) .... p2(k)
... ... ... … … ... ...
Ai pi(1) pi(2) … pi(j) ... Pi(k)
... ... ... … … ... ...
Ar pr(1) pr(2) … pr(j) ... pr(k)
Tổng 1 1 1 1 1 1

Hãy xét xem các tỷ lệ về cùng dấu hiệu Ai trên các tổng thể có bằng nhau hay
không? (i= 1,2, …, r).
Như vậy cần kiểm định giả thuyết H0: p1(1) = p1(2) = … = p1(k)

p2(1) = p2(2)= … = p2(k)

……………………
pr(1) = pr(2) = …. = pr(k)

với giả thuyết đối H1: Có ít nhất hai tỷ lệ pi(j) khác nhau.
Để rút ra kết luận ta làm tương tự như kiểm định tính độc lập.
Ví dụ 5.16: Một hãng sản xuất ô tô tiến hành một cuộc nghiên cứu nhằm xác
định xem có sự khác nhau giữa phụ nữ và nam giới trong việc chọn mua 3 loại ô
tô của hãng hay không, người ta khảo sát trên một số đối tượng phụ nữ và nam
giới và thu được kết quả sau:
Loại ô tô
A B C
Giới tính
Phụ nữ 70 80 150
Nam giới 40 60 100

165
Với mức ý nghĩa = 0,05, ta cần đưa ra kết luận gì?
Giải: Gọi p11 là tỷ lệ phụ nữ chọn mua ô tô loại A; p21 là tỷ lệ nam giới chọn
mua loại ô tô loại A; Gọi p12 là tỷ lệ phụ nữ chọn mua ô tô loại B; p22 là tỷ lệ
nam giới chọn mua loại ô tô loại B; Gọi p13 là tỷ lệ phụ nữ chọn mua ô tô loại C;
p32 là tỷ lệ nam giới chọn mua loại ô tô loại C.
Cần kiểm định giả thuyết H0: p11 = p21
p12 = p22
p13 = p23
với giả thuyết đối H1: Có ít nhất cặp tỷ lệ trên khác nhau.
 r s
m2i j 
Ta có:  02  n    1  1, 082 . Với = 0,05 tra bảng “Chi bình phương”

 i 1 j 1 mi . . m. j

ta tìm được 2 (k  1)   02,05 (2)  5,99. Vậy miền bác bỏ W= (5,99; +). Ta thấy

giá trị quan sát  02  W, nên thừa nhận H0, bác bỏ H1, nghĩa là không có sự
khác nhau giữa phụ nữ và nam giới trong việc chọn mua 3 loại ô tô của hãng.
Chú ý:
1. Tiêu chuẩn “Chi bình phương” được sử dụng với nguyên tắc là trong bảng
chéo (mẫu tiếp liên) không được có ô nào có tần số kỳ vọng nhỏ hơn 1 và không
được quá 20% số ô có tần số kỳ vọng nhỏ hơn 5. Đối với các bảng có số hàng
và số cột tương đối nhỏ thì không được có ô nào có tần số kỳ vọng nhỏ hơn 5.
Nếu các nguyên tắc này bị vi phạm thì kết luận kiểm định có thể bị sai lệch.
2. Khi bảng mẫu tiếp liên vi phạm nguyên tắc trên thì ta cần phải tìm cách làm
cho tần số các ô trong bảng trở nên lớn hơn. Cụ thể là: Có thể gộp một số ô
(nhóm) với nhau (gộp các nhóm có ý nghĩa tương đồng) hoặc loại bỏ nhóm có
chứa các ô có tần số kỳ vọng nhỏ hơn 5. Khi đó kết luận đưa ra chỉ giới hạn cho
các nhóm còn lại mà thôi.

166
Bài tập chƣơng 4

Bài 1 : Một nhµ nghiªn cøu nh©n chñng häc muèn t×m hiÓu xem chiÒu cao trung
b×nh cña thanh niªn cã thay ®æi kh«ng so víi møc 1,70 m c¸ch ®©y 10 n¨m. Mét
mÉu gåm 121 thanh niªn ®-îc chän vµ tõ mÉu ®ã tÝnh ®-îc chiÒu cao trung b×nh
lµ 1,72 m víi ®é lÖch chuÈn cña mÉu cã ®iÒu chØnh lµ 0,02 m. Víi møc ý nghÜa
 = 0,05 cã thÓ kÕt luËn g× vÒ sù thay ®æi chiÒu cao trung b×nh cña thanh niªn ?
Gi¶ thiÕt chiÒu cao cña thanh niªn lµ biÕn ngÉu nhiªn cã ph©n phèi chuÈn.( ®¬n
vÞ ®o lµ pound (1 pound= 0,454 kg)

Bài 2: C«ng ty xe buýt b¸o c¸o r»ng cø trung b×nh 5 phót l¹i cã mét chuyÕn xe.
Chän ngÉu nhiªn 8 thêi ®iÓm vµ ghi l¹i thêi gian gi÷a hai chuyÕn xe buýt ta thu
®-îc sè liÖu sau :
5,3; 4,5; 4,8; 5,1; 4,3; 4,8; 4,9; 4,7
Víi møc ý nghÜa 5% nhËn ®Þnh xem c«ng ty xe buýt b¸o c¸o cã ®óng kh«ng?
Gi¶ thiÕt thêi gian gi÷a c¸c chuyÕn xe buýt lµ biÕn ngÉu nhiªn cã ph©n phèi
chuÈn.
Bài 3: Mét tØnh A b¸o c¸o r»ng tû lÖ häc sinh giái cña tØnh m×nh Ýt nhÊt lµ 20%.
Thanh tra Bé tiÕn hµnh x¸c minh b¸o c¸o nµy. Hä chän ngÉu nhiªn 400 häc sinh
cña tØnh A, thÊy trong ®ã cã 60 em häc giái. Víi ®é tin cËy 1% Bé cã c¬ së ®Ó
b¸c bá b¸o c¸o cña tØnh A hay kh«ng?
Bài 4: Héi sinh viªn cña mét tr-êng ®¹i hoc A cho biÕt cã 60% sinh viªn n¨m
thø 3 cña tr-êng cã b»ng B tiÕng Anh. §iÒu ra ngÉu nhiªn 200 sinh viªn n¨m thø
ba cña tr-êng ®ã cho thÊy cã 95 sinh viªn cã b»ng B tiÕng Anh. Víi møc ý
nghÜa α= 0,05 th× th«ng b¸o cña Héi sinh viªn cã ®óng kh«ng?
Bài 5: Mét trung t©m cai nghiÖn ma tóy c«ng bè r»ng nhiÒu nhÊt lµ 22% ng-êi
nghiÖn ma tóy m¾c nghiÖn trë l¹i trong vßng 2 n¨m. Theo dâi 70 ng-êi ®· cai
nghiÖn ë trung t©m nµy trë vÒ cho thấy cã 20 ng-êi m¾c nghiÖn trë l¹i. Víi møc
ý nghÜa 1%, h·y kÕt luËn xem c«ng bè cña trung t©m cai nghiÖn ®ã cã ®óng
kh«ng?

167
Bài 6: Nghiªn cøu träng l-îng trÎ s¬ sinh cña hai nhãm mÑ nghiÖn thuèc l¸ vµ
kh«ng hót thuèc l¸ ta thu ®-îc sè liÖu sau:
* Träng l-îng trÎ s¬ sinh cña nhãm mÑ kh«ng hót thuèc:

3,99 3,79 3,60 3,73 3,21 3,60 4,08 3,61


3,83 3,31 4,13 3,26 3,54 3,51 2,71
* Träng l-îng trÎ s¬ sinh cña nhãm mÑ nghiÖn thuèc:
3,18 2,84 2,90 3,27 3,85 3,52 3,23 2,76
3,60 3,75 3,59 3,63 2,38 2,34
Gi¶ thiÕt r»ng träng l-îng trÎ s¬ sinh lµ biÕn ngÉu nhiªn cã ph©n phèi chuÈn.
Víi møc ý nghÜa α= 0,05, h·y cho kÕt luËn vÒ ¶nh h-ëng viÖc hót thuèc cña mÑ
®Õn träng l-îng trÎ s¬ sinh?
Bài 7: C«ng ty n-íc gi¶i kh¸t Coca-Cola ®ang nghiªn cøu viÖc ®-a vµo mét
c«ng thøc míi ®Ó c¶i tiÕn s¶n phÈm cña m×nh. Víi c«ng thøc cò, khi cho 500
ng-êi dïng thö th× cã 120 ng-êi tá ra -a thÝch nã. Víi c«ng thøc míi khi cho
1000 ng-êi kh¸ch dïng thö th× thÊy cã 300 ng-êi tá ra -a thÝch nã. H·y kiÓm
®Þnh xem liÖu c«ng thøc míi ®-a ra cã lµm t¨ng tû lÖ nh÷ng ng-êi -a thÝch
Coca-Cola hay kh«ng ? Sö dông møc ý nghÜa 2%.
Bài 8: HiÖn t-îng häc sinh bá häc lµ vÊn ®Ò ®ang ®-îc ®Æc biÖt quan t©m, nhÊt
lµ ë n«ng th«n. T¹i hai tØnh A vµ B ®iÒu tra hai mÉu trong n¨m häc 1999 – 2000
cã c¸c sè liÖu sau:
TØnh Sè häc sinh Sè häc sinh bá häc
A 1900 175
B 2600 325

Víi møc ý nghÜa α= 0,05, cã thÓ kÕt luËn r»ng t×nh tr¹ng bá häc cña häc sinh ë
tØnh B lµ nghiªm träng h¬n tØnh A hay kh«ng?
Bài 9: T¹p chÝ Washigton Post tiÕn hµnh mét cuéc th¨m dß d- luËn sau c¸i chÕt
cña ng«I sao bãng ræ. Cã 727 ng-êi trong sè 1656 ng-êi ®-îc hái r»ng viÖc c¸c
vËn ®éng viªn sö dông thuèc kÝch thÝch bÊt hîp ph¸p lµ mét vÊn ®Ò næi cém

168
trong thÓ thao. Mét cuéc th¨m dß mét n¨m tr-íc ®ã cã 391 ng-êi trong sè 1432
ng-êi ®-îc hái lµ cã ý kiÕn nh- vËy. Víi møc ý nghÜa 1%, h·y nhËn ®Þnh xem
ph¶i ch¨ng ®· cã sù thay ®æi cã ý nghÜa trong quan ®iÓm cña c«ng chóng vÒ vÊn
®Ò sö dông thuèc kÝch thÝch trong thÓ thao.
Bài 10: Gäi X lµ chØ sè th«ng minh (IQ) cña häc sinh løa tuæi 12 - 15. Gi¶ sö X
cã ph©n phèi chuÈn. §o IQ ë 50 häc sinh tr-êng A cã c¸c sè liÖu sau:
ChØ sè th«ng
75 - 78 78 – 81 81 - 84 84 - 87 87 - 90 90 - 93
minh (X)
Sè häc sinh (mi) 3 8 9 12 10 8
a) Tõ kÕt qu¶ trªn cã thÓ nãi chØ sè IQ trung b×nh cña häc sinh ë løa tuæi 12 - 15
ë tr-êng A lµ trªn 84 kh«ng? Yªu cÇu kÕt luËn víi  = 5%.
b) Víi ®é tin cËy 95% h·y -íc l-îng chØ sè IQ trung b×nh cña häc sinh ë løa
tuæi 12 - 25 ë tr-êng A.
Bµi 11: Mét c«ng ty dù ®Þnh më mét siªu thÞ ë mét khu d©n c-. §Ó ®¸nh gi¸ kh¶
n¨ng mua hµng cña d©n c- trong khu vùc ng-êi ta tiÕn hµnh ®iÒu tra vÒ thu nhËp
cña 100 hé chän ngÉu nhiªn trong khu vùc vµ thu ®-îc b¶ng sè liÖu sau:
Thu nhËp b×nh qu©n
1,5 2,0 2,5 3 3,5
(triÖu ®/ng-êi/th¸ng)
Sè hé 8 15 38 22 17

a) Theo bé phËn tiÕp thÞ th× siªu thÞ chØ ho¹t ®éng cã hiÖu qu¶ t¹i khu vùc
nµy nÕu thu nhËp b×nh qu©n/ng-êi/ th¸ng tèi thiÓu lµ 2,5 triÖu ®ång. VËy
qua kÕt qu¶ ®iÒu tra trªn, c«ng ty ®ã cã nªn quyÕt ®Þnh më siªu thÞ t¹i khu
vùc nµy hay kh«ng? Yªu cÇu kÕt luËn víi møc ý nghÜa 5%.
b) Víi ®é tin cËy 90% h·y -íc l-îng møc thu nhËp trung b×nh/ ®Çu ng-êi
/th¸ng cña d©n c- ë vïng ®ã.
Bµi 12: Sè liªu thèng kª vÒ doanh sè b¸n cña mét siªu thÞ trong mét ngµy trong
thêi gian gÇn ®©y ®-îc cho ë b¶ng sau:

169
Doanh sè -xi
24 30 36 42 48 54 60 65 70
(triÖu ®/ngµy)
Sè ngµy (mi)
5 12 25 35 24 15 12 10 6

a. Víi ®é tin cËy 90%, h·y -íc l-îng doanh sè b¸n trung b×nh trong mét ngµy
cña siªu thÞ nµy.
b. Nh÷ng ngµy cã doanh sè b¸n tõ 60 triÖu ®ång trë lªn lµ nh÷ng ngµy “b¸n ®¾t
hµng”. H·y ­íc l­îng tû lÖ nh÷ng ngµy “b¸n ®¾t hµng” ë siªu thÞ nµy víi ®é tin
cËy 95%.
c. Tr-íc ®©y doanh sè b¸n trung b×nh cña siªu thÞ lµ 35 triÖu ®ång/ngµy. Sè liÖu
ë b¶ng trªn ®-îc thu thËp sau khi siªu thÞ ¸p dông mét ph-¬ng thøc b¸n hµng
míi. VËy ph-¬ng thøc b¸n hµng míi cã hiÖu qu¶ kh«ng? Yªu cÇu kÕt luËn víi
møc ý nghÜa 5%.
Bµi 13: §iÒu tra ngÉu nhiªn møc thu nhËp/tháng cña 100 hé gia ®×nh t¹i mét ®Þa
ph-¬ng trong n¨m nay ng-êi ta thu ®-îc b¶ng sè liÖu sau:

Thu nhËp (xi)


2 4 6 8 10 12 14 16
(TriÖu ®ång)
Sã hé (mi) 5 10 15 20 18 15 12 5
a).H·y -íc l-îng møc thu nhËp trung b×nh cña c¸c hé gia ®×nh ë ®i¹ ph-¬ng ®ã
víi ®é tin cËy 90%.

b) Víi ®é tin cËy 95% h·y -íc l-îng sè hé gia ®×nh nghÌo ë ®Þa ph-¬ng ®ã.
BiÕt r»ng ®Þa ph-¬ng ®ã cã 3000 gia ®×nh vµ mét hé ®-îc xÕp vµo lo¹i nghÌo
nÕu cã møc thu nhËp/n¨m thÊp h¬n 6 triÖu ®ång.

c) N¨m ngo¸i tû lÖ hé nghÌo lµ 25%. N¨m nay (theo mÉu trªn) do cã chÝnh s¸ch
hç trî vay vèn cho c¸c hé nghÌo, th× tû lÖ hé nghÌo cã gi¶m xuèng hay kh«ng?

Bµi 14: §Ó so s¸nh chiÒu cao cña ®µn «ng tr-ëng thµnh ë vïng A vµ vïng B,
ng-êi ta chän ngÉu nhiªn 7 ®µn «ng ë vïng A vµ 6 ®µn «ng ë vïng B ®o chiÒu
cao cña hä, thu ®-îc sè liÖu sau ®©y: (®¬n vÞ: cm)

170
Vïng A 170 178 160 180 160 160 168

Vïng B 180 175 162 170 168 171

Víi møc ý nghÜa 5% hái cã sù kh¸c nhau vÒ chiÒu cao trung b×nh cña ®µn «ng
tØnh A vµ tØnh B hay kh«ng? Giả thiết chiều cao của đàn ông trưởng thành ở
hai vùng A và B là các biến ngẫu nhiên có phân phối chuẩn.

Bài 15: Có ý kiến cho rằng trong hai anh em trai, ng-êi em lu«n cao h¬n ng-êi
anh. Mét mÉu ngÉu nhiªn gåm 25 cÆp anh em trai ®-îc ®iÒu tra , ng-êi ta thu
®-îc sè liÖu sau: Ký hiÖu chiÒu cao cña ng-êi anh lµ X (®¬n vÞ :cm); Ký hiÖu
chiÒu cao cña ng-êi em lµ Y (®¬n vÞ :cm)

X 170 169 167 168 166 165 165 164

Y 175 172 167 166 163 166 164 167

X 164 165 166 166 169 168 168 166

Y 163 167 168 164 170 172 171 170

X 168 168 169 169 164 170 169 169 166

Y 167 165 166 171 163 168 166 167 166

Víi møc ý nghÜa 5%, h·y kÕt luËn xem ý kiÕn nªu trªn cã ®óng kh«ng? Giả
thiết chiều cao là biến ngẫu nhiên có phân phối chuẩn.

Bµi 16: Mét nhµ nghiªn cøu cho r»ng c¸c bÖnh nh©n nam th-êng cã xu h-íng
n»m viÖn l©u h¬n c¸c bÖnh nh©n n÷. §Ó kiÓm tra tÝnh ®óng ®¾n cña nhËn ®Þnh
nµy ng-êi ta chän ngÉu nhiªn 9 hå s¬ bÖnh nh©n nam vµ 8 hå s¬ cña bÖnh nh©n
n÷ ë mét bÖnh viÖn vµ ghi l¹i thêi gian n»m viÖn cña nh÷ng ng-êi nµy. Sè liÖu
®-îc cho nh- sau: ( ®¬n vÞ thêi gian lµ ngµy)

Nam: 13, 15, 9, 18, 11, 20, 24, 22, 25.

171
N÷: 11, 14, 10, 8, 16, 9, 17, 21.

Víi møc ý nghÜa = 0,05 cã kÕt luËn g× vÒ thêi gian n»m viÖn trung b×nh gi÷a
nam vµ n÷. Giả thiết thời gian nằm viện của bệnh nhân là biến ngẫu nhiên có
phân phối chuẩn.

Bµi 17: §Ó ®¸nh gi¸ hiÖu qu¶ cña chÕ ®é ¨n kiªng trong viÖc lµm gi¶m träng
l-îng c¬ thÓ, 10 ng-êi t×nh nguyÖn ®· ®-îc chän ®Ó thö nghiÖm chÕ ®é ¨n kiªng
trong 6 tuÇn lÔ. KÕt qu¶ ®-îc ghi l¹i trong b¶ng sau: ( ®¬n vÞ ®o lµ pound (1
pound= 0,454 kg)

Ng-êi thö nghiÖm 1 2 3 4 5 6 7 8 9 10

Tr-íc ¨n kiªng 190 202 177 160 225 180 196 208 185 177

Sau ¨n kiªng 185 197 185 152 205 184 185 200 187 170

H·y ®¸nh gi¸ xem chÕ ®é ¨n kiªng cã gióp lµm gi¶m träng l-îng hay kh«ng?
Yªu cÇu kÕt luËn víi møc ý nghÜa 5%. Giả thiết trọng lượng của người là biến
ngẫu nhiên có phân phối chuẩn.

Bµi 18: Tuæi thä bãng ®Ìn ®iÖn tö ®-îc s¶n xuÊt tõ 4 nhµ m¸y A, B, C, D ®-îc
kiÓm tra vµ cho kÕt qu¶ sau ®©y:

A B C D

1600 1580 1460 1510

1610 1640 1550 1520

1650 1640 1600 1530

1680 1700 1620 1570

1700 1750 1640 1600

1700 1660 1680

1800 1740

1820

172
Víi møc ý nghÜa 5%, h·y so s¸nh chÊt l-îng bãng ®Ìn cña 4 nhµ m¸y trªn.

Bµi 19: Mét c¬ quan khÝ t-îng tiÕn hµnh so s¸nh nhiÖt ®é cao nhÊt trong ngµy
ë ba lôc ®Þa B¾c Mü, Ch©u ¢u vµ Ch©u ¸. C¸c thµnh phè lín trong mçi lôc ®Þa
®-îc chän ngÉu nhiªn vµ nhiÖt ®é cao nhÊt trong ngµy 1/7/1996 ®-îc ghi l¹i
nh- sau (®o b»ng ®é Fahrenheit):

B¾c Mü Ch©u ¢u Ch©u ¸

Chicago: 95 Athens: 95 B¾c kinh: 91

Fairbanks: 73 London: 77 New Delhi: 94

Montreal: 85 Rome: 88 Hongkong: 90

Denver: 73 Geneva: 72 Jerusalem: 88

Kansas City: 96 Moscow: 86 Tokyo: 77

Miami: 87 Warsaw: 73

Seattle: 80

Víi møc ý nghÜa 5%, h·y so s¸nh nhiÖt ®é trung b×nh cao nhÊt trong ngµy
1/7/1996 cña ba ch©u lôc nãi trªn.

Bµi 20: Nghiên cứu 200 cặp vợ chồng có thời gian kết hôn trên 5 năm để tìm
hiểu xem có mối liên hệ giữa thời gian tìm hiểu trước hôn nhân và tình trạng
hiện tại của cuộc hôn nhân hay không, số liệu được cho trong bảng sau:

Thời gian Ngắn (Dưới 1 Trung bình (1 Dài (Trên 3


Tình trạng năm) đến 3 năm) năm)

Hạnh phúc 38 58 54

Không hạnh phúc 12 14 4

Ly dị/Ly thân 10 8 2

173
a) Víi ®é tin cËy 95%, h·y -íc l-îng tû lÖ c¸c cÆp vî chång ly dÞ/Ly th©n sau 5
n¨m kÕt h«n.
b) Cã mèi liªn hÖ gi÷a thêi gian t×m hiÓu tr-íc h«n nh©n vµ t×nh tr¹ng hiÖn t¹i
cña cuéc h«n nh©n kh«ng? Yªu cÇu kÕt luËn víi møc ý nghÜa 5%.

Bµi 21: Mét nhµ X· héi häc chän mét mÉu ngÉu nhiªn gåm 500 ng-êi ®Ó ph¸t
mét b¶ng th¨m dß víi c¸c c©u hái sau:
- ¤ng (bµ) cã ®i nhµ thê kh«ng? ( tr¶ lêi: cã hoÆc kh«ng )
- Møc ®é thµnh kiÕn chñng téc cña «ng (bµ) thÕ nµo? ( Tr¶ lêi: RÊt cao, ®«i
khi hoÆc kh«ng chót nµo)
KÕt qu¶ ®-îc ghi trong b¶ng d-íi ®©y:
Møc ®é thµnh kiÕn chñng téc
§i nhµ thê
RÊt cao §«i khi Kh«ng
Cã 70 160 170
Kh«ng 20 50 30

a) Víi møc ý nghÜa 5%, h·y nhËn ®Þnh xem tû lÖ kh«ng thµnh kiÕn chñng téc
cña nh÷ng ng-êi cã ®i nhµ thê vµ nh÷ng ng-êi kh«ng ®i nhµ thê cã thËt sù kh¸c
nhau kh«ng?
b) Víi møc ý nghÜa 5%, cã thÓ nhËn ®Þnh g× vÒ mèi t-¬ng quan gi÷a viÖc ®i nhµ
thê vµ vÊn ®Ò thµnh kiÕn chñng téc?

Bµi 22: §Ó ®¸nh gi¸ chÊt l-îng gi¶ng day m«n X¸c suÊt thèng kª ë c¸c tr-¬ng
®¹i häc Kinh tÕ quèc d©n, ®¹i häc Ngo¹i th-¬ng, ®ai häc Tµi chÝnh kÕ to¸n vµ
®¹i häc Ng©n hµng ng-êi ta tiÕn hµnh ®iÒu tra kÕt qu¶ thi m«n x¸c suÊt thèng kª
cña mét sè sinh viªn cña c¸c tr-êng ®¹i häc nµy, kÕt qu¶ ®-îc cho nh- sau:
Tr-êng §ai häc §¹i häc §¹i häc Tµi §¹i häc
Kinh tÕ quèc Ngo¹i chÝnh Ng©n
KÕt qu¶ d©n th-¬ng hµng
§ç 60 75 55 70
Tr-ît 20 22 18 20

174
a) Víi ®é tin cËy 95% h·y -íc l-îng tû lÖ thi ®ç m«n x¸c suÊt thèng kª cña tõng
tr-êng ®¹i häc nªu trªn.
b) H·y nhËn ®Þnh xem cã sù kh¸c biÖt vÒ tû lÖ thi ®â m«n x¸c suÊt thèng kª ë 4
tr-êng ®¹i hoc nµy kh«ng? Yªu cÇu kÕt luËn víi møc ý nghÜa 2%.
Bµi 23: §µi truyÒn h×nh ViÖt nam tæ chøc th¨m dß ý kiÕn ë 3 nhãm x· héi kh¸c
nhau: C«ng nh©n, N«ng d©n, TrÝ thøc vÒ thêi l-îng ph¸t sãng phim truyÖn ViÖt
nam hµng tuÇn. PhiÕu th¨m dß ®Æt ra ë 4 møc: T¨ng thêi luîng ph¸t sãng, gi÷
nh- cò, gi¶m, kh«ng cã ý kiÕn. KÕt qu¶ cuéc th¨m dß ®-îc cho trong b¶ng d-íi
®©y:

TÇng líp
C«ng nh©n N«ng d©n TrÝ thøc
ý kiÕn
T¨ng 100 300 20
Nh- cò 200 400 30
Gi¶m 50 80 5
Kh«ng ý kiÕn 30 70 5

Víi møc ý nghÜa = 1%, h·y nhËn ®Þnh xem cã sù kh¸c nhau gi÷a c¸c tÇng líp
x· héi nãi trªn xung quanh vÊn ®Ò vÒ thêi l-îng ph¸t sãng cña phim truyÖn hay
kh«ng?

Bµi 24: Mét xÝ nghiÖp may s¶n xuÊt ¸o kho¸c víi 4 mµu: ®á, xanh, vµng vµ tÝm
than. Mét mÉu gåm c¸c kh¸ch hµng nam vµ n÷ mua ¸o kho¸c víi c¸c mµu trªn
®-îc thèng kª trong b¶ng d-íi ®©y:

Mµu ¸o §á Xanh Vµng TÝm than

N÷ 62 34 71 42

Nam 125 223 52 54

Víi møc ý nghÜa 1%, h·y nhËn ®Þnh xem cã sù kh¸c nhau gi÷a nam vµ n÷
trong viÖc chän mµu ¸o kho¸c hay kh«ng?

175
PHỤ LUC 1: CÁC BẢNG SỐ
z2
1 
B¶ng 1: Gi¸ trÞ cña hµm Gauss  ( z )  e 2 ®èi víi 0  z  3,9
2

z 0,00 1 2 3 4 5 6 7 8 9
0,0 0.39894 39892 39886 39876 39862 39811 39822 39797 39767 39733
0,1 ,39695 39651 39608 39559 39505 39118 39387 39322 39253 30181
0,2 ,39101 39021 38910 38853 38762 38667 38568 38466 38361 38251
0,3 ,38139 38023 37903 37780 37651 37524 37391 37255 37115 36973
0,4 ,36827 36678 36526 36371 36213 36053 35889 35723 35553 35381
0,5 ,33207 35029 34819 31667 31482 34294 33105 33912 33718 33521
0,6 ,33322 33121 32918 32713 32506 33297 32086 31874 31659 31443
0,7 ,31225 31006 30785 30563 30339 30111 29887 29659 29431 29200
0,8 ,28969 28737 28501 28269 28034 27798 27562 27324 27086 26848
0,9 ,26609 26369 26129 25888 25647 25046 25164 24923 21681 211139
1,0 ,21197 23955 23713 23471 23230 22988 22741 22506 22265 22025
1,1 ,17137 21546 21307 21069 20831 20594 20357 20121 19886 19652
1,2 ,19119 19186 18951 18721 18491 18265 18037 17810 17585 17360
1,3 ,17137 16915 16691 16474 16256 16038 15822 15608 15396 15183
1,4 ,14937 11761 14556 14350 14146 13943 13742 13542 13344 13147
1,5 ,12952 12758 12566 12376 12188 12051 11816 11632 11150 11270
1,6 ,11092 10915 10711 10567 10396 10226 10059 09893 09728 09566
1,7 ,09105 19246 9089 8933 08780 08628 08478 08329 08183 03038
1,8 ,07895 07754 07614 07477 07341 07206 07074 06943 06814 06687
1,9 ,06562 06138 06316 06195 06077 05959 05844 05730 05618 05508
2,0 ,05399 05292 05186 05082 01980 04879 01780 04682 01586 01191
2,1 ,01398 01307 04217 01428 01011 03955 03871 03788 03706 03626
2,2 ,03517 03170 03391 03319 03246 03174 03103 03034 02965 02898
2,3 ,02833 02768 02705 02613 025852 02522 02463 02406 02349 02291
2,4 ,02239 02186 02131 02083 02033 01984 01936 01889 01812 01797
2,5 ,01753 01709 01667 01625 04585 01545 01506 01468 01131 01394
2,6 ,01358 01323 01289 01256 01223 01191 01160 01130 0110 01071
2,7 ,01012 01014 00987 00961 00935 00909 00885 00861 00837 00811
2,8 ,00792 0070 00748 70027 00707 00687 00668 00619 00631 00613
2,9 ,00595 50078 00562 54005 00530 00514 00499 00485 00171 00457
u 0,0 1 2 3 4 5 6 7 8 9
3,0 0.0013 00327 0024 00172 00123 00087 00061 00012 00029 00020

176
t2
z 
1 2
B¶ng 2: Gi¸ trÞ hµm ph©n bè chuÈn  ( z ) 
2
e

dt

z 0 1 2 3 4 5 6 7 8 9 z 0 1 2
- 0,0 0.5000 4960 4920 4880 4640 4801 4761 4721 4681 4641 0.0 0.5000 5040 5080
- 0,1 4602 4562 4522 4483 4743 4404 4364 4325 4286 4247 0,1 5398 5438 5478
- 0,2 4207 4168 4129 4090 4052 4013 3974 3936 3897 3859 0,2 5793 5832 5871
- 0,3 3821 3783 3745 3707 3569 3632 3594 3557 3520 3483 0,3 6179 6217 6255
- 0,4 3446 3409 3372 3336 5300 3264 3228 3192 3156 3121 0,4 6554 6591 6628
-0,5 3308 3050 3015 2981 2946 2912 2877 2843 2810 2776 0,5 0.6915 6950 6985
-0,6 2743 2709 2676 2643 2511 2578 2546 2514 2483 2451 0,6 7257 7291 7324
-0,7 2420 2389 2358 2327 2297 2266 2236 2206 2177 2148 0,7 7580 7611 7642
-0,8 2119 2090 2061 2033 2005 1977 1949 1922 1894 1867 0,8 7881 7910 7939
-0,9 1941 1841 1788 1762 1736 1711 1682 1660 1635 1611 0,9 8159 8185 8212
-1,0 0.1587 1562 1539 1515 1492 1469 1446 1423 1401 1379 1,0 0.8413 8438 8461
-1,1 1357 1335 1314 1292 1291 1251 1230 1210 1190 1170 1,1 8642 8665 8686
-1,2 1151 1131 112 1093 1075 1056 1038 1020 1003 0985 1,2 8849 8869 8888
-1,3 0968 0951 0934 0918 9001 0885 0869 0853 0838 0823 1,3 9032 9049 9066
-1,4 0808 0793 0778 0764 0749 0735 0721 0708 0694 0681 1,4 9192 9207 9222
-1,5 0.0668 0655 0643 0630 0518 0606 0594 0582 0574 0559 1,5 0.9332 9345 9357
-1,6 0548 0537 0526 0516 0505 0495 0585 0475 0465 0455 1,6 9452 9463 9474
-1,7 0446 0436 0427 0418 0409 0401 0392 0384 0375 0367 1,7 9554 9564 9573
-1,8 0359 0351 0344 0336 0329 0322 0314 0378 0301 0294 1,8 9541 9549 9656
-1,9 0288 0281 0274 0268 0252 0256 0250 0244 0239 0233 1,9 9712 9719 9726
-2,0 0.0227 0222 0217 0212 0207 0202 0197 0192 0188 0183 2,0 0.9773 9776 9783
-2,1 0179 0174 0170 0166 0162 0158 0154 0150 0146 0143 2,1 9821 9825 9830
-2,2 0139 0136 0132 0129 0125 0122 0119 0116 0113 0110 2,2 9861 9864 9868
-2,3 0107 0104 0102 0099 0096 0094 0091 0089 0087 0084 2,3 9893 9895 9895
-2,4 0082 0080 0078 0075 0073 0071 0069 0068 0066 0064 2,4 9916 9920 9922
-2,5 0.0062 0060 0059 0057 0055 0054 0052 0051 0049 0048 2,5 0.9938 9940 9941
-2,6 0047 0045 0044 0043 0041 0040 0039 0038 0037 0036 2,6 9953 9955 9956
-2,7 0035 0034 0033 0032 0031 0030 0029 0028 0027 0026 2,7 9965 9966 9967
-2,8 0026 0025 0024 0023 0023 0022 0021 0021 0020 0019 2,8 9974 9975 9976
-2,9 0019 0018 0018 0017 0016 0016 0015 0015 0014 0014 2,9 9981 9982 9982
u -3.0 -3.1 -3.2 -3.3 -3.4 -3.5 -3.6 -3.7 -3.8 -3.9 u 3.0 3.1 3.2
 (u) 0013 0010 0007 0005 0003 0002 0002 0001 0001 000  (u) 0.9987 9990 9993

177
B¶ng 3: Gi¸ trÞ tα(k) cña ph©n bè T (Ph©n bè Student)
( P  T  t  ( k )   )

BËc tù Møc ý nghÜa 


do k 0,05 0,025 0,01 0,005 0,001 0,0005
1 6,31 12,71 31,82 63,66 318,34 636,62
2 2,92 4,30 6,97 9,92 22,23 31,06
3 2,35 3,18 4,51 5,84 10,21 12,92
4 2,13 2,78 3,75 4,60 7,17 8,61
5 2,01 2,57 3,37 4,03 5,89 6,87
6 1,91 2,45 3,14 3,71 5,21 5,96
7 1,89 2,36 3,00 3,50 4,79 5,41
8 1,86 2,31 2,90 3,36 4,50 5,04
9 1,83 2,26 2,82 3,25 4,30 4,78
10 1,81 2,23 2,76 3,17 4,11 4,59
11 1,80 2,20 2,72 3,11 4,03 4,44
12 1,78 2,18 2,68 3,05 3,93 4,32
13 1,77 2,16 2,65 3,01 3,85 4,22
14 1,76 2,14 2,62 2,98 3,79 4,11
15 1,75 2,13 2,60 2,95 3,73 4,07
16 1,75 2,12 2,58 2,92 3,69 4,01
17 1,71 2,11 2,57 2,90 3,65 3,96
18 1,73 2,10 2,55 2,88 3,61 3,92
19 1,73 2,09 2,54 2,86 3,58 3,88
20 1,73 2,09 2,53 2,85 3,55 3,85
21 1,72 2,08 2,52 2,83 3,53 3,82
22 1,72 2,07 2,51 2,82 3,51 3,79
23 1,71 2,07 2,50 2,81 3,49 3,77
24 1,71 2,06 2,49 2,80 3,47 3,74
25 1,71 2,06 2,49 2,79 3,45 3,72
26 1,71 2,06 2,48 2,78 3,44 3,71
27 1,70 2,05 2,47 2,77 3,42 3,69
28 1,70 2,05 2,47 2,76 3,41 3,66
29 1,70 2,05 2,46 2,76 3,40 3,66
30 1,70 2,01 2,46 2,75 3,39 3,65
40 1,68 2,02 2,42 2,70 3,31 3,55
60 1,67 2,00 2,39 2,66 3,23 3,46
120 1,66 1,98 2,36 2,62 3,17 3,37
 1,61 1,96 2,33 2,58 3,09 3,29

198
B¶ng 4: Gi¸ trÞ x2α,k cña ph©n phèi x2 (P(x2> x2α,k)=α)
k 0,99 0,975 0,95 0,70 0,50 k 0,30 0,10 0,05 0,025 0,01 0,1
1 0.000157 0.000982 0.00393 0.048 0.455 1 107 2.71 3.81 5.02 6.62 10.8
2 0.0201 0.0506 0.103 0.713 1.39 2 241 4.61 5.99 7.38 9.21 13.8
3 0.0115 0.216 0.352 1.42 2.37 3 3.67 6.25 7.81 9.15 11.3 16.3
4 0.297 0.481 0.711 2.19 3.36 4 4.88 7.78 9.49 11.1 13.3 18.5
5 0.554 0.381 11.5 3.00 4.35 5 6.06 9.21 111 12.3 15.1 20.5
6 0.872 124 161 3.83 5.35 6 7.23 10.6 126 14.1 16.8 22.5
7 1.24 1.69 217 4.67 6.35 7 8.38 120 14.1 16.0 18.5 24.3
8 1.65 218 273 5.53 7.34 8 9.52 13.4 15.5 17.5 20.1 26.1
9 2.09 270 333 6.39 8.34 9 10.7 14.7 16.9 19.0 21.7 27.9
10 2.53 325 3.91 7.27 9.34 10 118 16.0 18.3 20.5 23.2 28.6
11 3.05 3.82 4.57 8.15 10.3 11 12.9 17.3 19.7 21.9 24.7 31.3
12 3.57 4.10 5.12 9.03 11.3 12 14.0 18.5 21.0 23.3 26.2 32.9
13 4.11 5.01 5.89 9.93 12.3 13 15.1 19.8 22.4 24.7 27.7 34.5
14 4.66 5.63 6.57 10.8 13.3 14 16.2 21.1 23.7 26.1 29.1 36.1
15 5.23 6.26 7.26 11.7 14.3 15 17.3 22.3 25.0 27.5 30.6 37.7
16 5.81 9.91 7.93 12.6 15.3 16 18.4 23.5 26.3 28.8 32.0 39.3
17 6.11 7.56 8.67 13.5 16.3 17 19.5 24.8 27.6 30.2 33.4 40.8
18 7.01 8.23 9.30 14.4 17.3 18 20.6 26.0 28.9 31.5 34.8 42.3
19 7.63 8.91 10.1 15.4 18.3 19 21.7 27.2 30.1 32.9 36.2 43.8
20 8.26 9.59 10.9 16.3 19.3 20 228 28.4 31.4 34.2 37.6 45.3
21 8.90 10.3 11.6 17.2 20.3 21 239 29.6 32.7 35.5 38.9 46.8
22 9.54 110 12.3 18.1 21.3 22 249 30.8 33.9 36.8 40.3 48.3
23 10.2 11.7 13.1 19.0 22.3 23 260 32.0 35.2 38.1 41.6 49.7
24 10.9 12.4 13.8 19.9 23.3 24 27.1 33.2 36.4 39.4 43.0 51.2
25 44.5 13.1 14.6 20.9 24.3 25 28.2 34.4 37.7 40.6 44.3 52.6
26 122 13.8 15.4 21.8 25.3 26 29.2 35.6 38.9 41.9 45.6 54.1
27 129 14.6 16.2 22.7 26.3 27 30.3 36.7 40.1 43.2 47.0 55.5
28 136 15.3 16.9 23.6 27.3 28 31.4 37.9 41.3 44.5 48.3 56.9
29 14.3 16.0 17.7 24.6 28.3 29 32.5 39.1 42.6 45.7 49.6 58.3
30 15.0 16.8 18.5 25.5 29.3 30 32.5 40.3 43.8 47.0 50.9 59.7
40 222 24.4 26.5 34.9 39.3 40 44.2 51.8 55.8 59.3 63.7 73.4
50 29.7 32.4 34.8 44.3 49.3 50 54.7 63.2 67.5 71.4 76.2 86.7
60 35.5 40.5 43.2 53.8 59.3 60 65.2 74.4 69.1 38.3 88.4 92.6
70 45.1 48.8 61.7 63.3 69.3 70 75.1 85.5 90.5 95.0 100.4 121.3
80 53.5 57.2 60.4 72.9 79.3 80 86.1 96.6 101.9 106.6 112.3 124.8
90 61.8 65.6 69.1 82.5 89.3 90 96.5 107.6 113.1 118.1 124.1 137.2
100 70.1 74.2 77.9 921 99.3 100 106.9 118.5 124.3 129.6 135.8 149.1

199
Phụ lục 2
HƢỚNG DẪN SỬ DỤNG PHẦN MỀM EXCEL VÀ SPSS TRONG XỬ LÝ
DỮ LIỆU THỐNG KÊ

I. Hƣớng dẫn sử dụng Excel để lập bảng tần số, tính toán các số đặc trƣng
của mẫu và vẽ đồ thị
1. Lập bảng tần số
Có thể sử dụng phần mềm Excel để lập bảng tần số đối với dữ liệu định lượng
với kết quả dữ liệu được phân lớp/tổ và hai cột số liệu tần số và tần suất tích lũy
như sau:

- Nhập dữ liệu gốc vào bảng tính Excel (có thể nhập vào một cột/hàng hay vùng
dữ liệu).

- Nhập giá trị các cận trên của các lớp/tổ vào một cột khác.

- Trên thanh menu bấm vào Tools, khi đó xuất hiện Data Analysis

- Bấm vào lệnh Data Analysis sẽ mở được hộp thoại Data Analysis:

Hình 1
- Trên hộp thoại này bấm chọn Histogram như hình 1, rồi nhấp nút OK để mở
cửa số Histogram (hình 6- 2)

200
Hình 2
- Tại mục Input range cần nhập địa chỉ vùng chứa dữ liệu gốc đã nhập và nhập
cả địa chỉ hàng tiêu đề.

- Tại mục Bin Range nhập địa chỉ vùng (cột) chứa các giá trị cận trên của mỗi
lớp và cũng nhập địa chỉ hàng tiêu đề.

- Nhấp chọn nút Label để loại trừ hàng chứa tiêu đề ra khỏi các tính toán.

(Có thể chọn thêm Cumulative Percentage để tính tần suất tích lũy, nếu không
thì chỉ cho ra cột tính tần số)

- Từ mục Output Range, nhập địa chỉ để đưa bảng kết quả (như hình 2-8)

- Cuối cùng nhấp nút OK sẽ nhận được bảng kết quả. Sau đó tiến hành các chỉnh
sửa cần thiết trên bảng kết quả này, bao gồm hoàn chỉnh thể hiện của các lớp
trong cột thứ nhất bằng cách nhập thêm cận trên của mỗi lớp, sửa chữ More
thành chữ Tổng cộng, sửa tiêu đề cột Frequency thành chữ “Tần số” và chữ
Cumulative thành chữ “Tần số tích lũy”…

Ví dụ 1: Từ số liệu được cho trong ví dụ 2.13, hãy thiết lập bảng tần số phân lớp.
- Đầu tiên ta nhập số liệu gốc gồm tuổi của 30 sinh viên vào một cột và nhập
giới hạn trên của mỗi lớp vào cột bên cạnh vào bảng tính Excel:

201
- Sau đó ta thực hiện các lệnh như đã trình bày ở trên và thu được kết
quả sau:
Do Cumulative
tuoi Frequency %
24 10 33,33%
29 12 73,33%
34 5 90,00%
39 3 100,00%
More 0 100,00%
Ta chỉnh sửa bảng này ta được kết quả như sau:

2. Vẽ đồ thị phân phối tần số (Histogram)


Cách nhập dữ liệu gốc và giới hạn trên của các lớp/tổ và các thao tác phục vụ
cho vẽ đồ thị phân phối tần số hoàn toàn giống như cách đã hướng dẫn để lập
bảng phân phối tần số bằng Excel đã nêu ở trên. Tuy nhiên ở phần cuối của cửa
số Histogram cần chọn duy nhất mục Chart Output (hình 3)

Hình 3
Sau đó nhắp nút OK. Khi đó kết quả được cho như sau: (hình 4)

202
Histogram

14
12
10

Frequency
8
Frequency
6
4
2
0
24 29 34 39 More
Do tuoi

Hình 4
Chú ý:
Cần chỉnh sửa đồ thị để giữa các thanh của đồ thị không có khoảng cách vì đây
là đặc điểm quan trọng của Histogram. Để làm được điều này ta làm như sau:
Bấm trỏ chuột vào các cột của đồ thị, bấm chuột trái một lần để chọn đối tượng
cần hiệu chỉnh. Sau đó bấm chuột phải để bấm menu tắt, chọn mục Format
Data Series…, trong mục này chọn thẻ Option, nhập giá trị 0 vào phần Gap
width, rồi bấm OK. Kết quả đồ thị đã hiệu chỉnh được cho như sau: ( hình 5)

Histogram

14

12

10
Frequency

8
Frequency
6

0
24 29 34 39 More
Do tuoi

Hình 5
Có thể vẽ lại đồ thị phân phối tần số với thông tin của trục đứng là tần suất, tuy
nhiên đơn vị trên trục đứng là đơn vị %.
3. Vẽ đồ thị dạng thanh (Bar Chart) cho dữ liệu định tính dạng phân loại
* Các bước vẽ đồ thị

203
- Chọn toàn bộ phần dữ liệu đã được tổng hợp trên bảng tính Excel.

- Trên thanh menu chọn Insert chọn mục Chart… để mở cửa số Chart
Wizard:

Hình 6

Trong cửa số này, tại mục Chart type tiến hành lựa chọn kiểu đồ thị thanh đứng
(Colum) hoặc thanh ngang (Bar). Sau đó trong mục Chart sub-type chọn kiểu
dáng cụ thể cho đồ thị thanh đứng hoặc thanh ngang. Tiếp theo nhấn nút Next
để thực hiện các khai báo cụ thể như tên đồ thị (mục Chart Tist), thuyết minh
cho trục X, trục Y… Cuối cùng nhấn nút Finish.

Có thể dùng thông tin về tỷ lệ phần trăm để vẽ đồ thị hình thanh với lưu ý rằng
trục đứng (nếu là đồ thi thanh đứng) hoặc trục nằm ngang (nếu là đồ thị thanh
ngang) biểu thị phần trăm.
Ví dụ 6.2: Vẽ đồ thị hình thanh cho số liệu ở đã cho ở bảng 2-2:
- Nhập bảng tổng hợp dữ liệu được cho trong bảng 2-2 vào bảng tính Excel như
hình

204
- Chọn toàn bộ bảng trên, rồi làm các bước như đã hướng dẫn ở trên ta có kết
quả được cho trong hình 2-8 và hình 2-9 ở trang 46và trang 47.
4. Vẽ đồ thị dạng hình tròn (Pie) cho dữ liệu định tính dạng phân loại
- Nhập bảng tổng hợp dữ liệu vào bảng tính Excel (lưu ý rằng cột thứ hai của
bảng là giá trị tần suất của mỗi phân loại.
- Chọn toàn bộ bảng dữ liệu đã được nhập trên bảng tính.

- Tương tự như vẽ biểu đồ hình thanh, trên thanh menu chọn Insert chọn mục
Chart… để mở cửa số Chart Wizard:

- Trong cửa số này, tại mục Chart type tiến hành lựa chọn Pie. Sau đó trong
mục Chart sub-type chọn kiểu dáng cụ thể cho đồ thị hình tròn.

- Tiếp theo nhấn nút Next để thực hiện các khai báo cụ thể như tên đồ thị

(mục Chart Tist), … Cuối cùng nhấn nút Finish.

Hình 7
Ví dụ 3: Vẽ đồ thị hình tròn cho số liệu ở đã cho ở bảng 2-2:
- Nhập bảng tổng hợp dữ liệu được cho trong bảng 2-2 vào bảng tính Excel:

- Sau đó thực hiện các lệnh như đã trình bày ở trên, ta có kết quả được cho trong

hình 2-10 ở trang

205
5. Sử dụng Excel để tính toán các thống kê mẫu
- Trước tiên ta nhập dữ liệu mẫu vào bảng tính Excel.
- Trên thanh menu ta nhắp vào Tools Data Analysis, khi đó cửa số Data
Analysis xuất hiện:

Hình 8
- Nhắp chọn Descriptive Statistics, rồi nhắp OK. Khi đó cửa sổ Descriptive
Statistics xuất hiện:

Hình 9
- Trong mục Input range ta gõ địa chỉ của vùng dữ liệu (đã nhập vào một
cột của bảng tính Excel) kể cả địa chỉ của ô chứa tiêu đề.
- Nhắp vào Label in First row (để loại ô chứa tiêu đề ra khỏi các tính toán).
- Nhắp vào Output Range: gõ địa chỉ một ô nào đó để đưa ra bảng kết quả.
- Nhắp vào Summary Statistics.
- Cuối cùng bấm OK. Khi đó nhận được bảng kết quả cho ra các giá trị của
các thống kê đặc trưng của mẫu.
Ví dụ 6.4: Số liệu về điểm của 100 bài thi môn Thống kê và phân tích dữ liệu
của sinh viên một trường đại học được cho ví dụ 2.23. Sử dụng Excel tính các
thống kê đặc trưng của mẫu.

206
Trước tiên ta nhập dữ liệu về điểm của 100 bài thi vào một cột của bảng tính
Excel. Sau đó thực hiện các lệnh như đã nêu trên và kết quả được cho như sau:
(hình 6-10)

Hình 10
II. Hƣớng dẫn sử dụng phần mềm Excel để ƣớc lƣợng tham số
1. Ước lượng khoảng tin cậy của giá trị trung bình tổng thể (sử dụng DDXL)
DDXL là chương trình bổ trợ cho tính năng thống kê của Excel. Chương trình
này sử dụng một cách hiệu quả để phân tích dữ liệu, là phần bổ xung tốt cho
khóa học giới thiệu về thống kê cơ bản.
a) Trường hợp đã biết phương sai σ2 (độ lệch chuẩn σ) của tổng thể
Bước 1: Nhập dữ liệu định lượng vào một cột (hoặc hàng hay một bảng dữ
liệu) vào bảng tính Excel.
Bước 2: Nhắpvào DDXL/Confidence Interval, khi đó hộp thoại Confidence
Interval Dialog xuất hiện:

207
Hình 11
- Nhắp vào CLICK ME,
- Trong mục Function type, nhắp 1 Var z Interval

Hình 12

- Nhắp vào biểu tượng dữ liệu , sau đó gõ trực tiếp địa chỉ vùng chứa dữ
liệu kể cả hàng tiêu đề (chẳng hạn, từ ví dụ trên ta nhập địa chỉ A1:A31), tiếp
theo chọn mục Fist row is variable names ( để loại dòng tiêu đề ra khỏi tính
toán), rồi bấm OK.
 Khi đó cửa sổ z Interval Setup xuất hiện:

208
Hình 13

- Nhắp vào độ tin cậy của ước lượng yêu cầu (90%, 95%, 99%)

- Nhắp vào mục Type in population standard deviation: Nhập giá trị của
độ lệch chuẩn của tổng thể.

- Nhắp vào Computer Interval. Khi đó bảng kết quả được đưa ra:

- Đọc kết quả.

b) Trường hợp phương sai σ2( độ lệch chuẩn σ) của tổng thể chưa biết

Tương tự làm các bước như trường hợp đã biết phương sai tổng thể, nhưng
trong mục Function type, nhắp 1 Var t Interval, sau đó nhắp vào biểu tượng

nhập dữ liệu , rồi gõ trực tiếp địa chỉ vùng chứa dữ liệu. Khi đó cửa sổ t
Interval Setup xuất hiện:

Hình 14
- Nhắp vào độ tin cậy của ước lượng yêu cầu (90%, 95%, 99%)

- Nhắp vào Computer Interval. Khi đó bảng kết quả được đưa ra:

- Đọc kết quả.

Chú ý: Trong Excel chỉ chia làm 2 trường hợp đã biết phương sai tổng thể và
chưa biết phương sai của tổng thể)

209
2. Ước lượng tỷ lệ p của tổng thể (dùng DDXL)

- Nhập m là số phần tử có đặc tính A của mẫu vào một ô và nhập n là kích
thước mẫu vào một ô khác trong bảng tính Excel.

- Nhắp vào DDXL/Confidence Interval,khi đó hộp thoại Confidence


Interval Dialog xuất hiện:
- Nhắp vào CLICK ME
- Nhắp chọn Summ 1 Var Prop Inter
+ Trong mục Num Succeses: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị của m (đã nhập vào bảng tính Excel)

+ Trong mục Num Trias: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ địa
chỉ ô chứa giá trị của n. Rồi bấm OK.
- Khi đó hộp thoại Proportion Interval Setup xuất hiện:

Hình 15
+ Nhắp vào độ tin cậy mà bài toán yêu cầu (90%, 95%, 99%).
+ Nhắp vào Computer Interval.

- Kết quả ước lượng được cho như sau:

Hình 16
3. Ước lượng độ lệch chuẩn của tổng thể (dùng DDXL)
Bước 1: Nhập dữ liệu định lượng vào một cột (hoặc hàng hay một bảng dữ
liệu) vào bảng tính Excel.

210
Bước 2: Nhắpvào DDXL/Confidence Interval, khi đó hộp thoại Confidence
Interval Dialog xuất hiện:
- Nhắp vào CLICK ME,
- Trong mục Function type, nhắp vào Chi- Square Cof Ints for SD

Hình 17
- Nhắp vào biểu tượng dữ liệu , sau đó gõ trực tiếp địa chỉ vùng chứa dữ
liệu kể cả hàng tiêu đề (chẳng hạn, từ ví dụ trên ta nhập địa chỉ A1:A31), tiếp
theo chọn mục Fist row is variable names ( để loại dòng tiêu đề ra khỏi tính
toán), rồi bấm OK.
 Khi đó cửa sổ Compute Chi- quare Confidence Ints for the Std Dev:
Scores xuất hiện:

Hình 18

- Nhắp vào độ tin cậy của ước lượng yêu cầu (90%, 95%, 99%)

- Khi đó bảng kết quả được đưa ra. Đọc kết quả.

211
III. Kiểm định dùng một mẫu (dùng DDXL)
1. Kiểm định giả thuyết về giá trị trung bình  của một tổng thể
Nghiên cứu một tổng thể theo một dấu hiệu định lượng X được đặc trưng bởi
biến ngẫu nhiên X. Giả sử X có phân phối chuẩn: X~ N(, σ2)

a) Trường hợp đã biết phương sai σ2 (độ lệch chuẩn σ ) của tổng thể: Sau khi
nhập dữ liệu vào bảng tính Excel ta làm như sau:

- Nhắp vào DDXL/ Hypothesis Test

Khi đó hộp thoại Hypothesis Tets Dialog xuất hiện: (hình 19)

Hình 19

- Trong mục Function type, ta nhắp vào CLICK ME

- Chọn 1 var z Test

- Nhắp vào biểu tượng nhập dữ liệu , rồi gõ địa chỉ vùng dữ liệu.

- Khi đó hộp thoại z Test Setup xuất hiện

212
Hình 20

- Step 1: Nhắp vào Set 0 and sd, rồi gõ giá trị của 0 và gõ giá trị của độ
lệch chuẩn của tổng thể vào, rồi bấm OK.

- Step 2: Nhắp chọn mức ý nghĩa  : 0.01, 0.05, hoặc 0.10 . ( Nếu mức ý
nghĩa  không rơi vào một trong 3 giá trị nêu trên thì ta nhắp vào Other
và gõ nhập trực tiếp giá trị  mà đầu bài yêu cầu , rồi bấm OK).

- Step 3: Nhắp chọn giả thuyết đối H1 là một trong ba dạng sau:

 < 0 hoặc   0 hoặc  > 0 (tùy theo bài yêu cầu)


- Step 4: Nhắp chọn Computer, rồi đọc kết quả.
b) Trường hợp chưa biết phương sai σ2 (độ lệch chuẩn σ ) của tổng thể:
- Trước tiên cũng nhập dữ liệu gốc vào bảng tính Excel.
- Nhắp vào DDXL/ Hypothesis Test, khi đó hộp thoại Hypothesis Tets Dialog
xuất hiện:

- Trong mục Function type, ta nhắp vào CLICK ME

- Chọn 1 var t Test

- Nhắp vào biểu tượng nhập dữ liệu , rồi gõ địa chỉ vùng dữ liệu.

- Khi đó hộp thoại t Test Setup xuất hiện:

213
Hình 21
 Tiếp theo cũng làm tương tự như trường hợp đã biết phương sai. Khi đó kết
quả được cho như sau:

Hình 22
2. Kiểm định một tỷ lệ
(Làm tương tự như thủ tục ước lương tỷ lệ)
- Trước tiên cũng nhập m là số phần tử có đặc tính A của mẫu vào một ô và
nhập n là kích thước mẫu vào một ô khác trong bảng tính Excel.
- Nhắp vào DDXL/ Hypothesis Test , khi đó hộp thoại Hypothesis Test
Dialog xuất hiện:
- Nhắp vào CLICK ME
- Nhắp chọn Summ 1 Var Prop test

214
Hình 23

+ Trong mục Num Succeses: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị của m (đã nhập vào bảng tính Excel)
+ Trong mục Num Trias: Nhắp biểu tượng nhập dữ liệu , sau đó gõ địa chỉ ô
chứa giá trị của n, rồi bấm OK.
 Khi đó hộp thoại Proportion Test Setup xuất hiện:

Hình 24
- Step 1: Nhắp vào Set p0, rồi gõ giá trực tiếp giá trị của p0, rồi bấm OK.
- Step 2: Nhắp chọn mức ý nghĩa  : 0.01, 0.05, hoặc 0.10 (Nếu mức ý nghĩa 
mà đầu bài yêu cầu không rơi vào một trong 3 giá trị nêu trên thì ta nhắp vào
Other và gõ nhập trực tiếp giá trị  vào , rồi nhắp OK).

215
- Step 3: Nhắp chọn giả thuyết đối H1 là một trong ba dạng sau:
p < p0 hoặc p  p0 hoặc p > p0 .
- Step 4: Nhắp chọn Computer, kết quả kiểm định được cho trong bảng sau :

Hình 25
6.3.3 Kiểm định độ lệch chuẩn
Bước 1: Nhập dữ liệu định lượng vào một cột (hoặc hàng hay một bảng dữ
liệu) vào bảng tính Excel.
Bước 2: Nhắpvào DDXL/ Hypothesis Test , khi đó hộp thoại Hypothesis Test
Dialog xuất hiện:
- Nhắp vào CLICK ME
- Trong mục Function type, nhắp vào Chi- Square Cof Ints for SD

Hình 26
- Nhắp vào biểu tượng dữ liệu , sau đó gõ trực tiếp địa chỉ vùng chứa dữ
liệu kể cả hàng tiêu đề (chẳng hạn, từ ví dụ trên ta nhập địa chỉ A1:A10), tiếp

216
theo chọn mục Fist row is variable names ( để loại dòng tiêu đề ra khỏi tính
toán), rồi bấm OK.
 Khi đó cửa sổ Chi- square Tes for one Stadard Deviation xuất hiện: (hình
6-18)

Hình 27
- Step 1: Nhắp vào Set Hypothesized Sigma , rồi gõ trực tiếp giá trị của σ 0, rồi
bấm OK.
- Step 2: Nhắp chọn mức ý nghĩa  : 0.01, 0.05, hoặc 0.10 (Nếu mức ý nghĩa 
mà đầu bài yêu cầu không rơi vào một trong 3 giá trị nêu trên thì ta nhắp vào
Other và gõ nhập trực tiếp giá trị  vào , rồi nhắp OK).
- Step 3: Nhắp chọn giả thuyết đối H1 là một trong ba dạng sau:
σ < σ0 (Left Tailed) hoặc σ  σ0 (Two Tailed) hoặc σ > σ0 (RightTailed) .
- Step 4: Nhắp chọn Computer, kết quả kiểm định được cho trong bảng sau:

Hình 28

217
IV . Kiểm định dùng 2 mẫu
1. Kiểm định sự bằng nhau của hai giá trị trung bình
a) Xét trường hợp hai mẫu độc lập
a) Trường hợp hai phương sai của hai tổng thể σ12 và σ22 đã biết
- Trước tiên ta nhập các giá trị của từng mẫu vào hai cột khác nhau của bảng
tính Excel.
- Nhắp vào Tools/ Data Analysis , khi đó cửa số Data Analysis xuất hiện:

Hình 29

- Nhắp vào z- Test: Two Sample for Means, rồi bấm OK. Khi đó hộp thoại
z- Test: Two Sample for Means xuất hiện:

Hình 30
+ Trong mục Variable 1 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ nhất
(kể cả dòng tiêu đề);

218
+ Trong mục Variable 2 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ hai
(kể cả dòng tiêu đề).
+ Trong mục Hypothesized Mean Difference: nhập số 0.
+ Trong mục Variable 1 Variance (known): Nhập giá trị của σ12 .
+ Trong mục Variable 2 Variance (known): Nhập giá trị của σ22 .
+ Nhắp vào Labels (để loại dòng tiêu đề ra khỏi các tính toán).
+ Trong mục Alpha: Gõ trực tiếp mức ý nghĩa  mà bài toán yêu cầu.
+ Trong mục Output options: Nhắp vào Output range và nhập địa chỉ một ô
nào đó trong bảng tính để đưa ra bảng kết quả (bắt đầu từ ô đó)
+ Cuối cùng bấm OK
Ví dụ: Cho hai mẫu về điểm thi môn Thống kê của hai lớp A và B được cho
như sau:
Lớp A: 7, 6, 7, 5, 8, 9, 4, 6, 7, 3.
Lớp B: 5, 6, 4, 8, 7, 6, 4, 5, 8, 9, 5, 8.
Với mức ý nghĩa 5%, hãy cho biết điểm thi trung bình môn Thống kê của hai
lớp A và B có bằng nhau không? Giả thiết điểm thi của hai lớp là các biến
ngẫu nhiên có phân phối chuẩn với phương sai của điểm thi của lớp A bằng 3
và lớp B bằng 4.
- Trước tiên ta nhập điểm thi của hai lớp vào bảng tính Excel. Sau đó thực hiện
các lệnh như hướng dẫn ở trên, ta nhận được kết quả sau:

Hình 31
b) Trường hợp hai phương sai của hai tổng thể σ12 và σ22 đều chưa biết
nhưng giả thiết hai phương sai này bằng nhau

219
Cách 1:
- Nhập dữ liệu của hai mẫu vào hai cột khác nhau của bảng tính Excel.
- Nhắp vào Tools/ Data Analysis , khi đó cửa số Data Analysis xuất hiện:
- Nhắp chọn t test: Two- Sample Asuming Equal Variances, rồi bấm OK. Khi
đó cửa sổ t test: Two- Sample Asuming Equal Variances xuất hiện:

Hình 32
+ Trong mục Variable 1 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ nhất
(kể cả dòng tiêu đề);
+ Trong mục Variable 2 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ hai
(kể cả dòng tiêu đề).
+ Trong mục Hypothesized Mean Difference: nhập số 0.
+ Nhắp vào Labels ( để loại hàng tiêu đề cột ra khỏi các tính toán)
+ Trong mục Anpha: Gõ giá trị của  theo yêu cầu của đầu bài.
+ Trong mục Output options: Nhắp vào Output range và nhập địa chỉ một ô
nào đó trong bảng tính để đưa ra bảng kết quả.
+ Cuối cùng bấm OK.
* Cách 2 : Dùng DDXL

- Trước tiên nhập giá trị của hai mẫu vào hai cột khác nhau trong bảng tính
Excel.

- Nhắp vào DDXL/ Hypothesis Test

- Khi đó hộp thoại Hypothesis Tets Dialog xuất hiện:

+ Nhắp vào CLICK ME

220
+ Nhắp chọn 2 Var t Test

Hình 33

+ Trong mục 1 st Quantiative Variance, nhắp vào biểu tượng nhập dữ liệu ,
rồi nhập địa chỉ vùng dữ liệu của mẫu thứ nhất (nhập cả dòng tiêu đề của cột)

+ Trong mục 2 st Quantiative Variance, nhắp vào biểu tượng nhập dữ liệu ,
rồi nhập địa chỉ vùng dữ liệu của mẫu thứ hai (nhập cả dòng tiêu đề của cột).
+ Nhắp vào Fist row is variable name ( để loại hàng tiêu đề cột ra khỏi các
tính toán), rồi bấm OK.
Khi đó cửa sổ 2-Sample t Test Setup xuất hiện:

Hình 34

221
- Step 1: Nhắp vào 2- sample

- Step 2: Nhắp vào Set diference, rồi nhập 0 (là giá trị chênh lệch giữa 2
giá trị trung bình 1 và 2), rồi nhắp OK.

- Step 3: Nhắp vào mức ý nghĩa  theo bài toán yêu cầu.

- Step 4: Chọn giả thuyết đối H1 ( 1 < 2 hoặc 1  2 hoặc 1 > 2)

- Step 5: Nhắp vào Computer. Khi đó nhận được bảng kết quả và đọc kết
quả kiểm định.

Hình 35
c) Trường hợp hai phương sai của hai tổng thể σ12 và σ22 đều chưa biết nhưng
hai phương sai không bằng nhau
Cách làm tương tự như cách 1 ở trên: Sau khi nhập dữ liệu của hai mẫu vào hai
cột khác nhau của bảng tính Excel.
- Nhắp vào Tools/ Data Analysis , khi đó cửa số Data Analysis xuất hiện:
- Nhắp chọn t test: Two- Sample Asuming Unequal Variances, rồi bấm OK.
Khi đó cửa sổ t test: Two- Sample Asuming Unequal Variances xuất hiện:

222
Hình 36
+ Trong mục Variable 1 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ nhất
(kể cả dòng tiêu đề);
+ Trong mục Variable 2 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ hai
(kể cả dòng tiêu đề).
+ Trong mục Hypothesized Mean Difference: nhập số 0.
+ Nhắp vào Labels ( để loại hàng tiêu đề cột ra khỏi các tính toán)
+ Trong mục Anpha: Gõ giá trị của  theo yêu cầu của đầu bài.
+ Trong mục Output options: Nhắp vào Output range và nhập địa chỉ một ô
nào đó trong bảng tính để đưa ra bảng kết quả.
+ Cuối cùng bấm OK. Sau đó tương tự như cách 1 và đưa ra kết quả: Đọc kết
quả.
2. Xét trường hợp hai mẫu phụ thuộc ( mẫu phối hợp từng cặp)
Khi hai tổng thể không độc lập với nhau và đều có phân phối chuẩn mà chưa
biết hai phương sai σ12 và σ22 của chúng.
- Tổng thể thứ nhất theo dấu hiệu định lượng X được đặc trưng bởi biến ngẫu
nhiên X1 có phân phối chuẩn: X1 ~ N (1; σ12).
- Tổng thể thứ hai theo dấu hiệu định lượng X được đặc trưng bởi biến ngẫu
nhiên X2 có phân phối chuẩn: X2 ~ N (2; σ22).
Cần kiểm định sự bằng nhau của hai giá trị trung bình 1 và 2

223
Do hai tổng thể này không độc lập (phụ thuộc) nên các mẫu được lấy từ hai
tổng thể này có dạng mẫu phối hợp từng cặp (mẫu cặp): (x1, y1), (x2, y2), …,
(xk,yk).
Cách 1: Sau khi nhập dữ liệu mẫu cặp vào hai cột của bảng tính Excel, ta làm
như sau: Nhắp vào Tools/ Data Analysis , khi đó cửa số Data Analysis xuất
hiện:

Hình 37
- Nhắp chọn t-test: Paired Two Sample for Means rồi nhắp OK.
Khi đó cửa sổ t-test: Paired Two Sample for Means xuất hiện:

Hình 38

224
Trong mục Variable 1 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ nhất (kể
cả dòng tiêu đề);
+ Trong mục Variable 2 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ hai
(kể cả dòng tiêu đề).
+ Trong mục Hypothesized Mean Difference: nhập số 0.
+ Nhắp vào Labels ( để loại hàng tiêu đề cột ra khỏi các tính toán)
+ Trong mục Anpha: Gõ giá trị của  theo yêu cầu của đầu bài.
+ Trong mục Output options: Nhắp vào Output range và nhập địa chỉ một ô
nào đó trong bảng tính để đưa ra bảng kết quả.
+ Cuối cùng bấm OK. Khi đó nhận được bảng kết quả: Đọc kết quả.
Ví dụ: Để đánh giá hiệu quả của chế độ ăn kiêng trong việc giảm trọng lượng,
10 người đã được chọn để làm thử nghiệm chế độ ăn kiêng. Sau 6 tuần kết quả
được cho trong bảng dưới đây:
Người thử
1 2 3 4 5 6 7 8 9 10
nghiệm
Trọng lượng
trước ăn 190 202 177 160 225 180 196 208 185 177
kiêng
Trọng lượng
185 197 185 152 205 184 185 200 187 170
sau ăn kiêng

Hãy nhận định xem chế độ ăn kiêng có tác dụng làm giảm trọng lượng hay
không? Yêu cầu kết luận với mức ý nghĩa 5%.
Sau khi nhập dữ liệu mẫu cặp vào hai cột của bảng tính Excel, ta làm như thủ
tục đã trình bày và nhận được bảng kết quả sau: Đọc kết quả.

225
Cách 2 : Dùng DDXL

- Trước tiên nhập giá trị của hai mẫu vào hai cột khác nhau trong bảng tính
Excel và nhập giá trị 0 vào một ô của bảng tính.

- Nhắp vào DDXL/ Hypothesis Test

- Khi đó hộp thoại Hypothesis Tets Dialog xuất hiện:

Hình 39

- Nhắp vào CLICK ME

- Nhắp chọn Paeired t Test, rồi bấm OK.

- Trong mục 1 st Quantitative Variable, nhắp vào biểu tượng nhập dữ

liệu , rồi gõ địa chỉ vùng dữ liệu của mẫu 1.

- Trong mục 2 nd Quantitative Variable, nhắp vào biểu tượng nhập dữ

liệu , rồi gõ địa chỉ vùng dữ liệu của mẫu 2.

- Trong mục Pair Labels nhập địa chỉ ô chứa giá trị 0 (Giá trị 0 đã nhập
vào một ô trong bảng tính Excel), rồi bấm OK.

226
Hình 40
Khi đó cửa sổ Paired t- Test Setup xuất hiện:
- Step 1: Nhắp vào Set  (diff)0, rồi nhập 0 và nhắp OK.
- Step 2: Nhắp chọn mức ý nghĩa  (0.01 hoặc 0.05 hoặc 0.10 hoặc Other).
-Step 3: Nhắp chọn giả thuyết đối H1 ( 1 < 2 hoặc 1  2 hoặc 1 > 2)
- Step 4: Nhắp vào Computer. Khi đó nhận được bảng kết quả và đọc kết quả
kiểm định.

Hình 41

227
Ví dụ: Sử dụng DDXL đsể giải ví dụ trên.
Trước tiên ta nhập dữ liệu của mẫu cặp gồm trọng lượng của 10 nguời trước ăn
kiêng và sau ăn kiêng vào hai cột trong bảng tính Excel. Sau đó ta tiến hành
như thủ tục đã trình bày và thu được bảng kết quả sau:

Hình 42
3. Kiểm đinh sự bằng nhau của hai tỷ lệ (Dùng DDXL)
- Trước tiên ta nhập giá trị m1 (là số phần tử có dấu hiệu định tính A trong mẫu
1) vào một ô trong bảng tính của Excel và nhập giá trị n1 (là kích thước của
mẫu 1) vào một ô khác trong bảng tính của Excel. Tiếp theo nhập giá trị m2 (là
số phần tử có dấu hiệu định tính A trong mẫu 2) vào một ô trong bảng tính của
Excel và nhập giá trị n2 (là kích thước của mẫu 2) vào một ô khác trong bảng
tính của Excel.

- Nhắp vào DDXL/ Hypothesis Test. Khi đó hộp thoại Hypothesis Tets Dialog
xuất hiện:

- Nhắp vào CLICK ME, rồi nhắp chọn Summ 2 Var Prop Test, rồi bấm OK.

+ Trong mục Num Scceses 1: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị m1 .

+ Trong mục Num Triars 1: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị n1 .

228
+ Trong mục Num Scceses 2: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị m2 .

+ Trong mục Num Triars 2: Nhắp vào biểu tượng nhập dữ liệu , rồi gõ
địa chỉ ô chứa giá trị n2 (được cho ở hình 6-43), rồi bấm OK.

Hình 43
- Khi đó xuất hiện cửa số Proportion Test setup:

Hình 44

229
+ Step 1: Nhắp vào Set p, rồi nhập 0. Sau đó nhắp OK.
+ Step 2: Nhắp chọn mức ý nghĩa  (0.01 hoặc 0.05 hoặc 0.10 hoặc Other).
+ Step 3: Nhắp chọn giả thuyết đối H1 ( p1 < p2 hoặc p1  p2 hoặc p1 > p2)
+ Step 4: Nhắp vào Computer. Khi đó nhận được bảng kết quả và đọc kết quả
kiểm định.
6.4.3 Kiểm đinh sự bằng nhau của hai phương sai (hay hai độ lệch chuẩn)
của hai tổng thể
Cách 1: Sau khi nhập dữ liệu mẫu cặp vào hai cột của bảng tính Excel, ta làm
như sau:
- Nhắp vào Tools/ Data Analysis , khi đó cửa số Data Analysis xuất hiện:

Hình 45
- Nhắp chọn F -Tes Two- Sample for Variances rồi nhắp OK.
Khi đó cửa sổ F -Tes Two- Sample for Variances xuất hiện:

Hình 46

230
Trong mục Variable 1 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ nhất (kể
cả dòng tiêu đề);
+ Trong mục Variable 2 Range : nhập địa chỉ vùng dữ liệu của mẫu thứ hai
(kể cả dòng tiêu đề).
+ Nhắp vào Labels ( để loại hàng tiêu đề cột ra khỏi các tính toán)
+ Trong mục Anpha: Gõ giá trị của  theo yêu cầu của đầu bài.
+ Trong mục Output options: Nhắp vào Output range và nhập địa chỉ một ô
nào đó trong bảng tính để đưa ra bảng kết quả.

Cách 2: Dùng DDXL (kiểm định sự bằng nhau của hai độ lệch chuẩn)

- Trước tiên nhập giá trị của hai mẫu vào hai cột khác nhau trong bảng tính
Excel.

- Nhắp vào DDXL/ Hypothesis Test

- Khi đó hộp thoại Hypothesis Tets Dialog xuất hiện:

+ Nhắp vào CLICK ME


+ Nhắp chọn F- Test of SD

231
Hình 47
+ Trong mục 1 st Quantiative Variance, nhắp vào biểu tượng nhập dữ liệu

, rồi nhập địa chỉ vùng dữ liệu của mẫu thứ nhất (nhập cả dòng tiêu đề của
cột)

+ Trong mục 2 st Quantiative Variance, nhắp vào biểu tượng nhập dữ liệu ,
rồi nhập địa chỉ vùng dữ liệu của mẫu thứ hai (nhập cả dòng tiêu đề của cột).
+ Nhắp vào Fist row is variable name ( để loại hàng tiêu đề cột ra khỏi các
tính toán), rồi bấm OK.
Khi đó cửa sổ F Test of Standard Deaviations Setup xuất hiện: (hình

Hình 48

232
- Step 1: Nhắp vào mức ý nghĩa  theo bài toán yêu cầu.

- Step 2: Chọn giả thuyết đối H1 : σ1 <σ2 ( SD1-SD2 < diff ) hoặc

σ1  σ2 ( SD1-SD2  diff) σ1 >σ2 hoặc ( SD1-SD2 < diff )

- Step 3: Nhắp vào Computer. Khi đó nhận được bảng kết quả và đọc kết
quả kiểm định.

Hình 49

6.5. Phân tích phƣơng sai một nhân tố


- Trước tiên nhập dữ liệu của từng mẫu vào các cột của bảng tính Excel.
- Sau đó nhắp vào Tools/ Data Analysis, khi đó cửa số Analysis xuất hiện:

Hình 50

233
- Nhắp chọn Anova: Single Factor, rồi nhắp OK., Khi đó cửa sổ Anova:
Single Factor xuất hiện :

Hình 51
+ Trong mục Input Range, nhập địa chỉ của toàn bộ vùng dữ liệu của k
mẫu.
+ Trong mục Alpha ta nhập mức ý nghĩa của kiểm định mà bài toán
yêu cầu.
+ Nhắp tích vào mục Labels in First Row để loại dòng tiêu đề các cột
ra khỏi các tính toán.
+ Trong mục Ouput options ta nhắp chọn Output Range, rồi gõ địa chỉ
một ô nào đó để đưa ra kết quả ngay trong bảng tính hiện hành.
+ Cuối cùng bấm OK. Khi đó bảng kết quả được đưa ra và đọc kết quả.

- Sau đó thực hiện thủ tục đã nêu trên thì nhận được kết quả và đọc kết quả.

234
VI . Hƣớng dẫn sử dụng phần mềm SPSS

1. Giới thiệu chung sử dụng SPSS


* Khởi động SPSS: Để khởi động SPSS thì từ màn hình Windows hãy chọn:
Star → Program → SPSS for Windows →SPSS 17.0
(Hoặc nếu trên màn hình đã hiển thị sẵn SPSS thì nhắp đúp chuột trái vào biểu
tượng SPSS trên màn hình (SPSS Statictisc 17.0). Khi đó, màn hình Data
View (màn hình lưu trữ dữ liệu) xuất hiện.
SPSS có hai dạng màn hình (góc bên trái, phía dưới màn hình):
(1) Data View: Màn hình lưu trữ dữ liệu gồm các ô (giao của các cột và các
hàng như trong bảng tính Excel)
(2) Variable View: Màn hình quản lý biến. Màn hình này là nơi quản lý các
biến cùng với các thông số liên quan đến biến như sau:
- Name (tên biến)
- Type (loại biến)
- Label (Nhãn của biên) – giải thích rõ hơn tên biến
Chẳng hạn, tên biến là qc; nhãn của biến là Chi quảng cáo(X) hay tên biến là
dt; Nhãn của biến là Doanh thu (Y)
- Values (Giá trị biến): Các giá trị biến với ý nghĩa cụ thể.
- Missing (Giá trị khuyết thiếu): SPSS mặc định mỗi giá trị khuyết là một dấu
chấm và tự động loại bỏ các giá trị này ra khỏi các phân tích thống kê.
- Measures (Thang đo): Hiển thị dạng thang đo của các giá trị của biến.
* Khai báo biến và nhập số liệu
- Khai báo biến
Từ cửa số khai báo biến Variable View (nhắp trái chuột vào cửa số này ở
góc dưới bên trái màn hình):

235
*Đối với biến định lượng: khai báo tên biến : ở cột name (Đặt con trỏ vào
dòng kề sát dưới cùng với ô name) và gõ tên biến. Cần lưu ý rằng, tên biến
không quá 8 ký tự, không bắt đầu bằng một số và có dấu cách.
Khai báo kiểu biến: ở cột type, ta chọn kiểu, kích cỡ biến và có 2 ký tự phần
thập phân (ngầm định) cho biến này).
Khai báo nhãn biến: ở cột label , gõ nhãn biến (tên đầy đủ của biến định đặt).
Những nhãn này thể hiện đúng những gì mà chúng ta gõ vào, kể cả việc tùy
thuộc vào dạng phông chữ, dạng chữ thường hay chữ hoa được sử dụng trong
nhãn biến.
* Đối với biến định tính (gồm biến định danh không có thứ bậc hoặc biến định
danh có thứ bậc)
Ngoài khai báo như biến định lượng ở trên ta tiếp tục khai báo nhãn các giá trị
của biến ở cột value.
Để tạo nhãn các giá trị của biến ta nhắp vào cột values, sau đó nhắp vào phần
“ …” của cột. Khi đó hộp thoại value Label được mở ra, ta gõ lần lượt từng giá
trị của biến vào ô Value và nhãn (tên biến) tương ứng vào ô Value label. Sau đó
nhắp vào add cho từng giá trị một. Sau khi nhập xong tất cả các giá trị của biến
thì bấm OK.
Theo mặc định, giá trị của biến được thay vì nhãn của biến. Điều này có thể
thay đổi thông qua thủ tục View, value labels

Hình 52

236
Hình 53
b. Nhập dữ liệu
Nhập dữ liệu từ cửa số Data View, nhập trực tiếp số liệu trên các ô của SPSS
hay cũng có thể nhập số liệu vào Excel sau đó chuyển vào SPSS thông qua
menu File- open

Hình 54
Thí dụ 6.5: Thu thập dữ liệu về số tiền chi quảng cáo (X- triệu đồng) và doanh
số bán hàng (Y- tỷ đồng) của 8 công ty được chọn ngẫu nhiên trong một tháng
người ta thu được số liệu như sau:

237
STT công ty 1 2 3 4 5 6 7 8
Quảng cáo (X)
45 80 70 85 60 55 75 90
(triệu đồng)
Doanh thu (Y)
6 7 9 9 7 8 8 12
(tỷ đồng)
Ta khai báo biến và nhập dữ liệu như sau:

Hình 55
2.-íc l-îng kú väng (gi¸ trÞ trung b×nh)- khi chƣa biết phƣơng sai (độ lệch
chuẩn) của tổng thể:
§Ó -íc l-¬ng gi¸ trÞ trung b×nh ta dïng thñ tôc Explor…
Sau khi nhËp d÷ liÖu, ®Ó t¹o kÕt qu¶ ®Çu ra nµy ta ta chän:
Analyze
Descriptive Statistics
Explore…
Khi ®ã hép tho¹i Explore xuÊt hiÖn råi chän:
Dependent List: ( danh s¸ch biÕn)
tªn biÕn ( biÕn ®Þnh l-îng)
- Nh¾p Statistics, khi ®ã hép tho¹i Explore: Statistics xuÊt hiÖn, (trªn ®ã
mÆc ®Þnh ®é tin cËy 95%), nÕu yªu cÇu víi ®é tin cËy kh¸c th× th× gâ trùc
tiÕp ®é tin cËy ®ã vµo.

238
- Nh¾p nót continue, khi ®ã trë l¹i hép tho¹i Explore,
-BÊm OK
KÕt qu¶ ®-a ra 2 b¶ng: B¶ng Case Processing Summary vµ b¶ng Descriptive
Ví dụ: Số liệu được cho ở bài 8 trang 50. Với độ tin cậy 96%, cần ước lượng
chỉ số IQ trung bình của học sinh lưa tuổi 12-15 ở trường đó.

Descriptives

Statistic Std. Error

Chi so IQ Mean 82.6800 .42131

96% Confidence Interval for Lower Bound 81.7911


Mean
Upper Bound 83.5689

5% Trimmed Mean 82.7556

Median 83.0000

Variance 8.875

Std. Deviation 2.97911

Minimum 77.00

Maximum 87.00

Range 10.00

Interquartile Range 4.00

Skewness -.178 .337

Kurtosis -.927 .662

3. KiÓm ®Þnh gi¶ thiÕt vÒ kú väng cña biÕn ngÉu nhiªn ph©n phèi chuÈn
(kiÓm ®Þnh gi¸ trÞ trung b×nh- Khi chƣa biết phƣơng sai của tổng thể)
§Ó kiÓm ®Þnh gi¶ thiÕt d¹ng nµy ta dïng thñ tôc One-Sample T-Test
Sau khi nhËp sè liÖu, ®Ó t¹o kÕt qu¶ ®Çu ra nµy ta ta chän:
Analyze
Compare Means
One Sample T Test
Khi ®ã hép tho¹i One Sample T Test xuÊt hiÖn
Test Varianble (s): (tªn biÕn)

239
Test Value: ( 0)
Nh¾p nót OK
Ví dụ: Số liệu của bài 2 trang 183 , ta có kết quả sau:

One-Sample Statistics

N Mean Std. Deviation Std. Error Mean

Thoi gian 8 4.8000 .31623 .11180

One-Sample Test

Test Value = 5

95% Confidence Interval of the


Difference

t df Sig. (2-tailed) Mean Difference Lower Upper

Thoi gian (phut) -1.789 7 .117 -.20000 -.4644 .0644

4. KiÓm ®Þnh gi¶ thiÕt vÒ sù b»ng nhau cña hai kú väng (Hai gi¸ trÞ trung
b×nh) cña hai biÕn ngÉu nhiªn ®éc lËp ph©n phèi chuÈn (Khi chưa biết
phương sai của 2 tổng thể )- Bµi to¸n kiÓm ®Þnh hai mÉu víi mét biÕn d¹ng m·

sè kh«ng thø bËc (two –Samples T Test fos a Variable with Unordered Numer
Codes) vµ ch-a biÕt ph-¬ng sai  12 vµ  2 cña hai ph©n phèi chuÈn.
2

Ta gi¶ thiÕt hai ph-¬ng sai  12 =  2


2

§Ó kiÓm ®Þnh gi¶ thiÕt d¹ng nµy ta dïng thñ tôc Independent…
Sample T-Test
Sau khi nhËp sè liÖu, ®Ó t¹o kÕt qu¶ ®Çu ra nµy ta ta chän:
Analyze
Compare Means
Independent…Sample T-Test -
H·y nh¾p nót Reset ®Ó phôc håi héi tho¹i vµ sau ®ã chän:
Test Varianble (s): (biÕn ®Þnh l-îng)
Grouping variable: (biÕn lËp nhãm-hay biÕn ®Þnh tÝnh)

240
Nh¾p nót Define Variable .
Khi ®ã hép tho¹i Define Variable më ra:
Group 1: 1 (m· haygi¸ trÞ biÕn ®Þnh danh thø nhÊt)
Group 2: 2 (m· haygi¸ trÞ biÕn ®Þnh danh thø hai)
Nh¾p nót Continue, trë vÒ hép tho¹i Define Variable. Nh¾p nót OK.
Chó ý: §Ó chuyÓn vÞ b¶ng Indepent Samples Test, , tõ thanh menus h·y chän:
Pivot Transpose Rows and Columns.
Thí dụ 4.10- trang 147, ta có kết quả sau:
Group Statistics

Vung N Mean Std. Deviation Std. Error Mean

Chieu cao (cm) Vùng A 10 1.6930E2 3.33500 1.05462

Vùng B 12 1.6992E2 3.77692 1.09030

Independent Samples Test

Chieu cao (cm)

Equal Equal
variances variances not
assumed assumed

Levene's Test for F .073


Equality of Variances
Sig. .789

t-test for Equality of t -.402 -.407


Means
df 20 19.910

Sig. (2-tailed) .692 .689

Mean Difference -.61667 -.61667

Std. Error Difference 1.53492 1.51690

95% Confidence Interval of Lower -3.81846 -3.78178


the Difference Upper 2.58512 2.54844

5. KiÓm ®Þnh gi¶ thiÕt vÒ sù b»ng nhau cña hai kú väng (Hai gi¸ trÞ trung
b×nh) cña hai biÕn ngÉu nhiªn phô thuéc ph©n phèi chuÈn ( ph-ong ph¸p
so s¸nh cÆp hoÆc phô thuéc)
§Ó kiÓm ®Þnh so s¸nh mÉu cÆp nµy ta dïng thñ tôc Paired … Samples T Test

241
Sau khi nhËp sè liÖu ( Sè liÖu d-íi d¹ng ghÐp cÆp: hai biÕn (hai cét)) ®Ó tao kÕt
qu¶ ®Çu ra ta chän:
Analyze
Compare Means
Paired Samples T Test
Khi ®ã hép tho¹i Paired Samples T Test xuÊt hiÖn, nh¾p Reset ®Ó phôc håi
c¸c mÆc ®Þnh cña hép tho¹i.
- Chän cÆp biÕn (b»ng c¸ch kÝch chuét lÇn l-ît vµo hai biÕn nµy ë cöa sæ tªn
biÕn ®Ó tªn tõng biÕn hiÖn trong khung Current Selection
- Sau ®ã kÝch nót chuyÓn  ®Ó cÆp biÕn nµy chuyÓn vµo cöa sæ Paired
Variabes
- Chän trong Options …kho¶ng tin cËy 95%.
- BÊm OK.
Thí dụ 4.11 (trang 148), ta có kết quả sau:
Paired Samples Statistics

Mean N Std. Deviation Std. Error Mean

Pair 1 Diem TB nam 1 7.6629 7 1.69300 .63989

Diem TB nam 2 7.6414 7 1.73176 .65454

Paired Samples Test

Pair 1

Diem TB nam 1 -
Diem TB nam 2

Paired Differences Mean .02143

Std. Deviation .25242

Std. Error Mean .09540

95% Confidence Interval of Lower -.21202


the Difference
Upper .25488

t .225

df 6

Sig. (2-tailed) .830

242
6. M« h×nh ph©n tÝch ph-¬ng sai mét nh©n tè (One- Way Analysis of
Variance)
§Ó t¹o ®-îc kÕt qu¶ ®Çu ra nµy,xuÊt ph¸t tõ mµn h×nh Data Editor tõ thanh
menus h·y chän:
Analyze
Compare Means
One- Way ANOVA
Khi ®ã hép tho¹i One- Way ANOVA: Option ®-îc më ra
Dependent List:
 (biÕn ®Þnh l-îng
Factor ( Nh©n tè)
 (biÕn lËp nhãm- biÕn ®Þnh tÝnh )
Chän Option
Khi ®ã hép tho¹i One- Way ANOVA: Option ®-îc më ra
Statistics
Descriptive
Homogeneily-of-variance
Nh¾p nót continue
Trë vÒ hép tho¹i One- Way ANOVA
Nh¾p nót OK
Chó ý: §Ó ®äc kÕt qu¶ cho râ ta cã thÓ chuyÓn vÞ b¶ng Descriptives b»ng thñ
tôc Pivot Table.
7 .KiÓm ®Þnh phi tham sè- Tiêu chuẩn “Chi bình phƣơng”
( Kiểm định tính độc lập- Kiểm định sự bằng nhau của k tỷ lệ- So sánh nhiều
phân phối)
Để tạo kết quả đầu ra ta sử dụng thủ tục Crosstabs như sau:
Sau khi nhập số liệu, để tạo kết quả đầu ra này, từ thanh menus chọn:
Analyze/ Discriptive Statistics/ Crosstabs…, khi đó hộp thoại Crosstabs xuất
hiện:

243
Hình 56
+ Nhắp nút Reset để khôi phục các mặc định của hộp thoại, sau đó lựa chọn:
+ Trong mục Row (s): Nhập biến dòng
+ Trong mục Column (s): Nhập biến cột
+ Nhắp nút Statistics…, khi đó hộp thoại Crosstabs: Statistics được mở ra,
ta nhắp chọn:

Hình 57
+ Nhắp chọn Chi- Square

244
+ Sau đó nhắp nút Continue, khi đó trở lại hộp thoại Crosstabs ban đầu, rồi
cuối cùng nhắp nút OK.
Ta có kết quả được cho như sau:
Tinh trang pham toi * Hoan canh gia dinh
Crosstabulation

Hoan canh gia dinh

Bo hoac
me da Bo me Con ca
chet ly hon bo me Total

Tinh trang Khong 20 25 18 63


pham toi pham toi

Pham toi 29 43 13 85
Total 49 68 31 148

Chi-Square Tests

Asymp. Sig.
Value Df (2-sided)

Pearson Chi-Square 4,043a 2 ,132


Likelihood Ratio 4,012 2 ,135
Linear-by-Linear 1,674 1 ,196
Association
N of Valid Cases 148
a. 0 cells (,0%) have expected count less than 5. The
minimum expected count is 13,20.

245
TÀI LIỆU THAM KHẢO

1. Douglas C . Montgomery and George C. Runer. - Applied Statistics and


probability for engineers.
2. Đào Hữu Hồ- Thống kê Xã hội học (Xác suất thống kê B)- NXB Khoa học xã
hội- 2004.
3. Trần Thái Ninh- Hướng dẫn giải bài tập xác suất và thống kê toán- NXB
Thống kê- 2002.
4. Mark W, Speece, Đoàn Thanh Tuấn, Lục Thị Thu Hương- Nghiên cứu tiếp
thị thực hành- NXB Thống kê -1998.
5. Hồ Đăng Phúc- Sử dụng phần mềm SPSS trong phân tích số liệu- NXB Khoa
học và kỹ thuật- 2005
6.Tống đình Quỳ- Giáo trình Xác suất thống kê- NXB Đại học quốc gia 2003.
7. Đặng Hùng Thắng- Mở đầu về lý thuyết xác suât và các ứng dụng - NXB
Giáo dục - 1998
8. Đặng Hùng Thắng- Bài tập xác suất - NXB Giáo dục 1998
9. Đặng Hùng Thắng- Thống kê ứng dụng- NXB Giáo dục 1999
10. Đặng Hùng Thắng- Bài tập thống kê - NXB Giáo dục 2000.
11. Đỗ Huyền Trang- Giáo trình Xác suất thống kê- NXB Giao thông vận tải-
2006.
12. Hoàng Trọng và Chu nguyễn Mộng Ngọc- Thống kê ứng dụng trong kinh tế
xã hội- NXB Thống kê 2008.
13. Nguyễn Cao Văn Trần Thái Ninh- Giáo trình Lý thuyết xác suất và thống kê
toán- Nhà xuất bản khoa học và kỹ thuật - 2002.
14. Vincent Giard- Thống kê ứng dụng trong quản lý (dịch từ bản tiếng Pháp)-
NXB Thanh niên- 1999.

246
247

You might also like