Download as pdf or txt
Download as pdf or txt
You are on page 1of 35

Chương 1

Mẫu thống kê và phân phối mẫu

Nội dung
1.1 Một số khái niệm cơ bản của thống kê

1.2 Thống kê mô tả

1.3 Mẫu ngẫu nhiên

1.4 Phân phối mẫu

Mục tiêu
Giúp sinh viên

1. Giải thích khái niệm về trung bình tổng thể, phương sai tổng thể, mẫu ngẫu nhiên và
một số thống kê thông dụng.

2. Tính toán và giải thích giá trị trung bình mẫu, trung vị mẫu, phương sai mẫu, độ lệch
chuẩn mẫu.

3. Biểu diễn dữ liệu và giải thích biểu đồ trực quan.

4. Giải thích vai trò quan trọng của phân phối mẫu.

5. Hiểu và áp dụng được Định lý giới hạn trung tâm cùng phân phối chuẩn, phân phối
Chi-bình phương, phân phối t (Student), phân phối F (Fisher).

6. Sử dụng phần mềm thống kê R nhập dữ liệu và thao tác với dữ liệu.

38
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

1.1 Một số khái niệm cơ bản của thống kê

1.1.1 Thống kê là gì?


Thống kê (Statistics) gần gũi với những người đang học, nghiên cứu, hoạt động làm việc ở
các ngành nghề, lĩnh vực liên quan đến dữ liệu: phân tích dữ liệu (Data Alalytics), Khoa học
dữ liệu (Data Science). Thống kê, được nhiều chuyên gia cho rằng, là kiến thức nền tảng, cơ
sở để ta bắt đầu tìm hiểu được, học được, trích xuất được những thông tin hữu ích, có giá trị
từ bộ dữ liệu. Thống kê đã ra đời từ lâu, nhưng gần đây mới nhận được nhiều sự quan tâm
của các tổ chức, doanh nghiệp. Nguyên nhân xuất phát từ sự phát triển của khoa học công
nghệ dữ liệu lớn (Big Data); Internet vạn vật (Internet of Things); xu hướng ứng dụng phổ
biến những thành tựu Trí tuệ nhân tạo (Al), Máy học (Machine Learning) vào hoạt động kinh
doanh, đời sống xã hội. . . đang gia tăng. Định hướng dữ liệu đã dần trở thành chiến lược cốt
lõi, khi nhiều công ty dựa vào dữ liệu để ra quyết định, coi dữ liệu là tài sản quan trọng nhất.
Thống kê giúp các nhà phân tích có cái nhìn chi tiết, sâu sắc về dữ liệu, cũng như các biến, các
đối tượng có trong dữ liệu hỗ trợ nhiều trong việc ra quyết định và dự báo trong tương lai.

a) Khái niệm thống kê


Ta tìm hiểu bốn khái niệm sau đây về thống kê:

1. “Thống kê là một khoa học đồng thời là một công nghệ cung cấp cho ta những phương
pháp, công cụ để thu thập và tạo dữ liệu, trình bày và phân tích dữ liệu để hiểu nội
dung ẩn chứa trong dữ liệu. Từ đó rút ra những thông tin, tri thức hữu ích và đưa ra
những quyết định, chính sách thích hợp”.1

2. “Thống kê là nghệ thuật và khoa học của thiết kế các nghiên cứu và phân tích dữ liệu
mà những nghiên cứu đó tạo ra. Mục tiêu cuối cùng của nó là chuyển dữ liệu thành kiến
thức và hiểu biết về thế giới xung quanh chúng ta. Thống kê là khoa học học hỏi từ dữ
liệu liên quan đến việc thu thập, phân loại, tóm tắt, tổ chức, phân tích, trình bày và giải
thích thông tin dữ liệu”2 .

3. “Thống kê là khoa học của việc thu thập, tổ chức, trình bày, phân tích và diễn giải dữ
liệu để giúp đưa ra quyết định hiệu quả hơn"3 .

4. “Thống kê là nghệ thuật và khoa học của việc thu thập, phân tích, trình bày và giải thích
dữ liệu. Riêng trong kinh doanh và kinh tế, thông tin được cung cấp bằng cách thu thập,
phân tích, trình bày và giải thích dữ liệu giúp nhà quản lý và người ra quyết định hiểu
1 Đặng Hùng Thắng, Trần Mạnh Cường (2019), Thống kê cho Khoa học xã hội và Khoa học sự sống, NXB Đại học Quốc gia Hà Nội
2 "Statistics: The Art and Science of Learning from Data" (4th Global Edition 2018) – NXB Pearson
3 "Basic Statistics for Business and Economics” (9th Edition 2019), NXB Mc Graw Hill

1.1. Một số khái niệm cơ bản của thống kê 39


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

rõ hơn về môi trường kinh doanh và kinh tế và do đó cho phép họ đưa ra quyết định
sáng suốt hơn và tốt hơn”4 .

b) Tầm quan trọng của thống kê


1. Lý do phải học thống kê:

(a) Dữ liệu sau khi thu thập cần được áp dụng kiến thức thống kê để chuyển đổi thành
các thông tin hữu ích.
(b) Các kỹ thuật thống kê được sử dụng không chỉ để đưa ra các quyết định chuyên
nghiệp (ví dụ kết luận kinh doanh ở một công ty) mà còn ở các quyết định cá nhân.
(c) Bất kể làm công việc gì cũng cần có kiến thức về thống kê để hiểu thêm về thế giới
xung quanh và hỗ trợ tăng sự hiệu quả, năng suất cho công việc.

2. Việc nghiên cứu một hiện tượng xã hội thường được bắt đầu bằng một giả thuyết. Tiếp
theo để kiểm nghiệm giả thuyết đó. Một quy trình phải được tiến hành với các bước:

(a) Thiết kế, thu thập dữ liệu (loại dữ liệu nào cần thu thập; dùng cách nào để thu
thập; cần bao nhiêu dữ liệu).
(b) Tổng hợp, phân tích, diễn dịch ý nghĩa của dữ liệu để hiểu nội dung dữ liệu.
(c) Trên cơ sở nhận thức nội dung dữ liệu đã thu thập và phân tích đưa ra những nhận
định về giả thuyết đó.

Mỗi một quy trình trên đều cần sử dụng các phương pháp thống kê. Các phương pháp
thống kê giúp cho các nhà nghiên cứu trong lĩnh vực này thu thập dữ liệu và thiết kế
thí nghiệm đúng đắn. Sau khi hoàn thành một thí nghiệm, nhà nghiên cứu cần sử dụng
thống kê để đánh giá kết quả thí nghiệm là có ý nghĩa hay chỉ mang tính ngẫu nhiên, ăn
may.

3. Một nhà xã hội học nổi tiếng có nói một cách hình ảnh rằng: “Thiếu khoa học thống kê,
nhà nghiên cứu xã hội học chẳng khác nào một người mù mò mẫm trong căn nhà kho
tối đen để tìm được một con mèo đen mà có khi nó đã không còn ở trong đó nữa”.

Dưới đây là một số ví dụ.

Ví dụ 1.1. 1. Wal–Mart, một hãng bán lẻ hàng đầu trên thế giới, đã thu thập thông tin về
tất cả các giao dịch hành vi mua sắm của khách hàng một cách tự động bằng cách quét
mã vạch trên các sản phẩm khách hàng mua. Hãng sử dụng đội ngũ các nhà thống kê
để phân tích khối dữ liệu khổng lồ đó. Những thông tin rút ra được giúp các nhà quản
lý đưa ra các biện pháp để tăng doanh số bán hàng. Ví dụ, Wal-Mark đã quyết định sắp
4 "Statistics for Business and Economics" (13th Edition 2017) của Senpage Learning

1.1. Một số khái niệm cơ bản của thống kê 40


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

mặt hàng bia và mặt hàng tã lót dùng một lần gần nhau khi phân tích dữ liệu cho thấy
nhiều khách hàng nam cũng mua bia khi họ đến cửa hàng mua tã lót cho con.

2. Để chứng minh rằng việc hút thuốc lá có liên quan đến bệnh ung thư phổi, nhà nghiên
cứu khảo sát hai nhóm người, một nhóm hút thuốc và một nhóm không hút thuốc và so
sánh tỷ lệ mắc ung thư phổi của hai nhóm này. Nếu thấy rằng tỷ lệ ung thư phổi trong
nhóm hút thuốc cao hơn thì cần chứng tỏ rằng sự khác biệt này có ý nghĩa thống kê chứ
không đơn thuần là ngẫu nhiên. Nếu sự khác biệt này chưa đủ lớn để có ý nghĩa thống
kê thì nhà nghiên cứu phải tiếp tục khảo sát, nghiên cứu thêm.

1.1.2 Tổng thể và mẫu


Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên có
tính chất số lớn trên cơ sở thu thập và xử lý số liệu thống kê các kết quả quan sát về những
hiện tượng ngẫu nhiên này. Nếu ta thu thập được các số liệu liên quan đến tất cả đối tượng
cần nghiên cứu thì ta có thể biết được đối tượng này (phương pháp toàn bộ). Tuy nhiên trong
thực tế điều đó không thể thực hiện được vì quy mô của các đối tượng cần nghiên cứu quá
lớn hoặc trong quá trình nghiên cứu đối tượng nghiên cứu bị phá hủy. Vì vậy cần lấy mẫu để
nghiên cứu.

a) Tổng thể
Khi nghiên cứu các vấn đề về kinh tế–xã hội, cũng như nhiều vấn đề thuộc các lĩnh vực
vật lý, sinh vật, quân sự . . . thường dẫn đến khảo sát một hay nhiều dấu hiệu (định tính hoặc
định lượng) thể hiện bằng số lượng trên nhiều phần tử. Tập hợp tất cả các phần tử này gọi là
tổng thể hay đám đông (population). Số phần tử trong tổng thể có thể rất lớn (tổng thể là loài
người) cũng có thể rất nhỏ (tổng thể các con gấu trúc). Cần nhấn mạnh rằng ta không nghiên
cứu trực tiếp bản thân tổng thể mà chỉ nghiên cứu dấu hiệu nào đó của nó.
Ký hiệu N là số phần tử của tổng thể; X là dấu hiệu cần khảo sát.

Ví dụ 1.2. (a) Muốn điều tra thu nhập bình quân của các hộ gia đình ở Hà Nội thì tổng thể
cần nghiên cứu là các hộ gia đình ở Hà Nội, dấu hiệu nghiên cứu là thu nhập của từng
hộ gia đình (dấu hiệu định lượng).

(b) Một doanh nghiệp muốn nghiên cứu các khách hàng của mình về dấu hiệu định tính
có thể là mức độ hài lòng của khách hàng đối với sản phẩm hoặc dịch vụ của doanh
nghiệp, còn dấu hiệu định lượng là số lượng sản phẩm của doanh nghiệp mà khách
hàng có nhu cầu được đáp ứng.

Ví dụ 1.3. Một nhà máy sản xuất 500000 sản phẩm. Ta muốn đánh giá tỷ lệ phế phẩm trong
các sản phẩm của nhà máy. Tổng thể cần nghiên cứu là 5000000 sản phẩm của nhà máy. Dấu
hiệu nghiên cứu là tỷ lệ phế phẩm trong các sản phẩm của nhà máy.

1.1. Một số khái niệm cơ bản của thống kê 41


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

b) Một số lý do không thể khảo sát toàn bộ tổng thể


1. Do quy mô của tập hợp cần nghiên cứu quá lớn nên việc nghiên cứu toàn bộ sẽ đòi hỏi
nhiều chi phí về vật chất và thời gian, có thể không kiểm soát được dẫn đến bị chồng
chéo hoặc bỏ sót.

2. Trong nhiều trường hợp không thể nắm được toàn bộ các phần tử của tập hợp cần
nghiên cứu, do đó không thể tiến hành toàn bộ được.

3. Có thể trong quá trình điều tra sẽ phá hủy đối tượng nghiên cứu. . .

Do đó thay vì khảo sát tổng thể, ta chỉ cần chọn ra một tập nhỏ để khảo sát và đưa ra quyết
định.

c) Mẫu
Thông thường quy mô của một tổng thể là rất lớn. Vì thế người ta thường chọn ra một tập
hợp con các cá thể để nghiên cứu. Việc chọn ra từ tổng thể một tập hợp con nào đó được gọi
là phép lấy mẫu. Tập hợp con được chọn được gọi là mẫu (sample). Số cá thể trong mẫu được
gọi là kích thước mẫu, ký hiệu là n.

Ví dụ 1.4. Với số liệu trong Ví dụ 1.3, ta không có đủ thời gian và tiền bạc để xem xét toàn
bộ 5000000 sản phẩm. Ta chọn ra một mẫu gồm 500 sản phẩm để kiểm tra và phát hiện có 20
sản phẩm mắc lỗi. Tỷ lệ phế phẩm trong mẫu kiểm tra này là 20/500 = 0, 04 = 4%. Từ đó, ta
nhận định tỷ lệ phế phẩm của nhà máy này khoảng 4%.

Ví dụ 1.5. Ta muốn đánh giá số giờ sử dụng Facebook trong một ngày của một kỹ sư kỹ thuật.
Vì số kỹ sư kỹ thuật rất lớn, nên ta không thể khảo sát tất cả các kỹ sư được, mà chỉ chọn ngẫu
nhiên một mẫu gồm n = 50 kỹ sư để khảo sát và giả sử tìm được số giờ trung bình dùng
Facebook của 50 kỹ sư này là 2,7 giờ/ngày. Con số này cho ta một hình ảnh về việc sử dụng
Facebook của các kỹ sư kỹ thuật.

Trong các chương tiếp theo ta sẽ nghiên cứu tổng thể thông qua mẫu. Nói nghiên cứu tổng
thể có nghĩa là nghiên cứu một hoặc một số đặc trưng nào đó của tổng thể. Khi đó, ta không
thể đem tất cả các phần tử trong tổng thể ra nghiên cứu (vì số lượng lớn và các phần tử bị
hỏng nên vừa không đạt mục đích vừa không kinh tế) mà chỉ lấy một số phần tử trong tổng
thể ra nghiên cứu và làm sao qua việc nghiên cứu này có thể kết luận được về một hoặc một
số đặc trưng của tổng thể mà ta quan tâm ban đầu.
Các kết luận suy diễn từ mẫu có đáng tin cậy không? Câu nói nổi tiếng của Mark Twain,
nhà văn Anh “Có ba kiểu nói dối: Nói dối, nói dối trắng trợn và thống kê” (“Thera are three
kinds of lies: Lies, Damned lies and Statistics”). Tuy nhiên, thống kê không nói dối. Kết quả
sai (mà ta gọi là dối trá) do thống kê đưa ra là do phương pháp lấy mẫu không đúng:

1.1. Một số khái niệm cơ bản của thống kê 42


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

1. Việc lấy mẫu đã được tiến hành không khách quan, theo hướng có lợi cho người nghiên
cứu.

2. Mẫu được chọn không đại diện.

Ví dụ 1.6. Để điều tra mức thu nhập trung bình của sinh viên tốt nghiệp đại học mới ra
trường, nếu mẫu được chọn trong số các sinh viên tốt nghiệp ngành Công nghệ thông tin thì
rõ ràng mức lương trung bình trong mẫu không phản ánh trung thực mức lương trung bình
của sinh viên mới ra trường nói chung.

Các kết luận suy diễn từ mẫu có đáng tin cậy chỉ đạt được nếu mẫu được chọn phản ánh
trung thực, thực sự đại diện cho tổng thể. Do đó vấn đề chọn mẫu là một vấn đề rất quan
trọng và phong phú của thống kê. Các kỹ thuật chọn mẫu đúng đắn sẽ giúp ta đảm bảo được
tính đại diện trung thực cho tổng thể.

d) Một số kỹ thuật lấy mẫu cơ bản


Để trả lời cho câu hỏi đặt ra là làm sao chọn được tập mẫu có tính chất tương tự như tổng
thể để các kết luận của tập mẫu có thể dùng cho tổng thể, ta sử dụng một trong những cách
chọn mẫu sau:

1. Lấy mẫu ngẫu nhiên: mỗi cá thể của tổng thể được chọn một cách độc lập với xác suất
như nhau.

2. Lấy mẫu theo khối: Tổng thể được chia làm N khối, mỗi khối xem là một tổng thể con.
Chọn ngẫu nhiên ra m khối trong N khối đó. Tập hợp tất cả các cá thể của m khối được
chọn sẽ được lập thành một mẫu để khảo sát.
Phương pháp này được áp dụng khi ta không liệt kê danh sách tất cả các cá thể trong
tổng thể.

3. Lấy mẫu phân tầng: Chia tổng thể ra một số tầng, sao cho các cá thể trong mỗi tầng khác
nhau càng ít càng tốt. Mỗi tầng được coi là một tổng thể con. Trong mỗi tầng ta sẽ thực
hiện việc lấy mẫu ngẫu nhiên.
Phương pháp này được sử dụng khi các cá thể quá khác nhau về vấn đề mà nhà nghiên
cứu đang quan tâm khảo sát.

Ví dụ 1.7. Tại một doanh nghiệp có 20000 kỹ sư được tuyển chọn từ các hệ đào tạo khác nhau,
trong đó, có 10000 kỹ sư học đại học chính quy, 2000 kỹ sư học liên thông, 2000 kỹ sư học văn
bằng hai, 5000 kỹ sư học tại chức và 1000 kỹ sư học sau đại học. Bộ phận tổ chức cán bộ tiến
hành một cuộc khảo sát về mức độ hài lòng và chất lượng công việc. Chọn ngẫu nhiên 1000
kỹ sư để khảo sát. Xem mỗi hệ đào tạo là một tầng, số kỹ sư được đào tạo ở mỗi tầng được
chọn như sau:

1.1. Một số khái niệm cơ bản của thống kê 43


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Hệ đào tạo Số kỹ sư % kỹ sư Số kỹ sư được chọn


Chính quy 10000 50 500
Liên thông 2000 10 200
Văn bằng hai 2000 10 200
Tại chức 2000 10 200
Sau đại học 1000 5 50
Tổng 20000 100 1000

1.1.3 Biến và dữ liệu


Biến là một dấu hiệu ta đang quan tâm nghiên cứu trên tổng thể. Ta gọi nó là biến vì nó
thay đổi từ cá thể này sang cá thể khác. Biến có thể là định lượng hay định tính.

a) Biến và dữ liệu định lượng


Biến gọi là biến định lượng nếu nó có thể đo được trên mỗi cá thể và có giá trị là một số. Ta
gọi đó là giá trị của biến.

Ví dụ 1.8. Đối tượng nghiên cứu là số giờ làm thêm trong một tuần của sinh viên Đại học
Bách khoa Hà Nội. Tổng thể ở đây là tập hợp toàn bộ sinh viên Đại học Bách khoa Hà Nội.
Mỗi sinh viên Đại học Bách khoa Hà Nội là một cá thể. Biến ở đây là số giờ làm thêm trong
một tuần. Giá trị của biến là số thực không âm.

Tập hợp các giá trị của biến định lượng trên toàn bộ tổng thể cho ta dữ liệu định lượng.
Theo ngôn ngữ toán học, biến định lượng là một ánh xạ X từ tổng thể P vào tập hợp số thực
R. Tập giá trị X (P ) là dữ liệu định lượng. Tập hợp các giá trị của biến định lượng trên một
mẫu lấy ra từ tổng thể gọi là mẫu số liệu.

Ví dụ 1.9. Để tìm hiểu mức lương hằng năm của các nhân viên trong các công ty nhỏ ở địa
phương A, chọn ngẫu nhiên một mẫu gồm 20 nhân viên làm việc trong các công ty nhỏ trong
một năm. Biến định lượng ở đây là thu nhập của nhân viên trong một năm. Kết quả cho ta
mẫu số liệu sau (đơn vị: nghìn đô la)

48 23 27 46 24 28 17 39 43 35
53 45 14 24 21 41 31 23 18 19

Đơn vị đo cho biến định lượng: Bao gồm đơn vị đo khoảng (interval scale) và đơn vị đo tỷ lệ
(ratio scale).

Nhận xét 1.1. (a) Ở đơn vị đo khoảng, giá trị 0 (điểm gốc của đơn vị đo) có thể lấy tùy ý; Ở
đơn vị đo tỷ lệ, giá trị 0 là một trị số thật.

1.1. Một số khái niệm cơ bản của thống kê 44


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

(b) Cả hai đơn vị đo đều cho phép ta đo lường chính xác sự khác nhau giữa hai giá trị bất
kỳ.

(c) Trong đơn vị đo tỷ lệ, tỷ lệ giữa hai giá trị không thay đổi khi thay đổi đơn vị đo tỷ lệ;
trong khi ở đơn vị đo khoảng tỷ lệ giữa hai giá trị sẽ thay đổi khi thay đổi đơn vị đo
khoảng.

Ví dụ 1.10 (Ví dụ về giá trị 0 trong đơn vị đo cho biến định lượng).

(a) Giả sử biến định lượng là nhiệt độ ngày 01/01 hằng năm. Ta có thể lấy đơn vị đo là: độ
C (Celsius); độ F (Fahrenheit); độ K (nhiệt độ tuyệt đối). Giá trị 0 độ ở ba đơn vị này là
khác nhau:

0◦ C = 32◦ F; 0◦ C = 273, 15◦ K; 1◦ C = 33, 8◦ F; 1◦ C = 274, 15◦ K.

(b) Giả sử biến định lượng là số tiền trong tài khoản của bạn ngày 01/01 hằng năm. Ta có
thể lấy đơn vị đo là: VNĐ hoặc USD. Bạn có thể có trong tài khoản 5 triệu hay 10 triệu
VNĐ hoặc có 5000 hay 10000 USD. Tuy nhiên giá trị 0 dù ở đơn vị tiền tệ nào cũng có
nghĩa là tài khoản của bạn không có đồng nào.

Ví dụ 1.11 (Ví dụ về tỷ lệ trong đơn vị đo cho biến định lượng). (a) Giả sử tài khoản bạn A
có 5 triệu VNĐ, tài khoản bạn B có 10 triệu VNĐ. Như vậy tài khoản bạn B có giá trị gấp
đôi tài khoản bạn A. Nếu đổi đơn vị đo là đô la Mỹ, Bảng Anh, Yên Nhật thì giá trị tài
sản bạn B vẫn gấp đôi giá trị tài sản bạn A.

(b) Nhiệt độ ngày 01/01 năm nay là 12◦ C = 53, 6◦ F và nhiệt độ ngày 01/01 năm ngoái là
6◦ C = 42, 8◦ F. Như vậy nhiệt độ ngày 01/01 năm nay gấp đôi năm ngoái nếu theo đơn
53,6
vị ◦ C, nhưng chỉ gấp 42,8 = 1, 252 nếu theo đơn vị ◦ F.

b) Biến và dữ liệu định tính


Trên thực tế có những biến mà không thể gán giá trị bằng số cho nó tức là không thể đo
đạc bằng số. Chẳng hạn như màu mắt, màu tóc, cảm giác hạnh phúc. . . Biến này gọi là biến
định tính. Biến được gọi là biến định tính nếu giá trị của biến đó trên mỗi cá thể là việc gán
cho cá thể đó một thuộc tính hay gán nó vào một phạm trù, mức độ nào đó. Giá trị của biến
định tính là một trong các phạm trù (thuộc tính) mà nhà nghiên cứu đưa ra.

Ví dụ 1.12. Đối tượng nghiên cứu là nơi ở của sinh viên Đại học Bách khoa Hà Nội. Tổng thể
ở đây là tập hợp tất các sinh viên Đại học Bách khoa Hà Nội. Mỗi sinh viên Đại học Bách khoa
Hà Nội là một cá thể. Biến ở đây là nơi ở của sinh viên. Về nơi ở của sinh viên có thể gán vào
một trong bốn phạm trù: ở nhà cha mẹ; ở ký túc xá; ở nhà trọ; ở nhờ nhà bà con.

1.1. Một số khái niệm cơ bản của thống kê 45


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Tập hợp các giá trị của biến định tính trên toàn bộ tổng thể cho ta dữ liệu định tính. Giả
sử nhà nghiên cứu đưa ra k phạm trù (thuộc tính) C1 , C2 , . . . , Ck . Theo ngôn ngữ toán học,
biến định tính là một ánh xạ X từ tổng thể P vào tập hợp {C1 , C2 , . . . , Ck }. Tập hợp các giá trị
của biến định tính trên một mẫu lấy ra từ tổng thể gọi là mẫu dữ liệu.
Các loại biến định tính: Bao gồm biến định danh (nomial variable) và biến định tính có thứ
bậc (ordinal variable).

Chú ý 1.1. (a) Đối với biến định danh, các phạm trù (thuộc tính) của biến chỉ dùng để phân
loại các cá thể. Người ta có thể mã hóa các phạm trù (thuộc tính) này bằng cách gán cho
các phạm trù (thuộc tính) một trị số, nhưng các số này chỉ có ý nghĩa là sự mã hóa các
phạm trù (thuộc tính) mà không thể hiện quan hệ hơn kém.

(b) Đối với biến định tính có thứ bậc, các phạm trù (thuộc tính) có thể so sánh với nhau và
xếp hạng hơn kém, cao thấp. Ta có thể mã hóa các phạm trù này bằng cách gán cho các
phạm trù một con số thể hiện quan hệ hơn kém.

Ví dụ 1.13 (Ví dụ về biến định danh). Đối tượng nghiên cứu là màu sắc áo khoác mà các nam
sinh viên Đại học Bách khoa Hà Nội ưa thích nhất. Tổng thể ở đây là tập hợp tất cả các nam
sinh Đại học Bách khoa Hà Nội. Biến định tính là màu sắc áo khoác mà họ yêu thích nhất.
Người được hỏi có năm sự lựa chọn: Xanh; Vàng; Nâu; Trắng; Màu khác. Đây là một biến
định danh với 5 phạm trù. Ta mã hóa 5 phạm trù này như sau: “Xanh” gán số 1, “Vàng” gán
số 2, “Nâu” gán số 3, “Trắng” gán số 4, “Màu khác” gán số 5. Các con số này chỉ có ý nghĩa là
sự mã hóa, chúng không thể hiện quan hệ hơn kém. Do đó có thể mã hóa năm phạm trù này
bằng năm số bất kỳ khác.

Ví dụ 1.14 (Ví dụ về biến định tính có thứ bậc). Một công ty thăm dò ý kiến khách hàng về
một sản phẩm mà công ty mới tung ra. Biến định tính ở đây là ý kiến của khách hàng về sản
phẩm. Khách hàng được yêu cầu đánh dấu vào một trong bốn ô trong phiếu thăm dò: Rất
không thích; Không thích; Thích; Rất thích. Đây là một biến thứ bậc có bốn phạm trù. Ta mã
hóa bốn phạm trù này như sau: “Rất thích” gán số 4; “Thích” gán số 3; “Không thích” gán số
2; “Rất không thích” gán số 1. Trong cách mã hóa này mức độ thỏa mãn càng lớn thì được gán
số càng cao.
Ta cũng có thể mã hóa bốn phạm trù này theo cách mức độ không thỏa mãn càng lớn thì
được gán số càng cao.

1.1.4 Hai dạng thống kê

a) Thống kê mô tả (Descriptive Statistics)


Một nhiệm vụ quan trọng của thống kê là thu thập, tổ chức và trình bày dữ liệu. Công nghệ
hiện đại đang cho phép có khả năng thu thập dữ liệu với số lượng rất lớn với chi phí rất thấp.

1.1. Một số khái niệm cơ bản của thống kê 46


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Tuy nhiên “núi” dữ liệu thu thập được nói chung sẽ rất ít giá trị nếu ta không biết cách sắp
xếp, tổ chức thích hợp. Thống kê mô tả cung cấp cho ta những phương pháp để tổ chức, mô
tả và trình bày các dữ liệu thu thập được sao cho người đọc sẽ hiểu được các dữ liệu này một
cách tốt nhất.

b) Thống kê suy luận (Inferential Statistics)


Nhiệm vụ quan trọng thứ hai của thống kê là phân tích dữ liệu để hiểu được nội dung ẩn
chứa trong dữ liệu. Nhà nghiên cứu rất ít khi có khả năng xem xét toàn bộ các cá thể của tổng
thể. Thống kê suy luận có nhiệm vụ xây dựng các phương pháp cho phép ta suy diễn ra các
kết luận, lập các dự báo (với một độ chính xác nào đó) về toàn bộ tổng thể căn cứ trên một
mẫu dữ liệu thu thập.
Trong các chương sau ta sẽ trình bày chi tiết một số nội dung của Thống kê suy luận.

1.2 Thống kê mô tả
Thống kê mô tả được sử dụng để cung cấp những thông tin định lượng phức tạp của một
bộ dữ liệu lớn thành các mô tả đơn giản.

Ví dụ 1.15 (Ứng dụng của thống kê mô tả). Điểm trung bình của sinh viên (GPA) là một dạng
thông tin có được từ ứng dụng thống kê mô tả trong thực tiễn.

1. GPA là trung bình của dữ liệu từ một loạt các bài kiểm tra, lớp học và điểm số với nhau
để xem xét khả năng học tập chung của sinh viên.

2. Điểm trung bình cá nhân của sinh viên phản ánh kết quả học tập trung bình của sinh
viên đó.

1.2.1 Thu thập dữ liệu

a) Thu thập dữ liệu


Trước khi trình bày một mẫu số liệu ta cần thu thập dữ liệu. Việc thu thập dữ liệu đòi hỏi
nhiều thời gian, công sức và chi phí. Cho nên việc thu thập dữ liệu cần phải tiến hành một
cách khoa học, bài bản và có hệ thống. Cần xác định rõ loại dữ liệu nào cần thu thập xuất phát
từ vấn đề nghiên cứu.

1. Nguồn dữ liệu. Có hai nguồn dữ liệu:

(a) Nguồn dữ liệu thứ cấp (secondary data): nguồn có sẵn đã hoặc chưa công bố.
(b) Nguồn dữ liệu sơ cấp (primary data): nguồn do nhà nghiên cứu tự thu thập theo
quy trình bài bản phục vụ một mục tiêu và nội dung nghiên cứu đã xác định.

1.2. Thống kê mô tả 47
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

2. Phương pháp thu thập dữ liệu. Hai phương pháp thu thập số liệu sơ cấp thường dùng:

(a) Tiến hành thí nghiệm.


(b) Tiến hành quan sát, điều tra, khảo sát.

3. Nhược điểm của các dữ liệu trong nghiên cứu kinh tế–xã hội.

(a) Hầu hết các dữ liệu đều có thể có sai số trong quan sát hoặc bỏ sót quan sát hoặc
cả hai.
(b) Với các dữ liệu được thu thập bằng thực nghiệm cũng có sai số của phép đo.
(c) Trong các cuộc điều tra bằng câu hỏi, vấn đề không nhận được câu trả lời hoặc có
trả lời nhưng không trả lời hết các câu hỏi có thể gây ra các sai lầm nghiêm trọng,
gây ra tính chệch của mẫu.
(d) Các mẫu được thu thập trong các cuộc điều tra rất khác nhau cho nên rất khó khăn
trong việc so sánh kết quả giữa các đợt điều tra.
(e) Ngoài ra còn có những dữ liệu thuộc bí mật quốc gia mà không phải ai cũng có thể
sử dụng được.

Do những điểm này và nhiều vấn đề khác, nên bài học cho nghiên cứu là kết quả chỉ tốt
khi chất lượng của dữ liệu được đảm bảo.

b) Phân loại dữ liệu


Phân loại dữ liệu là cơ sở quan trọng trong việc lựa chọn mô hình, phương pháp ước lượng
và phân tích cho phù hợp. Căn cứ vào phạm vi không gian và thời gian của dữ liệu, ta chia
dữ liệu thành ba loại:

1. Chuỗi thời gian (Time Series Data): là chuỗi các dữ liệu được thu thập trong một thời kỳ
hay một khoảng thời gian lặp lại như nhau trên cùng một không gian, một địa điểm.

2. Dữ liệu chéo (Cross Data): là các dữ liệu về một hay nhiều biến được thu thập tại cùng
một thời điểm (thời kỳ) ở các không gian (địa phương, đơn vị. . . ) khác nhau.

3. Dữ liệu hỗn hợp (Panel Data): Các dữ liệu được thu thập theo thời gian và không gian.

1.2.2 Trình bày một mẫu dữ liệu


Một trong những nhiệm vụ của thống kê là miêu tả là tổng kết dữ liệu. Một tập dữ liệu lớn,
lộn xộn thường không đem lại thông tin gì. Vì vậy, ta cần tìm cách để trích xuất được những
thông tin chính, quan trọng từ đống dữ liệu này và biểu diễn chúng dưới dạng gọn nhẹ hơn,
trực quan hơn.

1.2. Thống kê mô tả 48
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Ví dụ 1.16. Giả sử điểm thi của 100 sinh viên theo thang điểm 100 được cho như sau

22 65 49 56 59 34 09 56 48 62 55 52 78 61 50 62 45 51 61 60
54 58 59 47 50 62 44 55 52 80 51 49 58 46 32 59 57 57 45 56
90 53 56 53 55 55 41 64 33 00 38 57 62 15 48 54 60 50 54 59
67 58 60 43 37 54 59 63 68 60 46 52 56 32 75 57 58 47 45 52
55 51 50 50 09 63 64 49 56 52 37 60 71 26 30 57 56 55 58 61

Các yêu cầu, câu hỏi đặt ra có thể là

1. Hãy miêu tả, đánh giá ngắn gọn về phổ điểm của kỳ thi này?

2. Điểm trung bình là bao nhiêu?

3. Mức độ chênh lệch giữa các thí sinh tham dự kỳ thi thế nào?

4. Điểm cao nhất và thấp nhất?

5. So với kỳ thi năm trước thì kết quả kỳ thi này thế nào?

Việc trả lời những câu hỏi này là không hiển nhiên nếu nhìn vào dữ liệu “thô” (dữ liệu
trước khi thực hiện các tính toán thống kê).
Dưới đây ta sẽ tìm hiểu các cahs biểu diễn số liệu để có thể thấy được các xu thế, tính chất
của dữ liệu dễ dàng hơn.

a) Bảng phân phối tần số, bảng phân phối ghép lớp
1. Bảng phân phối tần số: là bảng dùng để biểu diễn một tập dữ liệu cho biết các giá trị
xuất hiện và số lần xuất hiện mỗi giá trị đó. Giả sử trong mẫu kích thước n có k giá trị
khác nhau x1 < x2 < · · · < xk và số lần lặp lại giá trị xi là ni (gọi là tần số) thì bảng sau
đây gọi là bảng phân phối tần số:

Giá trị x1 x2 ... xk


(1.1)
Tần số n1 n2 ... nk

Nhận xét: Bảng phân phối tần số dùng khi cỡ mẫu n lớn, các giá trị trong mẫu trùng
nhau nhiều.
ni
Tỷ số giữa ni và cỡ mẫu n được gọi là tần suất và ký hiệu là f i , f i = m.

Tần suất tích lũy Fi là tổng cộng dồn của các tần suất f 1 , f 2 , . . . , f i ,

Fi = f 1 + f 2 + · · · + f i .

Chú ý rằng f 1 + f 2 + · · · + f k = 1.

1.2. Thống kê mô tả 49
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

2. Bảng phân phối thực nghiệm: Đôi khi ta cần đưa thêm các thông tin về tần suất, tần suất
tích lũy vào bảng phân bố tần số và gọi là bảng phân phối thực nghiệm

Giá trị x1 x2 ... xk Tổng


Tần số n1 n2 ... nk n
(1.2)
Tần suất f1 f2 ... fk 1
Tần suất tích lũy F1 F2 ... Fk

Nhận xét: Trong nhiều trường hợp, bảng phân phối tần số như trên không còn phù hợp.

(a) Khi điều tra với mẫu kích thước lớn, các giá trị mẫu nhận nhiều giá trị khác nhau
song lại khá gần nhau.
(b) Khi dữ liệu điều tra không phải dạng số (khi thống kê điểm thi nhưng chỉ quan
tâm đến tỷ lệ khá giỏi. . . )

3. Bảng phân phối ghép lớp (grouped frequency distribution): là bảng biểu diễn dữ liệu
dạng khoảng, dữ liệu định tính. . . theo đó các giá trị được ghép thành các lớp/các nhóm
cùng với số giá trị tại mỗi lớp/tần số.

(a) Dạng tần số:

Khoảng giá trị ( a 0 ; a 1 ] ( a 1 ; a 2 ] . . . ( a k −1 ; a k ]


(1.3)
Tần số n1 n2 ... nk

(b) Dạng tần suất:

Khoảng giá trị ( a 0 ; a 1 ] ( a 1 ; a 2 ] . . . ( a k −1 ; a k ]


(1.4)
Tần suất f1 f2 ... fk

Nhận xét 1.2. Câu hỏi đặt ra là chia dữ liệu (nếu cần) thành bao nhiêu lớp là phù hợp?

(a) Theo quy ước truyền thống. Chẳng hạn khi xét điểm của sinh viên cần lưu ý đến quy
định trên từ 90% trở lên ứng với điểm A+ ; từ 85% đến dưới 90% là điểm A. . . , dưới 40%
tương ứng với điểm F.

(b) Khi không có quy ước, việc chia lớp là tùy ý, tuy nhiên ta không nên chia quá ít hoặc
quá nhiều khoảng vì như vậy việc biểu diễn sẽ không giúp gì nhiều trong việc nắm bắt
thông tin về dữ liệu. Ngoài ra độ rộng các khoảng cũng không nhất thiết phải bằng nhau
mà nên điều chỉnh để số quan sát rơi vào mỗi khoảng không quá chênh lệch. Lưu ý là
các khoảng trung tâm thường chứa nhiều quan sát hơn các khoảng biên.

Ví dụ 1.17 (Bảng phân phối ghép lớp). Bảng phân phối ghép lớp cho số liệu điểm thi trong
Ví dụ 1.16 với các khoảng điểm được chia theo điểm chữ A+ , A, B+ , B, C + , C, D + , D và F

1.2. Thống kê mô tả 50
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Khoảng Tần số Tần suất Độ rộng khoảng


< 40 13 0,13 40
[40; 50) 15 0,15 10
[50; 55) 19 0,19 5
[55; 65) 44 0,44 10
[65; 70) 4 0,04 5
[70; 80) 3 0,03 10
[80; 85) 1 0,01 5
[85; 100) 1 0,01 10

Từ việc trình bày một mẫu số liệu ở trên, ta thấy các số liệu có thể cho ở các dạng sau đây:

1. Dạng liệt kê: Các số liệu thu được được ghi lại thành dãy x1 , x2 , . . . , xn .

2. Dạng rút gọn: Các số liệu ghi ở bảng phân phối tần số/tần suất.

3. Dạng khoảng: Các số liệu cho ở bảng phân phối ghép lớp.
Nếu độ dài các khoảng chia bằng nhau, ta có thể chuyển về dạng rút gọn:

Giá trị x1 x2 ... xk


Tần số n1 n2 ... nk

trong đó xi là điểm đại diện cho ( ai−1 , ai ] thường được xác định là trung điểm của đoạn
đó: xi = 12 ( ai−1 + ai ).

b) Biểu đồ
Một câu ngạn ngữ Trung Hoa “Một hình ảnh có tác dụng bằng một nghìn lời nói”. Để có
được một hình ảnh rõ ràng và dễ nhớ về mẫu các giá trị của biến ngẫu nhiên X, ta dùng các
đồ thị và các biểu đồ để thể hiện chúng.

1. Biểu đồ hình cột (bar chart): là biểu đồ nhằm biểu diễn cho dữ liệu được phân nhóm
(thường dùng cho dữ liệu định tính) như các tháng trong năm, các nhóm tuổi. . . Các
nhóm được biểu diễn thường xuất hiện theo trục hoành, trục tung là chiều cao của các
hình chữ nhật tỷ lệ với giá trị được biểu diễn. Mục tiêu của việc dùng biểu đồ hình cột
là đưa ra so sánh giữa các nhóm.

2. Biểu đồ hình quạt (pie chart): cũng được dùng để biểu diễn dữ liệu được phân nhóm,
nhưng các nhóm được biểu diễn bằng các hình quạt trong hình tròn. Số lượng hoặc tỷ
lệ của mỗi hạng mục (mỗi nhóm) tỷ lệ với diện tích hình quạt biểu diễn nó. Biểu đồ này
thường dùng để phân tích hoặc so sánh ở mức độ tổng thể.

1.2. Thống kê mô tả 51
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

3. Tổ chức đồ (histogram): thường được dùng để biểu thị tần số hay tần suất các giá trị
trong mỗi khoảng giá trị.

(a) Nếu độ rộng các khoảng bằng nhau, thì chiều cao của hình chữ nhật dựng trên mỗi
khoảng chính là tần số hay tần suất tương ứng của khoảng.
(b) Nếu độ rộng các khoảng không bằng nhau, chiều cao của hình chữ nhật dựng trên
mỗi khoảng được tính toán sao cho diện tích mỗi hình chữ nhật tỷ lệ với tần số hoặc
tần suất của khoảng đó.

4. Đa giác tần số, tần suất: dùng khi dữ liệu là liên tục và khoảng dữ liệu rất rộng. Tại mỗi
giá trị của dữ liệu xi và tần số ni ta chấm một điểm có tọa độ ( xi , ni ). Nối các điểm này
với nhau ta được đa giác tần số. Nếu muốn có đa giác tần suất ta thay ni bằng f i = ni /n.

Ví dụ 1.18. Khảo sát 400 nhà quản lý giáo dục về đánh giá chất lượng giáo dục công ở Hoa
Kỳ, ta nhận được bảng dữ liệu

Xếp hạng A B C D
Tần số 35 260 93 12

• Tổng số nhà quản lý giáo dục được khảo sát n = 400.

• 35 người xếp hạng A chiếm 9%; 260 người xếp hạng B chiếm 65%; 93 người xếp hạng C
chiếm 23%; 12 người xếp loại C chiếm 3%.

• Biểu đồ hình cột cho tập dữ liệu này biểu diễn ở Hình 1.1

• Biểu đồ hình quạt cho tập dữ liệu này biểu diễn ở Hình 1.2

Hình 1.1: Biểu đồ hình cột cho dữ liệu trong Ví dụ 1.18

Ví dụ 1.19 (Ví dụ về tổ chức đồ). 25 khách hàng của Starbucks được thăm dò ý kiến trong
một cuộc khảo sát tiếp thị “Trong một tuần bạn đến Starbucks bao nhiêu lần?”. Số liệu được
cho trong bảng sau:

6 7 1 5 6 4 6 4 6 8 6 5
6 3 4 5 5 5 7 6 3 5 7 5 5

1.2. Thống kê mô tả 52
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Hình 1.2: Biểu đồ hình quạt cho dữ liệu trong Ví dụ 1.18

Biến được đo lường là “số lần đến Starbucks”, một biến rời rạc chỉ nhận các giá trị nguyên.
Trong trường hợp này, cách đơn giản nhất là chọn các lớp hoặc khoảng con dưới dạng giá trị
nguyên trên phạm vi giá trị quan sát: 1, 2, 3, 4, 5, 6, 7 và 8. Bảng dưới đây cho thấy các lớp và
tần số tương ứng của chúng cùng tần số.

Số lượt đến Starbucks Tần số Tần suất


1 1 0,04
2 0 0,00
3 2 0,08
4 3 0,12
5 8 0,32
6 7 0,28
7 3 0,12
8 1 0,04

Biểu đồ tần suất tương đối được thể hiện trong Hình 1.3.

Hình 1.3: Biểu đồ tổ chức đồ cho dữ liệu trong Ví dụ 1.19

1.2.3 Các đặc trưng của mẫu


Để có thể cô đọng và nhanh chóng nắm bắt được những thông tin quan trọng chứa đựng
trong mẫu, người ta đưa ra một vài chỉ số gọi là các số đặc trưng (hay giá trị đặc trưng của
mẫu). Có hai nhóm đặc trưng quan trọng

1.2. Thống kê mô tả 53
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

1. Các số đặc trưng cho ta hình ảnh về vị trí trung tâm của mẫu, tức là về xu thế các số liệu
trong mẫu tụ tập xung quanh những con số nào đó.

2. Các số đặc trưng cho ta hình ảnh về mức độ phân tán của các số liệu, độ biến động của
các số liệu.

Giả sử mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) có một giá trị là Wx = ( x1 , x2 , . . . , xn ). Ta xét


các đặc trưng mẫu sau đây.

a) Các số đo xu thế trung tâm


Trung bình mẫu. Trung bình mẫu là trung bình cộng các giá trị mà ta quan sát được. Nếu
ta có mẫu kích thước n về biến lượng X, thì trung bình mẫu ký hiệu là x được xác định như
sau.

1. Nếu mẫu cho dưới dạng liệt kê ( x1 , x2 , . . . , xn ) có kích thước n, thì

1 n
x = ∑ xi (1.5)
n i =1

2. Nếu mẫu cho ở dạng rút gọn (1.1), thì

1 k
n i∑
x= ni xi (1.6)
=1

3. Nếu mẫu cho ở dạng khoảng (1.3) với độ dài các khoảng bằng nhau, thì

h k
n i∑
x = x0 + hu = x0 + ni ui (1.7)
=1

trong đó,

xi là điểm giữa của khoảng thứ i, i = 1, 2, . . . , k;


x i − x0
ui = h , h là độ dài các khoảng;
x0 = xi ứng với ni lớn nhất.

Ta cần phân biệt trung bình mẫu x và trung bình tổng thể µ. Chẳng hạn ta quan tâm đến
chiều cao của sinh viên Việt Nam, thì tổng thể là tất cả các sinh viên Việt Nam. Để tìm trung
bình của tổng thể ta cần tiến hành đo chiều cao của tất cả các sinh viên Việt Nam và µ (chiều
cao trung bình của sinh viên Việt Nam) là trung bình cộng của số đo này. Tuy nhiên ta chỉ đo
chiều cao của 500 sinh viên thì trung bình mẫu x là trung bình cộng của 500 số đo này.
Nhận xét rằng, giá trị trung bình mẫu thường được dùng để đo vị trí trung tâm của mẫu.
Tuy nhiên, trong một số trường hợp, việc dùng đặc trưng này sẽ không còn chính xác.

1.2. Thống kê mô tả 54
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Ví dụ 1.20. Ta muốn biết trung bình một sinh viên Trường Đại học Bách khoa Hà Nội tiêu tốn
bao nhiêu thời gian cho lướt web trong một tuần. Hỏi ngẫu nhiên 9 sinh được kết quả sau

Sinh viên được hỏi Thời gian (giờ)


1 0
2 1
3 4
4 1
5 31
6 3
7 4
8 1
9 0

Giá trị trung bình mẫu x = 5. Nếu dựa vào kết quả này để nói rằng sinh viên Trường Đại học
Bách khoa Hà Nội dành 5 giờ mỗi tuần cho việc lướt web thì sẽ rất không chính xác, vì trong
tất cả sinh viên được hỏi, trừ sinh viến số 5, đều có thời gian lướt web dưới 5 giờ.

Trong ví dụ này ta thấy có xuất hiện các giá trị “bất thường” khi đó ta dùng giá trị trung
vị thay cho giá trị trung bình.
Trung vị mẫu. Giá trị trung bình mẫu là một đặc trưng thường được dùng để đo vị trí
trung tâm của mẫu. Tuy nhiên, trong một số trường hợp, việc dùng đặc trưng này sẽ không
còn chính xác. Trong bộ dữ liệu xuất hiện các giá trị bất thường, người ta thường dùng giá trị
trung vị thay cho giá trị trung bình.
Trung vị mẫu (median), ký hiệu là xb, là một số thỏa mãn số các giá trị của mẫu bé hơn hay
bằng xb bằng số các giá trị của mẫu lớn hơn hay bằng xb.
Với một mẫu kích thước n, ta sắp xếp các giá trị theo thứ tự tăng dần x1 ≤ x2 ≤ · · · ≤ xn .
Khi đó,

x
(n+1)/2 , nếu n lẻ,

xb = (1.8)
 21 ( xn/2 + xn/2+1 ),
 nếu n chẵn.

Ví dụ 1.21. Trong Ví dụ 1.20, ta sắp xếp các giá trị theo thứ tự tăng dần 0, 0, 1, 1, 1, 3, 4, 4, 31.
Do cỡ mẫu n = 9 lẻ nên xb = 1.
Nếu hỏi thêm 1 sinh viên nữa, sinh viên này lướt web 5 giờ một tuần thì ta có cỡ mẫu
n = 10 và dãy số liệu 0, 0, 1, 1, 1, 3, 4, 4, 5, 31. Trong trường hợp này xb = 12 (1 + 3) = 2.

Trong ví dụ này nếu điểm bất thường nhận giá trị 100 thay vì 31 thì cũng không ảnh hưởng
đến trung vị.

Nhận xét 1.3. 1. Trung vị không bị ảnh hưởng bởi các giá trị bất thường.

1.2. Thống kê mô tả 55
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

2. Trung vị thường được dùng khi có một nhóm con các giá trị kéo theo giá trị trung bình
lệch đi (tăng lên hoặc giảm đi).

3. Trung vị được dùng trong các phân phối lệch (skewwed distributions) ví dụ như dữ liệu
về điểm thi khi đáp án của đề thi bị rò rỉ, hay dữ liệu về tiền thắng cuộc của người chơi
trong một sòng bạc. . .

Ví dụ 1.22. Cuộc điều tra ở Nam Phi năm 1996 cho thấy thu nhập trung bình theo tháng của
người dân là 140 đô la. Ở đất nước này phần lớn người dân có thu nhập rất thấp nhưng có
một nhóm nhỏ lại rất giàu có nên đã kéo mức thu nhập trung bình lên 140 đô la (một con số
không hề thấp vào năm 1996). Tuy nhiên giá trị trung vị là 50 đô la nghĩa là 50% người dân có
mức thu nhập theo tháng nhỏ hơn hay bằng 50 đô la. Như vậy bức tranh về thu nhập ở Nam
Phi khi nhìn vào trung vị khác hẳn khi nhìn vào giá trị trung bình.

Mốt. Mốt là giá trị trong mẫu xuất hiện với tần số lớn nhất.

Nhận xét 1.4. (a) Đa phần các tập dữ liệu có một mốt. Một số tập dữ liệu có hai mốt.

(b) Các mẫu có hai mốt thường là dấu hiệu cho ta biết ta đang có hai tổng thể khác nhau.
Trong ví dụ về thời gian lướt web của sinh viên nếu có hai mốt ta cần nghĩ đến hai tổng
thể, một tổng thể là tập sinh viên lướt web rất ít và tổng thể kia là tập các sinh viên lướt
web rất nhiều.

(c) Mốt có thể dùng làm số đo vị trí trung tâm của nhiều loại dữ liệu khác nhau song nó
phù hợp nhất với dữ liệu phân nhóm.

Ví dụ 1.23. Bảng sau đây cho biết hoạt động được ưu tiên của 9 sinh viên được chọn ngẫu
nhiên

Sinh viên Hoạt động


1 Tình nguyện
2 Học lập trình
3 Học tiếng Anh
4 Tình nguyện
5 Tình nguyện
6 Học tiếng Pháp
7 Học võ
8 Học vẽ
9 Tình nguyện

Mốt của các hoạt động của sinh viên là Tình nguyện với tần số là 4.

1.2. Thống kê mô tả 56
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

b) Các số đo mức độ phân tán


Các số đo xu thế trung tâm cho ta biết trung tâm của dữ liệu nằm ở đâu nhưng không cho
biết cách mà các giá trị của mẫu phân bố xung quanh giá trị trung tâm này. Người ta muốn
định nghĩa một số đại lượng đặc trưng để đo độ phân tán hay độ biến động của mẫu số liệu.

Ví dụ 1.24. Điểm thi của hai nhóm sinh viên được cho như sau:

• Nhóm 1: 6; 8; 5; 7; 6; 5; 7; 6

• Nhóm 2: 10; 3; 9; 6; 5; 4; 1; 6; 9; 10

Hai nhóm sinh viên có điểm thi trung bình là 6,5 nhưng trong nhóm 2 có những sinh viên
điểm rất cao, có những sinh viên điểm rất thấp; còn trong nhóm 1 điểm thi của sinh viên
tương đối đồng đều.

Biên độ mẫu. Hiệu số giữa giá trị lớn nhất và giá trị bé nhất của mẫu được gọi là biên độ
mẫu.
Các giá trị biên trong nhiều trường hợp cho ta những thông tin quan trọng, nhưng cũng có
nhiều trường hợp trong đó các giá trị biên chỉ là “giá trị bất thường” hay “ngoại lệ” (outlier)
do đó cho ta rất ít thông tin.

Ví dụ 1.25. Biên độ của của nhóm 1 là 8 − 5 = 3; còn biên độ của nhóm 2 là 10 − 1 = 9.

Khoảng tứ phân vị. Để giảm ảnh hưởng của các giá trị bất thường ta dùng khoảng tứ
phân vị. Khoảng tứ phân vị được định nghĩa bởi hiệu số Q3 − Q1 , trong đó Q1 là giá trị 25%
số liệu nhỏ hơn Q1 và Q3 là giá trị mà 75% của số liệu nhỏ hơn Q3 . Như vậy 50% số liệu nằm
trong khoảng ( Q1 , Q3 ) với độ dài là khoảng tứ phân vị.
Nhắc lại rằng, tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất Q1 , thứ hai Q2 , và thứ ba
Q3 . Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo thứ tự từ bé đến lớn)
thành 4 phần có số lượng quan sát đều nhau. Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị
trung vị. Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới. Giá trị tứ phân vị thứ ba Q3
bằng trung vị phần trên.

Ví dụ 1.26. Thống kê số đĩa CD mà sinh viên sở hữu trong một nhóm sinh viên lớp MI3031
được kết quả sau:

Số đĩa CD 35 36 37 38 39
Tần số 3 17 29 34 12

Ta có

• n = 95; (0, 25)(95) = 23, 75 ' 24 nên Q1 = 37 là số liệu đứng thứ 24;

• (0, 75)(95) = 71, 25 ' 72 nên Q3 = 38 là số liệu đứng thứ 72.

1.2. Thống kê mô tả 57
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Vậy khoảng tứ phân vị là 38 − 37 = 1.

Độ lệch trung bình mẫu. Một cách khác để đo độ biến động của mẫu số liệu là tính giá trị
trung bình của khoảng cách từ mỗi giá trị đến trung bình mẫu.

Ví dụ 1.27. Độ lệch trung bình mẫu của dãy số liệu biểu diễn số môn học phải học lại trong
một học kỳ của 8 sinh viên được cho như sau:

Sinh viên Số môn học lại ( xi ) xi − x | xi − x |


1 0 -2 2
2 1 -1 1
3 1 -1 1
4 2 0 0
5 2 0 0
6 3 1 1
7 3 1 1
8 4 2 2

Giá trị trung bình của dãy số là x = 2. Như vậy về trung bình số môn học lại của sinh viên có
sai khác 1 so với giá trị trung bình 2. Giả sử sinh viên thứ hai không học lại môn nào còn sinh
viên thứ 8 học lại 5 môn thì trung bình số môn học lại vẫn là 2 trong đó độ lệch trung bình
của dãy số liệu tăng lên là 1,25.

Phương sai mẫu và phương sai hiệu chỉnh mẫu. Trong thống kê, số đặc trưng thông dụng
s2 , là trung bình
để đo độ phân tán của số liệu là phương sai mẫu. Phương sai mẫu, ký hiệu là e
của bình phương độ lệch.

1. Nếu mẫu cho dưới dạng liệt kê ( x1 , x2 , . . . , xn ) có kích thước n, thì


2
1 n 1 n 1 n

s = ∑ ( xi − x )2 = ∑ xi2 −
n i∑
2
e xi (1.9)
n i =1 n i =1 =1

2. Nếu mẫu cho ở dạng rút gọn (1.1), thì


2
1 k 1 k 1 k

s = ∑ ni ( xi − x )2 = ∑ ni xi2 −
n i∑
2
e ni xi (1.10)
n i =1 n i =1 =1

3. Nếu mẫu cho ở dạng khoảng (1.3) với độ dài các khoảng bằng nhau, thì
2 
1 k 1 k
 

n i∑ n i∑
2 2
s =h
e ni u2i − ni ui = h2 e
s2u (1.11)
=1 =1

trong đó,

1.2. Thống kê mô tả 58
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

xi là điểm giữa của khoảng thứ i, i = 1, 2, . . . , k;


x i − x0
ui = h , h là độ dài các khoảng;
x0 = xi ứng với ni lớn nhất.

Độ lệch chuẩn mẫu, ký hiệu là e


s, được định nghĩa là

s=
e es2

Phương sai và độ lệch chuẩn hiệu chỉnh mẫu được ký hiệu và xác định tương ứng bởi

n 2 √
s2 = s và s= s2 (1.12)
n−1
e

Để sử dụng các công thức (1.5), (1.9), ta lập bảng tính toán

xi xi2
x1 x12
x2 x22
... ...
xn xn2
∑in=1 xi ∑in=1 xi2

Để sử dụng các công thức (1.6), (1.10), ta lập bảng tính toán

xi ni ni xi ni xi2
x1 n1 n1 x1 n1 x12
x2 n2 n2 x2 n2 x22
... ... ... ...
xk nk nk xk nk xk2
∑ik=1 ni = n ∑ik=1 ni xi ∑ik=1 ni xi2

Để sử dụng các công thức (1.7), (1.11), ta lập bảng tính toán

xi ni ui ni ui ni u2i
x1 n1 u1 n1 u1 n1 u21
x2 n2 u2 n2 u2 n2 u22
... ... ... ... ...
xk nk uk nk uk nk u2k
∑ik=1 ni = n ∑ik=1 ni ui ∑ik=1 ni u2i

Tuy nhiên, việc tính các đặc trưng mẫu dễ dàng thực hiện được khi sử dụng phần mềm
thống kê hoặc máy tính bỏ túi.

1.2. Thống kê mô tả 59
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Nhận xét 1.5. (a) Trong thống kê, số đặc trưng thông dụng nhất để đo độ phân tán của số
liệu là phương sai hiệu chỉnh mẫu.

(b) Trong khi biên độ chỉ lấy thông tin từ hai quan sát lớn nhất và nhỏ nhất thì độ lệch trung
bình và phương sai hiệu chỉnh mẫu đều lấy thông tin từ mọi quan sát.

(c) Cả phương sai hiệu chỉnh mẫu và độ lệch tiêu chuẩn hiệu chỉnh mẫu đều được dùng để
đo mức độ phân tán của mẫu số liệu. Ta thường dùng độ lệch chuẩn hiệu chỉnh mẫu vì
đại lượng này có cùng đơn vị đo với các giá trị xi nên dễ dàng tưởng tượng hơn về độ
phân tán của mẫu số liệu.

Ví dụ 1.28. Kiểm tra số khuyết tật trên sản phẩm đúc do một nhà máy sản xuất ta thu được
dữ liệu sau đây:

Số khuyết tật ở mỗi sản phẩm 0 1 2 3 4 5 6


Số sản phẩm kiểm tra 8 20 12 40 30 25 15

Hãy tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu của mẫu trên.

Lời giải Ví dụ 1.28 Gọi X là số khuyết tật ở mỗi sản phẩm. Lập bảng tính toán

xi ni ni xi ni xi2
0 8 0 0
1 20 20 20
2 12 24 48
3 40 120 360
4 30 120 480
5 25 125 625
6 15 90 540
∑ n = 150 ∑i ni xi = 499 ∑i ni xi2 = 2073

Áp dụng công thức (1.6),


499
x= ' 3, 3267.
150
Áp dụng công thức (1.10),
 2
2 2073 499
s =
e − ' 2, 7533.
150 150

Từ đây,

s=
e 2, 7533 ' 1, 6593.

1.2. Thống kê mô tả 60
Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Tính đặc trưng của mẫu trên máy tính CASIO FX570VN PLUS
Bước 1 Chuyển đổi máy tính về chương trình thống kê MODE → 3 → AC

Bước 2 Bật chức năng cột tần số/tần suất SHIFT → MODE → Mũi tên đi xuống → 4(STAT)
→ 1(ON)

Bước 3 Bật chế độ màn hình để nhập dữ liệu, Nhập số liệu SHIFT → 1 → 1(TYPE) → 1(1-
VAR)
Chú ý nhập xong số liệu thì bấm AC để thoát.

Bước 4 Xem kết quả:

• Trung bình mẫu (x): SHIFT → 1 → 4(VAR) → 2


• Độ lệch chuẩn hiệu chỉnh mẫu (s): SHIFT → 1 → 4 → 4

1.3 Mẫu ngẫu nhiên


Ta xây dựng khái niệm mẫu ngẫu nhiên, mô hình trừu tượng và khái quát của các mẫu mà
ta thường gặp trong nghiên cứu, từ những mô tả trực quan, đơn giản.

1.3.1 Biến ngẫu nhiên và quy luật phân phối gốc


Giả sử ta cần nghiên cứu dấu hiệu X của tổng thể có kỳ vọng E(X ) = µ và phương sai
V (X ) = σ2 (µ và σ chưa biết). Ta có thể mô hình hóa dấu hiệu X bằng một biến ngẫu nhiên.
Thật vậy, nếu lấy ngẫu nhiên từ tổng thể ra một phần tử và gọi X là giá trị của dấu hiệu X đo
được trên phần tử lấy ra thì X là biến ngẫu nhiên có phân phối xác suất là

X x1 x2 ... xn
P ( X = xi ) P ( X = x1 ) P ( X = x2 ) ... P( X = xn )

Như vậy, dấu hiệu X mà ta nghiên cứu được mô hình hóa bởi biến ngẫu nhiên X, còn cơ
cấu của tổng thể theo dấu hiệu X (tập hợp các xác suất) chính là luật phân phối xác suất của
X. Biến ngẫu nhiên X được gọi là biến ngẫu nhiên gốc. Luật phân phối xác suất của X được
gọi là luật phân phối gốc, đồng thời E( X ) = µ và V ( X ) = σ2 .

1.3.2 Khái niệm mẫu ngẫu nhiên


Nếu các suy luận từ mẫu cho tổng thể là hợp lý, thì ta cần có các mẫu đại diện cho tổng
thể. Nếu chọn mẫu bằng cách lấy các phần tử thuận tiện nhất trong tổng thể, có thể dẫn đến
những suy luận sai lầm cho tổng thể. Bất kỳ phương pháp lấy mẫu nào tạo ra các suy luận
thường xuyên đánh giá quá cao hoặc quá thấp về một số đặc tính của tổng thể đều là sai lệch.

1.3. Mẫu ngẫu nhiên 61


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Để loại trừ bất kỳ khả năng sai lệch nào trong phương pháp lấy mẫu, ta nên chọn mẫu ngẫu
nhiên theo nghĩa là các quan sát được thực hiện độc lập và khách quan.
Khi chọn một mẫu ngẫu nhiên có kích thước n từ biến ngẫu nhiên gốc X của tổng thể có
phân phối FX ( x ), ta xác định các biến ngẫu nhiên Xi , i = 1, 2, . . . , n, đại diện cho phép đo thứ
i hoặc giá trị mẫu mà ta quan sát được. Các biến ngẫu nhiên X1 , X2 , . . . , Xn tạo thành một mẫu
ngẫu nhiên từ tổng thể với các giá trị số x1 , x2 , . . . , xn nếu các phép đo thu được bằng cách lặp
lại thí nghiệm n lần độc lập trong các điều kiện cơ bản giống nhau. Do các điều kiện giống hệt
nhau, nên ta có thể giả sử rằng n biến ngẫu nhiên X1 , X2 , . . . , Xn là độc lập và mỗi biến ngẫu
nhiên này có cùng phân phối xác suất FX ( x ). Do đó, các phân phối xác suất của X1 , X2 , . . . , Xn
lần lượt là FX1 ( x1 ), FX2 ( x2 ), . . . , FXn ( xn ) và phân phối xác suất đồng thời của chúng là

FX1 ,X2 ,...,Xn ( x1 , x2 , . . . , xn ) = FX1 ( x1 ) FX2 ( x2 ) . . . FXn ( xn ).

Định nghĩa 1.1 (Mẫu ngẫu nhiên). Cho biến ngẫu nhiên gốc X có luật phân phối xác suất
FX ( x ) nào đó. Một mẫu ngẫu nhiên kích thước n được thành lập từ biến ngẫu nhiên X là n
biến ngẫu nhiên X1 , X2 , . . . , Xn độc lập có cùng luật phân phối xác suất FX ( x ).

Ký hiệu là WX = ( X1 , X2 , . . . , Xn ).
Một bộ gồm n số thực là kết quả quan sát trên mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) ký
hiệu là Wx = ( x1 , x2 , . . . , xn ) được gọi là một mẫu cụ thể của mẫu ngẫu nhiên ( X1 , X2 , . . . , Xn ).

Ví dụ 1.29. Giả sử tuổi thọ X (giờ) của loại pin A là biến ngẫu nhiên có phân phối chuẩn
N (µ; σ2 ). Chọn ngẫu nhiên n = 10 quả pin loại này và gọi Xi (giờ) là thời gian sử dụng của
quả pin thứ i, i = 1, 2, . . . , 10. Rõ ràng, X1 , . . . , X10 là độc lập và có cùng phân phối chuẩn
N (µ; σ2 ). Tức là, ta có một mẫu ngẫu nhiên WX = ( X1 , . . . , X10 ) kích thước n = 10.
Nếu ghi lại thời lượng sử dụng của mỗi quả pin, chẳng hạn X1 nhận giá trị 1000, X2 nhận
giá trị 1001, X3 nhận giá trị 1002, X4 nhận giá trị 1003, X5 nhận giá trị 1004, X6 nhận giá trị
1005, X7 nhận giá trị 1006, X8 nhận giá trị 1007, X9 nhận giá trị 1008, X10 nhận giá trị 1009 thì
ta có một mẫu cụ thể

Wx = (1000; 1001; 1002; 1003; 1004; 1005; 1006; 1007; 1008; 1009).

Mẫu ngẫu nhiên có thể phản ánh được kết quả điều tra, thực nghiệm bởi vì những kết
quả này được coi là một giá trị của nó. Mặt khác, mẫu ngẫu nhiên là tập hợp các biến ngẫu
nhiên. Do vậy ta có thể nghiên cứu luật phân phối xác suất của nó, tức là khái quát được thực
nghiệm. Quan hệ giữa mẫu ngẫu nhiên và mẫu cụ thể (hay một giá trị của nó) tương tự quan
hệ giữa biến ngẫu nhiên và một giá trị có thể có của nó.

1.3.3 Đại lượng thống kê


Mục đích chính của việc chọn mẫu ngẫu nhiên là thu thập thông tin về các tham số chưa
biết của tổng thể. Để nghiên cứu mẫu ngẫu nhiên gốc X, nếu dừng lại ở mẫu ngẫu nhiên

1.3. Mẫu ngẫu nhiên 62


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

WX = ( X1 , X2 , . . . , Xn ) thì rõ ràng chưa giải quyết được vấn đề gì, bởi các biến ngẫu nhiên Xi
có cùng quy luật phân phối xác suất với X mà ta chưa biết hoàn toàn. Vì vậy ta phải liên kết
hay tổng hợp các biến ngẫu nhiên X1 , X2 , . . . , Xn lại sao cho biến ngẫu nhiên mới thu được
có những tính chất mới, có thể đáp ứng được yêu cầu giải những bài toán khác nhau về biến
ngẫu nhiên gốc X.

Định nghĩa 1.2 (Đại lượng thống kê). Trong thống kê toán việc tổng hợp mẫu ngẫu nhiên
WX = ( X1 , X2 , . . . , Xn ) được thực hiện dưới dạng hàm của các biến ngẫu nhiên X1 , X2 , . . . , Xn .
Ký hiệu

Θ
b = g ( X1 , X2 , . . . , X n ) , (1.13)

ở đây, g là một hàm số thực với n biến thực nào đó và Θ


b được gọi là một đại lượng thống kê,
gọi tắt là thống kê.

Ví dụ 1.30. Cho một mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n. Một ví dụ về thống
kê dạng (1.13) là
1 n
Θ = ∑ Xi .
b
n i =1

Nhận xét 1.6. (a) Thống kê Θ


b là một hàm của các biến ngẫu nhiên X1 , X2 , . . . , Xn nên cũng
là một biến ngẫu nhiên. Do đó ta có thể tìm ra các “tính chất mới” thông qua việc khảo
sát luật phân phối xác suất của Θ
b và các tham số E(Θb ), V ( Θ
b ). . .

(b) Nếu mẫu ngẫu nhiên WX có giá trị là Wx = ( x1 , x2 , . . . , x2 ), thì ta tính được giá trị cụ thể
của Θ,
b ký hiệu là θb = g( x1 , x2 , . . . , xn ) còn gọi là giá trị quan sát của thống kê Θ.
b

Sau đây ta xét một số thống kê thông dụng.

1.3.4 Một số thống kê thông dụng

a) Trung bình mẫu ngẫu nhiên


Cho mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n được xây dựng từ biến ngẫu
nhiên gốc X. Trung bình của nó là một thống kê, ký hiệu là X và được định nghĩa bởi hàm
sau đây:

1 n
n i∑
X= Xi (1.14)
=1

Do X1 , X2 , . . . , Xn là các biến ngẫu nhiên nên X cũng là biến ngẫu nhiên. Nếu biến ngẫu
nhiên gốc X có kỳ vọng E( X ) = µ, phương sai V ( X ) = σ2 thì thống kê X có kỳ vọng E( X ) = µ
σ2
và phương sai V ( X ) = n nhỏ hơn phương sai của biến ngẫu nhiên gốc n lần, nghĩa là các giá

1.3. Mẫu ngẫu nhiên 63


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

trị có thể có của X ổn định quanh kỳ vọng µ hơn các giá trị có thể có của X. Điều này thể hiện
“chất lượng mới” của thống kê X so với biến ngẫu nhiên gốc X.
Nếu một giá trị của mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) là Wx = ( x1 , x2 , . . . , xn ) thì
thống kê X nhận giá trị là

1 n
n i∑
x= xi (1.15)
=1

và gọi là trung bình mẫu.

b) Phương sai và phương sai hiệu chỉnh mẫu ngẫu nhiên


Cho mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n được xây dựng từ biến ngẫu
nhiên gốc X. Phương sai của nó là một thống kê, ký hiệu là Se2 , được định nghĩa bởi

1 n
S = ∑ ( Xi − X ) 2
e2
(1.16)
n i =1

trong đó, X là trung bình của mẫu ngẫu nhiên WX .


Do Se2 là biến ngẫu nhiên, nên ta tính được kỳ vọng của nó

n−1 2
E(Se2 ) = σ (1.17)
n

trong đó, σ2 = V ( X ).
Để kỳ vọng của Se2 trùng với phương sai của biến ngẫu nhiên gốc X ta cần một sự hiệu
chỉnh. Từ (1.17) suy ra
 
n e2
E S = σ2 .
n−1

Đặt

n 
n e2 1 2
n − 1 i∑
2
S = S = Xi − X (1.18)
n−1 =1

và gọi S2 là phương sai hiệu chỉnh của mẫu ngẫu nhiên ( X1 , X2 , . . . , Xn ), vì nó bằng phương
sai mẫu ngẫu nhiên nhân thêm hệ số n/(n − 1). Đồng thời ta có E(S2 ) = σ2 .
Giá trị quan sát của S2 khi cho một mẫu cụ thể ( x1 , x2 , . . . , xn ) ký hiệu là s2 và

n
1
n − 1 i∑
s2 = ( x i − x )2 (1.19)
=1

được gọi là phương sai hiệu chỉnh mẫu.

1.3. Mẫu ngẫu nhiên 64


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

c) Độ lệch chuẩn và độ lệch chuẩn hiệu chỉnh mẫu ngẫu nhiên


Độ lệch chuẩn của mẫu ngẫu nhiên được ký hiệu và xác định bởi
s
p 1 n
n i∑
Se = Se2 = ( Xi − X ) 2 (1.20)
=1

Độ lệch chuẩn hiệu chỉnh của mẫu ngẫu nhiên được ký hiệu và xác định bởi
s
√ 1 n

n − 1 i∑
S = S2 = ( Xi − X ) 2 (1.21)
=1

Giá trị quan sát của Se và S khi cho một mẫu cụ thể ( x1 , x2 , . . . , xn ) lần lượt là
s
√ 1 n
n i∑
s= e
e 2
s = ( x i − x )2 (1.22)
=1


s
√ 1 n

n − 1 i∑
s= s2 = ( x i − x )2 (1.23)
=1

và gọi là độ lệch chuẩn mẫu và độ lệch chuẩn hiệu chỉnh mẫu tương ứng.

d) Tần suất mẫu ngẫu nhiên


Ta cần nghiên cứu một dấu hiệu định tính A nào đó mà mỗi cá thể của tổng thể có thể
có hoặc không có dấu hiệu này. Giả sử p là tỷ lệ cá thể có dấu hiệu A của tổng thể. Nếu cá
thể có dấu hiệu A ta cho nhận giá trị 1, trường hợp ngược lại ta cho nhận giá trị 0, thì dấu
hiệu nghiên cứu có thể xem là biến ngẫu nhiên X có phân phối Bernoulli với tham số p và có
E( X ) = p, V ( X ) = p(1 − p).
Nếu lấy một mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n quan sát về biến ngẫu
nhiên gốc X, thì X1 , X2 , . . . , Xn là các biến ngẫu nhiên độc lập có cùng phân phối Bernoulli
tham số p. Gọi số cá thể (tần số) có dấu hiệu A trong mẫu là X = ∑in=1 Xi , thì tần suất mẫu
ngẫu nhiên là một thống kê ký hiệu và xác định bởi
X
Pb = (1.24)
n
Dễ thấy,
p (1 − p )
E( Pb) = p và V ( Pb) = (1.25)
n
Khi có mẫu cụ thể ( x1 , x2 , . . . , xn ), giá trị quan sát của Pb là
x
pb = (1.26)
n
và gọi là tần suất mẫu, ở đây, x là số quan sát có dấu hiệu A trong mẫu.

1.3. Mẫu ngẫu nhiên 65


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Ví dụ 1.31. So sánh giá thành của sản phẩm A tại 4 siêu thị được chọn ngẫu nhiên ở thành
phố Hà Nội cho thấy các mức tăng so với tháng trước là 12, 15, 17 và 20 nghìn đồng cho một
kg. Tìm phương sai hiệu chỉnh mẫu của mẫu giá tăng này.

Lời giải Ví dụ 1.31 Gọi X là biến ngẫu nhiên gốc chỉ mức tăng giá của sản phẩm. Sử dụng
(1.15),
1
x= (12 + 15 + 17 + 20) = 16 nghìn đồng.
4
Áp dụng (1.19) ta được

1 4 1h i
s = ∑ ( xi − 16) = (12 − 16) + (15 − 16) + (17 − 16) + (20 − 16)
2 2 2 2 2 2
3 i =1 3
34
= .
3
Ví dụ 1.32. Phỏng vấn ngẫu nhiên 1600 cử tri thấy 960 người ủng hộ cho ứng cử viên A. Khi
đó, theo (1.26), tần suất mẫu hay tỷ lệ cử tri ủng hộ cho ứng cử viên A trong mẫu này là

x 960
pb = = = 0, 6.
n 1600

1.4 Phân phối mẫu


Vì thống kê là một biến ngẫu nhiên chỉ phụ thuộc vào mẫu quan sát nên nó có phân phối
xác suất.

Định nghĩa 1.3 (Phân phối mẫu). Phân phối xác suất của một thống kê được gọi là phân phối
mẫu.

Ví dụ, phân phối xác suất của X được gọi là phân phối mẫu của trung bình mẫu.
Phân phối xác suất của một thống kê phụ thuộc vào phân phối của biến ngẫu nhiên gốc
của tổng thể, kích thước mẫu và phương pháp chọn mẫu. Mục này sẽ quan tâm tới một số
phân phối mẫu của một số thống kê thông dụng.

1.4.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

a) Phân phối mẫu của X


Chú ý rằng mọi tổ hợp tuyến tính của các biến ngẫu nhiên có phân phối chuẩn là biến ngẫu
nhiên tuân có phân phối chuẩn. Do đó, ta có kết quả sau.

Định lý 1.1. Nếu X là biến ngẫu nhiên có phân phối chuẩn với tham số µ và σ2 thì trung bình
mẫu X của mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n được xây dựng từ X có phân
phối chuẩn với tham số µ và σ2 /n.

1.4. Phân phối mẫu 66


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Từ Định lý 1.1, nếu X ∼ N (µ; σ2 ) thì X ∼ N (µ; σ2 /n) và thống kê

X−µ
Z= √ ∼ N (0; 1). (1.27)
σ/ n

Ví dụ 1.33. Một công ty điện tử sản xuất điện trở với điện trở trung bình là 100 Ω và độ lệch
chuẩn là 8 Ω. Giả sử điện trở X (Ω) có phân phối chuẩn. Tìm xác suất để một mẫu ngẫu nhiên
gồm 16 điện trở sẽ có điện trở trung bình nhỏ hơn 95 Ω.

Lời giải Ví dụ 1.33 Theo Định lý 1.1 thì X có phân phối chuẩn với

64
µ X = 100 và σX = =2
16
(Hình 1.4). Do đó,

95 − 100
 
P( X < 95) = Φ = Φ(−2, 5) = 1 − Φ(2, 5) = 1 − 0, 99379 = 0, 00621,
2

trong đó, Φ(2, 5) = 0, 99379 (xem Bảng 3).

Hình 1.4: Phân phối của X trong Ví dụ 1.33

Nếu mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích thước n được xây dựng từ biến ngẫu
nhiên gốc X chưa biết luật phân phối xác suất, thì phân phối của X vẫn xấp xỉ phân phối
chuẩn nếu kích thước mẫu n lớn. Kết quả này được suy từ một trong những định lý rất hữu
ích trong thống kê, Định lý giới hạn trung tâm.

Định lý 1.2 (Định lý giới hạn trung tâm). Nếu mẫu ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ) kích
thước n được xây dựng từ biến ngẫu nhiên gốc X có kỳ vọng E( X ) = µ và phương sai
V ( X ) = σ2 hữu hạn và X là trung bình của mẫu ngẫu nhiên, thì giới hạn của phân phối
xác suất của thống kê

X−µ
Z= √ (1.28)
σ/ n

khi n → ∞, là phân phối chuẩn tắc.

1.4. Phân phối mẫu 67


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Hình 1.5: Phân phối của số chấm trung bình khi tung xúc sắc

Chú ý 1.2. Trong thực hành, nếu n ≥ 30, thống kê Z trong (1.28) sẽ có phân phối xấp xỉ phân
phối chuẩn tắc.

Xấp xỉ chuẩn của X phụ thuộc vào kích thước mẫu n. Hình 1.5 cho ta phân phối của số
chấm trung bình xuất hiện khi tung 1, 2, 3 hoặc 5 con xúc xắc cân đối đồng chất.

Ví dụ 1.34. Cho X là biến ngẫu nhiên có phân phối đều liên tục trên đoạn [2; 4]. Tìm phân
phối xác suất của trung bình của mẫu ngẫu nhiên ( X1 , X2 , . . . , Xn ) kích thước n = 40 được
xây dựng từ biến ngẫu nhiên X.

Lời giải Ví dụ 1.34 Theo Định lý 0.6(b),(c), kỳ vọng và phương sai của X lần lượt là

2+4 (4 − 2)2 1
µX = = 3 và σX2 = = .
2 12 3
Khi đó, theo Định lý 1.2, X có phân phối xấp xỉ phân phối chuẩn với

σX2 1 1
µ X = 3 và σX2 = = = .
n 3 × 40 120
Phân phối của X và X cho trong Hình 1.6.

Hình 1.6: Phân phối của X và X trong Ví dụ 1.34

b) Phân phối mẫu của X 1 − X 2


Xét trường hợp có hai tổng thể độc lập. Gọi X1 và X2 là hai biến ngẫu nhiên gốc tương ứng
với tổng thể thứ nhất và tổng thể thứ hai. Giả sử X1 ∼ N (µ1 ; σ12 ) và X2 ∼ N (µ2 ; σ22 ). Lập hai

1.4. Phân phối mẫu 68


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

mẫu ngẫu nhiên WX1 = ( X11 , X12 , . . . , X1n1 ) kích thước n1 và WX2 = ( X21 , X22 , . . . , X2n2 ) kích
thước n2 . Khi đó, X 1 − X 2 là biến ngẫu nhiên có phân phối chuẩn với kỳ vọng

µ X 1 − X 2 = µ X 1 − µ X 2 = µ1 − µ2 (1.29)

và phương sai

σ12 σ22
σX2 = σX2 + σX2 = + (1.30)
1 −X2 1 2 n1 n2

Nếu X1 và X2 không tuân theo luật phân phối chuẩn và nếu n1 ≥ 30 và n2 ≥ 30 thì ta có
thể sử dụng Định lý giới hạn trung tâm, X 1 và X 2 độc lập và có phân phối xấp xỉ phân phối
chuẩn. Khi đó, X 1 − X 2 có phân phối xấp xỉ phân phối chuẩn với kỳ vọng và phương sai được
xác định bởi các công thức (1.29) và (1.30). Ta có định lý sau.

Định lý 1.3. Giả sử hai mẫu ngẫu nhiên WX1 = ( X11 , X12 , . . . , X1n1 ) và WX2 = ( X21 , X22 , . . . , X2n2 )
kích thước n1 và n2 được xây dựng từ hai biến ngẫu nhiên gốc X1 và X2 độc lập có kỳ vọng
E( X1 ) = µ1 , E( X2 ) = µ2 và phương sai V ( X1 ) = σ12 , V ( X2 ) = σ22 . Khi đó, phân phối xác suất
của thống kê

( X 1 − X 2 ) − ( µ1 − µ2 )
Z= … (1.31)
σ12 σ22
n1 + n2

xấp xỉ phân phối chuẩn tắc, nếu các điều kiện của Định lý giới hạn trung tâm được thỏa mãn.
Ngoài ra, nếu X1 ∼ N (µ1 ; σ12 ) và X2 ∼ N (µ2 ; σ22 ) thì thống kê Z trong (1.31) có phân phối
chuẩn tắc.

Ví dụ 1.35. Giả sử tuổi thọ của một thiết bị điện tử A là một biến ngẫu nhiên có phân phối
chuẩn với tuổi thọ trung bình là 5000 giờ và độ lệch chuẩn là 45 giờ. Nhà sản xuất giới thiệu
một cải tiến trong quy trình sản xuất thiết bị điện tử A nhằm tăng tuổi thọ trung bình lên 5050
giờ và giảm độ lệch chuẩn xuống 32 giờ. Giả sử một mẫu ngẫu nhiên gồm n1 = 25 thiết bị
điện tử A được chọn từ quy trình “cũ” và một mẫu ngẫu nhiên gồm n2 = 16 thiết bị điện tử
A được chọn từ quy trình “cải tiến”, tính xác suất để sự khác biệt giữa hai trung bình mẫu
X 1 − X 2 ít nhất là 25 giờ. Giả sử rằng các quy trình “cũ” và “cải tiến” là độc lập nhau.

Lời giải Ví dụ 1.35 Theo Định lý 1.1, X 1 ∼ (µ X1 ; σX2 ) với µ X1 = 5000 giờ và σX1 = 40/ 25 giờ,
1 √
X 2 ∼ N (µ X2 ; σX2 ) với µ X2 = 5050 giờ và σX2 = 32/ 16 giờ. Khi đó, X 1 − X 2 có phân phối
2
chuẩn với kỳ vọng và độ lệch chuẩn lần lượt là

452 322 √
µ X1 −X2 = 5050 − 5000 = 50 giờ và σX1 −X2 = + = 145 giờ
25 16
(Hình 1.7). Do đó,
25 − 50
 
P( X 1 − X 2 ≥ 25) = 1 − Φ √ = 1 − Φ(−2, 08) = Φ(2, 08) = 0, 98124.
145

1.4. Phân phối mẫu 69


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Hình 1.7: Phân phối mẫu của X 1 − X 2 trong Ví dụ 1.35

Nhận xét 1.7. Định lý giới hạn trung tâm làm sáng tỏ hơn về cách thức và lý do tại sao ta có
thể xấp xỉ phân phối nhị thức B(n; p) bởi phân phối chuẩn N (np; np(1 − p)) khi np ≥ 5 và
n(1 − p) ≥ 5.

1.4.2 Phân phối mẫu của S2


Định lý 1.4 (Phân phối mẫu của S2 ). Nếu S2 là phương sai hiệu chỉnh của mẫu ngẫu nhiên
WX = ( X1 , X2 , . . . , Xn ) kích thước n được thành lập từ biến ngẫu nhiên gốc X có phân phối
chuẩn với tham số µ và σ2 , thì thống kê

n
( n − 1) S2 ( Xi − X ) 2
χ2 =
σ2
= ∑ σ2 (1.32)
i =1

có phân phối Chi-bình phương với n − 1 bậc tự do.

Ví dụ 1.36. Một nhà sản xuất ắc quy ô tô đảm bảo rằng ắc quy sẽ có tuổi thọ trung bình là 3
năm với độ lệch chuẩn là một năm. Nếu 5 trong số các ắc quy này có tuổi thọ là 1,9; 2,4; 3,0; 3,5
và 4,2 năm, thì nhà sản xuất có nên tin rằng các ắc quy có độ lệch chuẩn là một năm không?
Giả sử tuổi thọ của ắc quy là biến ngẫu nhiên có phân phối chuẩn.

Lời giải Ví dụ 1.36 Gọi X là tuổi thọ của ắc quy, khi đó theo (1.15),

1
x= (1, 9 + 2, 4 + 3, 0 + 3, 5 + 4, 2) = 3, 0.
5
Phương sai hiệu chỉnh mẫu được tính theo (1.19) là

1h i
s2 = (1, 9 − 3)3 + (2, 4 − 3)2 + (3, 0 − 3)2 + (3, 5 − 3)2 + (4, 2 − 3)2 = 0, 815.
4
Khi đó,
(5 − 1) × 0, 815
χ2 = = 3, 26
1
là giá trị của thống kê có phân phối Chi-bình phương với 4 bậc tự do. Vì 95% giá trị χ2 với 4
bậc tự do nằm trong khoảng 0, 484 và 11, 143, nên giá trị σ2 = 1 là hợp lý và do đó nhà sản
xuất không có lý do để nghi ngờ rằng độ lệch chuẩn khác một năm.

1.4. Phân phối mẫu 70


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

X −µ
1.4.3 Phân phối mẫu của thống kê T = √
S/ n

Định lý 1.5. Giả sử WX = ( X1 , X2 , . . . , Xn ) là một mẫu ngẫu nhiên kích thước n được xây
dựng từ biến ngẫu nhiên gốc X có phân phối chuẩn với kỳ vọng E( X ) = µ và phương sai
V ( X ) = σ2 chưa biết. Khi đó, thống kê

X−µ
T= √ (1.33)
S/ n

có phân phối t với n − 1 bậc tự do, ở đây X và S lần lượt là kỳ vọng và độ lệch chuẩn của mẫu
ngẫu nhiên WX = ( X1 , X2 , . . . , Xn ).

Nhận xét 1.8. Trong thực hành, nếu n ≥ 30 thống kê T trong (1.33) có phân phối xấp xỉ phân
phối chuẩn tắc.

1.4.4 Phân phối F với hai phương sai mẫu


Giả sử hai mẫu ngẫu nhiên WX1 = ( X11 , X12 , . . . , X1n1 ) và WX2 = ( X11 , X12 , . . . , X1n1 ) kích
thước n1 và n2 được chọn từ hai biến ngẫu nhiên gốc X1 và X2 độc lập, có phân phối chuẩn
với phương sai tương ứng là σ12 và σ22 . Theo Định lý 1.4,

(n1 − 1)S12 (n2 − 1)S22


χ21 = và χ22 =
σ12 σ22

là các thống kê có phân phối Chi-bình phương với số bậc tự do tương ứng là n1 − 1 và n2 − 1.
Do đó, sử dụng Định lý 0.18 với χ21 = U và χ22 = V ta nhận được kết quả sau đây.

Định lý 1.6. Nếu S12 và S22 là hai phương sai hiệu chỉnh của hai mẫu ngẫu nhiên độc lập được
chọn từ hai biến ngẫu nhiên gốc có phân phối chuẩn với phương sai σ12 và σ22 tương ứng, thì
thống kê

S12 /σ12 σ22 S12


F= = (1.34)
S22 /σ22 σ12 S22

có phân phối F với ν1 = n1 − 1 và ν2 = n2 − 1 bậc tự do.

Thực tế, phân phối F được gọi là phân phối tỷ lệ phương sai. Phân phối này được dùng
cho các bài toán hai hoặc nhiều mẫu nhằm rút ra suy luận về phương sai của các tổng thể.
Phân phối F cũng được áp dụng cho nhiều bài toán khác liên quan đến phương sai mẫu.

Bài tập Chương 1

Bài tập Chương 1 71


Suy luận thống kê (2022.1) NGUYỄN THỊ THU THỦY − SAMI

Giới thiệu phần mềm thống kê R


R là phần mềm thống kê miễn phí, được phát triển tại phòng thí nghiệm AT&T bởi Rick
Becker, John Chambers và các cộng sự. Phiên bản đầu tiên của R được viết vào năm 1976.
Tham khảo tại 5 .
Yêu cầu đối với sinh viên:

1. Cài đặt phền mềm thống kê R;

2. Thực hành nhập dữ liệu trong R (nhập dữ liệu trực tiếp; ghi, nhập dữ liệu với file);

3. Thực hành thao tác với dữ liệu (chiết, xuất dữ liệu; chia nhóm dữ liệu);

4. Thực hành viết hàm trong R;

5. Thực hành lập bảng tần số, bảng chia khoảng trong R;

6. Thực hành vẽ các loại biểu đồ trong R;

7. Thực hành tính các đặc trưng mẫu trong R.

Ví dụ 1.37 (Lệnh vẽ đồ thị hàm mật độ của phân phối chuẩn trên R). Muốn có hàm để vẽ đồ
thị hàm mật độ của phân phối chuẩn với hai tham số µ và σ bất kỳ ta dùng dạng hàm có tham
số như sau:
>normalcurve<-function(mu=0,sigma=1)
{
x<-seg(mu-3, mu+3, length=1000)
y<-dnorm(x, mean=mu, sd=sigma)
plot(x, y, type="l", lwd=1)
}
Để vẽ đồ thị hàm mật độ của phân phối chuẩn với các tham số µ = 5 và σ = 2 ta gõ lệnh
>normalcurve(5,2)

Bài tập 1.1. Lấy ví dụ về tập dữ liệu và sử dụng phần mềm R để lập bảng tần số, bảng phân
lớp, vẽ biểu đồ cột, biểu đồ cột kép, tổ chức đồ, biểu đồ hình quạt biểu diễn dữ liệu thu thập
được.

Bài tập 1.2. Lấy ví dụ về tập số liệu và sử dụng phần mềm R để tính các đặc trưng mẫu của
tập dữ liệu đó.

Bài tập 1.3. Lấy ví dụ, chọn số đặc trưng đo trung tâm của tập số liệu. Giải thích vì sao chọn
và tính giá trị số đặc trưng đó.

Bài tập 1.4. Vẽ hình các phân phối mẫu trong bài giảng.
5 Nguyễn Văn Tuấn (2015). Phân tích dữ liệu với R. NXB tổng hợp thành phố Hồ Chí Minh.

Bài tập Chương 1 72

You might also like