Statistics For Business & Economics - Vi1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 888

Chương 01

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định những lĩnh vực ứng dụng của thống kê
➢Giải thích sự khác biệt giữa Thống kê mô tả và Tho� ng kê suy
luận
➢ Xác định được những khái niệm cơ bản của thống kê
➢Xác định các loại dữ liệu, các loại thang đo và các nguon dữ liệu
khác nhau
01
02
03 04
05
06
07
6

❖Kế toán (Accounting)


➢Các công ty kế toán công sử dụng các thủ tục lấy mẫu thống kê
khi tiến hành kiểm toán cho khách hàng của họ.
❖Kinh tế học (Economics)
➢Các nhà kinh tế sử dụng thông tin thống kê để đưa ra dự báo về
tương lai của nền kinh tế hoặc một số khía cạnh của nó.
❖Tài chính (Finance)
➢Các cố vấn tài chính sử dụng tỷ lệ giá trên thu nhập (price-
earnings ratios) và tỷ suất cổ tức (dividend yields) để hướng
dẫn lời khuyên đầu tư của họ.
7

❖Marketing
➢Máy quét điểm bán hàng điện tử tại quầy thanh toán bán lẻ
được sử dụng để thu thập dữ liệu cho nhiều ứng dụng nghiên
cứu tiếp thị.
❖Sản xuất (Production)
➢Một loạt các biểu đồ kiểm soát chất lượng thống kê được sử
dụng để giám sát đầu ra của quy trình sản xuất.
❖Hệ thông thông tin (Information Systems)
➢Một loạt các thông tin thống kê giúp quản trị viên đánh giá hiệu
suất của mạng máy tính.
8

❖Thống kê là gì?
➢ Thống kê là khoa học liên quan đến việc phát triển và nghiên cứu các
phương pháp thu thập, phân tích, giải thích và trình bày dữ liệu.
➢ Thống kê là tập hợp các phương pháp thu thập, hiển thị, phân tích và
rút ra kết luận từ dữ liệu.
➢ Các phương pháp giúp chuyển đổi dữ liệu thành thông tin hữu ích cho
những người ra quyết định.
➢ Thống kê là một cách suy nghĩ có thể giúp nhà quản trị đưa ra quyết
định tốt hơn. Thống kê giúp giải quyết các vấn đề liên quan đến các
quyết định dựa trên dữ liệu đã được thu thập
❖Mục tiêu thống kê là trích xuất thông tin tối đa từ dữ liệu và trình bày
kết quả chính xác và hữu ích nhất càng tốt (*).
❖ Hai lĩnh vực của thống kê là thống kê mô tả và thống kê suy luận.
9

❖Thống kê mô tả (Descriptive Statistics)


➢ Thống kê mô tả là một nhánh của thống
kê liên quan đến việc tổ chức, hiển thị và
die� n giải dữ liệu.
➢ Thống kê mô tả dùng để mô tả, tổng hợp,
biểu dien và giải thı́ch dữ liệu một cách
trực quan và thông qua các số liệu. Nó
giúp chúng ta hiểu về tính chất và xu
hướng của dữ liệu mà không đưa ra
những phỏng đoán hay kết luận về tổng
thể lớn hơn.
10

❖Người quản lý của doanh 91 71 104 85 62


nghiệp sản xuất muốn hiểu rõ 78 69 74 97 82
hơn về chi phí của các bộ phận 93 72 62 88 98
được sử dụng trong quá tr nh 57 89 68 68 101
điều ch nh động cơ được thực 75 66 97 83 79
hiện tại cửa hàng. Kiểm tra 50 52 75 105 68 105
hóa đơn của khách hàng để 99 79 77 71 79
điều ch nh. Chi phí ($) của các 80 75 65 69 69
bộ phận xem bảng bên. 97 72 80 67 62
62 76 109 74 73
11

❖Tóm tắt dạng bảng và đồ họa


20

Chi phí 16
Tần suất
bộ phận Tần số 15
(%) 13
($)
50-59 2 4 10
7 7
60-69 13 26 5
5
70-79 16 32 2

80-89 7 14 0

90-99 7 14
100-109 5 10 -5
50-59 60-69 70-79 80-89 90-99 100-109
Frequency 2 13 16 7 7 5
TOÀN BỘ 50 100
Chi phí bộ phận($)
12

❖Thống kê suy luận (Inferential statistics)


➢Thống kê suy luận là một nhánh của thống kê liên quan đến việc
rút ra kết luận về tổng thể dựa trên thông tin c trong một hay
nhiều mau được lấy từ tổng thể đó.
➢Suy luận thống kê: Quá trình sử dụng dữ liệu thu được từ một
mau để ước tín lượng kiểm định các giả thuyết về các đặc điểm
của tổng thể.
13

❖Dữ liệu (Data) là các sự kiện và số liệu được thu thập, phân tích
và t m tat để trình bày và giải thích.
❖Phan tử/đơn vị/yếu tố (Elements) là các thực thể mà từ đó dữ
liệu được thu thập.
❖Biến/tiêu thức (Variables): đặc tính quan tâm về các phan tử,
gom biến định lượng và biến định tính. Biến định lượng gom c
biến rời rạc và biến liên tục. Trong phân tích can phân biệt hai
loại biến này vì n đòi hỏi những phương pháp phân tích khác
nhau.
❖Quan sát (Observation) là tập hợp các giá trị của các biến thu
được về phan tử cụ thể.
❖Tập dữ liệu (Data set) là tất cả các dữ liệu được thu thập trong
một nghiên cứu cụ thể . Tập dữ liệu có n phan tử chứa n quan
sát.
14

❖Tổng thể (Population) là toàn bộ các đơn vị thuộc đối tượng


nghiên cứu. Mỗi đơn vị này gọi là đơn vị tổng thể.
❖Mẫu (Sample) chính là tập hợp các đơn vị được chọn ra từ tổng
thể để tiến hành điều tra. Mỗi đơn vị này gọi là đơn vị mẫu.
❖Chỉ tiêu thống kê là khái niệm được dùng để phản ảnh mỗi đặc
điểm của tổng thể. Chỉ tiêu thống kê là khái niệm phản ảnh một
cách tổng hợp đặc điểm mặt lượng trong mối liên hệ mật thiết
với mặt chất của hiện tượng nghiên cứu trong điều kiện thời
gian và không gian nhất định.
❖Ví dụ:
➢GDP của Việt Nam của quí, năm,
➢Thu nhập bình quân đầu người mỗi tháng,
➢Lợi nhuận của doanh nghiệp trong một năm…
15

❖Hệ thống chỉ tiêu thống kê là tập hợp những chỉ tiêu thống kê phản
ánh tình hình kinh tế- xã hội chủ yếu của đất nước để phục vụ các cơ
quan, lãnh đạo Đảng và Nhà nước các cấp trong việc đánh giá, dự báo
tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát
triển kinh tế do cơ quan nhà nước có thẩm quyền ban hành.
❖Hiện nay, thống kê Việt Nam có nhiều hệ thống chỉ tiêu thống kê khác
nhau.
❖Theo cấp quản lý, hệ thống chỉ tiêu thống kê Việt Nam gồm có các hệ
thống sau:
➢ Hệ thống chỉ tiêu thống kê quốc gia
➢ Hệ thống chi tiêu thống kê cấp tỉnh
➢ Hệ thống chỉ tiêu thống kê cấp huyện
➢ Hệ thống chỉ tiêu thống kê cấp xã
❖https://www.gso.gov.vn/phuong-phap-luan-thong-ke/he-thong-chi-
tieu-thong-ke/
16

❖Tham số (Parameter): Trong thống kê, tham số tổng thể là một


đại lượng mô tả đặc điểm của tổng thể, như số bình quân,
phương sai, độ lệch chuẩn, tỷ lệ…
➢Chú ý: Không nên nhầm lẫn với các tham số trong các dạng toán
khác, thể hiện các giá trị không đổi cho một hàm toán học nhất
định.
❖Thống kê (Statistic): là đại lượng ngẫu nhiên mô tả đặc trưng
của mẫu, như trung bình mẫu, tỷ lệ mẫu, phương sai mẫu…
❖So sánh Tham số với Thống kê
➢Giống: đều được dùng để mô tả đặc trưng như trung bình, tỷ lệ,
phương sai…
➢Khác biệt: Tham số là số xác định tồn tại trên tổng thể, Thống kê
là đại lượng ngẫu nhiên mô tả đặc trưng của mẫu.
17
Biến

Sàn giao dịch Doanh số hằng Lợi tức cổ


Công ty
chứng khoán năm ($M) phiếu ($)
Tấn Sang NQ 73.10 0.86 Quan sát
Tên của các phần tử

Hoàng Cầu N 74.00 1.67


Đại Dương N 365.70 0.86
Bạch Tuyết NQ 111.40 0.33
Rạng Đông N 17.60 0.13

Data set
18

❖Thang đo bao gồm


➢Định danh (Nominal)
➢Thứ bậc (Ordinal)
➢Khoảng (Interval)
➢Tỉ lệ (Ratio)
❖Thang đo xác định lượng thông tin chứa trong dữ liệu.
❖Thang đo cơ sở để tổng hợp dữ liệu và phân tích thống kê phù
hợp nhất.

CHÚ Ý: Trong SPSS chỉ 3 loại:


➢Scales gồm Interval và Ratio
➢Ordinal
➢Nominal
19

❖Thang đo định danh (Nominal)


➢Dữ liệu là các nhãn hoặc tên được sử dụng để xác định một
thuộc tính của phần tử.
➢Nhãn không phải số hoặc mã số có thể được sử dụng.
➢Thang đo định danh chỉ dùng để đếm không thực hiện bất kỳ
phép tính số học cộng, trừ, nhân, chia.
❖Ví dụ
➢Sinh viên của một trường đại học được phân loại theo ngành
đăng ký học và nhãn không phải là số, chẳng hạn như Quản trị
Kinh doanh, Thống kê kinh tế, Kinh doanh quốc tế, v.v.
➢Ngoài ra, một mã số có thể được sử dụng cho biến phân loại (ví
dụ: 1 biểu thị Quản trị Kinh doanh, 2 biểu thị Thống kê kinh tế,
3 biểu thị Kinh doanh quốc tế, v.v.).
20

❖Thang đo thứ bậc (Ordinal)


➢Dữ liệu có các thuộc tính của dữ liệu định danh.
➢Nhãn không phải số hoặc mã số có thể được sử dụng.
➢Đối với loại thang đo này, chúng ta chỉ thực hiện phép đếm, so
sánh không thực hiện phép cộng, trừ, nhân, chia.
❖Ví dụ
➢Sinh viên của một trường đại học được phân loại bằng cách sử
dụng nhãn không phải là số, chẳng hạn như sinh viên năm nhất,
sinh viên năm thứ hai, … hoặc năm cuối.
➢Ngoài ra, một mã số có thể được sử dụng cho biến dạng của lớp
(ví dụ: 1 biểu thị sinh viên năm nhất, 2 biểu thị sinh viên năm
hai, v.v.).
21

❖Thang đo khoảng (Interval)


➢ Dữ liệu có các thuộc tính của dữ liệu thứ bậc và khoảng giữa các lan
quan sát được thể hiện dưới dạng một đơn vị đo lường cố định.
➢ Dữ liệu theo thang đo khoảng luôn là số.
➢ Số 0 trong thang đo khoảng ch mang tính qui ước.
➢ Đối với loại thang đo này, chúng ta ch thực hiện ph p đếm, cộng trừ,
không thực hiện ph p nhân, chia.
❖Ví dụ
➢ Nguyen Văn Thông có điểm Tho� ng kê Kinh doanh và Kinh te� 9, trong
khi Lê Tuấn Vinh là 8. Nguyen Văn Thông hơn Lê Tuấn Vinh 1 điểm.
➢ Nhiệt độ sử dụng thang đo khoảng. Nhiệt độ ở địa điểm A là 400 C và
nơi B là 200 C thì không c nghĩa nhiệt độ nơi A n ng hơn gấp hai lan
nơi B mà ch c n i nhiệt độ ở A cao hơn nơi B là 200 C.
22

❖Thang đo tỉ lệ (Ratio)
➢Dữ liệu có tất cả các thuộc tính của dữ liệu khoảng và tỷ lệ của
hai giá trị có ý nghĩa.
➢Dữ liệu tỷ lệ luôn là số.
➢Bao gồm giá trị 0 “thật”.
➢Đối với loại thang đo này, thực hiện được phép đếm và các phép
tính số học, như cộng, trừ, nhân, chia...

❖Ví dụ:
➢Giá của một cuốn sách tại cửa hàng bán lẻ là 200 ngàn đồng,
trong khi giá của cùng một cuốn sách được bán trực tuyến là
100 ngàn đồng. Thuộc tính tỷ lệ cho thấy các cửa hàng bán lẻ
tính giá gấp đôi so với giá trực tuyến.
23

Định danh
Số
Thứ bậc
Định tính
Định danh
Không phải số
Dữ liệu Thứ bậc

Khoảng
Định lượng Số
Tỷ lệ
24

❖Căn cứ vào đặc trưng biểu hiện , dữ liệu gồm dữ liệu phân loại
và dữ liệu định lượng.
❖Dữ liệu phân loại hay còn gọi là dữ liệu định tính là loại dữ liệu
không phải dạng số, dùng để mô tả thuộc tính dạng văn bản.
➢Nhãn hoặc tên được sử dụng để xác định một thuộc tính của
mỗi phần tử
➢Sử dụng thang đo định danh hoặc thứ bậc
➢Có thể là số hoặc không phải số
➢Các phân tích thống kê phù hợp còn khá hạn chế.
25

❖Dữ liệu định lượng là dữ liệu theo dạng số và dùng các thang đo
khoảng và thang đo tỷ lệ.
➢Dữ liệu định lượng cho biết bao nhiêu.
➢Dữ liệu định lượng luôn ở dạng số.
➢Các phép toán số học thông thường có ý nghĩa đối với dữ liệu
định lượng.
➢Dữ liệu định lượng gồm dữ liệu rời rạc và dữ liệu liên tục.
❖Mỗi loại dữ liệu có các phương pháp phân tích thống kê phù
hợp với từng loại dữ liệu phân loại hay định lượng.
❖Nói chung, có nhiều lựa chọn thay thế hơn cho phân tích thống
kê khi dữ liệu là định lượng.
26

❖Dữ liệu chéo là dữ liệu được thu Dân số trung bình


thập tại cùng một thời điểm hay Địa phương (Nghìn người)
Ðà Nẵng 1195.49
thời kỳ về nhiều đơn vị (cá nhân,
Quảng Nam 1518.48
chủ thể, đối tượng) khác nhau. Quảng Ngãi 1244.13
❖Khi xử lý dữ liệu chéo, chúng ta Bình Ðịnh 1508.32
sẽ biểu thị chỉ số dưới cho các Phú Yên 875.54
quan sát bằng i (ví dụ: Yi , X i ). Khánh Hoà 1248.06
Ninh Thuận 596.05
❖Ví dụ: Dữ liệu về dân số trung Bình Thuận 1246.31
bình năm 2021 ở các địa phương Tây Nguyên 6033.76
như bảng bên. Kon Tum 568.78
Gia Lai 1569.72
Ðắk Lắk 1909
Ðắk Nông 664.42
Lâm Ðồng 1321.84
27

❖Dữ liệu chuỗi thời gian bao gồm dãy các Lao động từ Tỷ lệ thất
quan sát về một hoặc một số biến theo 15 tuổi trở nghiệp của
thời gian (thời kỳ hay thời điểm). lên đang làm lực lượng lao
việc hàng động trong độ
❖Khi xử lý dữ liệu chuỗi thời gian, chúng Năm năm (Người) tuổi (%)
ta sẽ biểu thị chỉ số dưới cho các quan 2010 49124.4 2.91
sát bằng t (ví dụ: Yt , X t ). 2011 50547.2 2.22
❖Ví dụ 2012 51690.5 1.95
2013 52507.8 2.17
➢ Dữ liệu về Lao động từ 15 tuổi trở lên
2014 53030.6 2.1
đang làm việc hàng năm, Tỷ lệ thất
2015 53110.5 2.34
nghiệp của lực lượng lao động trong độ 2016 53345.5 2.29
tuổi qua các năm ở Việt Nam 2017 53708.6 2.22
2018 54282.5 2.19
2019 54659.2 2.17
2020 53609.6 2.48
28

❖Trong dữ liệu gộp hoặc kết hợp, dữ liệu gồm cả yếu tố thời gian
và đơn vị. Đối với mỗi năm, chúng ta có dữ liệu nhiều đơn vị.
❖Ví dụ: Dữ liệu sau về dân số của cả hai giới bao gồm yếu tố thời
gian là 2 năm và yếu tố đơn vị (chéo) là các quận/huyện ở Đà
Nẵng.
2009 2019
Quận /huyện Nam Nữ Nam Nữ
Liên Chiểu 63734 64619 99 552 95 361
Thanh Khê 85230 89327 90 404 94 660
Hải Châu 91234 98327 96 557 104 965
Sơn Trà 62402 65280 77 848 79 567
Ngũ Hành Sơn 30625 32442 43 906 46 446
Cẩm Lệ 43066 44625 78 589 80 706
Hòa Vang 57817 58707 72 126 73 623
29

❖Dữ liệu bảng là dạng dữ liệu thu thập từ nhiều đơn vị hoặc cá
nhân trong một khoảng thời gian dài. Đây là một loại dữ liệu
tổng hợp đặc biệt trong đó cùng một hay nhiều đơn vị được
khảo sát theo thời gian.
❖Các quan sát dữ liệu bảng sẽ được ký hiệu bằng chỉ số dưới kép
(ví dụ: Yit , Xit ).
❖Ví dụ: Chỉ số sản xuất công nghiệp tại một số địa phương ở Việt
Nam qua các năm (%).
Địa phương 2012 2013 2014 2015 2016 2017 2018 2019 2020
Hà Nội 105 104.5 104.2 108.3 107.3 107 106.9 108.5 104.7
Vĩnh Phúc 97 114 97.1 101.6 105.8 107.5 114.5 111.1 99.4
Bắc Ninh 175 149.2 87.5 112 105.1 135.5 107.4 88.6 103.9
… … … … … … … … … …
Nam Ðịnh 116.4 116.1 110.6 110.3 108.8 109 111 113.8 106.6
Ninh Bình 111.6 111.4 117.4 112.3 101.9 118.6 131.1 126.5 105.6
30
30
❖ Nguồn hiện có
➢ Hồ sơ nội bộ công ty – hầu như bất kỳ bộ phận nào
➢ Dịch vụ cơ sở dữ liệu kinh doanh – Dow Jones & Co.
➢ Cơ quan chính phủ – Tổng cục Thống kê Việt Nam
➢ Hiệp hội ngành – Hiệp hội du lịch Việt Nam
❖ Nguồn từ Internet
➢ https://www.gso.gov.vn/Default.aspx?tabid=706&ItemID=13412
➢ https://www.thearda.com/data-archive/browse-categories
➢ https://www.philippe-fournier-
viger.com/spmf/index.php?link=datasets.php
http://thongke.tourism.vn/
➢ https://stats.oecd.org/#
➢ https://data.worldbank.org/
➢ https://www.kaggle.com/datasets
➢ https://github.com/jbrownlee/Datasets
➢ https://dasl.datadescription.com/datafiles/
31

❖Nghiên cứu thống kê – Quan sát


➢Trong các nghiên cứu quan sát (không thực nghiệm), không có
nỗ lực nào được thực hiện để kiểm soát hoặc tác động đến các
biến quan tâm.
➢Ví dụ – Khảo sát
✓ Các nghiên cứu về người hút thuốc và người không hút thuốc là
nghiên cứu quan sát vì các nhà nghiên cứu không xác định hoặc
kiểm soát ai sẽ hút thuốc và ai sẽ không hút thuốc.
✓ Tổng điều tra dân số.
32

❖Nghiên cứu thống kê – Thực nghiệm


➢Trong các nghiên cứu thực nghiệm, biến quan tâm được xác
định đầu tiên. Sau đó, một hoặc nhiều biến khác được xác định
và kiểm soát để có thể thu được dữ liệu về cách chúng ảnh
hưởng đến biến quan tâm.
33

Nếu căn cứ vào nguồn dữ liệu, dữ liệu gồm


❖Dữ liệu sơ cấp (Primary Data)
➢ Đây là dạng dữ liệu mà người nghiên cứu thu thập một cách trực tiếp
từ đối tượng nghiên cứu, thường bằng cách sử dụng các phương pháp
thu thập dữ liệu, như: khảo sát, phỏng vấn, quan sát trực tiếp hoặc
thực nghiệm.
✓ Tổng điều tra dân số, điều tra doanh nghiệp…
❖Dữ liệu thứ cấp (Secondary Data)
➢ Dữ liệu thứ cấp không được thu thập
trực tiếp bởi người nghiên cứu hoặc
nhóm nghiên cứu mà được lấy từ
nguồn dữ liệu đã được công bố hoặc
thu thập từ các nguồn khác, như sổ
sách của các tổ chức, doanh nghiệp,
các tập san, niên giám thống kê…
34

Căn cứ vào phạm vi thu thập, dữ liệu gồm:


❖Dữ liệu tổng thể: Là dữ liệu thu thập trên tất cả các đơn vị tổng
thể.
➢Ví dụ dữ liệu tổng điều tra dân số của Việt Nam năm 1979,
1989, 1999, 2009, 2019.
❖Dữ liệu mẫu: là dữ liệu thu thập trên tập con các đơn vị tổng thể
được chọn ra từ tổng thể.
✓ Ví dụ dữ liệu khảo sát mẫu mức sống dân cư Việt Nam qua các
năm
Năm 2018 2019 2020 2021 2022
Thu nhập bình quân 1 người 1
Thành thị 5624 6022 5590 5388 5945 tháng chia theo thành thị, nông
Nông thôn 2986 3399 3482 3486 3864 thôn từ năm 2018-2022
Cả nước 3874 4295 4350 4205 4673 (1000VND)
35

❖Trong một nghiên cứu thống kê, hành vi phi đạo đức có thể có
nhiều hình thức bao gồm:
➢Lấy mẫu không đúng cách
➢Phân tích dữ liệu không phù hợp
➢Xây dựng các đồ thị sai lệch
➢Sử dụng số liệu thống kê tóm tắt không phù hợp
➢Giải thích sai lệch các kết quả thống kê
❖Nên cố gắng công bằng, thấu đáo, khách quan và trung lập khi
thu thập, phân tích và trình bày dữ liệu.
❖Là người sử dụng số liệu thống kê, cũng nên nhận thức được
khả năng hành vi phi đạo đức của người khác.
36

❖Hiệp hội Thống kê Hoa Kỳ đã phát triển báo cáo “Hướng dẫn
đạo đức cho thực hành thống kê”
❖Nó chứa 67 hướng dẫn được tổ chức thành 8 lĩnh vực chủ đề:
➢Tính chuyên nghiệp
➢Trách nhiệm đối với nhà tài trợ, khách hàng, người sử dụng lao
động
➢Trách nhiệm trong các ấn phẩm và lời khai
➢Trách nhiệm đối tượng nghiên cứu
➢Trách nhiệm đối với các đồng nghiệp trong nhóm nghiên cứu
➢Trách nhiệm đối với các nhà thống kê/người hành nghề khác
➢Trách nhiệm liên quan đến các cáo buộc về hành vi sai trái
➢Trách nhiệm của người sử dụng lao động bao gồm tổ chức, cá
nhân, luật sư hoặc khách hàng khác
37

❖Điều 66 Luật Thống kê 2015 của Việt Nam quy định rõ:
➢1. Người làm công tác thống kê phải có các tiêu chuan sau đây:
✓ Có pham chất đạo đức tốt, trung thực, khách quan, có ý thức chấp
hành pháp luật;
✓ Có tr nh độ chuyên môn, nghiệp vụ thống kê.
➢2. Người làm công tác thống kê độc lập về chuyên môn, nghiệp
vụ trong hoạt động thống kê.
➢ 3. Người làm công tác thống kê phải tuân thủ các quy định của
pháp luật về tho� ng kê, thực hiện và chịu trách nhiệm về công
việc được phân công.

❖https://vanban.chinhphu.vn/default.aspx?pageid=27160&doci
d=183199
38

❖Sự ra đời của máy tính chắc chắn đã cách mạng hóa việc thực hành
thống kê (Speed, 1985).
❖Rõ ràng là cả lý thuyết và thực hành thống kê đang được cách mạng
hóa bởi máy tính và kết quả là những thay đổi căn bản đang diễn ra
trong việc giảng dạy thống kê (Lunn. 1985).
❖Có hai cách khác nhau để máy tính thay đổi lĩnh vực thống kê:
➢ Đầu tiên, máy tính có thể giúp chúng ta làm những gì chúng ta đã làm
trước khi máy tính ra đời nhưng theo một cách hiệu quả hơn.
➢ Thứ hai, máy tính có thể giúp chúng ta làm những việc mà trước khi
máy tính ra đời không ai nghĩ tới, các phương pháp sử dụng máy tính
khác nhau.
❖Mối quan hệ chặt chẽ giữa thống kê và máy tính ngụ ý rằng khi cái này
thay đổi thì cái kia cũng sẽ thay đổi.

❖https://www.youtube.com/watch?v=vgvilqizv_A&t=34s
39

❖Nhiều kỹ thuật lập mô hình thống kê và phân tích dữ liệu có thể


khó nắm bắt và áp dụng, và thường cần phải sử dụng phần mềm
máy tính để hỗ trợ triển khai các tập dữ liệu lớn và thu được kết
quả hữu ích.
❖Phần mềm phân tích thống kê phổ biến
➢Excel
➢SPSS
➢SPSS Modeler
➢STATA
➢SAS
➢Tableau
➢Eviews…
➢R, Python…
Chương 02
Chapter 02
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định được tầm quan trọng của các thống kê mô tả.
➢Xác định các tình huống trong thực tiễn để thực hiện tho� ng kê
mô tả.
➢Sử dụng được những phương pháp khác nhau của thống kê mô
tả.
➢Xác định thủ tục tính toán thống kê mô tả bằng SPSS và giải
thích được kết quả kết xuất của nó
3
❖Thống kê mô tả là một nhánh của thống kê liên quan đến việc tỏ chức,
hiển thị và die� n giải dữ liệu. Thống kê mô tả giúp hiểu ve t nh chất và
xu hướng của dữ liệu mà không đưa ra những phỏng đoán hay kết
luận ve tỏ ng thể lớn hơn.
❖ Các phương pháp thống kê mô tả
➢ Phân tỏ dữ liệu
➢ Bảng và đo thị
➢ Các đại lượng đo lường đặc trưng
✓ Số tuyệt đối, số tương đối
✓ Đo lường vị tr (hội tụ)
✓ Đo lường độ biến thiên (phân tán)
➢ Đo lường dạng phân phối
✓ Hệ số đối xứng (Skewness Coefficient)
✓ Hệ số nhọn (Kurtorsis Coefficient)
6

❖Một trong những phương pháp được sử dụng khá phổ biến
trong thống kê, đó chính là phương pháp phân tổ hay còn gọi là
phân nhóm dữ liệu.
❖Phân tổ là căn cứ vào một hay một số biến /tiêu thức nào đó để
tiến hành phân chia các đơn vị thành các tổ hoặc các tiểu tổ có
tính chất khác nhau. Hay nói cách khác, phân tổ dữ liệu là quá
trình tổ chức dữ liệu thành các tổ hay còn được gọi là các lớp.
❖Phân tổ là một phương pháp khá phổ biến và có ý nghĩa rất lớn
trong phân tích dữ liệu, cụ thể:
➢Là phương pháp cơ bản để tổng hợp dữ liệu.
➢Còn là phương pháp quan trọng để phân tích dữ liệu.
7

❖Chọn biến /tiêu thức phân tổ


➢Biến phân tổ là biến được chọn làm căn cứ để tiến hành phân tổ
dữ liệu.
➢Nguyên tắc lựa chọn chính xác biến phân tổ
✓ Phải dựa trên cơ sở phân tích lý luận để chọn biến bản chất phù
hợp với mục đích nghiên cứu.
✓ Phải căn cứ vào điều kiện lịch sử cụ thể của hiện tượng nghiên
cứu để lựa chọn biến thích hợp nhất.
❖Xác định số tổ cần thiết và khoảng cách tổ
➢① Phân tổ theo biến phân loại
✓ Trường hợp giản đơn: Khi biến phân loại có ít loại và khi đó mỗi
loại hình thành một tổ.
o Ví dụ: Phân tổ nhân viên theo giới tính (Nam, Nữ), phân loại
sinh viên theo trình độ học lực (xuất sắc, giỏi, khá, trung bình)...
8

➢Phân tổ công nhân theo giới tính


Giới tính Số công nhân
Nữ 29
Nam 31

✓ Trường hợp phức tạp: Khi biến phân loại có nhiều loại và vì thế
cần ghép nhiều loại thành một tổ. Việc ghép này phải dựa vào lý
luận phức tạp mà thường do các cơ quan quản lý ghép trước như
danh mục sản phẩm, bảng phân ngành…
o Ví dụ 1: Danh mục ngành nghề kinh doanh (Ban hành kèm
theo Quyết định số 27/2018/QĐ-TTg ngày 06 tháng 7 năm
2018 của Thủ tướng Chính phủ). Danh mục này gồm 5 cấp:
* Ngành cấp 1 gồm 21 ngành được mã hóa theo bảng chữ cái
lần lượt từ A đến U;
9

* Ngành cấp 2 gồm 88 ngành; mỗi ngành được mã hóa bằng hai
số theo ngành cấp 1 tương ứng;
* Ngành cấp 3 gồm 242 ngành; mỗi ngành được mã hóa bằng
ba số theo ngành cấp 2 tương ứng;
* Ngành cấp 4 gồm 486 ngành; mỗi ngành được mã hóa bằng
bốn số theo ngành cấp 3 tương ứng;
* Ngành cấp 5 gồm 734 ngành; mỗi ngành được mã hóa bằng
năm số theo ngành cấp 4 tương ứng.
Cấp 1 Cấp 2 Cấp 3 Cấp 4 Cấp 5 Tên ngành
A NÔNG NGHIỆP, LÂM NGHIỆP VÀ THUỶ SẢN
01 Nông nghiệp và hoạt động dịch vụ có liên quan
011 Trồng cây hàng năm
0111 01110 Trồng lúa
… … … … … …
10

o Ví dụ 2. Thông tư 09/2022/TT-BGDĐT danh mục thống kê


ngành đào tạo giáo dục đại học. PHỤ LỤC I: Danh mục thống kê
ngành đào tạo các trình độ đại học, thạc sĩ, tiến sĩ
❖PHẦN I. Danh mục thống kê các ngành đào tạo trình độ đại học
Mã ngành Tên ngành Hiệu lực Ghi chú
… …
731 Khoa học xã hội và hành vi
73101 Kinh tế học
7310101 Kinh tế
… …
7310107 Thống kê kinh tế
7310108 Toán kinh tế
… …
11

➢②Phân tổ theo biến định lượng


✓ Trường hợp giản đơn: Khi lượng biến của biến định lượng biến
thiên ít và là những số xác định và khi đó mỗi lượng biến hành
thành nên một tổ.
o Ví dụ: Phân tổ công nhân theo số máy phụ trách, phân tổ các gia
đình theo số người trong gia đình, phân tổ công nhân theo bậc
thợ…
Bậc thợ Số công nhân
1 9
2 11
3 18
4 13
5 3
6 5
7 1
Tổng 60
12

✓ Trường hợp phức tạp: Khi lượng biến của biến định lượng biến
thiên nhiều và cần ghép nhiều lượng biến thành một tổ.
o Bước 1: Xác định giá trị dữ liệu lớn nhất và nhỏ nhất trong tập
dữ liệu.
o Bước 2: Xác định số nhóm/tổ/lớp (Bin): Sử dụng công thức quy
tắc Sturges để xác định số lớp tối ưu:
* Số tổ tối ưu= ⌈log2n + 1⌉
o Trong đó:
* n: Tổng số quan sát trong tập dữ liệu.
* ⌈ ⌉: Ký hiệu có nghĩa làm tròn lên đến số nguyên gần nhất.
* Ngoài ra, còn có các lựa chọn thay thế cho Quy tắc của Sturges
* Quy tắc căn bậc hai: Số tổ= ⌈√n⌉
* Quy tắc Rice: Số tổ = ⌈2 * 3√n⌉
13

➢Bước 3: Xác định khoảng cách tổ


Giá trị lớn nhất−Giá trị nhỏ nhất
✓ Khoảng cách tổ =
Số tổ
o Lưu ý: Trong trường hợp bất kỳ số thập phân nào thu được
kích thước tổ, hãy lấy số nguyên gần nhất lớn hơn số thập phân
thu được làm khoảng cách tổ.
➢Bước 4: Tạo và viết các khoảng cách tổ theo thứ tự tăng dần.
➢Bước 5: Xác định số quan sát trong mỗi tổ.
14

BÀI TOÁN
➢Có dữ liệu về thời gian hoàn thành một sản phẩm (phút) của 60
công nhân.
20.8 22.8 21.9 22.0 21.7 20.9 25.5 22.2 22.8 20.1 20.2 22.9
26.0 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5 22.9 22.5
23.7 20.3 22.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8 21.1 24.6
21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9 23.9 23.1
19.7 24.2 22.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7 24.9 19.8

➢Hãy tiến hành phân tổ công nhân thành các 6 tổ khác nhau.
15

LỜI GIẢI
❖Bước 1: Giá trị cao nhất = 26; giá trị thấp nhất =19.
❖Bước 2: Xác định số tổ = ⌈log 2 𝑛+ 1⌉= ⌈log 2 60+ 1⌉= ⌈5.906891+
1⌉ 7
❖Bước 3: Xác định khoảng cách tổ Thời gian chi phí Tần số

➢d = (xmax −xmin )/7 = (26 − 19)/7 = 1 19-20 7


❖Bước 4: Tạo và viết các khoảng cách tổ 20-21 9
21-22 10
❖Bước 5: Xác định số quan sát trong mỗi
22-23 12
tổ, hình thành bảng phân phối tần số.
23 –24 10
24 -25 9
25-26 3
16

❖Bước 1. Tạo File SPSS


➢1. Từ menu chính, New →Data →xuất hiện màn hình
Untitled? → Tại màn hình hãy chọn khung nhìn của biến
(Variable View) bằng cách Variable View ở góc bên trái phía
dưới màn hình.
➢2. Hãy xác định các biến và thuộc tính của chúng như sau
17

❖Bước 2. Nhập dữ liệu


➢Sau khi xác định biến trong Variable View, chuyển sang màn
hình Data View.
❖Bước 3. Lưu tệp dữ liệu
➢Lưu thành File Thoigiansanxuat.sav ở vị trí mong muốn trước
khi xử l thêm.
18

❖Bước 4. Từ menu chính, Data


→Transform →Visual Binning...
Xuất hiện hộp thoại Visual Binning.
❖Bước 5. Trong hộp thoại Visual
Binning, chuyển biến Thoigian (Thời
gian cần thiết để hoàn thành một sản
phẩm (phút) vào khoang Variables to
Bin (xem Hình bên)→ Continue để
quay lại hộp thoại Visual Binning.
19

❖Bước 6. Tại hộp thoại Visual Binning, nhập tên (Name) cho biến
mới vào ô Binned Variable: PhantoThoigian và nhãn của nó vào
ô lables: “Phân tổ thời gian cần thiết để hoàn thành một sản
phẩm (phút)” như hình sau.
20

❖Bước 7. Cũng tại màn hình Visual


Binning, Make Cutpoints → xuất
hiện hộp thoại Make Cutpoints
như hình bên.
❖ Bước 8. Tại hộp thoại Make
Cutpoints, Equal width Interval.
H y đien thông tin vào ít nhất 2
trường để ph n tỏ , cụ thể:
➢ Nhập giá trị tại điểm cat đầu tiên
(First Cutpoint Location): 20
➢ Nhập số điểm cat (Number of
Cutpoints): 6 hoặc chieu rộng:
1.000
➢ Apply > quay lại hộp thoại
Visual Binning.
21
❖Bước 9. Tại màn hình Visual Binning, Make lable để tạo nhãn cho
các tổ. Cụ thể như hình sau.
22

❖Bước 10. OK. Kết quả tạo nên biến mới Phantothoigian
trong File dữ liệu.
23

❖Bước 11. Tạo bảng tần suất


➢ Trên menu chính, Analyze
→Descriptive Statistics
→Frequencies... >Chuyển
biến Phantothoigian vào
khoang Variable(s)
→Display frequency
tables. Kết quả như Hình bên.
❖Bước 12. OK →Kết quả như
trang sau.
24

❖Đầu ra
PhantoThoigian
Valid Cumulative
Frequency Percent Percent Percent
Valid < 20.00 7 11.7 11.7 11.7
20.00 - 21.00 9 15.0 15.0 26.7
21.00 - 22.00 10 16.7 16.7 43.3
22.00 - 23.00 12 20.0 20.0 63.3
23.00 - 24.00 10 16.7 16.7 80.0
24.00 - 25.00 9 15.0 15.0 95.0
25.00+ 3 5.0 5.0 100.0
Total 60 100.0 100.0
26

❖Sau khi phân tổ, các đơn vị được phân phối vào các tổ hình
thành nên dãy số phân phối/phân phối tần số.
❖Phân phối ta� n so� là một thuật ngữ trong thống kê để chỉ sự phân
bố của các giá trị trong một tập dữ liệu. Nó mô tả cách các giá trị
được phân bố trong tập dữ liệu và cung cấp thông tin về tần so�
xuất hiện của các giá trị khác nhau.
❖Ý nghĩa
➢Phân phối ta� n so� giúp nghiên cứu tình hình phân phối các đơn
vị trong tổng thể, tính các chỉ tiêu phản ảnh kết cấu của tổng thể
và sự biến động kết cấu đó.
➢ Còn là cơ sở để tính các chỉ tiêu phân tích thống kê khác, xác
định các xu hướng biến động của hiện tượng.
27

❖Hai thành phần của phân phối ta� n so�


➢Thành phần đầu tiên thể hiện các giá trị hay loại tổ khác nhau
theo biến phân tổ.
➢ Thành phần thứ hai thể hiện tần số: Tần số là số lần lặp lại của
moi giá trị hay loại trong toàn bộ các đơn vị nghiên cứu và
thường được k hiệu là f.
Các giá trị Tần số Tần số
(xi) (fi) Các tổ (fi)
x1 f1 𝑥1min - 𝑥1max 𝑓1
x2 f2 𝑥2min − 𝑥2max 𝑓2
... ... ... ...
𝑥𝑖 𝑓𝑖 𝑥𝑖min − 𝑥𝑖max 𝑓𝑖
… … ...
𝑥𝑛 𝑓𝑛 𝑥n𝑚𝑖𝑛 −𝑥n𝑚𝑎𝑥 𝑓𝑛
28

❖Nếu căn cứ và đặc điểm của biến phân tổ, dãy số gồm dãy số
thuộc tính và dãy số lượng biến.
➢Dãy số thuộc tính: Kết quả của phân tổ theo biến phân loại, như
giới tính, học lực, địa phương, thành phần kinh tế, ngành.
✓ Ví dụ: Phân loại sinh viên của lớp học theo trình độ học lực
Học lực Số sinh viên
Xuất sắc 5
Giỏi 16
Khá 20
Trung bình 10
29

➢Dãy số lượng biến: Kết quả của phân tổ theo biến định lượng,
như bậc thợ, tuổi, thu nhập, điểm, vốn, lợi nhuận, GDP, dân số,...
✓ Trong dãy số lượng biến, có thể không hay có khoảng cách tổ.

Bậc Số công nhân


Thời gian chi phí Tần số
thợ (Người)
1 10 19-20 7
2 13 20-21 9
3 17 21-22 10
4 20 22-23 12
5 16 23 –24 10
6 10 24 -25 9
7 7 25-26 3
30

CHÚ Ý: Trong dãy số, tần số có thể được chia thành nhiều loại:
➢Tần số tuyệt đối (absolute frequency)
➢Tần số tương đối (Relative frequency), có thể biểu thị dạng số
lần hay %
➢Tần số tích lũy (Cumulative frequency), có thể tích lũy tiến hay
tích lũy lùi.
31

Phân phối tần số tương đối (Relative frequency


frequency fi
➢Relative frequency i(di ) =
Sum of the frequencies ( σ fi )
f
➢di = σ i × 100 Thời gian chi phí Tần số tương đối (%)
fi
19-20 12
➢Cụ thể:
20-21 16
7
✓ d1 = × 100 = 12(%) 21-22 17
60
✓… 22-23 20
3 23 –24 17
✓ d7 = × 100 = 5(%)
60 24 -25 15
25-26 5
Tổng 100
CHÚ Ý: Trong SPSS, tần số tương đối gọi là Percent.
32

Phân phối tần số tích lũy (Cumulative frequency): Các tần số được
tích lũy tăng dần hay giảm dần.
Tần số
Các giá trị tuyệt đối Tần suất Tần suất
hoặc khoảng (absolute (relative Tần số tích lũy tích lũy
cách tổ frequency) frequency) (Cumulative (Cumulative
(xi) (fi) (di) frequency) Percent)
𝑥1 𝑓1 𝑑1 = 𝑓1/𝑓𝑖 𝑓1 𝑑1

𝑥2 𝑓2 𝑑2 = 𝑓2/𝑓𝑖 𝑓1 + 𝑓2 𝑑1 + 𝑑2

... ... ... ... ...

𝑥𝑛 𝑓𝑛 𝑑𝑛 = 𝑓𝑛/𝑓𝑖 𝒇𝟏 + ⋯ + 𝑓𝑛 𝑑1 + ⋯ + 𝑑𝑛
33

❖Trong SPSS, kết xuất theo dạng như sau


PhantoThoigian
Valid Cumulative
Frequency Percent Percent Percent
Valid < 20.00 7 11.7 11.7 11.7
20.00 - 21.00 9 15.0 15.0 26.7
21.00 - 22.00 10 16.7 16.7 43.3
22.00 - 23.00 12 20.0 20.0 63.3
23.00 - 24.00 10 16.7 16.7 80.0
24.00 - 25.00 9 15.0 15.0 95.0
25.00+ 3 5.0 5.0 100.0
Total 60 100.0 100.0
35

❖Bảng là công cụ để trình bày và phân


Nhóm Giới tính
tích số liệu một cách có hệ thống, logic,
tuổi Nam Nữ
rõ ràng thể hiện các đặc điểm của hiện
tượng nghiên cứu. <20 4 5
❖Về hình thức: Bảng bao gồm sự sắp 20-30 64 49
xếp theo thứ tự của các hàng và cột. 30-40 38 46
Giao của một hàng và một cột được gọi 40-50 14 26
là một ô. >50 24 30
❖Bảng giúp so sánh và đối chiếu thông
tin dễ dàng hơn. Dữ liệu dễ đọc hơn ở
định dạng bảng.
36

Các chỉ tiêu giải thích


(Tên cột)
Biến 1 Biến 2
Tên cột Tên cột
Tên cột 1 Tên cột 2 …
3 m
A (1) (2) (3) … (m)
Loại 1 theo Loại 1 theo
biến 1 biến 2
Loại 2 theo
biến 2
… …
Loại 2 theo Loại 1 theo
biến 1 biến 2
Loại 2 theo
biến 2
… …
37

Dân số Mật độ
Diện tích
trung bình dân số
(Km2)
(Nghìn người) (Người/km2)
A (1) (2) (3)=(2)/(1)
Thừa Thiên - Huế 4902,5 1154,3 235
Đà Nẵng 1284,9 1064,1 828
Quảng Nam 10574,7 1493,8 141
Quảng Ngãi 5152,5 1263,7 245
Bình Định 6066,2 1529,0 252
38

❖Qui mô của bảng phải hợp lý, không quá lớn;


❖Các tiêu đề và tiêu mục của bảng phải được ghi chính xác ngắn
gọn và dễ hiểu;
❖Các hàng, cột thường được ký hiệu bằng chữ hoặc số để tiện cho
việc trình bày hoặc giải thích nội dung;
❖Các chỉ tiêu giải thích cần được sắp xếp theo một thứ tự hợp lý;
❖Cách ghi số liệu vào trong bảng tuân theo những qui ước sau:
nếu ô nào không có số liệu thì ghi dấu ngạch ngang (-), nếu ô
nào thiếu số liệu thì ghi dấu 3 chấm (...), nếu ô nào hoàn toàn
không có số liệu thì ghi (x).
39

❖Trong thực tiễn phân tích và trực quan dữ liệu, chúng ta còn có
nhu cầu tóm tắt mối liên hệ từ hai biến trở lên. Khi đó, chúng ta
nên sử dụng bảng chéo.
❖Bảng chéo (Crosstabulation) là một phương pháp được sử dụng để
phân tích mối quan hệ giữa hai hoặc nhiều biến và trong đó sử
dụng tần số tuyệt đối hoặc tần số phần trăm để trình bày mức độ
phụ thuộc giữa các biến số.
❖Crosstabulation có thể được sử dụng khi
➢ Một biến là phân loại và biến kia là định lượng,
➢ Cả hai biến là phân loại
➢ Cả hai biến đều là định lượng.
❖Các nhãn lề trái và trên cùng xác định các lớp cho hai biến.
40

❖Trong thống kê, bảng chéo còn


được gọi là bảng tiếp liên Biến B Tổng
Biến A
(Contingency) có dạng như bảng 1 2 … c số
bên. 1 O11 O12 … O1c r1
❖Trong đó: 2 O21 O22 … O2c r2
➢ Oij số quan sát trong ô ở hàng … … … … … …
thứ i và cột thứ j. r Or1 Or2 … Orc rr
➢ R i và Cj là tổng của hàng và cột Tổng số C1 C2 … Cc N

❖Giả sử biến A có r loại và biến B có


c loại. Sẽ có bảng tiếp liên 𝑟 × 𝑐.
41

❖Mục đích của bảng chéo là gì?


Giới Tay thuận
➢Bảng chéo là một công cụ để tính
Tổng
Trái Phải
phân tích định lượng mối quan
hệ giữa nhiều biến. Nữ 12 108 120
➢Nó thường được sử dụng trong Nam 24 156 180
phân tích thống kê để tìm các Tổng 36 264 300
mẫu, xu hướng và xác suất trong
dữ liệu thô. Một tính năng như
vậy cho phép khám phá những
hiểu biết sâu sắc từ một tập dữ
liệu dày đặc khó diễn giải.
42

❖Ví dụ: mô tả mối quan hệ giữa số lượng nhà bán và kiểu nhà
➢ Số lượng nhà ở một địa phương được bán theo mỗi kiểu nhà và giá
trong hai năm qua như sau:
Kiểu nhà
Total
Giá nhà (USD) A B C D
<250,000 18 6 19 12 55
250,000+ 12 14 16 3 45
Total 30 20 35 15 100
❖Nhận xét
➢ Số lượng nhà nhiều nhất (19) với mẫu là C và có giá dưới 250000
USD.
➢ Chỉ có 3 ngôi nhà với mẫu là kiểu D và có giá từ 250000 USD trở lên.
43

❖Bảng chéo giúp cho quá trình phân tích và tổ chức dữ liệu trở
nên đơn giản và hiệu quả hơn theo các cách sau:
➢Dữ liệu có giá trị được đặt lên hàng đầu
✓ Xác định những điểm có giá trị nhất giữa một biển dữ liệu là cần
thiết cho quá trình phân tích. Thông qua công cụ này, dữ liệu có
giá trị được đặt lên hàng đầu, giúp xác định thông tin đáng tin cậy
hỗ trợ các quyết định chiến lược.
➢The� hiện được những hiểu biết sâu sắc về dữ liệu quan trọng
✓ Mục đích của việc thu thập và phân tích dữ liệu là để bắt đầu quá
trình ra quyết định chiến lược, cho phép doanh nghiệp đạt được
mục tiêu, tạo ra giá trị và giảm thiểu rủi ro. Việc lập bảng chéo
trong nghiên cứu giúp khám phá những hiểu biết sâu sắc về dữ
liệu này, giúp đạt được tiềm năng tốt nhất của mình.
44

➢De� phát hiện sai số


✓ Điều cực kỳ quan trọng là các tập dữ liệu với qui mô lớn được làm
sạch để xử lý thêm. Chúng cần được chia thành các danh mục nhỏ
hơn, dễ quản lý hơn, cho phép nhà nghiên cứu hiểu và xác định ý
nghĩa và hàm ý của chúng một cách hiệu quả. Việc lập bảng chéo
giúp đạt được mục tiêu này và giảm khả năng mắc lỗi trong giai
đoạn tổ chức!
45

❖Việc chuyển đổi các ta� n so� Kiểu nhà


trong bảng thành tỷ lệ phần Giá nhà Total
A B C D
trăm hàng hoặc tỷ lệ phần
<250.000 18 6 19 12 55
trăm cột có thể cung cap thêm
thông tin chi tiet về mối quan 250.000+ 12 14 16 3 45
hệ giữa hai bien. Total 30 20 35 15 100

Kiểu nhà (%)


Giá nhà Total
A B C D
<250.000 32.73 10.91 34.55 21.82 100
250.000+ 26.67 31.11 35.56 6.67 100
32,73= (18/55)*100
46

❖Ví dụ: Nhà bán


Kiểu nhà
Giá nhà Total
A B C D
<250.000 18 6 19 12 55
250.000+ 12 14 16 3 45
Total 30 20 35 15 100

Giá nhà Kiểu nhà (%)


(USD) A B C D
<250.000 60.00 30.00 54.29 80.00
250.000+ 40.00 70.00 45.71 20.00
Total 100 100 100 100

40.00= (12/30)*100
47

❖Chỉ nhằm mô tả như những kết quả như trên thì sử dụng thủ tục
Tables
❖Bước 1. Từ menu chính, Analyze →Customs Tables… →xuất
hiện hộp thoại Customs Tables
❖Bước 2. Tại hộp thoại Customs Tables, hãy chuyển những biến vào
những khoang Rows và Columns thích hợp
❖Bước 3. Hãy tùy chọn những % hàng hay cột thích hợp.

Kieunha
A B C D Total
<250.000 32.7% 10.9% 34.5% 21.8% 100.0%
Gianha
250.000+ 26.7% 31.1% 35.6% 6.7% 100.0%
48

❖Bước 1. Từ menu chính, Analyze → Customs Tables… →xuất


hiện hộp thoại Customs Tables.
❖Bước 2. Tại hộp thoại Customs Tables, hãy chuyển biến Gianha vào
những khoang Rows chuyển biến Kieunha vào Columns.
❖Bước 3. Trong khoang chính, kieunha→Categories and
Totals...→xuất hiện hộp thoại Categories and Totals
→Total→Apply→quay lại hộp thoại Customs Tables.
❖Bước 4. Tại hộp thoại Customs Tables, giaban→Summary
Statistics...→xuất hiện hộp thoại Summary Statistics.
❖Bước 5. Tại hộp thoại Summary Statistics, chọn Row percent trong
Statistics và chuyển vào khoang Display→điều chỉnh Lable: % hàng,
Fomat: n,nnn.nn, Decimals: 2
49

→Apply to Selection→Close→ quay lại hộp thoại Customs


Tables.
❖Bước 6. Tại hộp thoại Customs Tables, tại khoang Summary
Statistics, Hide.
❖Bước 7. OK → kết quả như sau:
Kieunha
A B C D Total
<250.000 32.73 10.91 34.55 21.82 100.00
Gianha
250.000+ 26.67 31.11 35.56 6.67 100.00
50

❖Bảng trụ xoay là một công cụ xử lý và phân tı́ch dữ liệu được sử


dụng trong các pha� n me� m đe� to� ng hợp và phân tı́ch lượng lớn
dữ liệu. Nó giúp người dùng bie� n dữ liệu thô thành một định
dạng có to� chức và ý nghı̃a hơn đe� de� dàng phân tı́ch và báo cáo.
❖Những tóm tắt có thể bao gồm tổng, trung bình hoặc thống kê
khác mà bảng trụ xoay nhóm lại với nhau bằng cách sử dụng
hàm tổng hợp đã chọn áp dụng cho các giá trị được nhóm.
❖Bảng trụ xoay thường bao gồm bộ lọc, cột, hàng và dữ liệu và.
❖Các trường của trụ xoay là các khối xây dựng của bảng. Mỗi
trường trong danh sách có thể được chuyển vào bố cục này, bố
cục này có bốn tùy chọn:
➢Bộ lọc (Filters): Bộ lọc được sử dụng để áp dụng bộ lọc cho toàn
bộ bảng.
➢ Cột (Columns): Nhãn cột được sử dụng để áp dụng bộ lọc cho
một hoặc nhiều cột được hiển thị trong bảng trụ xoay.
51

➢Hàng (Rows): Nhãn hàng được sử dụng để áp dụng bộ lọc cho


một hoặc nhiều hàng phải được hiển thị trong bảng tổng hợp
➢Giá trị (Values): Điều này thường lấy một trường có các giá trị
số có thể được sử dụng cho các loại tính toán khác nhau.
➢Trong Excel, SPSS có bảng trụ xoay tương ứng như hình 1 và 2.
53
❖Biểu đồ/Ðồ thị là các hình vẽ hoặc đường nét hình học dùng để mô tả
có tính chất qui ước dữ liệu hoặc thông tin.
❖Công dụng
➢ Trong hầu hết các trường hợp, đồ họa hữu ích hơn bảng để nhận biết
các mẫu và xu hướng.
➢ Hiển thị dữ liệu theo những cách sáng tạo có thể dẫn đến những hiểu
biết mạnh mẽ.
➢ Biểu đồ phân tán và đường xu hướng rất hữu ích trong việc khám phá
mối quan hệ giữa hai biến…
❖ Đặc điểm
➢ Sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc.
➢ Chỉ trình bày một cách khái quát các đặc điểm chủ yếu về bản chất và
xu hướng phát triển của hiện tượng.
❖ Phân loại: Biểu đồ có thể được dùng mô tả một biến, như biểu đồ
thanh/cột, biểu đồ hộp,... hay hai biến như biểu đồ đường,...
54

❖Biểu đồ thanh, còn được gọi là biểu đồ cột, là một loại biểu đồ mà
dữ liệu được biểu dien dưới dạng các cột. Moi cột thể hiện giá trị
của một biến. Biểu đồ thanh thường được sử dụng để so sánh giá
trị giữa các nhóm hoặc theo thời gian.
❖Có thể sử dụng tần số, tần suất cho trục kia (thường là trục tung).
❖Sử dụng một thanh có chiều rộng cố định được vẽ phía trên moi
nhãn lớp/to� , chúng ta thay đo� i chiều cao một cách thích hợp.
➢ Các thanh được tách ra để nhấn mạnh thực tế rang moi lớp là một
danh mục riêng biệt.
55

BÀI TOÁN
❖Trực quan dữ liệu về trình độ
học lực sinh viên một lớp học Số sinh viên
25
với dữ liệu như bảng sau 20
20

Học lực Số sinh viên 15


16

Xuất sắc 5 10
10
Giỏi 16 5
5
Khá 20
0
Trung bình 10 Xuất sắc Giỏi Khá Trung bình
56

❖Biểu đồ hình tròn biểu diễn dữ liệu dưới dạng các phần tương ứng
với tỷ lệ phần trăm của các giá trị khác nhau trong toàn thể.
❖Biểu đồ hình tròn bánh thường có hình dạng giống như một cái
bánh được chia thành các phần, với mỗi phần biểu thị một phần
trăm cụ thể của toàn thể.
❖Biểu đồ dùng để biểu diễn kết cấu của một hiện tượng theo biến
định tính, như kết cấu của lớp học theo trình độ học lực, giới
tính,…, kết cấu lực lượng lao động của doanh nghiệp, địa phương…
❖Tuy nhiên, cần lưu ý rằng biểu đồ hình bánh có thể gây khó khăn
trong việc so sánh kích thước chính xác của các phần nếu số loại
quá nhiều hoặc tỷ lệ giữa các phần khá gần nhau.
57

CÁCH VẼ Xuất sắc


10%
❖Đầu tiên vẽ một vòng tròn, sau đó Trung bình
20%
sử dụng các tần suất để chia nhỏ
vòng tròn thành các cung tương
ứng với tần suất cho mỗi lớp.
❖Bởi vì có 360 độ trong một vòng
tròn, một lớp có tần suất là 0.20 sẽ Giỏi
31%
sử dụng 0.20(360) = 720 của vòng
tròn. Khá
39%
58

❖Một trong những tóm tắt dữ liệu bằng đồ họa đơn giản nhất là
biểu đồ điểm.
❖Trục ngang hiển thị phạm vi giá trị dữ liệu.
❖Sau đó, mỗi giá trị dữ liệu được biểu thị bằng một điểm đặt phía
trên trục.

50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100 102 104 106 108 110


59

Bước 1: Tạo dãy số phân phối như bảng


Chi phí một phần
bên (USD)
Tần số
Bước 2. Vẽ đồ thị cột như Hình sau 50-59 2
60-69 13
18
70-79 16
16

14 80-89 7
12
90-99 7
10

8
100-109 5
6

0
50-59 60-69 70-79 80-89 90-99 100-109
60

❖Bước 3. Chọn các thanh của đồ thị 18


16
Format Data series Picture or 14

texture fill →Chọn một hình tròn đã 1210


chuẩn bị sẵn. 8
6

❖Bước 4. Stack and Scale with 4


2

❖Bước 5. Bỏ trục tung và điều chỉnh 0


50-59 60-69 70-79 80-89 90-99 100-109
thêm cho đồ thị cân đối và sẽ được kết
quả như sau

50-59 60-69 70-79 80-89 90-99 100-109


61

❖Biểu đồ tần suất (histogram), là một biểu đồ sử dụng các hình


chữ nhật để biểu diễn phân phối tần so� của các khoảng giá trị dữ
liệu. Trên trục ngang của biểu đồ là các khoảng giá trị, và trục
đứng biểu thị tần suất hoặc tần số của từng khoảng đó.
❖Biểu đồ tần suất giúp chúng ta hiểu được cách dữ liệu phân phối
và tập trung ở các khoảng nào. Bằng cách xem biểu đồ này,
chúng ta có thể nhận ra các đặc điểm như phạm vi giá trị, đỉnh
của phân phối, độ biến thiêng và sự tập trung của dữ liệu.
❖Biểu đồ tần suất thường được sử dụng trong thống kê để trực
quan hóa dữ liệu và cung cấp cái nhìn tổng quan về sự phân bố
của chúng.
62

❖Biểu đồ tần suất


20

15

10

0
50-60 60-70 70-80 80-90 90-100 100-110

CHÚ Ý: Không giống như biểu đồ thanh, biểu đồ tần suất không
có sự phân tách tự nhiên giữa các hình chữ nhật của các tổ/lớp
liền kề.
63

❖Bước 1. Mở File Chiphisuachua.sav


❖Bước 2. Trong menu chính,Graphs →Legacy Dialogs
→Histogram→xuất hiện hộp thoại Histogram.
❖Bước 3. Tại hộp thoại Histogram, chuyển biến Chiphi vào hộp
Variable →Display normal curve
❖Bước 4. OK →Xem kết quả.
64

❖Đối xứng (Symmetric) 20


15

➢Đuôi trái là hình ảnh phản chiếu của 10

đuôi phải.
5
0

❖Lệch phải (Moderately Right Skewed) 20

15

➢Một cái đuôi dài hơn ở bên phải 10

0
50-60 60-70 70-80 80-90 90-100 100-110

❖Lệch trái (Moderately Skewed Left)


20

15

➢Một cái đuôi dài hơn về bên trái 10

0
50-60 60-70 70-80 80-90 90-100 100-110
65

❖Phân phối tần số tích lũy: hiển thị số mục có giá trị nhỏ hơn hoặc bằng
giới hạn trên của mỗi loại.
❖Phân phối tần suất tích lũy: hiển thị tỷ lệ các mục có giá trị nhỏ hơn
hoặc bằng giới hạn trên của mỗi loại.
❖Phân phối tần suất phần trăm tích lũy: hiển thị tỷ lệ phần trăm của
các mục có giá trị nhỏ hơn hoặc bằng giới hạn trên của mỗi mục tổ.
Cost Cumulative Cumulative Cumulative
(USD) Frequency Frequency Relative Frequency Percent Frequency
50-59 2 2 .04 4
60-69 13 15 = 2+13 .30 = 15/50 30 = .30(100)
70-79 16 31 .62 62
80-89 7 38 .76 76
90-99 7 45 .90 90
100-109 5 50 1.00 100
66

❖Các chữ số đầu của mỗi mục dữ liệu


Chiphi (USD) Stem-and-Leaf Plot
được sắp xếp ở bên trái của một
đường thẳng đứng. Frequency Stem & Leaf
2.00 5 . 27
❖Ở bên phải của hàng dọc, chúng ta ghi 13.00 6 . 2222567888999
chữ số cuối cùng cho từng mục theo 16.00 7 . 1122344555678999
thứ tự thứ hạng. 4.00 8 . 0023589
7.00 9 . 1377789
❖Mỗi dòng trong màn hình được gọi là 5.00 10 . 14559
gốc.
Stem width: 10
❖Mỗi chữ số trên một thân là một lá. Each leaf: 1 case(s)
❖Biểu đồ thân và lá hiển thị cả thứ tự
xếp hạng và hình dạng của phân phối
dữ liệu.
67

❖Nếu chúng ta cho rằng màn hình gốc Chiphi (USD) Stem-and-Leaf Plot
và lá ban đầu đã cô đọng dữ liệu quá
nhiều, thì chúng ta có thể kéo dài màn Frequency Stem & Leaf
1.00 5. 2
hình theo chiều dọc bằng cách sử dụng 1.00 5. 7
hai thân cho mỗi (các) chữ số ở đầu. 4.00 6 . 2222
❖Bất cứ khi nào giá trị gốc được nêu hai 9.00 6 . 567888999
lần, giá trị đầu tiên tương ứng với giá 7.00 7 . 1122344
9.00 7 . 555678999
trị lá từ 0 đến 4 và giá trị thứ hai 4.00 8 . 0023
tương ứng với giá trị lá từ 5 đến 9. 3.00 8 . 589
2.00 9 . 13
5.00 9 . 77789
2.00 10 . 14
3.00 10 . 559

Stem width: 10
Each leaf: 1 case(s)
68

❖Đơn vị lá (Leaf units)


➢ Một chữ số duy nhất được sử dụng để xác định mỗi lá.
➢ Trong ví dụ trước, đơn vị lá là 1.
✓ Đơn vị lá có thể là 100, 10, 1, 0,1, v.v.
➢ Trong trường hợp đơn vị lá không được hiển thị, nó được giả định
bằng 1.
➢ Đơn vị lá cho biết cách nhân các số của thân và số lá để gần đúng
với số dữ liệu gốc.
❖Nếu chúng ta có dữ liệu với các giá trị như: Đơn vị lá =0.1
8.6; 11.7; 9.4; 9.1; 10.2; 11.0; 8.8 8 68
9 14
10 2
11 07
69

❖Nếu chúng ta có giá trị dữ liệu chẳng hạn như sau:


1806, 1717, 1974, 1791, 1682, 1910, và 1838
❖Mỗi số tách thành hai phần gồm hai cành và lá.
➢ Ví dụ 1682 được tách thành 16 và 82. Trong đó số 82 được làm
tròn thành 80 và được thể hiện dưới dạng 8.
➢ Ví dụ 1806 được tách thành 18 và 06. Trong đó số 06 được làm
tròn thành 00 và được thể hiện dưới dạng 0.
➢…
Đơn vị lá =10
16 8
17 1 9
18 0 3
19 1 7
70

❖Biểu đồ phân tán là một biểu đồ về mối quan hệ giữa hai biến
định lượng.
❖Một biến được hiển thị trên trục hoành và biến còn lại được
hiển thị trên trục tung.
❖Mô hình chung của các điểm được vẽ cho thấy mối quan hệ tổng
thể giữa các biến.
❖Một đường xu hướng cung cấp một xấp xỉ của mối quan hệ.
71
40
❖Mối quan hệ dương 35
30
(A Positive Relationship) 25
20
15
10
5
0
1 6 11 16

❖Mối quan hệ âm
(A Negative Relationship)
40

30

20

10

0
1 6 11 16

❖Không có mối quan hệ rõ ràng 3.5

(No Apparent Relationship) 3

2.5

2
1 6 11 16
72

BÀI TOÁN
Chi tiêu Thu nhập
❖Có tài liệu về thu nhập và chi tiêu hằng 1908 2074
tuần của các hộ gia đình như sau (ngàn 1913 2069
đồng). 1891 2056
1960 2106
❖ Hãy mô tả mối quan hệ giữa thu nhập
1974 2108
và chi tiêu của các hộ gia đình. 1981 2135
2040 2194
2092 2241
2173 2351
2273 2464
2353 2561
2390 2629
2482 2712
2541 2760
2549 2820
73

LỜI GIẢI
❖Dựa vào đồ thị, chúng ta có một số 2600
y = 0.8653x + 132.82
nhận xét sau: 2500

➢ Đồ thi phân tán biểu thị mối 2400

quan hệ dương giữa thu nhập và 2300

chi tiêu, điều này có nghĩa thu


2200
nhập tang thì chi tiêu có xu
hướng tăng theo. 2100

➢ Mối quan hệ không hoàn hảo; tất 2000

cả các điểm được vẽ trong đồ thị 1900

phân tán không nằm trên một 1800


2000 2100 2200 2300 2400 2500 2600 2700 2800 2900
đường thẳng.
74

❖Biểu đồ thanh cạnh nhau là một biểu đồ mô tả nhiều biểu đồ


thanh trên cùng một màn hình.
❖Mỗi cụm thanh đại diện cho một giá trị của biến đầu tiên.
❖Mỗi thanh trong một cụm đại diện cho một giá trị của biến thứ
hai.
Kiểu nhà 20
18 19
Giá nhà Total 18
16
A B C D 16
14
14
12 12
<250.000 18 6 19 12 55 12
10
250.000+ 12 14 16 3 45 8
6
6
Total 30 20 35 15 100 4 3
2
0
A B C D

<250.000 250.000+
75

❖Biểu đồ thanh xếp chồng lên nhau là một cách khác để hiển thị
và so sánh hai biến trên cùng một màn hình.
❖Nó là một biểu đồ thanh trong đó mỗi thanh được chia thành
các đoạn hình chữ nhật có màu khác nhau.
40

35

30

25
16
12
20

15
14 3
10
18 19
5 12
6
0
A B C D

<250.000 250.000+
76

❖Nếu tần số phần trăm được hiển thị, tất cả các thanh sẽ có cùng
chiều cao (hoặc chiều dài), kéo dài đến mốc 100% .
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
A B C D

<250.000 250.000+
78

➢ Các đại lượng đo lường đặc trưng


✓ Số tuyệt đối, số tương đối
✓ Đo lường vị trí,
✓ Đo lường độ phân tán
➢ Đo lường dạng phân phối
✓ Hệ số đối xứng (Skewness Coefficient)
✓ Hệ số nhọn (Kurtorsis Coefficient)
80

❖Số tuyệt đối là đại lượng đo lường qui mô, khối lượng của các
hiện tượng kinh tế xã hội trong điều kiện thời gian và không
gian nhất định.
➢Ví dụ: lợi nhuận, doanh thu, số lao động, số vốn của các doanh
nghiệp, giá trị sản xuất, tổng sản phẩm quốc nội GDP của nền
kinh tế…
❖Các loại số tuyệt đối
➢Số tuyệt đối thời kỳ: phản ảnh qui mô, khối lượng của hiện
tượng kinh tế xã hội trong từng khoảng thời gian nhất định.
✓ Ví dụ: Doanh thu, lợi nhuận…
➢Số tuyệt đối thời điểm: phản ảnh qui mô, khối lượng của hiện
tượng kinh tế xã hội tại một thời điểm nhất định.
✓ Ví dụ: Vốn, lao động, hàng tồn kho, giá cả…
81

❖Số tương đối là đại lượng biểu hiện quan hệ so sánh giữa 2 mức
độ của các hiện tượng kinh tế xã hội trong điều kiện thời gian và
không gian nhất định.
❖Có hai trường hợp so sánh
➢ Trường hợp 1: So sánh 2 mức độ của 1 hiện tượng kinh tế xã
hội nhưng khác nhau về thời gian hoặc không gian;
➢Trường hợp 2: So sánh 2 mức độ của 2 hiện tượng kinh tế xã
hội khác nhau nhưng có liên quan với nhau.
❖Các loại số tương đối
➢Số tương đối động thái; số tương đối kế hoạch; số tương đối kết
cấu; số tương đối không gian; số tương đối cường độ.
82

❖Số tương đối động thái phản ảnh biến động của hiện tượng kinh
tế xã hội qua thời gian bằng cách so sánh mức độ kỳ nghiên cứu
với mức độ kỳ gốc.
➢Tốc độ tăng, tốc độ phát triển…
❖Ví dụ: Số doanh nghiệp đang hoạt động tại thời điểm 31/12
hàng năm phân theo ngành kinh tế

Năm 2017 2018 % tăng


(1) (2) (3)=[(2)-(1)]/(1)
Nông nghiệp, lâm nghiệp và thuỷ sản 9951 10766 8
Công nghiệp và xây dựng 212170 228147 8
Dịch vụ 432512 475842 10
TỔNG SỐ 654633 714755 9
83

❖Số tương đối kế hoạch là đại lượng được dùng để xây dựng và
kiểm tra tình hình thực hiện kế hoạch
➢Số tương đối nhiệm vụ kế hoạch và số tương đối hoàn thành kế
hoạch.
❖Ví dụ: Tình hình tuyển sinh tại một trường đại học qua các năm
Năm Năm 2019 Nhiệm vụ kế Hoàn thành kế
Ngành
2018 Kế hoạch Thực hiện hoạch 2019 hoạch 2019
(A) (1) (2) (3) (4)=(2)/(1) (5)=(3)/(2)
Kế toán 300 320 330 107 103
Thống kê 45 50 55 111 110
Quản trị kinh doanh 340 350 360 103 103
Marketing 190 200 210 105 105
Chung 875 920 955 105 104
84

❖Số tương đối kết cấu phản ảnh tỷ trọng của các bộ phận chiếm
trong tổng thể bằng cách so sánh mức độ của từng bộ phận so
với mức độ của tổng thể, thường gọi là tỷ trọng
❖Ví dụ: Tỷ trọng sản lượng lúa của VN theo vụ qua các năm
Tổng số Trong đó Tỷ trọng (%)
Năm (1000 Đông Hè thu và Đông Hè thu và
Mùa Mùa
tấn) xuân thu đông xuân thu đông
2012 43737,8 20291,9 13958,0 9487,9 46 32 22
2013 44039,1 20069,7 14623,4 9346,0 46 33 21
2014 44974,6 20850,5 14479,2 9644,9 46 32 21
2015 45091,0 21091,7 15341,3 8658,0 47 34 19
2016 43165,1 19646,6 15232,1 8286,4 46 35 19
2017 42738,9 19415,8 15461,2 7861,9 45 36 18
85

❖Phản ảnh quan hệ so sánh giữa 2 bộ phận trong một tổng thể
hoặc giữa 2 mức độ của cùng một hiện tượng nhưng khác nhau
về điều kiện không gian.
❖Ví dụ: Tỷ số giới tính của các vùng 1/4 năm 2019
Trong đó Tỷ số
Vùng kinh tế - xã hội Tổng số giới tính
Nam Nữ
(%)
Trung du và miền núi phía Bắc 12532866 6293578 6239288 101
Đồng bằng sông Hồng 22543607 11174278 11369329 98
Bắc Trung Bộ và Duyên hải
miền Trung 20187293 10055458 10131835 99
Tây Nguyên 5842681 2946573 2896108 102
Đông Nam Bộ 17828907 8816471 9012436 98
Đồng bằng sông Cửu Long 17273630 8594703 8678927 99
TOÀN QUỐC 96208984 47881061 48327923 99
86

❖Phản ảnh quan hệ so sánh giữa 2 mức độ của hai hiện tượng
khác nhau nhưng có mối quan hệ với nhau.
➢Một số chỉ tiêu: Mật độ dân số, mức trang bị vốn cho lao động,
tỷ suất sinh, tỷ suất chết, mật độ doanh nghiệp…
➢Ví dụ: Mật độ dân số các vùng năm 2018
Diện tích Dân số trung bình Mật độ dân số
Vùng
(Km2) (Nghìn người) (Người/km2)
Đồng bằng sông Hồng 21260 21566.4 1014
Trung du và miền núi phía Bắc 95222.2 12292.7 129
Bắc Trung Bộ và Duyên hải
95876 20056.9 209
miền Trung
CẢ NƯỚC 331235.7 94666 286
87
❖Phải xét đến đặc điểm của hiện tượng nghiên cứu
➢ Các hiện tượng kinh tế xã hội tồn tại và phát triển gắn liền điều
kiện thời gian và không gian nhất định. Điều này dẫn đến có nhiều
hiện tượng cùng biểu hiện về lượng nhưng ý nghĩa hoàn toàn khác
nhau. Ngược lại có nhiều hiện tượng cùng một tính chất nhưng
biểu hiện về lượng khác nhau.
❖Phải vận dụng kết hợp số tương đối và số tuyệt đối: chỉ có như thế
mới phản ảnh đầy đủ, chính xác đặc điểm của hiện tượng.
➢ Số tương đối là kết quả so sánh của 2 số tuyệt đối đã có từ trước và
tùy theo mục đích nghiên cứu mà gốc so sánh được chọn khác
nhau. Nên kết quả tính toán và ý nghĩa của nó cũng rất khác nhau.
Có khi số tương đối tính ra rất lớn nhưng ý nghĩa không đáng kể vì
số tuyệt đối tương ứng quá bé ngược lại có khi số tương đối tính ra
rất nhỏ nhưng có ý nghĩa quan trọng vì số tuyệt đối tương ứng có
qui mô đáng kể.
89

❖Nhằm đo lường vị tr của tài liệu hay độ tập trung của tài liệu, thống kê
dùng nhiều chỉ tiêu khác nhau, như số bình quân cộng, số bình quân điều
hòa, số bình quân nhân, số Mốt, số Trung vị, phân vị p, tứ phân vị.
❖Nhóm chỉ tiêu này được sử dụng rộng rãi trong các trường hợp sau:
➢ Để nêu lên mặt lượng điển hình của cả hiện tượng số lớn;
➢ Để so sánh giữa các hiện tượng không có cùng qui mô trong khi đó việc so
sánh giữa các số tuyệt đối không thực hiện được hoặc không có ý ngh a;
➢ Để nghiên cứu các quá trình biến động qua thời gian nhằm phản ảnh xu
hướng phát triển cơ bản của hiện tượng;
➢ Để đánh giá đặc điểm phân phối của tài liệu;
➢ Số bình quân còn cơ sở để vận dụng các phương pháp thống kê khác như
phương pháp hồi qui và tương quan, phương pháp phân t ch phương sai.
90

❖Trung bình cộng của một tập dữ liệu là giá trị trung bình của tất cả
các giá trị dữ liệu. Trung bình cộng được tính bằng cách đem tổng
các mức lượng biến của tiêu thức chia cho số đơn vị tổng thể/mẫu.
❖Trung bình tổng thể, µ
෌𝑥𝑖
➢μ =
𝑁
❖Trung bình mẫu, 𝑥ҧ
෌𝑥𝑖
➢ 𝑥ҧ =
𝑛
➢ Trong đó
✓ σ 𝑥𝑖 = tổng giá trị của tất cả các quan sát,
✓ n, N= tương ứng là số quan sát trong mẫu, trong tổng thể.
σ 𝑥𝑖 34356
➢ Ví dụ: 𝑥lj = = = 490,80
𝑛 70
91

❖Trong một số trường hợp, giá trị trung bình được tính bằng cách
cho mỗi quan sát một trọng số phản ánh tầm quan trọng tương đối
của nó. Việc lựa chọn trọng số phụ thuộc vào ứng dụng.
❖Trung bình tổng thể, µ
σ w𝑖 𝑥𝑖
➢𝜇 = σ w𝑖

❖Trung bình mẫu, 𝑥ҧ


σ w𝑖 𝑥𝑖
➢ 𝑥lj = σ w𝑖

❖Trong đó:
➢ 𝑥𝑖 = giá trị quan sát i
➢ 𝑤𝑖 = trọng số quan sát i
92

BÀI TOÁN
❖Một người thợ xây nhà, đang xem xét các chi phí mà anh ấy phải trả
cho ngôi nhà mà anh ấy mới xây. Với mục đích định giá các dự án trong
tương lai, anh ấy muốn biết mức lương trung bình (USD/giờ) mà anh
ấy trả cho những công nhân mà anh ấy thuê. Dưới đây liệt kê các loại
công nhân mà anh ấy đã tuyển dụng, cùng với mức lương tương ứng và
tổng số giờ làm việc của họ.
Tiền lương
Công nhân (USD/giờ) Tổng số giờ
Thợ mộc 21.60 520
Thợ điện 28.72 230
Thợ xây 11.80 410
Thợ trang trí nội thất 19.75 270
Thợ sửa ống nước 24.16 160
93

LỜI GIẢI
❖Tiền công xây dựng
σ 𝑤𝑖 𝑥𝑖 31873.7
➢ 𝑥ҧ = σ 𝑤𝑖
= = 20.0464 ≈ 20.05
1590
➢ Giá trị trung bình có trọng số bằng = 20.05USD

Công nhân 𝑥𝑖 w𝑖 w𝑖 𝑥𝑖
Thợ mộc 21.60 520 11232.0
Thợ điện 28.72 230 6605,6
Thợ xây 11.80 410 4838.0
Thợ trang trí nội thất 19.75 270 5332.5
Thợ sửa ống nước 24.16 160 3865.6
Chung 1590 31873.7
94

❖Trung vị của tập dữ liệu là giá trị ở giữa khi dữ liệu được sắp xếp theo
thứ tự tăng dần.
❖Khi tập dữ liệu có giá trị ngoại lai thì nên dùng trung vị.
❖Cách tính số Trung vị
➢ Khi số quan sát là số chẵn lẻ: n=2m+1 thì Me=𝑥𝑚+1
✓ 7 quan sát: 26, 18, 27, 12, 14, 27 và 19, →Vậy n=7 nên m=3
✓ Viết lại theo thứ tự tăng dần: 12, 14, 18, 19, 26, 27 và 27.
✓ Trung vị là giá trị ở giữa, vì vậy Me = xm+1 = 𝑥4 =19.
➢ Khi số quan sát là số chẵn: n=2m thì Me=(𝑥𝑚 +𝑥𝑚+1 )/2
✓ 8 quan sát: 26, 18, 27, 12, 14, 27, 19 và 30, →Vậy n=8 nên m=4
✓ Viết lại theo thứ tự tăng dần: 12, 14, 18, 19, 26, 27, 27, và 30.
✓ Trung vị là trung bình cộng của hai giá trị ở giữa, vì vậy trung vị
𝑀𝑒 = (𝑥4 + 𝑥5 )/2 = (19 + 26)/2 = 22.5.
95

BÀI TOÁN
❖Có tài liệu về giá thuê 70 căn hộ được lấy mẫu ngẫu nhiên ở một
thị trấn được liệt kê dưới đây.
445 615 430 590 435 600 460 600 440 615
440 440 440 525 425 445 575 445 450 450
465 450 525 450 450 460 435 460 465 480
450 470 490 472 475 475 500 480 570 465
600 485 580 470 490 500 549 500 500 480
570 515 450 445 525 535 475 550 480 510
510 575 490 435 600 435 445 435 430 440

❖Hãy tính giá thuê trung vị của dữ liệu trên.


96
LỜI GIẢI
❖Bước 1. Sắp xếp dữ liệu theo thứ tự tăng dần
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
❖Bước 2. Tính Me
➢ Vì n=70 =2m=2*35 vậy, m=35
➢ Me=(𝑥𝑚 +𝑥𝑚+1 )/2=(𝑥35 + 𝑥36 )/2
➢ Me = (475 + 475)/2 = 475
97

❖Mode của tập dữ liệu là giá trị có tần suất lớn nhất.
CHÚ Ý: Tần số lớn nhất có thể xảy ra ở hai hoặc nhiều giá trị khác
nhau.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
❖450 xuất hiện thường xuyên nhất (7 lần)
❖Vậy, Mode = 450
98

❖Trung bình nhân được dùng trong những trường hợp các đại
lượng có quan hệ tích.
❖Công thức tính trung bình nhân giản đơn
1
𝑛
➢ 𝑥lj𝑔 = (𝑥1 )(𝑥2 ) ⋯ (𝑥𝑛 ) = [(𝑥1 )(𝑥2 ) ⋯ (𝑥𝑛 )] 𝑛

❖Công thức trung bình nhân gia quyền


σ𝑛
𝑖=1 𝑓𝑖 𝑓 𝑓 𝑓
➢ 𝑥lj𝑔 = x11 𝑥22 … xn𝑛
❖Trung bình nhân thường được sử dụng để phân tích tốc độ tăng
trưởng.
99
BÀI TOÁN
❖Có tài liệu về tốc độ tăng Lợi nhuận của doanh nghiệp qua các giai
đoạn như sau
Giai đoạn Tốc độ tăng lợi nhuận % Tốc độ phát triển lợi nhuận
1 -6,0 0.940
2 -8,0 0.920
3 -4.0 0.960
4 2.0 1.020
5 5.4 1.054
LỜI GIẢI
❖Trước tiên, cần chuyển tố độ tăng sang tốc độ phát triển như trên
bảng.
1
5
❖ 𝑥lj𝑔 = (.94)(.92)(.96)(1.02)(1.054) = [.89254]5 = .97752
❖Tốc độ tăng trung bình mỗi thời kỳ là (0,97752 – 1)(100) = –2.248%.
100

❖Trung bình điều hòa thường được sử dụng trong các tình huống
liên quan đến tỉ lệ, tốc độ hoặc các phép đo có tính chất nghịch
đảo.
❖Về thực chất số trung bình điều hòa vẫn có nội dung kinh tế như
số trung bình cộng tức là cùng tổng các lượng biến của tiêu thức
chia cho số đơn vị của tổng thể. Nhưng trong trường hợp này tài
liệu để tính như số trung bình cộng không có.
❖Công thức tính
➢Trung bình điều hòa gia quyền
𝑀1 +𝑀2 +...+𝑀𝑁 σ 𝑀𝑖
✓ 𝑥lj = 𝑀1 𝑀2 𝑀 = 𝑀
+ +...+ 𝑁 σ 𝑖
𝑥1 𝑥2 𝑥𝑁 𝑥𝑖

✓ Trong đó:
o Lượng biến (xi)
o Tổng lượng biến tiêu thức Mi=xifi
101

BÀI TOÁN
❖Có tài liệu về sản lượng lúa (M) và năng suất lúa cả năm (x) 2021 ở
một số tỉnh thuộc vùng Bắc Trung Bộ và Duyên hải miền Trung
như trên bảng. M (tạ) X (tạ/ha)
❖Tính năng suất lúa trung bình cả Thanh Hóa 14130000 60.9
10432000
năm của cả vùng trong năm 2021. Nghệ An 58.2
Hà Tĩnh 5805000 55.3
LỜI GIẢI Quảng Bình 2930000 54.5
M1 +M2 +...+MN Quảng Trị 2793000 55.6
❖xlj = M1 M2 MN Thừa Thiên - Huế 3425000 63.5
+ +...+
x1 x2 xN Đà Nẵng 319000 67.2
14130000 +⋯+7379000 Quảng Nam 4623000 55.9
❖ = 14130000 7379000
+⋯+
Quảng Ngãi 4416000 60.4
60.9 59.7 Bình Định 6381000 66.4
❖ =72003000/1198906.418 Phú Yên 3903000 70.8
❖ =60.05723128 Khánh Hòa 2724000 60.2
Ninh Thuận 2743000 62.2
Bình Thuận 7379000 59.7
102
➢ Trung bình điều hòa giản đơn: Khi M1 = M2 = ⋯ = Mn thì, số trung bình
điều hoà gia quyền trở thành số trung bình điều hoà giản đơn.
σ 𝑀𝑖 𝑛𝑀 𝑛
o 𝑥lj = 𝑀 = 1 = 1
σ 𝑖 𝑀σ
𝑥𝑖
σ
𝑥𝑖
𝑥𝑖

BÀI TOÁN
❖Một nhóm gồm 3 công nhân cùng tiến hành sản xuất một loại sản phẩm
trong thời gian như nhau và thời gian sản xuất một sản phẩm của mỗi
công nhân tương ứng: 12; 15 và 20 (phút). Thời gian hao phí trung bình
để sản xuất một sản phẩm của chung cả nhóm công nhân là bao nhiêu?
LỜI GIẢI
❖Thời gian hao phí trung bình để sản xuất một sản phẩm của chung cả
nhóm công nhân là
𝑛 3
✓ 𝑥lj = 1 = 1 1 1 = 15
σ + +
𝑥𝑖 12 15 20
103

❖Phân vị cung cấp thông tin về cách dữ liệu phân tán theo một
khoảng từ giá trị nhỏ nhất đến giá trị lớn nhất .
❖Phân vị p% là một giá trị mà ít nhất p% số quan sát nhỏ hơn
hay bằng giá trị này và ít nhất (100-p)% số quan sát lớn hơn
hay bằng giá trị này.
❖Đối với dữ liệu không có giá trị lặp, phân vị p % sẽ chia dữ liệu
thành 2 phần: Xấp xỉ p% số quan sát có giá trị nhỏ hơn phân vị
p%; xấp xỉ (100-p)% số quan sát có giá trị lớn hơn phân vị p%.
104

❖Bước 1. Sắp xếp dữ liệu theo thứ tự tăng dần.


❖Bước 2. Tính chỉ số i, vị trí của phân vị thứ p
➢i = (p/100)(n+1)
❖Nếu i là một số nguyên, phân vị thứ p là giá trị của đơn vị ở vị trí
i.
❖Nếu i không phải là số nguyên thì: tách thành số nguyên j và
phần lẻ ()
➢Ví dụ: i=12.3=12+.3 khi đó j=12 và =.3
❖Bước 3. Tính phân vị thứ p
➢Lp = 𝑥𝑗 + (𝑥𝑗+1 − 𝑥𝑗 )
105

BÀI TOÁN
❖Căn cứ vào dữ liệu giá thuê căn hộ hãy tính phân vị thứ 80.

LỜI GIẢI
❖Bước 1. Sắp xếp dữ liệu theo thứ tự tăng dần.
❖Bước 2. Tính chỉ số i, vị trí của phân vị thứ 80
➢ i = (p/100)(n+1) = (80/100)(70+1) = 56.8=56+ 0.8
❖Bước 3. Tính phân vị thứ 80
➢ Lp = 𝑥56 + 0.8 𝑥56+1 − 𝑥56
= 535 + 0.8(549-535) = 546.2.
106

❖Tứ phân vị là những phân vị cụ thể sau


➢Tứ phân vị thứ nhất = Phần trăm thứ 25
➢Tứ phân vị thứ hai = Phần trăm thứ 50 = Trung vị
➢Tứ phân vị thứ ba = Phần trăm thứ 75

BÀI TOÁN
➢Căn cứ vào tài liệu về giá thuê căn hộ hãy tính tứ phân vị
LỜI GIẢI
❖Tứ phân vị thứ nhất (Q1)
➢Chỉ số i: i = (p/100)(n+1) = (25/100)(70+1) = 17.75=17+.75
➢Vậy, Q1 =𝑥17 + .75 ∗ (𝑥18 − 𝑥17 ) =445+.25*(445-445)=445
➢Q1= 445
107

❖Tứ phân vị thứ hai (Q2)


➢Chính là trung vị Me
➢Vây Q2=Me=475
❖Tứ phân vị thứ Ba (Q3)
➢Chỉ số i: i = (p/100)(n+1) = (75/100)(70+1) = 53.25
➢Vậy: Q3=𝑥53 + 0.25 x (𝑥54 − 𝑥53 ) =525+0,25(525-525)=525
➢Q3= 525
108

❖Điều kiện 1. Số trung bình chỉ được tính ra từ tổng thể đồng chất
➢ Trong tổng thể đồng chất, sự chênh lệch về lượng giữa các đơn vị
là do các nhân tố ngẫu nhiên tác động. Khi tính số trung bình từ
tổng thể như thế, số trung bình có trình độ đại biểu rất cao. Ngược
lại khi tính số trung bình từ tổng thể không đồng chất thì mang
hình thức giả tạo, không biểu hiện được bản chất, có khi còn xuyên
tạc bản chất của hiện tượng.
❖Điều kiện 2. Số trung bình cần được vận dụng kết hợp với số trung
bình tổ hoặc dãy số phân phối
➢ Khi phân tích hiện tượng nếu chỉ xét qua số trung bình chung thì
các chênh lệch coi như bị san bằng. Điều đó hạn chế tác dụng của
việc phân tích thống kê, không giải thích hết các nguyên nhân và xu
thế phát triển của hiện tượng. Thậm chí nếu không chú ý còn rút ra
kết luận sai lệch.
110
❖Đo lường độ biến thiên/phân tán của dữ liệu với các đại lượng
sau:
➢ Khoảng biến thiên /Toàn cự (Range)
➢ Khoảng tứ phân vị (Interquartile Range)
➢ Độ lệch tuyệt đối trung bình (Mean Absolute Deviation)
➢ Phương sai (Variance)
➢ Độ lệch chuẩn (Standard Deviation)
➢ Hệ số biến thiên (Coefficient of Variation)
❖Ý nghĩa
➢ Xem xét trình độ đại biểu của số trung bình.
➢ Đánh giá được nhiều đặc trưng của dãy số như đặc trưng về phân
phối, kết cấu, độ phân tán.
➢ Phân tích độ biến động, mối liên hệ, điều tra chọn mẫu, dự đoán…
111

BÀI TOÁN
❖Có tài liệu về tiền lương hằng tuần của 20 công nhân (ngàn đồng)
như trên bảng sau
Phân
1920 1950 2130 2800 2820 3040 3040 3800 4060 4255
xưởng 1
Phân
2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
xưởng 2
❖Hãy so sánh sự biến thiên về tiền lương bình quân tuần của công
nhân ở hai phân xưởng.
112
❖Khoảng biến thiên của tập dữ liệu là sự khác biệt giữa giá trị lớn
nhất và nhỏ nhất. Công thức tính
➢ R = Giá trị lớn nhất (xmax )– Giá trị nhỏ nhất (xmin )
❖Khoảng biến thiên là chỉ tiêu đơn giản nhất để đánh giá độ phân
tán của tài liệu trong tổng thể hay mẫu. Khoảng biến thiên càng
nhỏ thì tài liệu khá đồng đều, số trung bình có tính đại biểu cao và
ngược lại.

LỜI GIẢI
❖𝑅1 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 4225-1920 = 2335 (ngàn đồng)
❖𝑅2 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 3325-2850 = 525 (ngàn đồng)
❖Vì 𝑅1 > 𝑅2 nên có thể kết luận sự biến động về tiền lương ở phân
xưởng 1 lớn hơn ở phân xưởng 2 hay nói khác sự phân tán về tiền
lương giữa hai phân xưởng có sự khác biệt.
113

❖Độ lệch tuyệt đối trung bình (MAD) là phép đo độ biến thiên cho biết
khoảng cách trung bình giữa các quan sát và giá trị trung bình của chúng.
❖Công thức tính
➢ Độ lệch tuyệt đối trung bình tổng thể
σ xi −μ σ (xi −μ) fi
✓ MAD = hay MAD =
N N
➢ Độ lệch tuyệt đối trung bình mẫu
σ 𝑥𝑖 −𝑥lj σ (xi −x)
lj fi
✓ MAD = Hay MAD =
𝑛 n
❖Trước đây, độ lệch tuyệt đối trung bình thường được sử dụng làm phép
đo độ phân tán, nhưng sau đó không được sử dụng.
❖VÍ DỤ. Tiền lương
➢ MAD1 ={|1920-2981.5|+…+|4255- 2981.5|}/10=657.5
➢ MAD2 ={|2850-2981.5|+…+|3225- 2981.5|}/10=121.5
114

❖Khoảng tứ phân vị của tập dữ liệu là sự khác biệt giữa phần tư thứ ba
và phần tư thứ nhất. Đó là phạm vi cho 50% dữ liệu ở giữa.
❖Khoảng tứ phân vị tránh được độ nhạy với các giá trị dữ liệu ngoại lai.
➢ IQR=Q3-Q1
VÍ DỤ. Tiền lương
❖Đối với Phân xưởng 1
✓ Phân vị thứ nhất (Q1) =𝑥2 + 0.75 𝑥3 − 𝑥2 = 2085
✓ Phân vị thứ ba (Q3) = 𝑥2 + 0.75 𝑥3 − 𝑥2 =3865
➢ Vậy 𝐼𝑄𝑅1 = 3865 – 2085= 1780
❖Đối với Phân xưởng 2
✓ Phân vị thứ nhất (Q1) =𝑥2 + 0.75 𝑥3 − 𝑥2 = 2880
✓ Phân vị thứ ba (Q3) = 𝑥2 + 0.75 𝑥3 − 𝑥2 =3070
➢ Vậy IQR 2 = 3070 – 2880= 190
115
❖Phương sai là phép đo độ biến thiên tất cả dữ liệu. Phương sai rất
hữu ích trong việc so sánh độ biến thiên của hai hay nhiều biến.
❖Công thức tính
➢ Phương sai tổng thể
σ(𝑥𝑖 −𝜇)2 σ(𝑥𝑖 −𝜇)2 𝑓𝑖
✓𝜎 = 2
hay 𝜎 = 2
σ 𝑓𝑖
với N= σ 𝑓𝑖
𝑁
➢ Phương sai mẫu
lj 2
σ(𝑥𝑖 −𝑥) lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓ 𝑠2 = hay 𝑠2 = với n= σ 𝑓𝑖
𝑛−1 𝑛−1
❖VÍ DỤ: Tiền lương
lj 2
σ(𝑥𝑖 −𝑥)
➢ Phương sai 𝑠12 = = 715178,0556,
𝑛−1
lj 2
σ(𝑥𝑖 −𝑥)
➢ 𝑠22 = = 21944,72222
𝑛−1
CHÚ Ý: Trong Excel 365, Phương sai tổng thể dùng hàm Var.p và
phương sai mẫu dùng hàm Var.s
116
❖Độ lệch chuẩn của một tập dữ liệu là căn bậc hai dương của phương sai.
❖Đơn vị tính của nó giống với đơn vị tính dữ liệu nên nó dễ diễn giải hơn
so với phương sai.
❖Công thức tính
➢ Độ lệch chuẩn tổng thể
σ(𝑥𝑖 −𝜇)2 lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓𝜎= 𝑁
hay 𝜎 = 𝑁
➢ Độ lệch chuẩn mẫu
lj 2
σ(𝑥𝑖 −𝑥) lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓𝑠= 𝑛−1
hay 𝑠 = 𝑛
❖VÍ DỤ: Tiền lương
➢ Độ lệch chuẩn là 𝑠1 = 𝑠12 = 845,6820062
➢ 𝑠2 = 𝑠22 = 148,1375112
CHÚ Ý: Trong Excel 365, Độ lệch chuẩn tổng thể dùng hàm Std.p và Độ
lệch chuẩn mẫu dùng hàm Std.s
117

❖Hệ số biến thiên cho biết độ lệch chuẩn lớn như thế nào so với giá
trị trung bình.
❖Hệ số biến thiên tổng thể
σ
➢ CV = × 100
μ
❖Hệ số biến thiên mẫu
s
➢ CV = lj × 100
x
❖Nếu hai tập dữ liệu có các đơn vị khác nhau, thì hệ số biến thiên là
cách tốt nhất để so sánh chúng.
❖VÍ DỤ: Tiền lương
s1 845,6420062
➢ CV1 = × 100 = 𝑥100 = 28,3643%
xlj 1 2981,5
s2 148,1375112
➢ CV2 = lj × 100 = 𝑥100 = 04,9686%
x2 2981,5
118

BÀI TOÁN
❖Có tài liệu về 2 chỉ tiêu ở một xí nghiệp trong một năm như sau:
Chỉ tiêu Số bình quân Độ lệch chuẩn
Năng suất lao động (kg) 410 60
Giá thành đơn vị sản phẩm (1000đ) 4.8 0.72
❖Hãy xác định xem trong 2 chỉ tiêu trên, chỉ tiêu nào biến thiên hơn.
LỜI GIẢI
❖Vì hai chỉ tiêu khác nhau và đơn vị tính cũng khác nhau nên muốn so
sánh độ biến thiên phải dùng hệ số biến thiên.
s 60
➢ Năng suất lao động: CVns = lj × 100 = 100 = 14.6(%)
x 410
s 0.72
➢ Giá thành: CVgt = lj × 100 = 100 =15(%)
x 4.8
❖Với kết quả CVns < CVgt nên giá thành biến thiên nhiều hơn năng suất.
120

❖Hình dạng phân phối (Distribution Shape)


➢ Hệ số đối xứng (Skewness Coefficient)
➢ Hệ số độ nhọn (Kurtosic Coefficient)
❖Điểm z (z-Scores)
❖Định lý Chebyshev (Chebyshev’s Theorem)
❖Quy tắc thực nghiẹ m (Empirical Rule)
❖Phát hiện các phần tử ngoại lai (Detecting Outliers)
121
❖Hệ số đối xứng dùng để phản ảnh tính chất đối xứng của phân phối
so với dạng chuẩn.
❖Công thức tính
1
➢ Trên tổng thể: Skewness = 3 σ𝑁 𝑖=1 𝑥 𝑖 − 𝜇 3
𝑁𝜎
𝑛 𝑥𝑖 −𝑥᪄ 3
➢ Trên mẫu: Skewness= σ
(𝑛−1)(𝑛−2) 𝑠
❖Trong thực tế, trên mẫu thường sử dụng công thức điều chỉnh sau:
𝑛 𝑥𝑖 −𝑥᪄ 3 𝑛 (n−1) σ(𝑥i −𝑥)ҧ 3
➢ Skewness = σ = × σ(𝑥i −𝑥)ҧ 2 2
(𝑛−1)(𝑛−2) 𝑠 n−2
❖Phương sai
➢ Var(Skewness) = 6n(n-1) /((n-2)(n+1)(n+3))
❖Sai số chuẩn
6n(n−1)
➢ Std. error(Skewness) =
(n−2)(n+1)(n+3)
122

❖Tính chất 20

➢ Lệch trái: Skewness <0 15

10

0
50-60 60-70 70-80 80-90 90-100 100-110

20

➢ Đối xứng (không lệch): Skewness =0 15

10

0
50-60 60-70 70-80 80-90 90-100 100-110 110-120

20
➢ Lệch phải: Skewness >0 15

10

0
50-60 60-70 70-80 80-90 90-100 100-110
123

❖Hệ số độ nhọn (Kurtosic Coefficient) dùng để phản ảnh độ nhọn của


phân phối so với dạng phân phối chuẩn.
❖Công thức tính:
lj 4
σ(𝑥𝑖 −𝑥)
➢ Kurtosic =
𝜎4
❖Trong nhiều trường hợp, Hệ số độ nhọn có thể được ước lượng bằng
công thức sau
(n−1)𝑛(𝑛+1) σ 𝑥i −𝑥ҧ 4 3(𝑛−1)2
➢ Kurtosic = −
(𝑛−2)(𝑛−3) [σ 𝑥i −𝑥ҧ 2 ] 2 (𝑛−2)(𝑛−3)

❖Phương sai
➢ Var(Kurtorsis) = 4(𝑛2 − 1)𝑉𝑎𝑟(𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠)/ ((𝑛 − 3)(𝑛 + 5))
❖Sai số chuẩn
➢ Std. error(Kurtorsis) = 4(n2 − 1)Var(Skewness)/ ((n − 3)(n + 5))
124

❖Tính chất
➢ Nếu Kurtosic = 3: dạng phân phối
Mesokurtic, là dạng phân phối có
độ dốc gần với phân phối chuẩn;
➢ Nếu Kurtosic >3: dạng phân phối Leptokurtic
Leptokurtic, là phân phối có đọ nhọ n
lơn hơn phan phoi phan phoi chuả n;
Mesokurtic (Normal)
➢ Nếu Kurtosic < 3: dạng phân phối
Platykurtic, là phân phối có đọ nhọ n
dẹt hơn phan phoi phan phoi chuả n.
Platykurtic
125

❖BÀI TOÁN Sinh viên Điểm trung bình (xi)


➢ Có tài liệu về điểm trung bình của các A 6.13
B 6.53
em sinh viên học phần Thống kê Kinh C 6.69
doanh kinh tế như trên bảng bên. D 6.76
➢ Hãy xem điểm của sinh viên có tuân E 6.77
theo phân phối chuẩn không? F 6.96
G 6.97
H 7.00
I 7.04
J 7.10
K 7.25
L 7.36
M 7.94
N 8.06
O 8.19
P 8.30
Q 9.73
126
❖ LỜI GIẢI Sinh Điểm
viên trung
➢ Căn cứ vào dữ liệu, thực hiện bình (xi) (𝑥𝑖 − 𝑥)ҧ 𝑥𝑖 − 𝑥ҧ 2 𝑥𝑖 − 𝑥ҧ 3 𝑥𝑖 − 𝑥ҧ 4
tính tính toán vài đại lượng, A 4.13 -1.21 1.4641 -1.77156 2.143589
kết quả như sau: B 4.53 -0.81 0.6561 -0.53144 0.430467
C 4.69 -0.65 0.4225 -0.27462 0.178506
❖ σni=1(xi − x)
lj 2 = 11.9916 D 4.76 -0.58 0.3364 -0.19511 0.113165
E 4.77 -0.57 0.3249 -0.18519 0.10556
❖ σni=1(xi − x)lj 3 = 12.59572
F 4.96 -0.38 0.1444 -0.05487 0.020851
❖ σni=1(xi − x)
lj 4 = 37.4335 G 4.97 -0.37 0.1369 -0.05065 0.018742
H 5 -0.34 0.1156 -0.0393 0.013363
I 5.04 -0.3 0.09 -0.027 0.0081
J 5.1 -0.24 0.0576 -0.01382 0.003318
K 5.25 -0.09 0.0081 -0.00073 6.56E-05
L 5.36 0.02 0.0004 8E-06 1.6E-07
M 5.94 0.6 0.36 0.216 0.1296
N 6.06 0.72 0.5184 0.373248 0.268739
O 6.19 0.85 0.7225 0.614125 0.522006
P 6.3 0.96 0.9216 0.884736 0.849347
Q 7.73 2.39 5.7121 13.65192 32.62809
11.9916 12.59572 37.4335
127
σ(𝑥i −𝑥)ҧ 3 12.59572
➢ H= = = 0.303324414
σ(𝑥i −𝑥)ҧ 2 2 11.9916 2
𝑛 (n−1)
❖Skewness = × H=4.533333333* 0.303324414= 1.375070675
n−2
σ 𝑥i −𝑥ҧ 4 37.4335
➢ K= = =0.260319214
[σ 𝑥i −𝑥ҧ 2 ]
2
12.59572 2
(n−1)𝑛(𝑛+1) 3(𝑛−1)2
❖Kurtosic = K −
(𝑛−2)(𝑛−3) (𝑛−2)(𝑛−3)
=23.31428571 * 0.260319214- 3.657143 = 2.412013531
❖Nhận xét
➢ Skewness= 1.375070675 > 0 dãy số điểm trung bình có phân phối
lệch phải
➢ Kurtosic= 2.412013531<3 dãy số điểm trung bình có phân phối dạng
dẹt
128

❖Bước 1: Mở File File DiembqSinhvien.


❖Bước 2. Từ menu, Analyze →Descriptive Statistics→
Descriptives...→xuất hiện hộp thoại Descriptives.
❖Bước 3: Trong hộp thoại Descriptives, chuyển biến Diembq vào khoang
Variable(s)→Options→ xuất hiện hộp thoại Descriptives Options.
❖Bước 3: Trong hộp thoại Descriptives Options, Kurtosis và
Skewness →Continue để quay lại hộp thoại Descriptives.
Bước 4. Trong hộp thoại Descriptives, OK → Kết quả.

Descriptive Statistics
N Mean Skewness Kurtosis
Statistic Statistic Statistic Std. Error Statistic Std. Error
Diembq 17 5.3400 1.375 0.550 2.412 1.063
Valid N (listwise) 17
129

Với ví dụ đã cho, phương sai và sai số chuẩn đươc tính như sau:
❖Phương sai (Var)
➢ Skewness
✓ Var(Skewness) =(6*17*16/((15*18*20)))=0.302222
➢ Kurtorsis
✓ Var(Kurtorsis) = (4 172 − 1 0.30222/(14 ∗ 22))= 1.1303896
❖Sai số chuẩn (Std. Error)
➢ Skewness
✓ Std. Error(Skewness)=sqrt(0.302222)=0.549747416749021.550
➢ Kurtorsis
✓ Std. Error(Kurtorsis)=Sqrt(1.1303896)=1.0631978227919 1.063
130

❖Bước 1. Từ menu, Graphs →


Legacy Dialogs→
Histograms… → xuất hiện
hộp thoại Histograms
❖Bước 2: Trong hộp thoại
Histograms, chuyển biến
Diembd vào khoang Variable
Options→ Display normal
curve →OK → Kết quả như
hình bên.
131

❖Giá trị ngoại lai là giá trị nhỏ bất thường hoặc lớn bất thường trong tập
dữ liệu.
❖Giá trị dữ liệu có điểm số |z|> –3 có thể được coi là ngoại lai.
❖Ví dụ: Giá thuê căn hộ
➢ Các z-score cao nhất là -1.20 và 2.27.
➢ Sử dụng |z| > 3 làm tiêu chí cho ngoại lai. không có ngoại lai nào trong tập
dữ liệu này.
-1.2 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.2 -0.2 -0.2
-0.2 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
132

❖Thống kê tóm tắt và biểu đồ dễ vẽ có thể được sử dụng để nhanh


chóng tóm tắt số lượng lớn dữ liệu.
❖Hai công cụ thực hiện điều này là:
➢ Tóm tắt năm số
➢ Biểu đồ hộp.
❖Năm số dùng vẽ biểu đồ hộp
➢ Giá trị nhỏ nhất
➢ Tứ phân vị thứ nhất (Q1)
➢ Tứ phân vị thứ hai (Q2 hay Me)
➢ Tứ phân vị thứ ba (Q3)
➢ Giá trị lớn nhất
133

❖VI DỤ: Giá thu căn hộ


➢ Giá trị nhỏ nhất = 425
➢ Tứ phân vị thứ nhất Q1= 445
➢ Tứ phân vị thứ hai Q2 (Hay Me) = 475
➢ Tứ phân vị thứ ba Q3= 525
➢ Giá trị lớn nhất = 615
134

❖Biểu đồ hộp (Box Plot) là một biểu đồ thống kê được sử dụng để trực
quan hóa phân phối và tập trung dữ liệu dựa trên tóm tắt gồm năm đại
lượng số.
❖Biểu đồ hộp cung cấp một cách khác để xác định các ngoại lai.
❖Một hộp được vẽ với các đầu nằm ở Tứ phân vị thứ nhất và thứ ba.
❖Một đường thẳng đứng được vẽ trong hộp tại vị trí của trung vị (Tứ
phân vị thứ hai).

400 425 450 475 500 525 550 575 600 625
Q2 = 475
Q1 = 445 Q3 = 525
135

❖Các giới hạn được định vị (không được vẽ) bằng cách sử dụng
khoảng tứ phân vị (IQR).
❖Dữ liệu nằm ngoài các giới hạn này được coi là ngoại lai.
❖Vị trí của mỗi ngoại lai được hiển thị bằng ký hiệu * .

400 425 450 475 500 525 550 575 600 625

giá trị nhỏ nhất Giá trị lớn nhất


giới hạn bên trong = 425 giới hạn bên trong = 615
136

❖Ví dụ: Giá thuê căn hộ


➢ Giới hạn dưới nằm ở 1.5(IQR) bên dưới Q1.
✓ Giới hạn Thấp hơn: Q1 – 1.5(IQR)= 445– 1.5(80)= 325
➢ Các giới hạn trên nằm ở 1.5(IQR) trên Q3.
✓ Giới hạn Phía trên: Q3 + 1.5(IQR)= 525+ 1.5(80)= 645
➢ Không có ngoại lai (giá trị nhỏ hơn hơn 325 hoặc hơn hơn 645)
trong dữ liệu cho thuê căn hộ.
137

❖Bước 1. Trên menu chính,Graphs


→Legacy Dialogs →Boxplots→
xuất hiện hộp thoại Boxplots.
❖Bước 2. Tại hộp thoại Boxplots,
Simple →Summaries of separate
variables → Define→ xuất hiện hộp
thoại Define Simple Boxplot:
Summaries of Separate Variables.
❖Bước 3. Tại hộp thoại Define Simple
Boxplot: Summaries of Separate
Variables, chuyển biến MonthlyRents
vào khoang Boxes Represent.
❖Bước 4. OK → Xem kết quả
138

❖Giải thích Boxplot: Boxplots minh


họa liệu phân phối của một tập dữ
liệu có đối xứng, lệch dương hay
lệch âm hay không.

❖Do trung vị gần đáy hộp hơn và


râu bên dưới hộp ngắn hơn râu
phía trên hộp nên tập dữ liệu bị
lệch dương.
140

❖Cho đến nay, chúng ta đã kiểm tra các phương pháp số được sử
dụng để tóm tắt dữ liệu cho một biến. Thông thường, người quản
lý hoặc người ra quyết định quan tâm đến mối quan hệ giữa hai
biến.
❖Hai đại lượng mô tả mối quan hệ giữa hai biến
➢ Hiệp phương sai
➢ Hệ số tương quan
✓ Hệ số tương quan của Pearson (Pearson's correlation coefficient)
✓ Hệ số tương quan hạng của Spearman (Spearman's rank correlation
coefficient)
141

❖Hiệp phương sai là phép đo mối liên hệ tuyến tính giữa hai biến.
❖Công thức tính hiệp phương sai
➢Hiệp phương sai tổng thể (Population covariance)
σ(𝑥𝑖 −𝜇𝑥 )(𝑦𝑖 −𝜇𝑦 )
✓ 𝜎𝑥𝑦 =
𝑁
➢Hiệp phương sai mẫu (Samples covariance)
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦)
✓ 𝑠𝑥𝑦 =
𝑛−1
❖Tính chất
✓ Giá trị dương: Giữa hai biến có mối quan hệ thuận
✓ Giá trị âm: Giữa hai biến có mối quan hệ nghịch.
✓ Giá trị bằng 0: giữa hai biến không mối quan hệ
142

❖Hệ số tương quan là phép đo của mối liên hệ tuyến tính và không nhất
thiết là quan hệ nhân quả giữa hai biến
❖Công thức tính
➢ Hệ số tương quan tổng thể ρ (rho)
𝐶𝑜𝑣(𝑋,𝑌) 𝐸(𝑋−𝐸(𝑋))(𝑌−𝐸(𝑌))
✓ 𝜌𝑥𝑦 = =
𝜎𝑋 𝜎𝑌 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)

➢ Hệ số tương quan mẫu


σ𝑛
𝑖=1 𝑥𝑖 −𝑥᪄ 𝑦𝑖 −𝑦
᪄ σ 𝑥𝑖 𝑦 𝑖
✓ 𝑟𝑥𝑦 = =
σ𝑛 2 σ𝑛 ᪄ 2 σ 𝑥𝑖 2 σ 𝑦 𝑖 2
𝑖=1 𝑥𝑖 −𝑥᪄ 𝑖=1 𝑦𝑖 −𝑦

❖Tính chất
➢ −1 ≤ r ≤ 1. (|r|1)
➢ r càng gần -1 biểu thị mối quan hệ tuyến tính nghịch và càng chặt chẻ.
➢ r càng gần 1 biểu thị mối quan hệ tuyến tính thuận và càng chặt chẻ.
➢ |r| càng gần 0 thì mối quan hệ càng yếu.
143

BÀI TOÁN
❖Một người chơi gôn quan tâm đến việc điều tra mối quan hệ giữa
khoảng cách lái xe và điểm số 18 lỗ.
Khoảng cách lái xe
trung bình (yard) Điểm 18 lỗ trung bình
277.6 69
259.5 71
269.1 70
267.0 70
255.6 71
272.9 69
144

LỜI GIẢI
❖Lập bảng tính

𝒙𝒊 𝒚𝒊 lj (𝒚𝒊 − 𝒚)
(𝒙𝒊 − 𝒙) lj (𝒙𝒊 − 𝒙)(𝒚
lj lj
𝒊 − 𝒚)

277.6 69 10.65 - 1.0 - 10.65


259.5 71 -7.45 1.0 - 7.45
269.1 70 2.15 0 0
267.0 70 0.05 0 0
255.6 71 - 11.35 1.0 -11h35
272.9 69 5.95 -1.0 -5.95
Tổng cộng 1601.7 420 0.00 0.0 -35.40
145

LỜI GIẢI
❖Trung bình mẫu
➢ 𝑥ҧ = 267.0 𝑦ത = 70.0
❖Độ lệch chuẩn mẫu
➢ 𝑠𝑥 = 8.2192 𝑠𝑥 = .8944
❖Hiệp phương sai mẫu
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦) −35.40
➢ 𝑠𝑥𝑦 = = = −7.08
𝑛−1 6−1
❖Hệ số tương quan mẫu
𝑠𝑥𝑦 −7.08
➢ 𝑟𝑥𝑦 = = = −.9631
𝑠𝑥 𝑠𝑦 (8.2192)(.8944)
146

❖Tương quan hạng Spearman là được sử dụng để đánh giá mối


quan hệ giữa hai biến dựa trên thứ hạng của các giá trị của chúng.
Nó được sử dụng khi dữ liệu không tuân theo phân phối chuẩn
hoặc khi có sự biến đổi lớn.
❖Công thức tính
➢ Xét mẫu ngẫu nhiên của n cặp quan sát (𝑥1 , 𝑦1 ), . . . , (𝑥𝑛 , 𝑦𝑛 )
➢ Xếp hạng 𝑥𝑖 và 𝑦𝑖 theo thứ tự tăng dần
➢ Tính 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
➢ Tính Hệ số tương quan hạng của Spearman theo công thức sau
6 σ𝑛 2
𝑖=1 𝑑𝑖
✓ 𝑟𝑆 = 1 −
𝑛(𝑛2 −1)

Charles Edward Spearman là một nhà tâm lý học


người Anh nổi tiếng với công việc thống kê, là
người đi tiên phong trong phân tích nhân tố và về
hệ số tương quan hạng Spearman
147

❖Tính chất
➢ |𝑟𝑠 | 1
➢ 𝑟𝑠 >0 Mối quan hệ giữa X và Y là thuận.
➢ 𝑟𝑠 < 0 Mối quan hệ giữa X và Y là nghịch.
➢ Nếu không có mối quan hệ giữa X và Y, thì 𝑟𝑠 sẽ bằng không.
➢ Giá trị của 𝑟𝑠 sẽ là +1 nếu hạng của X hoàn toàn trùng với hạng của
Y.
➢ Giá trị của 𝑟𝑠 sẽ là -1 nếu thứ hạng của X theo thứ tự ngược lại với
thứ hạng của Y.
148

❖Có dữ liệu về hai biến x và y như trong bảng sau:


x 25.0 33.9 16.7 37.4 24.6 17.3 40.2
y 24.3 38.7 13.4 32.1 28.0 12.5 44.9
❖Giải pháp: Hạng
➢ σ𝑛𝑖=1 𝑑𝑖2 = 6 x y 𝑑𝑖 𝑑𝑖2
x y
6 σ𝑛 2
𝑖=1 𝑑𝑖 25.0 24.3 4 3 1 1
➢𝜌 = 1 −
𝑛 𝑛2 −1 33.9 38.7 5 6 -1 1
6 6 36
➢ =1− =1− 16.7 13.4 1 2 -1 1
7 72 −1 7 48
37.4 32.1 6 5 1 1
➢ = 0.893 24.6 28.0 3 4 -1 1
17.3 12.5 2 1 1 1
40.2 44.9 7 7 0 0
Tổng 6
149

❖Bước 1. Tạo File dữ liệu Spearman gồm 2 biến X và Y


❖Bước 2. Từ menu chính, Analyze →Correlate →Bivariate...
Xuất hiện hộp thoại Bivariate Correlations.
❖Bước 3. Tại hộp thoại Bivariate Correlations, chuyển hai biến x và
y vào khoang variables →Spearman →Flag Significant
correlations. Xem hình sau.
❖Bước 4. OK → Xem kết quả.
X Y
Spearman's X Correlation Coefficient 1.000 .893**
rho Sig. (2-tailed) . .007
N 7 7
Y Correlation Coefficient .893** 1.000
Sig. (2-tailed) .007 .
N 7 7
**. Correlation is significant at the 0.01 level (2-tailed).
150

❖Trong thống kê, biến phân loại đề cập đến một đặc điểm không thể
định lượng được. Các biến phân loại có thể sử dụng thang đo định
danh hoặc thứ bậc.
❖Dữ liệu phân loại là loại dữ liệu của các biến phân loại hoặc dữ liệu
của biến định lượng đã được phân nhóm.
❖Ví dụ: Điểm hệ 10 được phân thành các loại: A, B, C, D và F
➢ Loại đạt:
✓ A: từ 8.5 đến 10.0
B: từ 7.0 đến 8.4
C: từ 5.5 đến 6.9
D: từ 4.0 đến 5.4.
➢ Loại không đạt:
✓ F: dưới 4.0.
151

❖Được sử dụng để phân loại các


quan sát mẫu theo một cặp thuộc Biến Biến phân loại B
tính phân loại Totals
A 1 2 … C
❖Còn được gọi là bảng phân loại
chéo hoặc bảng chéo 1 O11 O12 … O1c R1
2 O21 O22 … O2c R2
❖Giả sử loại r cho các biến phân
loại loại A và c cho các biến phân … … … … … …
loại B r Or1 Or2 … Orc Rr
➢ Khi đó, có thể có (rc) phân loại Totals C1 C2 … Cc N
chéo.
152

❖Chi-bình phương: kiểm định chi bình phương về tính độc lập, còn
được gọi là phép kiểm chi bình phương của Pearson, được sử dụng để
khám phá xem có mối quan hệ nào giữa hai biến phân loại hay không.
(O −E )2
ij ij Biến phân loại B
➢ χ2 = σri=1 σcj=1 Biến
ij E Total
phân loại A 1 2 … C
➢ Kiểm định thích hợp là O11 O12 O1c
kiểm định Chi−bình phương. 1 … R1
E11 E12 E1c
❖Trong đó: O21 O22 O2c
➢ 𝑂𝑖𝑗 số quan sát trong ô nằm 2 … R2
E21 E22 E2c
ở hàng i và cột j. … … … … … …
Ri Cj Or1 Or2 Orc
➢ Eij = với 𝑅𝑖 và 𝐶𝑗 là tổng r … Rr
n
Er1 Er2 Erc
hàng
và cột. Total C1 C2 … Cc n
153

❖Cramer's V
➢Cramer's V được sử dụng để xác định cường độ của mối quan
hệ giữa hai biến phân loại.
𝜒2
➢𝑉 =
𝑛(𝑘−1)

❖Trong đó
➢𝜒 2 là thống kê Chi bình phương Pearson từ kiểm định đã nói ở
trên
➢n là cỡ mẫu tham gia vào kiểm định
➢k là số loại nhỏ hơn của một trong hai biến =min(r,c).
154

❖Cramer's V: Giải thích độ lớn hiệu quả

Độ lớn hiệu quả (ES) Diễn dịch

Mối quan hệ là yếu. Mặc dù kết quả có ý nghĩa


ES ≤ 0.2
thống kê, nhưng các trường chỉ được liên kết yếu.
0.2 < ES ≤ 0.6 Mối quan hệ là vừa phải.
ES > 0.6 Mối quan hệ là mạnh mẽ.
155
❖Hệ số phi (Phi Coefficient)
➢ Hệ số Phi dùng đo lường mối liên hệ giữa hai biến nhị phân. Nó còn
được gọi là Hệ số Yule Phi được sử dụng cho các bảng tiếp liên khi
cả hai biến đều là biến nhị phân.
❖Công thức cho Hệ số Phi ()
➢ Bảng 2×2 cho hai biến ngẫu nhiên x và y
Biến nhị phân 1 (x)
x=1 x=0 total
y=1 a b a+b
Biến nhị
y=0 c d c+d
phân 2 (y)
total a+c a+d n
➢ Hệ số Phi ()
(𝑎.𝑑−𝑏.𝑐)
✓ =
(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑐+𝑑)
156

❖Tính chất của Hệ số Phi ()


➢ Hệ số Phi có tính đối xứng, có nghĩa là biến độc lập và biến phụ
thuộc có thể hoán đổi cho nhau
➢   [-1,1]
➢  =0 giữa hai biến không có mối quan hệ
➢  =1 giữa hai biến có mối quan hệ dương hoàn hảo
➢  =-1 giữa hai biến có mối quan hệ âm hoàn hảo
➢   0 giữa hai biến có mối quan hệ yếu
➢ ||  1 giữa hai biến có mối quan hệ mạnh.
157

+.70 trở lên Mối quan hệ dương rất mạnh mẽ


+.40 đến +.69 Mối quan hệ dương mạnh mẽ
+.30 đến +.39 Mối quan hệ dương vừa phải
+.20 đến +.29 Mối quan hệ dương yếu
+.01 đến +.19 Không có hoặc không đáng kể mối quan hệ
0 Không có mối quan hệ
-.01 đến -.19 Không có hoặc không đáng kể mối quan hệ
-.20 đến -.29 Mối quan hệ âm yếu
-.30 đến -.39 Mối quan hệ âm vừa phải
-.40 đến -.69 Mối quan hệ âm mạnh mẽ
-.70 hoặc cao hơn Mối quan hệ âm rất mạnh
158
BÀI TOÁN
❖Giả sử chúng ta muốn biết liệu giới tính có liên quan đến việc thích
tập thể dục buổi sáng hay không. Chúng ta lấy mẫu ngẫu nhiên đơn
giản gồm 25 thanh niên và khảo sát họ về sở thích tập thể dục của họ.
Bảng sau đây cho thấy kết quả của cuộc khảo sát:

Tập Không Total


Nam 4 9 13
Nữ 8 4 12
Total 12 13 25
❖LỜI GIẢI
(𝑎.𝑑−𝑏.𝑐) 4×4−8×9
➢ = = = −0.35897
(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑐+𝑑) 12×13×13×12
➢ Như vậy mối quan hệ giữa giới tính và sở thích tập thể dục là mối
quan hệ âm và vừa phải.
159

❖Bước 1: Trên menu chính,


Analyze →Descriptives
Statistics →Crosstabs... → xuất
hiện hộp thoại Crosstabs.
❖Bước 2: Trong hộp thoại
Crosstabs, chuyển biến Gioitinh
vào khoang Row(s) và biến
Theduc và khoang Column(s).
Xem hình bên.
❖Bước 3. Statistics →xuất hiện
hộp thoại Crosstabs: Statistics.
160

❖Bước 4. Tại hộp thoại Crosstabs:


Statistics, Chi-square,
Contingency coefficient and Phi,
Cramer's V, như trong hình bên.
❖Bước 5. Continue quay lại hộp thoại
Crosstabs.
161

❖Bước 6 Tại hộp thoại Crosstabs, Cells


→ xuất hiện hộp thoại Crosstabs: Cell
Display.
❖Bước 7. Tại hộp thoại Crosstabs: Cell
Display, Observed trong khoang
Counts và Row, Column và Total
trong khoang Percentages, như hình
bên.
❖Bước 8. Continue để quay lại hộp
thoại Crosstabs.
162

❖Bước 9. Tại hộp thoại Crosstabs, Format →xuất hiện hộp


thoại Crosstabs: Table Format.

❖Bước 10. Tại hộp thoại Crosstabs: Table Format,


Ascending→Continue →quay lại hộp thoại Crosstabs.
❖Bước 11. Tại hộp thoại Crosstabs, OK và được kết quả.
163
Theduc
Không thích Thích Total
Gioitinh Nữ Count 4 8 12
Expected Count 6.2 5.8 12.0
% within Gioitinh 33.3% 66.7% 100.0%
% within Theduc 30.8% 66.7% 48.0%
% of Total 16.0% 32.0% 48.0%
Nam Count 9 4 13
Expected Count 6.8 6.2 13.0
% within Gioitinh 69.2% 30.8% 100.0%
% within Theduc 69.2% 33.3% 52.0%
% of Total 36.0% 16.0% 52.0%
Total Count 13 12 25
Expected Count 13.0 12.0 25.0
% within Gioitinh 52.0% 48.0% 100.0%
% within Theduc 100.0% 100.0% 100.0%
% of Total 52.0% 48.0% 100.0%
164

❖Khi đọc bảng Chi-Square, chúng ta quan tâm đến kết quả của hàng
"Pearson Chi-Square". Chúng ta thấy χ2(1) = 3.222. p = 0.073. Điều
này cho chúng ta biết rằng không có mối liên hệ có ý nghĩa thống kê
nào giữa Giới tính và Đảng phái với α= 5%.
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.
Value df (2-sided) (2-sided) (1-sided)
a
Pearson Chi-Square 3.222 1 .073
b
Continuity Correction 1.944 1 .163
Likelihood Ratio 3.293 1 .070
Fisher's Exact Test .115 .081
Linear-by-Linear Association 3.093 1 .079
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 5.76.
b. Computed only for a 2x2 table
165

❖Bảng phép đo đối xứng

Symmetric Measures
Value Approx. Sig.
Nominal by Phi -.359 .073
Nominal Cramer's V .359 .073
Contingency .338 .073
Coefficient
N of Valid Cases 25

❖Phi. Cramer's V và Hệ số tiếp liên là những kiểm định về độ mạnh của


mối liên hệ tương quan. Chúng ta có thể thấy rằng độ mạnh của mối
liên hệ giữa các biến có mối quan hệ âm vừa phải.
Chương 03
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢ Hiểu được thế nào biến ngẫu nhiên,
➢ Hiểu được thế nào là biến ngẫu nhiên rời rạc và những phân phối
xác suất của chúng
➢ Hiểu được thế nào là biến ngẫu nhiên liên tục và những phân phối
xác suất của chúng
➢ Xác định được những tham số đặc trưng của các biến ngẫu nhiên
3.1

PHÂN PHỐI XÁC SUẤT RỜI RẠC


4

❖Một biến có giá trị được xác định bởi kết quả của một phép thử
ngẫu nhiên được gọi là biến ngẫu nhiên.
❖Các biến ngẫu nhiên thường được ký hiệu bằng các chữ hoa X,
Y, Z, v.v. và các giá trị do chúng nhận được ký hiệu bằng các chữ
cái thường x, y, z, v.v.
❖Biến ngẫu nhiên gồm hai loại
➢ Biến ngẫu nhiên rời rạc: Một biến ngẫu nhiên rời rạc có thể nhận
một số hữu hạn các giá trị hoặc một chuỗi các giá trị vô hạn (Ví dụ
về chuỗi rời rạc các giá trị vô hạn là chuỗi các số nguyên dương).
➢ Biến ngẫu nhiên liên tục có thể nhận bất kỳ giá trị số nào trong một
khoảng hoặc tập hợp các khoảng.
5

❖Biến ngẫu nhiên rời rạc với số giá trị hữu hạn
➢ Gọi x = số TV bán ra tại cửa hàng trong một ngày và x có thể nhận 5
giá trị (0, 1, 2, 3, 4)
✓ Chúng ta có thể đếm số TV đã bán và có giới hạn trên hữu hạn đối
với số lượng có thể bán (là số TV trong kho).
❖Biến ngẫu nhiên rời rạc với số lượng giá trị vô hạn
➢ Gọi x = số khách hàng đến trong một ngày và x có thể nhận các giá
trị 0, 1, 2, . . .
✓ Chúng ta có thể đếm số khách hàng đến, nhưng không có giới hạn
trên về số lượng khách hàng có thể đến.
➢ Ví dụ: Tập các số tự nhiên là biến ngẫu nhiên rời rạc vô hạn.
6

❖Phân phối xác suất cho một biến ngẫu nhiên mô tả cách xác suất
được phân phối cho các giá trị của biến ngẫu nhiên.
❖Chúng ta có thể mô tả phân phối xác suất rời rạc bằng các công
cụ như sau
➢ Bảng,
➢ Đồ thị,
➢ Công thức.
❖Các loại phân phối xác suất rời rạc
➢ Loại thứ nhất: sử dụng quy tắc gán xác suất cho kết quả phép thử
để xác định xác suất cho từng giá trị của biến ngẫu nhiên.
➢ Loại thứ hai: sử dụng một công thức toán học đặc biệt để tính xác
suất cho từng giá trị của biến ngẫu nhiên.
7

❖Phân phối xác suất được xác định bởi một hàm xác suất, ký hiệu
là f(x), cung cấp xác suất cho từng giá trị của biến ngẫu nhiên.
❖Các điều kiện cần thiết cho một hàm xác suất rời rạc là:
➢ f(x)0 và
➢ f(x)=1
❖Một số phân phối xác suất rời rạc được chỉ định bởi các công
thức là phân phối đều rời rạc, nhị thức, Poisson và siêu hình
học.
8

❖Ví dụ: Thiết bị gia dụng JSL


➢ Sử dụng dữ liệu trong quá khứ về doanh số bán TV, biểu diễn dạng
bảng về phân phối xác suất cho doanh số đã được xây dựng.

Đơn vị Số lượng Đồ thị của phân phối xác suất


𝑥 𝑓(𝑥)
bán ngày 0.5

0 80 0 .40 0.4
1 50 1 0.25

Xác suất
0.3
2 40 2 0.20
3 10 3 0.05 0.2
4 20 4 0.10
0.1
200 1.00
0

0 1 2 3 4
Giá trị của biến ngẫu nhiên x
10

❖Các biến ngẫu nhiên có một số tham số đặc trưng như sau
➢ ①Giá trị kỳ vọ ng (Expected Value)
➢ ②Phương sai (Variance)
➢ ③Độ lệch chuẩn (Standard Deviation)
11

❖① Giá trị kỳ vọ ng (Expected Value)


➢ Giá trị kỳ vọng, hoặc giá trị trung bình, của một biến ngẫu nhiên là
thước đo vị trí trung tâm của nó.
➢ Giá trị kỳ vọng là trung bình có trọng số của các giá trị mà biến
ngẫu nhiên có thể giả định. Các trọng số là xác suất.
➢ Giá trị kỳ vọng không nhất thiết phải là giá trị mà biến ngẫu nhiên
có thể giả định.
✓ 𝐸(X) = 𝜇 = ∑𝑥𝑓(𝑥)
12

❖②Phương sai (Variance)


➢ Phương sai phản ảnh sự biến động các giá trị của một biến ngẫu
nhiên.
➢ Phương sai là trung bình có trọng số của bình phương độ lệch của
một biến ngẫu nhiên so với giá trị trung bình của nó. Các trọng số
là xác suất.
✓ Var(X) = 𝜎 2 = Σ(𝑥 − 𝜇)2 𝑓(𝑥)
❖③ Độ lệch chuẩn (Standard Deviation), σ, được định nghĩa là căn
bậc hai dương của phương sai.
✓𝜎 = Var(X) = Σ(𝑥 − 𝜇)2 𝑓(𝑥)
13

❖Ví dụ: JSL Appliances


x f(x) xf(x) x–μ (x – μ )2 (x– μ )2 f(x)
0 .40 .00 –1.2 1.44 .576
1 .25 .25 –0.2 0.04 .010
2 .20 .40 0.8 0.64 .128
3 .05 .15 1.8 3.24 .162
4 .10 .40 2.8 7.84 .784
1.20 1.660
➢ Số TV kỳ vọng bán được trong ngày
➢ 𝐸 𝑥 = ∑ xf(x) = 1.20
➢ Phương sai của doanh số hằng ngày
✓ Var(X) = 𝜎 2 = Σ(𝑥 − 𝜇)2 𝑓(𝑥)=1.660
➢ Độ lệch chuẩn của doanh số hằng ngày:
✓𝜎= Var(X) = 1.2884 TVs
15

❖Phân phối xác suất Bernoulli là phân phối xác suất của một biến
ngẫu nhiên rời rạc nhận giá trị 1 với xác suất p và giá trị 0 với
xác suất q=1-p. Hàm phân phối xác suất:
𝑝 Nếu x = 1
➢ 𝑓(x) = ቊ
𝑞 =1−𝑝 Nếu x = 0
❖Có thể viết theo dạng: 𝑓(𝑥) = 𝑝 𝑥 (1 − 𝑝)1−𝑥
❖Các tham số đặc trưng
➢ Kỳ vọng: 𝐸 𝑋 = 𝜇 = 𝑝
➢ Phương sai: 𝑉𝑎𝑟 𝑋 = 𝜎 2 = 𝑝 1 − 𝑝 = 𝑝𝑞
➢ Độ lệch chuẩn: 𝜎 = 𝑝(1 − 𝑝)
16

❖Một cách tổng quát, nếu biến ngẫu nhiên X tuân theo phân phối
nhị thức với các tham số n ∈ N và p ∈ [0,1] thì viết X ~ B(n, p).
❖Xác suất nhận được chính xác k thành công trong n phép thử
Bernoulli độc lập được cho bởi hàm phân phối xác suất:
➢ 𝑓(𝑥) = 𝐶𝑛𝑥 𝑝 𝑥 (1 − 𝑝)(𝑛−𝑥)
➢ Trong đó:
✓ x = số lần thành công
✓ p = xác suất thành công trong một lần thử
✓ n = số lần thử nghiệm
✓ f(x) = xác suất thành công của x trong n phép thử
✓ n! = n(n – 1)(n – 2) … (2)(1)
17

𝑛!
✓ 𝐶𝑛𝑥 = : Số kết quả thử nghiệm cung cấp chính xác x thành
𝑥!(𝑛−𝑥)!
công trong n thử nghiệm
✓ 𝑝 𝑥 (1 − 𝑝) 𝑛−𝑥 : Xác suất của một chuỗi kết quả thử nghiệm cụ thể
với x thành công trong n thử nghiệm

CHÚ Ý: Phân phối Bernoulli là trường hợp đặc biệt của phân phối
nhị thức với n=1
18

❖BÀI TOÁN
➢ Evans Electronics lo ngại về tỷ lệ giữ chân nhân viên thấp. Trong
những năm gần đây, ban quản lý đã chứng kiến doanh thu 10% số
nhân viên làm việc theo giờ hàng năm.
➢ Do đó, đối với bất kỳ nhân viên làm việc theo giờ nào được chọn
ngẫu nhiên, ban quản lý ước tính xác suất 0.1 rằng người đó sẽ
không ở lại công ty vào năm tới.
➢ Chọn ngẫu nhiên 3 nhân viên làm việc theo giờ, xác suất để 1 người
trong số họ rời công ty trong năm nay là bao nhiêu?
19

❖LỜI GIẢI
➢ Xác suất để nhân viên thứ nhất ra đi và nhân viên thứ hai và thứ ba
ở lại, kí hiệu (S, F, F) là xác suất p(1 – p)(1 – p).
➢ Xác suất để nhân viên thứ nhất và thứ ba ở lại và nhân viên thứ hai
nghỉ, kí hiệu (F, S, F) là xác suất (1-p)p (1 – p).
➢ Xác suất để nhân viên thứ nhất và thứ hai ở lại và nhân viên thứ
hai nghỉ, kí hiệu (F, F, S) là xác suất (1-p)(1 – p)p.
Kết quả thử nghiệm Xác suất của kết quả thử nghiệm
Experimental Probability of Experimental
Outcome Outcome
(S, F, F) p(1 – p)(1 – p) = (.1)(.9)(.9) = .081
(F, S, F) (1 – p)p(1 – p) = (.9)(.1)(.9) = .081
(F, F, S) (1 – p)(1 – p)p = (.9)(.9)(.1) = .081
Total = .243
20

➢ Sử dụng hàm xác suất với p = 0.10, n = 3 và x= 1


𝑛!
✓ 𝑓(𝑥) = 𝑝 𝑥 (1 − 𝑝) 𝑛−𝑥
𝑥! 𝑛−𝑥 !
3!
✓ 𝑓(1) = (0.1)1 (0.9)2 = 0.243
1!(3−1)!
21

❖Các tham số đặc trưng của phân phối nhị thức


➢ Giá trị kỳ vọng 𝐸 𝑋 = 𝜇 = 𝑛𝑝
➢ Phương sai là 𝑉𝑎𝑟 𝑋 = 𝜎 2 = 𝑛𝑝(1 − 𝑝)
➢ Độ lệch chuẩn là 𝜎 = 𝑛𝑝(1 − 𝑝)

❖Ví dụ: Điện tử Evans


➢ Gia trị kỳ vọng là 𝐸 𝑋 = 𝑛𝑝 = 3 0.1 = 0.3
➢ Phương sai là 𝑉𝑎𝑟 𝑋 = 𝑛𝑝 1 − 𝑝 = 3 .1 .9 = 0.27
➢ Độ lệch chuẩn là 𝜎 = 𝑛𝑝(1 − 𝑝) = 3 0.1 0.9 =0.52
3.2

PHÂN PHỐI XÁC SUẤT LIÊN TỤC


23

❖Biến ngẫu nhiên liên tục có thể nhận bất kỳ giá trị số nào trong
một khoảng hoặc tập hợp các khoảng.
❖Không thể nói về xác suất của biến ngẫu nhiên giả định tại một
giá trị cụ thể. Thay vào đó, chúng ta nói về xác suất của biến
ngẫu nhiên giả định trong một khoảng nhất định.
❖Phân phối xác suất chuẩn là phân phối quan trọng nhất để mô
tả một biến ngẫu nhiên liên tục.
❖Nó được sử dụng rộng rãi trong suy luận thống kê.
25

❖Giá trị kỳ vọng là giá trị trung bình có trọng số của một biến
ngẫu nhiên

➢ 𝐸(𝑋) = ‫׬‬−∞ 𝑥𝑓(𝑥)𝑑𝑥
➢ Trong đó
✓ E (X) là giá trị kỳ vọng của biến ngẫu nhiên liên tục X
✓ x là giá trị của biến ngẫu nhiên liên tục X
✓ f(x) là hàm mật độ xác suất
❖Tính chất của giá trị kỳ vọng (Properties of Expected Values)
➢ a. Giá trị kỳ vọng của hằng số là chính hằng số đó. Do đó, nếu b là
hằng số, E(b) = b.
b. Nếu X và Y là các biến ngẫu nhiên độc lập, thì E(XY) = E(X)E(Y)
➢ c. Nếu a và b là hằng số, E(aX + b) = aE(X) + b
26

❖Phương sai (Variance): Sự phân bố của các giá trị X xung quanh
giá trị kỳ vọng có thể được đo bằng phương sai, được định
nghĩa là

➢ Va r( 𝑋) = 𝜎𝑋2 = 𝐸 𝑋 − 𝜇 2
= ‫׬‬−∞ 𝑋 − 𝜇 2 𝑓(𝑥)𝑑𝑥
❖Tính chất của phương sai (Properties of Variance)
➢ a. 𝐸 𝑋 − 𝜇 2 = 𝐸 𝑋 2 − 𝜇2
➢ b. Phương sai của hằng số bằng không
➢ c. Nếu 𝑎 và 𝑏 là hằng số, thì var(𝑎𝑋 + 𝑏) = 𝑎2 var(𝑋)
➢ d. Nếu 𝑋 và là 𝑌 độc lập và 𝑎 và 𝑏 là hằng số, thì var(𝑎𝑋 + 𝑏𝑌) =
𝑎2 var(𝑋) + 𝑏 2 var(𝑌)
➢ e. Nếu 𝑋 và 𝑌 là các biến ngẫu nhiên độc lập, thì var(𝑋 ± 𝑌) =
var(𝑋) + var(𝑌)
✓ Tính chất này có thể được khái quát hóa thành nhiều hơn hai biến độc
lập
27

❖Độ lệch chuẩn: Căn bậc hai dương của 𝜎 2 được định nghĩa là độ
lệch chuẩn của X (𝜎𝑋 ).
❖Tính chất
➢ Độ lệch chuẩn không âm
➢ Độ lệch chuẩn càng lớn thì độ biến thiên của tập dữ liệu càng cao
➢ Luôn cùng đơn vị tính với đơn vị tính của biến nghiên cứu
➢ Chịu ảnh hưởng của phần tử ngoại lai
29

❖Phân phối xác suất được biết đến nhiều nhất là phân phối
chuẩn, có hình chuông. Hàm mật độ xác suất (PDF: Probability
Density Function) có dạng sau:
1 −(𝑥−𝜇) 2 /2𝜎 2
➢ 𝑓(𝑥) = 𝑒
𝜎 2𝜋
➢ Trong đó:
✓ 𝜇= Trung bình
Độ lệch chuẩn 
✓ 𝜎= độ lệch chuẩn
✓ 𝜋= 3.14159
✓ e = 2.71828
x
µ,
Trung bình
30

❖Theo quy ước, chúng ta biểu thị một biến phân phối chuẩn là
➢ 𝑋~𝑁(𝜇, 𝜎 2 )
➢ Trong đó ∼ có nghĩa là “tuân theo phân phối", N là viết tắt của
phân phối chuẩn và các đại lượng trong ngoặc đơn là giá trị kỳ
vọng và phương sai.
❖Toàn bộ họ phân phối xác suất chuẩn được
xác định bởi giá trị kỳ vọng μ và
độ lệch chuẩn của nó σ.
Độ lệch chuẩn 
❖Các điểm cao nhất trên đường cong
chuẩn là tại giá trị kỳ vọng , cũng
là trung vị và mode.
x
µ,
kỳ vọng
31

❖Giá trị trung bình có thể nhận bất kỳ giá trị số nào: âm, bằng
không hoặc dương.

20 x
-10 0

❖Độ lệch chuẩn xác định độ rộng của đường cong: giá trị lớn hơn
dẫn đến đường cong rộng hơn, phẳng hơn.

 = 15

 = 25
x
32

❖Xác suất cho biến ngẫu nhiên chuẩn được đưa ra bởi các diện
tích dưới đường cong. Tổng diện tích dưới đường cong là 1 (0.5
ở bên trái của giá trị kỳ vọng và 0.5 ở bên phải).

.5 .5
x
33

❖Biến ngẫu nhiên có phân phối chuẩn với giá


trị trung bình bằng 0 và độ lệch chuẩn bằng
1 được gọi là phân phối xác suất chuẩn
=1
chuẩn hóa, thường ký hiệu là Z.
❖Cách chuyển đổi biến x phân phối chuẩn
sang phân phối chuẩn chuẩn hóa như sau
𝑥−𝜇
➢Z = z
𝜎 0
❖Chúng ta có thể coi z là thước đo số lượng
độ lệch chuẩn x từ μ.
➢ 𝑍~𝑁(0,1)
34

BÀI TOÁN
➢ Pep Zone bán phụ tùng ô tô và vật tư bao gồm dầu động cơ. Khi trữ
lượng dầu này giảm xuống còn 20 gallon thì thực hiện lệnh bổ
sung. Người quản lý cửa hàng lo ngại rằng doanh số bán hàng bị
giảm do hết hàng trong khi chờ đơn đặt hàng bổ sung.
➢ Biết rằng nhu cầu trong thời gian chuẩn bị bổ sung có phân phối
chuẩn với giá trị trung bình là 15 gallon và độ lệch chuẩn là 6
gallon.
➢ Người quản lý muốn biết xác suất hết hàng trong thời gian chuẩn
bị bổ sung. Nói cách khác, xác suất mà nhu cầu trong thời gian chờ
sẽ vượt quá 20 gallon là bao nhiêu?
35

LỜI GIẢI
❖Tính xác suất hết hàng Diện tích = .79673
➢ Bước 1: Chuyển đổi x thành phân phối Diện tích
chuẩn chuẩn hóa. = 1 - .79673
z = (x -)/= (20 - 15)/6 = .83 = .20327
➢ Bước 2: Tính diện tích dưới đường
cong chuẩn tiêu chuẩn ở bên trái
của 𝑧=0.83. Tra bảng ở Slide sau, được: z
P(z  0.83) = .79673. 0 .83
➢ Bước 3: Tính diện tích dưới đường
cong chuẩn chuẩn hóa ở bên phải của
z= 0.83.
P(z > 0.83) = 1 – P(z  0.83) = 1- 0.79673 =
0.20327
36

➢ Tách giá trị 0.83=0.8+0.03 (tra hàng 0.8 và cột 0.03)


➢ p(z0.83)=0.7967

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
... ... ... ... ... ... ... ... ... ... ...
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
... ... ... ... ... ... ... ... ... ... ...
37

❖Tính điểm đặt hàng lại


➢ Bước 1: Tìm giá trị z cắt bỏ diện tích 0.05 ở phần đuôi bên phải của
phân phối chuẩn chuẩn hóa bằng cách tra cứu phần bù của phần
đuôi bên phải 1 – 0.05 = 0.95.
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
... ... ... ... ... ... ... ... ... ... ...
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
... ... ... ... ... ... ... ... ... ... ...

Trong Excel: NORM.S.INV 𝑧.05 =1.645


38

➢ Bước 2: Chuyển 𝑧.05 thành giá trị tương ứng của x.


➢ x =+𝑧.05 = 15 + 1.645(6) = 24.8725
❖Điểm đặt hàng lại là 25 gallon sẽ đặt xác suất hết hàng trong thời
gian giao hàng là (ít hơn một chút) 0.05.

Xác suất không hết


hàng trong thời
Xác suất hết
gian chuẩn bị bổ
hàngtrong thời
sung = .95
gian chuẩn bị bổ
sung = .05

x
15 24.87
39

❖Tính điểm đặt hàng lại


➢ Bằng cách tăng điểm đặt hàng lại từ 20 gallon lên 25 gallon, xác
suất hết hàng giảm từ khoảng 0.20 xuống 0.05.
➢ Điều này làm giảm đáng kể khả năng Pep Zone hết hàng và không
thể đáp ứng mong muốn mua hàng của khách hàng.
40

❖Giả sử 𝑍1 , 𝑍2 , … , 𝑍𝑘 là các biến chuẩn chuẩn hóa độc lập (tức là các
biến chuẩn có giá trị kỳ vọng bằng 0 và phương sai bằng 1). Sau đó,
thực hiện:
➢ 𝑍 = ∑𝑘𝑖=1 𝑍𝑖2
❖Sẽ tuân theo phân phối 𝜒 2 với k bậc tự do (df). Một biến phân phối
Khi-bình phương được ký hiệu là 𝜒𝑘2 , trong đó chỉ số dưới k biểu thị
bậc tự do.
❖Tính chất của phân phối 𝜒 2 :
➢ 1. phân phối 𝜒 2 là phân phối lệch, mức độ lệch tùy thuộc vào df.
➢ 2. Giá trị kỳ vọng của phân phối chi-square là k, và phương sai của nó
là 2k, trong đó k là df.
➢ 3. Nếu 𝑍1 và 𝑍2 là hai biến chi-square độc lập với bậc tự do là k1 và k2
df, thì tổng 𝑍1 + 𝑍2 cũng là một biến chi-square với df = k1 + k2.
41

❖Về mặt hình học, phân phối Chi-square như trong hình sau:

f (𝜒 2 )
Density

k =2

k =5

k = 10

𝜒2
0
42

❖Nếu 𝑍1 là một biến chuẩn chuẩn hóa [nghĩa là 𝑍1 ∼N(0,1)] và một


biến khác 𝑍2 tuân theo phân phối Chi-square với df=k và phân
phối độc lập với 𝑍1 , thì biến được định nghĩa là
𝑍1 𝑍1 𝑘
➢t= =
𝑍2 /𝑘 𝑍2
tuân theo phân phối t Student với df=k.
❖Tính chất của phân phối Student's 𝑡:
➢ Phân phối t, giống như phân phối chuẩn, là đối xứng, nhưng nó
phẳng hơn phân phối chuẩn. Nhưng khi df tăng, phân phối t xấp xỉ
phân phối chuẩn.
➢ Giá trị kỳ vọng của phân phối t bằng 0, và phương sai là k/(k−2).
43

❖Về mặt hình học, phân phối t được thể hiện trong hình sau:

k = 120 (Chuẩn)

k = 20

k=5

t
0
44

❖Nếu 𝑍1 và 𝑍2 là các biến Chi-square phân phối độc lập với df tương
ứng là 𝑘1 và 𝑘2 , thì biến
𝑍1 /𝑘1
➢𝐹 = ~F(𝑘1 , 𝑘2 )
𝑍2 /𝑘2
➢ Trong đó 𝑘1 và 𝑘2 tương ứng được gọi là bậc tự do ở tử và ở mẫu.
❖Tính chất của phân phối F
➢ Giống như phân phối Chi-bình phương, phân phối F bị lệch sang
phải.
➢ Khi 𝑘1 và 𝑘2 càng lớn, phân phối F tiệm cận phân phối chuẩn.
➢ E(F)= 𝑘2 /(𝑘2 -2), được xác định với 𝑘2 >2
2𝑘22 𝑘1 +𝑘2 −2
➢ Var (F)= được xác định với 𝑘2 >4.
𝑘1 𝑘2 −2 2 𝑘2 −4
45

➢ Bình phương của một biến ngẫu nhiên phân phối t với df =k có
phân phối F với df là 1 và k
✓ 𝑡𝑘2 = 𝐹1,𝑘
❖Về mặt hình học, phân phối F được thể hiện như hình sau:

f (F )

F(50,50)

F(2,2)
Density

F(10,2)

F
Chương 04
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Mô tả một mẫu ngẫu nhiên đơn giản và tại sao lấy mẫu lại quan
trọng
➢Xác định giá trị trung bình và độ lệch chuẩn cho phân phối chọn
mẫu của giá trị trung bình mẫu,
➢Xác định giá trị trung bình và độ lệch chuẩn cho phân phối chọn
mẫu của tỷ lệ mẫu,
➢Mô tả phân phối chọn mẫu của phương sai mẫu
➢Mô tả định lý giới hạn trung tâm và tầm
quan trọng của nó
4

❖Phần tử/đơn vị (element) là thực thể mà dữ liệu được thu thập.


❖Tổng thể (population) là tập hợp tất cả các phần tử quan tâm.
➢Tổng thể mục tiêu (target population) là tổng thể mà chúng ta
muốn suy luận về nó.
➢Tổng thể được chọn mẫu (sampled population) là tổng thể mà
từ đó mẫu thực sự được lấy.
❖Trong một thế giới lý tưởng, tổng thể mục tiêu và tổng thể được
chọn mẫu sẽ giống nhau, nhưng thường thì chúng khác nhau.
❖Bất cứ khi nào một mẫu được sử dụng để suy luận về tổng thể,
chúng ta nên đảm bảo rằng tổng thể mục tiêu và tổng thể được
chọn mẫu có sự thống nhất chặt chẽ với nhau.
5

❖Tổng thể hữu hạn (Finite Population)


➢Một tổng thể được gọi là hữu hạn nếu có thể đếm được các
phần tử của nó. Số lượng các phần tử (đơn vị) trong một tổng
thể hữu hạn được ký hiệu là N.
✓ Ví dụ về tổng thể hữu hạn là nhân viên của một công ty, sách
trong thư viện, ô tô trong thị trấn.
❖Tổng thể vô hạn (Infinite Population)
➢Tổng thể mà không thể đếm được các đơn vị của nó được gọi là
vô hạn hoặc không đếm được.
➢Ví dụ về tổng thể vô hạn là số lượng cá trong hồ, biển.
❖Trong phân tích thống kê, tổng thể hữu hạn rất tiện lợi hơn so
với tổng thể vô hạn.
6

❖Mẫu (sample) là một tập hợp con của tổng thể được chọn ngẫu
nhiên.
➢Lý do chọn mẫu là để thu thập dữ liệu nhằm trả lời câu hỏi
nghiên cứu về tổng thể.
➢Các kết quả mẫu sẽ cung cấp các suy đoán về một số đặc trưng
tổng thể.
➢Với các phương pháp chọn mẫu phù hợp, kết quả mẫu có thể
cung cấp các suy đoán “tốt” về các đặc điểm tổng thể.
❖Khung (frame) là danh sách các phần tử mà mẫu sẽ được chọn
từ đó.
7

❖Chọn mẫu (Sampling)


➢Chọn mẫu là một kỹ thuật lựa chọn các đơn vị riêng lẻ hoặc một
tập hợp con của tổng thể để suy luận thống kê về toàn bộ
tổng thể.
❖Có hai phương pháp chọn mẫu
➢Chọn mẫu xác suất (Probability sampling): là một kỹ thuật chọn
mẫu mà các phần tử của tổng thể được chọn ngẫu nhiên. Tất cả
các phần tử đều có cơ hội bình đẳng để trở thành một phần của
mẫu với tham số lựa chọn này.
➢Chọn mẫu phi xác suất (Non-probability sampling): các đơn vị
nghiên cứu được chọn một cách ngẫu nhiên.
9

❖Mẫu ngẫu nhiên giản đơn (A simple random sample) cỡ n từ


một tổng thể hữu hạn cỡ N là một mẫu được chọn sao cho mỗi
mẫu cỡ n được chọn có cùng xác suất.
❖Cách chọn mẫu
➢Chọn lặp (Sampling with replacement): Khi một đơn vị mẫu
được rút ra từ tổng thể hữu hạn và ghi chép lại những đặc tính
của nó sẽ được hoàn trả lại cho tổng thể đó trước khi rút đơn vị
tiếp theo.
✓ Tổng số mẫu có thể là: 𝐾 = 𝐶𝑁𝑛
10

➢Chọn không lặp (Sampling without replacement): Khi một đơn


vị mẫu được rút ra từ tổng thể hữu hạn và sau khi ghi lại các đặc
tính của nó thì sẽ không được hoàn trả lại cho tổng thể đó trước
khi lấy đơn vị tiếp theo.
✓ Tổng số mẫu có thể là: K =𝑁 𝑛
11

❖Trường cao đẳng AA nhận được 900 đơn xin nhập học trong năm
tới từ các sinh viên tương lai. Những người nộp đơn được đánh số,
từ 1 đến 900, khi đơn đăng ký của các em đến. Bộ phận tuyển sinh
muốn chọn một mẫu ngẫu nhiên đơn giản gồm 30 ứng viên.
❖Bước 1: Chỉ định một số ngẫu nhiên cho mỗi trong số 900 ứng
viên.
❖Bước 2: Chọn ra 30 ứng viên tương ứng với 30 số ngẫu nhiên nhỏ
nhất.
12

❖Bước 1: Tạo danh sách gồm 900 phần tử từ


1 đến 900 và lưu trong File Excel Chonmau
gồm 1 cột A với tiêu đề cột Tổng thể có 900
phần tử được đánh số từ 1 đến 900 ở địa
chỉ $A$1:$A$901.
❖Cách làm như sau:
➢ Nhập giá trị khởi đầu 1 vào ô A2.
➢ Từ menu chính, Home →File trong
khoang Editing →Series → xuất hiện
hộp thoai Series.
➢ Tại hộp thoại Series, Column→ Nhập
1 vào Step value và 900 vào ô Stop value
→ OK → xuất hiện kết quả.
13

❖Bước 2. Chọn ngẫu nhiên 30 phần tử bằng thủ tục


Sampling trong Data Analysis.
❖Cách thực hiện như sau:
➢ 2.1. Từ menu chính, Data Analysis→ Xuất hiện
màn hình Data Analysis.
14

❖2.2. Tại hộp thoại Data Analysis, Sampling →xuất hiện màn hình
Sampling.
❖2.3. Nhập những yêu cầu vào những ô thích hợp như trên Hình
sau.

❖2.4. OK để được kết quả.


❖2.5. Nhập tiêu đề cột mới là Mẫu, xem hình bên.
15

❖Hoặc cách đơn giản là sử dụng hàm RANDBETWEEN


➢ Cú pháp: RANDBETWEEN(bottom, top)
➢ Cú pháp hàm Hàm RANDBETWEEN có các đối số sau đây
✓ Bottom Required. Số nguyên nhỏ nhất mà RANDBETWEEN sẽ trả
về.
✓ Top Required. Số nguyên lớn nhất mà RANDBETWEEN sẽ trả về.
❖Như vậy, với ví dụ này, chúng ta dùng hàm RANDBETWEEN với cú
pháp RANDBETWEEN(1,900).

CHÚ Ý: Mỗi dòng, hàm này chỉ tạo ra một số nên cần tạo ra 30
dòng để tạo ra 30 số ngẫu nhiên.
16

❖Bước 1: Tạo danh sách gồm 900 phần tử từ 1 đến 900 và lưu trong
File SPSS Chonmau gồm 1 trường với những thuộc tính như sau:

❖Và nhập liệu như hình sau:


17

❖Bước 2. Chọn ngẫu nhiên 30 phần tử bằng thủ tục Select Cases.
➢ 2.1. Từ menu chính, Data > Select Cases… →Xuất hiện màn hình
Select Cases.
18

❖2.2. Tại màn hình Select Cases,


Random sample of
cases→xuất hiện màn hình
Select Cases: Random Sample.
❖2.3. Tại màn hình Select Cases:
Random Sample, nhập những
yêu cầu cụ thể như màn hình
bên →Continue để quay lại
màn hình Select Cases.
19

❖2.4. Tại màn hình Select Case,


OK và được kết quả. Khi đó
trên File Chonmau xuất hiện một
trường mới filter_$ và những ký
hiệu bỏ những Cases không
được chọn. Xem hình bên.
20

❖Bước 3. Xác định cases được


chọn thì dùng thủ tục
Summarize Cases cụ thể như
sau:
❖Từ màn hình chính, Analyze
→Reports → Case
Summeries…→ xuất hiện màn
hình Case Summeries.
❖Tại màn hình Case Summeries,
hãy nhập những yêu cầu thích
hơn như hình bên.
❖OK, kết quả những cases được
chọn sẽ hiện trên cửa sổ Output.
21

❖Đôi khi chúng ta muốn chọn một mẫu nhưng không thể lấy được
danh sách tất cả các phần tử trong tổng thể. Kết quả là, chúng ta
không thể xây dựng khung cho tổng thể.
❖Trong trường hợp tổng thể vô hạn, chúng ta phải chọn một mẫu
ngẫu nhiên để đưa ra các suy luận thống kê hợp lệ về tổng thể.
❖Một mẫu ngẫu nhiên từ một tổng thể vô hạn là một mẫu được
chọn sao cho các điều kiện sau được thỏa mãn.
➢ Mỗi yếu tố được chọn đến từ tổng thể quan tâm.
➢ Mỗi phần tử được chọn độc lập.
❖Một số ví dụ về các quá trình đang diễn ra với tổng thể vô hạn là:
➢ Giao dịch xảy ra tại ngân hàng
➢ Các cuộc điện thoại đến bàn trợ giúp kỹ thuật
➢ Khách hàng bước vào một cửa hàng
23

❖Ước lượng điểm là quá trình tìm giá trị gần đúng của một số tham
số của tổng thể từ các mẫu ngẫu nhiên của tổng thể.
❖Trong ước lượng điểm, chúng ta sử dụng dữ liệu từ mẫu để tính
giá trị của thống kê mẫu đóng vai trò là ước lượng của tham số.
➢ Trung bình mẫu (𝑥)ҧ là ước lượng điểm của trung bình tổng thể .
➢ Tỷ lệ mẫu (𝑝)ҧ là ước lượng điểm của tỷ lệ tổng thể .
➢ Phương sai mẫu (𝑠 2 ) là ước lượng điểm cho phương sai tổng thể
(2 )
➢ Độ lệch chuẩn mẫu là ước lượng điểm của độ lệch chuẩn tổng thể
.

xത
 pത
2 s2
 s
24

❖Trường cao đẳng AA đã nhận được 900 đơn đăng ký từ các sinh viên
tương lai. Mẫu đơn đăng ký chứa nhiều thông tin bao gồm điểm kiểm
tra năng lực học (SAT) của cá nhân và liệu cá nhân đó có mong muốn
nhà trọ trong khuôn viên trường hay không.
❖Bộ phận tuyển sinh muốn công bố điểm SAT trung bình và tỷ lệ ứng
viên muốn sống trong khuôn viên trường, với tổng số 900 ứng viên.
❖Dữ liệu về các ứng viên chưa được nhập
vào cơ sở dữ liệu của trường đại học.
Vì vậy, Giám đốc quyết định ước lượng
giá trị của các tham số tổng thể quan tâm
dựa trên số liệu thống kê mẫu. Một mẫu
gồm 30 ứng viên được chọn bằng các số
ngẫu nhiên do máy tính tạo ra.
25

❖𝑥ҧ là ước lượng điểm của trung bình tổng thể (𝜇)
σ 𝑥𝑖 50,520
➢ 𝑥lj = = = 1684
30 30
❖𝑝ҧ là ước lượng điểm của tỷ lệ tổng thể ()
20
➢ 𝑝lj = = .67
30
❖𝑠 2 là ước lượng điểm của phương sai tổng thể (𝜎 2 )
2 lj 2
σ(𝑥𝑖 −𝑥) 210512
➢𝑠 = = = 7259.03448
29 29
❖s là ước lượng điểm của độ lệch chuẩn tổng thể, 𝜎
lj 2
σ(𝑥𝑖 −𝑥) 210,512
➢𝑠 = = = 85.2
29 29

CHÚ Ý: Các số ngẫu nhiên khác nhau sẽ xác định một mẫu khác
dẫn đến các ước lượng điểm khác nhau.
26

❖Sau khi tất cả dữ liệu của 900 ứng viên được nhập vào cơ sở dữ
liệu của trường đại học, các giá trị của tham số tổng thể quan tâm
được tính toán.
➢ Trung bình tổng thể cho điểm SAT
σ 𝑥𝑖
✓𝜇 = = 1697
900
➢ Tỷ lệ tổng thể mong muốn có nhà ở trong khuôn viên trường
648
✓ = = .72
900
➢ Phương sai tổng thể cho điểm SAT
σ(𝑥𝑖 −𝜇)2
✓ 𝜎2 = = 7638.76
900
➢ Độ lệch chuẩn tổng thể cho điểm SAT
σ(𝑥𝑖 −𝜇)2
✓𝜎 = = 87.4
900
27

Giá trị Trị số ước


Số liệu tham Ước lượng lượng
tổng thể số điểm điểm
μ = Điểm SAT trung 1697 𝑥ҧ = Điểm SAT trung 1684
bình của tổng thể bình của mẫu
 = Tỷ lệ tổng thể 0.72 𝑝ҧ = Tỷ lệ mẫu muốn 0.67
muốn có nhà trọ trong có nhà trọ trong
khuôn viên trường khuôn viên trường
𝜎 2 = phương sai tổng 7638.76 s = Độ lệch chuẩn 7259.03448
thể cho điểm SAT mẫu
σ = độ lệch chuẩn cho 87.4 s = Độ lệch chuẩn 85.2
tổng thể điểm SAT mẫu cho điểm SAT
29

❖Phân phối chọn mẫu của một thống kê là phân phối xác suất được tạo
bằng cách lấy nhiều mẫu ngẫu nhiên có cùng kích thước nhất định từ
cùng một tổng thể. Những phân phối này giúp hiểu thống kê mẫu thay
đổi như thế nào từ mẫu này sang mẫu khác.
❖Phân phối chọn mẫu là điều cần thiết cho thống kê suy luận vì chúng
cho phép hiểu một thống kê mẫu cụ thể trong bối cảnh rộng hơn của
các giá trị có thể khác.
❖Xây dựng phân phối chọn mẫu
➢ 1. Từ một tổng thể hữu hạn cỡ N, rút ngẫu nhiên tất cả các mẫu có
thể có cỡ n. 18
16

➢ 2. Tính thống kê quan tâm cho từng mẫu. 12


14

10
➢ 3. Tạo phân phối tần số của thống kê. 8
6
4
2
0
50-60 60-70 70-80 80-90 90-100 100-110
30

❖Chúng ta sẽ nghiên cứu các loại phân phối chọn mẫu sau
➢ Phân phối của trung bình mẫu.
➢ Phân phối sự khác biệt giữa hai trung bình mẫu.
➢ Phân phối tỷ lệ mẫu.
➢ Phân phối của sự khác biệt giữa hai tỷ lệ mẫu.
➢ Phân phối mẫu của phương sai mẫu
➢ Phân phối mẫu của tỷ lệ hai phương sai mẫu độc lập
32

❖Phân phối chọn mẫu củaഥ𝑥 là phân phối xác suất của tất cả các giá
trị có thể có của trung bình mẫu 𝑥.ҧ
❖Giá trị kỳ vọng của 𝑥ҧ là
➢ E(𝑥)ҧ =
➢ Trong đó, = trung bình tổng thể
❖Khi giá trị kỳ vọng của ước lượng điểm bằng với tham số tổng thể,
chúng ta nói ước lượng điểm không chệch.
33

❖Chúng ta sẽ sử dụng ký hiệu sau để xác định độ lệch chuẩn của


phân phối chọn mẫu của 𝑥:ҧ
➢𝜎𝑥ҧ = sai số chuẩn của 𝑥ҧ
➢= độ lệch chuẩn của tổng thể
➢n = cỡ mẫu
➢N = quy mô tổng thể
34

❖Sai số chuẩn củaഥ𝑥, cho một tổng thể hữu hạn là


𝑁−𝑛 𝜎
➢ 𝜎𝑥lj = ( )
𝑁−1 𝑛

❖Sai số chuẩn củaഥ𝑥, cho một tổng thể vô hạn là


𝜎
➢ 𝜎𝑥lj =
𝑛
❖Một tổng thể hữu hạn được coi là vô hạn nếu n/N < 0.05
❖ (𝑁 − 𝑛)/(𝑁 − 1) là hệ số hiệu chỉnh tổng thể hữu hạn.
❖𝜎𝑥lj được gọi là sai số chuẩn của giá trị trung bình.
35

❖Khi tổng thể có phân phối chuẩn, phân phối chọn mẫu của 𝑥ҧ sẽ
phân phối chuẩn với bất kỳ cở mẫu.
❖Trong hầu hết các ứng dụng, phân phối chọn mẫu của 𝑥ҧ có thể
được xấp xỉ phân phối chuẩn bất cứ khi nào cở mẫu từ 30 trở
lên. Trong trường hợp tổng thể bị sai lệch nhiều hoặc có ngoại
lệ, có thể cần các mẫu cỡ 50.
❖Phân phối chọn mẫu của 𝑥ҧ có thể được sử dụng để cung cấp
thông tin xác suất về mức độ gần đúng của giá trị trung bình
mẫu 𝑥ҧ là đối với trung bình tổng thể μ.
36

❖BÀI TOÁN
➢ Xác suất mà một mẫu ngẫu Phân phối
nhiên đơn giản gồm 30 ứng chọn mẫu
viên sẽ đưa ra để ước lượng của 𝑥ҧ về điểm  87.4
số kỳ thi SAT x = = = 15.96
về điểm SAT trung bình của n 30
tổng thể nằm trong khoảng
±10 của trung bình tổng thể
thực tế μ?
➢ Nói cách khác, tính xác suất
mà 𝑥ҧ sẽ nằm trong khoảng từ x
1687 đến 1707? 𝐸(𝑥)
lj = 1697
37

LỜI GIẢI
❖Bước 1: Tính giá trị z tại điểm cuối trên của khoảng
➢ z = (1707 - 1697)/15.96= .63=0.6+0.03
❖Bước 2: Tìm diện tích dưới đường cong bên trái của điểm cuối
phía trên
➢ P(z  .63) = .7357 Phân phối mẫu của 𝑥ҧ
z .00 .01 .02 .03 .04 về điểm SAT
… … … … ... …
.5 .6915 .6950 .6985 .7019 .7054 𝜎𝑥lj = 15.96

.6 .7257 .7291 .7324 .7357 .7389


.7 .7580 .7611 .7642 .7673 .7704 Diện tích = .7357
.8 .7881 .7910 .7939 .7967 .7995 𝑥ҧ
1697 1707
.9 .8159 .8186 .8212 .8238 .8264
38

❖Bước 3: Tính giá trị z tại điểm Phân phối mẫu của 𝑥ҧ
cuối thấp hơn của khoảng. về điểm SAT
➢ z = (1687 - 1697)/15.96= - 𝜎𝑥lj = 15.96
.63
❖Bước 4: Tìm diện tích dưới
đường cong bên trái của điểm Diện tích = .2643
cuối phía dưới.
➢ P(z  -.63) = .2643 x
1687 1697

=NORM.S.DIST(-0.63;1)=0.264347
39

❖Bước 5: Tính diện tích dưới đường


cong giữa điểm cuối dưới và trên của Phân phối mẫu của 𝑥ҧ
khoảng về điểm SAT
➢ P(-.63  z  .63) = P(z  .63) - P(z 
-.63) = .7357 - .2643=0,4714  x = 15.96
❖Xác suất ước lượng điểm SAT trung Diện tích
bình của tổng thể sẽ nằm trong = .4714
khoảng từ 1687 đến 1707 là
➢ P(1687  𝑥ҧ  1707) = .4714
x
1687 1697 1707

CHÚ Ý: Trong Excel dùng hàm


NORM.S.DIST(0.63;1)=0.735653
40

❖ Mối quan hệ giữa cỡ mẫu và phân phối mẫu của


𝑥ҧ Với
Với n=30 n=100
➢ Giả sử chúng ta chọn một mẫu ngẫu nhiên 𝜎𝑥ҧ = 15,96 𝜎𝑥ҧ = 8,2
đơn giản gồm 100 ứng viên thay vì 30 người
được xem xét ban đầu.
➢ E(𝑥)ҧ = không phụ thuộc vào cỡ mẫu. Trong
ví dụ của chúng ta, E(𝑥)ҧ vẫn là 1697.
E( x ) = 1697
x
➢ Bất cứ khi nào cỡ mẫu tăng lên, sai số chuẩn
của giá trị trung bình 𝜎𝑥ҧ là giảm. Khi tăng cỡ
mẫu lên n = 100, sai số chuẩn của giá trị
trung bình giảm từ 15.96 xuống:
𝑁−𝑛 𝜎 900−100 87.4
➢ 𝜎𝑥lj = = =
𝑁−1 𝑛 900−1 100
.94333(8.74) = 8.2
41

❖Vì n = 30, P(1687 𝑥ҧ  1707) = .4714.


Sampling  x = 8.2
❖Chúng ta làm theo các bước tương tự distribution
để giải P(1687 𝑥ҧ 1707) khi n = 100 of 𝑥ҧ
Area = .7776
như chúng ta đã chỉ ra trước đó khi n for SAT
Scores
= 30.
❖Bây giờ, với n = 100, P(1687 𝑥ҧ 
1707) = .7776. x
1687 1697 1707
❖Do phân phối chọn mẫu với n = 100
có sai số chuẩn nhỏ hơn nên các giá
trị của𝑥ít
ҧ biến thiên hơn và có xu
hướng gần với trung bình tổng thể
hơn so với các giá trị của𝑥với
ҧ n=30.
43

❖Đặt 𝑋1 , 𝑋2 , … , 𝑋𝑛 là một tập hợp


Population
n biến ngẫu nhiên độc lập có Distribution
Values of x Values of x Values of x
phân phối giống nhau với giá trị
kỳ vọng 𝜇, phương sai xác định Sampling
Distribution

𝜎2. ഥ
of 𝒙
(n = 2)
Values of xത Values of xത Values of xത
1 𝑛
❖ 𝑋᪄ = σ 𝑋 là trung bình mẫu
𝑛 𝑖=1 𝑖 Sampling
Distributio
của các biến ngẫu nhiên này. n of 𝒙

(n = 5)
Values of xത Values of xത Values of xത
❖Khi 𝑛 càng lớn, theo định lý giới
hạn trung tâm thì
Sampling
𝜎2
➢ 𝑋᪄ ~N(𝜇,
Distributio
) n of 𝒙
ഥ (n =
𝑛 30)

❖Khi đó:
Values of xത Values of xത Values of xത

𝑋−𝜇
➢𝑧 = ~ N(0,1).
𝜎𝑋᪄
45

❖Cho hai tổng thể


Tổng thể Kích thước Trung bình Phương sai
Tổng thể 1 𝑁1 𝜇1 𝜎12
Tổng thể 2 𝑁2 𝜇2 𝜎22

❖Sự khác biệt giữa hai trung bình tổng thể là 𝜇1 − 𝜇2 .


❖Cho hai mẫu
Mẫu Kích thước Trung bình
Mẫu 1 n1 𝑥ҧ1
Mẫu 2 n2 𝑥ҧ2

❖Ước lượng điểm của 𝜇1 −𝜇2 là 𝑥᪄1 − 𝑥᪄2 .


46

❖Các đại lượng đặc trưng của phân phối chọn mẫu của sự khác biệt giữa
hai trung bình khi các mẫu được chọn ngẫu nhiên từ hai tổng thể độc lập.
➢ Giá trị kỳ vọng
✓ 𝐸 𝑥᪄1 − 𝑥᪄2 = 𝜇1 − 𝜇2
➢ Độ lệch chuẩn
𝜎 21 𝜎 22
✓ 𝜎𝑥᪄1 −𝑥᪄2 = +
𝑛1 𝑛2

❖Vì 𝑥᪄1 và ᪄𝑥2 là các biến ngẫu nhiên độc lập nên
𝜎21 𝜎22
➢ 𝜎𝑥2᪄1−𝑥᪄2 = +
𝑛1 𝑛2

❖Nếu 𝑥᪄1 và 𝑥᪄2 là trung bình của hai mẫu được lấy từ hai tổng thể lớn và
độc lập, phân phối chọn mẫu của sự khác biệt giữa hai trung bình SẼ
PHÂN PHỐI CHUẨN.
47

CHÚ Ý: Cần lưu ý rằng khi việc chọn mẫu được thực hiện mà
không lặp và tổng thể là hữu hạn, thì công thức sau đây được sử
dụng để tính toán sai số chuẩn:
𝜎21 𝜎22 𝑁−𝑛
➢ 𝜎𝑥᪄1−𝑥᪄2 = + ×
𝑛1 𝑛2 𝑁−1

➢ Một tổng thể hữu hạn được coi là vô hạn nếu n/N < 0.05
➢ (𝑁 − 𝑛)/(𝑁 − 1) là hệ số hiệu chỉnh tổng thể hữu hạn.
49

❖Phân phối chọn mẫu của 𝑝ҧ là phân phối xác suất của tất cả các
giá trị có thể có của tỷ lệ mẫu 𝑝.ҧ
➢E(𝑝)=
ҧ với = tỷ lệ tổng thể
➢Độ lệch chuẩn của 𝑝ҧ
✓ Tổng thể hữu hạn
𝑁−𝑛 𝑝(1−𝑝)
▪ 𝜎𝑝lj =
𝑁−1 𝑛

✓ Tổng thể vô hạn


𝑝(1−𝑝)
▪ 𝜎𝑝lj =
𝑛

➢Trong đó, 𝜎𝑝ҧ được gọi là sai số chuẩn của tỷ lệ và


(𝑁 − 𝑛)/(𝑁 − 1) là hệ số hiệu chỉnh tổng thể hữu hạn.
50

❖Phân phối chọn mẫu của ഥ𝑝 có thể xấp xỉ phân phối chuẩn bất cứ
khi nào cỡ mẫu đủ lớn thỏa mãn hai điều kiện:
➢ np5 và n(1-p) 5.
❖Khi các điều kiện này được thỏa mãn, phân phối xác suất của x
trong mẫu tỷ lệ, ഥ𝑝= x/n, có thể xấp xỉ theo phân phối chuẩn (và vì n
là hằng số).
51

❖BÀI TOÁN
➢ Biết rằng 72% sinh viên tương lai đăng ký vào Cao đẳng AA mong
muốn có nhà ở trong khuôn viên trường.
➢ Xác suất mà một mẫu ngẫu nhiên đơn giản gồm 30 người nộp đơn
sẽ đưa ra ước lượng về tỷ lệ tổng thể của sinh viên nộp đơn mong
muốn có nhà ở trong khuôn viên trường nằm trong khoảng cộng
hoặc trừ 0.05 tỷ lệ tổng thể thực tế là bao nhiêu?
52

LỜI GIẢI
❖Theo bài toán thì n = 30 và p = 0.72. Khi đó:
np = 30(.72) = 21.65 và n(1 - p) = 30(.28) = 8.45
❖Vậy: phân phối mẫu có thể xấp xỉ phân phối chuẩn.

Phân phối mẫu của 𝑝ҧ

.72(1 − .72)
𝜎𝑝lj = = .082
30

pത
𝐸(𝑝)lj = .72
53

❖Bước 1: Tính giá trị z tại điểm cuối trên của khoảng
➢ z = (.77 - .72)/.082 = .61=0.6+0.01 (Tách ra để tra bảng)
❖Bước 2: Tìm diện tích dưới đường cong bên trái của điểm cuối
phía trên
➢ P(z  .61) = .7291 Phân phối
z .00 .01 .02 .03 .04 mẫu của 𝑝ҧ
… … … … … …
 p = .082
.5 .6915 .6950 .6985 .7019 .7054
.6 .7257 .7291 .7324 .7387 .7389
.7 .7580 .7611 .7642 .7673 .7704
Diện tích
.8 .7881 .7910 .7939 .7967 .7995
= .7291
.9 .8159 .8186 .8212 .8238 .8264
𝑝ҧ
… … … … … … .72 .77
54

❖Bước 3: Tính giá trị z tại điểm cuối Phân phối


thấp hơn của khoảng mẫu của 𝑝ҧ

➢ z = (.67 - .72)/.082 = -
.61=0.6+0.01 Diện tích  p = .082
= .2709
❖Bước 4: Tìm diện tích dưới đường
cong bên trái của điểm cuối phía dưới
➢ P(z  -.61) = .2709
𝑝ҧ
.67 .72
55

Xác suất ước lượng tỷ lệ tổng thể của những Phân phối
sinh viên nộp đơn mong muốn có nhà ở mẫu của 𝑝ҧ
trong khuôn viên trường nằm trong phạm vi
±0,05 so với tỷ lệ tổng thể thực tế.  x = 8.2
❖Bước 5: Tính diện tích dưới đường cong
giữa điểm cuối dưới và trên của khoảng
Diện tích
➢ P(-.61  z  .61) = P(z  .61) - P(z  -.61) = .4582
= .7291 - .2709 = .4582
𝑝ҧ
Xác suất mà tỷ lệ mẫu của những người nộp .67 .72 .77

đơn muốn có nhà ở trong khuôn viên trường


sẽ nằm trong khoảng +/-.05 so với tỷ lệ tổng
thể thực tế
➢ P(.67  𝑝ҧ  .77) = .4582
57

❖Các mẫu ngẫu nhiên độc lập có kích thước 𝑛1 và 𝑛2 được rút ra
từ hai tổng thể trong đó tỷ lệ các quan sát có đặc điểm quan tâm
tương ứng là 𝜋1 và 𝜋2 .
➢Giá trị trung bình của (𝑝1ҧ − 𝑝2ҧ ) là
✓ 𝐸 𝑝1ҧ − 𝑝2ҧ = 𝜋1 − 𝜋2
➢Sai số chuẩn của ഥ𝑝1 − 𝑝2ҧ là
𝜋1 1−𝜋1 𝜋2 1−𝜋2
✓ 𝜎𝑝1ҧ −𝑝ҧ2 = +
𝑛1 𝑛2

✓ Trong đó
▪ 𝜋1 và 𝜋2 tương ứng là tỷ lệ tổng thể 1 và 2
▪ 𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
58

❖Nếu cỡ mẫu lớn thì việc chọn mẫu phân phối


➢ 𝑝1ҧ − 𝑝ҧ2 có thể xấp xỉ bằng phân phối xác suất chuẩn.
❖Cỡ mẫu đủ lớn nếu đáp ứng tất cả các điều kiện sau
➢ 𝑛1 𝑝1 ≥ 5 và 𝑛1 (1 − 𝑝1 ) ≥5
➢ 𝑛2 𝑝2 ≥ 5 và 𝑛2 (1 − 𝑝2 ) ≥ 5
❖Phân phối chọn mẫu của 𝑝1ҧ −𝑝ҧ2 xấp xỉ chuẩn miễn là tỷ lệ không
quá gần 1 hoặc 0 và cỡ mẫu không quá nhỏ.
❖Quy tắc thực hành (A rule of thumb)(1)
➢ Nếu 𝑛1 và 𝑛2 đều ít nhất là 10 và tỷ lệ không quá gần 0 hoặc 1 thì
phép tính gần đúng phù hợp với hầu hết các mục đích.
➢ Quy tắc thực hành khác là phép tính gần đúng là tốt nếu cả hai 𝑁𝜋
và 𝑁(1 −𝜋) đều lớn hơn 10 cho cả hai 𝜋1 và 𝜋2 .
59

❖Giá trị z cho sự khác biệt giữa hai tỷ lệ được cho bởi công thức
𝑝lj1 −𝑝lj2 −(𝜋1 −𝜋2 )
➢𝑧 = 𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
𝑛1
+ 𝑛
2

BÀI TOÁN
➢ Ở một khu vực nhất định của một thành phố lớn, người ta đưa ra
giả thuyết rằng 40% số ngôi nhà ở trong tình trạng xấu. Một mẫu
ngẫu nhiên gồm 75 ngôi nhà từ khu vực này và 90 ngôi nhà từ khu
vực khác có sự khác biệt, 𝑝1ҧ − 𝑝2ҧ = 0.09.
➢ Nếu không có sự khác biệt giữa hai khu vực về tỷ lệ nhà xấu, xác
suất quan sát thấy sự khác biệt bằng hoặc lớn hơn mức này là bao
nhiêu?
➢ P(z  1.17)= 0.8790 , P(z  2.3) = 0.9893, P(z  0.96)= 0.8315.
60

LỜI GIẢI
❖1. Thông tin cho trước
➢ 𝑛1 = 75; 1 = 0.40; 𝑛2 = 90, 2 = 0.40; ഥ𝑝1 − 𝑝2ҧ = 0.09
➢ Tìm P(𝑝1ҧ − 𝑝ҧ2 ≥ 0.09)?
❖2. Tìm giá trị z
𝑝lj 1 −𝑝lj 2 −(𝜋1 −𝜋2 ) 0.09−(0.04−0.04)
➢𝑧 = 𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
= = 1.17
0.4 (1−0.6) 0.4 (10.6)
𝑛1
+ 𝑛 + 90
2 75

❖3. Tìm các giá trị thích hợp trong bảng giá trị z = 1.17 cho diện tích
là 0.8790 được trừ đi 1 để cho xác suất P (z ≥ 1.17) = 0.121.
❖4. Trả lời
➢ Xác suất quan sát thấy sự khác biệt bằng hoặc lớn hơn 0.09 là
0.121.
62

❖Đặt 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 là một mẫu ngẫu nhiên từ tổng thể.


1
❖Phương sai mẫu là: 𝑠2 = σ𝑛𝑖=1(𝑥𝑖 lj 2
− 𝑥)
𝑛−1
1
❖Độ lệch chuẩn mẫu: 𝑠 = σ𝑛𝑖=1(𝑥𝑖 lj 2
− 𝑥)
𝑛−1

❖Phân phối chọn mẫu của 𝑠 2 có kỳ vọng 𝜎 2 : 𝐸(𝑠 2 ) = 𝜎 2


❖Nếu phân phối tổng thể là chuẩn, thì
2 2σ4
➢Var(𝑠 ) =
𝑛−1
❖Nếu phân phối tổng thể là chuẩn thì
(n−1)𝑠 2
2
➢𝜒 𝑛−1 = có phân phối 2 với bậc tự do là n – 1
𝜎2
63

❖Phân phối Chi-square là một họ các phân phối, phụ thuộc vào bậc
tự do df=n-1

0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2

df = 1 df = 5 df = 15
64

df 0.100 0.050 0.025 0.010 0.005


1 2.706 3.841 5.024 6.635 7.879
2 4.605 5.991 7.378 9.210 10.597
3 6.251 7.815 9.348 11.345 12.838
4 7.779 9.488 11.143 13.277 14.860 Xác suất α= 0.05
5 9.236 11.070 12.833 15.086 16.750
6 10.645 12.592 14.449 16.812 18.548
7 12.017 14.067 16.013 18.475 20.278
2
8 13.362 15.507 17.535 20.090 21.955
9 14.684 16.919 19.023 21.666 23.589
10 15.987 18.307 20.483 23.209 25.188
11 17.275 19.675 21.920 24.725 26.757 2.05 13 = 22.36
12 18.549 21.026 23.337 26.217 28.300
13 19.812 22.362 24.736 27.688 29.819
14 21.064 23.685 26.119 29.141 31.319
15 22.307 24.996 27.488 30.578 32.801
16 23.542 26.296 28.845 32.000 34.267
17 24.769 27.587 30.191 33.409 35.718
... ... ... ... ... ...
66

❖Phân phối chọn mẫu của tỷ lệ 2 phương sai mẫu là phân phối xác suất
của tỷ lệ của hai phương sai mẫu thu được bằng cách rút ra tất cả các
mẫu có thể từ cả hai tổng thể.
❖Giả sử một mẫu có kích thước 𝑛1 với phương sai mẫu 𝑠12 được chọn từ
tổng thể 1 và một mẫu có kích thước 𝑛2 với phương sai mẫu 𝑠22 được
chọn từ tổng thể 2, nơi các tổng thể độc lập và phân phối chuẩn.
❖Nếu 𝑠12 và 𝑠22 là hai ước lượng không chệch của phương sai tổng thể
𝜎 2 thu được từ các mẫu độc lập có kích thước tương ứng là 𝑛1 và 𝑛2 từ
cùng một tổng thể có phân phối chuẩn, thì tỷ lệ F được định nghĩa là
𝑠2
1ൗ
𝑠12 𝑛1 −1 𝑛1 −1
𝜎2
➢𝐹 = = 𝑠2
𝑠22 2ൗ
𝑛2 −1 𝑛2 −1
𝜎2
67

𝑠12 𝑠22
❖Vì 𝜒1 = 𝑛1 − 1 2 và 𝜒2 = 𝑛2 − 1 2 tuân theo phân phối
2 2
𝜎 𝜎
𝜒 2 độc lập với bậc tự do tương ứng là df1 = 𝑛1 − 1 và df2 = 𝑛2
− 1, chúng ta có:
𝜒12 Τ(n1 −1)
➢𝐹 = ~F n1−1, n2−1
𝜒22 Τ(n2 −1)
S21
➢F = ∼F n1 −1, n2 −1
S22

❖Do đó, phân phối chọn mẫu của tỷ lệ phương sai mẫu tuân theo
phân phối F với bậc tự do n1 − 1, n2 − 1 .
Chương 05
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định được thế nào là suy luận thống kê
➢Xác định được thế nào là giả thuyết thống kê và qui trình kiểm
định giả thuyết cho từng loại giả thuyết,
➢Xác định được thế nào là khoảng tin cậy và cách xác định
khoảng tin cậy cho từng tham số
➢Xác định những tình huống ứng dụng cho
từng loại suy luận thống kê
➢Thực hiện thành thạo những thủ tục trong
SPSS phù hợp cho từng loại giả thuyết
và đọc được kết quả kết xuất
3

❖Suy luận thống kê là qui trình phân tích kết quả và đưa ra kết luận về
một số đặc trưng của tổng thể từ dữ liệu mẫu. Nó còn được gọi là
thống kê suy luận (inferential statistics).
❖Suy luận thống kê, thường gồm hai loại sau:
➢ Kiểm định giả thuyết (Hypothesis Testing)
✓ Là một phương pháp thống kê suy luận, dùng để đưa ra quyết định về
tính đúng đắn của một giả định hoặc một phát biểu.
➢ Ước lượng tham số (Parameter estimation)
✓ Ước lượng tham số là xác định giá trị gần đúng của một tham số trong
tổng thể dựa trên dữ liệu mẫu có sẵn.
✓ Ước lượng tham số trong thống kê, bao gồm ước lượng điểm và ước
lượng khoảng. Ước lượng điểm dùng để tính toán một con số cụ thể cho
ước lượng tham số, trong khi ước lượng khoảng xác định một khoảng
giá trị có thể chứa giá trị tham số với một trình độ tin cậy xác định.
4

❖Giả thuyết là một giả định được thực hiện dựa trên một số bằng
chứng.
❖Giả thuyết thống kê là giả thuyết có thể được xác minh là hợp lý dựa
trên cơ sở thống kê. Giả thuyết thống kê là một tuyên bố về bản chất
của các tham số tổng thể, phân phối xác suất tổng thể, hoặc tính độc
lập của các biến.
❖Kiểm định giả thuyết là một hình thức suy luận thống kê sử dụng dữ
liệu từ mẫu để rút ra kết luận về tham số tổng thể, phân phối xác suất
tổng thể, hoặc tính độc lập của các biến.
❖Các giả thuyết KHÔNG (The null hypothesis), ký hiệu là H0 , là một giả
định dự kiến ​về một tham số tổng thể hoặc phân phối xác suất tổng
thể, hoặc tính độc lập của các biến.
❖Giả thuyết thay thế/Đối thuyết (The alternative hypothesis), ký hiệu
là H1 (Ha ), ngược lại với những gì được nêu trong giả thuyết KHÔNG.
5

❖Trong kiểm định ý nghĩa thống kê, gồm kiểm


định một bên/phía và kiểm định hai bên/phía
để tính toán ý nghĩa thống kê của một tham số Two-tailed α Accept
được suy ra từ tập dữ liệu, theo thống kê kiểm Reject Reject
định: 0

➢ Kiểm định hai bên phù hợp nếu giá trị ước
lượng lớn hơn hoặc nhỏ hơn một phạm vi giá Left-tailed α Accept
trị nhất định. Reject
0
➢ Kiểm định một bên phù hợp nếu giá trị ước
lượng có thể lệch khỏi giá trị tham số chỉ theo
một hướng, trái hoặc phải, chứ không phải cả
hai. Right-tailed α Accept
Reject
0
6

❖Sai lầm loại I là bác bỏ H0 khi nó là đúng


➢Xác suất sai lầm loại I khi giả thuyết KHÔNG đúng được gọi là
mức có ý nghĩa (Ký hiệu ).
➢Các ứng dụng kiểm định giả thuyết kiểm soát sai lầm loại I
thường được gọi là có KIỂM ĐỊNH Ý NGHĨA.
❖Sai lầm loại II là chấp nhận H0 khi nó sai
➢Xác suất mắc sai lầm loại II được gọi là lực của kiểm định (Ký
hiệu ).
➢Khó kiểm soát xác suất mắc sai lầm loại II.
➢Các nhà thống kê tránh rủi ro khi thực hiện sai lầm loại II bằng
cách sử dụng “không bác bỏ H0 ” thay vì “chấp nhận H0 ”.
7

Population Condition

𝑯𝟎 True 𝑯𝟎 False
Conclusion

Correct
Accept 𝑯𝟎 Type II Error
Decision

Correct
Reject 𝑯𝟎 Type I Error Decision
8

❖Quyết định kiểm định giả thuyết: Quyết định được xây dựng nhằm
bác bỏ hoặc không bác bỏ giả thuyết KHÔNG trên cơ sở bằng
chứng mẫu.
❖Mức ý nghĩa (Significance level): Xác suất bác bỏ giả thuyết
KHÔNG đúng.
❖Lực kiểm định (Power): Xác suất bác bỏ giả thuyết KHÔNG sai.
❖Thống kê kiểm định (Test statistic): Một hàm của dữ liệu mẫu.
❖Vùng tới hạn (Critical region): Nếu giá trị của thống kê kiểm định
rơi vào vùng này, thì giả thuyết KHÔNG bị bác bỏ.
❖Hai cách tiếp cận để kiểm định giả thuyết:
➢ Tiếp cận giá trị tới hạn (Critical value approach)
➢ Tiếp cận giá trị xác suất (p-value approach)
9
So sánh giá trị thống kê kiểm
Xây dựng cặp giả Tính thống định và giá trị tới hạn để quyết
thuyết kê kiểm định định bác bỏ 𝐻0 hay không

① ② ③ ④ ⑤ ⑥

Chọn Sử dụng thống Giải thích kết luận


mức ý kê kiểm định thống kê trong ngữ
nghĩa α để tính giá trị cảnh của ứng dụng.
tới hạn
10
So sánh mức ý nghĩa α và p-
Xây dựng cặp giả Tính thống value để quyết định bác bỏ 𝐻0
thuyết kê kiểm định hay không

① ② ③ ④ ⑤ ⑥

Chọn Sử dụng thống Giải thích kết luận


mức ý kê kiểm định để thống kê trong ngữ
nghĩa α tính p-value cảnh của ứng dụng.
11

❖Trong thống kê, ước lượng là xác định giá trị gần đúng một tham số
trong tổng thể dựa trên dữ liệu mẫu. Tham số có thể là trung bình, tỷ
lệ, phương sai, hay bất kỳ một đặc điểm nào khác của tổng thể.
❖Ước lượng gồm có ước lượng điểm và ước lượng khoảng
➢ Ước lượng điểm (point estimator): Được dùng để xác định một giá trị
cụ thể của một tham số trong tổng thể
➢ Ước lượng khoảng (interval estimator): Được dùng để xác định một
khoảng giá trị có thể chứa giá trị tham số trong tổng thể với một trình
độ tin cậy xác định trước.
❖Ước lượng khoảng được tính bằng cách cộng và trừ biên độ sai số cho
ước lượng điểm
➢ Ước lượng điểm +/- biên độ sai số
❖Mục đích của ước lượng khoảng là cung cấp thông tin về mức độ gần
của ước lượng điểm với giá trị của tham số.
12

❖Ước lượng không chệch (Unbiased Estimator)


➢ Ước lượng điểm θ được gọi là ước lượng
không chệch của tham số tổng thể θ nếu giá trị
𝜃ƶ1 𝜃ƶ2
kỳ vọng của nó bằng tham số đó; đó là, nếu
ƶ =𝜃
✓ 𝐸(𝜃)
✓ Khi đó 𝜃ƶ là ước lượng không chệch của 𝜃. 𝜃 𝜃ƶ

❖Ước lượng chệch (Biased Estimator) Hàm mật độ xác suất cho
➢ Cho θ là một ước lượng của θ. Độ chệch của θ ước lượng không chệch 𝜃ƶ1
được định nghĩa là sự khác biệt giữa giá trị kỳ và ước lượng chệch 𝜃ƶ2
vọng của nó và θ:
ƶ −𝜃
✓ bias(𝜃) = 𝐸(𝜃)
➢ Theo đó, độ chệch của một ước lượng không
chệch là 0.
13

❖Hiệu quả nhất (Most Efficient)


➢Trong số những ước lượng không chệch của một tham số, thì
ước lượng không chệch với phương sai nhỏ nhất được gọi là
ước lượng hiệu quả nhất hoặc ước lượng không chệch phương
sai tối thiểu.
➢Đặt θƶ 1 và θƶ 2 là hai ước lượng không chệnh của θ, dựa trên cùng
một số lượng quan sát mẫu, thì 𝜃ƶ1 được cho là hiệu quả hơn θƶ 2
nếu Var θƶ 1 < Var θƶ 2 .

Tham số tổng thể Ước lượng điểm Tính chất


Trung bình, 𝜇 ഥ
X Không chệch, hiệu quả nhất
Tỷ lệ,  pത Không chệch, hiệu quả nhất
Phương sai, 𝜎 2 s2 Không chệch, hiệu quả nhất
14

Suy luận về
trung bình và
tỷ lệ hai
Suy luận về tổng thể
trung bình và Suy luận về
phương sai
tỷ lệ một
tổng thể
tổng thể 5.2

5.1 5.3
Inference about means and
proportions with two
populations
Inference about a Inferences about
population mean and population variances
proportion
5.1
16

❖Hai loại suy luận thống kê là gì? (What are the two types of statistical
inference?)

Chọn một mẫu ngẫu


nhiên đơn giản gồm n
Trung bình tổng thể
phần tử từ tổng thể.
m=?

Giá trị của 𝑥ҧ được sử Dữ liệu mẫu cung cấp


dụng để đưa ra suy luận giá trị cho giá trị
về giá trị của m. trung bình mẫu 𝑥.ҧ

➢ Kiểm định giả thuyết (Hypothesis testing)


➢ Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval: CI)
5.1.1a
18

❖Đặt µ là trung bình tổng thể và µ0 là giá trị giả định dựa trên
một số thông tin.
❖Kiểm định về một trung bình tổng thể bao gồm các loại sau:
➢Kiểm định hai bên
✓ 𝐻0 : µ= µ0 và 𝐻1 : µ  µ0
➢Kiểm định bên trái (Kiểm định phía trái)
✓ 𝐻0 : µ  µ0 và 𝐻1 : µ<µ0
➢Kiểm định bên phải (Kiểm định phía phải)
✓ 𝐻0 : µ µ0 và 𝐻1 : µ >µ0
❖Thủ tục kiểm định
➢Tùy theo điều kiện biết trước, thủ tục kiểm định được sử dụng
có khác nhau
19

Tiếp cận giá trị


Phương sai tổng tới hạn
Dùng kiểm định z
thể đã biết
Tiếp cận p-value

Kiểm định giả thuyết về Tiếp cận giá trị


một trung bình tổng thể Mẫu lớn: tới hạn
Dùng kiểm định z
Tiếp cận p-value
Phương sai tổng
thể chưa biết Tiếp cận giá trị
Mẫu nhỏ: tới hạn
Dùng kiểm định t
Tiếp cận p-value
20

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 : µ = µ0 và H1 : µ < µ0
H0 : µ = µ0 và H1 : µ ≠ µ0
Bên phải: H0 : µ = µ0 và H1 : µ > µ0
2 Chọn mức ý nghĩa α

3 Tính thống kê kiểm định: z = (തx − μ0 )( )−1
n

4 Sử dụng thống kê kiểm định z để xác định p-value phù hợp


So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
21

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 : µ = µ0 và H1 : µ < µ0
H0 : µ = µ0 và H1 : µ ≠ µ0
Bên phải: H0 : µ = µ0 và H1 : µ > µ0
2 Chọn mức ý nghĩa α

3 Tính thống kê kiểm định: z = (തx − μ0 )( )−1
n
Sử dụng mức ý nghĩa  và bảng phân phối z để tính giá trị tới hạn phù
4
hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0
5
hay không
Bên trái: Bác bỏ H0 nếu z -𝑧
Bác bỏ H0 nếu z𝑧/2
Bên phải: Bác bỏ H0 nếu z  𝑧
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
22

❖Thống kê kiểm định 𝑧 có phân phối chuẩn chuẩn hóa.


❖Sử dụng bảng phân phối chuẩn chuẩn hóa để tìm giá trị 𝑧𝛼
❖Căn cứ vào thông tin mẫu, tính giá trị của thống kê kiểm định z.
❖Quy tắc bác bỏ: So sánh hai giá trị tới hạn và giá trị thống kê
kiểm định để ra quyết định, cụ thể:
➢Kiểm định bên trái: Bác bỏ H0 nếu 𝑧 ≤–𝑧𝛼
➢Kiểm định bên phải: Bác bỏ H0 nếu 𝑧 ≥ 𝑧𝛼
23

BÀI TOÁN
➢Một công ty dịch vụ EMS cung cấp những dịch vụ y tế khẩn cấp
toàn diện. Hoạt động trong một hệ thống nhiều bệnh viện với
khoảng 20 đơn vị y tế lưu động, mục tiêu dịch vụ là đáp ứng các
trường hợp khẩn cấp y tế với thời gian trung bình từ 12 phút
trở xuống.
➢Thu thập một mẫu ngẫu nhiên gồm 40 trường hợp cấp cứu y tế
đã được thực hiện. Giá trị trung bình của mẫu là 13.25 phút. Độ
lệch chuẩn tổng thể được cho là 3.2phút.
➢Các giám đốc EMS muốn thực hiện kiểm định giả thuyết, với
mức ý nghĩa 0.05, để xác định xem mục tiêu dịch vụ từ 12 phút
trở xuống có đạt được hay không.
24

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : m  12 Dịch vụ khẩn cấp đáp ứng được mục tiêu
➢và 𝐻1 : m > 12 Dịch vụ khẩn cấp không đáp ứng được mục tiêu
❖2. Chọn mức ý nghĩa α= 0.05
❖3. Tính thống kê kiểm định
lj
𝑥−𝜇 13.25−12
➢𝑧 = = = 2.47
𝜎/ 𝑛 3.2/ 40
TIẾP CẬN p – value
❖4a. Tính p –value
➢Vì z = 2.47, p-value=1-NORMSDIST(2.47)=0.00676.
❖ 5a. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢Vì p-value = 0.0068 ≤α= 0.05, chúng ta bác bỏ 𝐻0 .
25

TIẾP CẬN giá trị tới hạn


❖4b. Xác định giá trị tới hạn
➢= 0.05, 𝑧.05 = critical value=NORM.S.INV(0.05)= 1.645
❖5b. Quyết định xem có nên bác bỏ H0 hay không.
➢So sánh giá trị tới hạn và thống kê kiểm định, kết quả 2.47 >
1.645 → bác bỏ H0 .
❖6. Kết luận
➢Có đủ bằng chứng thống kê để kết luận rằng EMS không đáp
ứng mục tiêu là từ 12 phút trở xuống.
26

BÀI TOÁN
➢Dây chuyền sản xuất kem đánh răng Glow được thiết kế để đổ
đầy các ống có trọng lượng trung bình là 6 oz. Định kỳ sẽ chọn
mẫu 30 ống để kiểm định qui trình chiết rót.
➢Các quy trình đảm bảo chất lượng đòi hỏi phải tiếp tục quy
trình chiết rót nếu kết quả mẫu phù hợp với giả định rằng trọng
lượng trung bình của các tuýp kem đánh răng là 6oz nếu không
quy trình sẽ được điều chỉnh.
➢Giả sử rằng một mẫu gồm 30 ống kem đánh răng cung cấp giá
trị trung bình của mẫu là 6.1oz. Độ lệch chuẩn tổng thể được
cho là 0.2oz.
➢Thực hiện kiểm định giả thuyết, ở mức ý nghĩa 0.03, để giúp xác
định liệu quy trình chiết rót nên tiếp tục hoạt động hay dừng lại
và khắc phục.
27

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : m=6
➢𝐻1 : m6
❖2. Chọn mức ý nghĩa α= 0.03
❖3. Tính thống kê kiểm định
lj 0
𝑥−𝜇 6.1−6
➢𝑧 = = = 2.74
𝜎/ 𝑛 .2/ 30
TIẾP CẬN p – value
❖4a. Tính p-value
➢Vì z = 2.74, p-value=1-NORMSDIST(2.74)=0.003071959
❖5a. Quyết định có nên bác bỏ 𝐻0 hay không
➢Vì p-value = 0.003071959 < α/2 = 0.015, chúng ta bác bỏ 𝐻0 .
28

TIẾP CẬN giá trị tới hạn


❖4b. Xác định giá trị tới hạn
➢Vì là kiểm định hai bên nên mức ý nghĩa sẽ là /2 = .03/2 = .015
➢Giá trị tới hạn =NORM.S.INV(0.015)= 2.170090378
❖5b. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢Vì |z|= 2.74 > Giá trị tới hạn =2.17, chúng ta bác bỏ 𝐻0 .
❖6. Kết luận
➢Có đủ bằng chứng thống kê để suy luận rằng trọng lượng làm
đầy trung bình không phải là 6 ounce.
29

❖Chọn một mẫu ngẫu nhiên từ tổng thể và sử dụng giá trị của trung
bình mẫu 𝑥ҧ để xây dựng khoảng tin cậy cho trung bình tổng thể, μ.
❖Nếu khoảng tin cậy chứa giá trị cho trước 𝜇0 thì không bác bỏ 𝐻0 .
Ngược lại, bác bỏ 𝐻0 .
❖Chú ý: 𝐻0 nên bị bác bỏ nếu 𝜇0 bằng với một trong các điểm cuối của
khoảng tin cậy.

❖VÍ DỤ
❖Khoảng tin cậy đối xứng 97% của μ là
𝜎 .2
➢ 𝑥lj ± 𝑧𝛼/2 = 6.1 ± 2.17 = 6.1 ± .07924
𝑛 30
➢ hoặc từ 6.02076 đến 6.17924
❖Bởi vì giá trị giả định cho tổng thể trung bình, 𝜇0 = 6, không nằm trong
khoảng này, kết luận là giả thuyết 𝐻0 : μ= 6, bị bác bỏ.
30

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 : µ = µ0 và H1 : µ < µ0
H0 : µ = µ0 và H1 : µ ≠ µ0
Bên phải: H0 : µ = µ0 và H1 : µ > µ0
2 Chọn mức ý nghĩa α
lj 0
𝑥−𝜇
3 Tính thống kê kiểm định: t =
s/ 𝑛

4 Sử dụng thống kê kiểm định t và bậc tự do n-1 để tính p-value


So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
31

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: 𝐻0 : µ = µ0 và 𝐻1 : µ < µ0
𝐻0 : µ = µ0 và 𝐻1 : µ ≠ µ0
Bên phải: 𝐻0 : µ = µ0 và 𝐻1 : µ > µ0
2 Chọn mức ý nghĩa α
lj 0
𝑥−𝜇
3 Tính thống kê kiểm định: t =
𝑠/ 𝑛
Sử dụng mức ý nghĩa , bậc tự do n-1 và bảng phân phối t để tính giá trị
4
tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để xem bác bỏ H0 hay
không
5 Bên trái: Bác bỏ H0 nếu t ≤ −t(n-1)
Bác bỏ H0 nếu tt/2(n-1)
Bên phải: Bác bỏ H0 nếu t ≥ t  (n-1)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
32

❖T.INV.2T: Trả về nghịch đảo hai bên của phân phối t (Student's t-
distribution)
➢ Syntax: T.INV.2T(probability,deg_freedom)
➢ Chú ý
✓ T.INV.2T trả về giá trị t, sao cho P(|X|  t) = probability trong đó X là một t
biến ngẫu nhiên theo phân phối t và P(| X|  t) = P(X  -t hoặc X  t).
✓ Giá trị t một bên có thể được trả về bằng cách thay thế xác suất bằng
2*probability.
❖T.INV: Trả về nghịch đảo bên trái của phân phối t Student.
➢ Syntax: T.INV(probability,deg_freedom)
❖Cú pháp hàm T.INV.2T và T.INV có vài đối số sau:
➢ Probability: Bắt buộc. Xác suất liên quan đến phân phối t Student.
➢ Deg_freedom: Bắt buộc. Bậc tự do để mô tả sự phân phối.
33

BÀI TOÁN
➢Đội tuần tra đường cao tốc của định kỳ chọn mẫu tốc độ xe tại
các địa điểm khác nhau trên một con đường cụ thể. Mẫu tốc độ
xe được sử dụng để kiểm định giả thuyết 𝐻0 : μ ≤ 65.
➢Các giá trị mà 𝐻0 bị bác bỏ được coi là giá trị tốt nhất cho máy
đo tốc độ. Tại vị trí F, một mẫu gồm 64 phương tiện cho thấy tốc
độ trung bình là 66.2 dặm/giờ với độ lệch chuẩn là 4.2 dặm/giờ.
Sử dụng α= 0.05 để kiểm định giả thuyết.
34

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : 𝜇 ≤ 65
➢𝐻1 : 𝜇 > 65
❖2. Chỉ rõ mức ý nghĩa: α= 0.05
❖3. Tính thống kê kiểm định
lj 0
𝑥−𝜇 66.2−65
➢𝑡 = = = 2.286
𝑠/ 𝑛 4.2/ 64
TIẾP CẬN p − value
❖4a. Tính p –value
➢Vì t= 2.286, p–value =0.01
❖5a. Quyết định xem có nên bác bỏ 𝐻0
➢Vì p-value <α= 0.05, chúng ta bác bỏ 𝐻0 .
35

TIẾP CẬN giá trị tới hạn


❖4b. Xác định giá trị tới hạn
➢Vì = 0.05 và df = 64 – 1 = 63,
➢Critical value =TINV(0.05;63)=1.998
❖5b. Quyết định xem có nên bác bỏ 𝐻0
➢Vì 2.286 > critical value =TINV(0.05, 63)=1.998 → bác bỏ 𝐻0 .
❖6. Kết luận
➢Có đủ bằng chứng thống kê để suy ra rằng tốc độ trung bình của
các phương tiện tại vị trí F lớn hơn 65 dặm/giờ.
5.1.1b
37

❖Dạng tổng quát của ước lượng khoảng của trung bình tổng thể

➢ 𝑥lj ± Biên độ sai số
❖Để xây dựng ước lượng khoảng của trung bình tổng thể, biên độ
sai số căn cứ vào:
➢độ lệch chuẩn tổng thể , hoặc là
➢độ lệch chuẩn mẫu s
❖Phương sai tổng thể hiếm khi được biết chính xác, nhưng
thường có thể thu được ước lượng tốt dựa trên dữ liệu lịch sử
hoặc thông tin khác.
❖Chúng ta gọi những trường hợp như vậy là trường hợp phương
sai tổng thể đã biết.
38

❖Khoảng tin cậy đối xứng 100(1-)% của trung bình tổng thể, μ:
𝜎
➢ 𝑥lj ± 𝑧𝛼/2
𝑛
𝜎 𝜎
❖ 𝑥lj − 𝑧𝛼 ≤ 𝜇 ≤ 𝑥lj + 𝑧 𝛼 Phân phối
2 𝑛 2 𝑛
𝜎 𝜎 mẫu của 𝑥ҧ
❖[𝑥lj − 𝑧𝛼/2 , 𝑥lj + 𝑧𝛼/2 ]
𝑛 𝑛
❖Trong đó: /2 /2
1 -  của tất cả
➢ 𝑥lj là trung bình mẫu giá trị
➢ 1 -  là hệ số tin cậy 𝑥ҧ
x
➢ 𝑧/2 là giá trị z cung cấp diện m
tích /2 ở bên phải của phân z / 2x z  /2  x
phối xác suất chuẩn chuẩn hóa
➢  là độ lệch chuẩn tổng thể
➢ n là cỡ mẫu.
39

❖Bởi vì 100(1-α)% của tất cả các khoảng được xây dựng bằng
cách sử dụng 𝑥lj ± zα/2 𝜎𝑥lj sẽ chứa trung bình tổng thể, chúng ta
nói rằng chúng ta tin tưởng 100(1-α)% rằng khoảng 𝑥lj ± zα/2 𝜎𝑥lj
bao gồm trung bình tổng thể m.
❖Chúng ta nói rằng khoảng này đã được thiết lập ở trình độ tin
cậy (1-α)%.
❖Giá trị (1-α) được gọi là hệ số tin cậy.
40

BÀI TOÁN
➢Công ty DS có 260 cửa hàng bán lẻ trên khắp Việt Nam. Công ty
đang đánh giá một vị trí tiềm năng cho một cửa hàng mới, một
phần dựa vào thu nhập trung bình hàng năm của các cá nhân
trong khu vực tiếp thị của địa điểm mới.
➢Cỡ mẫu n = 36; thu nhập trung bình mẫu là 41.100USD. Độ lệch
chuẩn tổng thể được ước lượng là 4.500USD và hệ số tin cậy
được sử dụng là 0.95.
41

LỜI GIẢI
➢Khoảng tin cậy đối xứng 95% của trung bình tổng thể m sẽ là
𝜎
✓ 𝑥lj ± zα/2 𝜎𝑥lj = 𝑥lj ± 𝑧.05/2
𝑛
➢Biên độ sai số là:
𝜎 4.500
✓ 𝑧𝛼/2 = 1.96 = 1.470
𝑛 36
❖Do đó, với trình độ tin cậy 95%, khoảng tin cậy đối xứng của
trung bình tổng thể m sẽ là
4.500
➢41.100 ± 1.96 = 41.100 ± 1.470
36
➢41.100  1.470 hoặc từ 39.630 đến 42.570
❖Với trình độ tin cậy 95%, chúng ta tin rằng khoảng tin cậy đã
nêu chứa giá trị trung bình tổng thể.
42

❖Chúng ta xem xét một số kịch bản với trình độ tự tin khác nhau
Trình độ tin cậy Biên độ sai số Ước lượng khoảng
99% 1.932 39.168 - 43.032
95% 1.470 39.630 - 42.570
90% 1.234 39.866 - 42.334

❖Như vậy: Để có trình độ tin cậy cao hơn, thì biên độ sai số càng
lớn và độ rộng của khoảng tin cậy sẽ càng rộng.
43

❖Cỡ mẫu phù hợp (Adequate Sample Size)


➢Trong hầu hết các ứng dụng, cỡ mẫu n 30 là đủ.
➢Tuy nhiên, nếu phân phối tổng thể bị chệch nhiều hoặc chứa các
phần tử ngoại lai, thì nên lấy cỡ mẫu từ 50 trở lên.
➢Và, nếu tổng thể không có phân phối chuẩn nhưng đối xứng, thì
cỡ mẫu nhỏ cỡ 15 là đủ.
44

❖Nếu không thể xác định giá trị độ lệch chuẩn tổng thể  trước
khi lấy mẫu, chúng ta sử dụng độ lệch chuẩn mẫu s để ước
lượng .
❖Đây là trường hợp  chưa biết.
❖Trong trường hợp này, ước lượng khoảng cho m dựa trên phân
phối t.
t distribution
❖Chú ý: Khi bậc tự do tăng lên, sự Standard (20 degrees
normal of freedom)
khác biệt giữa phân phối t distribution
và phân phối xác suất chuẩn
chuẩn hóa trở nên nhỏ hơn. t distribution
(10 degrees
of freedom)

z,t
0
45

❖Ước lượng khoảng


𝑠
➢ 𝑥lj ± 𝑡 (𝑑𝑓)
𝛼
2 𝑛

❖Trong đó:
➢ 𝑥lj là trung bình mẫu
➢1 - = hệ số tin cậy
➢𝑡/2 (df)= giá trị t cung cấp diện tích /2 ở bên phải của phân
phối với n - 1 bậc tự do
➢s = độ lệch chuẩn mẫu.
46

BÀI TOÁN
➢ Một phóng viên đang viết một bài báo về chi phí nhà ở bên ngoài
khuôn viên trường. Một mẫu gồm 16 căn hộ một phòng ngủ trong bán
kính nửa dặm từ khuôn viên trường và được trung bình mẫu là
750USD mỗi tháng và độ lệch chuẩn mẫu là 55USD. Hãy xác định
khoảng tin cậy đối xứng 95% cho giá thuê trung bình mỗi tháng.
Chúng ta giả sử tổng thể này là phân phối chuẩn.
LỜI GIẢI
➢ Khoảng tin câỵ đối xứng 95% cho giá thuê trung bình mỗi tháng
𝑠
✓ 𝑥lj ± 𝑡.025
𝑛
55
✓ 750 ± 2.131 = 750 ± 29.30
16
➢ Chúng ta tin tưởng 95% rằng khoảng từ 720.70USD đến 779.30USD
sẽ chứa giá thuê trung bình mỗi tháng.
47

❖Biên độ sai số
𝜎
➢𝐸 = 𝑧𝛼/2
𝑛
❖Như vậy, cỡ mẫu cần thiết
(𝑧𝛼/2 )2 𝜎2
➢𝑛 =
𝐸2
❖Phương trình cỡ mẫu cần thiết yêu cầu độ lệch chuẩn tổng thể,
𝜎. Nếu 𝜎 chưa biết, giá trị 𝜎 có thể được sử dụng trong phương
trình như sau:
➢1. Sử dụng ước lượng độ lệch chuẩn tổng thể được tính trong
một nghiên cứu trước đây.
➢2. Sử dụng nghiên cứu thí điểm để chọn mẫu sơ bộ và sử dụng
độ lệch chuẩn mẫu từ nghiên cứu.
➢3. Sử dụng phán đoán hoặc “dự đoán tốt nhất” cho giá trị của 𝜎.
48

BÀI TOÁN
➢ Công ty DS đang đánh giá một địa điểm tiềm năng cho một cửa hàng
bán lẻ mới, một phần dựa trên thu nhập trung bình hàng năm của các
cá nhân trong khu vực tiếp thị của địa điểm mới.
➢ Giả sử rằng nhóm quản lý của DS muốn ước lượng trung bình tổng thể
sao cho có xác suất 0.95 rằng sai số chọn mẫu là 500USD trở xuống.
➢ Cỡ mẫu lớn bao nhiêu là cần thiết để đáp ứng yêu cầu độ chính xác?
LỜI GIẢI
𝜎
➢ 𝑧𝛼/2 = 500; với trình độ tin cậy 95%, 𝑧.025 = 1.96. Biết rằng =
𝑛
4.500USD
(1.96)2 (4.500)2
➢𝑛 = = 311.17 = 312
(500)2
❖Một mẫu có kích thước 312 là cần thiết để đạt được độ chính xác
mong muốn là  500USD với trình độ tin cậy 95%.
5.1.2
50

1 2
Chọn một mẫu ngẫu
Tỷ lệ tổng thể  = ? nhiên đơn giản gồm n
phần tử từ tổng thể

4 3

Giá trị của pത được sử Dữ liệu mẫu


dụng để suy luận về cung cấp một giá
giá trị của  trị tỷ lệ mẫu 𝑝ҧ
5.1.2a
52

❖Gọi  và p tương ứng là tỷ lệ tổng thể và mẫu; 0 là giá trị giả


định về tỷ lệ cho trước.
❖Các cặp giả thuyết như sau
➢Hai bên: H0 :  = 0 và H1 :  ≠ 0
➢Bên trái: H0 :   0 và H1 :  < 0
➢Bên phải: H0 :   0 và H1 :  > 0
❖Chúng ta biết rằng nếu mẫu lớn thì
𝑝−𝜋
➢𝑍 = ~𝑁(0,1)
𝜋(1−𝜋)/𝑛

➢Điều kiện np  5 và n(1 – p)  5


❖Nếu giả thuyết H0 đúng thì
𝑝−𝜋0
➢𝑍 = ~𝑁(0,1)
𝜋0 (1−𝜋0 )/𝑛
53

Tiếp cận p-value (p-value APPROACH)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 :   0 và H1 :  < 0
H0 :  = 0 và H1 :  ≠ 0
Bên phải: H0 :   0 và H1 :  > 0
2 Chọn mức ý nghĩa α

3 Tính thống kê kiểm định: 𝑧 = (𝑝ҧ − 0 )( 𝜋0 (1 − 𝜋0 )/𝑛)−1

4 Sử dụng thống kê kiểm định z để tính p-value


So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
54

Tiếp cận giá trị tới hạn (Critical value APPROACH)


Bước Two-Tailed Test One-Tailed Test
Xây dựng cặp giả thuyết
1 Bên trái: H0 :   0 and H1 :  < 0
H0 :  = 0 và H1 :  ≠ 0
Bên phải: H0 :   0 and H1 :  > 0
2 Chọn mức ý nghĩa α

3 Tính thống kê kiểm định 𝑧 = (𝑝ҧ − 0 )( 𝜋0 (1 − 𝜋0 )/𝑛)−1


Sử dụng mức ý nghĩa , bảng phân phối z để tính giá trị tới hạn phù
4
hợp
So sánh thống kê kiểm định và giá trị tới hạn để xem bác bỏ H0 hay
không
5
Bên trái: Bác bỏ H0 nếu z ≤ −z
Bác bỏ H0 nếu zz/2
Bên phải: Bác bỏ H0 nếu z ≥ z
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
55

BÀI TOÁN
➢Vào tuần lễ giáng sinh và năm mới, Ủy ban An toàn giao thông
Quốc gia ước lượng rằng 500 người sẽ thiệt mạng và 25.000
người bị thương trên các con đường của quốc gia. NSC tuyên bố
rằng 50% số vụ tai nạn là do lái xe khi say rượu.
➢Một mẫu gồm 120 vụ tai nạn cho thấy 67 vụ do lái xe khi say
rượu. Sử dụng những dữ liệu này để kiểm định yêu cầu của NSC
với α= 0.05.
56

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : = 0.5 và 𝐻1 :  0.5
❖2. Chọn mức ý nghĩa: =0.05
❖3. Tính thống kê kiểm định
0 (1−0 ) .5(1−.5)
➢𝜎𝑝lj = = = .045644
𝑛 120
lj 0
𝑝− (67/120)−.5
➢𝑧 = = = 1.28
𝜎𝑝lj .045644

TIẾP CẬN p − value


❖4a. Tính p-value
➢Với z = 1.28, xác suất tích lũy = 0.8997.
➢ p-value = 2(1 – 0.8997) = 0.2006.
57

❖5a. Quyết định xem có nên bác bỏ 𝐻0 hay không


➢Vì p-value = 0.2006 >α= 0.05, chúng ta không thể bác bỏ 𝐻0 .
TIẾP CẬN giá trị tới hạn
❖4b. Xác định giá trị tới hạn và qui tắc bác bỏ
➢Vì /2 = 0.05/2 = 0.025, 𝑧.025 = 1.96
➢Chúng ta sẽ bác bỏ 𝐻0 nếu |z|1.96
❖5b. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢Vì |z| =1.278 <1.96, nên chúng ta không thể bác bỏ 𝐻0 .
❖6. Kết luận
➢Chúng ta không có bằng chứng thuyết phục rằng tỷ lệ tai nạn
thực sự do lái xe khi say rượu gây ra không bằng 50%.
58

BÀI TOÁN
➢Lãnh đạo hãng hàng không VietNam Airline quan sát khách
doanh nhân và nhận định rằng khoảng hai phần ba số khách
doanh nhân đọc tạp chí trong hành trình. Quan sát mẫu thấy có
355 trong 546 khách doanh nhân đọc tạp chí trong hành trình.
➢a. Xây dựng cặp giả thuyết để kiểm định nhận định trên.
➢b. Đánh giá nhận định với mức ý nghĩa 5%?
59

Bước Tiếp cận giá trị tới hạn Tiếp cận giá trị xác xuất
1 Cặp giả thuyết: H0:  = 0.6667 và H1 :  ≠0.6667
2 Chọn mức ý nghĩa =5%=0.05
Tính thống kê kiểm định z

3 p= 355/546 =0.6502
𝑧 = (0.6502 − 0.6667)( 0.6667(1 − 0.6667)/546)−1 =-0.82

4 z0.025 = 1.96 p-value=0.2061


Không bác bỏ H0
5
Vì z=0.82 < z0.025=1.96 Vì p-value > 0.025
Với mức ý nghĩa 5% có thể kết luận rằng khoảng hai phần ba số khách
6
doanh nhân đọc tạp chí trong hành trình.
60

BÀI TOÁN
➢Quan sát sân gold nhiều năm, các nhà quản trị nhận thấy tỷ lệ
phụ nữ tham gia là 20%. Để tăng tỷ lệ này, các nhà quản trị có
nhiều nỗ lực. Sau một thời gian, các nhà quản trị cần kiểm tra
xem tỷ lệ phụ nữ tham gia có tăng lên hay không bằng cách điều
tra 400 người tham gia thì có 100 là nữ.
➢Yêu cầu: Đánh giá tỷ lệ nữ tham gia có tăng hơn không với mức
ý nghĩa 5%.
61

Bước Tiếp cận giá trị tới hạn Tiếp cận giá trị xác xuất
1 Cặp giả thuyết: H0:  = 0.2 và H1 : >0.2
2 Chọn mức ý nghĩa =5%=0.05
Tính thống kê kiểm định z
3 p=100/400 = 0.25
𝑧 = (0.25 − 0.20)( 0.20(1 − 0.20)/400)−1 =2.50

4 z0.05 = 1.645 p-value=0.00621


Bác bỏ H0
5
Vì z=2.5 > z0.025=1.645 Vì p-value < 0.00621
Với mức ý nghĩa 5%, chúng ta có thể nói rằng tỷ lệ nữ tham gia gold
6
tăng hơn 20%.
5.1.2b
63

❖Dạng tổng quát của ước lượng khoảng tỷ lệ tổng thể  là:
➢ plj ± Biên sai số (Margin of Error)
❖Phân phối chọn mẫu của plj đóng một vai trò quan trọng trong
việc tính biên sai số cho ước lượng khoảng này.
❖Phân phối chọn mẫu của plj có thể xấp xỉ phân phối chuẩn khi np
 5 và n(1 – p)  5.
64

❖ Ước lượng khoảng của 


Phân phối chọn mẫu của plj
lj
𝑝(1− 𝑝)lj
➢ 𝑝lj ± 𝑧𝛼/2
𝑛

❖ Trong đó: p(1 − p)


p =
n
➢ 1 - là hệ số tin cậy
➢ 𝑧/2 là giá trị z cung cấp diện tích
/2 ở bên phải của phân phối xác α/2
α/2
suất chuẩn chuẩn hóa. 1 -  của tất cả
➢ 𝑝lj là tỷ lệ mẫu 𝑝lj values
P
zα/2 σplj 𝑧𝛼/2 𝜎𝑝lj
65

BÀI TOÁN
➢ PSI chuyên về khảo sát cử tri để tư vấn về vị trí của các ứng viên trong
cuộc đua bầu cử. Trong chiến dịch bầu cử hiện tại, PSI vừa phát hiện ra
rằng 220 cử tri đã đăng ký, trong số 500 cử tri được liên hệ, ủng hộ một
ứng cử viên cụ thể. PSI muốn xây dựng một khoảng tin cậy đối xứng 95%
cho tỷ lệ tổng thể cử tri đã đăng ký ủng hộ ứng viên.
LỜI GIẢI
❖Khoảng tin cậy 95% của tỷ lệ tổng thể sẽ là
lj
𝑝(1− 𝑝)lj
➢ 𝑝lj ± 𝑧𝛼/2 Trong đó: n = 500, 𝑝=
lj 220/500 = .44, 𝑧/2 = 1.96
𝑛

.44(1−.44)
➢ . 44 ± 1.96 = .44 .0435
500

❖Với trình độ tin cậy 95% chúng ta tin rằng khoảng từ 0.3965 đến 0.4835
sẽ chứa tỷ lệ cử tri của tất cả cử tri ủng hộ ứng cử viên.
66

❖Biên độ sai số
lj
𝑝(1− 𝑝)lj
➢𝐸 = 𝑧𝛼/2
𝑛

❖Cỡ mẫu cần thiết là


(𝑧𝛼/2 )2 𝑝(1−
lj 𝑝)lj
➢𝑛 =
𝐸2
❖Tuy nhiên, 𝑝lj sẽ không được biết cho đến khi chúng ta đã chọn
mẫu. Chính vì vậy, chúng ta sẽ sử dụng giá trị xác định trước p*
cho 𝑝.lj
67

❖Cỡ mẫu cần thiết


(𝑧𝛼/2 )2 𝑝∗ (1−𝑝∗ )
➢𝑛 =
𝐸2
❖Giá trị xác định trước 𝑝∗ có thể được chọn bởi:
➢Sử dụng tỷ lệ mẫu từ một mẫu trước đó có cùng kích thước
hoặc tương tự.
➢Chọn mẫu sơ bộ và sử dụng tỷ lệ mẫu từ mẫu đó.
➢Sử dụng phán đoán hoặc “dự đoán tốt nhất” cho giá trị 𝑝∗ .
➢Nếu không, hãy sử dụng 𝑝∗ = 0.5.
68

BÀI TOÁN
➢ Giả sử PSI muốn xác suất 0.99 rằng tỷ lệ mẫu nằm trong khoảng ±0.03 so
với tỷ lệ tổng thể.
➢ Cỡ mẫu lớn bao nhiêu là cần thiết để đáp ứng độ chính xác yêu cầu? (Một
mẫu trước đây của các đơn vị tương tự, tỷ lệ mẫu là 0.44).
LỜI GIẢI
𝑝∗ (1−𝑝∗ )
➢ E=𝑧𝛼/2 = 0.03; với trình độ tin cậy 99%, 𝑧0.005 = 2.576. Biết rằng
𝑛
p*= .44.
(𝑧𝛼/2 )2 𝑝∗ (1−𝑝∗ ) (2.576)2 (.44)(.56)
➢𝑛 = = ≅ 1817
𝐸2 (.03)2
➢ Một mẫu có kích thước 1817 là cần thiết để đạt được độ chính xác mong
muốn là ± 0.03 với trình độ tin cậy 99%.
❖Lưu ý: Nếu không có thông tin nào về p, thì dùng .5 vì nó cung cấp cỡ
mẫu cao nhất có thể, n được khuyến nghị sẽ là 1843.
5.2
70

❖Gọi
➢𝜇1 = trung bình của tổng thể 1 và 𝜇2 = trung bình tổng thể 2.
➢Sự khác biệt giữa hai trung bình tổng thể là 𝜇1 − 𝜇2 .
➢Chọn một mẫu ngẫu nhiên có kích thước 𝑛1 từ tổng thể 1 và một
mẫu ngẫu nhiên đơn giản về kích thước 𝑛2 từ tổng thể 2.
➢ 𝑥᪄1 = giá trị trung bình của mẫu 1 và ᪄𝑥2 = trung bình của mẫu 2.
➢Ước lượng điểm của sự khác biệt giữa các trung bình của tổng
thể 1 và 2 là ᪄𝑥1 − 𝑥᪄2 .
➢D0 là sự khác biệt được giả định giữa 2 trung bình tổng thể.
71

❖Trung bình/kỳ vọng


➢𝐸 𝑥᪄1 − 𝑥᪄2 = 𝜇1 − 𝜇2
❖Sai số chuẩn
𝜎21 𝜎22
➢𝜎𝑥᪄1−𝑥᪄2 = +
𝑛1 𝑛2

❖Trong đó:
➢𝜎12 và 𝜎22 tương ứng là phương sai của tổng thể 1 và 2
➢𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
72

Khác biệt giữa 2 trung Chọn hai mẫu ngẫu nhiên


bình tổng thể 𝜇1 − 𝜇2 = ? gồm 𝑛1 , 𝑛2 phần tử
từ tổng thể

Giá trị của 𝑥᪄1 − 𝑥᪄2 được sử dụng Dữ liệu mẫu cung cấp một giá trị
để suy luận khác biệt cho hai trung bình mẫu
về giá trị khác biệt 𝜇1 − 𝜇2 𝑥᪄1 − 𝑥᪄2

❖Suy luận thống kê về khác biệt giữa 2 trung bình tổng thể
➢Kiểm định giả thuyết (Hypothesis testing)
➢Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval:
CI)
5.2.1a
74

❖Các loại giả thuyết


➢Kiểm định hai bên
✓ 𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
➢Kiểm định bên trái
✓ 𝐻0 : 𝜇1 − 𝜇2 ≥ 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 < 𝐷0
➢Kiểm định bên phải
✓ 𝐻0 : 𝜇1 − 𝜇2 ≤ 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 > 𝐷0
❖Thống kê kiểm định: Thống kê này được xác định tùy thuộc vào:
➢Thông tin về tổng thể có phân phối chuẩn hay không,
➢Phương sai tổng thể có biết trước hay không,
➢Mẫu được chọn có độc lập hay phụ thuộc.
75

❖Kiểm định sự khác biệt giữa hai trung bình tổng thể phân phối
chuẩn và các mẫu độc lập:
➢ Trường hợp các phương sai biết trước, thống kê kiểm định sẽ là
−1
𝜎21 𝜎22
✓z = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 +
𝑛1 𝑛2

➢ Trường hợp các phương sai chưa biết và chúng bằng nhau, thống
kê kiểm định sẽ là
−1
s2p s2p
✓t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 +
𝑛1 𝑛2

𝑛1 −1 𝑠12 + 𝑛2 −1 𝑠22
✓ Với 𝑠𝑝2 =
𝑛1 +𝑛2 −2
76

➢Trường hợp các phương sai chưa biết và không bằng nhau,
thống kê kiểm định sẽ là
−1
s21 s22
✓t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) + )
𝑛1 𝑛2
2 −1
2 2 2
𝑠12 𝑠22 1 𝑠12 1 𝑠2
𝑑𝑓 = + +
𝑛1 𝑛2 𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
❖Kiểm định sự khác biệt giữa hai trung bình tổng thể phân phối
chuẩn và mẫu cặp
➢Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan
sát cặp từ các phân phối với các trung bình là 𝜇1 và 𝜇2 .
➢Đặt 𝑑᪄ và 𝑠𝑑 biểu thị giá trị trung bình mẫu quan sát được và độ
lệch chuẩn cho n hiệu số (di = 𝑥1𝑖 −𝑥2𝑖 ).
77

➢Nếu phân phối tổng thể của sự khác biệt là phân phối chuẩn thì
ሜ 𝑑
𝑑−𝜇
✓𝑡 = ~𝑡(𝑛 − 1)
sd / 𝑛
✓ Trong đó:
o 𝜇𝑑 = 𝜇1 − 𝜇2
σ𝑑
o 𝑑ሜ = 𝑖
𝑛
ሜ 2
σ(𝑑𝑖 −𝑑)
o 𝑠𝑑 =
𝑛−1

➢Như vậy, chúng ta được thống kê kiểm định


ሜ 𝑑
𝑑−𝜇 𝑠𝑑 −1
✓𝑡 = = (𝑑ሜ − 𝜇𝑑 )
sd / 𝑛 𝑛
78

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 Bên trái: H0 : 𝜇1 − 𝜇2 ≥ 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 < 𝐷0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0 Bên phải: H0 : 𝜇1 − 𝜇2 ≤ 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 > 𝐷0
2 Chọn mức ý nghĩa 
−1
𝜎21 𝜎22
3 Tính thống kê kiểm định z = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) +
𝑛1 𝑛2

Sử dụng mức ý nghĩa , tra bảng z để xác định giá trị tới hạn phù hợp
4
Xác định z/2 Xác định z
So sánh thống kê kiểm định và giá trị tới hạn để xem bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu z -z/2
Bác bỏ H0 nếu zz/2
Bên phải: Bác bỏ H0 nếu z z/2
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
79

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 H0 : μ1 − μ2 = D0 Bên trái: H0 : μ1 − μ2 ≥ D0 và H1 : μ1 − μ2 < D0
và H1 : μ1 − μ2 ≠ D0 Bên phải: H0 : μ1 − μ2 ≤ D0 và H1 : μ1 − μ2 > D0
2 Chọn mức ý nghĩa 
−1
𝜎21 𝜎22
3 Tính thống kê kiểm định z = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) +
𝑛1 𝑛2

Sử dụng thống kê kiểm định z, để tính p-value phù hợp


4
Xác định z/2 Xác định z
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
80

BÀI TOÁN
➢Par, Inc. là nhà sản xuất thiết bị chơi golf và đã phát triển một
quả bóng mới được thiết kế để cung cấp “khoảng cách xa hơn”.
➢Trong kiểm định khoảng cách đánh bóng bằng thiết bị, mẫu
bóng Par được so sánh với mẫu bóng golf do đối thủ cạnh tranh
Rap, Ltd.
➢Với mức ý nghĩa α= 0.01, có thể chúng ta kết luận rằng khoảng
cách trung bình của bóng golf Par, Inc. lớn hơn khoảng cách
trung bình của bóng golf Rap, Ltd.?
Mẫu # 1 Par, Inc. Mẫu # 2 Rap, Ltd.
Cỡ mẫu (bóng) 120 80
Trung bình mẫu (yard) 295 278
Độ lệch chuẩn tổng thể (yard) 15 20
81

LỜI GIẢI
❖Gọi:
➢ 𝜇1 = khoảng cách trung bình tổng thể của bóng golf của Par, Inc.
➢ 𝜇2 = khoảng cách trung bình tổng thể của bóng golf của Rap, Ltd.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 − 𝜇2 ≤ 0 và 𝐻1 : 𝜇1 − 𝜇2 > 0
❖2. Chọn mức ý nghĩa 𝛼 = 0.01
❖3. Tính thống kê kiểm định
𝑥᪄1 −𝑥᪄2 −𝐷0 (295−278)−0 17
➢𝑧 = = = = 6.49
(15)2 (20)2 2.62
𝜎21 𝜎22 + 80
+
𝑛1 𝑛2
120
82

TIẾP CẬN p − value


❖4a. Tính p-value
➢ Với z = 6.49, p-value < 0.0001
❖5a. Quyết định có nên bác bỏ 𝐻0 hay không
➢ Vì p-value < 0.0001 ≤ α= 0.01, chúng ta bác bỏ 𝐻0 .
TIẾP CẬN giá trị tới hạn
❖4b. Xác định giá trị tới hạn
➢ Vì α= 0.01, 𝑧0.01 = 2.33
❖5b. Xác định xem có nên bác bỏ 𝐻0 hay không
➢ Vì z = 6.49 > 2.33 → bác bỏ 𝐻0 .
❖6. Kết luận
➢ Với mức ý nghĩa 0.01, bằng chứng mẫu cho thấy khoảng cách trung bình
của bóng golf của Par, Inc. lớn hơn khoảng cách trung bình của bóng golf
của Rap, Ltd.
83
Tiếp cận giá trị tới hạn (Critical Value Approach)
Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 : μ1 − μ2 ≥ D0 và H1 : μ1 − μ2 < D0
𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
Bên phải: H0 : μ1 − μ2 ≤ D0 và H1 : μ1 − μ2 > D0
2 Chọn mức ý nghĩa 
−1
s21 s22
3 Tính thống kê kiểm định t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) +𝑛 )
𝑛1 2

Sử dụng mức ý nghĩa  và bậc do df, tra bảng t để xác định giá trị tới hạn phù hợp
Xác định t/2(df) Xác định t(df)
4 2 2 −1
2 2
𝑠12 𝑠22 1 𝑠12 1 𝑠2
𝑑𝑓 = + +
𝑛1 𝑛2 𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ H0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
84

Tiếp cận p-value (p-value Approach)

Bước Kiểm định hai bên Kiểm định một bên


Xây dựng cặp giả thuyết
1 Bên trái: H0 : μ1 − μ2 ≥ D0 và H1 : μ1 − μ2 < D0
𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
Bên phải: H0 : μ1 − μ2 ≤ D0 và H1 : μ1 − μ2 > D0
2 Chọn mức ý nghĩa 
−1
s21 s22
3 Tính thống kê kiểm định t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) + )
𝑛1 𝑛2
Sử dụng thống kê kiểm định t và bậc tự do df, để tính p-value phù hợp
2 2 −1
2 2
4 𝑠12 𝑠22 1 𝑠12 1 𝑠2
𝑑𝑓 = + +
𝑛1 𝑛2 𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
85

BÀI TOÁN
➢ Specific Motors của Detroit đã phát triển một loại ô tô mới được
gọi là loại M. 24 chiếc loại M và 28 chiếc loại J (từ Nhật Bản) đã
được kiểm định trên đường để so sánh hiệu suất dặm trên gallon
(mpg).
➢ Sử dụng mức ý nghĩa 0.05, có thể chúng ta kết luận rằng hiệu suất
dặm trên gallon (mpg) của xe M lớn hơn hiệu suất dặm trên gallon
của ô tô J?
Mẫu #1 Mẫu #2
Ô tô M Ô tô J
Cỡ mẫu (Chiếc) 24 28
Trung bình mẫu (mpg) 29.8 27.3
Độ lệch chuẩn mẫu (mpg) 2.56 1.81
86

LỜI GIẢI
❖Đặt
➢ 𝜇1 =số dặm trung bình trên mỗi gallon đối với tổng thể ô tô loại M.
➢ 𝜇2 =số dặm trung bình trên một gallon đối với tổng thể ô tô loại J.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 – 𝜇2 ≤ 0 và 𝐻1 : 𝜇1 – 𝜇2 > 0
❖2. Chọn mức ý nghĩa α= 0.05
❖3. Tính thống kê kiểm định
(𝑥lj 1 −𝑥lj 2 )−𝐷0 (29.8−27.3)−0
➢𝑡 = = = 4.003
(2.56)2 (1.81)2
𝑠2 2
1 + 𝑠2 +
24 28
𝑛1 𝑛2

❖Bậc tự do cho 𝑡𝛼 là
2
(2.56)2 (1.81)2
24
+ 28
➢ 𝑑𝑓 = 2 2 = 40.566 = 41
1 (2.56)2 1 (1.81)2
+
24−1 24 28−1 28
87

TIẾP CẬN p − value


❖4a. Tính p-value
➢ Với t = 4.003 và df = 41, p-value = 2*T.DIST.2T(A1,41) =0.005
❖5a. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢ Vì p-value ≤ α= 0.05, → bác bỏ 𝐻0 .
TIẾP CẬN giá trị tới hạn
❖4b. Xác định giá trị tới hạn
➢ Vì α= 0.05 và df = 41, 𝑡0.05 = 1.683.
❖5b. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢ Vì t=4.003 > critical value t= 1.683 → bác bỏ 𝐻0 .
❖6. Kết luận
➢ Với mức ý nghĩa 0.05, bằng chứng mẫu chỉ ra rằng hiệu suất dặm trên
gallon (mpg) của ô tô M lớn hơn hiệu suất dặm trên gallon của ô tô J.
88
Tiếp cận giá trị tới hạn (Critical Value Approach)

Bước Kiểm định hai bên Kiểm định một bên

Xây dựng cặp giả thuyết


1 Bên trái: H0 : μ1 − μ2 ≥ D0 và H1 : μ1 − μ2 < D0
𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 và 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0
Bên phải: H0 : μ1 − μ2 ≤ D0 và H1 : μ1 − μ2 > D0
2 Chọn mức ý nghĩa 
−1
s2p s2p
3 Tính thống kê kiểm định t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) + )
𝑛1 𝑛2

Sử dụng mức ý nghĩa  và bậc do df=(𝑛1 + 𝑛2 − 2), tra bảng t để xác định giá trị tới hạn
4
phù hợp

So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ H0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
89

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 𝐻0 : 𝜇1 − 𝜇2 = 𝐷0 và Bên trái: H0 : μ1 − μ2 ≥ D0 và H1 : μ1 − μ2 < D0
𝐻1 : 𝜇1 − 𝜇2 ≠ 𝐷0 Bên phải: H0 : μ1 − μ2 ≤ D0 và H1 : μ1 − μ2 > D0
2 Chọn mức ý nghĩa 
−1
s2p s2p
3 Tính thống kê kiểm định t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) + )
𝑛1 𝑛2
Sử dụng mức ý nghĩa  và bậc do df=(𝑛1 + 𝑛2 − 2), tra bảng t để xác định p-
4
value phù hợp
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
90

BÀI TOÁN
➢Một cửa hàng đồ thể thao hoạt động trong một trung tâm mua
sắm cỡ trung bình. Để lên kế hoạch cho mức độ nhân sự, người
quản lý đã yêu cầu sự hỗ trợ từ chuyên gia để xác định xem có
bằng chứng mạnh mẽ nào cho thấy doanh số bán hàng thứ Hai
cao hơn doanh số thứ Bảy hay không.
➢Để trả lời câu hỏi, chuyên gia quyết định thu thập các mẫu ngẫu
nhiên gồm 25 ngày thứ Bảy và 25 thứ Hai từ tổng thể dữ liệu
vài năm. Các mẫu được rút ra độc lập. Biết them phương sai
doanh số vào hai ngày này là bằng nhau.
❖Thống kê mẫu như sau:
➢ 𝑥᪄1 = 1078 𝑠1 = 633 𝑛1 = 25
➢ 𝑥ҧ2 = 908.2 s2 = 469.8 𝑛2 = 25
➢Trong đó ký hiệu 1 và 2 là thứ Hai và thứ Bảy.
91

LỜI GIẢI
1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 − 𝜇2 ≤ 0
➢ 𝐻1 : 𝜇1 − 𝜇2 > 0
2. Chọn mức ý nghĩa  =0.05
3. Tính thống kê kiểm định
➢ Ước tính phương sai gộp như sau:
(25−1)(633)2 +(25−1)(469.8)2
➢ 𝑠𝑝2 = = 310,700
25+25−2

𝑥᪄1 − 𝑥᪄2 1078 − 908.2


𝑡= = = 1.08
𝑠𝑝2 𝑠𝑝2 310,700 310,700
+
+ 25 25
𝑛1 𝑛2
92

LỜI GIẢI
4. Tính giá trị tới hạn
Sử dụng mức ý nghĩa α = 0.05 và bậc tự do là 48, chúng ta được
rằng giá trị tới hạn 𝑡.05 (48)= 1.677
5. Quyết định
So sánh thống kê kiểm định và giá trị tới hạn
𝑡.05 (48)= 1.677 >t=1.08 → Không đủ cơ sở bác bỏ 𝐻0
6. Kết luận
Do đó, với mức ý nghĩa 5%, chúng ta kết luận rằng không có đủ
bằng chứng để bác bỏ giả thuyết 𝐻0 , và do đó, không có lý do gì để
kết luận rằng doanh số bán hàng trung bình vào thứ Hai cao hơn.
93

❖ Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan sát cặp từ các
phân phối với các trung bình là 𝜇1 và 𝜇2 .
❖ Đặt 𝑑᪄ và 𝑠𝑑 biểu thị giá trị trung bình mẫu quan sát được và độ lệch chuẩn
cho n hiệu số (di = 𝑥1𝑖 −𝑥2𝑖 ).
❖ Nếu phân phối tổng thể của sự khác biệt tuân theo phân phối chuẩn thì:

𝑑−𝜇 𝑑
➢𝑡= sd /√n
~𝑡(𝑛 − 1)
Trong đó:
σ𝑑
𝜇𝑑 = 𝜇1 − 𝜇2 và 𝑑ሜ = 𝑛 𝑖

ሜ 2
σ(𝑑𝑖 − 𝑑)
𝑠𝑑 =
𝑛−1
Như vậy, chúng ta được thống kê kiểm định
𝑑ሜ − 𝜇𝑑
𝑡=
sd /√n
94

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 𝐻0 : 𝜇1 − 𝜇2 = 0 và Bên trái: H0 : μ1 − μ2 ≥ 0và H1 : μ1 − μ2 < 0
𝐻1 : 𝜇1 − 𝜇2 ≠ 0 Bên phải: H0 : μ1 − μ2 ≤ 0và H1 : μ1 − μ2 > 0
2 Chọn mức ý nghĩa 
𝑠𝑑 −1
3 Tính thống kê kiểm định 𝑡 = (𝑑ሜ − 𝜇𝑑 )
𝑛

4 Căn cứ vào thống kê kiểm định t và bậc tự do (n-1) tính p-value phù hợp
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
95

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 𝐻0 : 𝜇1 − 𝜇2 = 0 và Bên trái: 𝐻0 : 𝜇1 − 𝜇2 ≥ 0 và 𝐻1 : 𝜇1 − 𝜇2 < 0
𝐻1 : 𝜇1 − 𝜇2 ≠ 0 Bên phải: 𝐻0 : 𝜇1 − 𝜇2 ≤ 0và 𝐻1 : 𝜇1 − 𝜇2 > 0
2 Chọn mức ý nghĩa 
𝑠𝑑 −1
3 Tính thống kê kiểm định 𝑡 = (𝑑ሜ − 𝜇𝑑 )
𝑛
Căn cứ vào mức ý nghĩa, bảng phân phối t và bậc tự do (n-1) tính giá trị tới
4
hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay
không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ H0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
96

BÀI TOÁN
➢ Công ty Express Deliveries có tài liệu phải được phân phát nhanh
tới các văn phòng. Công ty phải quyết định giữa hai dịch vụ chuyển
phát, UPX và INTEX, để vận chuyển tài liệu của mình. Công ty đã
gửi hai báo cáo đến các văn phòng của mình với một báo cáo do
UPX thực hiện và báo cáo còn lại do INTEX thực hiện. Dữ liệu có
cho thấy sự khác biệt về thời gian giao hàng trung bình của hai
dịch vụ không? Sử dụng mức ý nghĩa 0.05.
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇𝑑 = 0 và 𝐻1 : 𝜇𝑑 ≠0
➢ Trong đó: 𝜇𝑑 = giá trị trung bình của các giá trị chênh lệch đối với
hai dịch vụ giao hàng cho các văn phòng.
97

❖2. Chọn mức ý nghĩa α= 0.05 Thời gian giao hàng (Giờ)
❖3. Thống kê kiểm định Văn
UPX INTEX Sự khác biệt
➢ Trung bình sự khác biệt là phòng
σ𝑑 (7+6+...+5) 1 32 25 7
✓ 𝑑ሜ = 𝑖 = = 2.7
𝑛 10 2 30 24 6
➢ Độ lệch chuẩn của sự khác biệt 3 19 15 4
✓ 𝑠𝑑 =
ሜ 2
σ(𝑑𝑖 −𝑑)
=
76.1
= 2.9 4 16 15 1
𝑛−1 9
5 15 13 2
➢ Thống kê kiểm định 6 18 15 3
ሜ 𝑑
𝑑−𝜇 2.7−0
✓𝑡 = 𝑠𝑑 = 2.9 = 2.94 7 14 15 -1
𝑛 10
8 10 8 2
9 7 9 -2
10 16 11 5
98

TIẾP CẬN p − value


❖4a. Tính p-value
➢ Vì t = 2.94 và df = 9 thì p-value = T.DIST.2T(2.94;9) = 0.01649
❖5a. Quyết định xem có nên bác bỏ 𝐻0 .
➢ Vì p-value = 0.01649< α = 0.05, chúng ta bác bỏ 𝐻0 .
TIẾP CẬN giá trị tới hạn
❖4b. Xác định giá trị tới hạn
➢ Vì α= 0.05 và df = 9, t 0.05 (9) =T.INV.2T(0.05;9) = 2.262.
❖5b. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢ Vì t= 2.94 > t 0.05 (9) =2.262 → bác bỏ 𝐻0 .
❖6. Kết luận
➢ Với mức ý nghĩa 0.05, bằng chứng mẫu chỉ ra rằng có sự khác biệt
về thời gian giao hàng trung bình cho hai dịch vụ.
5.2.1b
100

❖Ước lượng điểm


➢ 𝑥ҧ1 – 𝑥ҧ2 = ước lượng điểm µ1 – µ2
❖Khoảng tin cậy đối xứng (The Confidence Interval: CI)
𝜎21 𝜎22
➢ 𝑥᪄1 − 𝑥᪄2 ± z𝛼/2 +
𝑛1 𝑛2

➢Trong đó: 1–α là hệ số tin cậy (confidence coefficient)


101

❖BÀI TOÁN
➢ Par, Inc. là nhà sản xuất thiết bị chơi golf và đã phát triển một quả
bóng mới được thiết kế để cung cấp “khoảng cách xa hơn”.
➢ Trong kiểm định khoảng cách đánh bóng bằng thiết bị, mẫu bóng
Par được so sánh với mẫu bóng golf do đối thủ cạnh tranh Rap,
Ltd.
➢ Hãy xây dựng khoảng tin cậy đối xứng 95% về sự khác biệt giữa
khoảng trung bình của hai nhãn hiệu bóng golf.

Mẫu 1: Par, Inc. Mẫu 2: Rap, Ltd.


Cỡ mẫu (bóng) 120 80
Trung bình mẫu (yard) 295 278
Độ lệch chuẩn tổng thể (yard) 15 20
102

LỜI GIẢI
❖Ước lượng điểm của 𝜇1 – 𝜇2
➢ 𝑥lj 1 − 𝑥lj 2 = 275 - 258=17
❖Khoảng tin cậy đối xứng 95% của 𝜇1 – 𝜇2
𝜎12 𝜎22 (15)2 (20)2
➢ 𝑥lj 1 − 𝑥lj 2 ± 𝑧𝛼/2 + = 17 ± 1.96 +
𝑛1 𝑛2 120 80

➢ 17 + 5.14 hoặc 11.86 yard đến 22.14 yard


❖Kết luận
➢ Với trình độ tin cậy 95%, chúng ta tin tưởng rằng khoảng [11.86
yard, 22.14 yard] sẽ chứa sự khác biệt giữa khoảng cách trung
bình của bóng của Par, Inc. và của Rap, Ltd.
103

❖Khi phương sai tổng thể chưa biết, chúng ta sẽ


➢ Sử dụng độ lệch chuẩn mẫu 𝑠1và 𝑠2 là ước lượng của 𝜎1 và 𝜎2 , và
➢ Trong công thức khoảng tin cậy, 𝑧𝛼/2 được thay bằng 𝑡𝛼/2 (df).
❖Khoảng tin cậy 100(1-)% đối xứng của khác biệt là
𝑠12 𝑠22
➢ 𝑥lj 1 − 𝑥lj 2 ± 𝑡𝛼 (𝑑𝑓) +
2 𝑛1 𝑛2

➢ Trong đó: df được tính như sau:


2 2 2
𝑠1 𝑠2
+
𝑛1 𝑛2
𝑑𝑓 =
2 2 2 2
1 𝑠1 1 𝑠2
+
𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
104

BÀI TOÁN
➢ Căn cứ vào dữ liệu đã cho trong bài toán Specific Motors của Detroit, hãy xác
định khoảng tin cậy đối xứng 90% về sự khác biệt giữa hiệu suất mpg của hai
mẫu ô tô.
LỜI GIẢI
➢ Bậc tự do df cho 𝑡𝛼/2 sẽ là
2 2 2 2
s1 s2 (2.56)2 (1.81)2
+ +
n1 n2 24 28
df = 2 2 = 2 2
1 s12 1 s22 1 (2.56)2 1 (1.81)2
+ +
n1 − 1 n1 n2 − 1 n2 24 − 1 24 28 − 1 28
df= 40.59 ≈ 41
➢ Với α/2 = 0.05 và df = 41, 𝑡𝛼/2 (41) = T.INV.2T(0.1,41) = 1.683
105

❖Khoảng tin cậy đối xứng 90% về sự khác biệt giữa hiệu suất mpg
của hai mẫu ô tô là
𝑠12 𝑠22
𝑥lj 1 − 𝑥lj 2 ± 𝑡0.05 (41) +
𝑛1 𝑛2

𝑠12 𝑠22
➢ 𝑥lj 1 − 𝑥lj 2 ± 𝑡.05 41 +
𝑛1 𝑛2
➢ Với T.INV.2T(0.1,41)=1.683, vậy:
(2.56)2 (1.81)2
➢ 29.8 − 27.3 ± 1.683 +
24 28
➢ 2.5 + 1.501 hoặc từ 1.449mpg đến 3.551mpg
❖Kết luận
➢ Với trình độ tin cậy 90%, chúng ta tin tưởng rằng khoảng từ 1.449
đến 3.551 mpg sẽ chứa giá trị khác biệt giữa hiệu suất dặm trên
mỗi gallon của loại M và J.
5.2.2
107

Hai mẫu ngẫu nhiên đơn giản


Khác biệt 2 tỷ lệ tổng
gồm 𝑛1 , 𝑛2 phần tử được chọn
thể 𝜋1 − 𝜋2 = ?
từ tổng thể

Giá trị của 𝑝1ҧ − 𝑝2ҧ được sử dụng Dữ liệu mẫu


để đưa ra suy luận cung cấp một giá trị cho
về giá trị của 𝜋1 − 𝜋2 tỷ lệ mẫu 𝑝1ҧ − 𝑝2ҧ

❖Suy luận thống kê về khác biệt giữa 2 tỷ lệ tổng thể


➢Kiểm định giả thuyết (Hypothesis testing)
➢Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval:
CI)
108

❖Gọi
➢𝜋1 và 𝜋2 tương ứng là tỷ lệ tổng thể 1 và 2.
➢𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
❖Trung bình/Kỳ vọng của sự khác biệt giữ hai tỷ lệ mẫu
➢𝐸(𝑝lj1 − 𝑝lj 2 ) = 𝜋1 − 𝜋2
❖Sai số chuẩn của sự khác biệt giữ hai tỷ lệ mẫu
𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
➢𝜎𝑝lj1 −𝑝lj 2 = +
𝑛1 𝑛2
109

❖Phân phối chọn mẫu 𝑝1ҧ − 𝑝ҧ2


➢ Nếu cỡ mẫu lớn thì phân phối chọn mẫu 𝑝1ҧ − 𝑝2ҧ có thể xấp xỉ bằng
phân phối chuẩn.
 Chú thích: Cỡ mẫu đủ lớn nếu đáp ứng tất cả các điều kiện sau:
➢ 𝑛1 𝑝1 ≥ 5 và 𝑛1 (1 − 𝑝1 ) ≥5
➢ 𝑛2 𝑝2 ≥ 5 và 𝑛2 (1 − 𝑝2 ) ≥ 5
5.2.2a
111

❖Để kiểm định sự khác biệt giữa hai tỷ lệ tổng thể, có thể dùng các cặp giả
thuyết sau
➢ Hai bên: H0 : 1 −2 = 0 và H1 : 1 −2 ≠ 0
➢ Bên trái: H0 : 1 −2 ≥ 0 và H1 : 1 −2 < 0
➢ Bên phải: H0 : 1 −2 ≤ 0 và H1 : 1 −2 > 0
❖Khi tỷ lệ tổng thể bằng nhau (π1 = π2 = π), ước lượng tỷ lệ mẫu chung là
𝑛1 𝑝ҧ1 +𝑛2 𝑝ҧ2
➢ 𝑝ҧ =
𝑛1 +𝑛2

❖Sai số chuẩn của 𝑝1ҧ − 𝑝2ҧ


1 1
➢ 𝜎𝑝ҧ1−𝑝ҧ2 = π(1 − π) +
𝑛1 𝑛2

❖Thống kê kiểm định (Test statistic)


(𝑝lj 1 −𝑝lj 2 )
➢𝑧 = 1 1
lj
𝑝(1− 𝑝)lj 𝑛 +𝑛
1 2
112

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: 𝐻0 : 1 −2 ≥ 0 và 𝐻1 : 1 −2 < 0
𝐻0 : 1 −2 = 0 và 𝐻1 : 1 −2 ≠ 0
Bên phải: 𝐻0 : 1 −2 ≤ 0 và 𝐻1 : 1 −2 > 0
2 Chọn mức ý nghĩa 
(𝑝lj 1 −𝑝lj 2 )
3 Tính thống kê kiểm định 𝑧 = 1 1
lj
𝑝(1− 𝑝)lj +
𝑛1 𝑛2

4 Căn cứ vào thống kê kiểm định z tính p-value phù hợp


So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
113

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: 𝐻0 : 1 −2 ≥ 0 và 𝐻1 : 1 −2 < 0
𝐻0 : 1 −2 = 0 và 𝐻1 : 1 −2 ≠ 0
Bên phải: 𝐻0 : 1 −2 ≤ 0 và 𝐻1 : 1 −2 > 0
2 Chọn mức ý nghĩa 
(𝑝lj 1 −𝑝lj 2 )
3 Tính thống kê kiểm định 𝑧 = 1 1
lj
𝑝(1− 𝑝)lj 𝑛 +𝑛
1 2

4 Căn cứ vào mức ý nghĩa , bảng phân phối z tính giá trị tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay
không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ 𝐻0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
114

BÀI TOÁN
➢ Chúng ta có thể kết luận, với mức ý nghĩa 0.05, rằng tỷ lệ hộ gia
đình biết đến sản phẩm của khách hàng tăng lên sau khi quảng cáo
mới chiến dịch?

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜋1 – 𝜋2 ≤0 và 𝐻1 : 𝜋1 – 𝜋2 > 0
➢ Trong đó:
✓ 𝜋1 = tỷ lệ tổng thể hộ gia đình “biết” về sản phẩm sau chiến dịch mới
✓ 𝜋2 = tỷ lệ tổng thể hộ gia đình “biết” về sản phẩm trước chiến dịch
mới
❖2. Chọn mức ý nghĩa α= 0.05
115

❖3. Tính thống kê kiểm định


250(.48)+150(.40) 180
➢ 𝑝lj = = = .45
250+150 400
1 1
➢ 𝑠𝑝lj1 −𝑝lj2 = .45(.55)( + ) = .0514
250 150
(.48−.40)−0 .08
➢𝑧 = = = 1.56
.0514 .0514

TIẾP CẬN p − value


❖4a. Tính p-value
➢ Với z = 1.56, p-value = 0.0594
❖5a. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢ Vì p-value >α= 0.05, chúng ta không thể bác bỏ 𝐻0 .
116

TIẾP CẬN giá trị tới hạn


❖4b. Xác định giá trị tới hạn và quy luật bác bỏ.
➢ Vì α= 0.05, 𝑧.05 = 1.645
➢ Bác bỏ 𝐻0 nếu z  1.645
❖5b. Quyết định xem có nên bác bỏ 𝐻0 hay không.
➢ Vì 1.56 < 1.645 nên không thể bác bỏ 𝐻0 .
❖6. Kết luận
➢ Chúng ta không thể kết luận rằng tỷ lệ hộ gia đình biết đến sản
phẩm của khách hàng tăng lên sau chiến dịch mới.
5.2.2.b
118

❖Ước lượng điểm của 𝜋1 – 𝜋2


➢ 𝑝lj1 − 𝑝lj 2
❖Khoảng tin cậy đối xứng 100(1-)% của 𝜋1 – 𝜋2
𝑝lj 1 (1−𝑝lj 1 ) 𝑝lj 2 (1−𝑝lj 2 )
➢ 𝑝lj1 − 𝑝lj 2 ± 𝑧𝛼/2 +
𝑛1 𝑛2

𝜋1 1 − 𝜋1 𝜋2 1 − 𝜋2
𝜎𝑝lj 1−𝑝lj2 = +
𝑛1 𝑛2

p1 − p2
1–2
119

BÀI TOÁN
➢Hiệp hội đang tiến hành nghiên cứu để đánh giá hiệu quả của
chiến dịch quảng cáo mới của khách hàng. Trước khi chiến dịch
mới bắt đầu, một cuộc khảo sát qua điện thoại với 150 hộ gia
đình trong khu vực chợ kiểm định cho thấy 60 hộ gia đình “biết”
về sản phẩm của khách hàng.
➢Chiến dịch mới đã được bắt đầu với các quảng cáo trên TV và
báo chạy trong ba tuần.
➢Một cuộc khảo sát được thực hiện ngay sau chiến dịch mới cho
thấy 120 trong số 250 hộ gia đình “biết” về sản phẩm của khách
hàng. Dữ liệu có hỗ trợ cho quan điểm rằng chiến dịch quảng
cáo đã mang lại sự gia tăng nhận thức về sản phẩm của khách
hàng không?
120

LỜI GIẢI
𝑝᪄1 1−𝑝᪄1 𝑝᪄2 1−𝑝᪄2
➢ 𝑝᪄1 − 𝑝᪄2 ± 𝑧𝛼/2 +
𝑛1 𝑛2

➢Vì α= 0.05, 𝑧.025 = 1.96


0.48(0.52) 0.40(0.60)
➢(0.48 − 0.40) ± 1.96 +
250 150

➢0.08 ± 0.10
❖Do đó, khoảng tin cậy đối xứng 95% của sự khác biệt về nhận
biết sản phẩm trước và sau là [–0.02, 0.18], điều này có nghĩa
khoảng từ -.02 đến 0.18 sẽ chứa giá trị khác biệt về nhận biết
biết sản phẩm trước và sau.
5.3
122

Một mẫu ngẫu nhiên đơn


giản của n phần tử được
Phương sai tổng thể
chọn từ tổng thể
𝜎 2= ?

Giá trị của s 2 được sử Dữ liệu mẫu cung cấp


dụng để đưa ra suy luận giá trị cho giá trị
về giá trị của 𝜎 2 trung bình mẫu s 2

➢ Kiểm định giả thuyết (Hypothesis testing)


➢ Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval: CI)
5.3.1a
124

❖Gọi:
➢𝜎 2 : Phương sai tổng thể
➢𝜎02 : Giá trị giả định về phương sai tổng thể
❖Khi kiểm định về phương sai một tổng thể gồm các loại giả
thuyết sau
➢Hai bên: H0 : σ2 = σ20 và Ha : σ2 ≠ σ20
➢Bên trái: H0 : σ2 ≥ σ20 và Ha : σ2 < σ20
➢Bên phải: H0 : σ2 ≥ σ20 và Ha : σ2 > σ20
❖Thống kê kiểm định (Test statistic)
(𝑛−1)𝑠 2
➢𝜒 2 =
𝜎02
125

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: 𝐻0 : 𝜎 2 ≥ 𝜎02 và 𝐻1 : 𝜎 2 < 𝜎02
𝐻0 : 𝜎 2 = 𝜎02 và 𝐻1 : 𝜎 2 ≠ 𝜎02
Bên phải: 𝐻0 : 𝜎 2  𝜎02 và 𝐻1 : 𝜎 2 > 𝜎02
2 Chọn mức ý nghĩa α
(𝑛−1)𝑠 2
3 Tính thống kê kiểm định: 𝜒 = 2
𝜎02

Sử dụng thống kê kiểm định 𝜒 2 và bậc tự do n-1 để xác định p-value phù
4
hợp
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
126

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 2 2 2 2
Bên trái: 𝐻0 : 𝜎 2 ≥ 𝜎02 và 𝐻𝑎 : 𝜎 2 < 𝜎02
𝐻0 : 𝜎 = 𝜎0 và 𝐻𝑎 : 𝜎 ≠ 𝜎0
Bên phải: 𝐻0 : 𝜎 2 𝜎02 và 𝐻𝑎 : 𝜎 2 > 𝜎02
2 Chọn mức ý nghĩa α
(𝑛−1)𝑠 2
3 Tính thống kê kiểm định: 𝜒 2 =
𝜎02
Sử dụng mức ý nghĩa , bậc tự do n-1, tra bảng phân phối 𝜒 2 để tính giá trị tới
4
hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay
không
5 2
Bác bỏ 𝐻0 nếu 𝜒 2 ≤ 𝜒(1−𝛼/2) 2
Bên trái: Bác bỏ 𝐻0 nếu 𝜒 2 ≤ 𝜒(1−𝛼)
2
hay 𝜒 2 ≥ 𝜒𝛼/2 Bên phải: Bác bỏ 𝐻0 nếu 𝜒 2 𝜒𝛼2 (df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
127

BÀI TOÁN
➢Nhớ lại rằng tổ chức BB đang xếp hạng máy điều hòa nhiệt độ
ThermoRite. Tổ chức BB đưa ra xếp hạng “chấp nhận được” đối
với bộ điều nhiệt có phương sai nhiệt độ từ 0.5 trở xuống.
➢Sử dụng 10 dữ liệu, chúng tôi sẽ tiến hành kiểm định giả thuyết
(với α = 0.10) để xác định xem liệu phương sai nhiệt độ của bộ
điều nhiệt ThermoRite là “có thể chấp nhận được”.

Máy điều hòa


1 2 3 4 5 6 7 8 9 10
nhiệt độ
Nhiệt độ 67.4 67.8 68.2 69.3 69.5 67.0 68.1 68.6 67.9 67.2
128

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : 𝜎 2 ≤ 0.5 và 𝐻0 : 𝜎 2 > 0.5
➢Trong đó 𝜎 2 = phương sai của tổng thể nhiệt độ.
❖2. Chọn mức ý nghĩa =.10
❖3. Thống kê kiểm định
➢Phương sai mẫu 𝑠 2 = 0.7
(𝑛−1)𝑠 2 9(.7)
➢𝜒 2 = 2
𝜒 = = 12.6
𝜎02 .5
TIẾP CẬN giá trị tới hạn
❖4a. Giá trị tới hạn
➢Vì đây là kiểm định bên phải nên bác bỏ H0
➢χ2.10 (9)= 14.684
129

❖ 5a. Quyết định


➢ Vì 𝜒 2 = 12.6 < χ2.10 (9)= 14.684 → không đủ cơ sở để bác bỏ 𝐻0 nên chấp
nhận 𝐻0 .
TIẾP CẬN p-value
❖ 4b. Tính p-value
➢ Căn cứ vào thống kê kiểm định 12.6 và bậc tự do df=9, tính p-value
=CHISQ.DIST.RT(12.6,9) = 0.1815.
❖ 5b. Quyết định
➢ Bởi vì p-value 0.1815 >= .10, →không đủ cơ sở để bác bỏ H0 nên chấp
nhận H0 .
❖ 6. Kết luận
➢ Với mức ý nghĩa 10%, có thể kết luận rằng phương sai nhiệt độ đối với bộ
điều nhiệt ThermoRite là chấp nhận được, tức đối với bộ điều nhiệt có
phương sai nhiệt độ từ 0.5 trở xuống.
5.3.1b
131

❖Với xác suất (1 –) để có được giá trị 𝜒 2 sao cho


2 2
➢𝜒(1−𝛼/2) ≤ 𝜒 2 ≤ 𝜒𝛼/2
❖Thay thế 𝑛 – 1 𝑠 2 /2 cho 𝜒 2 chúng ta nhận được
2 (𝑛−1)𝑠 2 2
➢𝜒(1−𝛼/2) ≤ ≤ 𝜒𝛼/2
𝜎2
❖Thực hiện vài phép biến đổi, kết quả sẽ là
(𝑛−1)𝑠 2 (𝑛−1)𝑠 2
➢ 2 ≤ 𝜎2 ≤ 2
𝜒𝛼/2 𝜒(1−𝛼/2)

➢Trong đó:
✓ 𝜒 2 các giá trị dựa trên phân phối Chi-square với n — 1 bậc tự do
✓ 1 — là hệ số tin cậy.
132

❖Căn bậc hai của các cận trên và dưới của khoảng phương sai sẽ
cung cấp khoảng tin cậy cho độ lệch chuẩn tổng thể.
(𝑛−1)𝑠 2 (𝑛−1)𝑠 2
➢ 2 ≤σ≤ 2
𝜒𝛼/2 𝜒(1−𝛼/2)
133

BÀI TOÁN
➢Bảng xếp hạng của Tổ chức BB cho biết bộ điều nhiệt được sản
xuất để kiểm soát nhiệt độ trong nhà. Trong một thử nghiệm
gần đây, 10 bộ điều nhiệt do Thermo Rite sản xuất đã được
chọn và đặt trong phòng thí nghiệm được duy trì ở nhiệt độ
68oF. Chúng ta sẽ sử dụng kết quả dưới đây để xác định khoảng
tin cậy đối xứng 95% cho phương sai tổng thể.

Bộ điều nhiệt 1 2 3 4 5 6 7 8 9 10
Nhiệt độ 67.4 67.8 68.2 69.3 69.5 67.0 68.1 68.6 67.9 67.2
134

❖Các giá trị được chọn từ Bảng phân phối Chi-square


❖Với n – 1 = 10 – 1 = 9 df và α= 0.05
.99 .975 .95 .90 .10 .05 .025 .01
Degrees Area in Area in Area in Area in Area in Area in Area in Area in
of Upper Upper Upper Upper Upper Upper Upper Upper
Freedom Tail Tail Tail Tail Tail Tail Tail Tail
5 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086
6 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812
7 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475
8 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090
9 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666
10 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209
135

❖Với df = n – 1 = 10 – 1 = 9 và α = 0.05

(𝑛 − 1)𝑠 2 2
2.700 ≤ 2 ≤ 𝜒.025
.025 𝜎

2
0 2.700
136

❖Hàm CHISQ.INV: Trả về nghịch đảo của xác suất bên trái của
phân phối Chi bình phương.
➢Syntax: CHISQ.INV(probability,deg_freedom)
❖Hàm CHISQ.INV.RT: Trả về nghịch đảo của xác suất bên phải
của phân phối Chi bình phương.
➢Syntax: CHISQ.INV.RT(probability,deg_freedom)
❖Cú pháp hàm CHISQ.INV.RT và CHISQ.INV có các đối số sau đây:
➢Probability: bắt buộc. Xác suất liên quan đến phân phối Chi bình
phương.
➢Deg_freedom: Bắt buộc. Bậc tự do.
137

❖Hàm CHISQ.DIST: Trả về phân phối Chi bình phương


➢Cú pháp: CHISQ.DIST(x,deg_freedom,cumulative)
❖Hàm CHISQ.DIST.RT: Trả về xác suất bên phải của phân phối chi
bình phương
➢Cú pháp : CHISQ.DIST.RT(x,deg_freedom)
❖Cú pháp CHISQ.DIST và CHISQ.DIST.RT có các đối số sau đây:
➢X: Bắt buộc. Giá trị mà bạn muốn đánh giá phân phối.
➢Deg_freedom: Bắt buộc. Bậc tự do.
➢Cumulative: Bắt buộc. Một giá trị logic xác định dạng của hàm.
Nếu cumulative là TRUE, CHISQ.DIST trả về hàm phân phối tích
lũy; nếu FALSE, nó trả về hàm mật độ xác suất.
138

LỜI GIẢI
❖Phương sai mẫu 𝑠 2 cung cấp ước lượng điểm của 𝜎 2
lj 2
σ(𝑥𝑖 −𝑥) 6.3
➢𝑠 2 = = = .70
𝑛−1 9
❖Khoảng tin cậy đối xứng 95% cho phương sai tổng thể
(10−1).70 (10−1).70
➢ ≤ 𝜎2 ≤
19.02 2.70
➢.33 ≤ 𝜎 2 ≤ 2.33
139

Khác biệt giữa 2 phương Hai mẫu ngẫu nhiên


sai tổng thể 𝜎12 /𝜎22 =? gồm 𝑛1 , 𝑛2 phần tử được chọn
từ tổng thể

Giá trị của s12 /s22 được sử dụng Dữ liệu mẫu cung cấp một giá trị
để suy luận khác biệt cho hai trung bình mẫu
về giá trị khác biệt 𝜎12 /𝜎22 s12 /s22

❖Suy luận thống kê về khác biệt giữa 2 phương sai tổng thể
➢Kiểm định giả thuyết (Hypothesis testing)
➢Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval:
CI)
5.3.2a
141

❖Gọi:
➢ 𝜎12 = phương sai của tổng thể 1 và 𝜎22 = phương sai của tổng thể 2.
➢ s12 = phương sai của mẫu 1 và s22 = phương sai của mẫu 2.
❖Các cặp giả thuyết
𝜎12 𝜎12
➢ Hai bên: 𝐻0 : 𝜎12 = 𝜎22 và 𝐻1 : 𝜎12 ≠ 𝜎22(𝐻0 : 2 = 1 và 𝐻1 : 2 ≠1)
𝜎2 𝜎2
𝜎 2 𝜎 2
➢ Bên trái: 𝐻0 : 𝜎12  𝜎22 và 𝐻1 : 𝜎12 < 𝜎22 (𝐻0 : 12 1 và 𝐻1 : 12 <1)
𝜎2 𝜎2
𝜎12 𝜎12
➢ Bên phải: 𝐻0 : 𝜎12  𝜎22 và 𝐻1 : 𝜎12 > 𝜎22 (𝐻0 : 2 1 và 𝐻1 : 2 >1)
𝜎2 𝜎2
❖Thống kê kiểm định (Test statistic)
𝑠12
➢𝐹 =
𝑠22
❖Chúng ta sử dụng dữ liệu được thu thập từ hai mẫu ngẫu nhiên độc
lập, một mẫu từ tổng thể 1 và một mẫu khác từ tổng thể 2.
❖Hai phương sai mẫu sẽ là cơ sở để suy luận về hai phương sai tổng
thể.
142

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: 𝐻0 : 𝜎12  𝜎22 và 𝐻1 : 𝜎12 < 𝜎22
𝐻0 : 𝜎12 = 𝜎22 và 𝐻1 : 𝜎12 ≠ 𝜎22
Bên phải: 𝐻0 : 𝜎12  𝜎22 và 𝐻1 : 𝜎12 > 𝜎22
2 Chọn mức ý nghĩa α
𝑠12
3 Tính thống kê kiểm định: 𝐹 =
𝑠22

4 Sử dụng thống kê kiểm định 𝐹 và bậc tự do 𝑑𝑓1 và 𝑑𝑓2 để tính p-value


So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
143

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng cặp giả thuyết
1 Bên trái: H0 : σ12  σ22 và H1 : σ12 < σ22
𝐻0 : 𝜎12 = 𝜎22 và 𝐻1 : 𝜎12 ≠ 𝜎22
Bên phải: H0 : σ12  σ22 và H1 : σ12 > σ22
2 Chọn mức ý nghĩa α
𝑠12
3 Tính thống kê kiểm định: 𝐹 =
𝑠22
Sử dụng mức ý nghĩa , bậc tự 𝑑𝑓1 và 𝑑𝑓2 , tra bảng phân phối F để tính giá trị
4
tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay
không
5 Bác bỏ 𝐻0 nếu 𝐹 ≥ 𝐹𝛼 df1 , df2 Bên trái: Bác bỏ 𝐻0 nếu F𝐹(1−α) df1 , df2
2
hay F<𝐹(1−𝛼) df1 , df2 Bên phải: Bác bỏ 𝐻0 nếu 𝐹 ≥ 𝐹α df1 , df2
2

6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
144

❖BÀI TOÁN
➢BB đã tiến hành thử nghiệm tương tự, như được mô tả trước
đó, trên 10 bộ điều nhiệt khác, lần này được sản xuất bởi
TempKing. Chúng tôi sẽ tiến hành kiểm định giả thuyết với α=
0.10 để xem phương sai của máy điều nhiệt ThermoRite và máy
điều nhiệt TempKing có bằng nhau không.

Bộ điều nhiệt 1 2 3 4 5 6 7 8 9 10
Nhiệt độ theo
67.4 67.8 68.2 69.3 69.5 67.0 68.1 68.6 67.9 67.2
mẫu ThermoRite
Nhiệt độ theo
67.7 66.4 69.2 70.1 69.5 69.7 68.1 66.6 67.3 67.5
mẫu TempKing
145

❖1. Xây dựng cặp giả thuyết


➢𝐻0 : 𝜎12 = 𝜎22 Bộ điều nhiệt TempKing và ThermoRite có cùng
phương sai
➢𝐻𝑎 : 𝜎12 ≠ 𝜎22 Các phương sai tổng thể không bằng nhau.
❖2. Chọn mức ý nghĩa = 0.10
❖3. Tính thống kê kiểm định
➢Phương sai mẫu của TempKing là 1.768. Phương sai mẫu của
ThermoRite là 0.7.
𝑠12
➢𝐹 = = 1.768/.700 = 2.53
𝑠22
146

TIẾP CẬN giá trị tới hạn


❖4a. Tính giá trị tới hạn
➢Bảng phân phối F cho thấy rằng với /2= 0.05, df tử số =9 và 9
df mẫu số =9, 𝐹.05 (9,9) = F.INV.RT(0.05,9,9)=3.18.
❖5a. Quyết định
➢Vì F = 2.53 < 𝐹.05 (9,9) = 3.18 → không đủ cơ sở để bác bỏ 𝐻0
TIẾP CẬN p-value
❖4b. Tính p-value
➢Với F=2.53, bậc tự do 𝑑𝑓1 = 9 và 𝑑𝑓2 = 9 và vì kiểm định hai
bên nên
➢p-value=F.DIST.RT(2.53,9,9)=0.091473.
147

❖5b. Quyết định


➢ p-value=0.091473 >0.05 → không đủ cơ sở
để bác bỏ 𝐻0
❖6. Kết luận
➢ Không có đủ bằng chứng để kết luận rằng
phương sai tổng thể khác nhau đối với hai
nhãn hiệu máy điều nhiệt, có nghĩa bộ điều
nhiệt TempKing và ThermoRite có cùng
phương sai.
148

BÀI TOÁN
➢Hai giảng viên đại học quan tâm đến việc liệu có bất kỳ sự thay
đổi nào trong cách họ chấm điểm học phần Thống kê Kinh
doanh và Kinh tế hay không. Mỗi người chấm cùng một bộ 30
bài kiểm tra. Phương sai điểm của giảng viên thứ nhất, thứ hai
tương ứng là 52.3 và 89.9. Kiểm định xem phương sai của giảng
viên thứ nhất nhỏ hơn không với mức ý nghĩa là 10%.
149

LỜI GIẢI
➢ Ký hiệu 1 và 2 tương ứng là các chỉ số phụ cho biết giảng viên thứ
nhất và thứ hai.
➢ 𝑛1 = 𝑛2 = 30.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜎12 = 𝜎22 hay 𝐻0 : 𝜎12 /𝜎22 =1
➢ 𝐻1 : 𝜎12 < 𝜎22 hay 𝐻1 : 𝜎12 /𝜎22 <1
❖2. Chọn mức ý nghĩa =10%
❖3. Tính thống kê kiểm định
s21 52.3
➢𝐹 = = = 0.5818
s22 89.9
❖4. Tính p-value
➢ Với F= 0.5818 và bậc tư do 𝑛1 − 1 = 29 và 𝑛2 − 1 = 29.
➢ p-value=F.DIST(0.5818,29,29,TRUE)= 0.075324
150

❖ 5. Quyết định
➢ Vì =10%=0.1>p-value=0.075324
➢ Nên bác bỏ 𝐻0 , chấp nhận 𝐻1
❖ 6. Kết luận
➢ Với mức ý nghĩa 10%, có đủ bằng chứng để kết luận rằng sự khác biệt về
điểm số cho giảng viên thứ nhất là nhỏ hơn.

F
0.5818
Chương 06
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định được thế nào là kiểm định phi tham số
➢Xác định những tình huống ứng dụng cho kiểm định phi tham
số
➢Thực hiện thành thạo những thủ tục trong
SPSS phù hợp cho kiểm định phi tham số
và đọc được kết quả kết xuất
3

❖Kiểm định phi tham số (đôi khi được gọi là kiểm định không
phân phối) không giả thiết bất cứ điều gì về phân phối.
❖Khi nào thì sử dụng kiểm định phi tham số?
➢Các kiểm định phi tham số thường là cách duy nhất để phân tích
dữ liệu phân loại.
➢Khi dữ liệu là định lượng phải chuyển đổi dữ liệu thành dữ liệu
phân loại thì tiến hành kiểm định phi tham số.
➢Một hoặc nhiều giả thiết của kiểm định tham số đã bị vi phạm.
➢Kích thước mẫu của bạn quá nhỏ để thực hiện kiểm định tham
số.
➢Dữ liệu có các giá trị ngoại lai không thể xóa được.
➢Muốn kiểm định trung vị hơn là trung bình.
4

❖Kiểm định dấu 1 mẫu: Sử dụng kiểm định này để ước lượng giá trị
trung bình của tổng thể và so sánh nó với giá trị tham chiếu hoặc giá
trị mục tiêu.
❖Kiểm định hạng dấu Wilcoxon 1 mẫu: Với kiểm định này, ước lượng
trung bình tổng thể và so sánh nó với giá trị tham chiếu/mục tiêu.
❖Kiểm định Friedman: được sử dụng để kiểm định sự khác biệt giữa
các nhóm có biến phụ thuộc thứ bậc.
❖Kiểm định Kruskal-Wallis: để tìm hiểu xem hai hoặc nhiều trung bình
có khác nhau hay không (Giống ANOVA một chiều).
❖Kiểm định Mann-Whitney: dùng để so sánh sự khác biệt giữa hai
nhóm độc lập khi các biến phụ thuộc là thứ bậc hoặc liên tục.
❖Tương quan hạng Spearman: Sử dụng khi muốn tìm mối tương quan
giữa hai bộ dữ liệu, đặc biệt khi dữ liệu có phần tử ngoại lại và những
biến thứ bậc.
5

❖So với kiểm định tham số, kiểm định phi tham số có một số ưu
nhược điểm sau:
❖Ưu điểm
➢Ít giả thiết hơn.
➢Cỡ mẫu nhỏ được chấp nhận.
➢Chúng có thể được sử dụng cho tất cả các loại dữ liệu, bao gồm
biến định danh, biến khoảng hoặc dữ liệu có giá trị ngoại lai
hoặc dữ liệu được đo lường không chính xác.
❖Nhược điểm
➢Ít hiệu quả hơn so với kiểm định tham số.
➢Tốn nhiều công sức hơn để tính toán thủ công.
➢Bảng giá trị tới hạn cho nhiều kiểm định không có trong nhiều
gói phần mềm máy tính.
7

❖Kiểm định dấu – hạng Wilcoxon là một phương pháp thống kê


phi tham số được sử dụng để so sánh cặp mẫu từ cùng một
nhóm khách hàng hoặc thực thể.
❖Phương pháp này được sử dụng khi dữ liệu không đáp ứng yêu
cầu về phân phối chuẩn hoặc khi giá trị của biến là các giá trị rời
rạc. Nó chỉ yêu cầu giả thiết rằng sự khác biệt có phân phối đối
xứng.
❖Trong kiểm định Wilcoxon Signed-Rank, chúng ta quan tâm đến
sự khác biệt giữa các giá trị của cặp mẫu, chẳng hạn như hiệu
giữa hai lần đo của cùng một biến cho mỗi cá thể trong nhóm.
Giá trị chênh lệch này có thể là dương hoặc âm, thể hiện hướng
của sự thay đổi.
8

❖Các bước thực hiện kiểm định Wilcoxon Signed-Rank bao gồm:
➢Tính giá trị chênh lệch (Dif) giữa các cặp mẫu.
➢Loại bỏ mọi cặp chênh lệch Dif bằng 0.
➢Lấy trị số tuyệt đối cho giá trị chệnh lệch |dif|
➢Xếp hạng n sự chênh lệch tuyệt đối còn lại theo thứ tự tăng dần.
➢Gán thứ hạng cho mỗi giá trị chênh lệch, nếu có các giá trị chênh
lệch trùng nhau, ta gán cùng một thứ hạng cho chúng và sau đó
tính trung bình các thứ hạng tương ứng.
➢Tính giá trị (T+) bằng tổng các thứ hạng có trị số chênh lệch là
dương.
➢Tính giá trị (T-) bằng tổng các thứ hạng có trị số chênh lệch là
âm.
➢Tính giá trị Thống kê kiểm định T (T = min(T+, T-)).
9

Gọi MeX và MeY tương ứng là trung vị của tổng thể X và 𝑌


❖1. Các cặp giả thuyết
➢Hai phía: H0 : MeX - MeY =0 và H1 : MeX - MeY  0
➢Phía phải: H0 : MeX - MeY 0 và H1 : MeX - MeY > 0
➢Phía trái: H0 : MeX - MeY  0 và H1 : MeX - MeY < 0
❖2. Chọn mức ý nghĩa 
❖3. Tính thống kê kiểm định
➢Tính giá trị chênh lệch (Dif) giữa các cặp mẫu.
➢Loại bỏ mọi cặp chênh lệch Dif bằng 0.
➢Lấy trị số tuyệt đối cho giá trị chệnh lệch |dif|
➢Xếp hạng n sự chênh lệch tuyệt đối còn lại theo thứ tự tăng dần.
10

➢Gán thứ hạng cho mỗi giá trị chênh lệch, nếu có các giá trị chênh
lệch trùng nhau, ta gán thứ hạng cho chúng và sau đó tính trung
bình các thứ hạng tương ứng.
➢Tính giá trị (T+) bằng tổng các thứ hạng có trị số chênh lệch là
dương.
➢Tính giá trị (T-) bằng tổng các thứ hạng có trị số chênh lệch là
âm.
➢Tính giá trị Thống kê kiểm định T (T = min(T+, W-)).
❖4. Tính giá trị tới hạn
➢Căn cứ vào mức ý nghĩa và bậc tự do tra Bảng Wilcoxon để tìm
giá trị tới hạn
11

❖5. Quyết định


➢Giả thuyết H0 bị bác bỏ nếu T  Giá trị tới hạng Thống kê kiểm
định Wilcoxon.
➢Chú ý kiểm định phải hay trái thì quan tâm đến thống kê kiểm
định T=T- hay T=T+
❖6. Kết luận
12

BÀI TOÁN
❖Người tiêu dùng tập trung g đánh giá mức độ hấp dẫn của hai thiết
kế bao bì cho một sản phẩm mới.
Khách hàng 1 2 3 4 5 6 7 8 9 10
Thiết kế 1 5 4 4 6 3 5 7 5 6 7
Thiết kế 2 8 8 4 5 9 9 6 9 3 9
❖Kiểm định giả thuyết rằng khách hàng không có sự khác biệt về ưa
thích giữa hai gói bằng cách sử dụng  = 0.01.

LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Không có sự khác biệt về xếp hạng ưu thích
➢ 𝐻1 : Có sự khác biệt về xếp hạng ưa thích
13

❖2. Tính thống kê kiểm định T


Thiết kế Thiết kế Hạng Hạng
Khách hàng Dif |dif| Hạng
1 2 (+) (-)
1 5 8 -3 3 4.5 4.5
2 4 8 -4 4 7 7
3 4 4 0 0 0
4 6 5 1 1 1.5 1.5
5 3 9 -6 6 9 9
6 5 9 -4 4 7 7
7 6 7 -1 1 1.5 1.5
8 5 9 -4 4 7 7
9 6 3 3 3 4.5 4.5
10 7 9 -2 2 3 3
T+ = 6 T- = 39
14

❖3. Tính thống kê kiểm định


➢Thống kê kiểm định chính là Thống kê hạng – dấu Wilcoxon W
➢T= min(T+ , T- ) = min(6,39)=T+=6
❖4. Tính giá trị tới hạn
➢Sử dụng Bảng Wilcoxon với n = 9,  = 0.01 thì giá trị tới
hạn 𝑇 𝑛 = 𝑇0.01 (9) = 4
❖5. Quyết định
➢Vì 𝑇 𝑑𝑓 = 𝑊0.01 (9) = 4 < T=T+=6, chúng ta không cơ sở để
bác bỏ giả thuyết H0 .
❖Kết luận
➢Vậy, với mức ý nghĩa 10% có thể kết luận không có biệt ưa thích
giữa hai gói.
15

❖Đối với cỡ mẫu n, bảng hiển thị, 


n
.005 .010 .025 .050
đối với các xác suất đã chọn ,
4 0 0 0 0
những giá 𝑡𝑟ị 𝑇 thỏa mãn 5 0 0 0 1
𝑃(T T )=, trong đó phân phối 6 0 0 1 3
của biến ngẫu nhiên W là của 7 0 1 3 4
thống kê kiểm định Wilcoxon theo 8 1 2 4 6
9 2 4 6 9
giả thuyết H0 . 10 4 6 9 11
11 6 8 11 14
12 8 10 14 18
❖Với n=9 và =0.01,→𝑇.01 (9) = 4. 13 10 13 18 22
14 13 16 22 26
15 16 20 26 31
16 20 24 30 36
17 24 28 35 42
18 28 33 41 48
19 33 38 47 54
20 38 44 53 61
16

BÀI TOÁN
❖Một nhà hàng Ý gần khuôn viên trường đại
học Kinh tế đã đề xuất một công thức mới Sốt
cho nước sốt được sử dụng trên bánh pizza Sốt pizza
pizza của mình. Một mẫu ngẫu nhiên gồm Student ban đầu mới
8 sinh viên đã được chọn, và mỗi em được A 6 8
yêu cầu đánh giá hương vị của nước sốt B 4 9
ban đầu và loại mới được đề xuất trên C 5 4
thang điểm từ 1 đến 10. D 8 7
E 3 9
❖Điểm số của so sánh hương vị như trên
F 6 9
Bảng sau, với con số cao hơn cho thấy sự
G 7 7
thích thú hơn đối với sản phẩm.
H 5 9
❖Dữ liệu có cho thấy xu hướng chung là
thích nước sốt pizza mới hơn sốt pizza
ban đầu không?
17

LỜI GIẢI
❖1. Cặp giả thuyết
➢H0 : Sinh viên thích nước sốt pizza ban đầu hơn sốt pizza mới
➢H1 : Sinh viên thích nước sốt pizza mới hơn sốt pizza ban đầu
❖2. Chọn mức ý nghĩa 5%
❖3. Tính thống kê kiểm định
Sinh viên Sốt pizza ban đầu Sốt pizza mới dif |dif Hạng Hạng (+) Hạng (-)
A 6 8 -2 2 3 3
B 4 9 -5 5 6 6
C 5 4 1 1 1.5 1.5
D 8 7 1 1 1.5 1.5
E 3 9 -6 6 7 7
F 6 9 -3 3 4 4
G 7 7 0 0
H 5 9 -4 4 5 5
T+=3 T-=25
18

CHÚ Ý: T+ có nghĩa sinh viên thích nước sốt ban đầu hơn và
ngược lại.
➢Thống kê kiểm định
✓ T= min(T+ , T- ) = min(3, 25)=T+=3
❖4. Tính giá trị tới hạn
➢Với mức ý nghĩa 5%, bậc tự do là 7, trả bảng phân phối
Wilcoxon Signed-Rank, chúng ta được 𝑇0.05 7 =4.
➢Vì T=3 < 𝑇0.05 7 =4 nên chúng ta sẽ bác bỏ giả thuyết H0 .
❖5. Quyết định
➢So sánh thống kê kiểm định và giá trị tới hạn để quyết địnhbác
bỏ giả thuyết H0 hay không.
➢Giả thuyết H0 bị bác bỏ nếu T  Giá trị Thống kê kiểm định
Wilcoxon.
19

❖6. Kết luận


➢Với mức ý nghĩa 5%, chúng ta có thể kết luận rằng sinh viên
thích nước sốt mới hơn.
20

❖Một xấp xỉ chuẩn có thể được sử dụng khi


➢Các mẫu cặp được quan sát
➢Cỡ mẫu lớn (n > 20)
➢Kiểm định giả thuyết là sự phân phối tổng thể của sự khác biệt
tập trung vào số không.
21

❖Đặt T- biểu thị tổng các hạng có dấu âm.


❖Đặt T+ là tổng các hạng có dấu dương.
❖Nếu trung vị của hai tổng thể bằng nhau, chúng ta sẽ mong đợi
tổng các hạng có dấu âm và tổng của các hạng có dấu dương sẽ
xấp xỉ bằng nhau.
❖Chúng ta sử dụng T+ làm thống kê kiểm định.
❖Phân phối mẫu của T+ cho kiểm định hạng –dấu Wilcoxon
𝑛(𝑛+1)
➢Trung bình: 𝜇T+ =
4
𝑛(𝑛+1)(2𝑛+1)
➢Độ lệch chuẩn: 𝜎 𝑇 + =
24
22

❖Đối với n lớn, phân phối của biến ngẫu nhiên, z, xấp xỉ chuẩn
chuẩn
𝑛(𝑛+1)
T−𝜇𝑇 W−
➢𝑧 = = 4
𝜎𝑇 𝑛(𝑛+1)(2n+1)
24

❖Nếu số, n, của các khác biệt lớn và T là giá trị quan sát được của
thống kê Wilcoxon, thì các kiểm định sau đây có mức ý nghĩa .
➢Nếu giả thuyết thay thế là một đuôi, bác bỏ giả thuyết H0
nếu 𝑧 ≥ 𝑧𝛼
➢Nếu giả thuyết thay thế là hai mặt, bác bỏ giả thuyết H0 nếu
|𝑧| ≥ 𝑧𝛼/2
23

❖BÀI TOÁN Văn Qua đêm Chuyến bay


➢ Một công ty đã quyết định chọn một phòng (giờ) Nite (giờ)
trong hai dịch vụ chuyển phát nhanh để 1 32 25
cung cấp dịch vụ giao hàng cho các văn 2 30 24
phòng quận của mình. Để kiểm định thời
3 19 15
gian giao hàng của hai dịch vụ, công ty
gửi hai báo cáo đến một mẫu gồm 10 văn 4 16 15
phòng của mình, với một báo cáo do dịch 5 15 13
vụ thứ nhất thực hiện và báo cáo còn lại 6 18 15
do dịch vụ thứ hai thực hiện. Dữ liệu trên 7 14 15
bảng có cho thấy sự khác biệt trong hai 8 10 8
dịch vụ không?
9 7 9
10 16 11
24

Qua Chuyến
Văn phòng đêm bay Dif |Dif| Rank Rank (+) Rank (-)
1 32 25 7 7 10 10
2 30 24 6 6 9 9
3 19 15 4 4 7 7
4 16 15 1 1 1.5 1.5
5 15 13 2 2 4 4
6 18 15 3 3 6 6
7 14 15 -1 1 1.5 1.5
8 10 8 2 2 4 4
9 7 9 -2 2 4 4
10 16 11 5 5 8 8
T+=49.5 T-=5.5
25

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ H0 : Chênh lệch thời gian giao hàng trung bình của hai dịch vụ bằng 0.
➢ H1 : Chênh lệch thời gian giao hàng trung bình của hai dịch vụ khác 0.
❖2. Sử dụng mức ý nghĩa 0.05
❖3. Thống kê kiểm định
𝑛(𝑛+1) 10(10+1)
➢ 𝜇𝑇+ = = = 27.5
4 4
𝑛(𝑛+1)(2𝑛+1) 10(11)(21)
➢ 𝜎𝑇+ = = = 9.81
24 24
49.5−27.5
➢𝑧 = =1.68
9.81
➢ Vì /2=0.025→𝑧0.025 = 1.96
➢ Z=1.68 < 𝑧0.025 = 1.96
26

❖4. Tính p-value


+ 49.5−27.5
➢p(𝑇 ≥ 49.5) = 𝑃 𝑧 ≥ = 𝑝(𝑧 ≥ 1.68)
9.81
➢p-value= 2(1.0000 - 0.9798) = 0.024
❖5. Quyết định
➢So sánh mức ý nghĩa và p-value, kết quả: p-value=0.024< 0.05
→Bác bỏ 𝐻0 .
❖6. Kết luận
➢Có đủ bằng chứng trong mẫu để kết luận rằng có sự khác biệt về
thời gian giao hàng trung bình do hai dịch vụ cung cấp.
28

❖Kiểm định Mann-Whitney U được sử dụng để so sánh sự khác


biệt giữa hai nhóm độc lập khi biến phụ thuộc là biến thứ bậc
hoặc liên tục nhưng không phân phối chuẩn.
❖Giả sử rằng 𝑛1 các quan sát có sẵn từ tổng thể đầu tiên và 𝑛2
quan sát từ lần thứ hai.
❖Hai mẫu được gộp lại và các quan sát được xếp hạng theo thứ
tự tăng dần với các mối quan hệ được gán mức trung bình của
các hạng có sẵn tiếp theo.
❖𝑅1 biểu thị tổng thứ hạng của các quan sát từ tổng thể đầu tiên.
❖𝑅2 biểu thị tổng thứ hạng của các quan sát từ tổng thể thứ hai
29

❖Kiểm định Mann-Whitney U dựa trên thống kê Mann-Whitney U


được xác định như sau:
𝑛1 (𝑛1 +1)
➢U1 = 𝑛1 𝑛2 + − 𝑅1
2
𝑛 (𝑛 +1)
➢hoặc là U2 = 𝑛1 𝑛2 + 2 2 − 𝑅2
2
❖Thống kê Mann-Whitney U có trung bình và phương sai:
𝑛1 𝑛2
➢Trung bình: 𝐸(𝑈) = 𝜇𝑈 =
2
𝑛1 𝑛2 (𝑛1 +𝑛2 +1)
➢Phương sai: Var(𝑈) = 𝜎𝑈2 =
12
30

❖1. Xây dựng cặp giả thuyết


➢H0 :Trung vị của hai phân phối tổng thể là như nhau
➢H1 : Trung vị của hai phân phối tổng thể không giống nhau
❖2. Chọn mức ý nghĩa 
❖3. Thống kê kiểm định
➢U=min(U1 , U2 )
❖4. Quyết định
➢Căn cứ vào mức ý nghĩa, xác định giá trị tới hạn U(n1 , n2 , /2)
hay U(n1 , n2 , ) tùy theo loại giả thuyết.
31

❖5. Quyết định bác bỏ hay chấp nhận giả thuyết dựa vào quy tắc
bác bỏ
➢Đối với giả thuyết hai đuôi:
✓ Bác bỏ H0 nếu U  U(𝑛1 , 𝑛2 , /2)
➢Đối với giả thuyết đuôi trái:
✓ Bác bỏ H0 nếu U ≤ U(𝑛1 , 𝑛2 , )
➢Đối với giả thuyết đuôi phải
✓ Bác bỏ H0 nếu UU (𝑛1 , 𝑛2 , )
❖6. Kết luận: Giải thích quyết định trong ngữ cảnh của ứng dụng.
32

❖Đối với cỡ mẫu lớn (cả hai ít nhất là 10), phân phối của biến
ngẫu nhiên
𝑈−𝜇𝑈
➢𝑧 = xấp xỉ phân phối chuẩn.
𝜎𝑈
❖Quy tắc quyết định cho giả thuyết H0 rằng hai tổng thể có cùng
trung vị
➢Đối với giả thuyết đuôi phải
𝑈−𝜇𝑈
✓ Bác bỏ H0 if z =  − 𝑧𝛼
𝜎𝑈
➢Đối với giả thuyết đuôi trái
𝑈−𝜇𝑈
✓ Bác bỏ H0 if z = 𝑧𝛼
𝜎𝑈
➢Đối với giả thuyết hai đuôi
𝑈−𝜇𝑈 𝑈−𝜇𝑈
✓ Bác bỏ H0 nếu z =  − 𝑧α/2 hay z = 𝑧α/2
𝜎𝑈 𝜎𝑈
33

BÀI TOÁN
➢ Một cách tiếp cận mới để chăm sóc trước khi sinh được cho phụ nữ
mang thai. Một kiểm định ngẫu nhiên với 15 phụ nữ mang thai để
đánh giá liệu những phụ nữ tham gia chương trình có sinh con
khỏe mạnh hơn những phụ nữ được chăm sóc chuẩn hay không.
Kết quả là điểm số APGAR được đo 5 phút sau khi sinh. Hãy nhớ lại
rằng điểm APGAR nằm trong khoảng từ 0 đến 10 với điểm từ 7 trở
lên được coi là chuẩn (khỏe mạnh), 4-6 thấp và 0-3 cực kỳ thấp.
Các dữ liệu được hiển thị dưới đây.
Chăm sóc thông thường 8 7 6 2 5 8 7 3
Chương trình mới 9 9 7 8 10 9 6

➢ Có bằng chứng thống kê nào về sự khác biệt về điểm số APGAR ở


những phụ nữ được chăm sóc trước khi sinh mới và nâng cao so
với thông thường không?
34

LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Hai tổng thể bằng nhau
➢ 𝐻1 : Hai tổng thể không bằng nhau.
❖2. Mức ý nghĩa α = 0.05
❖3. Tính thống kê kiểm định
➢ Khi mẫu nhỏ (𝑛1 =8 và 𝑛2 =7), sử dụng kiểm định Mann Whitney U.
➢ Thống kê kiểm định là U =min(𝑈1 , 𝑈1 )
𝑛1 (𝑛1 +1)
➢ U1 = 𝑛1 𝑛2 + − 𝑅1
2
𝑛2 (𝑛2 +1)
➢ U2 = 𝑛1 𝑛2 + − 𝑅2
2
➢ Trong đó 𝑅1 và 𝑅2 lần lượt là tổng các hạng trong nhóm 1 và 2.
35

❖Tính thống kê kiểm định Tổng số mẫu


(Từ nhỏ nhất Hạng
➢Trong nhóm chăm sóc Chăm đến lớn nhất)
Chương
sóc Chăm Chăm
thông thường, tổng các thông
trình
sóc
Chương
sóc
Chương
mới trình trình
hạng là 𝑅1 =45.5 và trong thường thông
mới
thông
mới
thường thường
nhóm chương trình mới, 8 9 2 1
tổng các hạng là 𝑅2 =74.5. 7 8 3 2
6 7 5 3
➢Chú ý: Tổng của các hạng 2 8 6 6 4.5 4.5
5 10 7 7 7 7
sẽ luôn bằng n(n+1)/2. Để 8 9 7 7
kiểm định việc gán hạng, 7 6 8 8 10.5 10.5
3 8 8 10.5 10.5
chúng ta có n(n+1)/2 = 9 13.5
9 13.5
15(16)/2=120 bằng 10 15
45.5+74.5 = 120. R1=45.5 R2=74.5
36

❖Bây giờ chúng ta tính U1 và Tổng số mẫu


U2 như sau: (Từ nhỏ nhất đến Hạng
Chăm lớn nhất)
Chương
𝑛1 (𝑛1 +1) sóc Chăm Chăm
➢U1 = 𝑛1 𝑛2 + − thông
trình
sóc
Chương
sóc
Chương
2 mới trình trình
thường thông thông
𝑅1 =8*7+8*9/2 – thường
mới
thường
mới
45.5=46.5 8 9 2 1
7 8 3 2
𝑛 (𝑛 +1) 6 7 5 3
➢U2 = 𝑛1 𝑛2 + 2 2 − 2 8 6 6 4.5 4.5
2
𝑅2 = 8*7+7(8)/2- 74.5=9.5 5 10 7 7 7 7
8 9 7 7
➢Như vậy, thống kê kiểm 7 6 8 8 10.5 10.5
3 8 8 10.5 10.5
định là U=min(9.5, 9 13.5
46.5)=9.5 9 13.5
10 15
R1=45.5 R2=74.5
37

❖4. Tính giá trị tới hạn và thiết lập quy tắc quyết định.
➢Với kiểm định hai bên và mức ý nghĩa α=0.05, kích thước 𝑛1 =8
và 𝑛2 =7, giá trị tới hạn cho kiểm định này là 10.
➢Quy tắc quyết định như sau: Bác bỏ 𝐻0 nếu U < 10.
❖5. Quyết định
➢Chúng ta Bác bỏ 𝐻0 bởi vì 9.5 < 10
❖6. Kết luận
➢Chúng ta có bằng chứng có ý nghĩa thống kê ở mức α = 0.05 để
chỉ ra rằng tổng thể điểm APGAR không bằng nhau giữa những
phụ nữ được chăm sóc trước khi sinh thông thường so với
những phụ nữ được chăm sóc trước khi sinh theo chương trình
mới.
38
𝑛2
𝑛1
2 3 4 5 6 7 8 9 10
2 0 0 0
3 0 1 1 2 2 3
4 0 1 2 3 4 4 5
5 0 1 2 3 5 6 7 8
6 1 2 3 5 6 7 10 11
7 1 3 5 6 8 10 12 14
8 0 2 4 6 7 10 13 15 17
9 0 2 4 7 10 12 15 17 20
10 0 3 5 8 11 14 17 20 23
11 0 3 6 9 13 16 19 23 26
12 1 4 7 11 14 18 22 26 29
13 1 4 8 12 16 20 24 28 33
Với kiểm định hai bên và mức ý nghĩa α=0.05, 𝑛1 =8 và 𝑛2 =7, giá
trị tới hạn cho kiểm định này là 10.
40

❖Kiểm định Mann-Whitney-Wilcoxon dựa trên hai mẫu độc lập.


❖Ưu điểm của thủ tục này là:
➢Có thể được sử dụng với dữ liệu thứ bậc hoặc dữ liệu định
lượng.
➢Không yêu cầu giả thiết rằng các tổng thể có phân phối chuẩn.
❖Cặp giả thuyết là:
➢H0 : Hai mẫu độc lập không khác nhau về phân phối
➢H1 : Hai mẫu độc lập khác nhau về phân phối.
41

❖1. Xây dựng cặp giả thuyết


➢𝐻0 : Hai mẫu độc lập không khác nhau về phân phối
➢𝐻1 : Hai mẫu độc lập khác nhau về phân phối.
❖2. Chọn mức ý nghĩa 
❖3. Tính thống kê kiểm định
➢Đầu tiên, xếp hạng dữ liệu kết hợp từ các giá trị thấp nhất đến
cao nhất.
➢Sau đó, tính W, tổng các thứ hạng của mẫu đầu tiên.
➢Phân phối mẫu của W với các tổng thể giống hệt nhau
➢Trung bình:
1
✓ 𝜇𝑊 = 𝑛 (𝑛 + 𝑛2 + 1)
2 1 1
42

➢ Độ lệch chuẩn:
1
✓ 𝜎𝑊 = 𝑛 𝑛 (𝑛 + 𝑛2 + 1)
12 1 2 1

➢ Dạng phân phối (Distribution Form)


✓ Xấp xỉ chuẩn, miễn là 𝑛1 ≥ 7 và 𝑛2 ≥ 7
➢ Thống kê kiểm định
𝑤−𝜇𝑤
✓𝑧 =
𝜎𝑤
❖4. Căn cứ vào thống kê kiểm định, tính giá trị xác suất p-value
❖5. Quyết định chấp nhận hay bác bỏ giả thuyết.
➢ So sánh mức ý nghĩa  và p-value
➢ Bác bỏ 𝐻0 nếu   p-value
❖6. Kết luận:
➢ Giải thích quyết định trong ngữ cảnh của ứng dụng.
43

❖BÀI TOÁN
➢Nhà sản xuất cho biết chi phí Tủ đông Westin Tủ đông Easton
($) ($)
năng lượng hàng năm liên
quan đến việc vận hành các 55.10 56.10
thiết bị gia dụng như tủ đông. 54.50 54.70
➢Chi phí năng lượng cho một 53.20 54.40
mẫu gồm 10 tủ đông Westin 53.00 55.40
và 10 tủ đông Easton. Từ dữ 55.50 54.10
liệu chỉ ra, sử dụng = 0.05, 54.90 56.00
liệu có sự khác biệt trong chi
55.80 55.50
phí năng lượng hàng năm cho
54.00 55.00
hai nhãn hiệu tủ đông không?
54.20 54.30
55.20 57.00
44

LỜI GIẢI
❖1. Xây dựng các giả thuyết
➢ 𝐻0 : Chi phí năng lượng hàng năm cho tủ đông Westin và Easton là
như nhau.
➢ 𝐻1 : Chi phí năng lượng hàng năm cho tủ đông Westin và Easton là
khác nhau.
❖2. Chọn mức ý nghĩa =5%
❖3. Tính thống kê kiểm định
➢ Đầu tiên, xếp hạng dữ liệu kết hợp từ các giá trị thấp nhất đến cao
nhất như bảng ở slide sau và tính được tổng các thứ hạng của mẫu
đầu tiên (W)=86.5
➢ Trung bình:
1 1
✓ 𝜇𝑊 = 𝑛1 (𝑛1 + 𝑛2 + 1)= 10(10 + 10 + 1)=105
2 2
45

Tủ đông Tủ đông
Hạng Hạng
westin($) easton($)
55.10 12 56.10 19
54.50 8 54.70 9
53.20 2 54.40 7
53.00 1 55.40 14
55.50 15.5 54.10 4
54.90 10 56.00 18
55.80 17 55.50 15.5
54.00 3 55.00 11
54.20 5 54.30 6
55.20 13 57.00 20
Tổng hạng 86.5 Tổng hạng 123.5
46

➢Độ lệch chuẩn


1
✓ 𝜎𝑊 = 𝑛 𝑛 (𝑛 + 𝑛2 + 1)= Phân phối mẫu của W
12 1 2 1
với các tổng thể giống nhau
1
1010 (10 + 1 + 1)=13.23
12
 W = 1 12 n1 n2 (n1 + n2 + 1)
➢Dạng phân phối
= 1 (10)(10)(21)
12
✓ Vì 𝑛1 = 10 ≥ 7 và 𝑛2 = 10 ≥ 7
= 13.23
➢Nên phân phối W xấp xỉ chuẩn,
tiến hành chuẩn chuẩn hóa
86.5−105
✓ z= =-1.40
13.23
W
W= ½(10)(21) = 105
47

❖4. Tính p-value


➢p-value = .1616
❖5. Quyết định
➢p-value = .1616>=0.05→ Không bác bỏ 𝐻0
❖6. Kết luận
➢Không đủ bằng chứng trong dữ liệu mẫu để kết luận rằng có sự
khác biệt về chi phí năng lượng hàng năm liên quan đến hai
nhãn hiệu tủ đông.
48

❖1. Nhập liệu vào SPSS và lưu tên File ChiphiNangluong với 2 trường:
➢ CPNL: Chi phí năng lượng
➢ Loai: Loại với Value lables
✓ 1= Tủ đông Westin
✓ 2= Tủ đông Easton
❖2. Trên thanh công cụ, Analyze →Nonparametric Tests →2
Independent Samples.
❖3. Trong cửa sổ hiện lên, chuyển biến CPNL vào ô Test Variable List,
và đưa biến Loai vào ô Grouping Variable và →Mann-Whitney U
trong phần Test type.
❖4. Define Groups...→ sau đó nhập số 1 vào ô Group1, số 2 vào ô
Group 2 (biến Loai có 2 giá trị là 1 và 2, việc nhập như vậy giúp SPSS
phân biệt tổng thể Tủ đông Westin và Tủ đông Easton trên biến Loai)
49

❖6. Continue để quay về cửa sổ trước, và Ok để nhận kết quả


Ranks
Mean Sum of
Loai N Rank Ranks
CPNL Tủ đông Westin 10 8.65 86.50
Tủ đông Easton 10 12.35 123.50
Total 20

Test Statisticsa
CPNL
Mann-Whitney U 31.500
Wilcoxon W 86.500
Z -1.399
Asymp. Sig. (2-tailed) 0.162
b
Exact Sig. [2*(1-tailed Sig.)] .165
a. Grouping Variable: Loai
b. Not corrected for ties.
51

❖Kiểm định Mann-Whitney-Wilcoxon đã được mở rộng bởi


Kruskal và Wallis cho các trường hợp có ba tổng thể trở lên.
➢𝐻0 : Tất cả các tổng thể đều giống nhau
➢𝐻1 : Không phải tất cả các tổng thể đều giống nhau
❖Kiểm định Kruskal-Wallis có thể được sử dụng với dữ liệu thứ
bậc cũng như với dữ liệu khoảng hoặc tỷ lệ.
❖Ngoài ra, kiểm định Kruskal-Wallis không yêu cầu giả thiết về
tổng thể phân phối chuẩn.
52

❖Thống kê kiểm định (Test Statistic)


2
12 𝑘 𝑅𝑖
➢𝐻 = σ𝑖=1 − 3(𝑛 𝑇 + 1)
𝑛𝑇 (𝑛𝑇 +1) 𝑛𝑖

❖Trong đó:
➢k = số tổng thể
➢𝑛𝑖 = số quan sát trong mẫu i
➢𝑛 𝑇 = σ𝑛𝑖 = tổng số quan sát trong tất cả các mẫu
➢𝑅𝑖 = tổng các hạng của mẫu i
53

❖Khi các tổng thể giống nhau, phân phối mẫu của thống kê kiểm
định H có thể được xấp xỉ phân phối Chi bình phương với k – 1
bậc tự do.
❖Tính xấp xỉ này có thể chấp nhận được nếu mỗi cỡ mẫu 𝑛𝑖 > 5.
❖Kiểm định này luôn được thể hiện dưới dạng kiểm định đuôi
phải.
❖Quy tắc bác bỏ là: Bác bỏ 𝐻0 nếu p-value ≤
54

❖BÀI TOÁN
➢ Giám đốc thể thao tại trường đại học Không Thể thao Thể thao
ABC, quan sát về việc liệu tổng số lần thể thao 1 2
vắng mặt của học sinh trong bốn năm có 13 18 12
giống nhau đối với những học sinh không 16 12 22
tham gia môn thể thao nào và hai môn 6 19 9
thể thao. 27 7 11
➢ Dữ liệu về số lần vắng mặt có sẵn cho 20 20 15 15
sinh viên tốt nghiệp gần đây và được liệt 14 20 21
kê trên bảng bên. 17 10
➢ Kiểm định xem ba tổng thể có giống nhau
về số lần vắng mặt hay không. Sử dụng
= .10.
55

LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Số vắng mặt bı̀nh quân giữa các loại thể thao đều giống nhau
➢ 𝐻1 : Không phải tất cả số vắng mặt của các loại thể thao đều giống
nhau
❖2. Chọn mức ý nghĩa α=5%
❖3. Thống kê kiểm định Kruskal-Wallis
2
12 𝑘 𝑅𝑖
➢𝐻= σ
𝑛𝑇 (𝑛𝑇 +1) 𝑖=1 𝑛𝑖
− 3(𝑛 𝑇 + 1)
➢ k = 3 tổng thể, 𝑛1 = 6, 𝑛2 = 7, 𝑛3 = 7, 𝑛 𝑇 = 20
2
12 𝑘 𝑅𝑖
➢𝐻 = σ − 3(𝑛 𝑇 + 1)
𝑛𝑇 (𝑛𝑇 +1) 𝑖=1 𝑛𝑖

12 (66.5)2 (77.5)2 (66.0)2


➢= + − 3(20 + 1) = .3532
20(20+1) 6 7 7
56

TIẾP CẬN p-value


Không
❖4a. Tính p-value Thể Thể
thể Hạng Rank Hạng
thao 1 thao 2
➢Với H= 𝜒 = 03532, và
2 thao
13 8 18 14 12 6.5
bậc tự do là (3-1)=2,
16 12 12 6.5 22 19
➢p-value = 6 1 19 15 9 3
CHISQ.DIST.RT(0.3532,2)= 27 20 7 2 11 5
0.838115 20 16.5 15 10.5 15 10.5
14 9 20 16.5 21 18
❖5a. Quyết định 17 13 10 4
➢Vì p-value = 0.838115 Total 66.5 77.5 66
>=0.10→ Không đủ cơ sở
để bác bỏ 𝐻0 , chấp nhận 𝐻0
57

TIẾP CẬN giá trị tới hạn


❖4b. Tính giá trị tới hạn
➢Tra bảng phân phối 𝜒 2 với mức ý nghĩa 10% và bậc tự do là (3-
1)=2, kết quả:
2
➢𝜒0.1 2 =4.605
❖5b. Quyết định
➢Vì 𝜒 2 =H=.3532 <𝜒0.12
2 =4.605
➢ → Không đủ cơ sở để bác bỏ 𝐻0 , chấp nhận 𝐻0
❖6. Kết luận
➢Không có đủ bằng chứng để kết luận rằng các tổng thể không
giống nhau, tức số buổi vắng mặt giữa các loại thể thao là giống
nhau..
58

❖Bước 1. Nhập liệu vào SPSS và lưu tên File Vangthethao với 2 trường:
➢ Sobuoivang: Số buổi vắng
➢ Loaithethao: Loại thể thao với
➢ Value lables
✓ 0= Không có
✓ 1= Thể thao 1
✓ 2= Thể thao 2
59

❖Bước 2. Trên thanh công cụ,


Analyze→Nonparametric
Tests→Legacy Dialogs→K
Independent Samples…→ xuất
hiện hộp thoại Test for Several
Independent Samples
60

❖Bước 3. Tại hộp thoại Test for


Several Independent Samples,
chuyển biến Sobuoivang
vào Test Variable List, chuyển
biến Loaithethao vào grouping
variable. → Define Range và
nhập minimum =0 và maximum
=2 →Continue để quay lại hộp
thoại Test for Several
Independent Samples.
❖Bước 4. Tại hộp thoai Test for
Several Independent Samples,
Kruskal-Wallis H
❖Bước 5. OK, được kết quả
61

❖Kết quả
Ranks
Loaithethao N Mean Rank
Không có 6 11.08
Thể thao 1 7 11.07
Sobuoivang
Thể thao 2 7 9.43
Total 20
Test Statisticsa,b
Sobuoivang
Kruskal-Wallis H 0.354
df 2
Asymp. Sig. 0.838
a. Kruskal Wallis Test
b. Grouping Variable: Loaithethao
63

❖Giả sử rằng một mẫu ngẫu nhiên (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) của n cặp
quan sát được lấy. Nếu 𝑥𝑖 và 𝑦𝑖 được xếp hạng theo thứ tự tăng
dần và mối tương quan mẫu của các cấp bậc này được tính toán,
hệ số kết quả được gọi là hệ số tương quan xếp hạng Spearman.
Nếu không có thứ hạng X hoặc Y bị ràng buộc, công thức để tính
hệ số tương quan hạng Spearman, 𝑟𝑠 :
6 σ 𝑑𝑖2
➢𝑟𝑠 = 1 −
𝑛(𝑛2 −1)
➢Trong đó:
✓ n = số quan sát được xếp hạng
✓ 𝑥𝑖 = thứ hạng của quan sát i đối với biến đầu tiên
✓ 𝑦𝑖 = thứ hạng quan sát i đối với biến thứ hai
✓ 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
64

❖Tính chất
➢ |𝑟𝑠 | 1
➢ 𝑟𝑠 >0 Mối quan hệ giữa X và Y là thuận.
➢ 𝑟𝑠 < 0 Mối quan hệ giữa X và Y là nghịch.
➢ Nếu không có mối quan hệ giữa X và Y, thì 𝑟𝑠 sẽ bằng không.
➢ Giá trị của 𝑟𝑠 sẽ là +1 nếu hạng của X hoàn toàn trùng với hạng của
Y.
➢ Giá trị của 𝑟𝑠 sẽ là -1 nếu thứ hạng của X theo thứ tự ngược lại với
thứ hạng của Y.
65

❖Chúng ta phải kiểm định các giả thuyết:


➢H0 : ρ𝑠 = 0 Không tồn tại tương quan hạng trong tổng thể
➢H0 : ρ𝑠 ≠0 Tồn tại tương quan hạng trong tổng thể
❖Để kiểm định tồn tại tương quan hạng thuận (positive
association), quy tắc quyết định là
➢Bác bỏ H0 nếu rS ≥rs,α
❖Để kiểm định tồn tại tương quan hạng nghịch (negative
association), quy tắc quyết định là
➢Bác bỏ H0 nếu rS ≤− rs,α
❖Để kiểm định tồn tại tương quan hạng hai phı́a (two-sided
alternative of some association), quy tắc quyết định là
➢Bác bỏ H0 nếu rS  − rs,α/2 hoặc rS rs,α/2
66

n  n 
0.05 0.025 0.01 0.005 0.05 0.025 0.01 0.005
5 0.9 — — — 18 0.399 0.476 0.564 0.625
6 0.829 0.886 0.943 — 19 0.388 0.462 0.549 0.608
7 0.714 0.786 0.893 — 20 0.377 0.45 0.534 0.591
8 0.643 0.738 0.833 0.881 21 0.368 0.438 0.521 0.576
9 0.6 0.683 0.783 0.833 22 0.359 0.428 0.508 0.562
10 0.564 0.648 0.745 0.794 23 0.351 0.418 0.496 0.549
11 0.523 0.623 0.736 0.818 24 0.343 0.409 0.485 0.537
12 0.497 0.591 0.703 0.78 25 0.336 0.4 0.475 0.526
13 0.475 0.566 0.673 0.745 26 0.329 0.392 0.465 0.515
14 0.457 0.545 0.646 0.716 27 0.323 0.385 0.456 0.505
15 0.441 0.525 0.623 0.689 28 0.317 0.377 0.448 0.496
16 0.425 0.507 0.601 0.666 29 0.311 0.37 0.44 0.487
17 0.412 0.49 0.582 0.645 30 0.305 0.364 0.432 0.478
67

❖Lấy mẫu phân phối của 𝑟𝑠 khi 𝑠 = 0


➢ Trung bình
✓ 𝜇𝑟𝑠 = 0
➢ Độ lệch chuẩn
1
✓ 𝜎𝑟𝑠 =
𝑛−1

❖Dạng phân phối


➢ Để xấp xỉ phân phối chuẩn, quy tắc chung là kích thước mẫu nên ít 
30. Tuy nhiên, quy tắc này không luôn dùng và phụ thuộc vào phân
phối cơ bản và mức độ lệch của dữ liệu.
➢ Trong trường hợp hệ số tương quan hạng Spearman, các nghiên cứu
mô phỏng cho thấy rằng phân phối của thống kê kiểm định có thể
được xấp xỉ bằng phân phối chuẩn khi kích thước mẫu 10, và khi
không có các giá trị bị trùng lặp trong dữ liệu.
68

BÀI TOÁN
➢Công ty Crennor cung cấp dịch vụ quản lý danh mục đầu tư cho
khách hàng của mình. Hai trong số các chuyên gia phân tích của
Crennor đã xếp hạng mười khoản đầu tư như trong bảng.
Đầu tư A B C D E F G H I J
Chuyên gia 1 1 4 9 8 6 3 5 7 2 10
Chuyên gia 2 1 5 6 2 9 7 3 10 4 8
69

LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢H0 : s = 0 → Không tồn tại tương quan hạng giữa hai chuyên
gia phân tích
➢H1 : s ≠ 0 → Tồn tại tương quan hạng giữa hai chuyên gia
phân tích
❖2. Chọn mức ý nghĩa =5%
❖3. Tính thống kê kiểm định
6 σ 𝑑𝑖2 6(92)
➢𝑟𝑠 = 1 − =1− = 0.4424
𝑛(𝑛2 −1) 10(100−1)
➢𝑧 = (𝑟𝑠 − 𝑟 )/𝑟 = (.4424 - 0)/.3333 = 1.33
70

➢Trong đó:
1
➢𝜎𝑟𝑠 = = .333
10−1

Danh mục Hạng theo Hạng theo


đầu tư chuyên gia 1 chuyên gia 2 Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum =92
71

TIẾP CẬN p-value


❖4a. Tính p-value
➢Với z= 1.33, p-value= 2(1.0000 - .9082) = .1836
➢NORM.S.DIST(1.33,1)= .9082
❖5a. Quyết định
➢So sánh p-value và mức ý nghĩa, kết quả:
➢p-value= .1836>0.05→ Không đủ cơ sở để bác bỏ 𝐻0 nên chấp
nhận nó.
72

TIẾP CẬN giá trị tới hạn


❖4b. Tính giá trị tới hạn
➢Với n=10 và mức ý nghĩa 5% và kiểm định hai bên, tra bảng
phân phối Hệ số tương quan hạng Spearman
➢rs.025 (10) =.648
❖5b. Quyết định
➢So sánh giá trị tới hạn và rS , kết quả:
➢rs.025 (10) =.648 > |rS | =0.4424→ Không đủ cơ sở để bác bỏ 𝐻0
nên chấp nhận nó.
❖6. Kết luận
➢Với mức ý nghĩa 5%, kết luận rằng không có mối tương quan
hạng đáng kể. Hai nhà phân tích thể hiện sự nhất trí trong việc
xếp hạng rủi ro liên quan đến các khoản đầu tư.
73

❖Bước 1. Nhập liệu vào SPSS và lưu tên File Nhadautu với 3 trường:
➢ Danhmuc: Danh mục đầu tư
➢ Chuyengia1: Chuyên gia phân tích 1
➢ Chuyengia2: Chuyên gia phân tích 2
74

❖Bước 2: Trên thanh công cụ, Analyze →Correlate


→Bivariate...→xuất hiện hộp thoại Bivariate Correlations
75

❖Bước 3. Trong hộp thoại Bivariate Correlations, chuyển 2 biến


Chuyengia1 và chuyengia2 vào hộp Variables →Spearman trong
khoang Correlation Coefficients →Two-tailed →Flag
significant correlations.
76

❖Bước 4. OK, kết quả như sau


Correlations
Chuyengia Chuyengia
1 2
Correlation Coefficient 1.000 0.442
Chuyengia1 Sig. (2-tailed) 0.200
Spearman's N 10 10
rho Correlation Coefficient 0.442 1.000
Chuyengia2 Sig. (2-tailed) 0.200
N 10 10
❖Bước 5. Giải thích kết quả
➢ Vì Sig.=0.2> 0.05 vậy không đủ cơ sở để bác bỏ 𝐻0 .
➢ Vây, với mức ý nghĩa 5%, có thể kết luận rằng không tồn tại sự khác biệt
về đánh giá của hai chuyên gia về danh mục đầu tư.
78

❖Giả sử rằng chúng ta có một mẫu ngẫu nhiên 𝑥1 , 𝑥2 , … , 𝑥𝑛 . Thống


kê kiểm định cho kiểm định Jarque-Bera về tính chuẩn là
( skewness )2 ( kurtosis −3)2
➢ JB = 𝑛 +
6 24

❖Trường hợp sử dụng thông tin mẫu, Skewness của tổng thể được
ước tính bằng
σ𝑛
𝑖=1 𝑥𝑖 −𝑥᪄
3
➢ Skewness =
𝑛𝑠 3
❖Và Kurtosis được ước lượng bởi
σ𝑛
𝑖=1 𝑥𝑖 −𝑥᪄
4
➢ Kurtosis =
𝑛𝑠 4
79

❖Trong nhiều trường hợp, hai tham số tổng thể có thể được ước
lượng bằng công thức sau:
𝑛 (n−1)
➢Skewness = ×H
n−2
(n−1)𝑛(𝑛+1) 3(𝑛−1)2
➢Kurtosic = K −
(𝑛−2)(𝑛−3) (𝑛−2)(𝑛−3)
σ(𝑥i −𝑥)ҧ 3 σ 𝑥i −𝑥ҧ 4
➢Trong đó: H= σ(𝑥i −𝑥)ҧ 2 2
và K= 2
[σ 𝑥i −𝑥ҧ 2 ]
❖Đối với phân phối chuẩn
➢Hệ số đối xứng (Skewness Coefficient) = 0
➢Hệ số độ nhọn (Kurtosic Coefficient) = 3
80

❖Xem xét giả thuyết 𝐻0 : Phân phối tổng thể là chuẩn


❖Kiểm định Jarque-Bera về tính chuẩn dựa trên mức độ gần của
độ lệch mẫu với 0 và độ nhọn của mẫu với 3
❖Thống kê kiểm định là
(Skewness)2 (Kurtosis−3)2
➢JB = n +
6 24
❖Khi số lượng quan sát mẫu trở nên rất lớn, thống kê này có
phân phối Chi bình phương với bậc tự do là 2 (𝜒 2 2 )
❖Giả thuyết H0 bị bác bỏ đối với các giá trị lớn của thống kê kiểm
định.
81

❖Xấp xỉ Chi bình phương chỉ gần với cỡ mẫu rất lớn
❖Nếu cỡ mẫu không quá lớn, thống kê kiểm định Bowman-
Shelton được so sánh với các điểm có ý nghĩa từ Bảng 6.1.
Table 6.1 Significance Points of the Jarque–Bera Statistic (Bera and Jarque 1981)

Sample size N 10% point 5% point Sample size N 10% point 5% point
20 2.13 3.26 200 3.48 4.43
30 2.49 3.71 250 3.54 4.61
40 2.7 3.99 300 3.68 4.6
50 2.9 4.26 400 3.76 4.74
75 3.09 4.27 500 3.91 4.82
100 3.14 4.29 800 4.32 5.46
125 3.31 4.34 ∞ 4.61 5.99
150 3.43 4.39
82

❖Nhiệt độ trung bình hàng ngày đã được ghi lại trong 200 ngày
được chọn ngẫu nhiên, với độ lệch của mẫu là 0.232 và độ nhọn
là 3.319.
❖Kiểm định giả thuyết H0 rằng phân phối thực sự là chuẩn
2
(Skewness)2 Kurtosis−3 (0.232)2 (3.319−3)2
➢ JB = n + = 200 + =
6 24 6 24
2.642
❖Từ Bảng 6.1, giá trị tới hạn 10% đối với n = 200 là 3.48, vì vậy
không có đủ bằng chứng để bác bỏ 𝐻0 nên chấp nhận 𝐻0 .
❖Kết luận: Với mức ý nghĩa 10, có thể kết luận rằng nhiệt độ
trung bình hàng ngày tuân theo phân phối chuẩn.
83

❖BÀI TOÁN Điểm bình quân


Sinh viên (xi)
➢ Có tài liệu về điểm bình quân của các em A 6.13
sinh viên học phần Thống kê Kinh doanh B 6.53
kinh tế như trên bảng bên. C 6.69
D 6.76
➢ Hãy xem điểm bình quân của sinh viên có
E 6.77
tuân theo phân phối chuẩn không? F 6.96
G 6.97
H 7.00
I 7.04
J 7.10
K 7.25
L 7.36
M 7.94
N 8.06
O 8.19
P 8.30
Q 9.73
84

LỜI GIẢI Sinh Điểm bình


viên quân (xi) (𝑥𝑖 − 𝑥)ҧ 𝑥𝑖 − 𝑥ҧ 2 𝑥𝑖 − 𝑥ҧ 3 𝑥𝑖 − 𝑥ҧ 4
❖Dùng tiêu chuẩn Jarque-Bera. A 4.13 -1.21 1.4641 -1.77156 2.143589
❖σni=1(xi − x) lj 2 = 11.9916 B 4.53 -0.81 0.6561 -0.53144 0.430467
C 4.69 -0.65 0.4225 -0.27462 0.178506
❖σni=1(xi − x) lj 3 = 12.59572 D 4.76 -0.58 0.3364 -0.19511 0.113165
E 4.77 -0.57 0.3249 -0.18519 0.10556
❖σni=1(xi − x) lj 4 = 37.4335 F 4.96 -0.38 0.1444 -0.05487 0.020851
σ(𝑥i −𝑥)ҧ 3 12.59572 G 4.97 -0.37 0.1369 -0.05065 0.018742
❖H= σ = H 5 -0.34 0.1156 -0.0393 0.013363
(𝑥i −𝑥)ҧ 2 2 11.9916 2 I 5.04 -0.3 0.09 -0.027 0.0081
= 0.303324414 J 5.1 -0.24 0.0576 -0.01382 0.003318
K 5.25 -0.09 0.0081 -0.00073 6.56E-05
𝑛 (n−1) L 5.36 0.02 0.0004 8E-06 1.6E-07
❖Skewness = ×H
n−2 M 5.94 0.6 0.36 0.216 0.1296
=4.533333333* 0.303324414 N 6.06 0.72 0.5184 0.373248 0.268739
O 6.19 0.85 0.7225 0.614125 0.522006
= 1.375070675 P 6.3 0.96 0.9216 0.884736 0.849347
Q 7.73 2.39 5.7121 13.65192 32.62809
11.9916 12.59572 37.4335
85

σ 𝑥i −𝑥ҧ 4 37.4335
➢ K= = =0.260319214
[σ 𝑥i −𝑥ҧ 2 ]
2
12.59572 2
(n−1)𝑛(𝑛+1) 3(𝑛−1)2
❖Kurtosic = K −
(𝑛−2)(𝑛−3) (𝑛−2)(𝑛−3)
=23.31428571 * 0.260319214 - 3.657143 = 2.412013531
2
(Skewness)2 Kurtosis−3
❖JB = n +
6 24
(1.375070675)2 (2.412013531−3)2
= 17 × + = 5.371729
6 24
❖Tra bảng phân phối 𝜒 2 với bậc tự do là 2 và mức ý nghĩa 5%, kết quả
2
là 𝜒0.05 (2)=5.991.
2
➢ Vì JB= 5.371729 < 𝜒0.05 (2)=5.991
❖Kết luận: Với mức ý nghĩa 5% có thể kết luận, điểm bình quân tuân
theo phân phối chuẩn.
86

❖Cách tiếp cận cơ bản được sử dụng trong kiểm định Shapiro-
Wilk (SW) về tính chuẩn như sau:
➢Sắp xếp dữ liệu theo thứ bậc tăng dần sao cho 𝑥1 ≤ … ≤ 𝑥𝑛 .
➢Tính SS như sau:
✓ SS= σ𝑛𝑖=1 𝑥𝑖 − 𝑥᪄ 2

➢Nếu n chẵn n=2m, trong khi nếu n lẻ, n=2m+1


➢Tính b như sau, lấy 𝑎𝑖 trọng số từ Bảng 6.2 của Bảng Shapiro-
Wilk (dựa trên giá trị của n). Lưu ý rằng nếu n là số lẻ, giá trị dữ
liệu trung bình không được sử dụng trong phép tính b.
✓ 𝑏 = σ𝑚𝑖=1 𝑎𝑖 𝑥𝑛+1−𝑖 − 𝑥𝑖
➢Tính toán thống kê kiểm định 𝑊 = 𝑏 2 ⁄ 𝑆𝑆
87

❖Tìm giá trị trong Bảng Shapiro-Wilk (với giá trị n đã cho) gần
nhất với W, nội suy nếu cần. Đây là p-value cho kiểm định.
❖Ví dụ: giả sử W = 0.975 và n = 10. Dựa trên Bảng 6.3 của Bảng
Shapiro-Wilk, p-value của kiểm định nằm trong khoảng từ 0.90
(W = 0.972) đến 0.95 (W = 0.978) .
88

n= … 9 10 11 12 13 14 15 16 17 18 …
a1 0.5888 0.5739 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4968 0.4886 …
a2 0.3244 0.3291 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 …
a3 0.1976 0.2141 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 …
a4 0.0947 0.1224 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 …
a5 0.0399 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 …
a6 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 …
a7 0.0240 0.0433 0.0593 0.0725 0.0837 …
a8 0.0196 0.0359 0.0496 …
a9 0.0163 …
a10 …

89

p
n 0.01 0.02 0.05 0.1 0.5 0.9 0.95 0.98 0.99
3 0.753 0.756 0.767 0.789 0.959 0.998 0.999 1.000 1.000
… … … … … … … … … …
9 0.764 0.791 0.829 0.859 0.935 0.972 0.978 0.984 0.986
10 0.781 0.806 0.842 0.869 0.938 0.972 0.978 0.983 0.986
11 0.792 0.817 0.850 0.876 0.940 0.973 0.979 0.984 0.986
12 0.805 0.828 0.859 0.883 0.943 0.973 0.979 0.984 0.986
13 0.814 0.837 0.866 0.889 0.945 0.974 0.979 0.984 0.986
14 0.825 0.846 0.874 0.895 0.947 0.975 0.980 0.984 0.986
15 0.835 0.855 0.881 0.901 0.950 0.975 0.980 0.984 0.987
16 0.844 0.863 0.887 0.906 0.952 0.976 0.981 0.985 0.987
17 0.851 0.869 0.892 0.910 0.954 0.977 0.981 0.985 0.987
18 0.858 0.874 0.897 0.914 0.956 0.978 0.982 0.986 0.988
… … … … … … … … … …
90

❖Kiểm định Kolmogorov-Smirnov (kiểm định KS) so sánh dữ liệu


đã có với phân phối đã biết và cho biết liệu chúng có cùng một
phân phối hay không. Mặc dù kiểm định phi tham số — nó
không giả thiết bất kỳ phân phối cơ bản cụ thể nào — nhưng nó
thường được sử dụng như một kiểm định về tính chuẩn để xem
liệu dữ liệu có phân phối chuẩn hay không. Nó cũng được sử
dụng để kiểm định giả thuyết về tính chuẩn trong Phân tích
phương sai.
❖Cụ thể hơn, kiểm định so sánh phân phối xác suất giả thuyết đã
biết (ví dụ: phân phối chuẩn) với phân phối do dữ liệu của bạn
tạo ra — hàm phân phối theo kinh nghiệm.
91

❖Bước 1: Analyze → Descriptive Statistics → Explore


❖Bước 2: Di chuyển các biến mà bạn muốn kiểm định tính chuẩn từ
hộp bên trái sang hộp “Dependent List” bên phải.
❖Bước 3: Nhấp vào Options. Điều này kiểm soát cách xử lý các giá trị bị
thiếu.
➢ Loại trừ các trường hợp theo danh sách: loại trừ bất kỳ trường hợp
nào có giá trị bị thiếu cho các biến đã chọn.
➢ Exclude cases pairwise: Tính giá trị trung bình cho từng biến bằng
cách sử dụng tất cả các câu trả lời không thiếu cho biến cụ thể đó.
➢ Report values: tùy chọn này sẽ chỉ ảnh hưởng đến phân tích cho một
biến nhân tố.
➢ Nhấp vào Continue.
❖Bước 4: Nhấp vào Plots. Bỏ chọn Stem-and-leaf, sau đó chọn
histogram. Nhấp vào Continue.
❖Bước 5: Chọn Normality Plots with Tests. Nhấp vào Continue. Nhấp
vào OK.
92

❖Jarque-Bera
➢ Rất hiệu quả.
➢ Skewness và kurtosis có sẵn trong SPSS
➢ JB không có sẵn trong SPSS.
❖Kolmogorov-Smirnov
➢ Không nhạy cảm với các vấn đề ở đuôi.
➢ Tốt với tập dữ liệu n > 50.
➢ Có sẵn trong SPSS
❖Shapiro-Wilks
➢ Không hoạt động tốt nếu một số giá trị trong tập dữ liệu giống nhau.
➢ Hoạt động tốt nhất cho các tập dữ liệu có n < 50, nhưng có thể được
sử dụng với các tập dữ liệu lớn hơn.
➢ Có sẵn trong SPSS.
94

❖Dữ liệu mẫu có phù hợp với phân phối giả thuyết H0 ?
➢Ví dụ:
✓ Các kết quả mẫu có phù hợp với xác suất dự kiến đã chỉ định
không?
✓ Các cuộc gọi hỗ trợ kỹ thuật có giống nhau vào tất cả các ngày
trong tuần không? (tức là, các cuộc gọi có tuân theo phân phối
đồng đều không?)
✓ Các phép đo từ quy trình sản xuất có tuân theo phân phối chuẩn
không?
95

❖Các cuộc gọi hỗ trợ kỹ thuật có giống nhau vào tất cả các ngày
trong tuần không? (tức là, các cuộc gọi có tuân theo phân phối
đồng đều không?)
➢Dữ liệu mẫu cho 10 ngày mỗi ngày trong tuần trên bảng.
Tổng số cuộc gọi cho ngày này
Thứ hai 290
Thứ ba 250
Thứ Tư 238
thứ năm 257
Thứ sáu 265
Thứ bảy 230
Chủ nhật 192
96

❖Nếu các cuộc gọi được phân


phối đều, các cuộc gọi 1722 dự Quan sát Oi Kỳ vọng Ei
kiến sẽ được chia đều trong 7 Thứ hai 290 246
ngày: Thứ ba 250 246
1722 Thứ Tư 238 246
➢ = 246 các cuộc gọi kỳ
7
vọng mỗi ngày nếu thống hứ năm 257 246
nhất. Thứ sáu 265 246
❖Chi-Square Goodness-of-Fit Thứ bảy 230 246
Test: Kiểm định xem kết quả Chủ nhật 192 246
mẫu có phù hợp với kết quả kỳ TOÀN BỘ 1722 1722
vọng hay không.
97

❖Xây dựng giả thuyết:


➢𝐻0 : phân phối cuộc gọi đều qua các ngày trong tuần
➢𝐻1 : Phân phối cuộc gọi không đều
❖Thống kê kiểm định là
K (Oi −Ei )2
➢𝜒 =2 σi=1 với df=k-1
Ei

➢Trong đó: 
✓ K = số danh mục
0 2
✓ 𝑂𝑖 = tần suất quan sát cho loại i Không bác Bác bỏ 𝐻0
✓ 𝐸𝑖 = tần suất ky vọng cho danh mục i bỏ 𝐻0 2
❖Miền bác bỏ:
➢Bác bỏ 𝐻0 nếu 𝜒 2 > 𝜒α2 (df)
98

❖ Xây dựng các giả thuyết:


➢ 𝐻0 : phân phối cuộc gọi đều qua các ngày trong
tuần
➢ 𝐻1 : Phân phối cuộc gọi không đều
❖ Thống kê kiểm định
(290−246)2 (250−246)2 =0.05
➢𝜒 =2
+ + ... +
246 246
(192−246)2
= 23.05 2
246 0
❖ Giá trị tới hạn Không bác bỏ Bác bỏ 𝐻0
➢ Với  =0.05, df =k-1=7-1) 7các ngày trong 𝐻0
 2
tuần)= 6 →2.05 (6) = 12.5916 0.05 =12.5916

❖ Kết luận
➢ 𝜒 2 = 23.05 >2.05 (6)= 12.5916 nên Bác bỏ𝐻0 và
kết luận rằng phân phối không đồng đều.
99

❖Bảng tiếp liên (Contingency Tables)


➢Được sử dụng để phân loại các quan sát mẫu theo một cặp
thuộc tính.
➢Còn được gọi là bảng phân loại chéo hoặc bảng chéo.
➢Giả sử r loại cho thuộc tính A và c loại cho thuộc tính B. Khi đó,
có bảng phân loại chéo (rxc)
Attribute Attribute B
A Totals
1 2 … C
1 O11 O12 … O1c R1
2 O21 O22 … O2c R2
… … … … … …
r Or1 Or2 … Orc Rr

Totals C1 C2 … Cc N
100

❖1. Xây dựng cặp giả thuyết


➢ 𝐻0 : Không có mối liên hệ nào tồn tại giữa hai thuộc tính trong tổng thể
➢ 𝐻1 : Có mối liên hệ nào tồn tại giữa hai thuộc tính trong tổng thể
❖2. Chọn mức ý nghĩa 
❖3. Tính thống kê kiểm định
(O −E )2
ij ij
➢ χ2 = σri=1 σcj=1
E
ij
➢ Kiểm định thích hợp là kiểm định Chi bình phương với (r-1)(c-1) bậc
tự do
➢ Xem xét n quan sát được lập bảng trong bảng tiếp liên rxc
➢ Trong đó:
✓ 𝑂𝑖𝑗 số quan sát trong ô nằm ở hàng thứ i và cột thứ j.
Ri Cj
✓ Eij = với 𝑅𝑖 và 𝐶𝑗 là tổng của hàng và cột
n
101

TIẾP CẬN p-value


❖4a. Tính p-value
➢Căn cứ vào thống kê kiểm định, bảng Chi bình phương với (r-
1)(c-1) bậc tự do, tính p-value.
❖5a. Quyết định Attribute Attribute B
Total
➢So sánh mức ý nghĩa  A 1 2 … C
với p-value, nếu 1
O11 O12

O1c
R1
E11 E12 E1c
➢p-value> → Bác bỏ H0 O21 O22 O2c
2 … R2
E21 E22 E2c
… … … … … …
Or1 Or2 Orc
r … Rr
Er1 Er2 Erc
Total C1 C2 … Cc N
102

❖TIẾP CẬN giá trị tới hạn


❖4b. Tính giá trị tới hạn
➢Căn cứ vào mức ý nghĩa, bậc tự do, tra bảng phân phối χ2 , bậc
tự do (r-1)(c-1), tìm giá trị tới hạn χ2(r−1)c−1),α
❖5b. Quyết định
➢So sánh giá trị tới hạn và thống kê kiểm định, nếu
➢𝜒 2 > χ2(r−1)c−1),α → Bác bỏ H0
❖6. Kết luận
103

❖BÀI TOÁN
➢ Có tài liệu về 300 sinh viên về giói tính và Tay thuận
tay thuận như bảng bên. Xem xét giữa Giới Tổng
giới tính và tay thuận có liên quan với tính Trái Phải
nhau hay không?
❖LỜI GIẢI Nữ 12 108 120
❖1. Cặp giả thuyết
Nam 24 156 180
➢ 𝐻0 : Không có mối liên quan giữa tay
thuận và giới tính
Tổng 36 264 300
➢ 𝐻1 : Có mối liên quan giữa tay thuận và
giới tính
❖2. Chọn mức ý nghĩa 5%.
104

❖3. Tính thống kê kiểm định Chi- Tay thuận


Giới Tổng
square là: Trái Phải
(O −E )2
ij ij Qsát = 12 Qsát = 108
➢𝜒 =2 σri=1 σcj=1 Nữ
Kvọng = 14.4 Kvọng = 105.6
120
E
ij
Qsát = 24 Qsát = 156
➢ df = (r-1)(c-1) Nam 180
Kvọng = 21.6 Kvọng = 158.4
❖Trong đó:
Tổng 36 264 300
➢ 𝑂𝑖𝑗 = tần số quan sát được
trong ô (i, j)
➢ 𝐸𝑖𝑗 = tần số ky vọng trong ô (i,j)
➢ r = số hàng
2
➢𝜒c == số cột
(12 − 14.4)2 (108 − 105.6)2 (24 − 21.6)2 (156 − 158.4)2
+ + + = 0.757576
14.4 105.6 21.6 158.4
105

TIẾP CẬN p-value


❖4a. Tính p-value
➢Căn cứ vào thống kê kiểm định, bậc tự do, tính p-value
➢tính p-value =CHISQ.DIST.RT(0.757576,1) = 0.384088
❖5a. Quyết định
➢So sánh mức ý nghĩa  và p-value và được
➢p-value =CHISQ.DIST.RT(0.757576,1) = 0.384088>=.05→
không đủ cơ sở để bác bỏ 𝐻0
TIẾP CẬN giá trị tới hạn
➢4b. Tính giá trị tới hạn
➢Với df=(r-1)(c-1)=1 và  = 0. 05, tra bảng phân phối Khi bình
phương, kết quả 20.05 (1)= 3.841
106

❖5b. Quyết định


𝜒 2 = 0.757576 với df =(r-1)(c-1)=1
➢ So sánh giá trị tới hạn với thống
kê kiểm định, kết quả như sau:
➢ 2 = 0.757576 < 20.05 (1)= 3.841
→Không đủ cơ sở bác bỏ 𝐻0
❖Kết luận
 = 0.05
➢ Với mức ý nghĩa 5%, có thể kết
luận rằng giới tính và tay thuận
2.05= 3.841 2
không liên quan.
Không bác bỏ 𝐻0 Bác bỏ 𝐻0
107

❖Bước 1. Mở File Taythuan_GT


❖Bước 2: Trên thanh menu, Analyze →Descriptive Statistics
→ Crosstabs... Xuất hiện hộp thoại Crosstabs.
❖Bước 3. Trong hộp thoại Crosstabs, chuyển gioitinh vào hộp row(s) và
biến Taythuan vào hộp column(s) →Statistics→ xuất hiện hộp
thoại Crosstabs: Statistics.
❖Bước 4. Tại hộp thoại Crosstabs: Statistics, Chi-square
→Continue, quay lại hộp thoại Crosstabs.
❖Bước 5. Tại hộp thoại Crosstabs, Cells…→ xuất hiện hộp thoại
Crosstabs: Cell Display.
❖Bước 6. Trong hộp thoại Crosstabs: Cell Display, Observed và
Expected trong khoang Counts →Continue để quay lại hộp thoại
Crosstabs.
❖Bước 6. OK và kết quả như sau
108

Gioitinh * Taythuan Crosstabulation


Taythuan
Tay trái Tay phải Total
Gioitinh Nữ Count 12 108 120
Expected Count 14.4 105.6 120.0
Nam Count 24 156 180
Expected Count 21.6 158.4 180.0
Total Count 36 264 300
Expected Count 36.0 264.0 300.0

Chi-Square Tests
Asymptotic Exact Sig. Exact Sig.
Value df Significance (2-sided) (2-sided) (1-sided)
a
Pearson Chi-Square .758 1 0.384
b
Continuity Correction 0.475 1 0.491
Likelihood Ratio 0.772 1 0.380

110

❖Kendall's Tau là thước đo phi tham số đo lường mối quan hệ


giữa hai biến tỷ lệ hoặc biến thứ bậc. Hệ số tương quan Tau nằm
trong khảng từ 0 đến 1, trong đó:
➢0 là không có mối quan hệ,
➢1 là một mối quan hệ hoàn hảo.
❖Một điều thú vị của kiểm định này là nó cũng có thể tạo ra các
giá trị âm. Không giống như biểu đồ tuyến tính, mối quan hệ âm
không có nhiều ý nghĩa với các cột được xếp hạng, vì vậy chỉ cần
xóa dấu âm khi bạn giải thích Tau.
❖Các giả thiết cho kiểm định Kendall's Tau bao gồm:
➢Biến liên tục hoặc thứ bậc
➢Đơn điệu
111

BÀI TOÁN
➢Có tài liệu về Tổng doanh thu qua một số năm được thu thập và
lưu trong File companies.sav. Doanh thu hàng năm có mối quan
hệ với nhau ở mức độ nào?
LỜI GIẢI
➢Dùng hệ số Kendall’s Tau đã tạo sẵn trong SPSS để xem xét mối
liện hệ giữa Tổng doanh thu qua các năm.
112

❖Bước 1. Mở File companies.sav


❖Bước 2. Trên menu chính,
Analyze →Correlate →Bivariate
...→ xuất hiện hộp thoại Bivariate
Correlate →Di chuyển tất cả các biến
có liên quan vào hộp variables
→Kendall’s tau-b.
❖Bước 3. OK →Được kết quả ở Slide
sau.
❖Nhận xét:
➢ Có thể nhận xét rằng hầu hết các mối
tương quan của Kendall đều cao. Điều
này có nghĩa là các công ty hoạt động
tốt trong một năm cũng thường hoạt
động tốt trong những năm khác.
113

Correlations
DT14 DT15 DT16 DT17 DT18
Kendall's tau_b DT14 Correlation Coefficient 1.000 .735** .749** .721** .355
Sig. (2-tailed) . .000 .000 .001 .089
N 15 15 15 15 15
DT15 Correlation Coefficient .735** 1.000 .674** .762** .392
Sig. (2-tailed) .000 . .001 .000 .059
N 15 15 15 15 15
DT16 Correlation Coefficient .749** .674** 1.000 .628** .251
Sig. (2-tailed) .000 .001 . .002 .223
N 15 15 15 15 15
DT17 Correlation Coefficient .721** .762** .628** 1.000 .200
Sig. (2-tailed) .001 .000 .002 . .333
N 15 15 15 15 15
DT18 Correlation Coefficient .355 .392 .251 .200 1.000
Sig. (2-tailed) .089 .059 .223 .333 .
N 15 15 15 15 15
**. Correlation is significant at the 0.01 level (2-tailed).
Chương 07
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định được thế nào là hồi qui và phân tích hồi qui
➢Xác định những tình huống ứng dụng phân tích hồi qui
➢Xác định những kỹ thuật phân tích hồi qui
➢Thực hiện thành thạo những thủ tục trong SPSS phân tích hồi
qui và đọc được kết quả kết xuất
Phần 1
4

❖Phân tích hồi quy nghiên cứu sự phụ thuộc của một biến, gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, gọi là các biến
độc lập (hay còn gọi là biến giải thích), nhằm ước lượng giá trị
trung bình của biến phụ thuộc.
❖Nhiệm vụ
➢Ước lượng giá trị trung bình của biến phụ thuộc.
➢Kiểm định về bản chất của sự phụ thuộc giữa các biến.
➢Dự đoán giá trị của biến phụ thuộc, gồm có dự đoán giá trị trung
bình và cá biệt của biến phụ thuộc dựa vào giá trị của biến độc
lập đã biết.
5

❖Vận dụng phân tích hồi qui vào số liệu kinh tế nhằm kiểm
nghiệm các mô hình do các nhà kinh tế toán đề xuất và xác định
các ước lượng bằng số.
❖Phân tích các vấn đề kinh tế hiện thời dựa trên vận dụng đồng
thời lý thuyết và thực tế được thực hiện bởi các suy đoán thích
hợp.
❖Các nhà hoạch định chính sách muốn xem xét mối quan hệ phụ
thuộc giữa chi tiêu của các hộ gia đình với thu nhập, qui mô, tài
sản…
❖Các nhà quản trị sản xuất muốn xem xét mối quan hệ phụ thuộc
giữa chi phí sản xuất với khối lượng sản phẩm, giữa kết quả sản
xuất với các các yếu tó đầu vào như vốn, lao động, công nghệ...
6

❖Các nhà nghiên cứu marketing muốn xem xét mối quan hệ phụ
thuộc giữa khối lượng sản phẩm bán ra với giá cả; doanh thu
phụ thuộc như thế nào vào chi phí quảng cáo…
❖Các nhà kinh tế nông nghiệp muốn nghiên cứu mối quan hệ phụ
thuộc giữa năng suất thu hoạch với nhiệt độ, giống cây trồng,
lượng phân bón, vùng…
❖Sản lượng thu hoạ ch phụ thuọ c vào lượng phân bón, lượng
nước tưới tiêu,…;
❖Các nhà phân tích thị trường chứng khoán nghiên cứu mó i liên
hệ giá của cổ phiếu với các đặc trưng của công ty phát hành cổ
phiếu đó, cũng như với tình hình chung của nền kinh tế.
7

❖Doanh thu bán hàng phụ thuộc như thế nào vào giá bán, chi phí
quảng cáo, thu nhập của khách hàng;
❖GDP của nè n kinh tế phụ thuọ c vào vó n, lao đọ ng, nguò n tài
nguyên, công nghệ…;
❖Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời
gian, mùa, vùng;
❖Tỷ suất sinh của phụ nữ phụ thuộc vào tỷ lệ ché t của trẻ em,
mức thu nhập bình quân đầu người, trình độ văn hoá;
❖Thu nhập của người lao động phụ thuộc vào trình độ chuyên
môn, nghề nghiệp, số năm kinh nghiẹ m...
8

❖Mô hình hồi qui tổng thể dạng tuyến tính là


➢Dạng kỳ vọng: E(Y/X) =1 +2 X
➢Dạng ngẫu nhiên: Y =1 +2 X +
❖Trong đó:
➢1 và 2 được gọi là các tham số của mô hình, 1 gọi là hệ số chặn
và 2 gọi là hệ số góc.
➢ là một biến ngẫu nhiên không quan sát được có thể nhận giá
trị âm hay dương và được gọi là sai số ngẫu nhiên (stochastic
error term)/nhiễu ngẫu nhiên (stochastic disturbance)
❖Sai số ngẫu nhiên là một thành phần không thể dự đoán được
trong mô hình hồi qui. Nó đại diện cho những yếu tố ngẫu nhiên
không được mô hình hóa hoặc không biết trước đó ảnh hưởng
đến biến phụ thuộc.
9

❖Trong mô hình hồi qui, thuật ngữ tuyến tính có thể được diễn
giải theo hai cách khác nhau
➢Tuyến tính theo biến: Ý nghĩa đầu tiên và có lẽ là “tự nhiên” hơn
của tuyến tính là Y là một hàm tuyến tính của biến X. Theo cách
giải thích này, hàm hồi quy như 𝑌 = 𝛽1 + 𝛽2 𝑋 2 + 𝜀 không
phải là hàm tuyến tính vì biến X xuất hiện bậc 2.
➢Tuyến tính theo tham số: Cách giải thích tuyến tính thứ hai là Y,
là một hàm tuyến tính của các tham số , có hoặc không tuyến
tính theo biến X. Theo cách giải thích này 𝑌 = 𝛽1 + 𝛽2 𝑋 2 + 𝜀
là hồi quy tuyến tính theo tham số.
CHÚ Ý: Thông thường, trong mô hình hồi qui, thuật ngữ tuyến
tính thường được hiểu là tuyến tính theo tham số. Như vậy, 𝑌 =
𝛽1 + 𝛽2 𝑋 2 + 𝛽2 𝑋 3 + 𝜀 thường được gọi là hồi qui tuyến tính.
10

E(Y) E(Y) E(Y)

Hệ số
chặn
1
Hệ số Đường hồi quy
chặn
Hệ số 1 Hệ số góc 2 =0
chặn
1

x x x

Mối quan hệ tuyến tính dương Mối quan hệ tuyến tính âm Không có mối quan hệ
Positive Linear Relationship Negative Linear Relationship No Relationship
11

❖Phương trình hồi quy mẫu dạng tuyến tính đơn:


➢Dạng trung bình: 𝑌෠ = 𝑏1 + 𝑏2 X
➢Dạng ngẫu nhiên: Y = 𝑏1 + 𝑏2 X + e
➢Trong đó:
✓ 𝑏𝑗 là các hệ số hồi qui mẫu được dung để là ước lượng các tham
số hồi qui 𝛽𝑗
✓ 𝑏1 là hệ số chặn, là ước lượng của 𝛽1
✓ 𝑏2 là hê số góc, là ước lượng của 𝛽2
✓ 𝑌෠ là giá trị ước lượng của Y cho một giá trị x nhất định, ước lượng
của E(Y/X).
✓ e: phần dư (residuals) đại diện cho phần của dữ liệu mà mô hình
không thể giải thích hoặc dự đoán chính xác.
12

Mô hình hồi quy Dữ liệu mẫu


Y = 1 + 2X +  𝑦 𝑥2
Hay E(Y) = 1 + 2X 𝑦1 𝑥21
Các tham số 1, 2 ⋮ ⋮
không xác định 𝑦1 𝑥2𝑛

b1, b2 Phương trình hồi quy


Cung cấp ước lượng về 𝑌෠ = 𝑏1 + 𝑏2 𝑋2
1, 2 Thống kê mẫu là
b1, b2
13

❖Tiêu chí bình phương nhỏ nhất (least-squares criterion)


➢min σ(𝑦𝑖 − 𝑦ො𝑖 )2
➢Trong đó:
✓ 𝑦𝑖 = giá trị quan sát của biến phụ thuộc cho quan sát thứ i
✓ 𝑦ො𝑖 = giá trị ước lượng của biến phụ thuộc cho quan sát thứ i
❖Hệ phương trình chuẩn tắc sau đây để tính 𝑏1 và 𝑏2
𝑛𝑏1 + 𝑏2 σ 𝑥𝑖 = σ 𝑦𝑖
➢൝
𝑏1 σ 𝑥𝑖 + 𝑏2 σ 𝑥𝑖2 = σ 𝑦𝑖 𝑥𝑖
❖Các 𝑏1 và 𝑏2 được ước lượng bằng OLS nên được gọi là các ước
lượng bình phương bé nhất (The least-squares estimators)
14

❖Giải hệ phương trình chuẩn tắc, chúng ta thu được


➢Hệ số góc
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦)
✓ 𝑏2 = σ(𝑥𝑖 −𝑥)lj 2

➢Trong đó:
✓ 𝑥𝑖 = giá trị của biến độc lập cho quan sát thứ i
✓ 𝑦𝑖 = giá trị của biến phụ thuộc cho quan sát thứ i
ҧ giá trị trung bình của biến độc lập
✓ 𝑥=
ത giá trị trung bình của biến phụ thuộc
✓ 𝑦=
➢Hệ số chặn
✓ 𝑏1 = 𝑦lj − 𝑏2 𝑥lj
15

❖Ví dụ: Reed Auto thực hiện nhiều quảng cáo truyền hình vào
cuối tuần trước đợt giảm giá. Dưới đây là dữ liệu từ mẫu của 5
lần bán hàng:
Số lượng quảng cáo
truyền hình Số lượng ô tô đã bán
(X) (Y)
1 14
3 24
2 18
1 17
3 27
𝑥 = 10 y= 100
𝑥ҧ = 2 𝑦ത = 2
16

❖LỜI GIẢI
➢Hệ số góc
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦) 20
✓ 𝑏2 = σ(𝑥𝑖 −𝑥)lj 2
= =5
4
➢Hệ số chặn
✓ 𝑏1 = 𝑦lj − 𝑏2 𝑥lj = 20 − 5(2) = 10
➢Phương trình hồi quy
✓Y෡ = 10 + 5X
➢Giải thích ý nghĩa của các hệ số hồi qui
✓ 𝑏1 = 10→ Khi X=0, Y ෡=10 điều này có nghĩa không thực hiện
quảng cáo thì lượng bán bình quân sẽ là 10 chiếc.
✓ 𝑏2 =5 → Nếu tăng một lần quảng cáo thì bình quân lượng xe bán
tăng 5 chiếc.
17

❖Mối quan hệ giữa SST, SSR, SSE: SST = SSR + SSE


➢ Trong đó
✓ SST (Sum of Squares Total)=σ(𝑦𝑖 − 𝑦) lj 2 : Tổng bình phương của các độ
lệch giữa các giá trị quan sát 𝑦𝑖 với giá trị trung bình của chúng 𝑦.lj SST
phản ảnh tổng sự biến động của biến phụ thuộc do ảnh hưởng của tất cả
các nhân tố.
✓ SSR (Sum of Squares due to Regression)=σ(𝑦ො𝑖 − 𝑦) lj 2 : Tổng bình phương
của các độ lệch giữa các giá trị 𝑦ො𝑖 với giá trị trung bình của chúng 𝑦.lj SSR
phản ảnh sự biến động của biến phụ thuộc do ảnh hưởng của các biến
giải thích được đưa vào mô hình.
✓ SSE (Sum of Squares due to Error)=σ(𝑦𝑖 − 𝑦ො𝑖 )2 : Tổng bình phương của
các độ lệch giữa các giá trị quan sát 𝑦𝑖 với giá trị 𝑦ො𝑖 . SSE phản ảnh sự
biến động của biến phụ thuộc do ảnh hưởng của các nhân tố không có
trong mô hình.
❖Hệ số xác định bội: 𝑅 2 = 𝑆𝑆𝑅/𝑆𝑆𝑇
18

❖Tính chất: 0 ≤ 𝑟 2 ≤ 1
➢ 𝑟 2 = 1: Ðường hồi qui phù hợp “hoàn hảo”
➢ 𝑟 2 = 0: Không có mối liên hệ tương quan giữa X và Y.
❖Ý nghĩa:
➢ Đo lường mức độ phù hợp của mô hình;
➢ Phản ảnh tỷ lệ % phần biến động của Y giải thích được bằng đường
hồi qui trong toàn bộ biến động của biến phụ thuộc Y.

❖VÍ DỤ: Bán ô tô Reed


➢ 𝑟 2 = SSR/SST = 100/114 = .8772
❖Ý nghĩa:
➢ Giữa lượng ô tô được bán và quảng cáo có mối quan hệ rất chặt chẻ;
➢ Trong 100% phần biến động của lượng ô tô bán ra thì do ảnh hưởng
của số lượng quảng cáo trên TV chiếm 87,72% còn những nhân tố
khác chiếm 12,28%.
19

❖Nhằm đánh mối liên hệ tương quan giữa biến phụ thuộc Y với biến
giải thích X, chúng ta dùng hệ số tương quan mẫu
σ 𝑥𝑖 𝑦𝑖
➢ 𝑟𝑥𝑦 =
σ 𝑥𝑖 2 σ 𝑦𝑖 2
❖Tuy nhiên, trong hồi qui đơn, hệ số tương quan được tính như sau
➢ 𝑟𝑥𝑦 = sgn(b2 ) Hệ số xác định=sgn(b2 ) 𝑟 2
➢ Trong đó:
෡ = 𝑏1 + 𝑏2 X
✓ 𝑏2 = Hệ số góc của phương trình hồi quy ước lượng Y
✓ Sgn (x) là hàm dấu của x
❖VÍ DỤ: Bán ô tô Reed
➢ 𝑟𝑥𝑦 = sgn( b2 ) 𝑟 2
❖Dấu của 𝑏2 trong phương trình hồi qui 𝑌෠ = 10 + 5X là dấu“+”.
➢ 𝑟𝑥𝑦 = + .8772 = .9366
20

❖Để kiểm định sự tồn tại của hồi quy, chúng ta tiến hành kiểm
định giả thuyết giá trị của hệ số góc 𝛽2 là bằng 0 hay không. Hai
kiểm định thường được sử dụng là kiểm định t và F. Cả hai kiểm
định t và F yêu cầu phương sai của 𝜀 (𝜎 2 ).
❖Tuy nhiên, chúng ta không có 𝜎 2 mà dùng ước lượng của nó
➢Trung bình bình phương sai số (MSE) là ước lượng của 𝜎 2 , và
được ký hiệu 𝑠 2
✓ 𝑠 2 = MSE = SSE/(n - 2)
➢Trong đó: SSE = σ( 𝑦𝑖 − 𝑦ො𝑖 )2 = σ(𝑦𝑖 − 𝑏1 − 𝑏2 𝑥𝑖 )2
❖Giá trị s được gọi là sai số chuẩn của ước lượng (The standard
error of the estimate).
SSE
➢𝑠 = MSE =
𝑛−2
21

❖1. Xây dựng cặp giả thuyết


➢ 𝐻0 : 𝛽2 = 0 và 𝐻1 : 𝛽2 ≠ 0
❖2. Chọn mức ý nghĩa 
❖3. Thống kê kiểm định
𝑏2
➢𝑡 =
𝑠𝑏 2
𝑠
➢ Trong đó 𝑠𝑏2 =
lj 2
Σ(𝑥𝑖 −𝑥)

❖4. Sử dụng thống kê kiểm định để tính p-value hay giá trị tới hạn
𝑡𝛼/2 (𝑛 − 2)
❖5. Quyết định bác bỏ giả thuyết 𝐻0 hay không
➢ Bác bỏ 𝐻0 nếu p-value ≤  hoặc là 𝑡 ≤ −𝑡𝛼 n − 2 hoặc 𝑡 ≥ 𝑡𝛼 (n − 2)
2 2

❖6. Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
22

❖1. Xây dựng cặp giả thuyết


➢ 𝐻0 : 𝛽2 = 0 và 𝐻1 : 𝛽2 ≠ 0
❖2. Chọn mức ý nghĩa = 0.05
➢ Giá trị tới hạn 𝑡.025 (3)= 3.182
❖3. Tính thống kê kiểm định
➢ 𝑡 = 𝑏2 /𝑠𝑏2 = 5/1.08 = 4.63
❖4. Sử dụng thống kê kiểm định để tính p-value
➢ p-value =0.02
❖5. Xác định xem có bác bỏ 𝐻0 hay không
➢ Tiếp cận p-value: p-value =0.02<= 0.025
➢ Tiếp cận giá trị tới hạn: |t|=4.63 > 𝑡.025 (3)= 3.182
➢ Chúng ta bác bỏ 𝐻0 với mức ý nghĩa 5%.
❖6. Kết luận: Với mức ý nghĩa 5%, có thể kết luận rằng doanh số bán ô
tô phụ thuộc vào số lần quảng cáo.
23

❖Dạng khoảng tin cậy đối xứng của j là:


𝑏𝑗 −𝛽𝑗
➢ 𝑃 −𝑡𝛼 /2 (𝑛 − 2) ≤ ≤ 𝑡𝛼 /2 (𝑛 − 2) = 1 − 𝛼
𝑆𝑒(𝑏𝑗 )

❖Hay khoảng tin cậy 100(1- )% của 𝑗 là


➢ 𝑏𝑗 − 𝑡𝛼 /2 (𝑛 − 2) × 𝑆𝑒(𝑏𝑗 ) ≤ 𝛽𝑗 ≤ 𝑏𝑗 + 𝑡𝛼 /2 (𝑛 − 2) × 𝑆𝑒(𝑏𝑗 )
❖Hay viết ngắn gọn như sau
➢ [𝑏j ± 𝑡α (𝑛 − 2) × 𝑆𝑒(𝑏𝑗 )]
2

❖Trong đó:
➢ 𝑏j là ước lượng điểm
➢ 𝑡𝛼 /2 (𝑛 − 2) × 𝑆𝑒(𝑏𝑗 ) là biên độ sai số
➢ 𝑡𝛼 /2 (𝑛 − 2) là giá trị tới hạn t với mức ý nghĩa /2 và bậc tự do n - 2
➢ 1- gọi là hệ số tin cậy (confidence coefficient)
24

❖1. Xây dựng cặp giả thuyết


➢𝐻0 : 𝛽2 = 0 và 𝐻1 : 𝛽2 ≠ 0
❖2. Chọn mức mức ý nghĩa α
❖3. Thống kê kiểm định
➢F = MSR/MSE
❖4. Sử dụng thống kê kiểm định để tính p-value hoặc sử dụng
mức ý nghĩa để tính giá trị tới hạn.
❖5. Xác định có nên bác bỏ 𝐻0 hay không
➢Bác bỏ 𝐻0 nếu p-value  hoặc F𝐹 (1, 𝑛 − 2)
➢Trong đó: 𝐹 (1, 𝑛 − 2) dựa trên phân phối F với bậc tự do ở tử
là 1 và bậc tự do ở mẫu là n – 2.
❖6. Kết luận
25

❖1. Xác định các giả thuyết


➢𝐻0 : 𝛽2 = 0 và 𝐻1 : 𝛽2 ≠ 0
❖2. Chọn mức mức ý nghĩa = 0.05
❖3. Tính thống kê kiểm định
➢F = MSR/MSE = 100/4.667 = 21.43
❖4. Sử dụng mức ý nghĩa để tính giá trị tới hạn
➢Giá trị tới hạn 𝐹0.05 1,3 = 10.1
❖5. Xác định có nên bác bỏ 𝐻0 hay không
➢F=21.43 >𝐹0.05 1,3 = 10.1. Vì thế, chúng ta bác bỏ 𝐻0 .
❖6. Kết luận: Với mức ý nghĩa 5%, có thể kết luận rằng doanh số
bán ô tô phụ thuộc vào số lần quảng cáo.
26

❖Bước 1. Mở File dữ liệu Reed Auto.sav


❖Bước 2. Từ menu chính, Analyze →Regression →linear→
xuất hiện hộp thoại Linear Regression.
❖Bước 3. Tại hộp thoại Linear Regression, chuyển biến Y vào
hộp Dependent, X vào hộp Indepent(s) như hình sau.
27

❖Bước 4. Statistics…, xuất


hiện hộp thoại Linear
Regression Statistics. Tại hộp
thoại này, Estmates→
Confidence intervals và
nhập 95 vào hộp Level (95%)
→Model fit. Xem hình bên.
❖Bước 5. Continue →quay lại
hộp thoại Linear Regression.
❖Bước 6. Tại hộp thoại Linear
Regression, OK và cho kết
quả như những slide kế tiếp.
28

❖Bảng hệ số hồi qui


Coefficientsa
95.0%
Unstandardized Standardized Confidence
Coefficients Coefficients Interval for B
Std. Lower Upper
Model B Error Beta t Sig. Bound Bound
(Constant) 10.000 2.366 4.226 0.024 2.469 17.531
1 X 5.000 1.080 0.937 4.629 0.019 1.563 8.437
a. Dependent Variable: Y

❖Phương trình hồi quy ước lượng là: 𝑌෠ = 10 +5X


❖Hay theo dạng ngẫu nhiên: Y= 10 + 5X + e
29

❖Bảng tóm tắc


Model Summary
R Adjusted Std. Error of
Model R Square R Square the Estimate
a
1 .937 0.877 0.836 2.160
a. Predictors: (Constant), X

❖Bảng ANOVA
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
b
Regression 100.000 1 100.000 21.429 .019
Residual 14.000 3 4.667
1 Total 114.000 4
a. Dependent Variable: Y
b. Predictors: (Constant), X
Phần 2
31

❖Mô hình hồi qui bội là mô hình trong đó biến phụ thuộc phụ
thuộc vào ít nhất hai biến giải thích.
❖Những ứng dụng:
➢Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo,
thu nhập của khách hàng.
➢Chi phí sản xuất phụ thuộc vào khối lượng sản phẩm sản xuất,
qui trình công nghệ, trình độ lành nghề của người lao động.
➢Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời
gian, mùa, vùng...
❖Khái quát, chúng ta có n quan sát và mỗi quan sát gồm k trị số
(Yi , X2i , … , Xki ), i = 1, n
32

❖Hàm hồi quy tổng thể (PRF: Population Regression Function)


➢PRF kỳ vọng
E(Y) = 𝛽1 + 𝛽2 X 2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑘 X k
➢PRF ngẫu nhiên
Y = 𝛽1 + 𝛽2 X 2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑘 X k + 𝜀
➢Trong đó:
✓ 𝛽1 , 𝛽2 , … , 𝛽𝑘 là các tham số hồi qui. Trong đó, 𝛽1 là hệ số chặn
𝛽2 , … , 𝛽𝑘 là các hệ số góc
✓ 𝜀 là một biến ngẫu nhiên được gọi là nhiễu ngẫu nhiên hoặc sai số
ngẫu nhiên.
33

❖Hàm hồi quy mẫu (SRF: Sample Regression Function)


➢SRF kỳ vọng:
Yƶ = 𝑏1 + 𝑏2 X 2 + ⋯ + 𝑏k X k
➢SRF ngẫu nhiên:
Y = 𝑏1 + 𝑏2 X 2 + ⋯ + 𝑏𝑘 X 𝑘 + 𝑒
❖Trong đó:
➢𝑏1 , 𝑏2 …, 𝑏k các hệ số hồi mẫu, cũng là các thống kê mẫu được sử
dụng làm ước lượng điểm của các tham số 𝛽1 , 𝛽2 , … , 𝛽𝑘 .
➢e: phần dư (residuals) là một ước lượng của .
❖Ý nghĩa của từng hệ số hồi quy như sau:
➢Hệ số chặn: Khi các giá trị của các biến 𝑋𝑗 bằng 0 thì 𝑌෠ = 𝑏1 .
➢Hệ số góc 𝑏j : phản ảnh sự thay đổi của Y tương ứng với một đơn
vị tăng thêm của X j khi các biến độc lập khác không đổi.
34

Mô hình hồi quy bội Dữ liệu mẫu


E(Y) = 1 + 2X2 +. . .+ kXp 𝑦 𝑥2 𝑥3 ⋯ 𝑥𝑘
Y = 1 + 2X2 +. . .+ kXk +  𝑦1 𝑥21 𝑥31 ⋯ 𝑥𝑘1
Các tham số không xác định là ⋮ ⋮ ⋮ ⋮ ⋮
1, 2, . . . , k 𝑦1 𝑥2𝑛 𝑥3𝑛 ⋯ 𝑥𝑘𝑛

b1, b2, . . . , bk
Phương trình hồi quy bội
Cung cấp ước lượng về
1, 2, . . . , k 𝑌෠ = 𝑏1 𝑋1 + 𝑏2 𝑋2 +. . . +𝑏𝑘 𝑋𝑘
Thống kê mẫu là
b1, b2, . . . , bk
35

❖Tiêu chí bình phương nhỏ nhất


➢min σ(𝑦𝑖 − 𝑦ො𝑖 )2
❖Từ đó, xác định được hệ phương trình chuẩn tắc sau đây

n b1 + b 2  X 2i + + b k  X ki = Y
i

b1  X 2i + b 2  X 2i2 + + b k  X 2i X ki = YX
i 2i


b1  X ki + b 2  X 2i X ki + + b k  X ki2 = YX
 i ki

❖Giải hệ phương trình này để xác định các ước lượng


b1 ,b2 , … , bk .
36

Giả thiết Nội dung


1 Biến giải thích là phi ngẫu nhiên
2 Phương sai của các X phải là một số dương xác định
3 Kỳ vọng của các sai số ngẫu nhiên bằng 0, tức E(i/Xi)=0
Phương sai của các sai số ngẫu nhiên i bằng nhau, tức
4
Var(i/Xi) = 2 (Phương sai đồng nhất)
5 Không có sự tương quan giữa các i, tức Cov(i,j) = 0 ij
6 Các i và 𝑋𝑗𝑖 không tương quan với nhau, tức Cov(i, X ji ) = 0
Các i tuân theo phân phối chuẩn với kỳ vọng bằng 0 và
7
phương sai là 2, tức là i ~ N(0, 2)
8 Trong mô hình không tồn tại hiện tượng đa cộng tuyến
37

❖Một công ty phần mềm thu thập Y


dữ liệu về 18 lập trình viên máy X2 X2 Y (1000
X3 (1000 X3
(Năm) (Năm) USD)
tính. Dùng phân tích hồi quy để USD)
xác định xem tiền lương có liên 4 78 24.0 9 88 38.0
quan đến số năm kinh nghiệm và 7 100 43.0 2 73 26.6
điểm kiểm tra năng khiếu của 1 86 23.7 10 75 36.2
nhân viên hay không. 5 82 34.3 6 74 29.0
❖Dữ liệu về số năm kinh nghiệm 10 84 38.0 8 87 34.0
(X2), điểm kiểm tra năng khiếu 0 75 22.2 4 79 30.1
(X3) và lương hàng năm (Y) của 1 80 23.1 6 94 33.9
18 lập trình viên như trên bảng. 6 83 30.0 3 70 28.2
6 91 33.0 3 89 30.0
38

❖Giả sử chúng ta tin rằng lương hằng năm có liên quan đến số
năm kinh nghiệm và điểm kiểm tra năng khiếu theo hồi quy mô
hình sau:
➢Mô hình hồi qui tổng thể ngẫu nhiên: Y = 𝛽1 + 𝛽2 X2 + 𝛽3 X 3 + 𝜀
➢Mô hình hồi qui mẫu ngẫu nhiên: Y = b1 + b2 X 2 + b3 X 3 + e
❖Trong đó:
➢𝑌 = Lương hằng năm (1000USD)
➢X 2 = Số năm kinh nghiệm (Năm)
➢X 3 = Điểm kiểm tra năng khiếu
39

❖Bước 1. Mở File dữ liệu Annual salary.sav


❖Bước 2. Từ menu chính, Analyze →Regression
→linear→ xuất hiện hộp thoại Linear Regression.
❖Bước 3. Tại hộp thoại Linear Regression, chuyển biến Y vào hộp
Dependent, X2, X3 vào hộp Indepent(s) như hình sau.
❖Bước 4. OK, kết quả như
slide sau.
40

❖Kết quả kết xuất hồi qui


Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2.951 6.535 .452 .658
X2 1.406 .214 .738 6.556 .000
X3 .253 .082 .347 3.085 .008
a. Dependent Variable: Y

❖Phương trình hồi quy ước lượng là: 𝑌෠ = 2,951 + 1.406X2 + 0.253X3
❖Hay theo dạng ngẫu nhiên: Y= 2.951 + 1.406X2 + 0.253X3+e
41

❖Với kết quả ước lượng, có thể giải thích như sau:
➢𝑏1 =2.951: Lương trung bình hằng năm khi số năm kinh
nghiệm và điểm kiểm tra năng khiếu đều bằng 0.
➢𝑏2 = 1.406: Nếu số năm kinh nghiệm tăng thêm một năm trong
điều kiện điểm kiểm tra năng khiếu không đổi thì Lương hằng
năm tăng bình quân 1406 USD.
➢𝑏3 = 0.253: Nếu điểm kiểm tra năng khiếu tăng thêm một điểm
trong khi số năm kinh nghiệm không đổi thì Lương hằng năm
tăng bình quân 253USD.
42

❖Mối quan hệ giữa SST, SSR, SSE: SST = SSR + SSE


➢Trong đó
✓ SST (Sum of Squares Total)=σ(𝑦𝑖 − 𝑦)lj 2 : SST phản ảnh tổng sự
biến động của biến phụ thuộc do ảnh hưởng của tất cả các nhân
tố.
✓ SSR (Sum of Squares due to Regression)=σ(𝑦ො𝑖 − 𝑦) lj 2 : SSR phản
ảnh sự biến động của biến phụ thuộc do ảnh hưởng của các biến
giải thích được đưa vào mô hình.
✓ SSE (Sum of Squares due to Error)=σ(𝑦𝑖 −𝑦ො𝑖 )2: SSE phản ảnh sự
biến động của biến phụ thuộc do ảnh hưởng của các nhân tố
không có trong mô hình.
❖Hệ số xác định bội
➢𝑅 2 = 𝑆𝑆𝑅/𝑆𝑆𝑇
43

❖Tính chất: Với công thức như trên, giá trị của hệ số xác định sẽ
nằm trong đoạn 0 và 1, tức: 0 ≤ 𝑟 2 ≤ 1
➢𝑟 2 = 1: Ðường hồi qui phù hợp “hoàn hảo” hay đường hồi qui đi
qua tất cả các quan sát;
➢𝑟 2 = 0: Không có mối liên hệ tương quan giữa X và Y.
❖Ý nghĩa:
➢Đo lường mức độ phù hợp của mô hình;
➢Phản ảnh tỷ lệ % phần biến động của Y giải thích được bằng
đường hồi qui trong toàn bộ biến động của biến phụ thuộc Y.
44

❖Phân tích phương sai (Analysis of Variance)


Total sum Degrees of Mean sum
F
of squares freedom of squares
(1) (2) (3)=(1)/(2) (4)=(3.1)/(3.2)
Regression SSR k-1 MSR (3.1) MSR/MSE
Residual
SSE n–k MSE (3.2)
Error
Total SST n–1
45

❖ANOVA
ANOVAa
Model Sum of Squares df Mean F Sig.
Square
Regression 479.267 2 239.633 36.605 .000b
1 Residual 98.196 15 6.546
Total 577.463 17
a. Dependent Variable: Y
b. Predictors: (Constant), X2, X3

❖𝑅2 = 𝑆𝑆𝑅/𝑆𝑆𝑇=479.267/577.463=0.830
➢ 𝑅 2 =0.83: lớn nên mô hình rất phù hợp
➢ 𝑅 2 = 0.83: trong 100% phần biến động trong mức lương hàng năm
được giải thích bởi 83% sự thay đổi do 2 biến giải thích: Số năm kinh
nghiệm và điểm kiểm tra năng khiếu của lập trình viên.
46

❖Việc thêm các biến độc lập, ngay cả những biến không có ý
nghĩa thống kê, sẽ làm cho sai số dự đoán trở nên nhỏ hơn, do
đó làm giảm tổng bình phương do sai số, SSE.
❖Vì SSR = SST – SSE nên khi SSE càng nhỏ thì SSR càng lớn, nên
𝑟 2 = SSR/SST sẽ tăng.
❖Hệ số xác định bội điều chỉnh bù cho số lượng biến độc lập
trong mô hình.
𝑆𝑆𝐸 Τ 𝑛−k
ത 2
➢𝑅 = 1 − Τ
𝑆𝑆𝑇 𝑛−1
❖Thật dễ dàng để thấy rằng 𝑅᪄ 2 và 𝑅2 có liên quan với nhau vì
𝑛−1
➢𝑅𝑎2 = 1 − (1 − 𝑅 2 )
𝑛−k
❖Hệ số xác định điều chỉnh rất hữu ích để so sánh mức độ phù
hợp của các mô hình hồi quy khác nhau với nhau.
47

❖Tính chất của Hệ số xác định điều chỉnh (Adjusted R Square):


➢Adjusted R Square (𝑅𝑎2 )  R Square (𝑅2 ): hàm ý rằng khi số
lượng biến X tăng lên, 𝑅𝑎2 tăng không hơn so với 𝑅2 .
➢𝑅𝑎2 có thể là âm, mặc dù 𝑅2 không âm.
❖Đầu ra SPSS
Model Summary
R Adjusted R Std. Error of the
Model R Square Square Estimate
a
1 .911 .830 .807 2.55859
a. Predictors: (Constant), X2, X3

20−1
❖𝑅𝑎2 = 1 − (1 − .830) = .807
20−3
48

❖Trong hồi quy tuyến tính đơn, kiểm định F và t đưa ra cùng một
kết luận.
❖Trong hồi quy bội, kiểm định F và t có những mục đích khác
nhau.
➢Kiểm định F được gọi là kiểm định ý nghĩa chung cho cả mô
hình.
➢Kiểm định t được tiến hành cho từng biến độc lập trong mô
hình.
49

❖Các giả thuyết


➢H0 : β2 = . . . = βk = 0
➢H1 : Tồn tại ít nhất một hệ số góc khác 0.
❖Thống kê kiểm định
➢F = MSR/MSE
❖Quy tắc bác bỏ
➢Bác bỏ 𝐻0 nếu giá trị p_value   hoặc nếu FF,
➢Trong đó, F dựa trên phân phối F với df ở tử số là k-1 và df ở
mẫu số là (n – k).
50

❖Các giả thuyết


➢H0 : 2 = 3 = 0
➢H1 : Tồn tại ít nhất một hệ số góc khác 0.
❖Quy tắc bác bỏ
➢Vì = 0.05 và df = 2 và 17 nên 𝐹.05 (2,17)= 3.59
➢Bác bỏ 𝐻0 nếu p-value 0.05 hoặc F 3.59
51

❖Đầu ra ANOVA
Sum of Mean
Model df F Sig.
Squares Square
b
1 Regression 479.267 2 239.633 36.605 .000
Residual 98.196 15 6.546
Total 577.463 17
a. Dependent Variable: Y
b. Predictors: (Constant), X2, X3
p-value dùng để kiểm
❖Thống kê kiểm định định ý nghĩa chung
➢F = MSR/MSE =239.633/6.546=36.605
❖Kết luận
➢P-value < 0.05. vì vậy chúng ta có thể bác bỏ 𝐻0 .
➢Ngoài ra. F =36.605> 3.59
52

❖Thống kê kiểm định


➢F= MSR/MSE = 250.16/5.85 = 42.76
❖Kết luận
➢p-value <.05 hay F= 42.76>3.59 → vì vậy chúng ta có thể bác bỏ
𝐻0 với mức ý nghĩa 5%.
53

❖Khi thực hiện những suy đoán thống kê về các tham số hồi qui,
chúng ta có thể đề xuất giả thuyết về 𝑗 , chẳng hạn H0 : 𝑗 = ∗𝑗
❖Chúng ta có
➢t = (bj − βj )/Se(bj )~T(n − k)
❖Nếu H0 đúng, chúng ta có
➢ t = (bj − β∗j )/Se(bj )~T(n − k)
❖Các cặp giả thuyết
➢Hai phía: H0 : j = ∗j và H1 : j ≠ ∗j
➢Bên trái: H0 : j ≥ j∗ và H1 : j < ∗j
➢Bên phải: H0 : j ≤ ∗j và H1 : j > ∗j
54

Tiếp cận p-value (p-value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng các giả thuyết
1 Bên trái: H 0 : j ≥ j

và H1 : j < j

H0 : j = j∗ và H1 : j ≠ j∗
Bên phải: H0 : j ≤ j∗ và H1 : j > j∗
2 Chọn mức ý nghĩa α
3 Tính thống kê kiểm định 𝑡 = (𝑏𝑗 − 𝛽𝑗∗ )/𝑆𝑒(𝑏𝑗 )~𝑇(𝑛 − 𝑘)
4 Sử dụng thống kê kiểm định t để xác định p-value phù hợp
So sánh mức ý nghĩa  và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value  α/2 Bác bỏ H0 nếu p-value  α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
55

Tiếp cận giá trị tới hạn (Critical Value Approach)


Bước Kiểm định hai bên Kiểm định một bên
Xây dựng các giả thuyết
1 Bên trái: H 0 :  j ≥  ∗
j và H1 :  j <  ∗
j
H0 : j = ∗j và H1 : j ≠ ∗j
Bên phải: H0 : j ≤ ∗j và H1 : j > ∗j
2 Chọn mức ý nghĩa α
3 Tính thống kê kiểm định t = (bj − β∗j )/Se(bj )~T(n − k)

4 Sử dụng mức ý nghĩa , bảng phân phối t để tính giá trị tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0
hay không
5 Bên trái: Bác bỏ H0 nếu t -𝑡 (𝑛 − 𝑘)
Bác bỏ H0 nếu t𝑡/2 (𝑛 − 𝑘)
Bên phải: Bác bỏ H0 nếu t 𝑡 (𝑛 − 𝑘)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
56

❖Trường hợp đặc biệt, khi muốn kiểm định tồn tại mối quan hệ
của riêng biến 𝑋𝑗 với biến phụ thuộc. Khi đó, cặp giả thuyết sẽ

➢H0 : βj = 0: Không có mối quan hệ giữa biến phụ thuộc y và biến
độc lập X j
➢H1 : βj ≠ 0: Có mối quan hệ giữa biến phụ thuộc y và biến độc lập
Xj
❖Thống kê kiểm định
bj
➢t=
Se(bj ൯
CHÚ Ý:
➢Qui trình và cách tiếp cận giống trên
➢Trong các phần mềm thống kê có trình bày kết quả tính toán
thống kê t và giá trị xác suất tương ứng, với nhãn p-value hay Sig.
57

❖Ví dụ: Xem xét có tồn tại mối quan hệ giữa số năm kinh nghiệm;
điểm bài kiểm tra năng khiếu với giữa Lương hàng năm.
➢𝐻0 : 𝛽2 = 0: Không có mối quan hệ giữa Lương hằng năm và số
năm kinh nghiệm.
➢𝐻1 : 𝛽2 ≠ 0: Có mối quan hệ giữa lương hằng năm và số năm
kinh nghiệm
❖Quy tắc bác bỏ
➢Vì = 0.05 và df = n-k=18-3=15, 𝑡.025 (15) = 2.13
➢Bác bỏ 𝐻0 nếu p-value .05, hoặc nếu |t|2.13
58

❖Kết quả kết xuất


Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2.951 6.535 .452 .658
X2 1.406 .214 .738 6.556 .000
X3 .253 .082 .347 3.085 .008
a. Dependent Variable: Y
❖Kết luận
➢ Sử dụng = 0.05, p-values = 0.000 và 0.008 cho thấy rằng chúng ta có
thể bác bỏ H0 : 2 = 0 và H0 : 3 = 0 với =5%.
➢ Như vậy, với mức ý nghĩa 5% có thể kết luận rằng có mối quan hệ
giữa Lương hàng năm và số năm kinh nghiệm; có mối quan hệ giữa
Lương hàng năm (1000USD) và điểm kiểm tra năng khiếu.
59

❖Ngoài kiểm định các giả thuyết liên quan đến các tham số hồi
qui, chúng ta cần xác định ước lượng điểm và khoảng tin cậy
của các tham số hồi qui.
❖Ước lượng điểm của các tham số hồi qui:
➢Các hệ số hồi qui mẫu bj chính là các ước lượng điểm của các
tham số hồi qui βj
❖Ước lượng khoảng, chính là khoảng tin cậy của j . Chúng ta
dùng khoảng tin cậy đối xứng vì nó nhỏ nhất và đơn giản.
❖Khoảng tin cậy đối xứng 100(1- )% của 𝑗 là
𝑏𝑗 −𝛽𝑗
➢𝑃 −𝑡𝛼 /2 (𝑛 − k) ≤ ≤ 𝑡𝛼 /2 (𝑛 − k) = 1 − 𝛼
𝑆𝑒(𝑏𝑗 )
❖Hay khoảng tin cậy 100(1- )% của 𝑗 là
➢𝑏𝑗 − 𝑡𝛼 /2 (𝑛 − k) × 𝑆𝑒(𝑏𝑗 ) ≤ 𝛽𝑗 ≤ 𝑏𝑗 + 𝑡𝛼 /2 (𝑛 − k) × 𝑆𝑒(𝑏𝑗 )
60

❖Viết ngắn gọn


➢ 𝑏j ± 𝑡𝛼 /2 (𝑛 − 𝑘) × 𝑆𝑒(𝑏𝑗 )
❖Khoảng tin cậy (1-)*100 % còn có thể được viết như sau
➢ [𝑏𝑗 −𝑡𝛼 /2 (𝑛 − 𝑘) × 𝑆𝑒(𝑏𝑗 ); 𝑏𝑗 + 𝑡𝛼 /2 (𝑛 − 𝑘) × 𝑆𝑒(𝑏𝑗 )]
❖Trong đó:
➢ bj là ước lượng điểm
➢ t α /2 (n − k) × Se(bj )là biên độ sai số
➢ t α (n − k) là giá trị tới hạn với mức ý nghĩa /2 và bậc tự do n – k.
2

➢ 1- gọi là hệ số tin cậy (confidence coefficient)


➢ bj − t α /2 (n − k) × Se(bj ): Cận dưới
➢ bj + t α /2 (n − k) × Se(bj ): Cận trên
61

❖Bản chất
➢Đa cộng tuyến là tồn tại mối quan hệ tuyến tính “hoàn hảo” giữa
một số hoặc tất cả các biến giải thích trong mô hình hồi quy.
❖Hậu quả của đa cộng tuyến
➢Các ước lượng OLS có phương sai và hiệp phương sai lớn. Từ
đó, khoảng tin cậy có xu hướng rộng hơn nhiều, dẫn đến dễ
chấp nhận “giả thuyết bằng 0”; tỷ lệ t của một hoặc nhiều hệ số
có xu hướng không có ý nghĩa thống kê.
➢Mặc dù tỷ lệ t của một hoặc nhiều hệ số không có ý nghĩa thống
kê nhưng hệ số xác định có thể rất cao.
➢Các ước lượng OLS và các sai số chuẩn của chúng có thể nhạy
cảm với những thay đổi nhỏ trong dữ liệu
62

❖Phát hiện đa cộng tuyến


➢1. Cao 𝑅2 nhưng tỷ lệ t nhỏ đáng kể
➢2. Hệ số tương quan cặp giữa các biến giải thích cao. Một quy
tắc thực hành rằng nếu trị tuyệt đối của hệ số tương quan cặp
vượt quá 0.8, thì đa cộng tuyến là một vấn đề nghiêm trọng.
➢3. Dung sai (Tolerance: 𝑇𝑂𝐿𝑗 ) nhỏ và nhân tử phóng đại
phương sai (𝑉𝐼𝐹𝑗 ) lớn. Theo quy tắc chung, nếu VIF của một
biến vượt quá 10, biến đó được cho là có tính cộng tuyến cao.
❖Biện pháp khắc phục
➢Sử dụng thông tin tiên nghiệm.
➢Bỏ biến. Khi đối mặt với hiện tượng đa cộng tuyến nghiêm
trọng, một trong những điều “đơn giản nhất” cần làm là loại bỏ
một trong các biến cộng tuyến.
63

❖Bước 1. Trên menu chính,


Analyze→regression
→linear →xuất hiện hộp thoại
Linear regression.
❖Bước 2. Tại hộp thoại Linear
regression, chuyển biến phụ
thuộc vào hộp Dependent và
chuyển các biến độc lập vào hộp
independent(s) như hình bên.
❖Bước 3. Tại hộp thoại Linear
regression,Statistics→ sẽ xuất
hiện hộp thoại Linear regression
statistics.
64

❖Bước 4. Tại hộp thoại Linear


regression
statistics,Estimes→Mo
ddel fit→Collinearity
diagnostics như màn hình bên
→Continue để quay lại hộp
thoại Linear regression
❖Bước 5. OK → được kết quả
như Slide tiếp theo.
65

❖Tiếp theo. bạn sẽ thấy bảng hệ số trong đầu ra SPSS. Để ý ở cột


ngoài cùng bên phải có bảng VIF như hình bên dưới:
Coefficientsa
Unstandardized Standardized Collinearity
Coefficients Coefficients Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 2.951 6.535 .452 .658
X2 1.406 .214 .738 6.556 .000 .896 1.117
X3 .253 .082 .347 3.085 .008 .896 1.117
a. Dependent Variable: Y
66

❖Trong nhiều tình huống, biến độc lập là biến phân loại. Khi đó, phải
tạo biến giả (Dummy). Biến giả là biến nhị phân nhận giá trị 0 hoặc 1.
❖Nếu biến phân loại có 𝑚 loại, yêu cầu tm − 1 biến giả, với mỗi biến giả
được mã hóa thành 0 hoặc 1.
❖Trong biến phân loại, có một loại luôn được gán bằng 0 được gọi là
loại cơ sở (base category) hay loại tham chiếu (reference category).
➢ Ví dụ, một biến chỉ ra trình độ học vấn có thể được đại diện bởi 𝑋2 và
𝑋3 như sau:
✓ Trong trường hợp này, loại trình độ
Đại học được gọi là loại sơ sở hay loại Bậc học 𝑋𝟐 𝑋𝟑
tham chiếu.
❖Phải cẩn thận trong việc xác định và Đại học 0 0
giải thích các biến giả.
Thạc sĩ 1 0

Tiến sĩ 0 1
67

❖Ví dụ: Khảo sát lương lập trình viên


➢Như một phần mở rộng của vấn đề liên quan đến cuộc khảo sát
lương hằng năm của lập trình viên, giả sử rằng ban quản lý cũng
tin rằng lương hàng năm có liên quan đến việc cá nhân đó có
bằng tốt nghiệp đại học về khoa học máy tính hoặc hệ thống
thông tin hay không.
❖Tạo một biến giả X4:
1 Nếu cá nhân có bằng tốt nghiệp đại học
➢𝑋4 = ൝
0 Nếu không có bằng tốt nghiệp đại học
❖Phương trình hồi quy: Yƶ = b1 + b2 X2 + b3 X3 + b4 X4
➢Y = Lương hàng năm (1000USD)
➢ 𝑋2 = Số năm kinh nghiệm
➢ 𝑋3 = Điểm kiểm tra năng khiếu
68

X2 Y X2 Y
(Năm) X3 X4 (1000USD) (Năm) X3 X4 (1000USD)
4 78 0 24.0 9 88 1 38.0
7 100 1 43.0 2 73 0 26.6
1 86 0 23.7 10 75 1 36.2
5 82 1 34.3 6 74 0 29.0
10 84 1 38.0 8 87 1 34.0
0 75 0 22.2 4 79 0 30.1
1 80 0 23.1 6 94 1 33.9
6 83 0 30.0 3 70 0 28.2
6 91 1 33.0 3 89 0 30.0
69

❖Trong File Annual salary.sav, tạo thêm trường X4 với những


thuộc tính như sau:
70

❖Đầu ra phương trình hồi quy chưa có biến giả


ANOVAa
Sum of Mean
Model Squares df Square F Sig.
b
1 Regression 490.469 3 163.490 26.311 .000
Residual 86.994 14 6.214
Total 577.463 17
a. Dependent Variable: Y
b. Predictors: (Constant). X3. X2. X4
Model Summary
Adjusted R Std. Error of
Model R R Square Square the Estimate
a
1 .922 .849 .817 2.49276
a. Predictors: (Constant). X3. X2. X1
Previously. Previously.
R Square = .830 Adjusted R Square = .807
71

❖Đầu ra phương trình hồi quy có biến giả


Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant 8.885 7.750 1.146 0.271
)
X2 1.080 0.320 0.567 3.373 0.005
X3 0.185 0.094 0.254 1.959 0.070
X4 2.963 2.207 0.260 1.343 0.201
a. Dependent Variable: Y

Tồn tại không đáng kể


72

❖Chúng ta thảo luận về các mô hình hồi quy sau:


➢1. Mô hình log-log
➢2. Các mô hình bán-log
➢3. Mô hình nghịch đảo
➢4. Mô hình nghịch đảo logarit
➢5. Mô hình hồi quy đa thức
➢6. Mô hình hàm Cobb–Douglas
73

❖Hãy xem xét mô hình sau, được gọi là mô hình hồi quy hàm mũ
➢𝑌 = α𝑋𝛽 𝑒  (*)
❖Lấy logarit tự nhiên của mô hình này, chúng ta có thể viết như
sau:
➢ln𝑌 = lnα + 𝛽ln𝑋 + (**)
➢Trong đó: ln =log theo cơ số e, và trong đó: 𝑒 = 2.718
❖Mô hình này được gọi là mô hình log-log hay mô hình log kép
➢Đặt 𝛼 ∗ = ln𝛼 và 𝑌𝑖∗ = ln 𝑌𝑖 và 𝑋 ∗ = lnX, (**) trở thành:
➢𝑌 ∗ = 𝛼 ∗ + 𝛽X ∗ + 
❖Ước lượng OLS 𝑎∗ và 𝑏 thu được tương ứng sẽ là ước lượng
tuyến tính không chệch tốt nhất của 𝛼 ∗ và .
❖Hệ số góc β là hệ số co giãn của Y đối với X, nghĩa là phần trăm
thay đổi của Y đối với một tỷ lệ phần trăm thay đổi của X.
74

❖Một đặc điểm hấp dẫn của mô hình log-


log khiến nó trở nên phổ biến trong ứng
dụng, đó là hệ số góc β đo độ co giãn của

demanded
Quantity
Y đối với X, nghĩa là % thay đổi của Y đối Y=  X i–

với một % thay đổi của x.


❖Do đó, nếu Y đại diện cho lượng cầu của
một loại hàng hóa và X là đơn giá của nó, X
Pric
thì β đo lường độ co giãn của cầu theo e

Log of quantity
demanded
giá. lnY = ln –LnX

Log of ln
price X
75

❖Chúng ta có thể nhớ lại công thức lãi kép nổi tiếng sau đây:
➢𝑌 = 𝑌0 1 + 𝑟 𝑡
➢Trong đó: 𝑟 là tốc độ tăng trưởng kép (theo thời gian) của 𝑌.
➢Lấy logarit tự nhiên của mô hình này, chúng ta có thể viết như
sau:
➢ln(𝑌) = ln(𝑌0 ) + 𝑡 ln 1 + 𝑟
❖Đặt 𝛽1 = ln(𝑌0 ) và 𝛽2 = ln (1 + 𝑟), tạo biến mới LnY=Ln(Y), mô
hình trở thành:
➢ln𝑌 = 𝛽1 + 𝛽2 𝑡
❖Thêm phần nhiễu vào mô hình, mô hình trở thành
➢ln𝑌 = 𝛽1 + 𝛽2 𝑡 + ε
❖Mô hình này được gọi là mô hình bán logarit vì chỉ có một biến
xuất hiện ở dạng logarit.
76

❖Không giống như mô hình tăng trưởng, trong đó chúng ta quan


tâm đến việc tìm % tăng của Y đối với một thay đổi tuyệt đối
của X, bây giờ chúng ta muốn tìm thay đổi tuyệt đối của Y đối
với một % thay đổi của X. Khi đó, mô hình có dạng sau:
➢𝑌 = 𝛼 + 𝛽ln 𝑋 + ε
➢Khi thực hiện hồi qui cho mô hình này, chúng ta tạo biến mới
LnX=Ln(X).
❖Mô hình này được gọi là mô hình lin–log.
77

❖Các mô hình thuộc loại sau đây được gọi là mô hình nghịch đảo:
1
➢𝑌 =  + 𝛽 +ε
𝑋
❖Mô hình này là phi tuyến theo biến 𝑋 nhưng là tuyến tính theo α
và 𝛽 và do đó được gọi là mô hình hồi quy tuyến tính.
❖Để thực hiện hồi qui mô hình này, chúng ta tạo ra biến mới
z=1/x, khi đó mô hình trở thành:
➢𝑌 =  + 𝛽z + ε
❖Mô hình này có các đặc trưng sau: khi 𝑋 tăng vô hạn, số hạn
𝛽(1/𝑋) tiến dần về không (lưu ý: 𝛽 là một hằng số) và Y tiệm
cận giá trị .
78

Y Y Y

>0 >0 <0



>0 <0


X X
0 0 X 0
-/

–

(a) (b) (c)


79

❖Mô hình nghịch đảo logarit, có


dạng sau:
1
➢ln𝑌 =  − 𝛽 +ε
𝑋
❖Hình dạng của nó được mô tả
trong Hình bên. Như hình này
cho thấy, ban đầu Y tăng với tốc
độ tăng dần rồi sau đó tăng với
tốc độ giảm dần. Như vậy, mô
X
hình có thể phù hợp để mô hình
hóa hàm sản xuất ngắn hạn.
80

❖Hồi quy đa thức bậc k tổng quát có thể được viết là


➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + ⋯ + 𝛽𝑘 𝑋 𝑘 + ε
❖Trong hồi quy đa thức này, chỉ có một biến giải thích ở vế phải nhưng
nó xuất hiện với nhiều lũy thừa khác nhau.
❖Mô hình parabol được biểu diễn bằng phương trình sau
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
➢ Mô hình này được gọi là hàm bậc hai, hay tổng quát hơn, đa thức bậc
hai theo biến X—lũy thừa cao nhất của X biểu thị bậc của đa thức.
❖Các mô hình lập phương được biểu diễn bằng phương trình sau
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀
➢ Mô hình này được gọi là hàm lập phương, hay tổng quát hơn, đa thức
bậc ba theo biến X—lũy thừa cao nhất của X biểu thị bậc của đa thức.
81

❖Hình chữ S này của đường tổng chi phí có thể


Y
được thể hiện bằng đa thức bậc ba
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝛽3 𝑋 3 + 𝜀 TC

Cost
❖Đường chi phí cận biên hình chữ U và đường
chi phí trung bình (AC) của sản lượng
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
X
❖Ghi chú Output

➢ Lý thuyết giá cơ bản cho thấy rằng trong ngắn AC


hạn, các đường chi phí cận biên (MC) và chi MC

Cost
phí trung bình (AC) của sản lượng thường có
hình chữ U—ban đầu, khi sản lượng tăng cả
MC và AC đều giảm, nhưng sau một mức sản Output
X
lượng nhất định thì cả hai đều giảm. hướng
lên trên, một lần nữa là hệ quả của quy luật
hiệu suất giảm dần
82

❖Dạng chuẩn để sản xuất một hàng hóa duy nhất với hai yếu tố:
➢Y = AL K 
➢Trong đó
✓ Y = Kết quả (Giá trị gia tăng, tổng sản lượng, GDP, Lợi nhuận…)
✓ L = đầu vào Lao động
✓ K = đầu vào Vốn
✓ A = năng suất nhân tố tổng hợp
✓ α và β lần lượt là hệ số co giãn đầu ra theo vốn và lao động.
✓ Hệ số co giãn của đầu ra đo lường khả năng thay đổi đầu ra đối
với sự thay đổi về lao động hoặc vốn được sử dụng trong sản
xuất.
83

❖Thuộc tính của các tham số trong mô hình:


➢Nếu α + β = 1: Hiệu quả không đổi theo quy mô, nghĩa là lao
động L và vốn K tăng bao nhiêu lần thì kết quả Y cũng sẽ tăng
bấy nhiêu lần.
➢Nếu α + β < 1: Hiệu quả giảm theo quy mô, có nghĩa là tốc độ
tăng của lao động L và vốn K cao hơn tốc độ tăng của kết quả Y.
➢Nếu α + β > 1: Hiệu quả tăng theo quy mô, có nghĩa là tốc độ
tăng của lao động L và vốn K thấp hơn tốc độ tăng của kết quả Y.
84

❖Chúng ta phát triển một mô hình hồi quy bội với hai biến độc
lập: 𝑥 và 𝑥 2
➢𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑏2 𝑥 2 + 𝑒
❖Mô hình này thường được gọi là mô hình đa thức bậc hai hoặc
mô hình bậc hai.
400
350
300
250 y = -0.0374x2 + 6.749x + 35.709
R² = 0.909
Sales

200
150
100
50
0
0 20 40 60 80 100 120
Months
85

❖Mặc dù không có cách tiếp cận duy nhất dẫn đến một mô hình
tốt, nhưng khi xây dựng một mô hình kinh tế lượng hãy dùng
những tiêu chí của. A. C. Harvey¹ sau đây
➢Tiết kiệm (Parsimony): Theo nguyên tắc Occam, hay nguyên tắc
tiết kiệm, gợi ý rằng một mô hình nên được giữ càng đơn giản
càng tốt.
➢Khả năng nhận dạng (Identifiability): Đối với một tập hợp dữ
liệu nhất định, các tham số ước tính phải có các giá trị duy nhất
hoặc, chỉ có một ước lượng cho mỗi tham số.
➢Mức độ phù hợp (Goodness of Fit): Giải thích càng nhiều càng
tốt sự thay đổi của biến phụ thuộc bằng các biến giải thích có
trong mô hình.
86

➢Tính nhất quán lý thuyết (Theoretical Consistency): mô hình


phải phù hợp với các lý thuyết kinh tế. Khi xây dựng một mô
hình, chúng ta nên có một số nền tảng lý thuyết cho nó; “đo
lường mà không có lý thuyết” thường dẫn đến những kết quả
rất đáng thất vọng.
➢Sức mạnh dự đoán (Predictive Power): Như Milton Friedman,
người đoạt giải Nobel, lưu ý: “Kiểm tra xác đáng duy nhất về giá
trị của một mô hình là so sánh dự đoán của nó với kinh
nghiệm”2. theo tiêu chí này, chúng ta sẽ chọn mô hình mà dự
đoán lý thuyết của nó được chứng minh bằng kinh nghiệm thực
tế.
Chương 08
2

❖Sau khi hoàn thành chương này, người học sẽ có thể


➢Xác định được thế nào là dãy số thời gian và những thành phần
của nó
➢Xác định được phương pháp nghiên cứu biến động của dãy số
thời gian,
➢Xác định được những những tình huống ứng dụng dãy số thời
gian
➢Xác định những phương pháp dự báo
➢Thực hiện thành thạo những thủ tục trong
SPSS phù hợp cho dãy số thời gian
và đọc được kết quả kết xuất
3

❖Dãy số thời gian hay còn được gọi là Chuỗi thời gian: là một chuỗi các
trị số của một biến/chỉ tiêu được sắp xếp theo thứ tự thời gian. Các trị
số của chỉ tiêu được đo tại các thời điểm hoặc thời kỳ khác nhau.
➢ Ví dụ: hàng ngày (giá cổ phiếu, báo cáo thời tiết), hàng tuần (cung
tiền), hàng tháng (tỷ lệ thất nghiệp, CPI chỉ số giá tiêu dùng), hàng quý
(GDP), hàng năm (ngân sách chính phủ), năm năm (điều tra dân số),
hoặc mười năm một lần (điều tra dân số).
❖Loại dữ liệu được gọi là dữ liệu tần số cao được thu thập trong một
khoảng thời gian cực kỳ ngắn. Trong giao dịch chớp nhoáng trên thị
trường chứng khoán và ngoại hối, dữ liệu tần số cao như vậy hiện đã
trở nên phổ biến.
❖Trong chuỗi thời gian, trình tự của các quan sát là quan trọng, trái
ngược với dữ liệu chéo thì trình tự các quan sát không quan trọng.
4

❖Mã ZEEL trong ngành chứng khoán liên kết với công ty Zee
Entertainment Enterprises Limited. Zee là một công ty truyền thông
và giải trí đa quốc gia có trụ sở tại Ấn Độ.
Date Prev Close Open High Low Last Close VWAPVolume Turnover
07/04/2021 199.9 200.95 204.25 199.8 200.5 200.4 201.71 12421910 2.50564E+14
08/04/2021 200.4 202 205.2 200.6 202 201.95 203.08 8695941 1.76601E+14
09/04/2021 201.95 202.5 208 201 206.25 206.05 205.7 11821377 2.43166E+14
12/04/2021 206.05 201.2 201.25 176.1 184.15 181.1 186.64 24875466 4.64282E+14
13/04/2021 181.1 184.85 189.25 182.1 187.9 188.05 186.48 9965317 1.8583E+14
15/04/2021 188.05 189.4 190.5 184.9 188.8 189.2 187.91 10404058 1.95498E+14
16/04/2021 189.2 189.2 196.9 189.2 196.35 193.95 193.14 7952202 1.53585E+14
19/04/2021 193.95 187 191.2 185.1 191 190.35 188.28 9346956 1.75988E+14
20/04/2021 190.35 193 201.75 192.2 197.3 197.4 197.17 15709132 3.09744E+14
22/04/2021 197.4 195.5 199.8 191.7 192.15 192.3 194.76 10203121 1.98711E+14
23/04/2021 192.3 192 193 187 188 188 190.04 8529439 1.6209E+14
…. …. …. …. …. …. …. …. …. …
5

❖Date: Ngày giao dịch.


❖Prev Close: Giá đóng cửa phiên giao dịch trước đó.
❖Open: Giá mở cửa của phiên giao dịch hiện tại.
❖High: Giá cao nhất trong phiên giao dịch hiện tại.
❖Low: Giá thấp nhất trong phiên giao dịch hiện tại.
❖Last: Giá giao dịch cuối cùng trong phiên giao dịch hiện tại.
❖Close: Giá đóng cửa của phiên giao dịch hiện tại.
❖VWAP (Volume-Weighted Average Price): Giá trung bình được tính
dựa trên khối lượng giao dịch.
❖Volume: Khối lượng giao dịch trong phiên giao dịch hiện tại.
❖Turnover: Tổng giá trị của tất cả các giao dịch được thực hiện trong
phiên giao dịch hiện tại.
6

❖Dữ liệu chuỗi thời gian (Time series data)


➢ Một tập hợp các quan sát về các giá trị của một biến hay nhiều biến
tại các thời điểm hay khoảng thời gian khác nhau.
➢ Ví dụ: GDP (tỷ đồng) của Việt Nam qua các năm

Năm 2013 2014 2015 2016 2017 2018 2019 2020

GDP 4473656 4937032 5191324 5639401 6293905 7009042 7707200 8044386

❖Dữ liệu tổng hợp hoặc kết hợp (Pooled data)


➢ Dữ liệu được thu thập về một hay nhiều biến/chỉ tiêu của nhiều
đơn vị theo thời gian.
➢ Trong đó có loại dữ liệu bảng (Panel data/longitudinal data)
7

❖Dữ liệu bảng là dạng dữ liệu thu


2017 2018 2019 2020 2021
thập từ nhiều đơn vị hoặc cá
Ðà Nẵng 4022 4474 4742 3752 3294
nhân trong một khoảng thời gian
Quảng Nam 1221 1339 1476 1276 1143
kéo dài. Đây là một loại dữ liệu
Quảng Ngãi 716 776 862 708 595
tổng hợp đặc biệt trong đó cùng
Bình Ðịnh 947 901 888 1061 969
một đơn vị được khảo sát theo Phú Yên 408 491 459 519 394
thời gian. Khánh Hòa 1990 1924 1900 1825 1219
❖Các quan sát dữ liệu bảng sẽ Ninh Thuận 426 434 531 656 383
được ký hiệu bằng chỉ số dưới Bình Thuận 703 714 838 941 644
kép (ví dụ: 𝑌𝑖𝑡 , 𝑋𝑖𝑡 ). https://pxweb.gso.gov.vn/pxweb/vi/Doanh%20nghi%
e1%bb%87p/Doanh%20nghi%e1%bb%87p/V05.02.p
❖Ví dụ: Số doanh nghiệp đăng ký x/?rxid=233fabd8-1944-4ff7-95c7-d398784412b3

thành lập mới phân theo địa


phương
8

❖Có nhiều lý do khác nhau ảnh


hưởng đến các giá trị của một
quan sát trong chuỗi thời gian là 01 02
các thành phần của chuỗi thời Biến động xu thế
Biến động
thời vụ
gian. Có bốn thành phần cơ bản (trend variation)
(Seasonal
của dữ liệu chuỗi thời gian. variation)

04 03
Biến động Biến động
ngẫu nhiên chu kỳ
(Irregular
❖CHÚ Ý! Một chuỗi thời gian variation)
(Cyclical
variation)
không nhất thiết phải bao gồm tất
cả bốn thành phần này.
9

❖Giá trị quan sát trong chuỗi thời gian là tổng hoặc tích của các
thành phần:
➢ Mô hình cộng (Additive Model): 𝑌t = Tt + St + Ct × It
➢ Mô hình nhân (Multiplicative model): Yt = Tt St Ct It
➢ Trong đó:
✓ 𝑇𝑡 = Thành phần xu thế ở thời kỳ t
✓ 𝑆𝑡 = Thành phần thời vụ ở thời kỳ t
✓ 𝐶𝑡 = Thành phần chu kỳ ở thời kỳ t
✓ 𝐼𝑡 = Thành phần bất thường ở thời kỳ t
10

❖Chuỗi thời gian có thể hiển thị các thay đổi đến các giá trị tương đối
cao hơn hoặc thấp hơn trong một khoảng thời gian dài.
❖Tăng hoặc giảm có hệ thống có thể là tuyến tính hoặc phi tuyến tính.
700000
30000

600000
25000

500000
20000
400000
15000
300000
10000
200000

5000
100000

0 Thời 0 Thời
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 gian 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 gian
11

❖Thành phần thời vụ được nhận ra bằng cách xem cùng một mô hình
lặp lại trong các khoảng thời gian liên tiếp trong vòng một năm.
❖Mô hình thời vụ có thể xảy ra trong vòng một ngày, tuần, tháng, quý,
năm hoặc một số khoảng thời gian khác không quá một năm, often
hàng tháng hoặc hàng quý.

6000

5000

4000

3000

2000

1000

0
Thời gian
I II III IV I II III IV I II III IV I II III IV I II (Hàng quý)
12

❖Thành phần chu kỳ đại diện cho một mô hình theo chu kỳ bao gồm
chuyển động lên và xuống. Nó có thể kéo dài hơn một năm và đi từ
giai đoạn này sang giai đoạn khác để hoàn thành một chu kỳ.

6000

5000

4000

3000

2000

1000

0
Năm

2014
2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2015

2016

2017

2018
13

❖Thành phần bất thường đề cập đến các biến động không thể kiểm
soát và không thể tránh khỏi. Nó xảy ra ngẫu nhiên, trái ngược với
những thay đổi hoặc sự xuất hiện thông thường và không liên kết với
một khuôn mẫu.
100
80
60
40
20
0
-20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
-40
-60
-80
-100
14

❖Phải đảm bảo tính tính chất có thể so sánh được giữa các mức độ
trước và sau trong dãy số.
➢ Muốn vậy thì phạm vi, nội dung và phương pháp tính toán và đơn
vị tính chỉ tiêu qua trước và sau trong dãy số phải thống nhất.
❖Các khoảng cách thời gian trong dãy số nên bằng nhau (nhất là đối
với dãy số thời kỳ).
➢ Thuận tiện cho việc xác định biến động xu thế, thời vụ, chu kỳ của
hiện tượng, thuận tiện cho việc tính toán các chỉ tiêu phân tích,
biểu diễn lên đồ thị.
15

1 2
Trung bình Thay đổi
theo thời gian tuyệt đối

Tốc độ
phát triển 3 Tốc độ tăng
4
5
Giá trị tuyệt
đối của 1%
tăng
16

❖Trung bình theo thời gian: Giá trị trung bình cộng của một chuỗi
các giá trị của biến trong một khoảng thời gian.
❖Chuỗi thời điểm (Point series)
➢Đối với chuỗi thời gian với các khoảng thời gian bằng nhau
𝑦1 𝑦𝑛
+𝑦2 +...+𝑦𝑛−1 + Giá trị hàng tồn kho
✓ 𝑦ത = 2 2
Ngày
𝑛−1 (Triệu đồng)
✓ Trong đó: 1-1 356
ത Trung bình theo thời gian;
o 𝑦: 1-2 364
1-3 370
o 𝑦𝑖 : giá trị của chỉ tiêu tại thời điểm i
1-4 352
➢VD: Trị giá hàng tồn kho 4 tháng đầu năm
✓ Trung bình hàng tồn kho 3 tháng đầu năm:
356 362
+364+370+
✓ 𝑦lj = 2 2
= 362,667
4−1
17

➢ Đối với chuỗi thời gian có các khoảng thời gian không bằng nhau:
σ𝑛
𝑖=1 𝑦𝑖 𝑡𝑖
✓ 𝑦lj = σ𝑛
𝑖=1 𝑡𝑖

✓ Trong đó:
▪ 𝑦𝑖 : Giá trị của biến y vào thời điểm i
▪ 𝑡𝑖 = khoảng thời gian ứng với giá trị biến y
18

BÀI TOÁN
➢ Có tài liệu về tình hình tang, giảm công nhân của một doanh nghiệp
trong tháng 3 như sau:
✓ Ngày 1.3 số công nhân là 300
✓ Ngày 5.3 tuyển thêm 15 công nhân
✓ Ngày 10.3 có 5 công nhân nghỉ việc
✓ Ngày 15.3 tuyển thêm 10 công nhân
✓ Ngày 21.3 tuyển thêm 5 công nhân
✓ Và đến cuối tháng không có gì thay đổi.
➢ Hãy tính số công nhân bình quân trong danh sách.
19

LỜI GIẢI
➢ Thành lập dãy số thời gian
Ngày 1.3 5.1 10.3 15.3 21.3 31.3
Số công nhân 300 315 310 320 325 325
➢ Tính số công nhân bình quân
✓ Nhận xét: cần tính khoảng thời gian mà mỗi giá trị số công nhân tồn tại
và xem nó như quyền số,
σ𝑛
𝑖=1 𝑦𝑖 𝑡𝑖 300×4+315×5+310×5+320×6+325×11 9820
➢ 𝑦lj = σ𝑛
= = = 316.77
𝑖=1 𝑡𝑖 4+5+5+6+11 31

❖Như vậy, số công nhân bình quân trong tháng 3 là 317 người.
20

BÀI TOÁN
➢Việc bán hàng của thuốc bổ nhức đầu Week Sales
nhãn hiệu Comfort (dạng chai) trong 10 1 110
tuần qua tại BBB được trình bày ở bảng 2 115
bên. BBB muốn xác định doanh số trung 3 125
bình mỗi tuần là bao nhiêu?. 4 120
5 125
LỜI GIẢI
6 120
෌𝑦𝑖 110+⋯+130 1200
➢ 𝑦ത = = = = 120 7 130
𝑛 10 10
8 115
❖Giải thích: 9 110
➢Doanh số trung bình mỗi tuần là 120 10 130
chai.
21

❖Thay đổi tuyệt đối đề cập đến sự khác biệt của một chỉ tiêu giữa
hai thời kỳ.
❖Các loại thay đổi tuyệt đối
➢ Thay đổi tuyệt đối liên hoàn (Chain absolute change) = Giá trị chỉ
tiêu kỳ i (𝑦𝑖 )- Giá trị chỉ tiêu kỳ i-1 (𝑦𝑖−1 )
✓ 𝛿𝑖 = 𝑦𝑖 − 𝑦𝑖−1 ∀𝑖 = 2, 𝑛
➢ Thay đổi tuyệt đối định gốc (Fixed base absolute change): Giá trị
chỉ tiêu kỳ i (𝑦𝑖 )- Giá trị chỉ tiêu kỳ gốc (𝑦0 )
✓ 𝑖 = 𝑦𝑖 − 𝑦1 ∀𝑖 = 1, 𝑛
➢ Thay đổi tuyệt đối trung bình (Average absolute change)
𝑛
෌𝑖=2 𝛿𝑖 𝑦𝑛 −𝑦1
✓ 𝛿ҧ = =
𝑛−1 𝑛−1
❖Chú ý: Thay đổi tuyệt đối bình quân có ý nghĩa khi các mức thay
đổi qua các giai đoạn không khác nhau nhiều.
22

❖Tốc độ phát triển là phần trăm thay đổi của chỉ tiêu giữa hai
thời kỳ.
❖Các loại tốc độ phát triển
➢Tốc độ phát triển liên hoàn (Chain development rate)
𝑦𝑖
✓ 𝑡𝑖 = ∀𝑖 = 2, 𝑛
𝑦𝑖−1
➢Tốc độ phát triển định gốc (Fixed base development rate)
𝑦𝑖
✓ 𝑇𝑖 = ∀𝑖 = 1, 𝑛
𝑦1
➢Tốc độ phát triển bình quân
ҧ n−1 t2t3 … tn
t=
❖Mối liên hệ giữa tốc độ phát triển liên hoàn với định gốc
𝑗
➢𝑇𝑗 = ς𝑘−2 𝑡𝑘
23

➢ Tốc độ phát triển trung bình (Average development rate)


σ𝑛
𝑖=1 𝑓𝑖 𝑓 𝑓 𝑓
✓ t=
ҧ t11 t 22 … t n𝑛
✓ Trong đó:
▪ 𝑡𝑖 : Tốc độ phát triển vào thời gian i
▪ 𝑓𝑖 : Quyền số, tức số lần mà giá trị 𝑡𝑖 nhận
❖Chú ý: Tốc độ phát triển bình quân có ý nghĩa khi các tốc độ phát triển
qua các giai đoạn không khác nhau nhiều.
24

BÀI TOÁN
➢ Có tài liệu về tốc độ phát triển năng suất thu hoạch của một địa
phương qua các giai đoạn như sau:
Giai đoạn 2010-2015 2015-2022
Tốc độ phát triển năng trung bình năm (%) 104 105
➢ Hãy tính tốc độ phát triển bình quân mỗi năm trong cả giai đoạn từ
2010 đến 2020.
LỜI GIẢI
➢ Ứng dụng công thức sau:
σ𝑛
𝑖=1 𝑓𝑖
2
σ𝑖=1 𝑓𝑖
𝑓 𝑓 𝑓𝑛 𝑓 𝑓 5+7
➢ t=
ҧ t11 t 22 … tn = t11 t 22 = 1.045 . 1.057 = 1.046
➢ Như vậy, tốc độ phát triển bình quân mỗi năm của năng suất trong cả
giai đoạn từ 2010 đến 2020 là 104.6%.
25

❖Nhận xét: Nếu tốc độ phát triển bình quân tính từ dãy số
Thời gian 1 2 … n
Giá trị 𝑦𝑖 𝑦1 𝑦1 … 𝑦𝑛

❖Với dãy số này, tính tốc độ phát triển liên hoàn sẽ được như
sau:
Thời gian 1 2 3 … n
Tốc độ phát − 𝑡2 = 𝑦2 /𝑦1 𝑡3 = 𝑦3 /𝑦2 … 𝑡𝑛 = 𝑦𝑛 /𝑦𝑛−1
triển liên hoàn
26

❖Nếu tốc độ phát triển bình quân tính mỗi giai đoạn trong toàn
bộ thời gian thì sẽ tính theo công thức sau:
➢ t=
ҧ n−1 t 2 t 3 … t n
❖Chúng ta có thể biến đổi thành công thức sau:
n−1 y2 y3 yn n−1 yn
➢ t=
ҧ n−1
t2t3 … tn = ( ) ( )…( )=
𝑦1 𝑦2 𝑦𝑛−1 𝑦1
27

❖Tốc độ tăng là phần trăm thay đổi trong chỉ tiêu giữa hai thời kỳ.
❖Các loại tốc độ tăng
➢ Tốc độ tăng liên hoàn (Chain growth rate)
𝑦𝑖 −𝑦𝑖−1
✓ a𝑖 = ∀𝑖 = 2, 𝑛
𝑦𝑖−1

➢ Tốc độ tăng định gốc (Fixed base growth rate)


𝑦𝑖 −𝑦1
✓ b𝑖 = ∀𝑖 = 1, 𝑛
𝑦1

➢ Tốc độ tăng trung bình (Average growth rate)


✓ 𝑎ത = 𝑡ҧ − 1 hoặc là 𝑎(%)
ത ҧ
= 𝑡(%) − 100
28

❖Chỉ tiêu này phản ảnh cứ 1% tăng của tốc độ tăng thì ứng với
một giá trị tuyệt đối là bao nhiêu. Công thức tính như sau:
𝛿𝑖
𝑐𝑖 =
𝑎𝑖 (%)
Có thể biến đổi như sau:
𝑦𝑖 − 𝑦𝑖−1 𝑦𝑖−1
𝑐𝑖 = 𝑦 − 𝑦 =
𝑖 𝑖−1
𝑥100 100
𝑦𝑖−1
29

❖Theo nguồn dữ liệu từ tổng cục Du


lịch, lượt du khách quốc tế đến Việt Khách quốc tế đến
Nam qua các năm như trên Bảng. Năm (Lượt người)
2008 4,230,235
❖Tổi chức dữ liệu trên SPSS như sau: 2009 3,776,708
❖Tên File: LuotkhachQT2VN.sav gồm 2 2010 5,034,712
2011 5,921,925
trường:
2012 6,744,158
❖Trường 1: Name: Nam; Lable: Năm; 2013 7,581,564
Measure: Ordinal 2014 7,887,013
2015 7,898,852
❖Trường 2: Name: LuotDukhachQT; 2016 10,012,735
Lable: Lượt du khách quốc tế đến 2017 12,922,151
Việt Nam; Measure: Scale. 2018 15,497,791
2019 18,008,591
2020 3,686,779
2021 3,500
2022 3,440,019
30

❖Để tính toán các chỉ tiêu này, cần tạo các biến mới để lưu trữ
chúng.tạo biến mới.
❖Ví dụ: Muốn tính Lượng thay đổi tuyệt đối liên hoàn, cần tạo biến mới
với
➢ Name: TDTDLH
➢ Lable: Lượng thay đổi tuyệt đối liên hoàn.
❖Thực hiện các bước sau:
➢ Bước 1. Từ menu chính, Transform →Compute Variable... Hộp
thoại Compute Variables xuất hiện.
➢ Bước 2. Tại hộp thoại Compute Variables, nhập tên biến mới TDTDLH
vào ô target variable. Nó có thể là biến dã tồn tại hay biến mới sẽ được
them vào File đang hoạt động.
➢ Bước 3. Để xây dựng biểu thức, hãy dán các thành phần vào trường
Biểu thức hoặc nhập trực tiếp vào trường Numeric Expression, cụ thể,
nhập biểu thức LuotDukhachQT-Lag(LuotDukhachQT,1).
31

➢ Bước 4. Type & Label sẽ


xuất hiện hộp thoại Compute
Variable: Type and Label.
➢ Bước 5. Tại hộp thoại
Compute Variable: Type and
Label, hãy nhập tên nhãn vào
ô lable: Lượng thay đổi tuyệt
đối liên hoàn và chọn Type:
Numeric.
➢ Bước 6. Continue để quay
lại hộp thoại Compute
Variables.
➢ Bước 6. OK và được kết quả
lưu trong File đang hoạt
động.
32

Tương tự cho những chỉ tiêu khác:


❖1. Lượng thay đổi tuyệt đối định gốc:
➢ Name: TDTĐG
➢ Lable: Thay đổi tuyệt đổi định gốc
➢ Biểu thức: LuotDukhachQT-4230235(Đây là mức độ đầu tiên được
chọn làm gốc cố định)
❖2. Tốc độ phát triển liên hoàn
➢ Name: TDPTLH
➢ Lable: Tốc độ phát triển liên hoàn
➢ Biểu thức: LuotDukhachQT*100/Lag(LuotDukhachQT,1)
❖3. Tốc độ phát triển định gốc
➢ Name: TDPTĐG
➢ Lable: Tốc độ phát triển định gốc
➢ Biểu thức: LuotDukhachQT*100/4230235
33

❖4. Tốc độ tăng liên hoàn


➢Name: TDTLH
➢Lable: Tốc độ tăng liên hoàn
➢Biểu thức: (LuotDukhachQT-Lag(LuotDukhachQT,1))*100
/Lag(LuotDukhachQT,1)
❖5. Tốc độ tăng định gốc
➢Name: TDPTĐG
➢Lable: Tốc độ tăng định gốc
➢Biểu thức: (LuotDukhachQT-4230235)*100/4230235
❖6. Giá trị tuyệt đối của 1% tăng
➢Name: GTTD
➢Lable: Giá trị tuyệt đối của 1% tăng
➢Biểu thức: TDTDLH/ TDTLH
34

❖Trong những xử lý trên dùng hàm Lag với cú pháp


➢ LAG(variable[, n]). Numeric or string. Giá trị của biến trong case
trước hoặc n Case trước. Đối số thứ hai tùy chọn, n. phải là một số
nguyên dương; Mặc định là 1.
35
Năm 2008 2009 ... 2016 2017 2018 2019 Bình quân
Tổng du khách quốc tế
4230235 3776708 ... 10012735 12922151 15497791 18008591 8793036.25
(lượt khách)
Lượng tăng tuyệt đối
- -453527 ... 2113883 2909416 2575640 2510800 1252577.82
liên hoàn (lượt khách)
Lượng tăng tuyệt đối
0 -453527 ... 5782500 8691916 11267556 13778356 -
định gốc (lượt khách)
Tốc độ phát triển liên
- 89% ... 127% 129% 120% 116% 114%
hoàn (%)
Tốc độ phát triển định
100 89% ... 237% 305% 366% 426% -
gốc (%)
Tốc độ tăng liên hoàn
- -11% ... 27% 29% 20% 16% 14%
(%)
Tốc độ tăng định gốc
0 -11% ... 137% 205% 266% 326% -
(%)
Giá trị tuyệt đối của 1%
- 42302,35 ... 78988,52 100127,35 129221,51 154977,91
tăng
36

1
2

3
37

❖Tình huống ứng dụng: Dãy số thời kỳ có khoảng cách thời gian ngắn,
dao động ngẫu nhiên không lớn và có rất nhiều mức độ.
❖Cách thực hiện: Mở rộng khoảng cách thời gian từ GIỜ sang NGÀY,
Ngày sang TUẦN, từ TUẦN sang THÁNG, THÁNG sang QUÍ, QUÍ sang
NĂM.
❖Trong SPSS dùng các hàm Date Extraction: XDATE.WEEK(Datevalue);
XDATE.MONTH(Datevalue); XDATE. YEAR (Datevalue).
0.140 0.300
Millions

Millions
0.120
0.250
0.100
0.080 0.200
0.060 0.150
0.040
0.020 0.100
0.000 0.050
1 3 5 7 9 11 1 3 5 7 9 11 1 3 5 7 9 11 1 3 5 7 9 11
0.000
I II III IV I II III IV I II III IV I II III IV 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
2015 2016 2017 2018 2015 2016 2017 2018
38

❖Trung bình di động đơn (SMA: Single moving average ): là trung bình
không trọng số của k điểm dữ liệu. Số giá trị mà chúng ta sử dụng để
tính các SMA được gọi là khoảng trượt hay còn gọi là khoảng san bằng
(span) (k).
❖SMA thường được sử dụng để xác định hướng xu thế.
❖Trung bình di động gồm:
➢ Trung bình di động cuối khoảng san bằng:
σ𝑖𝑗=𝑖−𝑘 𝑦𝑗
✓ S𝑀A𝑖 =
𝑘
σ𝑖𝑗=𝑖−𝑘 𝑦𝑗 𝑦𝑖 −𝑦𝑖−𝑘−1
✓ S𝑀A𝑖 = = SMA𝑖−1 +
𝑘 𝑘
σ𝑖+1
𝑗=𝑖+1−𝑘 𝑦𝑗 𝑦𝑖+1 −𝑦𝑖−𝑘
✓ S𝑀A𝑖+1 = = SMA𝑖 +
𝑘 𝑘
39

σ𝑖𝑗=𝑖−𝑘 𝑌𝑗
Tuần Doanh số 3SMA
❖SMA𝑖 =
𝑘
(110 + 115 + 125)/3 σ3𝑗=1 𝑌𝑗 110+115+125
1 110 ➢𝑆𝑀𝐴3 = = =
3 3
2 115 116.7
3 125 116.7 σ4𝑗=2 𝑌𝑗 115+125+120
4 120 120.0
➢SMA4 = = =
3 3
5 125 123.3 120.0
6 120 121.7
7 130 125.0
8 115 121.7 ➢...
9 110 118.3 σ10
𝑗=8 𝑌𝑗 115+110+130
10 130 118.3 ➢𝑆𝑀𝐴10 = = =
3 3
118.3
40

❖Trung bình di động trung tâm (CMA:


Tuần Doanh số CMA3
Centered Moving Average): Trường hợp
này, giá trị trung bình di động đặt ở giữa 1 110 #N/A
khoảng san bằng. 2 115 116.666667
❖Về mặt kỹ thuật xử lý có khác biệt tùy 3 125 120
theo số khoảng san bằng (k) chẵn hay lẽ: 4 120 123.333333
5 125 121.666667
➢ Nếu khoảng san bằng là lẻ k=2m+1, 6 120 125
tức lẻ, thì trung bình di động sẽ đặt vào 7 130 121.666667
vị trí t = m+1, m+2…. 8 115 118.333333
9 110 118.333333
➢ Khi đó, công thức tính số bình quân di 10 130 #N/A
động sẽ là:
σt+m
i=t−m yi
✓ 𝐶𝑀𝐴t =
k
41

❖ Bước 1. Mở File DoanhSo


❖ Bước 2. Từ menu chính,
Transform →Create Time Series...
xuất hiện hộp thoại Create Time Series.
❖ Bước 3. Chọn dạng hàm muốn dùng để
chuyển đổi biến gốc (Lúc này chọn hàm
Centered Moving Average). Nhập khoảng
san bằng (Span), cụ thể nhập giá trị 3.
❖ Bước 4. Tại hộp thoại Create Time Series
chuyển biến DoanhSo vào khoang
Variable -> New name.
❖ Bước 5. Nhập tên muốn đặt vào Name, cụ
thể CMA3 →Change. Khi đó, màn hình
xuất hiện như Hình bên.
42

❖Bước 6. Click OK, Kết quả sẽ như Hình sau


43

➢Nếu khoảng san bằng là chẵn k=2m, Tuần


Doanh
số
thì trung bình di động sẽ đặt vào vị trí
1 110
t = m+0.5, m+1.5, m+2.5...
1.5 …
➢Ví dụ: khi k = 4. Về mặt kỹ thuật, 2 115
trung bình di động sẽ đặt vào vị trí t = 2.5 117.50
2.5, 3.5, ... 3 125 119.375
3.5 121.25
➢Để tránh vấn đề này, chúng ta làm 4 120 121.875
trơn đường SMA bằng cách sử dụng k 4.5 122.5
5 125 123.125
= 2. 5.5 123.75
➢Vì vậy, chúng ta san bằng các giá trị 6 120 123.125
… … …
được san bằng!
44

❖Đây là bản cuối cùng


135

Tuần Doanh số CMA 130

1 110 … 125

2 115 …
120
3 125 119.375
115
4 120 121.875
5 125 123.125 110
6 120 123.125
105
7 130 120.625 0 2 4 6 8 10 12

8 115 120.000 Sales CMA

9 110 …
10 130 …
45

❖Mô hình san bằng hàm mũ đơn (SES: Single-exponential


Smoothing):
➢St = 𝛼𝑌t + (1 − 𝛼)St−1
❖Trong đó:
➢S𝑡 ∶ giá trị được san bằng của chuỗi thời gian tại thời gian t
➢𝑌𝑡 : giá trị thực tế của chuỗi thời gian tại thời gian t
➢𝑆𝑡−1 : giá trị được san bằng của chuỗi thời gian tại thời gian t-1
➢: hằng số san bằng (0 <α< 1)
❖Để khởi tạo tính toán, chúng ta gán 𝑆1 bằng giá trị thực của
chuỗi thời gian trong giai đoạn 1; đó là 𝑆1 = 𝑌1 .
46

Với =0.1 và Week (t) Sales (y) 𝑆𝑡


𝑆1 = 110 1 110 110
S2 = .1 115 + 1 − .1 110 = 110.5 2 115 110.5
𝑆3 = .1(125) + (1 − .1)110.5=111.95 3 125 111.95
4 120 112.755

5 125 113.9795
𝑆10 = .1 130 + 1 − .1 115.41=116.869 6 120 114.58155
7 130 116.123395
8 115 116.011056
9 110 115.40995
10 130 116.868955
47

❖Đối với hồi quy tuyến tính, phương trình là:


➢ 𝑦ො𝑡 = 𝑏0 + 𝑏1 𝑡
❖Trong đó:
➢ t: biến xu thế
➢ b0 là hệ số chặn của đường xu thế.
➢ b1 là hệ số góc của đường xu thế.
➢ 𝑦ො là giá trị ước lượng của y tại thời gian 𝑡
48

❖Tiêu chí bình phương nhỏ nhất


➢ min σ(𝑦t − 𝑦ොt )2
➢ Trong đó:
✓ 𝑦𝑡 = giá trị quan sát được của chuỗi thời gian tại thời gian t
✓ 𝑦ො𝑡 = giá trị ước lượng của chuỗi thời gian tại thời gian t
❖Hệ số góc của phương trình hồi quy:
σ𝑛 ᪄
𝑡=1 (𝑡−𝑡᪄ ) 𝑌𝑡 −𝑌
➢ 𝑏1 = σ𝑛 ᪄ 2
𝑡=1 (𝑡−𝑡 )
49

❖Hệ số chặn của phương trình hồi quy


➢ 𝑏0 = 𝑌᪄ − 𝑏1 𝑡᪄
➢ Trong đó:
✓𝑌 ᪄ = giá trị trung bình của chuỗi thời gian
✓ 𝑡᪄ = giá trị trung bình của 𝑡
✓ 𝑛 = số khoảng thời gian (quan sát)
50

❖Bậc hai: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2
❖Bậc ba: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3
❖Lũy thừa: 𝐸 𝑌𝑡 = 𝛽0 𝑡 𝛽1
❖S: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 /𝑡
❖Hàm tăng trưởng: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 𝑡
❖Hàm mũ:𝐸 𝑌𝑡 = 𝛽0 𝑒 𝛽1𝑡
❖…
51

❖Ở bước đầu tiên,


Analyze→regression→Curve
Estimation cho đến khi của sổ Curve
Estimation xuất hiện.
❖Di chuyển các biến phụ thuộc vào hộp
dependent(s). Tiếp theo, di chuyển
các biến độc lập vào hộp Variable.
❖Tiếp theo, chọn các mô hình cần ước
lượng.
52

❖Lượng bán hàng thuốc bổ đau đầu nhãn hiệu Comfort (chai)
trong 10 tuần qua tại BBB được hiển thị bảng bên.

Week (t) 1 2 3 4 5 6 7 8 9 10

Sales (y) 110 115 125 120 125 120 130 115 110 130
53

❖Ở bước đầu tiên,


Analyze→regression→Curve
Estimation cho đến khi cửa số Curve
Estimation.
❖Chuyển Y vào hộp dependent(s). Tiếp
theo, di chuyển t vào hộp Variable.
❖Bấm chọn các mô hình: Linear
(Tuyến tính), Quadratic (Bậc 2),
Cubic (Bậc 3)
❖OK →Kết quả.
54
55

❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.295 .087 -.027 7.553
The independent variable is t.

❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t .727 .832 .295 .875 .407
(Constant) 116.000 5.160 22.482 .000
56

❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.429 .184 -.049 7.633
The independent variable is t.

❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t 4.061 3.750 1.649 1.083 .315
t ** 2 -.303 .332 -1.389 -.912 .392
(Constant) 109.333 8.978 12.178 .000
57

❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.650 .422 .133 6.940
The independent variable is t.
❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t 18.991 10.096 7.714 1.881 .109
t ** 2 -3.540 2.082 -16.231 -1.700 .140
t ** 3 .196 .125 9.048 1.571 .167
(Constant) 92.500 13.469 6.868 .000
59

❖Trong thực tế, sự biến động của một số hiện tượng kinh tế - xã hội
thường có tính thời vụ - nghĩa là hằng năm, vào khoảng thời gian nhất
định, mức độ của hiện tượng tăng cao và đến thời gian khác thì mức
độ lại giảm đi rất rõ.
❖Tính thời vụ có thể do nhiều yếu tố khác nhau, chẳng hạn như thời
tiết, kỳ nghỉ và ngày lễ và bao gồm các mẫu định kỳ, lặp đi lặp lại và
nói chung là đều đặn và có thể dự đoán được trong các cấp độ của
chuỗi thời gian.
❖Biến động thời vụ làm cho hoạt động của một số doanh nghiệp gặp
khó khăn, lúc quá căng thẳng, lúc thì quá nhàn rỗi.
❖Không thể loại trừ biến động thời vụ mà chỉ có thể khắc phục ảnh
hưởng của nó.
60

❖Chúng ta phải nghiên cứu biến động thời vụ nhằm đề ra những chủ
trương biện pháp phù hợp, kịp thời, hạn chế những ảnh hưởng của nó
đến sản xuất và sinh hoạt của xã hội
❖Mô tả ảnh hưởng thời vụ giúp hiểu rõ hơn về tác động của thành phần
này đối với một chuỗi cụ thể.
❖Sau khi thiết lập mô hình thời vụ, có thể thực hiện các phương pháp
để loại bỏ nó khỏi chuỗi thời gian để nghiên cứu tác động của các
thành phần khác như các biến động chu kỳ và bất thường. Việc loại bỏ
ảnh hưởng thời vụ được gọi là điều chỉnh dữ liệu thời vụ hoặc khử
thời vụ.
❖Để sử dụng các mẫu trong quá khứ của biến động thời vụ để góp phần
dự báo và dự đoán các xu thế trong tương lai.
61

❖ Phương pháp chỉ số thời vụ phụ thuộc vào mô hình mô tả các thành phần của
dãy số
➢ Mô hình nhân (Multiplicative model)
✓ Đầy đủ các thành phần Yt = Tt St Ct It
✓ Chỉ biến động thời vụ và ngẫu nhiên: Yt = St It …
✓ Biến động xu thế, thời vụ và ngẫu nhiên: Yt = Tt St It
➢ Mô hình cộng (Additive Model)
✓ Đầy đủ các thành phần: 𝑌t = Tt + St + Ct × It
✓ Chỉ biến động thời vụ và ngẫu nhiên : Yt = St + It
✓ Gồm biến động, xu thế, thời vụ và ngẫu nhiên : Yt = Tt + St +It
✓ ...
➢ Trong đó
✓ 𝑇𝑡 = Thành phần xu thế ở thời kỳ t
✓ 𝑆𝑡 = Thành phần thời vụ ở thời kỳ t
✓ 𝐶𝑡 = Thành phần chu kỳ ở thời kỳ t
✓ 𝐼𝑡 = Thành phần ngẫu nhiên ở thời kỳ t
62

❖Trường hợp giá trị của chuỗi thời gian ít hoặc không chịu tác
động của yếu tố xu thế, chỉ có biến động thời vụ và biến động
ngẫu nhiên: 𝑌𝑡 = 𝑆𝑡 𝐼𝑡 .
❖Công thức của chỉ số thời vụ:
𝑦ത 𝑖
➢𝐼𝑖 = × 100
𝑦ത0
➢Trong đó: 𝐼𝑖 : chỉ số thời vụ của thời vụ i
➢Thời vụ thường có thể tháng, quí, mùa.
✓ 𝑦ത𝑖 : Trung bình thời vụ i (Trung bình của các thời vụ cùng tên, ví
dụ các tháng/quí/mùa cùng tên qua các năm)
✓ 𝑦ത0 : Trung bình chung theo thời gian
63

❖Ví dụ:
➢ Có số liệu về doanh thu bán xăng dầu hàng quý của các công ty
xăng dầu qua các năm như bảng sau.
LỜI GIẢI
➢ Thông qua đồ thị, có thể kết luận rằng doanh số bán xăng chỉ chịu
ảnh hưởng bởi biến động thời vụ và ngẫu nhiên.
➢ Cho nên dung chỉ số thời vụ giản đơn theo công thức trên.
Năm Bình quân 100
Qúi I(%) 90
15 16 17 18 Quí 80
70
(5)=(1+2+3+
(A) (1) (2) (3) (4) (6)=(5)/5 60
4)/4 50
40
I 29 28 31 34 30.50 58.86 30
II 37 36 38 32 35.75 68.99 20
10
III 66 82 79 90 79.25 152.96 0
IV 58 57 66 66 61.75 119.18 I II III IV I II III IV I II III IV I II III IV

51.81 2015 2016 2017 2018


64

❖Trường hợp giá trị của chuỗi thời gian chịu tác động của yếu tố
xu thế, biến động thời vụ và biến động ngẫu nhiên theo mô hình
nhân có dạng: 𝑦𝑡 = 𝑇𝑡 𝑆𝑡 𝐼𝑡 .
❖Để xác định thành phần thời vụ, cần loại bỏ thành phần xu thế
vào ngẫu nhiên. Để thực hiện điều này, có thể dùng:
➢Số bình di động trung tâm: nếu tính thời vụ theo tháng hay quí
thì khi tính số bình quân di động trung tâm phải qua hai lần.
✓ Khi đó, chỉ số thời vụ sẽ là:
yij
σn−1
j=1 ⋅100
𝐶𝑀𝐴𝑖𝑗
✓ 𝐼i𝑆 = (%)
n−1
➢𝑦𝑖𝑗 (𝑦𝑡 ): Giá trị thực tế thời vụ i năm j
➢𝑀𝐴𝑖𝑗 (𝑀𝐴𝑡 ): Số bình quân di động trung tâm thời vụ i năm j.
65

❖Bước 1. Tính toán trung bình di động trung tâm.


➢Trung bình di động để loại bỏ các yếu tố thời vụ và bất thường:
𝐶𝑀𝐴𝑡 = 𝑇𝑡
➢Trung bình di động trung tâm biểu thị xu thế trong dữ liệu và
bất kỳ biến động ngẫu nhiên nào mà không bị loại bỏ bằng cách
sử dụng các trung bình di động để san bằng dữ liệu.
❖Bước 2. Xác định yếu tố thời vụ & ngẫu nhiên (𝑆𝑡 𝐼𝑡 )
➢Bằng cách chia từng giá trị thực tế cho giá trị trung bình di động
trong cùng một khoảng thời gian, chúng ta xác định được ảnh
hưởng bất thường-thời vụ kết hợp trong chuỗi thời gian.
𝑦𝑡 𝑇𝑡 ×𝑆𝑡 ×𝐼𝑡
✓ = = 𝑆𝑡 × 𝐼𝑡
𝑀𝐴𝑡 𝑇𝑡
66

❖Bước 3. Tính toán các chỉ số thời vụ cho từng thời kỳ i và loại tính
ngẫu nhiên
yij
σn−1
j=1 ⋅100
𝐶𝑀𝐴𝑖𝑗
❖𝐼i𝑆 = (%)
n−1
❖Bước 4. Điều chỉnh chỉ số thời vụ.
67

❖Nghiên cứu biến động thời Năm Quí Khách Năm Quí Khách
vụ trong ngành du lịch của 2011 I 7827.3 2015 I 8982.1
một địa phương từ năm II 7706.6 II 8452.5
III 8360.5 III 9309.0
1998 đến năm 2000. Số liệu IV 8503.1 IV 9439.3
được thu thập theo quý như 2012 Ta 8355.0 2016 I 9056.0
trong Bảng (1000 lượt). II 8196.9 II 8724.6
III 8924.8 III 9639.4
IV 9051.2 IV 9904.4
2013 I 8746.2 2017 I 9585.8
II 8535.5 II 9427.3
III 9305.0 III 10395.6
IV 9293.5 IV 10413.6
2014 I 9142.7 2018 I 10088.1
II 8788.8 II 9999.9
III 9297.6 III
IV 9551.6 IV
68

LỜI GIẢI
➢Biểu diễn dữ liệu lên đồ thị và qua đó nhận thấy lượng du khác
chịu ảnh hưởng của biến động thời vụ, xu thế và ngẫu nhiên
11000

10500

10000

9500

9000

8500

8000

7500

7000
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II
2011 2012 2013 2014 2015 2016 2017 2018
69

Lượt Mat
❖Bước 1. Tính toán trung bình di Năm Quí MA4
khách (Lần 1) (Lần 2) yt/MAt
động trung tâm lần 1, kết quả ở (1) (2) (3) (4) (5) (6)
cột 4 và. 2011 I 7827.30 #N/A #N/A
II 7706.60 8099.38 #N/A
❖Bước 2. Xác định yếu tố thời vụ & III 8360.50 8231.30 8292.59 1.00819
bất thường (𝑆𝑡 𝐼𝑡 ). Kết quả ở cột 6. IV 8503.10 8353.88 8424.41 1.00934
2012 I 8355.00 8494.95 8563.46 0.97566
II 8196.90 8631.98 8680.88 0.94425
III 8924.80 8729.78 8772.10 1.01741
IV 9051.20 8814.43 8861.95 1.02136
… … … … … …
2016 I 9056.00 9214.83 9272.96 0.97660
II 8724.60 9331.10 9397.33 0.92841
III 9639.40 9463.55 9551.39 1.00922
IV 9904.40 9639.23 9733.75 1.01753
2017 I 9585.80 9828.28 9891.93 0.96905
II 9427.30 9955.58 10018.36 0.94100
III 10395.60 10081.15 10152.73 1.02392
IV 10413.60 10224.30 10224.30 1.01852
2018 I 10088.10
II 9999.90
70

❖Bước 3. Xác định các trung bình Quí


nhân tố thời vụ. Năm
I II III IV
❖Bước 4. Quy mô các yếu tố mùa
2011 - - 1.023901 1.025386
vụ (𝑆𝑡 ).
2012 0.991761 0.957195 1.028099 1.031817
➢ Trung bình các nhân tố thời
2013 0.986939 0.954779 1.031641 1.02117
vụ= {(0.9903+ 0.9497+
2014 1.001218 0.959171 1.013351 1.04813
1.0269+ 1.0324)}/4=
2015 0.990049 0.932971 1.028055 1.03749
0.999825
2016 0.987189 0.940864 1.02576 1.036959
➢ Chia từng nhân tố thời vụ cho
2017 0.9848 0.95303 1.037655 1.025695
giá trị trung bình của các yếu
Chỉ số thời vụ 0.9903 0.9497 1.0269 1.0324
tố thời vụ.
Chỉ số thời vụ đã
➢ Chỉ số thời vụ đã được điều được điều chỉnh
0.9905 0.9498 1.0271 1.0326
chỉnh quý i = (Chỉ số thời vụ
quý i)/ 0.999825. Xem hàng
cuối cùng.
71

❖Trường hợp 2: Dùng hàm hồi qui


❖Chúng ta sẽ mở rộng phương pháp hồi quy để bao gồm các tình huống
trong đó chuỗi thời gian chứa cả ảnh hưởng thời vụ và xu thế , không
biến động chu kỳ trong trường hợp theo mô hình nhân.
❖Một trong những hạn chế của phương pháp số bình quân di động là
phải tính toán nhiều. Tuy nhiên, nếu dãy số không chứa thành phần
chu kỳ, chúng ta có thể dùng hàm hồi qui để thay thế cho số bình quân
di động ở Bước 1. Khi không có thành phần chu kỳ, chúng ta có thể
biểu thị mô hình của mức độ dãy số như sau:
➢ yi=TiSiIi
❖Khi đó
𝑦 𝑇𝑖 ×𝑆𝑖 ×𝐼𝑖
➢ ො𝑖 = = 𝑆𝑖 × 𝐼𝑖
𝑦𝑖 𝑇𝑖

❖Với ŷi biểu thị xu thế theo thời gian.


72

❖Có dữ liệu về số phòng được đặt (1000 lượt) được thu thập theo quí
và được trình bày trên bảng sau
Năm Quí Số phòng được đặt Năm Quí Số phòng được đặt
2013 I 7827,3 2017 I 8982,1
II 7706,6 II 8452,5
III 8360,5 III 9309,0
IV 8503,1 IV 9439,3
2014 I 8355,0 2018 I 9056,0
II 8196,9 II 8724,6
III 8924,8 III 9639,4
IV 9051,2 IV 9904,4
2015 I 8746,2 2019 I 9585,8
II 8535,5 II 9427,3
III 9305,0 III 10395,6
IV 9293,5 IV 10413,6
2016 I 9142,7 2020 I 10088,1
II 8788,8 II 9999,9
III 9297,6 III
IV 9551,6 IV
73
Số phòng Yi/ŷi=
LỜI GIẢI Năm Quí được đặt yi ŷi SiIi
❖Bước 1. Thực hiện hồi qui (A) (B) (1) (2) (3)=(1)/(3)
1993 I 7827,3 8130,1645 0,9627
➢ Thực hiện hồi qui theo mô II 7706,6 8197,0587 0,9402
hình tuyến tính ŷ𝑡 = 𝑎 + III 8360,5 8263,9529 1,0117
IV 8503,1 8330,847 1,0207
𝑏𝑇𝑡 =8063,27 + 66,89417𝑇𝑡 . 1994 I 8355,0 8397,7412 0,9949
Sau đó, chúng ta tính các giá II 8196,9 8464,6354 0,9684
III 8924,8 8531,5295 1,0461
trị ŷ𝑡 và kết quả được trình IV 9051,2 8598,4237 1,0527
bày trên cột (2). 1995 I 8746,2 8665,3179 1,0093
… … … … …
❖Bước 2. Tính toán ảnh hưởng II 8724,6 9534,9421 0,915
biến động thời vụ và biến động III 9639,4 9601,8363 1,0039
ngẫu nhiên và được trình bày IV 9904,4 9668,7305 1,0244
1999 I 9585,8 9735,6246 0,9846
trên cột (3) II 9427,3 9802,5188 0,9617
III 10395,6 9869,413 1,0533
IV 10413,6 9936,3071 1,048
2000 I 10088,1 10003,2013 1,0085
II 9999,9 10070,0955 0,993
74

❖Bước 3. Tính các chỉ số thời vụ Năm


Quí I II III IV Tổng
cho mỗi quí
1993 0,9627 0,9402 1,0117 1,0207
➢ Kết quả ở bước 2 bao gồm 1994 0,9949 0,9684 1,0461 1,0527
cả biến động ngẫu nhiên 1995 1,0093 0,9775 1,0575 1,0482
nên cần dùng số bình quân 1996 1,0235 0,9766 1,0255 1,0458
để loại bỏ dao động này và 1997 0,9763 0,9121 0,9973 1,0041
xác định được chỉ số thời 1998 0,9565 0,915 1,0039 1,0244
vụ cho mỗi quí. 1999 0,9846 0,9617 1,0533 1,048
2000 1,0085 0,993 - -
❖Bước 4. Điều chỉnh chỉ số thời Chỉ số
vụ. thời vụ
➢ Dùng chỉ số thời vụ nhân chưa điều
với 4 và chia cho tổng các chỉnh 0,9895 0,9556 1,0279 1,0348 4,008
chỉ số thời vụ là 4,007843, Chỉ số
thời vụ đã
kết quả được trình bày ở
được điều
hàng cuối của Bảng bên. chỉnh 0,9876 0,9537 1,0259 1,0328 4,000
75

❖Chúng ta sẽ mở rộng phương pháp hồi quy để bao gồm các tình huống
trong đó chuỗi thời gian chứa cả ảnh hưởng thời vụ và xu thế , không
biến động chu kỳ trong trường hợp theo mô hình cộng.
❖Trường hợp: Các thành phần kết hợp theo mô hình cộng
76

❖Thí dụ: Tiệm cà vạt của Terry


➢ Có thể xem hoạt động kinh doanh tại Tiệm cà vạt của Terry rơi vào ba
mùa rõ rệt:
➢ (1) Giáng sinh (tháng 11 và tháng 12);
➢ (2) Ngày của Cha (cuối tháng năm đến giữa tháng 6);
➢ (3) tất cả các thời điểm khác. Doanh thu trung bình hàng tuần ($)
trong mỗi ba mùa trong bốn năm qua được hiển thị trên bảng sau:

Năm Mùa 1 Mùa 2 Mùa 3


1 1856 2012 985
2 1995 2168 1072
3 2241 2306 1105
4 2280 2408 1120
77

❖Có ba mùa, vì vậy chúng ta sẽ cần hai biến giả.


➢ Seas1 = 1 nếu mùa 1, mùa khác =0
➢ Seas2 = 1 nếu mùa 2, mùa khác =0
❖Dạng phương trình hồi quy ước lượng là:
➢ 𝑌ƶ = 𝑏0 + 𝑏1 Seas1+𝑏2 Seas2+𝑏3 𝑡
❖Phương trình hồi quy ước lượng là:
➢ 𝑌ƶ = 797.0 + 1095.43Seas1 + 1189.47Seas2 + 36.47t
78

❖Các dự báo về doanh thu trung bình hàng mùa trong ba mùa của năm
5 là:
➢ Mùa 1: 𝑌ƶ = 797 + 1095.43(1) + 1189.47(0) + 36.47(13)= 2366.5
➢ Mùa 2: 𝑌ƶ = 797 + 1095.43(0) + 1189.47(1) + 36.47(14) = 2497.0
➢ Mùa 3: 𝑌ƶ = 797 + 1095.43(0) + 1189.47(0) + 36.47(15) =1344.0
80

❖Bây giờ chúng ta thảo luận về một số phương pháp dự báo phù
hợp với chuỗi thời gian:
➢ Phương pháp dựa vào lượng tăng tuyệt đối bình quân
➢ Phương pháp dựa vào tốc độ phát triển bình quân
➢ Trung bình di động
➢ San bằng hàm mũ
➢ Holt-Winters không có tính thời vụ
➢ Dự báo bằng hàm xu thế
❖Chúng thích hợp nhất cho các dự báo ngắn hạn.
81

❖Phương pháp này được sử dụng tốt đối với dãy số có các lượng
tăng tuyệt đối liên hoàn xấp xỉ nhau tức chúng thay đổi theo cấp số
cộng. Mô hình dự đoán sẽ là
➢ 𝑦ො𝑛+𝐿 = 𝑦𝑛 + 𝛿𝐿ሜ
➢ Trong đó:
✓ 𝛿ሜ là lượng tăng tuyệt đối bình quân
✓ L là tầm xa dự đoán
✓ 𝑦𝑛 là mức độ cuối của dãy số
82

❖Phương pháp này được sử dụng tốt đối với dãy số có các tốc độ
phát triển liên hoàn xấp xỉ nhau tức chúng thay đổi theo cấp số
nhân. Mô hình dự đoán sẽ là
➢ 𝑦ො𝑛+𝐿 = 𝑦𝑛 𝑡𝑖lj 𝐿
➢ Trong đó:
✓ 𝑡lj𝑖 là tốt độ phát triển bình quân
✓ L là tầm xa dự đoán
✓ 𝑦𝑛 là mức độ cuối của dãy số
83

❖Phương pháp trung bình di động sử dụng giá trị trung bình của k giá
trị dữ liệu gần nhất trong chuỗi thời gian làm dự báo cho giai đoạn
tiếp theo.
σ(K giá trị gần nhất) 𝑌𝑡 +𝑌𝑡−1 +⋯+𝑌𝑡−𝑘+1 σ𝑖𝑗=𝑖−𝑘+1 𝑌𝑗
➢ 𝐹𝑡+1 = = =
𝑘 𝑘 𝑘
❖Trong đó:
➢ 𝐹𝑡+1 = dự báo của chuỗi thời gian tại thời gian t + 1
➢ 𝑌𝑡 = Giá trị thực tế của chuỗi thời gian tại thời gian t
❖Mỗi quan sát trong tính trung bình di động cùng trọng số.
84

❖Ví dụ: BBB Drugs


➢Nếu Rosco Drugs sử dụng trung bình di động 3 kỳ để dự báo
doanh thu, dự báo cho các tuần từ 4 đến 11 là gì?

Week (t) 1 2 3 4 5 6 7 8 9 10

Sales (y) 110 115 125 120 125 120 130 115 110 130
85

σ𝑖𝑗=𝑖+1−𝑘 𝑌𝑗
Week Sales 3 MA Forecast ❖F𝑖+1 =
𝑘
1 110 σ3𝑗=1 𝑌𝑗 110+115+125
➢ 𝐹4 = = = 116.7
2 115 (110 + 115 + 125)/3 3 3
σ4𝑗=2 𝑌𝑗 115+125+120
3 125 ➢ 𝐹5 = = = 120.0
3 3
4 120 116.7
5 125 120.0
➢ ...
6 120 123.3
7 130 121.7
8 115 125.0
9 110 121.7 σ10
𝑗=8 𝑌𝑗 115+110+130
➢ 𝐹11 = = = 118.3
3 3
10 130 118.3
11 118.3
86

3 MA Forecast Absolute Squared Absolute


Week Sales Forecast Error Error Error Percent Error
1 110
2 115
3 125
4 120 116.7 3.3 3.3 10.89 2.75
5 125 120.0 5.0 5.0 25.00 4.00
6 120 123.3 -3.3 3.3 10.89 2.75
7 130 121.7 8.3 8.3 68.89 6.38
8 115 125.0 -10.0 10.0 10.00 8.70
9 110 121.7 -11.7 11.7 136.89 10.64
10 130 118.3 11.7 11.7 136.89 9.00
Total 3.33 5.33 489.45 44.22
87

❖Độ chính xác dự đoán bằng 3-MA


53.3
➢ MAE = = 7.61
7
489.45
➢ MSE = = 69.92
7
44.22
➢ MAPE = = 6.32%
7
❖Phương pháp trung bình di động 3 tuần cung cấp dự báo chính xác
hơn so với phương pháp naive.
88

❖Phương pháp này là trường hợp đặc biệt của phương pháp trung bình
di động có trọng số. Trọng số cho các giá trị dữ liệu được tính toán tự
động và trở nên nhỏ hơn khi các quan sát cũ hơn.
❖Dự báo san bằng hàm mũ là trung bình có trọng số của tất cả các quan
sát trong chuỗi thời gian.
❖Thuật ngữ san bằng hàm mũ xuất phát từ bản chất theo hàm mũ của
sơ đồ trọng số cho các giá trị lịch sử.
89

❖Dự báo bằng san bằng mũ


➢ 𝐹𝑡+1 = 𝑆𝑡
➢ St = 𝛼𝑌t + (1 − 𝛼)St−1
➢ 𝐹𝑡+1 = 𝛼𝑌𝑡 + (1 − 𝛼)𝐹𝑡
❖Trong đó:
➢ 𝐹𝑡+1 = dự báo chuỗi thời gian tại thời gian 𝑡 + 1
𝑌𝑡 = giá trị thực tế của chuỗi thời gian tại thời gian 𝑡
St = Giá trị san bằng hàm mũ tại thời gian t
𝛼 = hằng số san bằng (0 ≤ 𝛼 ≤ 1)
Và hãy đặt S1 = 𝑌1 để bắt đầu tính toán.
90

❖Với thao tác đại số, chúng ta có thể viết lại


𝐹𝑡+1 = 𝛼𝑌𝑡 + (1 − 𝛼)𝐹𝑡

𝐹𝑡+1 = 𝐹𝑡 + 𝛼 𝑌𝑡 − 𝐹𝑡
❖Chúng ta thấy rằng dự báo mới 𝐹𝑡+1 bằng với dự báo trước đó 𝐹𝑡
cộng với một sự điều chỉnh, đó là 𝛼 lần sai số dự báo gần đây nhất,
𝑌𝑡 − 𝐹𝑡 .
91

❖Ví dụ: Hiệu Thuốc BBB


➢Nếu BBB sử dụng phương pháp san bằng mũ để dự đoán doanh
số, giá trị của hằng số san bằng 𝛼, 0,1 hay 0,8, cho dự báo tốt
hơn?

Week (t) 1 2 3 4 5 6 7 8 9 10

Sales (y) 110 115 125 120 125 120 130 115 110 130
92

❖Sử dụng giá trị hằng số san bằng α = 0.1


F2 = Y1 = 110.00
F3 = .1Y2 + .9F2 = .1 115 + .9 110 = 110.50
F4 = .1Y3 + .9F3 = .1(125) + .9 110.5 = 111.95
F5 = .1Y4 + .9F4 = .1 120 + .9 111.95 = 112.76
➢ F6 = .1Y5 + .9F5 = .1 125 + .9 112.76 = 113.98
F7 = .1Y6 + .9F6 = .1 120 + .9 113.98 = 114.58
F8 = .1Y7 + .9F7 = .1 130 + .9 114.58 = 116.12
F9 = .1Y8 + .9F8 = .1 115 + .9 116.12 = 116.01
F10 = .1Y9 + .9F9 = .1 110 + .9 116.01 = 115.41
93

❖Sử dụng giá trị hằng số san bằng 𝛼 = 0.8


F2 = =110.00
F3 =.8(115)+.2(110) =114.00
F4 =.8(125)+.2(114) =122.80
F5 =.8(120)+.2(122.80) =120.56
➢ F6 =.8(125)+.2(120.56) =124.11
F7 =.8(120)+.2(124.11) =120.82
F8 =.8(130)+.2(120.82) =128.16
F9 =.8(115)+.2(128.16) =117.63
F10 =.8(110)+.2(117.63) =111.53
94

α = 0.1 Forecast Absolute Squared Absolute


Week Sales Forecast Error Error Error Percent Error
1 110
2 115 110.00 5.00 5.00 25.00 4.35
3 125 110.50 14.50 14.50 210.25 11.60
4 120 111.95 8.05 8.05 64.80 6.71
5 125 112.76 12.24 12.24 149.94 9.79
6 120 113.98 6.02 6.02 36.25 5.02
7 130 114.58 15.42 15.42 237.73 11.86
8 115 116.12 -1.12 1.12 1.26 0.97
9 110 116.01 -6.01 6.01 36.12 5.46
10 130 115.41 14.59 14.59 212.87 11.22
Total 82.95 974.22 66.98
95

❖Độ chính xác dự báo


82.95
➢ MAE = = 9.22
9
974.22
MSE = = 108.25
9
66.98
MAPE = = 7.44%
9
❖San bằng hàm mũ (với 𝛼= 0.1) cung cấp dự báo kém chính xác hơn
so với phương pháp 3-MA.
96

Absolute
α = 0.8 Forecast Absolute Squared Percent
Week Sales Forecast Error Error Error Error
1 110
2 115 110.00 5.00 5.00 25.00 4.35
3 125 114.00 11.00 11.00 121.00 8.80
4 120 122.80 -2.20 2.20 7.84 1.83
5 125 120.56 4.44 4.44 19.71 3.55
6 120 124.11 -4.11 4.11 16.91 3.43
7 130 120.82 9.18 9.18 84.23 7.06
8 115 128.16 -13.16 13.16 173.30 11.44
9 110 117.63 -7.63 7.63 58.26 6.94
10 130 111.53 18.47 18.47 341.27 14.21
Total 75.19 847.52 61.61
97

❖Độ chính xác dự báo


75.19
➢ MAE= = 8.35
9
847.52
MSE= = 94.17
9
61.61
MAPE = = 6.85%
9
❖San bằng hàm mũ (với α= 0,8) cung cấp dự báo chính xác hơn San
bằng hàm mũ với α= 0,1, nhưng kém chính xác hơn trung bình di
động (với 𝑘= 3).
98

❖Nhập liệu như Hình bên. Week Sales


❖Trên menu chính, Data →Data (t) (y) ෡t
Y
Analysis →exponential smoothing→ 1 110 #N/A
Xuất hiện hộp thoại exponential smoothing 2 115 110
❖Nhập thông tin như hình sau: 3 125 110.5
4 120 111.95
5 125 112.755
6 120 113.9795
7 130 114.5816
8 115 116.1234
9 110 116.0111
10 130 115.4099
99

❖Để thực hiện phương pháp dự báo Holt-Winters, chúng ta ước lượng
෡t và xu thế Tt như sau:
Y
➢Y෡1 = Y2 T2 = Y2 − Y1
➢Y෡t = (1 − α)(Y
෡t−1 + Tt−1 ) + αYt (0 < α < 1; t = 3, 4, … , n)
෡t − Y
➢ Tt = (1 − β)Tt−1 + β(Y ෡t−1 ) (0 < β < 1; t = 3, 4, … , n)
❖Trong đó,  và  là các hằng số làm mịn có giá trị được cố định trong
khoảng từ 0 đến 1.
❖Tại thời điểm n, chúng ta có được dự báo về các giá trị tương lai, 𝑌෠𝑛+ℎ
của chuỗi bằng cách Y ෡n+h = Y
෡n + hTn
100

❖Hãy dự báo về tín dụng tiêu dùng


t 𝐘𝐭 ෡𝐭
𝐘 𝐓𝐭
chưa thanh toán bằng cách sử dụng
quy trình làm mịn theo cấp số nhân 1 133
2 155 155 22
Holt-Winters
3 165 … …
❖Các ước tính ban đầu về mức độ và xu 4 171
hướng trong năm thứ 2 là: 5 194
➢ 𝑌෠2 = 𝑌2 = 155 6 231
❖và 7 274
8 312
➢ 𝑇2 = 𝑌2 − 𝑌1 = 155 − 133 = 22
9 313
❖Ứng dụng làm mịn này sử dụng 𝛼 = 10 333
0.7, 𝛽 = 0.6, và các phương trình sau 11 343
𝑌ƶ𝑡 = 0.3 𝑌ƶ𝑡−1 + 𝑇𝑡−1 + 0.7𝑌𝑡

𝑇𝑡 = 0.4𝑇𝑡−1 + 0.6 𝑌ƶ𝑡 − 𝑌ƶ𝑡−1
101

❖Sau đó, đối với 𝑡 = 3,


➢ 𝑌෠3 = 0.3 𝑌2 + 𝑇2 + 0.7𝑌3
➢ = (0.3)(155 + 22) + (0.7)(165)=168.6
❖Với t=3
➢T3 = 0.4𝑇2 + 0.6 𝑌෠3 − 𝑌෠2
➢ = (0.4)(22) + (0.6)(168.6 − 155) = 16.96
❖Với, t=4
➢ 𝑌෠4 = 0.3 𝑌3 + 𝑇3 + 0.7𝑌4
➢ = (0.3)(168.6 + 16.96) + (0.7)(171)=175.4
102

➢ T4 = 0.4T3 + 0.6 Yƶ 4 − Yƶ 3 t 𝐘𝐭 ෡𝐭
𝐘 𝐓𝐭
➢ = 0.4 16.96 + 0.6 (175.4 − 1 133 #N/A #N/A
168.6) = 10.86 2 155 155 22
❖ Các tính toán còn lại tiếp tục theo cùng một 3 165 169 17
cách, lần lượt thiết lập, 𝑡 = 5,6, … , 11. Kết quả 4 171 175 11
của các tính toán này được thể hiện trong 5 194 192 14
Bảng bên. 6 231 223 25
❖ Bây giờ, chúng ta hãy sử dụng các ước lượng 7 274 266 36
෡n và xu hướng Tn này để dự báo các quan sát
Y 8 312 309 40
trong tương lai. 9 313 324 25
෡n+1 = Y ෡n + Tn 10 333 338 18
➢Y
11 343 347 13
❖ và
12 - 360
෡n+2 = Y
➢Y ෡n + 2Tn 13 - 373
❖ Tổng quát, trong h giai đoạn tới 14 - 386
෡n+h = Y
➢Y ෡n + hTh
103

❖Từ kết quả trên, mức và ước tính xu hướng gần đây nhất là:
➢Y෡11 =347
➢T෡11 =13
❖Sau đó, dự báo cho những giai đoạn tiếp theo như sau:
➢ 𝑌෠12 = 347 + 13 = 360
➢ 𝑌෠13 = 347 + (2)(13) = 373
➢ 𝑌෠14 = 347 + (3)(13) = 386
➢…
104

❖Với hàm hồi qui theo thời gian, chúng ta có thể ngoại suy để xác
định giá trị của nó ở thời gian dự đoán.
❖Khi dự đoán, chúng ta có thể dự đoán giá trị trung bình hay giá trị
riêng biệt của chỉ tiêu. Mỗi một loại dự đoán như thế, có thể dự
đoán điểm và dự đoán khoảng.
❖Giả định chúng ta đã xác định được hàm hồi qui ŷ𝑖 = 𝑓(𝑡𝑖 ).
❖Như vậy, ước lượng điểm (dự đoán điểm) của chỉ tiêu dự đoán tại
thời gian n+L sẽ là:
➢ ŷ𝑛+𝐿 =f(n+L)
❖Với L là tầm xa dự đoán
105

❖Khoảng tin cậy 100(1-)% của giá trị riêng biệt dự đoán sẽ là
➢ ŷ𝑛+L 𝑡/2 (𝑛 − 𝑝)𝑆𝑒(𝑦)
❖Trong đó:
➢ 𝑡/2 (𝑛 − 𝑝) là giá trị tra bảng phân phối T với mức ý nghĩa /2 và bậc
tự do là n−p
➢ Se(y) là sai số chuẩn dự đoán và
❖Trong trường hợp mô hình hồi qui tuyến tính ŷ𝑖 = a + b𝑡𝑖 thì
1 3(𝑛+2𝐿−1)2
➢ 𝑆𝑒(𝑦) = 𝑆𝑌 1 + +
𝑛 𝑛(𝑛2 −1)

σ(𝑦𝑖 −𝑦ො 𝑖 )2
➢ Trong đó: 𝑠𝑌 =
𝑛−𝑝
106

❖Căn cứ vào tài liệu về năng suất Năng suất Thời


Năm 𝑦ො i (yi- ŷi)2
lao động qua các năm của một địa lao động (yi) gian (ti)
2005 6.3 1 5.6114 0.4741
phương như trên bảng bên, thực
2006 6.4 2 6.4360 0.0013
hiện hồi qui được kết quả như 2007 7.2607 0.1301
6.9 3
sau: 2008 7.7 4 8.0853 0.1484
➢ ŷ𝑖 = 4.7868132 + 2009 8.6 5 8.9099 0.0960
0.8246154𝑡𝑖 2010 9.6 6 9.7345 0.0181
❖Dự đoán năng suất năm 2019 sẽ là 2011 10.7 7 10.5591 0.0198
2012 11.9 8 11.3837 0.2665
➢ ŷ𝑛+1 = 4.7868132 +0.8246154
2013 12.5 9 12.2084 0.0851
x15= 17.1560442
2014 12.9 10 13.0330 0.0177
❖Khi đó, sai số 2015 13.4 11 13.8576 0.2094
σ(𝑦𝑖 −𝑦ො 𝑖 )2
= 2016 14.6822 0.0796
1,69072527 14.4 12
➢ 𝑠𝑌 = =
𝑛−𝑝 14−2 2017 15.6 13 15.5068 0.0087
0.3753582 2018 16.7 14 16.3314 0.1358
1.6907
107

❖Cho mức ý nghĩa 5%, bậc tự do là 12, được 𝑡0.025 (12)=2.179.


1 3(𝑛+2𝐿−1)2
❖𝑆𝑒(𝑦) = 𝑆𝑌 1 + +
𝑛 𝑛(𝑛2 −1)

1 3(14+2∗1−1)2
= 0.3753582* 1 + +
14 14 (14 2 −1)

= 0.3753582* 1.1483385= 0.431038274


❖Khoảng tin cậy 95% của năng suất dự đoán năm 2019 sẽ là
➢ŷ𝑛+L 𝑡/2 (𝑛 − 𝑝)𝑆𝑒(𝑦)
❖Hay
➢17.1560442  2.179* 0.431038274
➢17.1560442  0.939232
❖Hay [16.21689; 18.0952]
108
108

❖Đo lường độ chính xác của dự báo được sử dụng để xác định mức độ
hiệu quả của phương pháp dự báo cụ thể trong việc tái tạo dữ liệu
chuỗi thời gian đã có sẵn.
❖Các phép đo độ chính xác của dự báo là những yếu tố quan trọng
trong việc so sánh các phương pháp dự báo khác nhau.
❖Bằng cách chọn phương pháp có độ chính xác tốt nhất cho dữ liệu đã
biết, chúng ta hy vọng sẽ tăng khả năng thu được dự báo tốt hơn cho
các khoảng thời gian trong tương lai.
109

❖Khái niệm chính liên quan đến việc đo lường độ chính xác của dự báo
là sai số dự báo.
➢ Sai số dự báo = Giá trị thực – giá trị dự báo
❖Đặt :
➢ 𝑌𝑡 =Giá trị thực tế của Y tại thời gian t.
➢ 𝐹𝑡 =Giá trị dự báo của Y tại thời gian t
➢ 𝑒𝑡 = Sai số dự báo= 𝑌𝑡 - 𝐹𝑡
𝑌t −F𝑡𝑡
➢ = 𝑝𝑡 % Sai số dự báo.
𝑌𝑡
110

❖Sai số tuyệt đối trung bình (MAE: Mean Absolute Error )


➢ Nó là trung bình của các trị số tuyệt đối của các sai số dự báo.
1
✓ MAE= σ𝑡=𝑇 𝑒
𝑇 𝑡=1 𝑡
❖Sai số bình phương trung bình (MSE: Mean Squared Error)
➢ Đây là một chỉ tiêu khác để tránh vấn đề sai số dương và âm bù trừ lẫn
nhau. Nó là giá trị trung bình của các sai số dự báo bình phương.
1
➢ 𝑀𝑆𝐸 = σ1𝑇 𝑒𝑡2
𝑇
❖Sai số tỷ lệ phần trăm tuyệt đối trung bình (MAPE: Mean Absolute
Percentage Error)
➢ Độ lớn của MAE và MSE phụ thuộc vào quy mô của dữ liệu, vì vậy rất khó
để so sánh trong các khoảng thời gian khác nhau. Để thực hiện những so
sánh như vậy, chúng ta cần làm việc với các phép đo sai số tương đối hoặc
tỷ lệ phần trăm. MAPE là trung bình phần trăm sai số tuyệt đối của dự
báo.
1
➢ MAPE = σ𝑡=𝑇
𝑡=1 𝑝𝑡𝑡
𝑇
111

❖Ví dụ: Hiệu thuốc BBB


➢Doanh số bán thuốc bổ nhức đầu nhãn hiệu Comfort (dạng chai)
trong 10 tuần qua tại BBB được hiển thị ở Bảng bên. Nếu BBB
sử dụng phương pháp dự báo Naïve để dự báo doanh số bán
hàng trong tuần 2 – 10, kết quả là các giá trị MAE, MSE và MAPE
là gì?

Week (t) 1 2 3 4 5 6 7 8 9 10
Sales (y) 110 115 125 120 125 120 130 115 110 130
112

Naïve Forecast Absolute Squared Absolute


Week Sales
forecast* Error Error Error Percent Error
(1) (2) (3) (4)=(2)-(3) (5)=|(4)| (6)=(4)2 (7)=(5)*100/(2)
1 110
2 115 110 5 5 25 4.35
3 125 115 10 10 100 8.00
4 120 125 -5 5 25 4.17
5 125 120 5 5 25 4.00
6 120 125 -5 5 25 4.17
7 130 120 10 10 100 7.69
8 115 130 -15 15 125 13.04
9 110 115 -5 5 25 4.55
10 130 110 20 20 400 15.38
Total 80 850 65.36
Phương pháp Naïve forecast là một phương pháp đơn giản để dự đoán tương lai dựa
trên giả định rằng các giá trị tương lai sẽ giống như giá trị hiện tại hoặc giá trị gần nhất.
113

❖Độ chính xác dự báo Naive


80
➢ MAE = = 8.89
9
850
➢ MSE = = 94.44
9
65.35
➢ MAPE = = 7.26%
9
114
Forecast Absolut Squared Absolute
Week Sales SCM3 Ft
Error e Error Error Percent Error
(1) (2) (3) (4) (5)=(2)-(4) (6)=|(5)| (7)=(5)2 (8)=(6)*100/(2)
1 110
2 115
3 125 116.667
4 120 120.000 116.667 3.333 3.333 11.111 2.778
5 125 123.333 120.000 5.000 5.000 25.000 4.000
6 120 121.667 123.333 -3.333 3.333 11.111 2.778
7 130 125.000 121.667 8.333 8.333 69.444 6.410
8 115 121.667 125.000 -10.000 10.000 100.000 8.696
9 110 118.333 121.667 -11.667 11.667 136.111 10.606
10 130 118.333 118.333 11.667 11.667 136.111 8.974
Total 53.333 488.889 44.242
7.619 69.841 6.320
❖ Độ chính xác dự báo
53.333 488.889 44.242
➢ MAE = 7
= 7.619; MSE = 7
= 69.841; MAPE = 7
=
6.320%
116

❖Thế nào là chỉ số:


➢ Chỉ số trong thống kê là chỉ tiêu tương đối biểu hiện quan hệ so
sánh giữa hai mức độ của một hiện tượng kinh tế xã hội qua thời
gian hay không gian.
➢ Trong phân tích, chúng ta có nhu cầu nghiên cứu sự biến động giá
bán, lượng bán của từng mặt hàng hay nhiều mặt hàng qua các thời
kỳ
❖Các loại chỉ số
➢ Nếu căn cứ vào phạm vị thì có chỉ số cá thể và chỉ số tổng hợp
117

❖Chúng ta xét tài liệu giả định về giá cả và lượng bán tại một cửa
hàng như sau:
Đơn Giá bán
Mặt vị (1000đồng) Lượng bán
hàng tính Tháng 1 Tháng 2 Tháng 1 Tháng 2
A Kg 50 45 1000 1100
B M 30 24 2000 2400
C L 40 40 4000 6000

❖Căn cứ vào tài liệu trên, thực hiện tính các chỉ số nói lên biến động
về giá bán và lượng bán cho từng mặt hàng và chung cho cả 3 mặt
hàng.
118

❖Một số ký hiệu:
➢ p, q tương ứng là giá bán và lượng bán từng mặt hàng;
➢ 1,0 tương ứng là kỳ nghiên cứu (tháng 2) và kỳ gốc (tháng 1)
➢ i, I tương ứng là chỉ số các thể và chỉ số tổng hợp.
Đơn Giá bán (p)
Mặt vị (1000đồng) Lượng bán (q)
hàng tính 𝑝0 𝑝1 𝑞0 𝑞1
A Kg 50 45 1000 1100
B m 30 24 2000 2400
C L 40 40 4000 6000
119

❖Nghiên cứu biến động giá từng mặt hàng


➢ Chỉ số cá thể:
✓ 𝑖𝑝 = 𝑝1 /𝑝0
✓ 𝑝 = 𝑝1 − 𝑝0
➢ Ví dụ nghiên cứu biến động giá mặt hàng A
𝑝1𝐴 45
✓ 𝑖𝑝𝐴 = = = 0.9 hay 90%
𝑝0𝐴 50

✓ 𝛿𝑝 = 𝑝1𝐴 − 𝑝0𝐴 = 45 − 50 = −5(ngàn đồng)


➢ Như vậy, giá của mặt hàng A tháng 2 so với tháng 1 giảm 10% tức
giảm 5 ngàn đồng.
120

❖Tương tự cho các mặt hàng khác


Giá bán (p)
Biến động giá
Mặt (1000đồng)
hàng 𝑝0 𝑝1 𝑖𝑝 𝑝
(1) (2) (3)=(2)/(1) (3)=(2)/(1)
A 50 45 0.9 -5
B 30 24 0.8 -6
C 40 40 1 0
121

❖Nghiên cứu biến động lượng bán của từng mặt hàng
➢ Chỉ số cá thể:
✓ 𝑖q = q1 /q0
✓ 𝑝 = q1 − q0
➢ Ví dụ nghiên cứu biến động giá mặt hàng A
q𝐴 1100
✓ 𝑖q𝐴 = 1
= = 1.1 hay 110%
q𝐴
0 1000

✓ 𝛿q = q1𝐴 − q𝐴0 = 1100 − 1000 = 100(kg)


➢ Như vậy, giá của mặt hàng A tháng 2 so với tháng 1 tăng 10% tức tăng
100kg.
122

❖Tương tự cho các mặt hàng khác


Lượng bán (q) Biến động giá
Mặt Đơn vị Kỳ nghiên Kỳ nghiên
Kỳ gốc Kỳ gốc
hàng tính cứu cứu
(1) (2) (3)=(2)/(1) (3)=(2)/(1)
A Kg 1000 1100 1.1 100
B m 2000 2400 1.2 400
C l 4000 6000 1.5 2000
123

❖Chỉ số giá tổng hợp được phát triển cho mục đích cụ thể là đo lường
sự thay đổi kết hợp của nhiều mặt hàng.
❖Chỉ số giá tổng hợp không trọng số trong kỳ nghiên cứu/báo cáo, ký
hiệu là I, được tính như sau
σ p𝑖1
➢ Ip = σ
p𝑖0

❖Trong đó:
➢ p𝑖1 = đơn giá cho mặt hàng i trong thời kỳ nghiên cứu
➢ p𝑖0 = đơn giá cho mặt hàng i trong thời kỳ gốc
❖Chú ý: vì giá của các mặt hàng khác nhau khi cộng với nhau không có
nghĩa nên công thức này không nên dùng.
124

❖Với chỉ số tổng hợp có trọng số, mỗi mặt hang trong nhóm được
tính trọng số theo tầm quan trọng của nó, thường là số lượng bán.
❖ Đặt q 𝑖 = số lượng của mặt hàng 𝑖, chỉ số giá tổng hợp gia quyền
trong kỳ nghiên cứu được tính như sau:
σ p𝑖1 q𝑖
➢ Ip = σ
𝑝𝑖0 q𝑖
❖Chú ý: vì chúng ta đang nghiên cứu biến động giá nên cần cố định
lượng bán ở một kỳ nhất định.
125

❖Khi trọng số lượng bán được chọn ở gốc, chỉ số này được gọi là chỉ số
LASPEYRES.
σ 𝑝1 𝑞0
𝐼𝑝 =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞0 − σ 𝑝0 𝑞0
❖Khi trọng số lượng bán được chọn ở kỳ nghiên cứu, chỉ số là chỉ số
PAASCHE.
σ 𝑝1 𝑞0
𝐼𝑝 =
➢ σ 𝑝0 𝑞1
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞1
126

❖Thực hiện các tính toán


Giá bán (p)
Đơn (1000đồng) Lượng bán (q) Tính toán
vị
𝑝0 𝑝1 𝑞0 𝑞1 𝑝0 𝑞0 𝑝0 𝑞1 𝑝1 𝑞0 𝑝1 𝑞1
Mặt hàng tính
A Kg 50 45 1000 1100 50000 55000 45000 49500
B m 30 24 2000 2400 60000 72000 48000 57600
C L 40 40 4000 6000 160000 240000 160000 240000
270000 367000 253000 347100
127

❖Chỉ số giá LASPEYRES


σ 𝑝1 𝑞0
𝐼𝑝 =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞0 − σ 𝑝0 𝑞0

σ 𝑝1 𝑞0 45×1100+24×2000+40×4000 253000
➢ 𝐼𝑝 = σ 𝑝0 𝑞0
= = = .937 ℎ𝑎𝑦 93.7%
50×1100+30×2000+40×4000 270000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞0 − σ 𝑝0 𝑞0 = 253000 − 270000 = −17000
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
6.3% và do đó làm cho doanh thu giảm 17000 ngàn đồng.
128

❖Chỉ số giá PAASCHE


σ 𝑝1 𝑞1
𝐼𝑝 =
➢ σ 𝑝0 𝑞1
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞1

σ 𝑝1 𝑞1 45×1100+24×2400+40×6000 347100
➢ 𝐼𝑝 = σ 𝑝0 𝑞1
= = = .946 ℎ𝑎𝑦 94.6%
50×1100+30×2400+40×6000 367000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞1 = 347100 − 367000 = −19900
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
5,4% và do đó làm cho doanh thu giảm 19900 ngàn đồng.
129

❖Khi trọng số giá bán được chọn ở gốc, chỉ số này được gọi là chỉ số
LASPEYRES.
σ 𝑝0 𝑞1
𝐼q =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞0
❖Khi trọng số lượng bán được chọn ở kỳ nghiên cứu, chỉ số là chỉ số
PAASCHE.
σ 𝑝1 𝑞1
𝐼𝑞 =
➢ σ 𝑝1 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞0
130

❖Chỉ số lượng LASPEYRES


σ 𝑝0 𝑞1
𝐼q =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞0
σ 𝑝0 𝑞1 50×1100+30×2000+40×4000 367000
➢ 𝐼q = σ = = = 1.359 ℎ𝑎𝑦 135.9%
𝑝0 𝑞0 50×1000+30×2000+40×4000 270000
➢ 𝛥𝑝𝑞(𝑞) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞1 = 367000 − 270000 = 97000
❖Vậy lượng hàng bán chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ
gốc tăng 35.9% và do đó làm tăng doanh thu 97000 ngàn đồng.
131

❖Chỉ số lượng PAASCHE


σ 𝑝1 𝑞1
𝐼q =
➢ σ 𝑝1 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞0

σ 𝑝1 𝑞1 45×1100+24×2400+40×6000 347100
➢ 𝐼q = σ 𝑝1 𝑞0
= = = 1.371 ℎ𝑎𝑦 137.1%
45×1000+24×2000+40×6000 253000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞1 = 347100 − 253000 =94100
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
37,1% và do đó làm cho doanh thu giảm 94100 ngàn đồng.
132

❖Trong thực tế, nguồn số liệu không phải bao giờ cũng có đầy đủ như
đã trình bày ở trên mà có thể ở dạng các chỉ số các thể về giá bán và
lượng bán của từng mặt hàng như sau
Chỉ số cá thể (%) Doanh thu (1000đồng)

Giá bán Lượng bán Kỳ gốc Kỳ báo cáo


Mặt hàng (𝑖𝑝 ) (𝑖𝑞 ) 𝑝0 𝑞0 𝑝1 𝑞1
A 90 110 50000 49500
B 80 120 60000 57600
C 100 150 160000 240000
133

❖Khi số giá bình quân


σ ip 𝑝0 𝑞0
➢ 𝐼𝑝 = σ 𝑝0 𝑞0

❖Ví dụ
σ ip 𝑝0 𝑞0 0.9×50.000+.8×60.000+1.0×16000 2530000
➢ 𝐼𝑝 = σ 𝑝0 𝑞0
= =
270000 270000
➢ = .937 hay 93.7%
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
6.3%.
134

❖Khi số lượng bình quân


σ iq 𝑝0 𝑞0
➢ 𝐼𝑞 = σ 𝑝0 𝑞0

❖Ví dụ
σ iq 𝑝0 𝑞0 1.1×50.000+1.2×60.000+1.5×16000 3670000
➢ 𝐼𝑞 = σ 𝑝0 𝑞0
= =
270000 270000
➢ = 1.359 hay 135.9%
❖Vậy, lượng bán của 3 loại hàng hoá kỳ báo cáo tăng so với kỳ gốc
3.59%.
Chương 09
2

❖Sau khi hoàn thành chương này, sinh viên sẽ có thể


➢Nhận biết các tình huống để sử dụng phân tích phương sai
➢Hiểu các phân tích khác nhau về thiết kế phân tích phương sai
➢Thực hiện phân tích phương sai một chiều và hai chiều và giải
thích kết quả
➢Phân tích phân tích hai yếu tố của các thử nghiệm phương sai
với nhiều hơn một quan sát trên mỗi ô
➢Thực hành được phân tích phương sai với SPSS
GIỚI THIỆU
PHÂN TÍCH PHƯƠNG SAI
4

❖Phân tích phương sai (ANOVA: ANalysis Of VAriance) là gì?


➢ Phân tích phương sai là một phương pháp thống kê được sử dụng
để so sánh sự khác biệt giữa các nhóm trong một tập hợp dữ liệu.
Nó giúp xác định xem liệu có sự khác biệt có ý nghĩa đáng kể giữa
các nhóm hay không. ANOVA thường được sử dụng khi có ba hoặc
nhiều nhóm để kiểm tra xem liệu có sự khác biệt về giá trị trung
bình giữa các nhóm hay không.
➢ Ý tưởng chính của ANOVA là so sánh phương sai giữa các nhóm và
phương sai nội bộ nhóm. Nếu sự khác biệt giữa các nhóm lớn hơn
sự biến đổi nội bộ nhóm, thì có thể kết luận rằng có sự khác biệt
đáng kể giữa các nhóm.
❖Phân tích phương sai được áp dụng rộng rãi trong nhiều lĩnh vực
như thống kê, khoa học dữ liệu, kinh tế học, và nhiều lĩnh vực khác
để làm sáng tỏ tính biến động của dữ liệu và hỗ trợ quyết định
trong việc xử lý dữ liệu và phân tích.
5

❖ANOVA bao gồm 2 loại phổ biến


➢ ANOVA một yếu tố (One-way ANOVA)
✓ One-way ANOVA là một loại kiểm định thống kê nhằm đánh giá tác
động của một biến độc lập duy nhất đến một biến phụ thuộc duy
nhất.
✓ One-way ANOVA được sử dụng để xác định liệu có bất kỳ sự khác
biệt có ý nghĩa nào giữa các đối tượng của ba hay nhiều nhóm độc
lập với nhau hay không.
➢ ANOVA hai yếu tố (Two-way ANOVA)
✓ Two-way ANOVA có thể được coi là một phần mở rộng của phân tích
One-way ANOVA. Vì đối với One-way ANOVA chỉ có thể nghiên cứu
ảnh hưởng của một biến độc lập với một biến phụ thuộc, còn Two-
way ANOVA sẽ có 2 biến độc lập.
✓ Two-way ANOVA được sử dụng để quan sát sự tương tác giữa hai
yếu tố và kiểm tra sự ảnh hưởng của 2 yếu tố đó đến biến phụ thuộc
cùng một lúc.
6

❖Giả thiết #1: Biến phụ thuộc nên được đo ở mức khoảng hoặc tỷ lệ.
❖Giả thiết #2: Biến độc lập bao gồm hai hoặc nhiều nhóm phân loại,
độc lập.
❖Giả thiết #3: Các quan sát độc lập, nghĩa là không có mối quan hệ
nào giữa các quan sát trong mỗi nhóm hoặc giữa các nhóm với
nhau.
❖Giả thiết #4: Không nên có ngoại lai đáng kể.
❖Giả thiết #5: Biến phụ thuộc của bạn phải có phân phối xấp xỉ
chuẩn cho mỗi loại của biến độc lập.
❖Giả thiết #6: Cần phải có phương sai đồng nhất.
7

❖Giả thiết #1: Biến phụ thuộc nên được đo ở mức khoảng hoặc tỷ lệ.
❖Giả thiết #2: Biến độc lập bao gồm hai hoặc nhiều nhóm phân loại,
độc lập.
❖Giả thiết #3: Các quan sát độc lập, nghĩa là không có mối quan hệ
nào giữa các quan sát trong mỗi nhóm hoặc giữa các nhóm với
nhau.
❖Giả thiết #4: Không nên có ngoại lai đáng kể.
❖Giả thiết #5: Biến phụ thuộc của bạn phải có phân phối xấp xỉ
chuẩn cho mỗi loại của biến độc lập.
❖Giả thiết #6: Cần phải có phương sai đồng nhất.
9

❖Dữ liệu cần có để thực hiện phân tích ANOVA gồm hai biến:
➢Biến phân loại gồm k loại khác nhau (k3), mỗi loại được xem
như tổng thể.
✓ Ví dụ: Ngành nghề đào tạo; phòng ban, miền, quí…
➢Biến định lượng
✓ Ví dụ: điểm, thu nhập, doanh thu, lợi nhuận, hài lòng…
❖Giả sử rằng chúng ta muốn so sánh các trung bình của k tổng
thể, các tổng thể được giả định là có cùng phương sai. Từ k tổng
thể chọn k mẫu ngẫu nhiên độc lập có 𝑛1 , 𝑛2 , … , 𝑛𝑘 quan sát.
Chúng ta sử dụng ký hiệu 𝑥𝑗𝑖 để biểu thị quan sát thứ i trong
tổng thể thứ j. Chúng ta có thể hiển thị dữ liệu mẫu như trong
Bảng ở slide sau.
10

❖Nguồn dữ liệu có dạng như sau


Tổng thể
1 2 … j … k
𝑥11 𝑥21 … 𝑥𝑗1 … 𝑥𝑘1
x12 𝑥22 … 𝑥𝑗2 … 𝑥𝑘2
… … … … … …
𝑥1𝑖 𝑥2𝑖 … 𝑥𝑗𝑖 … 𝑥𝑘2
… … … … … …
𝑥1𝑛1 𝑥2 𝑛2 … 𝑥𝑗 𝑛𝑗 … 𝑥𝑘𝑛𝑘

❖Kích thước các tổng thể có thể khác hay giống nhau.
11

❖BÀI TOÁN
➢ Công ty AutoShine đang xem xét việc tiếp
Sáp
thị một loại sáp xe hơi. Ba loại sáp khác
nhau đã được sản xuất. Để kiểm định độ Quan Loại Loại Loại
bền của những loại sáp này, chọn 5 chiếc sát 1 2 3
ô tô mới để bôi sáp loại 1, chọn 5 chiếc ô 1 27 33 29
tô với loại 2 và 5 chiếc ô tô với loại 3. Sau 2 30 28 28
đó, mỗi chiếc xe được chạy liên tục qua
3 29 31 30
máy rửa xe tự động cho đến khi lớp sáp
phủ có dấu hiệu xuống cấp. 4 28 30 32
➢ Số lần mỗi chiếc ô tô được rửa sạch trước 5 31 30 31
khi sáp bị xuống cấp được hiển thị trên
bảng bên.
➢ AutoShine phải quyết định loại sáp nào
sẽ được tung ra thị trường?
12

① Thống kê mô tả
② Ước lượng phương sai tổng thể giữa các nhóm
③ Ước lượng phương sai tổng thể trong nội bộ nhóm
④ So sánh ước lượng Phương sai: Kiểm định F
⑤ Bảng ANOVA
13

❖Trong phân tích phương sai, thường dùng những đại lượng thống
kê mô tả và thường được trình bày theo dạng bảng như sau:
(1-) % Confidence
Std. Interval for Mean
Tổng Mean Deviation Std. Lower Upper
thể 𝐧𝐣 𝐱ത 𝐣 𝒔𝒋 Error Bound Bound Min Max
1 𝑛𝑗 𝑥ҧ1 𝒔𝟏 𝑆𝑒1 LCI1 UCI1 𝑥1𝑚𝑖𝑛 𝑥1𝑚𝑎𝑥
2 𝑛𝑗 𝑥ҧ2 𝒔𝟐 𝑆𝑒2 LCI2 UCI2 𝑥2𝑚𝑖𝑛 𝑥2𝑚𝑎𝑥
… … … … … … … … …
j 𝑛𝑗 𝑥𝑗ҧ 𝒔𝒋 𝑆𝑒𝑗 LCIj UCIj 𝑥𝑗𝑚𝑖𝑛 𝑥𝑗𝑚𝑎𝑥
… … … … … … … … …
k 𝑛𝑗 𝑥ҧk 𝒔𝒌 𝑆𝑒𝑘 LCIk UCIk 𝑥𝑘𝑚𝑖𝑛 𝑥𝑘𝑚𝑎𝑥
14

❖Trong đó
nj
∑i=1 xij
➢ xത j = (j = 1,2, … , k)
nj

1 nj 2
➢ sj = ∑ xji − x᪄ j
nj i=1

➢ n = ∑K
j=1 nj
➢ Sej =sj / nj
➢ LCIj = xlj j − t /2 nj − 1 sj / nj
➢ UCIj = xlj j + t /2 nj − 1 sj / nj
15

❖Ước lượng phương sai tổng thể dựa trên sự biến động của trung
bình mẫu được gọi là trung bình bình phương giữa các nhóm và
được ký hiệu là MSB
2
𝑆𝑆𝐵 ∑𝑘 𝑛 𝑥᪄
𝑗=1 𝑗 𝑗 −𝑥᪄ҧ
➢ MSB= =
𝑘−1 𝑘−1
𝑘 𝑛𝑗 2
➢ SSB = ∑𝑗=1 ∑𝑖=1 𝑥𝑗𝑖 − 𝑥᪄𝑗
1 𝑛𝑗
➢ 𝑥𝑗lj = ∑𝑖=1 𝑥𝑗𝑖
𝑛𝑗
1 𝑛𝑗
➢ 𝑥ҧ = ∑𝑘j=1 ∑i=1 𝑥𝑖𝑗
𝑛
1 𝑘
➢ 𝑥ҧ = ∑ 𝑛 𝑥ҧ
𝑛 j=1 𝑗 𝑗
❖Tử số được gọi là tổng bình phương giữa các nhóm (SSB).
❖Mẫu số là bậc tự do liên quan đến SSB.
16

❖Ước lượng phương sai tổng thể dựa trên sự thay đổi của các quan
sát mẫu trong mỗi mẫu được gọi là trung bình bình phương trong
nội bộ nhóm và được ký hiệu là SSW.
𝑆𝑆𝑊 ∑𝑘 2
𝑗=1(𝑛𝑗 −1)𝑠𝑗
➢ MSW = =
𝑛−𝑘 𝑛−𝑘
𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ𝑗
➢ 𝑠𝑗2 =
𝑛𝑗 −1
❖Tử số được gọi là tổng bình phương trong nội bộ nhóm (SSW).
❖Mẫu số là bậc tự do liên quan đến SSW.
17

❖Nếu giả thuyết KHÔNG là đúng


Phân phối mẫu của MSB/MSW
và các giả thiết ANOVA là hợp
lệ, khi đó phân phối chọn mẫu Phân phối mẫu
của MSB/MSW
của tỷ số F:
❖F= MSB/MSW là phân phối F Bác bỏ H0
α
với bậc tự do ở tử bằng 𝑘–1 và Không bác bỏ H0
bậc tự do ở mẫu bằng 𝑛 − 𝑘. MSB/MSW
F
Tức: Giá trị tới hạn

❖F= MSB/MSWF(k-1, n-k)


18

❖Với toàn bộ tập dữ liệu như một mẫu, công thức tính tổng bình
phương là SST
𝑛𝑗
➢ SST = ∑𝑘𝑗=1 ∑𝑖=1(𝑥𝑖𝑗 − 𝑥)
ሜlj 2
❖SST được phân chia thành SSB và SSW
➢ SST = SSB + SSW
❖Bậc tự do của SST được chia thành bậc tự do của SSB và bậc tự do
của SSW. Khi đó, bảng phân tích phương sai như sau:
Source of Sum of Degrees of p-
Mean Square F
Variation Squares Freedom value
Between Groups SSB k-1 MSB=SSB/(k-1) MSB/MSW
Within Groups SSW n- k MSW=SSW/(n − k)
Total SST n- 1
19

❖1. Xây dựng cặp giả thuyết


➢ 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑘
➢ 𝐻1 : Không phải tất cả các trung bình tổng thể đều bằng nhau.
❖2. Chọn mức ý nghĩa α
❖3. Tính thống kê kiểm định
➢ F=MSB/MSW
TIẾP CẬN p-value
❖4a. Sử dụng giá trị của thống kê kiểm định để tính p-value
➢ p − value = F.DIST.RT(F; k−1, 𝑛 − 𝑘)
❖5a. Quyết định xem có bác bỏ H0 hay không
➢ Bác bỏ H0 nếu p − value ≤ α
20

TIẾP CẬN giá trị tới hạn


❖4b. Sử dụng mức ý nghĩa α để xác định giá trị tới hạn
➢ Giá trị tới hạn (Critical value)= F.INV.RT(, k-1, 𝑛 − 𝑘)
❖5a. Quyết định xem có bác bỏ 𝐻0 hay không
➢ So sánh kết quả bước 3 và 4b để quyết định: Bác bỏ 𝐻0 nếu 𝐹 ≥
𝐹𝛼 (k−1, 𝑛 − 𝑘) = Giá trị tới hạn.
➢ Trong đó: giá trị 𝐹𝛼 (k−1, 𝑛 − 𝑘) được xác định dựa bảng phân phối
F với mức ý nghĩa , bậc tự do ở tử là 𝑘 − 1 và bậc tự do ở mẫu là
𝑛 − 𝑘.
❖6. Kết luận
➢ Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
21

LỜI GIẢI
Gọi 𝜇1 , 𝜇2 và 𝜇3 lần lượt là số lần rửa trung bình bằng sáp Loại 1, 2 và 3.
❖1. Xây dựng cặp giả thuyết
➢ H0 : μ1 = μ2 = μ3 Số lần rửa trung bình của 3 loại sáp là như nhau.
➢ H1 : Tồn tại một loại sáp có số lần rửa trung bình tổng thể khác nhau.
❖2. Chọn mức ý nghĩa α
❖3. Tính thống kê kiểm định
➢ Tính toán bình quân và phương sai cho từng loại sáp theo công thức
sau:
1 𝑛𝑗
✓ 𝑥𝑗lj = ∑ 𝑥
𝑛𝑗 𝑖=1 𝑗𝑖
𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ 𝑗
✓ 𝑠𝑗2 =
𝑛𝑗 −1
22

➢ Kết quả một số kết quả trung gian như sau


Sáp
Loại 1 Loại 2 Loại 3
Số quan sát 𝑛𝑗 5 5 5
Sample Mean 𝑥𝑗lj 29.0 30.4 30.0
Sample Variance 𝑠𝑗2 2.5 3.3 2.5

➢ Tính trung bình bình phương giữa các nhóm (MSB)


✓ 𝑥᪄ҧ = 𝑥᪄1 𝑛1 + 𝑥᪄2 𝑛2 + 𝑥᪄3 𝑛3 /(n1 + n2 + n3 ) = (29 ∗ 5 + 30.4 ∗ 5 +
30 ∗ 5)/15 = 29.8
𝑘 2
✓ SSB = ∑𝑗=1 𝑛𝑗 𝑥᪄𝑗 − 𝑥᪄ҧ = 5(29 − 29.8)2 + 5(30.4 − 29.8)2 +
5(30 − 29.8)2 = 5.2
✓ MSB = 5.2/(3 − 1) = 2.6
23

➢ Trung bình bình phương nội bộ nhóm (MSW)


✓ SSW = ∑kj=1(nj − 1)sj2 = 4(2.5) + 4(3.3) + 4(2.5) = 33.2
✓ MSW = 33.2/(15 − 3) = 2.767
➢ Thống kê F
✓ F=MSB/MSW=2.6/2.767=0.94
TIẾP CẬN p-value
❖4a. Sử dụng giá trị của thống kê kiểm tra để tính p-value
➢ p − value = F.DIST.RT(0.94,2,12)= 0.418
❖5a. Quyết định có bác bỏ 𝐻0 hay không?
➢ Vì p − value = 0,418 > 0.05 → Chúng ta không thể bác bỏ 𝐻0
24

TIẾP CẬN giá trị tới hạn (Critical value Approach)


❖4b. Sử dụng mức ý nghĩa α=0.05 để xác định giá trị tới hạn
➢ Giá trị tới hạn= 𝐹.05 2,12 = F. INV. RT .05,2,12 = 3.89.
❖5b. Quyế định xem có bác bỏ 𝐻0 hay không
➢ 𝐹0,05 (2; 12) = 3.89 > 0.939→ chúng ta không thể bác bỏ 𝐻0 , chấp
nhận nó.
❖6. Kết luận
➢ Với mức ý nghĩa 5% có thể kết luận rằng số lần rửa xe trung bình
của ba loại sáp giống nhau.
25
❖Kết quả tính toán được trình bày trên Bảng ANOVA như sau:
Source of Sum of Degrees of Mean
Variation Squares Freedom Squares F p − value
Between Groups 5.200 2 2.600 0.940 0.418
Within Groups 33.200 12 2.767
Total 38.400 14
❖Trong đó:
➢ SSB=5.2, k-1=2 nên MSB=5.2/2=2.60
➢ SSW=33.2, n-k=12 nên MSW= 33.2/12= 2.767
➢ SST=38.4
➢ F= MSB/MSW= 2.60/ 2.767= 0.940
➢ Sig. =p-value=F.DIST.RT(0.94,2,12)=0.418
❖Kết luận:
➢ Như vậy, với mức ý nghĩa 5%, chúng có thể nói số lần rửa xe trung bình
của các loại sáp khác nhau không đáng kể.
27

❖Khi đã kết luận rằng các trung bình nhóm tổng thể là khác nhau
bằng cách bác bỏ giả thuyết KHÔNG, chúng ta cần biết có trung
bình nhóm nào khác với các trung bình nhóm khác hay không.
❖Để biết, chúng ta dùng kỹ thuật so sánh bội.
❖Việc thực hiện so sánh bội khá phức tạp vì có rất cặp cần so sánh.
Ví dụ, nếu có k loại tức k giá trị trung bình nhóm thì số cặp cần so
sánh sẽ là
𝑘! 𝑘(𝑘−1)
➢ 𝐶𝑘2 = =
2!(𝑘−2)! 2
➢ Ví dụ: k=4, thì số cặp cần so sánh là 6
❖Hiện nay có rất nhiều kỹ thuật so sánh như LSD; Tukey;
Bonferroni; Sidak; Scheffe; R-E-G-W F; R-E-G-W Q; S-N-K; Tukey's
b. Duncan...
28

❖Thủ tục MSD (Mean Significant Difference) của Tukey, còn được
gọi là phương pháp kiểm định Tukey, là một phương pháp thống
kê dùng để so sánh các cặp giá trị trung bình của các nhóm trong
phân tích phương sai (ANOVA). Thủ tục này giúp xác định rõ ràng
các cặp nhóm có sự khác biệt đáng kể về mặt thống kê. Dưới đây
là các bước thực hiện thủ tục MSD của Tukey.
❖1. Tiến hành kiểm định ANOVA
➢ Thực hiện phân tích phương sai (ANOVA) để kiểm tra xem có sự
khác biệt đáng kể giữa các nhóm hay không.
❖2. Xác định nhóm có sự khác biệt
➢ Nếu kết quả kiểm định ANOVA cho thấy có sự khác biệt đáng kể
giữa các nhóm, chúng ta sẽ tiếp tục thực hiện thủ tục MSD để xác
định cụ thể các cặp nhóm có sự khác biệt đáng kể với nhau.
29

➢ 2.1. Xây dựng các cặp giả thuyết


➢ 2.2. Chọn mức ý nghĩa 
➢ 2.3. Tính các thống kê kiểm định
✓ 𝑥᪄𝑖 − 𝑥᪄𝑗
➢ 2.4. Tính toán giá trị MSD
✓ MSD(𝑘) = 𝑞𝛼 (𝑘, n − k) MSE/n𝑤
✓ Trong đó
o 𝑞𝛼 (k, n-k) được tra từ bảng phân phối Studentized Range Q với k
là số nhóm, n-k là bậc tự do và mức ý nghĩa .
o 𝑛𝑤 là số lượng quan sát trong mỗi nhóm.
➢ 2.4. Quyết định
✓ Bác bỏ 𝐻0 nếu |𝑥᪄𝑖 − 𝑥᪄𝑗 |  MSD
➢ 2.5. Kết luận
30

❖BÀI TOÁN
➢ Công ty Chemitech đã phát triển một hệ
Phương pháp
thống lọc mới cho nguồn cung cấp nước
đô thị. Nhóm kỹ thuật công nghiệp chịu A B C
trách nhiệm xác định 3 phương pháp A,
58 58 48
B, C lắp ráp tốt nhất cho hệ thống lọc
mới. Các phương pháp này khác nhau về 64 69 57
trình tự các bước được sử dụng để lắp
ráp hệ thống. Các nhà quản lý tại 55 71 59
Chemitech muốn xác định phương pháp 66 64 47
lắp ráp nào có thể tạo ra số lượng hệ
thống lọc lớn nhất mỗi tuần. Kết quả là 67 68 49
số lượng đơn vị được sản xuất bởi 15
công nhân như trên Bảng bên.
31

LỜI GIẢI
❖1. Tiến hành kiểm định ANOVA
➢ Trước tiên cần tính toán một số thống kê mô tả, kết quả như trên
bảng sau:
95% Confidence
Interval for Mean
Phương Std. Std. Lower Upper
pháp N Mean Deviation Error Bound Bound Min Max
A 5 62 5.244 2.345 55.49 68.51 55 67
B 5 66 5.148 2.302 59.61 72.39 58 71
C 5 52 5.568 2.490 45.09 58.91 47 59
Total 15 60 7.838 2.024 55.66 64.34 47 71
32

➢ Bảng ANOVA

Sum of Mean
Squares df Square F Sig.
Between Groups 520.000 2 260.000 9.176 0.004
Within Groups 340.000 12 28.333
Total 860.000 14

❖Với kết quả như trên bảng ANOVA, có thể nhận xét sau:
➢ Vì Sig. =0.004 nên có thể kết luận rằng: Với mức ý nghĩa 5% có thể
kết luận rằng rằng số lượng đơn vị phẩm sản xuất trung bình của 3
phương pháp không như nhau.
❖Vậy nên cần xem xét cặp nào khác nhau?
33

❖2. Xác định nhóm có sự khác biệt


➢2.1. Xây dựng các cặp giả thuyết
✓ H0 : μA = μB (H0 : μA − μB =0) và H1 : μA ≠ μB (H1 : μA − μB  0)
✓ H0 : μA = μC (H0 : μA − μC =0) và H1 : μA ≠ μC (H1 : μA − μC ≠ 0)
✓ H0 : μB = μC (H0 : μB − μC =0) và H1 : μB ≠ μC (H1 : μB − μC ≠ 0)
➢2.2. Chọn mức ý nghĩa =5%
➢2.3. Tính thống kê kiểm định
✓ 𝑥᪄A − 𝑥᪄𝐵 = 62 − 66 = −4
✓ 𝑥᪄A − 𝑥᪄𝐶 = 62 − 52 = 10
✓ 𝑥᪄B − 𝑥᪄𝐶 = 66 − 52 = 14
➢2.4. Tính giá trị tới hạn
✓ MSD(3)=𝑞0.05(3, 12) MSE/n = 3.773*Sqrt(28.333/15)=5.19
34

K Số nhóm
df k-> 2 3 4 5 6 7 8 9 10 …
1 17.969 26.976 32.819 37.082 40.408 43.119 45.397 47.357 49.071 …
2 6.085 8.331 9.798 10.881 11.734 12.435 13.027 13.539 13.988 …
3 4.501 5.910 6.825 7.502 8.037 8.478 8.852 9.177 9.462 …
4 3.926 5.040 5.757 6.287 6.706 7.053 7.347 7.602 7.826 …
5 3.635 4.602 5.218 5.673 6.033 6.330 6.582 6.801 6.995 …
6 3.46 4.339 4.896 5.305 5.628 5.895 6.122 6.319 6.493 …
7 3.344 4.165 4.681 5.060 5.359 5.606 5.815 5.997 6.158 …
8 3.261 4.041 4.529 4.886 5.167 5.399 5.596 5.767 5.918 …
9 3.199 3.948 4.415 4.755 5.024 5.244 5.432 5.595 5.738 …
10 3.151 3.877 4.327 4.654 4.912 5.124 5.304 5.460 5.598 …
11 3.113 3.820 4.256 4.574 4.823 5.028 5.202 5.353 5.486 …
12 3.081 3.773 4.199 4.508 4.750 4.950 5.119 5.265 5.395 …
13 3.055 3.734 4.151 4.453 4.690 4.884 5.049 5.192 5.318 …
14 3.033 3.701 4.111 4.407 4.639 4.829 4.990 5.130 5.253 …
15 3.014 3.673 4.076 4.367 4.595 4.782 4.940 5.077 5.198 …
16 2.998 3.649 4.046 4.333 4.557 4.741 4.896 5.031 5.150 …
17 2.984 3.628 4.020 4.303 4.524 4.705 4.858 4.991 5.108 …
18 2.971 3.609 3.997 4.276 4.494 4.673 4.824 4.955 5.071 …
… … … … … … … … … … …
35

➢2.5. Quyết định


o x᪄ A − x᪄ B = |62 − 66| = 4 < MSD → không đủ cơ sở để bác bỏ H0
o |᪄xA − x᪄ C | = |62 − 52| = 10 > MSD → không đủ cơ sở để bác bỏ H0
o |᪄xB − x᪄ C | = |66 − 52| = 14 > MSD → không đủ cơ sở để bác bỏ H0
➢2.6. Kết luận
Với mức ý nghĩa 5%, chúng ta có thể kết luận rằng trong 3 phương pháp
thì Phương A và phương pháp B không khác nhau còn các cặp còn lại
khác nhau.
37

❖ MSD của Tukey cũng có thể được sử dụng để xây dựng ước lượng khoảng tin
cậy về sự khác biệt giữa hai trung bình tổng thể. Thủ tục chung như sau đây:
➢ 𝑥᪄𝑖 − 𝑥᪄𝑗 ± MSD
❖ Trong đó:
➢ MSD = 𝑞 (𝑘, 𝑑𝑓) 𝑀𝑆E/𝑛𝑤
✓ 𝑞𝛼 (k, n-k) được tra từ bảng phân phối Studentized Range Q với k là số nhóm
n-k là bậc tự do và mức ý nghĩa .
o 𝑛𝑤 là số lượng quan sát trong mỗi nhóm.
o df =n-k bậc tự do của MSE.
❖ Qui tắc bác bỏ giả thuyết
➢ Nếu khoảng tin cậy như biểu thức chứa giá trị 0, chúng ta kết luận rằng hai
trung bình tổng thể bằng nhau.
➢ Nếu khoảng tin cậy không chứa giá trị 0, chúng ta kết luận rằng có sự khác
biệt giữa hai trung bình tổng thể.
38

❖Như kết quả tính, MSD = 8.98136


❖Do đó, khoảng tin cậy 95% về sự khác biệt giữa trung bình của tổng
thể A và B là
➢ (62 − 66) ± 8.98136 = −4 ± 8.98136
➢ Hay từ -12.9814 đến 4.9814
❖Kết luận: Vì khoảng tin cậy này bao gồm số không, chúng ta không thể
bác bỏ giả thuyết rằng hai trung bình tổng thể là bằng nhau.
❖Khoảng tin cậy 95% về sự khác biệt giữa trung bình của tổng thể A và
C là
➢ (62 − 52) ± 8.98136 = 10 ± 8.98136
➢ Hay từ 1.01863 đến 18.98137
❖Kết luận: Vì khoảng tin cậy không bao gồm giá trị bằng không, chúng
ta kết luận rằng có sự khác biệt giữa hai trung bình tổng thể A và C.
40

❖Bước 1. Tạo và lưu File: Giolamviecmoituan.sav


❖Bước 2. Trên menu chính, Analyze →Compare Means →One-
Way ANOVA... Khi đó, xuất hiện hộp thoại One-Way ANOVA.
❖Bước 3. Tại hộp thoại One-Way ANOVA, chuyển Giomoituan vào
khoang Dependent List, chuyển biến Nhamay vào hộp Factor. Xem
hình.

❖Bước 4. Post hoc → xuất hiện hộp thoại One-Way ANOVA: Post Hoc
Multiple Comparisons
41

❖Bước 5. Tại One-Way ANOVA: Post Hoc Multiple Comparison,


Turkey →Continue để quay về hộp thoại One-Way ANOVA.
❖Bước 6. hộp thoại One-Way ANOVA, Options→ xuất hiện hộp
thoại One-Way ANOVA: Options →Chọn Descriptive trong
khoang Statistics →Continue để quay về hộp thoại One-Way
ANOVA.

❖Bước 7. Tại hộp thoại One-Way ANOVA, OK→ được kết quả.
42

❖Bảng thống kê mô tả
Descriptives
Giomoituan (Số giờ làm việc mỗi tuần)
95% Confidence
Interval for Mean
Std. Std. Lower Upper
Nhà máy 𝑛𝑗 Mean Deviation Error Bound Bound Min Max
1 5 55.000 5.09902 2.28035 48.6687 61.3313 48.00 62.00
2 5 68.000 5.14782 2.30217 61.6081 74.3919 63.00 74.00
3 5 57.000 4.94975 2.21359 50.8541 63.1459 51.00 63.00
Total 15 60.000 7.54983 1.94936 55.8190 64.1810 48.00 74.00
43
1 𝑛𝑗
❖Mean=𝑥𝑗lj = ∑ 𝑥
𝑛𝑗 𝑖=1 𝑗𝑖
∑𝑘
j=1 𝑥ҧ 𝑗 𝑛𝑗
❖ 𝑥ҧ =
∑𝑘
𝑗=1 𝑛𝑗

𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ 𝑗
❖Std. Deviation= 𝑠𝑗 =
𝑛𝑗 −1

VÍ DỤ VỚI NHÀ MÁY 1


❖Std. Error=𝑠𝑗 / nj
➢ 𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟1 = 𝑠1 / n1 = 5.09902/ 5= 2.28035
❖Lower Bound = 𝑥𝑗lj − t /2 𝑛𝑗 − 1 𝑠𝑗 / 𝑛𝑗
➢ 𝐿𝑜𝑤𝑒𝑟 𝐵𝑜𝑢𝑛𝑑1 = 55 − 2.776 ∗ 2.28035 = 48.6687
❖Upper Bound = 𝑥𝑗lj + t /2 𝑛𝑗 − 1 𝑠𝑗 / 𝑛𝑗
➢ 𝑈𝑝𝑝𝑒𝑟 𝐵𝑜𝑢𝑛𝑑1 = 55 + 2.776 ∗ 2.28035 = 61.3313
44

❖Bảng ANOVA
➢ Bảng ANOVA phản ảnh liệu có sự khác biệt có ý nghĩa thống kê
giữa các trung bình nhóm hay không. Theo kết quả, Sig.= 0.003 (p-
value = 0.003), nhỏ hơn 0.05. Do đó, có sự khác biệt có ý nghĩa
thống kê về số giờ làm việc trung bình giữa các nhà máy.
ANOVA
Giomoituan
Sum of Squares df Mean Square F Sig.
Between Groups 490.000 2 245.000 9.545 .003
Within Groups 308.000 12 25.667
Total 798.000 14
45

❖Bảng so sánh bội (Multiple Comparisons)


➢ Từ kết quả, chúng ta biết rằng có sự khác biệt đáng kể về mặt
thống kê giữa các nhóm nói chung. Với so sánh bội, cho biết những
nhóm nào khác nhau. Kiểm định LSD là kiểm định được ưu tiên để
thực hiện các kiểm định trên ANOVA một yếu tố.
Dependent Variable: Giomoituan Tukey HSD
Mean Std. 95% Confidence Interval
(I) Nhà máy (J) Nhà máy Sig.
Difference (I-J) Error Lower Bound Upper Bound
2 -13.00000* 3.20416 .004 -21.5483 -4.4517
1
3 -2.00000 3.20416 .810 -10.5483 6.5483
1 13.00000* 3.20416 .004 4.4517 21.5483
2
3 11.00000* 3.20416 .013 2.4517 19.5483
1 2.00000 3.20416 .810 -6.5483 10.5483
3
2 -11.00000* 3.20416 .013 -19.5483 -2.4517
*. The mean difference is significant at the 0.05 level.
46

❖Như vậy, với mức ý nghĩa 5% có thể kết luận như sau:
❖Sự khác biệt về thời gian

Dependent Variable: Giomoituan Tukey HSD


95% Confidence Interval
(I)Nhà (J)Nhà Mean Std.
Sig. Lower Upper
máy máy Difference (I-J) Error
Bound Bound
2 -13.00000* 3.20416 .004 -21.5483 -4.4517
1
3 -2.00000 3.20416 .810 -10.5483 6.5483
1 13.00000* 3.20416 .004 4.4517 21.5483
2
3 11.00000* 3.20416 .013 2.4517 19.5483
1 2.00000 3.20416 .810 -6.5483 10.5483
3
2 -11.00000* 3.20416 .013 -19.5483 -2.4517
*. The mean difference is significant at the 0.05 level.
47

❖BÀI TOÁN
➢File dữ liệu Chitieuthucpham.sav lưu dữ liệu về chi tiêu về thực
phẩm của các gia đình ở một số quốc gia. Cho mức ý nghĩa 5%,
hãy đánh giá xem chi tiêu trung bình của các gia đình giữa các
quốc gia có giống nhau không?
➢Chi tiêu trung bình của Trung Quốc Nhật Mỹ Việt Nam
các cặp gia đình của các 1 3 8 12
quốc gia nào khác nhau? 5 8 14 10
4 15 22 8
7 9 15 4
6 4 18 6
2 12 32 14
3 18 26 18
16 45 24
48

LỜI GIẢI
❖1. Thực hiện phân tích ANOVA
➢Bảng thống kê mô tả
95% Confidence
Interval for Mean
Std. Std. Lower Upper
N Mean Deviation Error Bound Bound Min Max
Trung Quốc 7 4.0000 2.16025 0.81650 2.0021 5.9979 1.00 7.00
Nhật 8 10.6250 5.55331 1.96339 5.9823 15.2677 3.00 18.00
Mỹ 8 22.5000 11.75949 4.15761 12.6688 32.3312 8.00 45.00
Châu Âu 8 12.0000 6.59004 2.32993 6.4906 17.5094 4.00 24.00
Total 31 12.5484 9.74966 1.75109 8.9722 16.1246 1.00 45.00
49

❖Bảng ANOVA
Sum of
Squares df Mean Square F Sig.
Between Groups 1335.802 3 445.267 7.931 0.001
Within Groups 1515.875 27 56.143519
Total 2851.677 30

❖Với mức ý nghĩa 5%, chúng ta có Sig. =0.001<=5% → Bác bỏ


H0
❖Như vậy, với mức ý nghĩa 5%, chúng ta có thể kết luận rằng chi
tiêu thực phẩm của các quốc gia khác nhau.
❖Vậy, các cặp quốc gia nào có khác biệt?
50

❖2. So sánh bội với Thủ tục Tukey HSD


95% Confidence Interval
Mean Lower Upper
(I) QG Difference (I-J) Std. Error Sig. Bound Bound
Trung Nhật -6.62500 3.87794 0.339 -17.2372 3.9872
*
Quốc Mỹ -18.50000 3.87794 0.000 -29.1122 -7.8878
Châu Âu -8.00000 3.87794 0.191 -18.6122 2.6122
Nhật Trung Quốc 6.62500 3.87794 0.339 -3.9872 17.2372
*
Mỹ -11.87500 3.74645 0.019 -22.1274 -1.6226
Châu Âu -1.37500 3.74645 0.983 -11.6274 8.8774
*
Mỹ Trung Quốc 18.50000 3.87794 0.000 7.8878 29.1122
*
Nhật 11.87500 3.74645 0.019 1.6226 22.1274
*
Châu Âu 10.50000 3.74645 0.043 0.2476 20.7524
Châu Âu Trung Quốc 8.00000 3.87794 0.191 -2.6122 18.6122
Nhật 1.37500 3.74645 0.983 -8.8774 11.6274
*
Mỹ -10.50000 3.74645 0.043 -20.7524 -0.2476
*. The mean difference is significant at the 0.05 level.
51

❖Đọc kết quả như sau:


➢ Nhìn vào cột Sig. Ý nghĩa của cột này là: Đây là mức ý nghĩa thấp
nhất để bác bỏ giả thuyết H0 : xi − xj = 0 và chấp nhận H1 tức cặp
trung bình tổng thể khác nhau.

➢ Vậy, với mức ý nghĩa 5%=0.05 có thể kết luận như sau: Chi tiêu
thực phẩm trung bình của cặp Trung quốc với Nhật, Trung Quốc
với Mỹ, Nhật với Châu Âu không khác nhau đáng kể còn các cặp
khác thì khác nhau đáng kể.
PHÂN TÍCH PHƯƠNG SAI
HAI YẾU TỐ
54

❖Đơn vị thực nghiệm là đối tượng quan tâm của thực nghiệm.
❖Thiết kế hoàn toàn ngẫu nhiên là thiết kế thực nghiệm trong đó
các điều trị được bố trí ngẫu nhiên cho các đơn vị thực nghiệm.
❖Nếu các đơn vị thực nghiệm không đồng nhất, thì có thể sử dụng
khối để tạo thành các nhóm đồng nhất, dẫn đến thiết kế khối ngẫu
nhiên.
55

❖Mặc dù mối quan tâm chính của chúng ta là phân tích một yếu
tố cụ thể của thực nghiệm, chúng ta có thể nghi ngờ rằng yếu tố
thứ hai có thể gây ảnh hưởng đáng kể đến kết quả.
❖Loại thiết kế này có thể được sử dụng để lấy thông tin về hai
yếu tố cùng một lúc.
❖Loại thiết kế này được gọi là thiết kế khối ngẫu nhiên.
❖Giả sử chúng ta có nhóm K và có các khối H. Chúng ta sử dụng
xij để biểu thị quan sát mẫu tương ứng với nhóm thứ i và khối
thứ j. Sau đó, dữ liệu mẫu có thể được đặt ra như trong Bảng
sau.
56

❖Giả sử chúng ta có nhóm k và có các khối b. Chúng ta sử dụng


𝑥𝑖𝑗 để biểu thị quan sát mẫu tương ứng với nhóm thứ i và khối
thứ j. Dữ liệu mẫu có thể được đặt ra như trong bảng sau.
Khối Nhóm (Groups)
(Blocks) 1 2 … j … k
1 𝑥11 𝑥21 … 𝑥𝑗1 … 𝑥𝑘1
2 x12 𝑥22 … 𝑥𝑗2 … 𝑥𝑘2
… … … … … … …
i 𝑥1𝑖 𝑥2𝑖 … 𝑥𝑗𝑖 … 𝑥𝑘2
… … … … … … …
b 𝑥1b 𝑥2b … 𝑥𝑗 b … 𝑥𝑘b
𝑛1 𝑛2 … 𝑛𝑗 … 𝑛𝑘

❖Kích thước các tổng thể có thể khác hay giống nhau.
57

❖Thủ tục ANOVA


➢ Đối với thiết kế khối ngẫu nhiên, tổng bình phương tổng (SST)
được chia thành ba nhóm: tổng bình phương do yếu tố nhóm, tổng
bình phương do khối và tổng bình phương do sai số.
✓ SST = SSG + SSB + SSE
➢ Tổng bậc tự do, n−1, được phân chia cho 𝑘 − 1 bậc tự do cho
nhóm, 𝑏 − 1 cho các khối, và (𝑘 − 1)(𝑏 − 1) cho sai số.
Between- Between-
Total sum groups sum blocks sum Error sum of
of squares of squares of squares squares
Bình phương SST SSG SSB SSE
Bậc tự do n-1 k-1 b-1 (k-1)(b-1)
58

❖Trung bình trong mỗi nhóm


∑𝑏
𝑖=1 𝑥𝑖𝑗
➢ 𝑥𝑗ҧ = (𝑗 = 1,2, … , 𝑘)
𝑏
❖Trung bình trong mỗi khối
∑𝑘
𝑗=1 𝑥𝑖𝑗
➢ 𝑥᪄𝑖 = (𝑖 = 1,2, … , 𝑏)
𝑘
❖Trung bình chung
∑𝑏 𝑘
𝑖=1 ∑𝑗=1 𝑥𝑖𝑗 ∑𝐾
j=1 𝑥᪄ 𝑗 ∑𝑏
𝑖=1 𝑥᪄ 𝑖
➢ 𝑥᪄ҧ = = =
𝑛 𝐾 𝑏
59

❖Tổng bình phương chung (Total sum of squares)


➢ SST = ∑𝑘𝑗=1 ∑𝑏𝑖=1(𝑥𝑖𝑗 − 𝑥)
ሜlj 2
❖Tổng bình phương giữa các nhóm (Sum of squares between
groups)
2
➢ SSG = 𝑏∑𝑘𝑗=1 𝑥᪄𝑗 − 𝑥᪄ҧ
𝑆𝑆𝐺
➢ 𝑀𝑆𝐺 =
𝑘−1
❖Tổng bình phương giữa các khối (Sum of squares between blocks
groups)
➢ SSB = 𝑘∑𝑏𝑖=1 𝑥᪄𝑖 − 𝑥᪄ҧ 2
SSB
➢ MSB=
b−1
❖Tổng bình phương của các sai số (Sum of squared errors)
➢ SSE = SST - SSG - SSB
60

❖Bảng ANOVA

Source of Sum of Degrees of


Mean square F p-value
variation squares freedom
SSG MSG
Between groups SSG k–1 MSG =
k−1 MSE
SSB MSB
Between blocks SSB b–1 MSB =
b−1 MSE
SSE
Error SSE (k -1 )(b-1) MSE =
k– 1
Total SST 𝑛−1
61

THEO NHÓM
❖Cặp giả thuyết
➢ 𝐻0 : Trung bình tổng thể của k nhóm đều giống nhau
➢ 𝐻1 : Ít nhất một trung bình tổng thể trong nhóm khác với các trung
bình khác.
❖Thống kê kiểm định
MSB
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là b-1 và bậc
tự do ở mẫu là (k-1)(b-1) sẽ được 𝐹 (k-1, (k -1 )(b-1)),
❖Quyết định bác bỏ 𝐻0 hay không
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (b-1, (k -1 )(b-1))
62

THEO KHỐI
❖Các cặp giả thuyết
➢ 𝐻0 : Trung bình tổng thể của b khối đều giống nhau
➢ 𝐻1 : Ít nhất một trung bình tổng thể trong các khối khác với các
trung bình khác.
❖Thống kê kiểm định
MSW
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là k-1 và bậc
tự do ở mẫu là (k-1)(b-1) sẽ được 𝐹 (k-1, (k -1 )(b-1)),
❖Qui tắc bác bỏ
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (k-1, (k -1 )(b-1))
63

❖BÀI TOÁN
➢ Công ty Crescent Oil đã phát triển ba hỗn
hợp xăng mới và phải quyết định nên sản Hỗn hợp
Khối
xuất và phân phối hỗn hợp hoặc nhiều (ô tô) X Y Z
hỗn hợp nào. Một nghiên cứu về xếp
1 31 30 30
hạng số dặm mỗi gallon của ba hỗn hợp
để xác định xem xét chúng có giống nhau 2 30 29 29
đối với ba hỗn hợp hay không. 3 29 29 28
➢ Năm chiếc ô tô đã được thực nghiệm 4 33 31 29
bằng cách sử dụng từng loại trong số ba
hỗn hợp xăng và xếp hạng dặm cho mỗi 5 26 25 26
gallon được hiển thị trên bảng bên.
64

LỜI GIẢI
Nhóm (Hỗn hợp) Trung
❖yếu tố (Factor): Hỗn hợp xăng bình khối
X Y Z
❖Nhóm (Groups): Hỗn hợp X, Khối (ô tô) 𝑥ҧ𝑖
Hỗn hợp Y, Hỗn hợp Z 1 31 30 30 30.333
❖Khối (Blocks): Ô tô 2 30 29 29 29.333
❖Biến phản hồi (Response 3 29 29 28 28.667
variable): Số dặm mỗi gallon 4 33 31 29 31.000
5 26 25 26 25.667
Trung bình
29.8 28.8 28.4
nhóm 𝑥𝑗ҧ
65

❖Bình phương trung bình do nhóm (Mean square due to groups)


➢ 𝑆𝑆G = 5 (29.8 − 29)2 + (28.8 − 29)2 + (28.4 − 29)2 = 5.2
5.2
➢ MSG = = 2.6
(3−1)
❖Trung bình bình phương do khối (Mean square due to blocks)
➢ SSB = 3 (30.333 − 29)2 + ⋯ + (25.667 − 29)2 = 51.333
51.333
➢ MSB = = 12.833
(5−1)
❖Bình phương trung bình do sai số (Mean square due to error)
➢ SSE = 62 − 5.2 − 51.333 = 5.467
5.467
➢ MSE = = 0.683
(3−1)(5−1)
66

❖Bảng ANOVA

Source of Sum of Degrees of Mean F


p-value
variation squares Freedom Square
Nhom 5.200 2 2.600 3.805 .069
Khoi 51.333 4 12.833 18.780 .000
Error 5.467 8 .683
Total 62.00 14
67

TIẾP CẬN p-value


❖Quyết định bác bỏ 𝐻0 hay không
✓ Bác bỏ 𝐻0 nếu p-value ≤ 0.05
TIẾP CẬN giá trị tới hạn
❖Quyết định bác bỏ 𝐻0 hay không
✓ Bác bỏ 𝐻0 nếu F  4.46
❖Thống kê kiểm định
➢ F = MSG/MSE = 2.6/.683 = 3.805
➢ p-value =F.DIST.RT(3,82;2;8)= 0,068456  0,069 >0.05
➢ 𝐹.05 (2; 8) = F.INV.RT(0,05;2;8)= 4.46 > 𝐹 = 3.805
➢ Vì vậy, chúng ta không thể Bác bỏ 𝐻0 .
❖Kết luận
➢ Không đủ bằng chứng để kết luận rằng xếp hạng dặm cho mỗi
gallon khác nhau đối với ba hỗn hợp xăng.
69
❖Bước 1. Tạo và lưu File:
Crescent Oil Co.sav.
❖Bước 2. Tại menu chính,
Analyze →General linear
model →Univariate→ xuất
hiện hộp thoại Univariate.
❖Bước 3. Tại hộp thoại
Univariate, chuyển
Milespgallon vào hộp
dependent variable và chuyển
Block (Ô tô) và Treatment vào
hộp Fixed factors.
70

❖Bước 4. Model→xuất hiện


hộp thoại Univariate Model.
❖Bước 5. Tại hộp thoại
Univariate Mode, Build
terms →chuyển Block và
Treatment trong danh sách
Factors and Covariates vào
khoang Model →Type III từ
danh sách thả xuống Sum of
Squares→Include intercept
in model →Continue để quay
hộp thoại Univariate.
71

❖Bước 6. Tại hộp thoại


Univariate, Options→ xuất
hiện hộp thoại Univariate
Options →Descriptive trong
khoang Display →Continue
để quay lại hộp thoại
Univariate.
❖Bước 7. Tại hộp thoại
Univariate, OK →Xem kết
quả.
72

❖Thống kê mô tả (Descriptive Statistics)


Block
Groups 1 2 3 4 5 Total
Hỗn hợp X Mean 31.0000 30.0000 29.0000 33.0000 26.0000 29.8000
Std. Deviation 2.58844
N 1 1 1 1 1 5
Hỗn hợp Y Mean 30.0000 29.0000 29.0000 31.0000 25.0000 28.8000
Std. Deviation 2.28035
N 1 1 1 1 1 5
Hỗn hợp Z Mean 30.0000 29.0000 28.0000 29.0000 26.0000 28.4000
Std. Deviation 1.51658
N 1 1 1 1 1 5
Total Mean 30.3333 29.3333 28.6667 31.0000 25.6667 29.0000
Std. Deviation 0.57735 0.57735 0.57735 2.00000 0.57735 2.10442
N 3 3 3 3 3 15
73

❖Bảng ANOVA
Tests of Between-Subjects Effects

Dependent Variable: Milespgallon


Source Type III Sum of Squares df Mean Square F Sig.
Model 12671.533a 7 1810.219 2649.101 .000
Block 51.333 4 12.833 18.780 .000
Groups 5.200 2 2.600 3.805 .069
Error 5.467 8 .683
Total 12677.000 15
a. R Squared = 1.000 (Adjusted R Squared = .999)
75

❖Trong một số thực nghiệm, chúng ta muốn rút ra kết luận về nhiều
biến hoặc yếu tố.
❖Các thực nghiệm yếu tố và tính toán ANOVA tương ứng của chúng
là những thiết kế có giá trị khi cần có kết luận đồng thời về hai
hoặc nhiều yếu tố.
❖Thuật ngữ yếu tố được sử dụng vì các điều kiện thực nghiệm bao
gồm tất cả các kết hợp có thể có của các yếu tố.
➢ Ví dụ: đối với a cấp độ của yếu tố A và b cấp độ yếu tố B, thực
nghiệm sẽ liên quan đến việc thu thập dữ liệu về các kết hợp cả hai
yếu tố ab.
76

❖Thực nghiệm yếu tố/thừa số (factorial experiment) là một thiết


kế thực nghiệm cho phép kết luận đồng thời về hai hoặc nhiều yếu
tố. Thuật ngữ yếu tố/thừa số (factorial) được sử dụng vì các điều
kiện thực nghiệm bao gồm tất cả các kết hợp có thể có của các yếu
tố.
➢ Ví dụ, đối với a loại của yếu tố A và b loại của yếu tố B, thực nghiệm
sẽ liên quan đến việc thu thập dữ liệu về các kết hợp ab. Trong
phần này, chúng ta sẽ trình bày phân tích cho một thực nghiệm yếu
tố hai yếu tố. Cách tiếp cận cơ bản có thể được mở rộng cho các thí
nghiệm liên quan đến nhiều hơn hai yếu tố.
77

❖Dữ liệu cho phân tích thiết kế thực nghiệm yếu tố


Yếu tố A
Yếu tố B 1 2 … a
1 x111 x112... x11r x211 x212... x21r … xa11 xa12... xa1r
2 x121 x122... x12r x221 x222... x22r … xa21 xa22... xa2r
… … … … …
b x1b1 x1b2... x1br x2b1 x2b2... x2br … xab1 xab2... xabr

➢ a= Số lượng nhóm theo yếu tố A


➢ b = Số lượng khối theo yếu tố B
➢ r= Số lượng quan sát trong mỗi ô (lặp: replications)
➢ n = abr = Tổng số quan sát
CHÚ Ý: Các phần tử lặp có thể ghi theo hàng hay theo cột cũng được.
78

ẢNH HƯỞNG CHÍNH (Main effect)


YẾU TỐ A (Factor A)
❖Cặp giả thuyết
➢ 𝐻0 : 𝜇1𝐴 = 𝜇2𝐴 = ⋯ = 𝜇a𝐴 ( Trung bình tổng thể của a nhóm đều giống nhau
➢ 𝐻1 : ∃𝑗 ≠ i với j, i = 1,2, … , a mà 𝜇i𝐴 ≠ 𝜇j𝐴 (tồn tại ít nhất một trung bình
tổng thể trong nhóm khác với các trung bình khác.
❖Thống kê kiểm định
MSA
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là a-1 và bậc tự do ở
mẫu là ab(r-1) sẽ được 𝐹 (a-1, ab(r-1)),
❖Qui tắc bác bỏ
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (a−1, ab(r−1))
79

ẢNH HƯỞNG CHÍNH (Main effect)


YẾU TỐ B (Factor B)
❖Cặp giả thuyết
➢ 𝐻0 : 𝜇1𝐵 = 𝜇2𝐵 = ⋯ = 𝜇b𝐵 (Trung bình tổng thể của b nhóm của yếu tố B
đều giống nhau)
➢ 𝐻1 : ∃𝑗 ≠ i với j, i = 1,2, … , b mà 𝜇i𝐵 ≠ 𝜇j𝐵 (Tồn tại ít nhất một trung bình
tổng thể trong nhóm khác với các trung bình khác.
❖Thống kê kiểm định
MSB
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là b-1 và bậc tự do
ở mẫu là ab(r-1) sẽ được 𝐹 (b-1, ab(r-1)).
❖Qui tắc bác bỏ
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (b−1, ab(r−1))
80

ẢNH HƯỞNG TƯƠNG TÁC


❖Cặp giả thuyết
➢ 𝐻0 : Biến phụ thuộc chịu ảnh hưởng tương tác không đáng kể của
hai yếu tố A và B
➢ 𝐻1 : Chịu ảnh hưởng tương tác của hai yếu tố A và B.
❖Thống kê kiểm định
MSI
➢𝐹 =
MSE
❖Xác định giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là (a-1)(b-1)
và bậc tự do ở mẫu là ab(r-1) sẽ được 𝐹 ((a-1)(b-1), ab(r-1)),
❖Quyết định bác bỏ giả thuyết 𝐻0 hay không
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 ((a−1)(b−1), ab(r−1))
81

❖Thủ tục ANOVA cho thực nghiệm yếu tố hai yếu tố tương tự như
thực nghiệm hoàn toàn ngẫu nhiên và thực nghiệm khối ngẫu
nhiên.
❖Chúng ta lại phân chia tổng bình phương (SST) thành các nguồn
của nó.
➢ SST= SSA + SSB + SSI + SSE
❖Tổng bậc tự do, 𝑛 − 1, được phân chia (𝑎 − 1) bậc tự do cho yếu tố
A, 𝑏 − 1 tự do cho yếu tố B, (𝑎 − 1)(𝑏 − 1) bậc tự do cho tương
tác, và 𝑎𝑏(m − 1) bậc tự do cho sai số.

Tổng bình
SST = SSA + SSB + SSI + SSE
phương
Bậc tự do n-1 = a-1 + b-1 + (a-1)(b-1) + ab(r-1)
82

❖𝑥𝑖𝑗𝑙 : quan sát tương ứng với thứ l lấy từ nhóm thứ i của yếu tố A và khối
thứ j của yếu tố B.
❖ 𝑥ҧ𝑖 . là trung bình mẫu cho các quan sát trong nhóm thứ i của yếu tố A
∑𝑏 𝑟
𝑗=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄𝑖. =
𝑏𝑟
❖ 𝑥ҧ.𝑗 là trung bình mẫu cho các quan sát trong khối j của yếu tố B
∑𝑎 𝑟
𝑖=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄.j =
𝑎𝑟
❖ 𝑥ҧ𝑖𝑗 là trung bình mẫu cho các quan sát của kết hợp trong nhóm thứ i của
yếu tố A với khối thứ j của yếu tố B.
∑𝑟𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄ij =
𝑟
❖ 𝑥ҧ là trung bình mẫu chung của tất cả n quan sát
∑𝑎 𝑏 𝑟
𝑖=1 ∑𝑗=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄ҧ =
𝑎𝑏𝑟
83

❖Tổng bình phương chung (Total sum of squares)


2
➢ SST = ∑𝑎𝑖=1 ∑𝑏𝑗=1 ∑𝑟𝑘=1 𝑥𝑖𝑗𝑘 − 𝑥᪄ҧ
❖Tổng bình phương cho yếu tố A (Sum of squares for factor A)
➢ SSA = 𝑏𝑟 ∑𝑎𝑖=1 𝑥᪄𝑖⋅ − 𝑥᪄ҧ 2
❖Tổng bình phương cho yếu tố A (Sum of squares for factor B)
2
➢ SSB = ar ∑𝑏𝑗=1 𝑥᪄⋅𝑗 − 𝑥᪄
❖Tổng bình phương cho phần tương tác giữa hai yếu tố A và B (Sum
of squares for Interaction)
2
➢ SSI = 𝑟 ∑𝑎𝑖=1 ∑𝑏𝑗=1 𝑥᪄𝑖𝑗 − 𝑥᪄𝑖⋅ − 𝑥᪄⋅𝑗 + 𝑥᪄ҧ
❖Tổng bình phương cho phần sai số (Sum of squares for error)
➢ SSE = SST - SSA - SSB - SSI
84

❖Bảng ANOVA

Source of Sum of Degrees of


Mean square F p-value
variation squares freedom
SSA MSA
Factor A SSA a-1 MSA =
𝑎−1 MSE
SSB MSB
Factor B SSB b-1 MSB =
𝑏−1 MSE
SSI MSI
Interaction SSI (a – 1)(b – 1) MSI =
(𝑎 − 1)(𝑏 − 1) MSE
SSE
Error SSE ab (r – 1) MSE =
𝑎𝑏(𝑟 − 1)
Total SST n-1
85

❖Ví dụ: Khảo sát tiền lương của công nhân ở khu công nghiệp
➢ Một cuộc khảo sát đã được tiến hành về mức lương theo tháng
(triệu đồng) giờ đối với mẫu công nhân trong hai ngành tại ba nhà
máy ở khu công nghiệp. Một phần mục đích của cuộc khảo sát là để
xác định xem có tồn tại sự khác biệt trong cả loại ngành và nhà
máy hay không. Dữ liệu mẫu được hiển thị trên bảng.
Ngành AA BB CC
12.10 11.80 12.90
I 11.80 11.20 12.70
12.10 12.00 12.20
12.40 12.60 13.00
II 12.50 12.00 12.10
12.00 12.50 12.70
86

❖Bước 1. Mở File:
Luongokhucongnghiep.sav.
❖Bước 2. Tại menu chính,
Analyze →General linear
model →Univariate →xuất
hiện hộp thoại Univariate.
❖Bước 3. Tại hộp thoại
Univariate, chuyển Luong vào
khoang Dependent variable và
chuyển nganh và nhamay vào
Fixed factor(s). Xem hình bên.
87

❖Bước 4. Tại hộp thoại Univariate,


Model →xuất hiện hộp thoại
Univariate Model. →Build
term→Main effect →chuyển
Nganh và nhamay vào Khoang
Model →Interaction →chuyển
Nganh *nhamay vào khoang Model
❖Bước 5. Chọn Type III từ danh sách
Sum of Squares→ Bỏ chọn Include
Intercep in model →Continue để
quay lại hộp thoại Univariate.
❖Bước 6. Tại hộp thoại Univariat,
OK →Xem kết quả.
88

❖Bảng ANOVA
Tests of Between-Subjects Effects
Dependent Variable: Luong
Type III Sum Mean
Source of Squares df Square F Sig.
Model 2705.567a 6 450.928 3775.209 .000
Nganh .500 1 .500 4.186 .063
Nhamay 1.121 2 .561 4.693 .031
Nganh * Nhamay .370 2 .185 1.549 .252
Error 1.433 12 .119
Total 2707.000 18
a. R Squared = .999 (Adjusted R Squared = .999)
89

❖Kết luận sử dụng tiếp cận giá trị tới hạn


➢Các ngành
✓ 𝐹 = 4.186 ≤ 𝐹𝛼 = 4.75
✓ Nhận xét: Tiền lương trung bình khác nhau không ý nghĩa theo
ngành.
➢Nhà máy
✓ 𝐹 = 4.693 ≥ 𝐹𝛼 = 3.89
✓ Nhận xét: tiền lương trung bình khác nhau có ý nghĩa theo nhà
máy.
➢Tương tác
✓ 𝐹 = 1.549 ≤ 𝐹𝛼 = 3.89
✓ Nhận xét: Tương tác ảnh hưởng không đáng kể.
90

❖Kết luận sử dụng tiếp cận p-value


➢Các ngành
✓ 𝑝−value = 0.063 > 𝛼 = 0.05
✓ Nhận xét: Tiền lương trung bình khác nhau không ý nghĩa theo
ngành.
➢Nhà máy
✓ 𝑝−value = 0.031 < 𝛼 = 0.05
✓ Nhận xét: Tiền lương trung bình khác nhau có ý nghĩa theo nhà
máy.
➢Tương tác
✓ 𝑝−value = 0.252 > 𝛼 = 0.05
✓ Nhận xét: Tương tác ảnh hưởng không đáng kể.

You might also like