Professional Documents
Culture Documents
Statistics For Business & Economics - Vi1
Statistics For Business & Economics - Vi1
Statistics For Business & Economics - Vi1
❖Marketing
➢Máy quét điểm bán hàng điện tử tại quầy thanh toán bán lẻ
được sử dụng để thu thập dữ liệu cho nhiều ứng dụng nghiên
cứu tiếp thị.
❖Sản xuất (Production)
➢Một loạt các biểu đồ kiểm soát chất lượng thống kê được sử
dụng để giám sát đầu ra của quy trình sản xuất.
❖Hệ thông thông tin (Information Systems)
➢Một loạt các thông tin thống kê giúp quản trị viên đánh giá hiệu
suất của mạng máy tính.
8
❖Thống kê là gì?
➢ Thống kê là khoa học liên quan đến việc phát triển và nghiên cứu các
phương pháp thu thập, phân tích, giải thích và trình bày dữ liệu.
➢ Thống kê là tập hợp các phương pháp thu thập, hiển thị, phân tích và
rút ra kết luận từ dữ liệu.
➢ Các phương pháp giúp chuyển đổi dữ liệu thành thông tin hữu ích cho
những người ra quyết định.
➢ Thống kê là một cách suy nghĩ có thể giúp nhà quản trị đưa ra quyết
định tốt hơn. Thống kê giúp giải quyết các vấn đề liên quan đến các
quyết định dựa trên dữ liệu đã được thu thập
❖Mục tiêu thống kê là trích xuất thông tin tối đa từ dữ liệu và trình bày
kết quả chính xác và hữu ích nhất càng tốt (*).
❖ Hai lĩnh vực của thống kê là thống kê mô tả và thống kê suy luận.
9
Chi phí 16
Tần suất
bộ phận Tần số 15
(%) 13
($)
50-59 2 4 10
7 7
60-69 13 26 5
5
70-79 16 32 2
80-89 7 14 0
90-99 7 14
100-109 5 10 -5
50-59 60-69 70-79 80-89 90-99 100-109
Frequency 2 13 16 7 7 5
TOÀN BỘ 50 100
Chi phí bộ phận($)
12
❖Dữ liệu (Data) là các sự kiện và số liệu được thu thập, phân tích
và t m tat để trình bày và giải thích.
❖Phan tử/đơn vị/yếu tố (Elements) là các thực thể mà từ đó dữ
liệu được thu thập.
❖Biến/tiêu thức (Variables): đặc tính quan tâm về các phan tử,
gom biến định lượng và biến định tính. Biến định lượng gom c
biến rời rạc và biến liên tục. Trong phân tích can phân biệt hai
loại biến này vì n đòi hỏi những phương pháp phân tích khác
nhau.
❖Quan sát (Observation) là tập hợp các giá trị của các biến thu
được về phan tử cụ thể.
❖Tập dữ liệu (Data set) là tất cả các dữ liệu được thu thập trong
một nghiên cứu cụ thể . Tập dữ liệu có n phan tử chứa n quan
sát.
14
❖Hệ thống chỉ tiêu thống kê là tập hợp những chỉ tiêu thống kê phản
ánh tình hình kinh tế- xã hội chủ yếu của đất nước để phục vụ các cơ
quan, lãnh đạo Đảng và Nhà nước các cấp trong việc đánh giá, dự báo
tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát
triển kinh tế do cơ quan nhà nước có thẩm quyền ban hành.
❖Hiện nay, thống kê Việt Nam có nhiều hệ thống chỉ tiêu thống kê khác
nhau.
❖Theo cấp quản lý, hệ thống chỉ tiêu thống kê Việt Nam gồm có các hệ
thống sau:
➢ Hệ thống chỉ tiêu thống kê quốc gia
➢ Hệ thống chi tiêu thống kê cấp tỉnh
➢ Hệ thống chỉ tiêu thống kê cấp huyện
➢ Hệ thống chỉ tiêu thống kê cấp xã
❖https://www.gso.gov.vn/phuong-phap-luan-thong-ke/he-thong-chi-
tieu-thong-ke/
16
Data set
18
❖Thang đo tỉ lệ (Ratio)
➢Dữ liệu có tất cả các thuộc tính của dữ liệu khoảng và tỷ lệ của
hai giá trị có ý nghĩa.
➢Dữ liệu tỷ lệ luôn là số.
➢Bao gồm giá trị 0 “thật”.
➢Đối với loại thang đo này, thực hiện được phép đếm và các phép
tính số học, như cộng, trừ, nhân, chia...
❖Ví dụ:
➢Giá của một cuốn sách tại cửa hàng bán lẻ là 200 ngàn đồng,
trong khi giá của cùng một cuốn sách được bán trực tuyến là
100 ngàn đồng. Thuộc tính tỷ lệ cho thấy các cửa hàng bán lẻ
tính giá gấp đôi so với giá trực tuyến.
23
Định danh
Số
Thứ bậc
Định tính
Định danh
Không phải số
Dữ liệu Thứ bậc
Khoảng
Định lượng Số
Tỷ lệ
24
❖Căn cứ vào đặc trưng biểu hiện , dữ liệu gồm dữ liệu phân loại
và dữ liệu định lượng.
❖Dữ liệu phân loại hay còn gọi là dữ liệu định tính là loại dữ liệu
không phải dạng số, dùng để mô tả thuộc tính dạng văn bản.
➢Nhãn hoặc tên được sử dụng để xác định một thuộc tính của
mỗi phần tử
➢Sử dụng thang đo định danh hoặc thứ bậc
➢Có thể là số hoặc không phải số
➢Các phân tích thống kê phù hợp còn khá hạn chế.
25
❖Dữ liệu định lượng là dữ liệu theo dạng số và dùng các thang đo
khoảng và thang đo tỷ lệ.
➢Dữ liệu định lượng cho biết bao nhiêu.
➢Dữ liệu định lượng luôn ở dạng số.
➢Các phép toán số học thông thường có ý nghĩa đối với dữ liệu
định lượng.
➢Dữ liệu định lượng gồm dữ liệu rời rạc và dữ liệu liên tục.
❖Mỗi loại dữ liệu có các phương pháp phân tích thống kê phù
hợp với từng loại dữ liệu phân loại hay định lượng.
❖Nói chung, có nhiều lựa chọn thay thế hơn cho phân tích thống
kê khi dữ liệu là định lượng.
26
❖Dữ liệu chuỗi thời gian bao gồm dãy các Lao động từ Tỷ lệ thất
quan sát về một hoặc một số biến theo 15 tuổi trở nghiệp của
thời gian (thời kỳ hay thời điểm). lên đang làm lực lượng lao
việc hàng động trong độ
❖Khi xử lý dữ liệu chuỗi thời gian, chúng Năm năm (Người) tuổi (%)
ta sẽ biểu thị chỉ số dưới cho các quan 2010 49124.4 2.91
sát bằng t (ví dụ: Yt , X t ). 2011 50547.2 2.22
❖Ví dụ 2012 51690.5 1.95
2013 52507.8 2.17
➢ Dữ liệu về Lao động từ 15 tuổi trở lên
2014 53030.6 2.1
đang làm việc hàng năm, Tỷ lệ thất
2015 53110.5 2.34
nghiệp của lực lượng lao động trong độ 2016 53345.5 2.29
tuổi qua các năm ở Việt Nam 2017 53708.6 2.22
2018 54282.5 2.19
2019 54659.2 2.17
2020 53609.6 2.48
28
❖Trong dữ liệu gộp hoặc kết hợp, dữ liệu gồm cả yếu tố thời gian
và đơn vị. Đối với mỗi năm, chúng ta có dữ liệu nhiều đơn vị.
❖Ví dụ: Dữ liệu sau về dân số của cả hai giới bao gồm yếu tố thời
gian là 2 năm và yếu tố đơn vị (chéo) là các quận/huyện ở Đà
Nẵng.
2009 2019
Quận /huyện Nam Nữ Nam Nữ
Liên Chiểu 63734 64619 99 552 95 361
Thanh Khê 85230 89327 90 404 94 660
Hải Châu 91234 98327 96 557 104 965
Sơn Trà 62402 65280 77 848 79 567
Ngũ Hành Sơn 30625 32442 43 906 46 446
Cẩm Lệ 43066 44625 78 589 80 706
Hòa Vang 57817 58707 72 126 73 623
29
❖Dữ liệu bảng là dạng dữ liệu thu thập từ nhiều đơn vị hoặc cá
nhân trong một khoảng thời gian dài. Đây là một loại dữ liệu
tổng hợp đặc biệt trong đó cùng một hay nhiều đơn vị được
khảo sát theo thời gian.
❖Các quan sát dữ liệu bảng sẽ được ký hiệu bằng chỉ số dưới kép
(ví dụ: Yit , Xit ).
❖Ví dụ: Chỉ số sản xuất công nghiệp tại một số địa phương ở Việt
Nam qua các năm (%).
Địa phương 2012 2013 2014 2015 2016 2017 2018 2019 2020
Hà Nội 105 104.5 104.2 108.3 107.3 107 106.9 108.5 104.7
Vĩnh Phúc 97 114 97.1 101.6 105.8 107.5 114.5 111.1 99.4
Bắc Ninh 175 149.2 87.5 112 105.1 135.5 107.4 88.6 103.9
… … … … … … … … … …
Nam Ðịnh 116.4 116.1 110.6 110.3 108.8 109 111 113.8 106.6
Ninh Bình 111.6 111.4 117.4 112.3 101.9 118.6 131.1 126.5 105.6
30
30
❖ Nguồn hiện có
➢ Hồ sơ nội bộ công ty – hầu như bất kỳ bộ phận nào
➢ Dịch vụ cơ sở dữ liệu kinh doanh – Dow Jones & Co.
➢ Cơ quan chính phủ – Tổng cục Thống kê Việt Nam
➢ Hiệp hội ngành – Hiệp hội du lịch Việt Nam
❖ Nguồn từ Internet
➢ https://www.gso.gov.vn/Default.aspx?tabid=706&ItemID=13412
➢ https://www.thearda.com/data-archive/browse-categories
➢ https://www.philippe-fournier-
viger.com/spmf/index.php?link=datasets.php
http://thongke.tourism.vn/
➢ https://stats.oecd.org/#
➢ https://data.worldbank.org/
➢ https://www.kaggle.com/datasets
➢ https://github.com/jbrownlee/Datasets
➢ https://dasl.datadescription.com/datafiles/
31
❖Trong một nghiên cứu thống kê, hành vi phi đạo đức có thể có
nhiều hình thức bao gồm:
➢Lấy mẫu không đúng cách
➢Phân tích dữ liệu không phù hợp
➢Xây dựng các đồ thị sai lệch
➢Sử dụng số liệu thống kê tóm tắt không phù hợp
➢Giải thích sai lệch các kết quả thống kê
❖Nên cố gắng công bằng, thấu đáo, khách quan và trung lập khi
thu thập, phân tích và trình bày dữ liệu.
❖Là người sử dụng số liệu thống kê, cũng nên nhận thức được
khả năng hành vi phi đạo đức của người khác.
36
❖Hiệp hội Thống kê Hoa Kỳ đã phát triển báo cáo “Hướng dẫn
đạo đức cho thực hành thống kê”
❖Nó chứa 67 hướng dẫn được tổ chức thành 8 lĩnh vực chủ đề:
➢Tính chuyên nghiệp
➢Trách nhiệm đối với nhà tài trợ, khách hàng, người sử dụng lao
động
➢Trách nhiệm trong các ấn phẩm và lời khai
➢Trách nhiệm đối tượng nghiên cứu
➢Trách nhiệm đối với các đồng nghiệp trong nhóm nghiên cứu
➢Trách nhiệm đối với các nhà thống kê/người hành nghề khác
➢Trách nhiệm liên quan đến các cáo buộc về hành vi sai trái
➢Trách nhiệm của người sử dụng lao động bao gồm tổ chức, cá
nhân, luật sư hoặc khách hàng khác
37
❖Điều 66 Luật Thống kê 2015 của Việt Nam quy định rõ:
➢1. Người làm công tác thống kê phải có các tiêu chuan sau đây:
✓ Có pham chất đạo đức tốt, trung thực, khách quan, có ý thức chấp
hành pháp luật;
✓ Có tr nh độ chuyên môn, nghiệp vụ thống kê.
➢2. Người làm công tác thống kê độc lập về chuyên môn, nghiệp
vụ trong hoạt động thống kê.
➢ 3. Người làm công tác thống kê phải tuân thủ các quy định của
pháp luật về tho� ng kê, thực hiện và chịu trách nhiệm về công
việc được phân công.
❖https://vanban.chinhphu.vn/default.aspx?pageid=27160&doci
d=183199
38
❖Sự ra đời của máy tính chắc chắn đã cách mạng hóa việc thực hành
thống kê (Speed, 1985).
❖Rõ ràng là cả lý thuyết và thực hành thống kê đang được cách mạng
hóa bởi máy tính và kết quả là những thay đổi căn bản đang diễn ra
trong việc giảng dạy thống kê (Lunn. 1985).
❖Có hai cách khác nhau để máy tính thay đổi lĩnh vực thống kê:
➢ Đầu tiên, máy tính có thể giúp chúng ta làm những gì chúng ta đã làm
trước khi máy tính ra đời nhưng theo một cách hiệu quả hơn.
➢ Thứ hai, máy tính có thể giúp chúng ta làm những việc mà trước khi
máy tính ra đời không ai nghĩ tới, các phương pháp sử dụng máy tính
khác nhau.
❖Mối quan hệ chặt chẽ giữa thống kê và máy tính ngụ ý rằng khi cái này
thay đổi thì cái kia cũng sẽ thay đổi.
❖https://www.youtube.com/watch?v=vgvilqizv_A&t=34s
39
❖Một trong những phương pháp được sử dụng khá phổ biến
trong thống kê, đó chính là phương pháp phân tổ hay còn gọi là
phân nhóm dữ liệu.
❖Phân tổ là căn cứ vào một hay một số biến /tiêu thức nào đó để
tiến hành phân chia các đơn vị thành các tổ hoặc các tiểu tổ có
tính chất khác nhau. Hay nói cách khác, phân tổ dữ liệu là quá
trình tổ chức dữ liệu thành các tổ hay còn được gọi là các lớp.
❖Phân tổ là một phương pháp khá phổ biến và có ý nghĩa rất lớn
trong phân tích dữ liệu, cụ thể:
➢Là phương pháp cơ bản để tổng hợp dữ liệu.
➢Còn là phương pháp quan trọng để phân tích dữ liệu.
7
✓ Trường hợp phức tạp: Khi biến phân loại có nhiều loại và vì thế
cần ghép nhiều loại thành một tổ. Việc ghép này phải dựa vào lý
luận phức tạp mà thường do các cơ quan quản lý ghép trước như
danh mục sản phẩm, bảng phân ngành…
o Ví dụ 1: Danh mục ngành nghề kinh doanh (Ban hành kèm
theo Quyết định số 27/2018/QĐ-TTg ngày 06 tháng 7 năm
2018 của Thủ tướng Chính phủ). Danh mục này gồm 5 cấp:
* Ngành cấp 1 gồm 21 ngành được mã hóa theo bảng chữ cái
lần lượt từ A đến U;
9
* Ngành cấp 2 gồm 88 ngành; mỗi ngành được mã hóa bằng hai
số theo ngành cấp 1 tương ứng;
* Ngành cấp 3 gồm 242 ngành; mỗi ngành được mã hóa bằng
ba số theo ngành cấp 2 tương ứng;
* Ngành cấp 4 gồm 486 ngành; mỗi ngành được mã hóa bằng
bốn số theo ngành cấp 3 tương ứng;
* Ngành cấp 5 gồm 734 ngành; mỗi ngành được mã hóa bằng
năm số theo ngành cấp 4 tương ứng.
Cấp 1 Cấp 2 Cấp 3 Cấp 4 Cấp 5 Tên ngành
A NÔNG NGHIỆP, LÂM NGHIỆP VÀ THUỶ SẢN
01 Nông nghiệp và hoạt động dịch vụ có liên quan
011 Trồng cây hàng năm
0111 01110 Trồng lúa
… … … … … …
10
✓ Trường hợp phức tạp: Khi lượng biến của biến định lượng biến
thiên nhiều và cần ghép nhiều lượng biến thành một tổ.
o Bước 1: Xác định giá trị dữ liệu lớn nhất và nhỏ nhất trong tập
dữ liệu.
o Bước 2: Xác định số nhóm/tổ/lớp (Bin): Sử dụng công thức quy
tắc Sturges để xác định số lớp tối ưu:
* Số tổ tối ưu= ⌈log2n + 1⌉
o Trong đó:
* n: Tổng số quan sát trong tập dữ liệu.
* ⌈ ⌉: Ký hiệu có nghĩa làm tròn lên đến số nguyên gần nhất.
* Ngoài ra, còn có các lựa chọn thay thế cho Quy tắc của Sturges
* Quy tắc căn bậc hai: Số tổ= ⌈√n⌉
* Quy tắc Rice: Số tổ = ⌈2 * 3√n⌉
13
BÀI TOÁN
➢Có dữ liệu về thời gian hoàn thành một sản phẩm (phút) của 60
công nhân.
20.8 22.8 21.9 22.0 21.7 20.9 25.5 22.2 22.8 20.1 20.2 22.9
26.0 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5 22.9 22.5
23.7 20.3 22.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8 21.1 24.6
21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9 23.9 23.1
19.7 24.2 22.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7 24.9 19.8
➢Hãy tiến hành phân tổ công nhân thành các 6 tổ khác nhau.
15
LỜI GIẢI
❖Bước 1: Giá trị cao nhất = 26; giá trị thấp nhất =19.
❖Bước 2: Xác định số tổ = ⌈log 2 𝑛+ 1⌉= ⌈log 2 60+ 1⌉= ⌈5.906891+
1⌉ 7
❖Bước 3: Xác định khoảng cách tổ Thời gian chi phí Tần số
❖Bước 6. Tại hộp thoại Visual Binning, nhập tên (Name) cho biến
mới vào ô Binned Variable: PhantoThoigian và nhãn của nó vào
ô lables: “Phân tổ thời gian cần thiết để hoàn thành một sản
phẩm (phút)” như hình sau.
20
❖Bước 10. OK. Kết quả tạo nên biến mới Phantothoigian
trong File dữ liệu.
23
❖Đầu ra
PhantoThoigian
Valid Cumulative
Frequency Percent Percent Percent
Valid < 20.00 7 11.7 11.7 11.7
20.00 - 21.00 9 15.0 15.0 26.7
21.00 - 22.00 10 16.7 16.7 43.3
22.00 - 23.00 12 20.0 20.0 63.3
23.00 - 24.00 10 16.7 16.7 80.0
24.00 - 25.00 9 15.0 15.0 95.0
25.00+ 3 5.0 5.0 100.0
Total 60 100.0 100.0
26
❖Sau khi phân tổ, các đơn vị được phân phối vào các tổ hình
thành nên dãy số phân phối/phân phối tần số.
❖Phân phối ta� n so� là một thuật ngữ trong thống kê để chỉ sự phân
bố của các giá trị trong một tập dữ liệu. Nó mô tả cách các giá trị
được phân bố trong tập dữ liệu và cung cấp thông tin về tần so�
xuất hiện của các giá trị khác nhau.
❖Ý nghĩa
➢Phân phối ta� n so� giúp nghiên cứu tình hình phân phối các đơn
vị trong tổng thể, tính các chỉ tiêu phản ảnh kết cấu của tổng thể
và sự biến động kết cấu đó.
➢ Còn là cơ sở để tính các chỉ tiêu phân tích thống kê khác, xác
định các xu hướng biến động của hiện tượng.
27
❖Nếu căn cứ và đặc điểm của biến phân tổ, dãy số gồm dãy số
thuộc tính và dãy số lượng biến.
➢Dãy số thuộc tính: Kết quả của phân tổ theo biến phân loại, như
giới tính, học lực, địa phương, thành phần kinh tế, ngành.
✓ Ví dụ: Phân loại sinh viên của lớp học theo trình độ học lực
Học lực Số sinh viên
Xuất sắc 5
Giỏi 16
Khá 20
Trung bình 10
29
➢Dãy số lượng biến: Kết quả của phân tổ theo biến định lượng,
như bậc thợ, tuổi, thu nhập, điểm, vốn, lợi nhuận, GDP, dân số,...
✓ Trong dãy số lượng biến, có thể không hay có khoảng cách tổ.
CHÚ Ý: Trong dãy số, tần số có thể được chia thành nhiều loại:
➢Tần số tuyệt đối (absolute frequency)
➢Tần số tương đối (Relative frequency), có thể biểu thị dạng số
lần hay %
➢Tần số tích lũy (Cumulative frequency), có thể tích lũy tiến hay
tích lũy lùi.
31
Phân phối tần số tích lũy (Cumulative frequency): Các tần số được
tích lũy tăng dần hay giảm dần.
Tần số
Các giá trị tuyệt đối Tần suất Tần suất
hoặc khoảng (absolute (relative Tần số tích lũy tích lũy
cách tổ frequency) frequency) (Cumulative (Cumulative
(xi) (fi) (di) frequency) Percent)
𝑥1 𝑓1 𝑑1 = 𝑓1/𝑓𝑖 𝑓1 𝑑1
𝑥2 𝑓2 𝑑2 = 𝑓2/𝑓𝑖 𝑓1 + 𝑓2 𝑑1 + 𝑑2
𝑥𝑛 𝑓𝑛 𝑑𝑛 = 𝑓𝑛/𝑓𝑖 𝒇𝟏 + ⋯ + 𝑓𝑛 𝑑1 + ⋯ + 𝑑𝑛
33
Dân số Mật độ
Diện tích
trung bình dân số
(Km2)
(Nghìn người) (Người/km2)
A (1) (2) (3)=(2)/(1)
Thừa Thiên - Huế 4902,5 1154,3 235
Đà Nẵng 1284,9 1064,1 828
Quảng Nam 10574,7 1493,8 141
Quảng Ngãi 5152,5 1263,7 245
Bình Định 6066,2 1529,0 252
38
❖Trong thực tiễn phân tích và trực quan dữ liệu, chúng ta còn có
nhu cầu tóm tắt mối liên hệ từ hai biến trở lên. Khi đó, chúng ta
nên sử dụng bảng chéo.
❖Bảng chéo (Crosstabulation) là một phương pháp được sử dụng để
phân tích mối quan hệ giữa hai hoặc nhiều biến và trong đó sử
dụng tần số tuyệt đối hoặc tần số phần trăm để trình bày mức độ
phụ thuộc giữa các biến số.
❖Crosstabulation có thể được sử dụng khi
➢ Một biến là phân loại và biến kia là định lượng,
➢ Cả hai biến là phân loại
➢ Cả hai biến đều là định lượng.
❖Các nhãn lề trái và trên cùng xác định các lớp cho hai biến.
40
❖Ví dụ: mô tả mối quan hệ giữa số lượng nhà bán và kiểu nhà
➢ Số lượng nhà ở một địa phương được bán theo mỗi kiểu nhà và giá
trong hai năm qua như sau:
Kiểu nhà
Total
Giá nhà (USD) A B C D
<250,000 18 6 19 12 55
250,000+ 12 14 16 3 45
Total 30 20 35 15 100
❖Nhận xét
➢ Số lượng nhà nhiều nhất (19) với mẫu là C và có giá dưới 250000
USD.
➢ Chỉ có 3 ngôi nhà với mẫu là kiểu D và có giá từ 250000 USD trở lên.
43
❖Bảng chéo giúp cho quá trình phân tích và tổ chức dữ liệu trở
nên đơn giản và hiệu quả hơn theo các cách sau:
➢Dữ liệu có giá trị được đặt lên hàng đầu
✓ Xác định những điểm có giá trị nhất giữa một biển dữ liệu là cần
thiết cho quá trình phân tích. Thông qua công cụ này, dữ liệu có
giá trị được đặt lên hàng đầu, giúp xác định thông tin đáng tin cậy
hỗ trợ các quyết định chiến lược.
➢The� hiện được những hiểu biết sâu sắc về dữ liệu quan trọng
✓ Mục đích của việc thu thập và phân tích dữ liệu là để bắt đầu quá
trình ra quyết định chiến lược, cho phép doanh nghiệp đạt được
mục tiêu, tạo ra giá trị và giảm thiểu rủi ro. Việc lập bảng chéo
trong nghiên cứu giúp khám phá những hiểu biết sâu sắc về dữ
liệu này, giúp đạt được tiềm năng tốt nhất của mình.
44
40.00= (12/30)*100
47
❖Chỉ nhằm mô tả như những kết quả như trên thì sử dụng thủ tục
Tables
❖Bước 1. Từ menu chính, Analyze →Customs Tables… →xuất
hiện hộp thoại Customs Tables
❖Bước 2. Tại hộp thoại Customs Tables, hãy chuyển những biến vào
những khoang Rows và Columns thích hợp
❖Bước 3. Hãy tùy chọn những % hàng hay cột thích hợp.
Kieunha
A B C D Total
<250.000 32.7% 10.9% 34.5% 21.8% 100.0%
Gianha
250.000+ 26.7% 31.1% 35.6% 6.7% 100.0%
48
❖Biểu đồ thanh, còn được gọi là biểu đồ cột, là một loại biểu đồ mà
dữ liệu được biểu dien dưới dạng các cột. Moi cột thể hiện giá trị
của một biến. Biểu đồ thanh thường được sử dụng để so sánh giá
trị giữa các nhóm hoặc theo thời gian.
❖Có thể sử dụng tần số, tần suất cho trục kia (thường là trục tung).
❖Sử dụng một thanh có chiều rộng cố định được vẽ phía trên moi
nhãn lớp/to� , chúng ta thay đo� i chiều cao một cách thích hợp.
➢ Các thanh được tách ra để nhấn mạnh thực tế rang moi lớp là một
danh mục riêng biệt.
55
BÀI TOÁN
❖Trực quan dữ liệu về trình độ
học lực sinh viên một lớp học Số sinh viên
25
với dữ liệu như bảng sau 20
20
Xuất sắc 5 10
10
Giỏi 16 5
5
Khá 20
0
Trung bình 10 Xuất sắc Giỏi Khá Trung bình
56
❖Biểu đồ hình tròn biểu diễn dữ liệu dưới dạng các phần tương ứng
với tỷ lệ phần trăm của các giá trị khác nhau trong toàn thể.
❖Biểu đồ hình tròn bánh thường có hình dạng giống như một cái
bánh được chia thành các phần, với mỗi phần biểu thị một phần
trăm cụ thể của toàn thể.
❖Biểu đồ dùng để biểu diễn kết cấu của một hiện tượng theo biến
định tính, như kết cấu của lớp học theo trình độ học lực, giới
tính,…, kết cấu lực lượng lao động của doanh nghiệp, địa phương…
❖Tuy nhiên, cần lưu ý rằng biểu đồ hình bánh có thể gây khó khăn
trong việc so sánh kích thước chính xác của các phần nếu số loại
quá nhiều hoặc tỷ lệ giữa các phần khá gần nhau.
57
❖Một trong những tóm tắt dữ liệu bằng đồ họa đơn giản nhất là
biểu đồ điểm.
❖Trục ngang hiển thị phạm vi giá trị dữ liệu.
❖Sau đó, mỗi giá trị dữ liệu được biểu thị bằng một điểm đặt phía
trên trục.
14 80-89 7
12
90-99 7
10
8
100-109 5
6
0
50-59 60-69 70-79 80-89 90-99 100-109
60
15
10
0
50-60 60-70 70-80 80-90 90-100 100-110
CHÚ Ý: Không giống như biểu đồ thanh, biểu đồ tần suất không
có sự phân tách tự nhiên giữa các hình chữ nhật của các tổ/lớp
liền kề.
63
đuôi phải.
5
0
15
0
50-60 60-70 70-80 80-90 90-100 100-110
15
0
50-60 60-70 70-80 80-90 90-100 100-110
65
❖Phân phối tần số tích lũy: hiển thị số mục có giá trị nhỏ hơn hoặc bằng
giới hạn trên của mỗi loại.
❖Phân phối tần suất tích lũy: hiển thị tỷ lệ các mục có giá trị nhỏ hơn
hoặc bằng giới hạn trên của mỗi loại.
❖Phân phối tần suất phần trăm tích lũy: hiển thị tỷ lệ phần trăm của
các mục có giá trị nhỏ hơn hoặc bằng giới hạn trên của mỗi mục tổ.
Cost Cumulative Cumulative Cumulative
(USD) Frequency Frequency Relative Frequency Percent Frequency
50-59 2 2 .04 4
60-69 13 15 = 2+13 .30 = 15/50 30 = .30(100)
70-79 16 31 .62 62
80-89 7 38 .76 76
90-99 7 45 .90 90
100-109 5 50 1.00 100
66
❖Nếu chúng ta cho rằng màn hình gốc Chiphi (USD) Stem-and-Leaf Plot
và lá ban đầu đã cô đọng dữ liệu quá
nhiều, thì chúng ta có thể kéo dài màn Frequency Stem & Leaf
1.00 5. 2
hình theo chiều dọc bằng cách sử dụng 1.00 5. 7
hai thân cho mỗi (các) chữ số ở đầu. 4.00 6 . 2222
❖Bất cứ khi nào giá trị gốc được nêu hai 9.00 6 . 567888999
lần, giá trị đầu tiên tương ứng với giá 7.00 7 . 1122344
9.00 7 . 555678999
trị lá từ 0 đến 4 và giá trị thứ hai 4.00 8 . 0023
tương ứng với giá trị lá từ 5 đến 9. 3.00 8 . 589
2.00 9 . 13
5.00 9 . 77789
2.00 10 . 14
3.00 10 . 559
Stem width: 10
Each leaf: 1 case(s)
68
❖Biểu đồ phân tán là một biểu đồ về mối quan hệ giữa hai biến
định lượng.
❖Một biến được hiển thị trên trục hoành và biến còn lại được
hiển thị trên trục tung.
❖Mô hình chung của các điểm được vẽ cho thấy mối quan hệ tổng
thể giữa các biến.
❖Một đường xu hướng cung cấp một xấp xỉ của mối quan hệ.
71
40
❖Mối quan hệ dương 35
30
(A Positive Relationship) 25
20
15
10
5
0
1 6 11 16
❖Mối quan hệ âm
(A Negative Relationship)
40
30
20
10
0
1 6 11 16
2.5
2
1 6 11 16
72
BÀI TOÁN
Chi tiêu Thu nhập
❖Có tài liệu về thu nhập và chi tiêu hằng 1908 2074
tuần của các hộ gia đình như sau (ngàn 1913 2069
đồng). 1891 2056
1960 2106
❖ Hãy mô tả mối quan hệ giữa thu nhập
1974 2108
và chi tiêu của các hộ gia đình. 1981 2135
2040 2194
2092 2241
2173 2351
2273 2464
2353 2561
2390 2629
2482 2712
2541 2760
2549 2820
73
LỜI GIẢI
❖Dựa vào đồ thị, chúng ta có một số 2600
y = 0.8653x + 132.82
nhận xét sau: 2500
<250.000 250.000+
75
❖Biểu đồ thanh xếp chồng lên nhau là một cách khác để hiển thị
và so sánh hai biến trên cùng một màn hình.
❖Nó là một biểu đồ thanh trong đó mỗi thanh được chia thành
các đoạn hình chữ nhật có màu khác nhau.
40
35
30
25
16
12
20
15
14 3
10
18 19
5 12
6
0
A B C D
<250.000 250.000+
76
❖Nếu tần số phần trăm được hiển thị, tất cả các thanh sẽ có cùng
chiều cao (hoặc chiều dài), kéo dài đến mốc 100% .
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
A B C D
<250.000 250.000+
78
❖Số tuyệt đối là đại lượng đo lường qui mô, khối lượng của các
hiện tượng kinh tế xã hội trong điều kiện thời gian và không
gian nhất định.
➢Ví dụ: lợi nhuận, doanh thu, số lao động, số vốn của các doanh
nghiệp, giá trị sản xuất, tổng sản phẩm quốc nội GDP của nền
kinh tế…
❖Các loại số tuyệt đối
➢Số tuyệt đối thời kỳ: phản ảnh qui mô, khối lượng của hiện
tượng kinh tế xã hội trong từng khoảng thời gian nhất định.
✓ Ví dụ: Doanh thu, lợi nhuận…
➢Số tuyệt đối thời điểm: phản ảnh qui mô, khối lượng của hiện
tượng kinh tế xã hội tại một thời điểm nhất định.
✓ Ví dụ: Vốn, lao động, hàng tồn kho, giá cả…
81
❖Số tương đối là đại lượng biểu hiện quan hệ so sánh giữa 2 mức
độ của các hiện tượng kinh tế xã hội trong điều kiện thời gian và
không gian nhất định.
❖Có hai trường hợp so sánh
➢ Trường hợp 1: So sánh 2 mức độ của 1 hiện tượng kinh tế xã
hội nhưng khác nhau về thời gian hoặc không gian;
➢Trường hợp 2: So sánh 2 mức độ của 2 hiện tượng kinh tế xã
hội khác nhau nhưng có liên quan với nhau.
❖Các loại số tương đối
➢Số tương đối động thái; số tương đối kế hoạch; số tương đối kết
cấu; số tương đối không gian; số tương đối cường độ.
82
❖Số tương đối động thái phản ảnh biến động của hiện tượng kinh
tế xã hội qua thời gian bằng cách so sánh mức độ kỳ nghiên cứu
với mức độ kỳ gốc.
➢Tốc độ tăng, tốc độ phát triển…
❖Ví dụ: Số doanh nghiệp đang hoạt động tại thời điểm 31/12
hàng năm phân theo ngành kinh tế
❖Số tương đối kế hoạch là đại lượng được dùng để xây dựng và
kiểm tra tình hình thực hiện kế hoạch
➢Số tương đối nhiệm vụ kế hoạch và số tương đối hoàn thành kế
hoạch.
❖Ví dụ: Tình hình tuyển sinh tại một trường đại học qua các năm
Năm Năm 2019 Nhiệm vụ kế Hoàn thành kế
Ngành
2018 Kế hoạch Thực hiện hoạch 2019 hoạch 2019
(A) (1) (2) (3) (4)=(2)/(1) (5)=(3)/(2)
Kế toán 300 320 330 107 103
Thống kê 45 50 55 111 110
Quản trị kinh doanh 340 350 360 103 103
Marketing 190 200 210 105 105
Chung 875 920 955 105 104
84
❖Số tương đối kết cấu phản ảnh tỷ trọng của các bộ phận chiếm
trong tổng thể bằng cách so sánh mức độ của từng bộ phận so
với mức độ của tổng thể, thường gọi là tỷ trọng
❖Ví dụ: Tỷ trọng sản lượng lúa của VN theo vụ qua các năm
Tổng số Trong đó Tỷ trọng (%)
Năm (1000 Đông Hè thu và Đông Hè thu và
Mùa Mùa
tấn) xuân thu đông xuân thu đông
2012 43737,8 20291,9 13958,0 9487,9 46 32 22
2013 44039,1 20069,7 14623,4 9346,0 46 33 21
2014 44974,6 20850,5 14479,2 9644,9 46 32 21
2015 45091,0 21091,7 15341,3 8658,0 47 34 19
2016 43165,1 19646,6 15232,1 8286,4 46 35 19
2017 42738,9 19415,8 15461,2 7861,9 45 36 18
85
❖Phản ảnh quan hệ so sánh giữa 2 bộ phận trong một tổng thể
hoặc giữa 2 mức độ của cùng một hiện tượng nhưng khác nhau
về điều kiện không gian.
❖Ví dụ: Tỷ số giới tính của các vùng 1/4 năm 2019
Trong đó Tỷ số
Vùng kinh tế - xã hội Tổng số giới tính
Nam Nữ
(%)
Trung du và miền núi phía Bắc 12532866 6293578 6239288 101
Đồng bằng sông Hồng 22543607 11174278 11369329 98
Bắc Trung Bộ và Duyên hải
miền Trung 20187293 10055458 10131835 99
Tây Nguyên 5842681 2946573 2896108 102
Đông Nam Bộ 17828907 8816471 9012436 98
Đồng bằng sông Cửu Long 17273630 8594703 8678927 99
TOÀN QUỐC 96208984 47881061 48327923 99
86
❖Phản ảnh quan hệ so sánh giữa 2 mức độ của hai hiện tượng
khác nhau nhưng có mối quan hệ với nhau.
➢Một số chỉ tiêu: Mật độ dân số, mức trang bị vốn cho lao động,
tỷ suất sinh, tỷ suất chết, mật độ doanh nghiệp…
➢Ví dụ: Mật độ dân số các vùng năm 2018
Diện tích Dân số trung bình Mật độ dân số
Vùng
(Km2) (Nghìn người) (Người/km2)
Đồng bằng sông Hồng 21260 21566.4 1014
Trung du và miền núi phía Bắc 95222.2 12292.7 129
Bắc Trung Bộ và Duyên hải
95876 20056.9 209
miền Trung
CẢ NƯỚC 331235.7 94666 286
87
❖Phải xét đến đặc điểm của hiện tượng nghiên cứu
➢ Các hiện tượng kinh tế xã hội tồn tại và phát triển gắn liền điều
kiện thời gian và không gian nhất định. Điều này dẫn đến có nhiều
hiện tượng cùng biểu hiện về lượng nhưng ý nghĩa hoàn toàn khác
nhau. Ngược lại có nhiều hiện tượng cùng một tính chất nhưng
biểu hiện về lượng khác nhau.
❖Phải vận dụng kết hợp số tương đối và số tuyệt đối: chỉ có như thế
mới phản ảnh đầy đủ, chính xác đặc điểm của hiện tượng.
➢ Số tương đối là kết quả so sánh của 2 số tuyệt đối đã có từ trước và
tùy theo mục đích nghiên cứu mà gốc so sánh được chọn khác
nhau. Nên kết quả tính toán và ý nghĩa của nó cũng rất khác nhau.
Có khi số tương đối tính ra rất lớn nhưng ý nghĩa không đáng kể vì
số tuyệt đối tương ứng quá bé ngược lại có khi số tương đối tính ra
rất nhỏ nhưng có ý nghĩa quan trọng vì số tuyệt đối tương ứng có
qui mô đáng kể.
89
❖Nhằm đo lường vị tr của tài liệu hay độ tập trung của tài liệu, thống kê
dùng nhiều chỉ tiêu khác nhau, như số bình quân cộng, số bình quân điều
hòa, số bình quân nhân, số Mốt, số Trung vị, phân vị p, tứ phân vị.
❖Nhóm chỉ tiêu này được sử dụng rộng rãi trong các trường hợp sau:
➢ Để nêu lên mặt lượng điển hình của cả hiện tượng số lớn;
➢ Để so sánh giữa các hiện tượng không có cùng qui mô trong khi đó việc so
sánh giữa các số tuyệt đối không thực hiện được hoặc không có ý ngh a;
➢ Để nghiên cứu các quá trình biến động qua thời gian nhằm phản ảnh xu
hướng phát triển cơ bản của hiện tượng;
➢ Để đánh giá đặc điểm phân phối của tài liệu;
➢ Số bình quân còn cơ sở để vận dụng các phương pháp thống kê khác như
phương pháp hồi qui và tương quan, phương pháp phân t ch phương sai.
90
❖Trung bình cộng của một tập dữ liệu là giá trị trung bình của tất cả
các giá trị dữ liệu. Trung bình cộng được tính bằng cách đem tổng
các mức lượng biến của tiêu thức chia cho số đơn vị tổng thể/mẫu.
❖Trung bình tổng thể, µ
𝑥𝑖
➢μ =
𝑁
❖Trung bình mẫu, 𝑥ҧ
𝑥𝑖
➢ 𝑥ҧ =
𝑛
➢ Trong đó
✓ σ 𝑥𝑖 = tổng giá trị của tất cả các quan sát,
✓ n, N= tương ứng là số quan sát trong mẫu, trong tổng thể.
σ 𝑥𝑖 34356
➢ Ví dụ: 𝑥lj = = = 490,80
𝑛 70
91
❖Trong một số trường hợp, giá trị trung bình được tính bằng cách
cho mỗi quan sát một trọng số phản ánh tầm quan trọng tương đối
của nó. Việc lựa chọn trọng số phụ thuộc vào ứng dụng.
❖Trung bình tổng thể, µ
σ w𝑖 𝑥𝑖
➢𝜇 = σ w𝑖
❖Trong đó:
➢ 𝑥𝑖 = giá trị quan sát i
➢ 𝑤𝑖 = trọng số quan sát i
92
BÀI TOÁN
❖Một người thợ xây nhà, đang xem xét các chi phí mà anh ấy phải trả
cho ngôi nhà mà anh ấy mới xây. Với mục đích định giá các dự án trong
tương lai, anh ấy muốn biết mức lương trung bình (USD/giờ) mà anh
ấy trả cho những công nhân mà anh ấy thuê. Dưới đây liệt kê các loại
công nhân mà anh ấy đã tuyển dụng, cùng với mức lương tương ứng và
tổng số giờ làm việc của họ.
Tiền lương
Công nhân (USD/giờ) Tổng số giờ
Thợ mộc 21.60 520
Thợ điện 28.72 230
Thợ xây 11.80 410
Thợ trang trí nội thất 19.75 270
Thợ sửa ống nước 24.16 160
93
LỜI GIẢI
❖Tiền công xây dựng
σ 𝑤𝑖 𝑥𝑖 31873.7
➢ 𝑥ҧ = σ 𝑤𝑖
= = 20.0464 ≈ 20.05
1590
➢ Giá trị trung bình có trọng số bằng = 20.05USD
Công nhân 𝑥𝑖 w𝑖 w𝑖 𝑥𝑖
Thợ mộc 21.60 520 11232.0
Thợ điện 28.72 230 6605,6
Thợ xây 11.80 410 4838.0
Thợ trang trí nội thất 19.75 270 5332.5
Thợ sửa ống nước 24.16 160 3865.6
Chung 1590 31873.7
94
❖Trung vị của tập dữ liệu là giá trị ở giữa khi dữ liệu được sắp xếp theo
thứ tự tăng dần.
❖Khi tập dữ liệu có giá trị ngoại lai thì nên dùng trung vị.
❖Cách tính số Trung vị
➢ Khi số quan sát là số chẵn lẻ: n=2m+1 thì Me=𝑥𝑚+1
✓ 7 quan sát: 26, 18, 27, 12, 14, 27 và 19, →Vậy n=7 nên m=3
✓ Viết lại theo thứ tự tăng dần: 12, 14, 18, 19, 26, 27 và 27.
✓ Trung vị là giá trị ở giữa, vì vậy Me = xm+1 = 𝑥4 =19.
➢ Khi số quan sát là số chẵn: n=2m thì Me=(𝑥𝑚 +𝑥𝑚+1 )/2
✓ 8 quan sát: 26, 18, 27, 12, 14, 27, 19 và 30, →Vậy n=8 nên m=4
✓ Viết lại theo thứ tự tăng dần: 12, 14, 18, 19, 26, 27, 27, và 30.
✓ Trung vị là trung bình cộng của hai giá trị ở giữa, vì vậy trung vị
𝑀𝑒 = (𝑥4 + 𝑥5 )/2 = (19 + 26)/2 = 22.5.
95
BÀI TOÁN
❖Có tài liệu về giá thuê 70 căn hộ được lấy mẫu ngẫu nhiên ở một
thị trấn được liệt kê dưới đây.
445 615 430 590 435 600 460 600 440 615
440 440 440 525 425 445 575 445 450 450
465 450 525 450 450 460 435 460 465 480
450 470 490 472 475 475 500 480 570 465
600 485 580 470 490 500 549 500 500 480
570 515 450 445 525 535 475 550 480 510
510 575 490 435 600 435 445 435 430 440
❖Mode của tập dữ liệu là giá trị có tần suất lớn nhất.
CHÚ Ý: Tần số lớn nhất có thể xảy ra ở hai hoặc nhiều giá trị khác
nhau.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
❖450 xuất hiện thường xuyên nhất (7 lần)
❖Vậy, Mode = 450
98
❖Trung bình nhân được dùng trong những trường hợp các đại
lượng có quan hệ tích.
❖Công thức tính trung bình nhân giản đơn
1
𝑛
➢ 𝑥lj𝑔 = (𝑥1 )(𝑥2 ) ⋯ (𝑥𝑛 ) = [(𝑥1 )(𝑥2 ) ⋯ (𝑥𝑛 )] 𝑛
❖Trung bình điều hòa thường được sử dụng trong các tình huống
liên quan đến tỉ lệ, tốc độ hoặc các phép đo có tính chất nghịch
đảo.
❖Về thực chất số trung bình điều hòa vẫn có nội dung kinh tế như
số trung bình cộng tức là cùng tổng các lượng biến của tiêu thức
chia cho số đơn vị của tổng thể. Nhưng trong trường hợp này tài
liệu để tính như số trung bình cộng không có.
❖Công thức tính
➢Trung bình điều hòa gia quyền
𝑀1 +𝑀2 +...+𝑀𝑁 σ 𝑀𝑖
✓ 𝑥lj = 𝑀1 𝑀2 𝑀 = 𝑀
+ +...+ 𝑁 σ 𝑖
𝑥1 𝑥2 𝑥𝑁 𝑥𝑖
✓ Trong đó:
o Lượng biến (xi)
o Tổng lượng biến tiêu thức Mi=xifi
101
BÀI TOÁN
❖Có tài liệu về sản lượng lúa (M) và năng suất lúa cả năm (x) 2021 ở
một số tỉnh thuộc vùng Bắc Trung Bộ và Duyên hải miền Trung
như trên bảng. M (tạ) X (tạ/ha)
❖Tính năng suất lúa trung bình cả Thanh Hóa 14130000 60.9
10432000
năm của cả vùng trong năm 2021. Nghệ An 58.2
Hà Tĩnh 5805000 55.3
LỜI GIẢI Quảng Bình 2930000 54.5
M1 +M2 +...+MN Quảng Trị 2793000 55.6
❖xlj = M1 M2 MN Thừa Thiên - Huế 3425000 63.5
+ +...+
x1 x2 xN Đà Nẵng 319000 67.2
14130000 +⋯+7379000 Quảng Nam 4623000 55.9
❖ = 14130000 7379000
+⋯+
Quảng Ngãi 4416000 60.4
60.9 59.7 Bình Định 6381000 66.4
❖ =72003000/1198906.418 Phú Yên 3903000 70.8
❖ =60.05723128 Khánh Hòa 2724000 60.2
Ninh Thuận 2743000 62.2
Bình Thuận 7379000 59.7
102
➢ Trung bình điều hòa giản đơn: Khi M1 = M2 = ⋯ = Mn thì, số trung bình
điều hoà gia quyền trở thành số trung bình điều hoà giản đơn.
σ 𝑀𝑖 𝑛𝑀 𝑛
o 𝑥lj = 𝑀 = 1 = 1
σ 𝑖 𝑀σ
𝑥𝑖
σ
𝑥𝑖
𝑥𝑖
BÀI TOÁN
❖Một nhóm gồm 3 công nhân cùng tiến hành sản xuất một loại sản phẩm
trong thời gian như nhau và thời gian sản xuất một sản phẩm của mỗi
công nhân tương ứng: 12; 15 và 20 (phút). Thời gian hao phí trung bình
để sản xuất một sản phẩm của chung cả nhóm công nhân là bao nhiêu?
LỜI GIẢI
❖Thời gian hao phí trung bình để sản xuất một sản phẩm của chung cả
nhóm công nhân là
𝑛 3
✓ 𝑥lj = 1 = 1 1 1 = 15
σ + +
𝑥𝑖 12 15 20
103
❖Phân vị cung cấp thông tin về cách dữ liệu phân tán theo một
khoảng từ giá trị nhỏ nhất đến giá trị lớn nhất .
❖Phân vị p% là một giá trị mà ít nhất p% số quan sát nhỏ hơn
hay bằng giá trị này và ít nhất (100-p)% số quan sát lớn hơn
hay bằng giá trị này.
❖Đối với dữ liệu không có giá trị lặp, phân vị p % sẽ chia dữ liệu
thành 2 phần: Xấp xỉ p% số quan sát có giá trị nhỏ hơn phân vị
p%; xấp xỉ (100-p)% số quan sát có giá trị lớn hơn phân vị p%.
104
BÀI TOÁN
❖Căn cứ vào dữ liệu giá thuê căn hộ hãy tính phân vị thứ 80.
LỜI GIẢI
❖Bước 1. Sắp xếp dữ liệu theo thứ tự tăng dần.
❖Bước 2. Tính chỉ số i, vị trí của phân vị thứ 80
➢ i = (p/100)(n+1) = (80/100)(70+1) = 56.8=56+ 0.8
❖Bước 3. Tính phân vị thứ 80
➢ Lp = 𝑥56 + 0.8 𝑥56+1 − 𝑥56
= 535 + 0.8(549-535) = 546.2.
106
BÀI TOÁN
➢Căn cứ vào tài liệu về giá thuê căn hộ hãy tính tứ phân vị
LỜI GIẢI
❖Tứ phân vị thứ nhất (Q1)
➢Chỉ số i: i = (p/100)(n+1) = (25/100)(70+1) = 17.75=17+.75
➢Vậy, Q1 =𝑥17 + .75 ∗ (𝑥18 − 𝑥17 ) =445+.25*(445-445)=445
➢Q1= 445
107
❖Điều kiện 1. Số trung bình chỉ được tính ra từ tổng thể đồng chất
➢ Trong tổng thể đồng chất, sự chênh lệch về lượng giữa các đơn vị
là do các nhân tố ngẫu nhiên tác động. Khi tính số trung bình từ
tổng thể như thế, số trung bình có trình độ đại biểu rất cao. Ngược
lại khi tính số trung bình từ tổng thể không đồng chất thì mang
hình thức giả tạo, không biểu hiện được bản chất, có khi còn xuyên
tạc bản chất của hiện tượng.
❖Điều kiện 2. Số trung bình cần được vận dụng kết hợp với số trung
bình tổ hoặc dãy số phân phối
➢ Khi phân tích hiện tượng nếu chỉ xét qua số trung bình chung thì
các chênh lệch coi như bị san bằng. Điều đó hạn chế tác dụng của
việc phân tích thống kê, không giải thích hết các nguyên nhân và xu
thế phát triển của hiện tượng. Thậm chí nếu không chú ý còn rút ra
kết luận sai lệch.
110
❖Đo lường độ biến thiên/phân tán của dữ liệu với các đại lượng
sau:
➢ Khoảng biến thiên /Toàn cự (Range)
➢ Khoảng tứ phân vị (Interquartile Range)
➢ Độ lệch tuyệt đối trung bình (Mean Absolute Deviation)
➢ Phương sai (Variance)
➢ Độ lệch chuẩn (Standard Deviation)
➢ Hệ số biến thiên (Coefficient of Variation)
❖Ý nghĩa
➢ Xem xét trình độ đại biểu của số trung bình.
➢ Đánh giá được nhiều đặc trưng của dãy số như đặc trưng về phân
phối, kết cấu, độ phân tán.
➢ Phân tích độ biến động, mối liên hệ, điều tra chọn mẫu, dự đoán…
111
BÀI TOÁN
❖Có tài liệu về tiền lương hằng tuần của 20 công nhân (ngàn đồng)
như trên bảng sau
Phân
1920 1950 2130 2800 2820 3040 3040 3800 4060 4255
xưởng 1
Phân
2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
xưởng 2
❖Hãy so sánh sự biến thiên về tiền lương bình quân tuần của công
nhân ở hai phân xưởng.
112
❖Khoảng biến thiên của tập dữ liệu là sự khác biệt giữa giá trị lớn
nhất và nhỏ nhất. Công thức tính
➢ R = Giá trị lớn nhất (xmax )– Giá trị nhỏ nhất (xmin )
❖Khoảng biến thiên là chỉ tiêu đơn giản nhất để đánh giá độ phân
tán của tài liệu trong tổng thể hay mẫu. Khoảng biến thiên càng
nhỏ thì tài liệu khá đồng đều, số trung bình có tính đại biểu cao và
ngược lại.
LỜI GIẢI
❖𝑅1 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 4225-1920 = 2335 (ngàn đồng)
❖𝑅2 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 = 3325-2850 = 525 (ngàn đồng)
❖Vì 𝑅1 > 𝑅2 nên có thể kết luận sự biến động về tiền lương ở phân
xưởng 1 lớn hơn ở phân xưởng 2 hay nói khác sự phân tán về tiền
lương giữa hai phân xưởng có sự khác biệt.
113
❖Độ lệch tuyệt đối trung bình (MAD) là phép đo độ biến thiên cho biết
khoảng cách trung bình giữa các quan sát và giá trị trung bình của chúng.
❖Công thức tính
➢ Độ lệch tuyệt đối trung bình tổng thể
σ xi −μ σ (xi −μ) fi
✓ MAD = hay MAD =
N N
➢ Độ lệch tuyệt đối trung bình mẫu
σ 𝑥𝑖 −𝑥lj σ (xi −x)
lj fi
✓ MAD = Hay MAD =
𝑛 n
❖Trước đây, độ lệch tuyệt đối trung bình thường được sử dụng làm phép
đo độ phân tán, nhưng sau đó không được sử dụng.
❖VÍ DỤ. Tiền lương
➢ MAD1 ={|1920-2981.5|+…+|4255- 2981.5|}/10=657.5
➢ MAD2 ={|2850-2981.5|+…+|3225- 2981.5|}/10=121.5
114
❖Khoảng tứ phân vị của tập dữ liệu là sự khác biệt giữa phần tư thứ ba
và phần tư thứ nhất. Đó là phạm vi cho 50% dữ liệu ở giữa.
❖Khoảng tứ phân vị tránh được độ nhạy với các giá trị dữ liệu ngoại lai.
➢ IQR=Q3-Q1
VÍ DỤ. Tiền lương
❖Đối với Phân xưởng 1
✓ Phân vị thứ nhất (Q1) =𝑥2 + 0.75 𝑥3 − 𝑥2 = 2085
✓ Phân vị thứ ba (Q3) = 𝑥2 + 0.75 𝑥3 − 𝑥2 =3865
➢ Vậy 𝐼𝑄𝑅1 = 3865 – 2085= 1780
❖Đối với Phân xưởng 2
✓ Phân vị thứ nhất (Q1) =𝑥2 + 0.75 𝑥3 − 𝑥2 = 2880
✓ Phân vị thứ ba (Q3) = 𝑥2 + 0.75 𝑥3 − 𝑥2 =3070
➢ Vậy IQR 2 = 3070 – 2880= 190
115
❖Phương sai là phép đo độ biến thiên tất cả dữ liệu. Phương sai rất
hữu ích trong việc so sánh độ biến thiên của hai hay nhiều biến.
❖Công thức tính
➢ Phương sai tổng thể
σ(𝑥𝑖 −𝜇)2 σ(𝑥𝑖 −𝜇)2 𝑓𝑖
✓𝜎 = 2
hay 𝜎 = 2
σ 𝑓𝑖
với N= σ 𝑓𝑖
𝑁
➢ Phương sai mẫu
lj 2
σ(𝑥𝑖 −𝑥) lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓ 𝑠2 = hay 𝑠2 = với n= σ 𝑓𝑖
𝑛−1 𝑛−1
❖VÍ DỤ: Tiền lương
lj 2
σ(𝑥𝑖 −𝑥)
➢ Phương sai 𝑠12 = = 715178,0556,
𝑛−1
lj 2
σ(𝑥𝑖 −𝑥)
➢ 𝑠22 = = 21944,72222
𝑛−1
CHÚ Ý: Trong Excel 365, Phương sai tổng thể dùng hàm Var.p và
phương sai mẫu dùng hàm Var.s
116
❖Độ lệch chuẩn của một tập dữ liệu là căn bậc hai dương của phương sai.
❖Đơn vị tính của nó giống với đơn vị tính dữ liệu nên nó dễ diễn giải hơn
so với phương sai.
❖Công thức tính
➢ Độ lệch chuẩn tổng thể
σ(𝑥𝑖 −𝜇)2 lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓𝜎= 𝑁
hay 𝜎 = 𝑁
➢ Độ lệch chuẩn mẫu
lj 2
σ(𝑥𝑖 −𝑥) lj 2 𝑓𝑖
σ(𝑥𝑖 −𝑥)
✓𝑠= 𝑛−1
hay 𝑠 = 𝑛
❖VÍ DỤ: Tiền lương
➢ Độ lệch chuẩn là 𝑠1 = 𝑠12 = 845,6820062
➢ 𝑠2 = 𝑠22 = 148,1375112
CHÚ Ý: Trong Excel 365, Độ lệch chuẩn tổng thể dùng hàm Std.p và Độ
lệch chuẩn mẫu dùng hàm Std.s
117
❖Hệ số biến thiên cho biết độ lệch chuẩn lớn như thế nào so với giá
trị trung bình.
❖Hệ số biến thiên tổng thể
σ
➢ CV = × 100
μ
❖Hệ số biến thiên mẫu
s
➢ CV = lj × 100
x
❖Nếu hai tập dữ liệu có các đơn vị khác nhau, thì hệ số biến thiên là
cách tốt nhất để so sánh chúng.
❖VÍ DỤ: Tiền lương
s1 845,6420062
➢ CV1 = × 100 = 𝑥100 = 28,3643%
xlj 1 2981,5
s2 148,1375112
➢ CV2 = lj × 100 = 𝑥100 = 04,9686%
x2 2981,5
118
BÀI TOÁN
❖Có tài liệu về 2 chỉ tiêu ở một xí nghiệp trong một năm như sau:
Chỉ tiêu Số bình quân Độ lệch chuẩn
Năng suất lao động (kg) 410 60
Giá thành đơn vị sản phẩm (1000đ) 4.8 0.72
❖Hãy xác định xem trong 2 chỉ tiêu trên, chỉ tiêu nào biến thiên hơn.
LỜI GIẢI
❖Vì hai chỉ tiêu khác nhau và đơn vị tính cũng khác nhau nên muốn so
sánh độ biến thiên phải dùng hệ số biến thiên.
s 60
➢ Năng suất lao động: CVns = lj × 100 = 100 = 14.6(%)
x 410
s 0.72
➢ Giá thành: CVgt = lj × 100 = 100 =15(%)
x 4.8
❖Với kết quả CVns < CVgt nên giá thành biến thiên nhiều hơn năng suất.
120
❖Tính chất 20
10
0
50-60 60-70 70-80 80-90 90-100 100-110
20
10
0
50-60 60-70 70-80 80-90 90-100 100-110 110-120
20
➢ Lệch phải: Skewness >0 15
10
0
50-60 60-70 70-80 80-90 90-100 100-110
123
❖Phương sai
➢ Var(Kurtorsis) = 4(𝑛2 − 1)𝑉𝑎𝑟(𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠)/ ((𝑛 − 3)(𝑛 + 5))
❖Sai số chuẩn
➢ Std. error(Kurtorsis) = 4(n2 − 1)Var(Skewness)/ ((n − 3)(n + 5))
124
❖Tính chất
➢ Nếu Kurtosic = 3: dạng phân phối
Mesokurtic, là dạng phân phối có
độ dốc gần với phân phối chuẩn;
➢ Nếu Kurtosic >3: dạng phân phối Leptokurtic
Leptokurtic, là phân phối có đọ nhọ n
lơn hơn phan phoi phan phoi chuả n;
Mesokurtic (Normal)
➢ Nếu Kurtosic < 3: dạng phân phối
Platykurtic, là phân phối có đọ nhọ n
dẹt hơn phan phoi phan phoi chuả n.
Platykurtic
125
Descriptive Statistics
N Mean Skewness Kurtosis
Statistic Statistic Statistic Std. Error Statistic Std. Error
Diembq 17 5.3400 1.375 0.550 2.412 1.063
Valid N (listwise) 17
129
Với ví dụ đã cho, phương sai và sai số chuẩn đươc tính như sau:
❖Phương sai (Var)
➢ Skewness
✓ Var(Skewness) =(6*17*16/((15*18*20)))=0.302222
➢ Kurtorsis
✓ Var(Kurtorsis) = (4 172 − 1 0.30222/(14 ∗ 22))= 1.1303896
❖Sai số chuẩn (Std. Error)
➢ Skewness
✓ Std. Error(Skewness)=sqrt(0.302222)=0.549747416749021.550
➢ Kurtorsis
✓ Std. Error(Kurtorsis)=Sqrt(1.1303896)=1.0631978227919 1.063
130
❖Giá trị ngoại lai là giá trị nhỏ bất thường hoặc lớn bất thường trong tập
dữ liệu.
❖Giá trị dữ liệu có điểm số |z|> –3 có thể được coi là ngoại lai.
❖Ví dụ: Giá thuê căn hộ
➢ Các z-score cao nhất là -1.20 và 2.27.
➢ Sử dụng |z| > 3 làm tiêu chí cho ngoại lai. không có ngoại lai nào trong tập
dữ liệu này.
-1.2 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.2 -0.2 -0.2
-0.2 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
132
❖Biểu đồ hộp (Box Plot) là một biểu đồ thống kê được sử dụng để trực
quan hóa phân phối và tập trung dữ liệu dựa trên tóm tắt gồm năm đại
lượng số.
❖Biểu đồ hộp cung cấp một cách khác để xác định các ngoại lai.
❖Một hộp được vẽ với các đầu nằm ở Tứ phân vị thứ nhất và thứ ba.
❖Một đường thẳng đứng được vẽ trong hộp tại vị trí của trung vị (Tứ
phân vị thứ hai).
400 425 450 475 500 525 550 575 600 625
Q2 = 475
Q1 = 445 Q3 = 525
135
❖Các giới hạn được định vị (không được vẽ) bằng cách sử dụng
khoảng tứ phân vị (IQR).
❖Dữ liệu nằm ngoài các giới hạn này được coi là ngoại lai.
❖Vị trí của mỗi ngoại lai được hiển thị bằng ký hiệu * .
400 425 450 475 500 525 550 575 600 625
❖Cho đến nay, chúng ta đã kiểm tra các phương pháp số được sử
dụng để tóm tắt dữ liệu cho một biến. Thông thường, người quản
lý hoặc người ra quyết định quan tâm đến mối quan hệ giữa hai
biến.
❖Hai đại lượng mô tả mối quan hệ giữa hai biến
➢ Hiệp phương sai
➢ Hệ số tương quan
✓ Hệ số tương quan của Pearson (Pearson's correlation coefficient)
✓ Hệ số tương quan hạng của Spearman (Spearman's rank correlation
coefficient)
141
❖Hiệp phương sai là phép đo mối liên hệ tuyến tính giữa hai biến.
❖Công thức tính hiệp phương sai
➢Hiệp phương sai tổng thể (Population covariance)
σ(𝑥𝑖 −𝜇𝑥 )(𝑦𝑖 −𝜇𝑦 )
✓ 𝜎𝑥𝑦 =
𝑁
➢Hiệp phương sai mẫu (Samples covariance)
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦)
✓ 𝑠𝑥𝑦 =
𝑛−1
❖Tính chất
✓ Giá trị dương: Giữa hai biến có mối quan hệ thuận
✓ Giá trị âm: Giữa hai biến có mối quan hệ nghịch.
✓ Giá trị bằng 0: giữa hai biến không mối quan hệ
142
❖Hệ số tương quan là phép đo của mối liên hệ tuyến tính và không nhất
thiết là quan hệ nhân quả giữa hai biến
❖Công thức tính
➢ Hệ số tương quan tổng thể ρ (rho)
𝐶𝑜𝑣(𝑋,𝑌) 𝐸(𝑋−𝐸(𝑋))(𝑌−𝐸(𝑌))
✓ 𝜌𝑥𝑦 = =
𝜎𝑋 𝜎𝑌 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)
❖Tính chất
➢ −1 ≤ r ≤ 1. (|r|1)
➢ r càng gần -1 biểu thị mối quan hệ tuyến tính nghịch và càng chặt chẻ.
➢ r càng gần 1 biểu thị mối quan hệ tuyến tính thuận và càng chặt chẻ.
➢ |r| càng gần 0 thì mối quan hệ càng yếu.
143
BÀI TOÁN
❖Một người chơi gôn quan tâm đến việc điều tra mối quan hệ giữa
khoảng cách lái xe và điểm số 18 lỗ.
Khoảng cách lái xe
trung bình (yard) Điểm 18 lỗ trung bình
277.6 69
259.5 71
269.1 70
267.0 70
255.6 71
272.9 69
144
LỜI GIẢI
❖Lập bảng tính
𝒙𝒊 𝒚𝒊 lj (𝒚𝒊 − 𝒚)
(𝒙𝒊 − 𝒙) lj (𝒙𝒊 − 𝒙)(𝒚
lj lj
𝒊 − 𝒚)
LỜI GIẢI
❖Trung bình mẫu
➢ 𝑥ҧ = 267.0 𝑦ത = 70.0
❖Độ lệch chuẩn mẫu
➢ 𝑠𝑥 = 8.2192 𝑠𝑥 = .8944
❖Hiệp phương sai mẫu
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦) −35.40
➢ 𝑠𝑥𝑦 = = = −7.08
𝑛−1 6−1
❖Hệ số tương quan mẫu
𝑠𝑥𝑦 −7.08
➢ 𝑟𝑥𝑦 = = = −.9631
𝑠𝑥 𝑠𝑦 (8.2192)(.8944)
146
❖Tính chất
➢ |𝑟𝑠 | 1
➢ 𝑟𝑠 >0 Mối quan hệ giữa X và Y là thuận.
➢ 𝑟𝑠 < 0 Mối quan hệ giữa X và Y là nghịch.
➢ Nếu không có mối quan hệ giữa X và Y, thì 𝑟𝑠 sẽ bằng không.
➢ Giá trị của 𝑟𝑠 sẽ là +1 nếu hạng của X hoàn toàn trùng với hạng của
Y.
➢ Giá trị của 𝑟𝑠 sẽ là -1 nếu thứ hạng của X theo thứ tự ngược lại với
thứ hạng của Y.
148
❖Trong thống kê, biến phân loại đề cập đến một đặc điểm không thể
định lượng được. Các biến phân loại có thể sử dụng thang đo định
danh hoặc thứ bậc.
❖Dữ liệu phân loại là loại dữ liệu của các biến phân loại hoặc dữ liệu
của biến định lượng đã được phân nhóm.
❖Ví dụ: Điểm hệ 10 được phân thành các loại: A, B, C, D và F
➢ Loại đạt:
✓ A: từ 8.5 đến 10.0
B: từ 7.0 đến 8.4
C: từ 5.5 đến 6.9
D: từ 4.0 đến 5.4.
➢ Loại không đạt:
✓ F: dưới 4.0.
151
❖Chi-bình phương: kiểm định chi bình phương về tính độc lập, còn
được gọi là phép kiểm chi bình phương của Pearson, được sử dụng để
khám phá xem có mối quan hệ nào giữa hai biến phân loại hay không.
(O −E )2
ij ij Biến phân loại B
➢ χ2 = σri=1 σcj=1 Biến
ij E Total
phân loại A 1 2 … C
➢ Kiểm định thích hợp là O11 O12 O1c
kiểm định Chi−bình phương. 1 … R1
E11 E12 E1c
❖Trong đó: O21 O22 O2c
➢ 𝑂𝑖𝑗 số quan sát trong ô nằm 2 … R2
E21 E22 E2c
ở hàng i và cột j. … … … … … …
Ri Cj Or1 Or2 Orc
➢ Eij = với 𝑅𝑖 và 𝐶𝑗 là tổng r … Rr
n
Er1 Er2 Erc
hàng
và cột. Total C1 C2 … Cc n
153
❖Cramer's V
➢Cramer's V được sử dụng để xác định cường độ của mối quan
hệ giữa hai biến phân loại.
𝜒2
➢𝑉 =
𝑛(𝑘−1)
❖Trong đó
➢𝜒 2 là thống kê Chi bình phương Pearson từ kiểm định đã nói ở
trên
➢n là cỡ mẫu tham gia vào kiểm định
➢k là số loại nhỏ hơn của một trong hai biến =min(r,c).
154
❖Khi đọc bảng Chi-Square, chúng ta quan tâm đến kết quả của hàng
"Pearson Chi-Square". Chúng ta thấy χ2(1) = 3.222. p = 0.073. Điều
này cho chúng ta biết rằng không có mối liên hệ có ý nghĩa thống kê
nào giữa Giới tính và Đảng phái với α= 5%.
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.
Value df (2-sided) (2-sided) (1-sided)
a
Pearson Chi-Square 3.222 1 .073
b
Continuity Correction 1.944 1 .163
Likelihood Ratio 3.293 1 .070
Fisher's Exact Test .115 .081
Linear-by-Linear Association 3.093 1 .079
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 5.76.
b. Computed only for a 2x2 table
165
Symmetric Measures
Value Approx. Sig.
Nominal by Phi -.359 .073
Nominal Cramer's V .359 .073
Contingency .338 .073
Coefficient
N of Valid Cases 25
❖Một biến có giá trị được xác định bởi kết quả của một phép thử
ngẫu nhiên được gọi là biến ngẫu nhiên.
❖Các biến ngẫu nhiên thường được ký hiệu bằng các chữ hoa X,
Y, Z, v.v. và các giá trị do chúng nhận được ký hiệu bằng các chữ
cái thường x, y, z, v.v.
❖Biến ngẫu nhiên gồm hai loại
➢ Biến ngẫu nhiên rời rạc: Một biến ngẫu nhiên rời rạc có thể nhận
một số hữu hạn các giá trị hoặc một chuỗi các giá trị vô hạn (Ví dụ
về chuỗi rời rạc các giá trị vô hạn là chuỗi các số nguyên dương).
➢ Biến ngẫu nhiên liên tục có thể nhận bất kỳ giá trị số nào trong một
khoảng hoặc tập hợp các khoảng.
5
❖Biến ngẫu nhiên rời rạc với số giá trị hữu hạn
➢ Gọi x = số TV bán ra tại cửa hàng trong một ngày và x có thể nhận 5
giá trị (0, 1, 2, 3, 4)
✓ Chúng ta có thể đếm số TV đã bán và có giới hạn trên hữu hạn đối
với số lượng có thể bán (là số TV trong kho).
❖Biến ngẫu nhiên rời rạc với số lượng giá trị vô hạn
➢ Gọi x = số khách hàng đến trong một ngày và x có thể nhận các giá
trị 0, 1, 2, . . .
✓ Chúng ta có thể đếm số khách hàng đến, nhưng không có giới hạn
trên về số lượng khách hàng có thể đến.
➢ Ví dụ: Tập các số tự nhiên là biến ngẫu nhiên rời rạc vô hạn.
6
❖Phân phối xác suất cho một biến ngẫu nhiên mô tả cách xác suất
được phân phối cho các giá trị của biến ngẫu nhiên.
❖Chúng ta có thể mô tả phân phối xác suất rời rạc bằng các công
cụ như sau
➢ Bảng,
➢ Đồ thị,
➢ Công thức.
❖Các loại phân phối xác suất rời rạc
➢ Loại thứ nhất: sử dụng quy tắc gán xác suất cho kết quả phép thử
để xác định xác suất cho từng giá trị của biến ngẫu nhiên.
➢ Loại thứ hai: sử dụng một công thức toán học đặc biệt để tính xác
suất cho từng giá trị của biến ngẫu nhiên.
7
❖Phân phối xác suất được xác định bởi một hàm xác suất, ký hiệu
là f(x), cung cấp xác suất cho từng giá trị của biến ngẫu nhiên.
❖Các điều kiện cần thiết cho một hàm xác suất rời rạc là:
➢ f(x)0 và
➢ f(x)=1
❖Một số phân phối xác suất rời rạc được chỉ định bởi các công
thức là phân phối đều rời rạc, nhị thức, Poisson và siêu hình
học.
8
0 80 0 .40 0.4
1 50 1 0.25
Xác suất
0.3
2 40 2 0.20
3 10 3 0.05 0.2
4 20 4 0.10
0.1
200 1.00
0
0 1 2 3 4
Giá trị của biến ngẫu nhiên x
10
❖Các biến ngẫu nhiên có một số tham số đặc trưng như sau
➢ ①Giá trị kỳ vọ ng (Expected Value)
➢ ②Phương sai (Variance)
➢ ③Độ lệch chuẩn (Standard Deviation)
11
❖Phân phối xác suất Bernoulli là phân phối xác suất của một biến
ngẫu nhiên rời rạc nhận giá trị 1 với xác suất p và giá trị 0 với
xác suất q=1-p. Hàm phân phối xác suất:
𝑝 Nếu x = 1
➢ 𝑓(x) = ቊ
𝑞 =1−𝑝 Nếu x = 0
❖Có thể viết theo dạng: 𝑓(𝑥) = 𝑝 𝑥 (1 − 𝑝)1−𝑥
❖Các tham số đặc trưng
➢ Kỳ vọng: 𝐸 𝑋 = 𝜇 = 𝑝
➢ Phương sai: 𝑉𝑎𝑟 𝑋 = 𝜎 2 = 𝑝 1 − 𝑝 = 𝑝𝑞
➢ Độ lệch chuẩn: 𝜎 = 𝑝(1 − 𝑝)
16
❖Một cách tổng quát, nếu biến ngẫu nhiên X tuân theo phân phối
nhị thức với các tham số n ∈ N và p ∈ [0,1] thì viết X ~ B(n, p).
❖Xác suất nhận được chính xác k thành công trong n phép thử
Bernoulli độc lập được cho bởi hàm phân phối xác suất:
➢ 𝑓(𝑥) = 𝐶𝑛𝑥 𝑝 𝑥 (1 − 𝑝)(𝑛−𝑥)
➢ Trong đó:
✓ x = số lần thành công
✓ p = xác suất thành công trong một lần thử
✓ n = số lần thử nghiệm
✓ f(x) = xác suất thành công của x trong n phép thử
✓ n! = n(n – 1)(n – 2) … (2)(1)
17
𝑛!
✓ 𝐶𝑛𝑥 = : Số kết quả thử nghiệm cung cấp chính xác x thành
𝑥!(𝑛−𝑥)!
công trong n thử nghiệm
✓ 𝑝 𝑥 (1 − 𝑝) 𝑛−𝑥 : Xác suất của một chuỗi kết quả thử nghiệm cụ thể
với x thành công trong n thử nghiệm
CHÚ Ý: Phân phối Bernoulli là trường hợp đặc biệt của phân phối
nhị thức với n=1
18
❖BÀI TOÁN
➢ Evans Electronics lo ngại về tỷ lệ giữ chân nhân viên thấp. Trong
những năm gần đây, ban quản lý đã chứng kiến doanh thu 10% số
nhân viên làm việc theo giờ hàng năm.
➢ Do đó, đối với bất kỳ nhân viên làm việc theo giờ nào được chọn
ngẫu nhiên, ban quản lý ước tính xác suất 0.1 rằng người đó sẽ
không ở lại công ty vào năm tới.
➢ Chọn ngẫu nhiên 3 nhân viên làm việc theo giờ, xác suất để 1 người
trong số họ rời công ty trong năm nay là bao nhiêu?
19
❖LỜI GIẢI
➢ Xác suất để nhân viên thứ nhất ra đi và nhân viên thứ hai và thứ ba
ở lại, kí hiệu (S, F, F) là xác suất p(1 – p)(1 – p).
➢ Xác suất để nhân viên thứ nhất và thứ ba ở lại và nhân viên thứ hai
nghỉ, kí hiệu (F, S, F) là xác suất (1-p)p (1 – p).
➢ Xác suất để nhân viên thứ nhất và thứ hai ở lại và nhân viên thứ
hai nghỉ, kí hiệu (F, F, S) là xác suất (1-p)(1 – p)p.
Kết quả thử nghiệm Xác suất của kết quả thử nghiệm
Experimental Probability of Experimental
Outcome Outcome
(S, F, F) p(1 – p)(1 – p) = (.1)(.9)(.9) = .081
(F, S, F) (1 – p)p(1 – p) = (.9)(.1)(.9) = .081
(F, F, S) (1 – p)(1 – p)p = (.9)(.9)(.1) = .081
Total = .243
20
❖Biến ngẫu nhiên liên tục có thể nhận bất kỳ giá trị số nào trong
một khoảng hoặc tập hợp các khoảng.
❖Không thể nói về xác suất của biến ngẫu nhiên giả định tại một
giá trị cụ thể. Thay vào đó, chúng ta nói về xác suất của biến
ngẫu nhiên giả định trong một khoảng nhất định.
❖Phân phối xác suất chuẩn là phân phối quan trọng nhất để mô
tả một biến ngẫu nhiên liên tục.
❖Nó được sử dụng rộng rãi trong suy luận thống kê.
25
❖Giá trị kỳ vọng là giá trị trung bình có trọng số của một biến
ngẫu nhiên
∞
➢ 𝐸(𝑋) = −∞ 𝑥𝑓(𝑥)𝑑𝑥
➢ Trong đó
✓ E (X) là giá trị kỳ vọng của biến ngẫu nhiên liên tục X
✓ x là giá trị của biến ngẫu nhiên liên tục X
✓ f(x) là hàm mật độ xác suất
❖Tính chất của giá trị kỳ vọng (Properties of Expected Values)
➢ a. Giá trị kỳ vọng của hằng số là chính hằng số đó. Do đó, nếu b là
hằng số, E(b) = b.
b. Nếu X và Y là các biến ngẫu nhiên độc lập, thì E(XY) = E(X)E(Y)
➢ c. Nếu a và b là hằng số, E(aX + b) = aE(X) + b
26
❖Phương sai (Variance): Sự phân bố của các giá trị X xung quanh
giá trị kỳ vọng có thể được đo bằng phương sai, được định
nghĩa là
∞
➢ Va r( 𝑋) = 𝜎𝑋2 = 𝐸 𝑋 − 𝜇 2
= −∞ 𝑋 − 𝜇 2 𝑓(𝑥)𝑑𝑥
❖Tính chất của phương sai (Properties of Variance)
➢ a. 𝐸 𝑋 − 𝜇 2 = 𝐸 𝑋 2 − 𝜇2
➢ b. Phương sai của hằng số bằng không
➢ c. Nếu 𝑎 và 𝑏 là hằng số, thì var(𝑎𝑋 + 𝑏) = 𝑎2 var(𝑋)
➢ d. Nếu 𝑋 và là 𝑌 độc lập và 𝑎 và 𝑏 là hằng số, thì var(𝑎𝑋 + 𝑏𝑌) =
𝑎2 var(𝑋) + 𝑏 2 var(𝑌)
➢ e. Nếu 𝑋 và 𝑌 là các biến ngẫu nhiên độc lập, thì var(𝑋 ± 𝑌) =
var(𝑋) + var(𝑌)
✓ Tính chất này có thể được khái quát hóa thành nhiều hơn hai biến độc
lập
27
❖Độ lệch chuẩn: Căn bậc hai dương của 𝜎 2 được định nghĩa là độ
lệch chuẩn của X (𝜎𝑋 ).
❖Tính chất
➢ Độ lệch chuẩn không âm
➢ Độ lệch chuẩn càng lớn thì độ biến thiên của tập dữ liệu càng cao
➢ Luôn cùng đơn vị tính với đơn vị tính của biến nghiên cứu
➢ Chịu ảnh hưởng của phần tử ngoại lai
29
❖Phân phối xác suất được biết đến nhiều nhất là phân phối
chuẩn, có hình chuông. Hàm mật độ xác suất (PDF: Probability
Density Function) có dạng sau:
1 −(𝑥−𝜇) 2 /2𝜎 2
➢ 𝑓(𝑥) = 𝑒
𝜎 2𝜋
➢ Trong đó:
✓ 𝜇= Trung bình
Độ lệch chuẩn
✓ 𝜎= độ lệch chuẩn
✓ 𝜋= 3.14159
✓ e = 2.71828
x
µ,
Trung bình
30
❖Theo quy ước, chúng ta biểu thị một biến phân phối chuẩn là
➢ 𝑋~𝑁(𝜇, 𝜎 2 )
➢ Trong đó ∼ có nghĩa là “tuân theo phân phối", N là viết tắt của
phân phối chuẩn và các đại lượng trong ngoặc đơn là giá trị kỳ
vọng và phương sai.
❖Toàn bộ họ phân phối xác suất chuẩn được
xác định bởi giá trị kỳ vọng μ và
độ lệch chuẩn của nó σ.
Độ lệch chuẩn
❖Các điểm cao nhất trên đường cong
chuẩn là tại giá trị kỳ vọng , cũng
là trung vị và mode.
x
µ,
kỳ vọng
31
❖Giá trị trung bình có thể nhận bất kỳ giá trị số nào: âm, bằng
không hoặc dương.
20 x
-10 0
❖Độ lệch chuẩn xác định độ rộng của đường cong: giá trị lớn hơn
dẫn đến đường cong rộng hơn, phẳng hơn.
= 15
= 25
x
32
❖Xác suất cho biến ngẫu nhiên chuẩn được đưa ra bởi các diện
tích dưới đường cong. Tổng diện tích dưới đường cong là 1 (0.5
ở bên trái của giá trị kỳ vọng và 0.5 ở bên phải).
.5 .5
x
33
BÀI TOÁN
➢ Pep Zone bán phụ tùng ô tô và vật tư bao gồm dầu động cơ. Khi trữ
lượng dầu này giảm xuống còn 20 gallon thì thực hiện lệnh bổ
sung. Người quản lý cửa hàng lo ngại rằng doanh số bán hàng bị
giảm do hết hàng trong khi chờ đơn đặt hàng bổ sung.
➢ Biết rằng nhu cầu trong thời gian chuẩn bị bổ sung có phân phối
chuẩn với giá trị trung bình là 15 gallon và độ lệch chuẩn là 6
gallon.
➢ Người quản lý muốn biết xác suất hết hàng trong thời gian chuẩn
bị bổ sung. Nói cách khác, xác suất mà nhu cầu trong thời gian chờ
sẽ vượt quá 20 gallon là bao nhiêu?
35
LỜI GIẢI
❖Tính xác suất hết hàng Diện tích = .79673
➢ Bước 1: Chuyển đổi x thành phân phối Diện tích
chuẩn chuẩn hóa. = 1 - .79673
z = (x -)/= (20 - 15)/6 = .83 = .20327
➢ Bước 2: Tính diện tích dưới đường
cong chuẩn tiêu chuẩn ở bên trái
của 𝑧=0.83. Tra bảng ở Slide sau, được: z
P(z 0.83) = .79673. 0 .83
➢ Bước 3: Tính diện tích dưới đường
cong chuẩn chuẩn hóa ở bên phải của
z= 0.83.
P(z > 0.83) = 1 – P(z 0.83) = 1- 0.79673 =
0.20327
36
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
... ... ... ... ... ... ... ... ... ... ...
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
... ... ... ... ... ... ... ... ... ... ...
37
x
15 24.87
39
❖Giả sử 𝑍1 , 𝑍2 , … , 𝑍𝑘 là các biến chuẩn chuẩn hóa độc lập (tức là các
biến chuẩn có giá trị kỳ vọng bằng 0 và phương sai bằng 1). Sau đó,
thực hiện:
➢ 𝑍 = ∑𝑘𝑖=1 𝑍𝑖2
❖Sẽ tuân theo phân phối 𝜒 2 với k bậc tự do (df). Một biến phân phối
Khi-bình phương được ký hiệu là 𝜒𝑘2 , trong đó chỉ số dưới k biểu thị
bậc tự do.
❖Tính chất của phân phối 𝜒 2 :
➢ 1. phân phối 𝜒 2 là phân phối lệch, mức độ lệch tùy thuộc vào df.
➢ 2. Giá trị kỳ vọng của phân phối chi-square là k, và phương sai của nó
là 2k, trong đó k là df.
➢ 3. Nếu 𝑍1 và 𝑍2 là hai biến chi-square độc lập với bậc tự do là k1 và k2
df, thì tổng 𝑍1 + 𝑍2 cũng là một biến chi-square với df = k1 + k2.
41
❖Về mặt hình học, phân phối Chi-square như trong hình sau:
f (𝜒 2 )
Density
k =2
k =5
k = 10
𝜒2
0
42
❖Về mặt hình học, phân phối t được thể hiện trong hình sau:
k = 120 (Chuẩn)
k = 20
k=5
t
0
44
❖Nếu 𝑍1 và 𝑍2 là các biến Chi-square phân phối độc lập với df tương
ứng là 𝑘1 và 𝑘2 , thì biến
𝑍1 /𝑘1
➢𝐹 = ~F(𝑘1 , 𝑘2 )
𝑍2 /𝑘2
➢ Trong đó 𝑘1 và 𝑘2 tương ứng được gọi là bậc tự do ở tử và ở mẫu.
❖Tính chất của phân phối F
➢ Giống như phân phối Chi-bình phương, phân phối F bị lệch sang
phải.
➢ Khi 𝑘1 và 𝑘2 càng lớn, phân phối F tiệm cận phân phối chuẩn.
➢ E(F)= 𝑘2 /(𝑘2 -2), được xác định với 𝑘2 >2
2𝑘22 𝑘1 +𝑘2 −2
➢ Var (F)= được xác định với 𝑘2 >4.
𝑘1 𝑘2 −2 2 𝑘2 −4
45
➢ Bình phương của một biến ngẫu nhiên phân phối t với df =k có
phân phối F với df là 1 và k
✓ 𝑡𝑘2 = 𝐹1,𝑘
❖Về mặt hình học, phân phối F được thể hiện như hình sau:
f (F )
F(50,50)
F(2,2)
Density
F(10,2)
F
Chương 04
2
❖Mẫu (sample) là một tập hợp con của tổng thể được chọn ngẫu
nhiên.
➢Lý do chọn mẫu là để thu thập dữ liệu nhằm trả lời câu hỏi
nghiên cứu về tổng thể.
➢Các kết quả mẫu sẽ cung cấp các suy đoán về một số đặc trưng
tổng thể.
➢Với các phương pháp chọn mẫu phù hợp, kết quả mẫu có thể
cung cấp các suy đoán “tốt” về các đặc điểm tổng thể.
❖Khung (frame) là danh sách các phần tử mà mẫu sẽ được chọn
từ đó.
7
❖Trường cao đẳng AA nhận được 900 đơn xin nhập học trong năm
tới từ các sinh viên tương lai. Những người nộp đơn được đánh số,
từ 1 đến 900, khi đơn đăng ký của các em đến. Bộ phận tuyển sinh
muốn chọn một mẫu ngẫu nhiên đơn giản gồm 30 ứng viên.
❖Bước 1: Chỉ định một số ngẫu nhiên cho mỗi trong số 900 ứng
viên.
❖Bước 2: Chọn ra 30 ứng viên tương ứng với 30 số ngẫu nhiên nhỏ
nhất.
12
❖2.2. Tại hộp thoại Data Analysis, Sampling →xuất hiện màn hình
Sampling.
❖2.3. Nhập những yêu cầu vào những ô thích hợp như trên Hình
sau.
CHÚ Ý: Mỗi dòng, hàm này chỉ tạo ra một số nên cần tạo ra 30
dòng để tạo ra 30 số ngẫu nhiên.
16
❖Bước 1: Tạo danh sách gồm 900 phần tử từ 1 đến 900 và lưu trong
File SPSS Chonmau gồm 1 trường với những thuộc tính như sau:
❖
❖Bước 2. Chọn ngẫu nhiên 30 phần tử bằng thủ tục Select Cases.
➢ 2.1. Từ menu chính, Data > Select Cases… →Xuất hiện màn hình
Select Cases.
18
❖Đôi khi chúng ta muốn chọn một mẫu nhưng không thể lấy được
danh sách tất cả các phần tử trong tổng thể. Kết quả là, chúng ta
không thể xây dựng khung cho tổng thể.
❖Trong trường hợp tổng thể vô hạn, chúng ta phải chọn một mẫu
ngẫu nhiên để đưa ra các suy luận thống kê hợp lệ về tổng thể.
❖Một mẫu ngẫu nhiên từ một tổng thể vô hạn là một mẫu được
chọn sao cho các điều kiện sau được thỏa mãn.
➢ Mỗi yếu tố được chọn đến từ tổng thể quan tâm.
➢ Mỗi phần tử được chọn độc lập.
❖Một số ví dụ về các quá trình đang diễn ra với tổng thể vô hạn là:
➢ Giao dịch xảy ra tại ngân hàng
➢ Các cuộc điện thoại đến bàn trợ giúp kỹ thuật
➢ Khách hàng bước vào một cửa hàng
23
❖Ước lượng điểm là quá trình tìm giá trị gần đúng của một số tham
số của tổng thể từ các mẫu ngẫu nhiên của tổng thể.
❖Trong ước lượng điểm, chúng ta sử dụng dữ liệu từ mẫu để tính
giá trị của thống kê mẫu đóng vai trò là ước lượng của tham số.
➢ Trung bình mẫu (𝑥)ҧ là ước lượng điểm của trung bình tổng thể .
➢ Tỷ lệ mẫu (𝑝)ҧ là ước lượng điểm của tỷ lệ tổng thể .
➢ Phương sai mẫu (𝑠 2 ) là ước lượng điểm cho phương sai tổng thể
(2 )
➢ Độ lệch chuẩn mẫu là ước lượng điểm của độ lệch chuẩn tổng thể
.
xത
pത
2 s2
s
24
❖Trường cao đẳng AA đã nhận được 900 đơn đăng ký từ các sinh viên
tương lai. Mẫu đơn đăng ký chứa nhiều thông tin bao gồm điểm kiểm
tra năng lực học (SAT) của cá nhân và liệu cá nhân đó có mong muốn
nhà trọ trong khuôn viên trường hay không.
❖Bộ phận tuyển sinh muốn công bố điểm SAT trung bình và tỷ lệ ứng
viên muốn sống trong khuôn viên trường, với tổng số 900 ứng viên.
❖Dữ liệu về các ứng viên chưa được nhập
vào cơ sở dữ liệu của trường đại học.
Vì vậy, Giám đốc quyết định ước lượng
giá trị của các tham số tổng thể quan tâm
dựa trên số liệu thống kê mẫu. Một mẫu
gồm 30 ứng viên được chọn bằng các số
ngẫu nhiên do máy tính tạo ra.
25
❖𝑥ҧ là ước lượng điểm của trung bình tổng thể (𝜇)
σ 𝑥𝑖 50,520
➢ 𝑥lj = = = 1684
30 30
❖𝑝ҧ là ước lượng điểm của tỷ lệ tổng thể ()
20
➢ 𝑝lj = = .67
30
❖𝑠 2 là ước lượng điểm của phương sai tổng thể (𝜎 2 )
2 lj 2
σ(𝑥𝑖 −𝑥) 210512
➢𝑠 = = = 7259.03448
29 29
❖s là ước lượng điểm của độ lệch chuẩn tổng thể, 𝜎
lj 2
σ(𝑥𝑖 −𝑥) 210,512
➢𝑠 = = = 85.2
29 29
CHÚ Ý: Các số ngẫu nhiên khác nhau sẽ xác định một mẫu khác
dẫn đến các ước lượng điểm khác nhau.
26
❖Sau khi tất cả dữ liệu của 900 ứng viên được nhập vào cơ sở dữ
liệu của trường đại học, các giá trị của tham số tổng thể quan tâm
được tính toán.
➢ Trung bình tổng thể cho điểm SAT
σ 𝑥𝑖
✓𝜇 = = 1697
900
➢ Tỷ lệ tổng thể mong muốn có nhà ở trong khuôn viên trường
648
✓ = = .72
900
➢ Phương sai tổng thể cho điểm SAT
σ(𝑥𝑖 −𝜇)2
✓ 𝜎2 = = 7638.76
900
➢ Độ lệch chuẩn tổng thể cho điểm SAT
σ(𝑥𝑖 −𝜇)2
✓𝜎 = = 87.4
900
27
❖Phân phối chọn mẫu của một thống kê là phân phối xác suất được tạo
bằng cách lấy nhiều mẫu ngẫu nhiên có cùng kích thước nhất định từ
cùng một tổng thể. Những phân phối này giúp hiểu thống kê mẫu thay
đổi như thế nào từ mẫu này sang mẫu khác.
❖Phân phối chọn mẫu là điều cần thiết cho thống kê suy luận vì chúng
cho phép hiểu một thống kê mẫu cụ thể trong bối cảnh rộng hơn của
các giá trị có thể khác.
❖Xây dựng phân phối chọn mẫu
➢ 1. Từ một tổng thể hữu hạn cỡ N, rút ngẫu nhiên tất cả các mẫu có
thể có cỡ n. 18
16
10
➢ 3. Tạo phân phối tần số của thống kê. 8
6
4
2
0
50-60 60-70 70-80 80-90 90-100 100-110
30
❖Chúng ta sẽ nghiên cứu các loại phân phối chọn mẫu sau
➢ Phân phối của trung bình mẫu.
➢ Phân phối sự khác biệt giữa hai trung bình mẫu.
➢ Phân phối tỷ lệ mẫu.
➢ Phân phối của sự khác biệt giữa hai tỷ lệ mẫu.
➢ Phân phối mẫu của phương sai mẫu
➢ Phân phối mẫu của tỷ lệ hai phương sai mẫu độc lập
32
❖Phân phối chọn mẫu củaഥ𝑥 là phân phối xác suất của tất cả các giá
trị có thể có của trung bình mẫu 𝑥.ҧ
❖Giá trị kỳ vọng của 𝑥ҧ là
➢ E(𝑥)ҧ =
➢ Trong đó, = trung bình tổng thể
❖Khi giá trị kỳ vọng của ước lượng điểm bằng với tham số tổng thể,
chúng ta nói ước lượng điểm không chệch.
33
❖Khi tổng thể có phân phối chuẩn, phân phối chọn mẫu của 𝑥ҧ sẽ
phân phối chuẩn với bất kỳ cở mẫu.
❖Trong hầu hết các ứng dụng, phân phối chọn mẫu của 𝑥ҧ có thể
được xấp xỉ phân phối chuẩn bất cứ khi nào cở mẫu từ 30 trở
lên. Trong trường hợp tổng thể bị sai lệch nhiều hoặc có ngoại
lệ, có thể cần các mẫu cỡ 50.
❖Phân phối chọn mẫu của 𝑥ҧ có thể được sử dụng để cung cấp
thông tin xác suất về mức độ gần đúng của giá trị trung bình
mẫu 𝑥ҧ là đối với trung bình tổng thể μ.
36
❖BÀI TOÁN
➢ Xác suất mà một mẫu ngẫu Phân phối
nhiên đơn giản gồm 30 ứng chọn mẫu
viên sẽ đưa ra để ước lượng của 𝑥ҧ về điểm 87.4
số kỳ thi SAT x = = = 15.96
về điểm SAT trung bình của n 30
tổng thể nằm trong khoảng
±10 của trung bình tổng thể
thực tế μ?
➢ Nói cách khác, tính xác suất
mà 𝑥ҧ sẽ nằm trong khoảng từ x
1687 đến 1707? 𝐸(𝑥)
lj = 1697
37
LỜI GIẢI
❖Bước 1: Tính giá trị z tại điểm cuối trên của khoảng
➢ z = (1707 - 1697)/15.96= .63=0.6+0.03
❖Bước 2: Tìm diện tích dưới đường cong bên trái của điểm cuối
phía trên
➢ P(z .63) = .7357 Phân phối mẫu của 𝑥ҧ
z .00 .01 .02 .03 .04 về điểm SAT
… … … … ... …
.5 .6915 .6950 .6985 .7019 .7054 𝜎𝑥lj = 15.96
❖Bước 3: Tính giá trị z tại điểm Phân phối mẫu của 𝑥ҧ
cuối thấp hơn của khoảng. về điểm SAT
➢ z = (1687 - 1697)/15.96= - 𝜎𝑥lj = 15.96
.63
❖Bước 4: Tìm diện tích dưới
đường cong bên trái của điểm Diện tích = .2643
cuối phía dưới.
➢ P(z -.63) = .2643 x
1687 1697
=NORM.S.DIST(-0.63;1)=0.264347
39
𝜎2. ഥ
of 𝒙
(n = 2)
Values of xത Values of xത Values of xത
1 𝑛
❖ 𝑋᪄ = σ 𝑋 là trung bình mẫu
𝑛 𝑖=1 𝑖 Sampling
Distributio
của các biến ngẫu nhiên này. n of 𝒙
ഥ
(n = 5)
Values of xത Values of xത Values of xത
❖Khi 𝑛 càng lớn, theo định lý giới
hạn trung tâm thì
Sampling
𝜎2
➢ 𝑋᪄ ~N(𝜇,
Distributio
) n of 𝒙
ഥ (n =
𝑛 30)
❖Khi đó:
Values of xത Values of xത Values of xത
᪄
𝑋−𝜇
➢𝑧 = ~ N(0,1).
𝜎𝑋᪄
45
❖Các đại lượng đặc trưng của phân phối chọn mẫu của sự khác biệt giữa
hai trung bình khi các mẫu được chọn ngẫu nhiên từ hai tổng thể độc lập.
➢ Giá trị kỳ vọng
✓ 𝐸 𝑥᪄1 − 𝑥᪄2 = 𝜇1 − 𝜇2
➢ Độ lệch chuẩn
𝜎 21 𝜎 22
✓ 𝜎𝑥᪄1 −𝑥᪄2 = +
𝑛1 𝑛2
❖Vì 𝑥᪄1 và ᪄𝑥2 là các biến ngẫu nhiên độc lập nên
𝜎21 𝜎22
➢ 𝜎𝑥2᪄1−𝑥᪄2 = +
𝑛1 𝑛2
❖Nếu 𝑥᪄1 và 𝑥᪄2 là trung bình của hai mẫu được lấy từ hai tổng thể lớn và
độc lập, phân phối chọn mẫu của sự khác biệt giữa hai trung bình SẼ
PHÂN PHỐI CHUẨN.
47
CHÚ Ý: Cần lưu ý rằng khi việc chọn mẫu được thực hiện mà
không lặp và tổng thể là hữu hạn, thì công thức sau đây được sử
dụng để tính toán sai số chuẩn:
𝜎21 𝜎22 𝑁−𝑛
➢ 𝜎𝑥᪄1−𝑥᪄2 = + ×
𝑛1 𝑛2 𝑁−1
➢ Một tổng thể hữu hạn được coi là vô hạn nếu n/N < 0.05
➢ (𝑁 − 𝑛)/(𝑁 − 1) là hệ số hiệu chỉnh tổng thể hữu hạn.
49
❖Phân phối chọn mẫu của 𝑝ҧ là phân phối xác suất của tất cả các
giá trị có thể có của tỷ lệ mẫu 𝑝.ҧ
➢E(𝑝)=
ҧ với = tỷ lệ tổng thể
➢Độ lệch chuẩn của 𝑝ҧ
✓ Tổng thể hữu hạn
𝑁−𝑛 𝑝(1−𝑝)
▪ 𝜎𝑝lj =
𝑁−1 𝑛
❖Phân phối chọn mẫu của ഥ𝑝 có thể xấp xỉ phân phối chuẩn bất cứ
khi nào cỡ mẫu đủ lớn thỏa mãn hai điều kiện:
➢ np5 và n(1-p) 5.
❖Khi các điều kiện này được thỏa mãn, phân phối xác suất của x
trong mẫu tỷ lệ, ഥ𝑝= x/n, có thể xấp xỉ theo phân phối chuẩn (và vì n
là hằng số).
51
❖BÀI TOÁN
➢ Biết rằng 72% sinh viên tương lai đăng ký vào Cao đẳng AA mong
muốn có nhà ở trong khuôn viên trường.
➢ Xác suất mà một mẫu ngẫu nhiên đơn giản gồm 30 người nộp đơn
sẽ đưa ra ước lượng về tỷ lệ tổng thể của sinh viên nộp đơn mong
muốn có nhà ở trong khuôn viên trường nằm trong khoảng cộng
hoặc trừ 0.05 tỷ lệ tổng thể thực tế là bao nhiêu?
52
LỜI GIẢI
❖Theo bài toán thì n = 30 và p = 0.72. Khi đó:
np = 30(.72) = 21.65 và n(1 - p) = 30(.28) = 8.45
❖Vậy: phân phối mẫu có thể xấp xỉ phân phối chuẩn.
.72(1 − .72)
𝜎𝑝lj = = .082
30
pത
𝐸(𝑝)lj = .72
53
❖Bước 1: Tính giá trị z tại điểm cuối trên của khoảng
➢ z = (.77 - .72)/.082 = .61=0.6+0.01 (Tách ra để tra bảng)
❖Bước 2: Tìm diện tích dưới đường cong bên trái của điểm cuối
phía trên
➢ P(z .61) = .7291 Phân phối
z .00 .01 .02 .03 .04 mẫu của 𝑝ҧ
… … … … … …
p = .082
.5 .6915 .6950 .6985 .7019 .7054
.6 .7257 .7291 .7324 .7387 .7389
.7 .7580 .7611 .7642 .7673 .7704
Diện tích
.8 .7881 .7910 .7939 .7967 .7995
= .7291
.9 .8159 .8186 .8212 .8238 .8264
𝑝ҧ
… … … … … … .72 .77
54
➢ z = (.67 - .72)/.082 = -
.61=0.6+0.01 Diện tích p = .082
= .2709
❖Bước 4: Tìm diện tích dưới đường
cong bên trái của điểm cuối phía dưới
➢ P(z -.61) = .2709
𝑝ҧ
.67 .72
55
Xác suất ước lượng tỷ lệ tổng thể của những Phân phối
sinh viên nộp đơn mong muốn có nhà ở mẫu của 𝑝ҧ
trong khuôn viên trường nằm trong phạm vi
±0,05 so với tỷ lệ tổng thể thực tế. x = 8.2
❖Bước 5: Tính diện tích dưới đường cong
giữa điểm cuối dưới và trên của khoảng
Diện tích
➢ P(-.61 z .61) = P(z .61) - P(z -.61) = .4582
= .7291 - .2709 = .4582
𝑝ҧ
Xác suất mà tỷ lệ mẫu của những người nộp .67 .72 .77
❖Các mẫu ngẫu nhiên độc lập có kích thước 𝑛1 và 𝑛2 được rút ra
từ hai tổng thể trong đó tỷ lệ các quan sát có đặc điểm quan tâm
tương ứng là 𝜋1 và 𝜋2 .
➢Giá trị trung bình của (𝑝1ҧ − 𝑝2ҧ ) là
✓ 𝐸 𝑝1ҧ − 𝑝2ҧ = 𝜋1 − 𝜋2
➢Sai số chuẩn của ഥ𝑝1 − 𝑝2ҧ là
𝜋1 1−𝜋1 𝜋2 1−𝜋2
✓ 𝜎𝑝1ҧ −𝑝ҧ2 = +
𝑛1 𝑛2
✓ Trong đó
▪ 𝜋1 và 𝜋2 tương ứng là tỷ lệ tổng thể 1 và 2
▪ 𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
58
❖Giá trị z cho sự khác biệt giữa hai tỷ lệ được cho bởi công thức
𝑝lj1 −𝑝lj2 −(𝜋1 −𝜋2 )
➢𝑧 = 𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
𝑛1
+ 𝑛
2
BÀI TOÁN
➢ Ở một khu vực nhất định của một thành phố lớn, người ta đưa ra
giả thuyết rằng 40% số ngôi nhà ở trong tình trạng xấu. Một mẫu
ngẫu nhiên gồm 75 ngôi nhà từ khu vực này và 90 ngôi nhà từ khu
vực khác có sự khác biệt, 𝑝1ҧ − 𝑝2ҧ = 0.09.
➢ Nếu không có sự khác biệt giữa hai khu vực về tỷ lệ nhà xấu, xác
suất quan sát thấy sự khác biệt bằng hoặc lớn hơn mức này là bao
nhiêu?
➢ P(z 1.17)= 0.8790 , P(z 2.3) = 0.9893, P(z 0.96)= 0.8315.
60
LỜI GIẢI
❖1. Thông tin cho trước
➢ 𝑛1 = 75; 1 = 0.40; 𝑛2 = 90, 2 = 0.40; ഥ𝑝1 − 𝑝2ҧ = 0.09
➢ Tìm P(𝑝1ҧ − 𝑝ҧ2 ≥ 0.09)?
❖2. Tìm giá trị z
𝑝lj 1 −𝑝lj 2 −(𝜋1 −𝜋2 ) 0.09−(0.04−0.04)
➢𝑧 = 𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
= = 1.17
0.4 (1−0.6) 0.4 (10.6)
𝑛1
+ 𝑛 + 90
2 75
❖3. Tìm các giá trị thích hợp trong bảng giá trị z = 1.17 cho diện tích
là 0.8790 được trừ đi 1 để cho xác suất P (z ≥ 1.17) = 0.121.
❖4. Trả lời
➢ Xác suất quan sát thấy sự khác biệt bằng hoặc lớn hơn 0.09 là
0.121.
62
❖Phân phối Chi-square là một họ các phân phối, phụ thuộc vào bậc
tự do df=n-1
0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2
df = 1 df = 5 df = 15
64
❖Phân phối chọn mẫu của tỷ lệ 2 phương sai mẫu là phân phối xác suất
của tỷ lệ của hai phương sai mẫu thu được bằng cách rút ra tất cả các
mẫu có thể từ cả hai tổng thể.
❖Giả sử một mẫu có kích thước 𝑛1 với phương sai mẫu 𝑠12 được chọn từ
tổng thể 1 và một mẫu có kích thước 𝑛2 với phương sai mẫu 𝑠22 được
chọn từ tổng thể 2, nơi các tổng thể độc lập và phân phối chuẩn.
❖Nếu 𝑠12 và 𝑠22 là hai ước lượng không chệch của phương sai tổng thể
𝜎 2 thu được từ các mẫu độc lập có kích thước tương ứng là 𝑛1 và 𝑛2 từ
cùng một tổng thể có phân phối chuẩn, thì tỷ lệ F được định nghĩa là
𝑠2
1ൗ
𝑠12 𝑛1 −1 𝑛1 −1
𝜎2
➢𝐹 = = 𝑠2
𝑠22 2ൗ
𝑛2 −1 𝑛2 −1
𝜎2
67
𝑠12 𝑠22
❖Vì 𝜒1 = 𝑛1 − 1 2 và 𝜒2 = 𝑛2 − 1 2 tuân theo phân phối
2 2
𝜎 𝜎
𝜒 2 độc lập với bậc tự do tương ứng là df1 = 𝑛1 − 1 và df2 = 𝑛2
− 1, chúng ta có:
𝜒12 Τ(n1 −1)
➢𝐹 = ~F n1−1, n2−1
𝜒22 Τ(n2 −1)
S21
➢F = ∼F n1 −1, n2 −1
S22
❖Do đó, phân phối chọn mẫu của tỷ lệ phương sai mẫu tuân theo
phân phối F với bậc tự do n1 − 1, n2 − 1 .
Chương 05
2
❖Suy luận thống kê là qui trình phân tích kết quả và đưa ra kết luận về
một số đặc trưng của tổng thể từ dữ liệu mẫu. Nó còn được gọi là
thống kê suy luận (inferential statistics).
❖Suy luận thống kê, thường gồm hai loại sau:
➢ Kiểm định giả thuyết (Hypothesis Testing)
✓ Là một phương pháp thống kê suy luận, dùng để đưa ra quyết định về
tính đúng đắn của một giả định hoặc một phát biểu.
➢ Ước lượng tham số (Parameter estimation)
✓ Ước lượng tham số là xác định giá trị gần đúng của một tham số trong
tổng thể dựa trên dữ liệu mẫu có sẵn.
✓ Ước lượng tham số trong thống kê, bao gồm ước lượng điểm và ước
lượng khoảng. Ước lượng điểm dùng để tính toán một con số cụ thể cho
ước lượng tham số, trong khi ước lượng khoảng xác định một khoảng
giá trị có thể chứa giá trị tham số với một trình độ tin cậy xác định.
4
❖Giả thuyết là một giả định được thực hiện dựa trên một số bằng
chứng.
❖Giả thuyết thống kê là giả thuyết có thể được xác minh là hợp lý dựa
trên cơ sở thống kê. Giả thuyết thống kê là một tuyên bố về bản chất
của các tham số tổng thể, phân phối xác suất tổng thể, hoặc tính độc
lập của các biến.
❖Kiểm định giả thuyết là một hình thức suy luận thống kê sử dụng dữ
liệu từ mẫu để rút ra kết luận về tham số tổng thể, phân phối xác suất
tổng thể, hoặc tính độc lập của các biến.
❖Các giả thuyết KHÔNG (The null hypothesis), ký hiệu là H0 , là một giả
định dự kiến về một tham số tổng thể hoặc phân phối xác suất tổng
thể, hoặc tính độc lập của các biến.
❖Giả thuyết thay thế/Đối thuyết (The alternative hypothesis), ký hiệu
là H1 (Ha ), ngược lại với những gì được nêu trong giả thuyết KHÔNG.
5
➢ Kiểm định hai bên phù hợp nếu giá trị ước
lượng lớn hơn hoặc nhỏ hơn một phạm vi giá Left-tailed α Accept
trị nhất định. Reject
0
➢ Kiểm định một bên phù hợp nếu giá trị ước
lượng có thể lệch khỏi giá trị tham số chỉ theo
một hướng, trái hoặc phải, chứ không phải cả
hai. Right-tailed α Accept
Reject
0
6
Population Condition
𝑯𝟎 True 𝑯𝟎 False
Conclusion
Correct
Accept 𝑯𝟎 Type II Error
Decision
Correct
Reject 𝑯𝟎 Type I Error Decision
8
❖Quyết định kiểm định giả thuyết: Quyết định được xây dựng nhằm
bác bỏ hoặc không bác bỏ giả thuyết KHÔNG trên cơ sở bằng
chứng mẫu.
❖Mức ý nghĩa (Significance level): Xác suất bác bỏ giả thuyết
KHÔNG đúng.
❖Lực kiểm định (Power): Xác suất bác bỏ giả thuyết KHÔNG sai.
❖Thống kê kiểm định (Test statistic): Một hàm của dữ liệu mẫu.
❖Vùng tới hạn (Critical region): Nếu giá trị của thống kê kiểm định
rơi vào vùng này, thì giả thuyết KHÔNG bị bác bỏ.
❖Hai cách tiếp cận để kiểm định giả thuyết:
➢ Tiếp cận giá trị tới hạn (Critical value approach)
➢ Tiếp cận giá trị xác suất (p-value approach)
9
So sánh giá trị thống kê kiểm
Xây dựng cặp giả Tính thống định và giá trị tới hạn để quyết
thuyết kê kiểm định định bác bỏ 𝐻0 hay không
① ② ③ ④ ⑤ ⑥
① ② ③ ④ ⑤ ⑥
❖Trong thống kê, ước lượng là xác định giá trị gần đúng một tham số
trong tổng thể dựa trên dữ liệu mẫu. Tham số có thể là trung bình, tỷ
lệ, phương sai, hay bất kỳ một đặc điểm nào khác của tổng thể.
❖Ước lượng gồm có ước lượng điểm và ước lượng khoảng
➢ Ước lượng điểm (point estimator): Được dùng để xác định một giá trị
cụ thể của một tham số trong tổng thể
➢ Ước lượng khoảng (interval estimator): Được dùng để xác định một
khoảng giá trị có thể chứa giá trị tham số trong tổng thể với một trình
độ tin cậy xác định trước.
❖Ước lượng khoảng được tính bằng cách cộng và trừ biên độ sai số cho
ước lượng điểm
➢ Ước lượng điểm +/- biên độ sai số
❖Mục đích của ước lượng khoảng là cung cấp thông tin về mức độ gần
của ước lượng điểm với giá trị của tham số.
12
❖Ước lượng chệch (Biased Estimator) Hàm mật độ xác suất cho
➢ Cho θ là một ước lượng của θ. Độ chệch của θ ước lượng không chệch 𝜃ƶ1
được định nghĩa là sự khác biệt giữa giá trị kỳ và ước lượng chệch 𝜃ƶ2
vọng của nó và θ:
ƶ −𝜃
✓ bias(𝜃) = 𝐸(𝜃)
➢ Theo đó, độ chệch của một ước lượng không
chệch là 0.
13
Suy luận về
trung bình và
tỷ lệ hai
Suy luận về tổng thể
trung bình và Suy luận về
phương sai
tỷ lệ một
tổng thể
tổng thể 5.2
5.1 5.3
Inference about means and
proportions with two
populations
Inference about a Inferences about
population mean and population variances
proportion
5.1
16
❖Hai loại suy luận thống kê là gì? (What are the two types of statistical
inference?)
❖Đặt µ là trung bình tổng thể và µ0 là giá trị giả định dựa trên
một số thông tin.
❖Kiểm định về một trung bình tổng thể bao gồm các loại sau:
➢Kiểm định hai bên
✓ 𝐻0 : µ= µ0 và 𝐻1 : µ µ0
➢Kiểm định bên trái (Kiểm định phía trái)
✓ 𝐻0 : µ µ0 và 𝐻1 : µ<µ0
➢Kiểm định bên phải (Kiểm định phía phải)
✓ 𝐻0 : µ µ0 và 𝐻1 : µ >µ0
❖Thủ tục kiểm định
➢Tùy theo điều kiện biết trước, thủ tục kiểm định được sử dụng
có khác nhau
19
BÀI TOÁN
➢Một công ty dịch vụ EMS cung cấp những dịch vụ y tế khẩn cấp
toàn diện. Hoạt động trong một hệ thống nhiều bệnh viện với
khoảng 20 đơn vị y tế lưu động, mục tiêu dịch vụ là đáp ứng các
trường hợp khẩn cấp y tế với thời gian trung bình từ 12 phút
trở xuống.
➢Thu thập một mẫu ngẫu nhiên gồm 40 trường hợp cấp cứu y tế
đã được thực hiện. Giá trị trung bình của mẫu là 13.25 phút. Độ
lệch chuẩn tổng thể được cho là 3.2phút.
➢Các giám đốc EMS muốn thực hiện kiểm định giả thuyết, với
mức ý nghĩa 0.05, để xác định xem mục tiêu dịch vụ từ 12 phút
trở xuống có đạt được hay không.
24
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : m 12 Dịch vụ khẩn cấp đáp ứng được mục tiêu
➢và 𝐻1 : m > 12 Dịch vụ khẩn cấp không đáp ứng được mục tiêu
❖2. Chọn mức ý nghĩa α= 0.05
❖3. Tính thống kê kiểm định
lj
𝑥−𝜇 13.25−12
➢𝑧 = = = 2.47
𝜎/ 𝑛 3.2/ 40
TIẾP CẬN p – value
❖4a. Tính p –value
➢Vì z = 2.47, p-value=1-NORMSDIST(2.47)=0.00676.
❖ 5a. Quyết định xem có nên bác bỏ 𝐻0 hay không
➢Vì p-value = 0.0068 ≤α= 0.05, chúng ta bác bỏ 𝐻0 .
25
BÀI TOÁN
➢Dây chuyền sản xuất kem đánh răng Glow được thiết kế để đổ
đầy các ống có trọng lượng trung bình là 6 oz. Định kỳ sẽ chọn
mẫu 30 ống để kiểm định qui trình chiết rót.
➢Các quy trình đảm bảo chất lượng đòi hỏi phải tiếp tục quy
trình chiết rót nếu kết quả mẫu phù hợp với giả định rằng trọng
lượng trung bình của các tuýp kem đánh răng là 6oz nếu không
quy trình sẽ được điều chỉnh.
➢Giả sử rằng một mẫu gồm 30 ống kem đánh răng cung cấp giá
trị trung bình của mẫu là 6.1oz. Độ lệch chuẩn tổng thể được
cho là 0.2oz.
➢Thực hiện kiểm định giả thuyết, ở mức ý nghĩa 0.03, để giúp xác
định liệu quy trình chiết rót nên tiếp tục hoạt động hay dừng lại
và khắc phục.
27
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : m=6
➢𝐻1 : m6
❖2. Chọn mức ý nghĩa α= 0.03
❖3. Tính thống kê kiểm định
lj 0
𝑥−𝜇 6.1−6
➢𝑧 = = = 2.74
𝜎/ 𝑛 .2/ 30
TIẾP CẬN p – value
❖4a. Tính p-value
➢Vì z = 2.74, p-value=1-NORMSDIST(2.74)=0.003071959
❖5a. Quyết định có nên bác bỏ 𝐻0 hay không
➢Vì p-value = 0.003071959 < α/2 = 0.015, chúng ta bác bỏ 𝐻0 .
28
❖Chọn một mẫu ngẫu nhiên từ tổng thể và sử dụng giá trị của trung
bình mẫu 𝑥ҧ để xây dựng khoảng tin cậy cho trung bình tổng thể, μ.
❖Nếu khoảng tin cậy chứa giá trị cho trước 𝜇0 thì không bác bỏ 𝐻0 .
Ngược lại, bác bỏ 𝐻0 .
❖Chú ý: 𝐻0 nên bị bác bỏ nếu 𝜇0 bằng với một trong các điểm cuối của
khoảng tin cậy.
❖VÍ DỤ
❖Khoảng tin cậy đối xứng 97% của μ là
𝜎 .2
➢ 𝑥lj ± 𝑧𝛼/2 = 6.1 ± 2.17 = 6.1 ± .07924
𝑛 30
➢ hoặc từ 6.02076 đến 6.17924
❖Bởi vì giá trị giả định cho tổng thể trung bình, 𝜇0 = 6, không nằm trong
khoảng này, kết luận là giả thuyết 𝐻0 : μ= 6, bị bác bỏ.
30
❖T.INV.2T: Trả về nghịch đảo hai bên của phân phối t (Student's t-
distribution)
➢ Syntax: T.INV.2T(probability,deg_freedom)
➢ Chú ý
✓ T.INV.2T trả về giá trị t, sao cho P(|X| t) = probability trong đó X là một t
biến ngẫu nhiên theo phân phối t và P(| X| t) = P(X -t hoặc X t).
✓ Giá trị t một bên có thể được trả về bằng cách thay thế xác suất bằng
2*probability.
❖T.INV: Trả về nghịch đảo bên trái của phân phối t Student.
➢ Syntax: T.INV(probability,deg_freedom)
❖Cú pháp hàm T.INV.2T và T.INV có vài đối số sau:
➢ Probability: Bắt buộc. Xác suất liên quan đến phân phối t Student.
➢ Deg_freedom: Bắt buộc. Bậc tự do để mô tả sự phân phối.
33
BÀI TOÁN
➢Đội tuần tra đường cao tốc của định kỳ chọn mẫu tốc độ xe tại
các địa điểm khác nhau trên một con đường cụ thể. Mẫu tốc độ
xe được sử dụng để kiểm định giả thuyết 𝐻0 : μ ≤ 65.
➢Các giá trị mà 𝐻0 bị bác bỏ được coi là giá trị tốt nhất cho máy
đo tốc độ. Tại vị trí F, một mẫu gồm 64 phương tiện cho thấy tốc
độ trung bình là 66.2 dặm/giờ với độ lệch chuẩn là 4.2 dặm/giờ.
Sử dụng α= 0.05 để kiểm định giả thuyết.
34
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : 𝜇 ≤ 65
➢𝐻1 : 𝜇 > 65
❖2. Chỉ rõ mức ý nghĩa: α= 0.05
❖3. Tính thống kê kiểm định
lj 0
𝑥−𝜇 66.2−65
➢𝑡 = = = 2.286
𝑠/ 𝑛 4.2/ 64
TIẾP CẬN p − value
❖4a. Tính p –value
➢Vì t= 2.286, p–value =0.01
❖5a. Quyết định xem có nên bác bỏ 𝐻0
➢Vì p-value <α= 0.05, chúng ta bác bỏ 𝐻0 .
35
❖Dạng tổng quát của ước lượng khoảng của trung bình tổng thể
là
➢ 𝑥lj ± Biên độ sai số
❖Để xây dựng ước lượng khoảng của trung bình tổng thể, biên độ
sai số căn cứ vào:
➢độ lệch chuẩn tổng thể , hoặc là
➢độ lệch chuẩn mẫu s
❖Phương sai tổng thể hiếm khi được biết chính xác, nhưng
thường có thể thu được ước lượng tốt dựa trên dữ liệu lịch sử
hoặc thông tin khác.
❖Chúng ta gọi những trường hợp như vậy là trường hợp phương
sai tổng thể đã biết.
38
❖Khoảng tin cậy đối xứng 100(1-)% của trung bình tổng thể, μ:
𝜎
➢ 𝑥lj ± 𝑧𝛼/2
𝑛
𝜎 𝜎
❖ 𝑥lj − 𝑧𝛼 ≤ 𝜇 ≤ 𝑥lj + 𝑧 𝛼 Phân phối
2 𝑛 2 𝑛
𝜎 𝜎 mẫu của 𝑥ҧ
❖[𝑥lj − 𝑧𝛼/2 , 𝑥lj + 𝑧𝛼/2 ]
𝑛 𝑛
❖Trong đó: /2 /2
1 - của tất cả
➢ 𝑥lj là trung bình mẫu giá trị
➢ 1 - là hệ số tin cậy 𝑥ҧ
x
➢ 𝑧/2 là giá trị z cung cấp diện m
tích /2 ở bên phải của phân z / 2x z /2 x
phối xác suất chuẩn chuẩn hóa
➢ là độ lệch chuẩn tổng thể
➢ n là cỡ mẫu.
39
❖Bởi vì 100(1-α)% của tất cả các khoảng được xây dựng bằng
cách sử dụng 𝑥lj ± zα/2 𝜎𝑥lj sẽ chứa trung bình tổng thể, chúng ta
nói rằng chúng ta tin tưởng 100(1-α)% rằng khoảng 𝑥lj ± zα/2 𝜎𝑥lj
bao gồm trung bình tổng thể m.
❖Chúng ta nói rằng khoảng này đã được thiết lập ở trình độ tin
cậy (1-α)%.
❖Giá trị (1-α) được gọi là hệ số tin cậy.
40
BÀI TOÁN
➢Công ty DS có 260 cửa hàng bán lẻ trên khắp Việt Nam. Công ty
đang đánh giá một vị trí tiềm năng cho một cửa hàng mới, một
phần dựa vào thu nhập trung bình hàng năm của các cá nhân
trong khu vực tiếp thị của địa điểm mới.
➢Cỡ mẫu n = 36; thu nhập trung bình mẫu là 41.100USD. Độ lệch
chuẩn tổng thể được ước lượng là 4.500USD và hệ số tin cậy
được sử dụng là 0.95.
41
LỜI GIẢI
➢Khoảng tin cậy đối xứng 95% của trung bình tổng thể m sẽ là
𝜎
✓ 𝑥lj ± zα/2 𝜎𝑥lj = 𝑥lj ± 𝑧.05/2
𝑛
➢Biên độ sai số là:
𝜎 4.500
✓ 𝑧𝛼/2 = 1.96 = 1.470
𝑛 36
❖Do đó, với trình độ tin cậy 95%, khoảng tin cậy đối xứng của
trung bình tổng thể m sẽ là
4.500
➢41.100 ± 1.96 = 41.100 ± 1.470
36
➢41.100 1.470 hoặc từ 39.630 đến 42.570
❖Với trình độ tin cậy 95%, chúng ta tin rằng khoảng tin cậy đã
nêu chứa giá trị trung bình tổng thể.
42
❖Chúng ta xem xét một số kịch bản với trình độ tự tin khác nhau
Trình độ tin cậy Biên độ sai số Ước lượng khoảng
99% 1.932 39.168 - 43.032
95% 1.470 39.630 - 42.570
90% 1.234 39.866 - 42.334
❖Như vậy: Để có trình độ tin cậy cao hơn, thì biên độ sai số càng
lớn và độ rộng của khoảng tin cậy sẽ càng rộng.
43
❖Nếu không thể xác định giá trị độ lệch chuẩn tổng thể trước
khi lấy mẫu, chúng ta sử dụng độ lệch chuẩn mẫu s để ước
lượng .
❖Đây là trường hợp chưa biết.
❖Trong trường hợp này, ước lượng khoảng cho m dựa trên phân
phối t.
t distribution
❖Chú ý: Khi bậc tự do tăng lên, sự Standard (20 degrees
normal of freedom)
khác biệt giữa phân phối t distribution
và phân phối xác suất chuẩn
chuẩn hóa trở nên nhỏ hơn. t distribution
(10 degrees
of freedom)
z,t
0
45
❖Trong đó:
➢ 𝑥lj là trung bình mẫu
➢1 - = hệ số tin cậy
➢𝑡/2 (df)= giá trị t cung cấp diện tích /2 ở bên phải của phân
phối với n - 1 bậc tự do
➢s = độ lệch chuẩn mẫu.
46
BÀI TOÁN
➢ Một phóng viên đang viết một bài báo về chi phí nhà ở bên ngoài
khuôn viên trường. Một mẫu gồm 16 căn hộ một phòng ngủ trong bán
kính nửa dặm từ khuôn viên trường và được trung bình mẫu là
750USD mỗi tháng và độ lệch chuẩn mẫu là 55USD. Hãy xác định
khoảng tin cậy đối xứng 95% cho giá thuê trung bình mỗi tháng.
Chúng ta giả sử tổng thể này là phân phối chuẩn.
LỜI GIẢI
➢ Khoảng tin câỵ đối xứng 95% cho giá thuê trung bình mỗi tháng
𝑠
✓ 𝑥lj ± 𝑡.025
𝑛
55
✓ 750 ± 2.131 = 750 ± 29.30
16
➢ Chúng ta tin tưởng 95% rằng khoảng từ 720.70USD đến 779.30USD
sẽ chứa giá thuê trung bình mỗi tháng.
47
❖Biên độ sai số
𝜎
➢𝐸 = 𝑧𝛼/2
𝑛
❖Như vậy, cỡ mẫu cần thiết
(𝑧𝛼/2 )2 𝜎2
➢𝑛 =
𝐸2
❖Phương trình cỡ mẫu cần thiết yêu cầu độ lệch chuẩn tổng thể,
𝜎. Nếu 𝜎 chưa biết, giá trị 𝜎 có thể được sử dụng trong phương
trình như sau:
➢1. Sử dụng ước lượng độ lệch chuẩn tổng thể được tính trong
một nghiên cứu trước đây.
➢2. Sử dụng nghiên cứu thí điểm để chọn mẫu sơ bộ và sử dụng
độ lệch chuẩn mẫu từ nghiên cứu.
➢3. Sử dụng phán đoán hoặc “dự đoán tốt nhất” cho giá trị của 𝜎.
48
BÀI TOÁN
➢ Công ty DS đang đánh giá một địa điểm tiềm năng cho một cửa hàng
bán lẻ mới, một phần dựa trên thu nhập trung bình hàng năm của các
cá nhân trong khu vực tiếp thị của địa điểm mới.
➢ Giả sử rằng nhóm quản lý của DS muốn ước lượng trung bình tổng thể
sao cho có xác suất 0.95 rằng sai số chọn mẫu là 500USD trở xuống.
➢ Cỡ mẫu lớn bao nhiêu là cần thiết để đáp ứng yêu cầu độ chính xác?
LỜI GIẢI
𝜎
➢ 𝑧𝛼/2 = 500; với trình độ tin cậy 95%, 𝑧.025 = 1.96. Biết rằng =
𝑛
4.500USD
(1.96)2 (4.500)2
➢𝑛 = = 311.17 = 312
(500)2
❖Một mẫu có kích thước 312 là cần thiết để đạt được độ chính xác
mong muốn là 500USD với trình độ tin cậy 95%.
5.1.2
50
1 2
Chọn một mẫu ngẫu
Tỷ lệ tổng thể = ? nhiên đơn giản gồm n
phần tử từ tổng thể
4 3
BÀI TOÁN
➢Vào tuần lễ giáng sinh và năm mới, Ủy ban An toàn giao thông
Quốc gia ước lượng rằng 500 người sẽ thiệt mạng và 25.000
người bị thương trên các con đường của quốc gia. NSC tuyên bố
rằng 50% số vụ tai nạn là do lái xe khi say rượu.
➢Một mẫu gồm 120 vụ tai nạn cho thấy 67 vụ do lái xe khi say
rượu. Sử dụng những dữ liệu này để kiểm định yêu cầu của NSC
với α= 0.05.
56
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : = 0.5 và 𝐻1 : 0.5
❖2. Chọn mức ý nghĩa: =0.05
❖3. Tính thống kê kiểm định
0 (1−0 ) .5(1−.5)
➢𝜎𝑝lj = = = .045644
𝑛 120
lj 0
𝑝− (67/120)−.5
➢𝑧 = = = 1.28
𝜎𝑝lj .045644
BÀI TOÁN
➢Lãnh đạo hãng hàng không VietNam Airline quan sát khách
doanh nhân và nhận định rằng khoảng hai phần ba số khách
doanh nhân đọc tạp chí trong hành trình. Quan sát mẫu thấy có
355 trong 546 khách doanh nhân đọc tạp chí trong hành trình.
➢a. Xây dựng cặp giả thuyết để kiểm định nhận định trên.
➢b. Đánh giá nhận định với mức ý nghĩa 5%?
59
Bước Tiếp cận giá trị tới hạn Tiếp cận giá trị xác xuất
1 Cặp giả thuyết: H0: = 0.6667 và H1 : ≠0.6667
2 Chọn mức ý nghĩa =5%=0.05
Tính thống kê kiểm định z
3 p= 355/546 =0.6502
𝑧 = (0.6502 − 0.6667)( 0.6667(1 − 0.6667)/546)−1 =-0.82
BÀI TOÁN
➢Quan sát sân gold nhiều năm, các nhà quản trị nhận thấy tỷ lệ
phụ nữ tham gia là 20%. Để tăng tỷ lệ này, các nhà quản trị có
nhiều nỗ lực. Sau một thời gian, các nhà quản trị cần kiểm tra
xem tỷ lệ phụ nữ tham gia có tăng lên hay không bằng cách điều
tra 400 người tham gia thì có 100 là nữ.
➢Yêu cầu: Đánh giá tỷ lệ nữ tham gia có tăng hơn không với mức
ý nghĩa 5%.
61
Bước Tiếp cận giá trị tới hạn Tiếp cận giá trị xác xuất
1 Cặp giả thuyết: H0: = 0.2 và H1 : >0.2
2 Chọn mức ý nghĩa =5%=0.05
Tính thống kê kiểm định z
3 p=100/400 = 0.25
𝑧 = (0.25 − 0.20)( 0.20(1 − 0.20)/400)−1 =2.50
❖Dạng tổng quát của ước lượng khoảng tỷ lệ tổng thể là:
➢ plj ± Biên sai số (Margin of Error)
❖Phân phối chọn mẫu của plj đóng một vai trò quan trọng trong
việc tính biên sai số cho ước lượng khoảng này.
❖Phân phối chọn mẫu của plj có thể xấp xỉ phân phối chuẩn khi np
5 và n(1 – p) 5.
64
BÀI TOÁN
➢ PSI chuyên về khảo sát cử tri để tư vấn về vị trí của các ứng viên trong
cuộc đua bầu cử. Trong chiến dịch bầu cử hiện tại, PSI vừa phát hiện ra
rằng 220 cử tri đã đăng ký, trong số 500 cử tri được liên hệ, ủng hộ một
ứng cử viên cụ thể. PSI muốn xây dựng một khoảng tin cậy đối xứng 95%
cho tỷ lệ tổng thể cử tri đã đăng ký ủng hộ ứng viên.
LỜI GIẢI
❖Khoảng tin cậy 95% của tỷ lệ tổng thể sẽ là
lj
𝑝(1− 𝑝)lj
➢ 𝑝lj ± 𝑧𝛼/2 Trong đó: n = 500, 𝑝=
lj 220/500 = .44, 𝑧/2 = 1.96
𝑛
.44(1−.44)
➢ . 44 ± 1.96 = .44 .0435
500
❖Với trình độ tin cậy 95% chúng ta tin rằng khoảng từ 0.3965 đến 0.4835
sẽ chứa tỷ lệ cử tri của tất cả cử tri ủng hộ ứng cử viên.
66
❖Biên độ sai số
lj
𝑝(1− 𝑝)lj
➢𝐸 = 𝑧𝛼/2
𝑛
BÀI TOÁN
➢ Giả sử PSI muốn xác suất 0.99 rằng tỷ lệ mẫu nằm trong khoảng ±0.03 so
với tỷ lệ tổng thể.
➢ Cỡ mẫu lớn bao nhiêu là cần thiết để đáp ứng độ chính xác yêu cầu? (Một
mẫu trước đây của các đơn vị tương tự, tỷ lệ mẫu là 0.44).
LỜI GIẢI
𝑝∗ (1−𝑝∗ )
➢ E=𝑧𝛼/2 = 0.03; với trình độ tin cậy 99%, 𝑧0.005 = 2.576. Biết rằng
𝑛
p*= .44.
(𝑧𝛼/2 )2 𝑝∗ (1−𝑝∗ ) (2.576)2 (.44)(.56)
➢𝑛 = = ≅ 1817
𝐸2 (.03)2
➢ Một mẫu có kích thước 1817 là cần thiết để đạt được độ chính xác mong
muốn là ± 0.03 với trình độ tin cậy 99%.
❖Lưu ý: Nếu không có thông tin nào về p, thì dùng .5 vì nó cung cấp cỡ
mẫu cao nhất có thể, n được khuyến nghị sẽ là 1843.
5.2
70
❖Gọi
➢𝜇1 = trung bình của tổng thể 1 và 𝜇2 = trung bình tổng thể 2.
➢Sự khác biệt giữa hai trung bình tổng thể là 𝜇1 − 𝜇2 .
➢Chọn một mẫu ngẫu nhiên có kích thước 𝑛1 từ tổng thể 1 và một
mẫu ngẫu nhiên đơn giản về kích thước 𝑛2 từ tổng thể 2.
➢ 𝑥᪄1 = giá trị trung bình của mẫu 1 và ᪄𝑥2 = trung bình của mẫu 2.
➢Ước lượng điểm của sự khác biệt giữa các trung bình của tổng
thể 1 và 2 là ᪄𝑥1 − 𝑥᪄2 .
➢D0 là sự khác biệt được giả định giữa 2 trung bình tổng thể.
71
❖Trong đó:
➢𝜎12 và 𝜎22 tương ứng là phương sai của tổng thể 1 và 2
➢𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
72
Giá trị của 𝑥᪄1 − 𝑥᪄2 được sử dụng Dữ liệu mẫu cung cấp một giá trị
để suy luận khác biệt cho hai trung bình mẫu
về giá trị khác biệt 𝜇1 − 𝜇2 𝑥᪄1 − 𝑥᪄2
❖Suy luận thống kê về khác biệt giữa 2 trung bình tổng thể
➢Kiểm định giả thuyết (Hypothesis testing)
➢Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval:
CI)
5.2.1a
74
❖Kiểm định sự khác biệt giữa hai trung bình tổng thể phân phối
chuẩn và các mẫu độc lập:
➢ Trường hợp các phương sai biết trước, thống kê kiểm định sẽ là
−1
𝜎21 𝜎22
✓z = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 +
𝑛1 𝑛2
➢ Trường hợp các phương sai chưa biết và chúng bằng nhau, thống
kê kiểm định sẽ là
−1
s2p s2p
✓t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 +
𝑛1 𝑛2
𝑛1 −1 𝑠12 + 𝑛2 −1 𝑠22
✓ Với 𝑠𝑝2 =
𝑛1 +𝑛2 −2
76
➢Trường hợp các phương sai chưa biết và không bằng nhau,
thống kê kiểm định sẽ là
−1
s21 s22
✓t = 𝑥᪄1 − 𝑥᪄2 − 𝐷0 ) + )
𝑛1 𝑛2
2 −1
2 2 2
𝑠12 𝑠22 1 𝑠12 1 𝑠2
𝑑𝑓 = + +
𝑛1 𝑛2 𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
❖Kiểm định sự khác biệt giữa hai trung bình tổng thể phân phối
chuẩn và mẫu cặp
➢Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan
sát cặp từ các phân phối với các trung bình là 𝜇1 và 𝜇2 .
➢Đặt 𝑑᪄ và 𝑠𝑑 biểu thị giá trị trung bình mẫu quan sát được và độ
lệch chuẩn cho n hiệu số (di = 𝑥1𝑖 −𝑥2𝑖 ).
77
➢Nếu phân phối tổng thể của sự khác biệt là phân phối chuẩn thì
ሜ 𝑑
𝑑−𝜇
✓𝑡 = ~𝑡(𝑛 − 1)
sd / 𝑛
✓ Trong đó:
o 𝜇𝑑 = 𝜇1 − 𝜇2
σ𝑑
o 𝑑ሜ = 𝑖
𝑛
ሜ 2
σ(𝑑𝑖 −𝑑)
o 𝑠𝑑 =
𝑛−1
Sử dụng mức ý nghĩa , tra bảng z để xác định giá trị tới hạn phù hợp
4
Xác định z/2 Xác định z
So sánh thống kê kiểm định và giá trị tới hạn để xem bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu z -z/2
Bác bỏ H0 nếu zz/2
Bên phải: Bác bỏ H0 nếu z z/2
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
79
BÀI TOÁN
➢Par, Inc. là nhà sản xuất thiết bị chơi golf và đã phát triển một
quả bóng mới được thiết kế để cung cấp “khoảng cách xa hơn”.
➢Trong kiểm định khoảng cách đánh bóng bằng thiết bị, mẫu
bóng Par được so sánh với mẫu bóng golf do đối thủ cạnh tranh
Rap, Ltd.
➢Với mức ý nghĩa α= 0.01, có thể chúng ta kết luận rằng khoảng
cách trung bình của bóng golf Par, Inc. lớn hơn khoảng cách
trung bình của bóng golf Rap, Ltd.?
Mẫu # 1 Par, Inc. Mẫu # 2 Rap, Ltd.
Cỡ mẫu (bóng) 120 80
Trung bình mẫu (yard) 295 278
Độ lệch chuẩn tổng thể (yard) 15 20
81
LỜI GIẢI
❖Gọi:
➢ 𝜇1 = khoảng cách trung bình tổng thể của bóng golf của Par, Inc.
➢ 𝜇2 = khoảng cách trung bình tổng thể của bóng golf của Rap, Ltd.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 − 𝜇2 ≤ 0 và 𝐻1 : 𝜇1 − 𝜇2 > 0
❖2. Chọn mức ý nghĩa 𝛼 = 0.01
❖3. Tính thống kê kiểm định
𝑥᪄1 −𝑥᪄2 −𝐷0 (295−278)−0 17
➢𝑧 = = = = 6.49
(15)2 (20)2 2.62
𝜎21 𝜎22 + 80
+
𝑛1 𝑛2
120
82
Sử dụng mức ý nghĩa và bậc do df, tra bảng t để xác định giá trị tới hạn phù hợp
Xác định t/2(df) Xác định t(df)
4 2 2 −1
2 2
𝑠12 𝑠22 1 𝑠12 1 𝑠2
𝑑𝑓 = + +
𝑛1 𝑛2 𝑛1 − 1 𝑛1 𝑛2 − 1 𝑛2
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ H0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
84
BÀI TOÁN
➢ Specific Motors của Detroit đã phát triển một loại ô tô mới được
gọi là loại M. 24 chiếc loại M và 28 chiếc loại J (từ Nhật Bản) đã
được kiểm định trên đường để so sánh hiệu suất dặm trên gallon
(mpg).
➢ Sử dụng mức ý nghĩa 0.05, có thể chúng ta kết luận rằng hiệu suất
dặm trên gallon (mpg) của xe M lớn hơn hiệu suất dặm trên gallon
của ô tô J?
Mẫu #1 Mẫu #2
Ô tô M Ô tô J
Cỡ mẫu (Chiếc) 24 28
Trung bình mẫu (mpg) 29.8 27.3
Độ lệch chuẩn mẫu (mpg) 2.56 1.81
86
LỜI GIẢI
❖Đặt
➢ 𝜇1 =số dặm trung bình trên mỗi gallon đối với tổng thể ô tô loại M.
➢ 𝜇2 =số dặm trung bình trên một gallon đối với tổng thể ô tô loại J.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 – 𝜇2 ≤ 0 và 𝐻1 : 𝜇1 – 𝜇2 > 0
❖2. Chọn mức ý nghĩa α= 0.05
❖3. Tính thống kê kiểm định
(𝑥lj 1 −𝑥lj 2 )−𝐷0 (29.8−27.3)−0
➢𝑡 = = = 4.003
(2.56)2 (1.81)2
𝑠2 2
1 + 𝑠2 +
24 28
𝑛1 𝑛2
❖Bậc tự do cho 𝑡𝛼 là
2
(2.56)2 (1.81)2
24
+ 28
➢ 𝑑𝑓 = 2 2 = 40.566 = 41
1 (2.56)2 1 (1.81)2
+
24−1 24 28−1 28
87
Sử dụng mức ý nghĩa và bậc do df=(𝑛1 + 𝑛2 − 2), tra bảng t để xác định giá trị tới hạn
4
phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ H0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
89
BÀI TOÁN
➢Một cửa hàng đồ thể thao hoạt động trong một trung tâm mua
sắm cỡ trung bình. Để lên kế hoạch cho mức độ nhân sự, người
quản lý đã yêu cầu sự hỗ trợ từ chuyên gia để xác định xem có
bằng chứng mạnh mẽ nào cho thấy doanh số bán hàng thứ Hai
cao hơn doanh số thứ Bảy hay không.
➢Để trả lời câu hỏi, chuyên gia quyết định thu thập các mẫu ngẫu
nhiên gồm 25 ngày thứ Bảy và 25 thứ Hai từ tổng thể dữ liệu
vài năm. Các mẫu được rút ra độc lập. Biết them phương sai
doanh số vào hai ngày này là bằng nhau.
❖Thống kê mẫu như sau:
➢ 𝑥᪄1 = 1078 𝑠1 = 633 𝑛1 = 25
➢ 𝑥ҧ2 = 908.2 s2 = 469.8 𝑛2 = 25
➢Trong đó ký hiệu 1 và 2 là thứ Hai và thứ Bảy.
91
LỜI GIẢI
1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇1 − 𝜇2 ≤ 0
➢ 𝐻1 : 𝜇1 − 𝜇2 > 0
2. Chọn mức ý nghĩa =0.05
3. Tính thống kê kiểm định
➢ Ước tính phương sai gộp như sau:
(25−1)(633)2 +(25−1)(469.8)2
➢ 𝑠𝑝2 = = 310,700
25+25−2
LỜI GIẢI
4. Tính giá trị tới hạn
Sử dụng mức ý nghĩa α = 0.05 và bậc tự do là 48, chúng ta được
rằng giá trị tới hạn 𝑡.05 (48)= 1.677
5. Quyết định
So sánh thống kê kiểm định và giá trị tới hạn
𝑡.05 (48)= 1.677 >t=1.08 → Không đủ cơ sở bác bỏ 𝐻0
6. Kết luận
Do đó, với mức ý nghĩa 5%, chúng ta kết luận rằng không có đủ
bằng chứng để bác bỏ giả thuyết 𝐻0 , và do đó, không có lý do gì để
kết luận rằng doanh số bán hàng trung bình vào thứ Hai cao hơn.
93
❖ Giả sử rằng chúng ta có một mẫu ngẫu nhiên gồm n cặp quan sát cặp từ các
phân phối với các trung bình là 𝜇1 và 𝜇2 .
❖ Đặt 𝑑᪄ và 𝑠𝑑 biểu thị giá trị trung bình mẫu quan sát được và độ lệch chuẩn
cho n hiệu số (di = 𝑥1𝑖 −𝑥2𝑖 ).
❖ Nếu phân phối tổng thể của sự khác biệt tuân theo phân phối chuẩn thì:
ሜ
𝑑−𝜇 𝑑
➢𝑡= sd /√n
~𝑡(𝑛 − 1)
Trong đó:
σ𝑑
𝜇𝑑 = 𝜇1 − 𝜇2 và 𝑑ሜ = 𝑛 𝑖
ሜ 2
σ(𝑑𝑖 − 𝑑)
𝑠𝑑 =
𝑛−1
Như vậy, chúng ta được thống kê kiểm định
𝑑ሜ − 𝜇𝑑
𝑡=
sd /√n
94
4 Căn cứ vào thống kê kiểm định t và bậc tự do (n-1) tính p-value phù hợp
So sánh mức ý nghĩa và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
95
BÀI TOÁN
➢ Công ty Express Deliveries có tài liệu phải được phân phát nhanh
tới các văn phòng. Công ty phải quyết định giữa hai dịch vụ chuyển
phát, UPX và INTEX, để vận chuyển tài liệu của mình. Công ty đã
gửi hai báo cáo đến các văn phòng của mình với một báo cáo do
UPX thực hiện và báo cáo còn lại do INTEX thực hiện. Dữ liệu có
cho thấy sự khác biệt về thời gian giao hàng trung bình của hai
dịch vụ không? Sử dụng mức ý nghĩa 0.05.
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜇𝑑 = 0 và 𝐻1 : 𝜇𝑑 ≠0
➢ Trong đó: 𝜇𝑑 = giá trị trung bình của các giá trị chênh lệch đối với
hai dịch vụ giao hàng cho các văn phòng.
97
❖2. Chọn mức ý nghĩa α= 0.05 Thời gian giao hàng (Giờ)
❖3. Thống kê kiểm định Văn
UPX INTEX Sự khác biệt
➢ Trung bình sự khác biệt là phòng
σ𝑑 (7+6+...+5) 1 32 25 7
✓ 𝑑ሜ = 𝑖 = = 2.7
𝑛 10 2 30 24 6
➢ Độ lệch chuẩn của sự khác biệt 3 19 15 4
✓ 𝑠𝑑 =
ሜ 2
σ(𝑑𝑖 −𝑑)
=
76.1
= 2.9 4 16 15 1
𝑛−1 9
5 15 13 2
➢ Thống kê kiểm định 6 18 15 3
ሜ 𝑑
𝑑−𝜇 2.7−0
✓𝑡 = 𝑠𝑑 = 2.9 = 2.94 7 14 15 -1
𝑛 10
8 10 8 2
9 7 9 -2
10 16 11 5
98
❖BÀI TOÁN
➢ Par, Inc. là nhà sản xuất thiết bị chơi golf và đã phát triển một quả
bóng mới được thiết kế để cung cấp “khoảng cách xa hơn”.
➢ Trong kiểm định khoảng cách đánh bóng bằng thiết bị, mẫu bóng
Par được so sánh với mẫu bóng golf do đối thủ cạnh tranh Rap,
Ltd.
➢ Hãy xây dựng khoảng tin cậy đối xứng 95% về sự khác biệt giữa
khoảng trung bình của hai nhãn hiệu bóng golf.
LỜI GIẢI
❖Ước lượng điểm của 𝜇1 – 𝜇2
➢ 𝑥lj 1 − 𝑥lj 2 = 275 - 258=17
❖Khoảng tin cậy đối xứng 95% của 𝜇1 – 𝜇2
𝜎12 𝜎22 (15)2 (20)2
➢ 𝑥lj 1 − 𝑥lj 2 ± 𝑧𝛼/2 + = 17 ± 1.96 +
𝑛1 𝑛2 120 80
BÀI TOÁN
➢ Căn cứ vào dữ liệu đã cho trong bài toán Specific Motors của Detroit, hãy xác
định khoảng tin cậy đối xứng 90% về sự khác biệt giữa hiệu suất mpg của hai
mẫu ô tô.
LỜI GIẢI
➢ Bậc tự do df cho 𝑡𝛼/2 sẽ là
2 2 2 2
s1 s2 (2.56)2 (1.81)2
+ +
n1 n2 24 28
df = 2 2 = 2 2
1 s12 1 s22 1 (2.56)2 1 (1.81)2
+ +
n1 − 1 n1 n2 − 1 n2 24 − 1 24 28 − 1 28
df= 40.59 ≈ 41
➢ Với α/2 = 0.05 và df = 41, 𝑡𝛼/2 (41) = T.INV.2T(0.1,41) = 1.683
105
❖Khoảng tin cậy đối xứng 90% về sự khác biệt giữa hiệu suất mpg
của hai mẫu ô tô là
𝑠12 𝑠22
𝑥lj 1 − 𝑥lj 2 ± 𝑡0.05 (41) +
𝑛1 𝑛2
𝑠12 𝑠22
➢ 𝑥lj 1 − 𝑥lj 2 ± 𝑡.05 41 +
𝑛1 𝑛2
➢ Với T.INV.2T(0.1,41)=1.683, vậy:
(2.56)2 (1.81)2
➢ 29.8 − 27.3 ± 1.683 +
24 28
➢ 2.5 + 1.501 hoặc từ 1.449mpg đến 3.551mpg
❖Kết luận
➢ Với trình độ tin cậy 90%, chúng ta tin tưởng rằng khoảng từ 1.449
đến 3.551 mpg sẽ chứa giá trị khác biệt giữa hiệu suất dặm trên
mỗi gallon của loại M và J.
5.2.2
107
❖Gọi
➢𝜋1 và 𝜋2 tương ứng là tỷ lệ tổng thể 1 và 2.
➢𝑛1 và 𝑛2 tương ứng là cỡ mẫu từ tổng thể 1 và 2
❖Trung bình/Kỳ vọng của sự khác biệt giữ hai tỷ lệ mẫu
➢𝐸(𝑝lj1 − 𝑝lj 2 ) = 𝜋1 − 𝜋2
❖Sai số chuẩn của sự khác biệt giữ hai tỷ lệ mẫu
𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
➢𝜎𝑝lj1 −𝑝lj 2 = +
𝑛1 𝑛2
109
❖Để kiểm định sự khác biệt giữa hai tỷ lệ tổng thể, có thể dùng các cặp giả
thuyết sau
➢ Hai bên: H0 : 1 −2 = 0 và H1 : 1 −2 ≠ 0
➢ Bên trái: H0 : 1 −2 ≥ 0 và H1 : 1 −2 < 0
➢ Bên phải: H0 : 1 −2 ≤ 0 và H1 : 1 −2 > 0
❖Khi tỷ lệ tổng thể bằng nhau (π1 = π2 = π), ước lượng tỷ lệ mẫu chung là
𝑛1 𝑝ҧ1 +𝑛2 𝑝ҧ2
➢ 𝑝ҧ =
𝑛1 +𝑛2
4 Căn cứ vào mức ý nghĩa , bảng phân phối z tính giá trị tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0 hay
không
5 Bên trái: Bác bỏ H0 nếu t -t(df)
Bác bỏ 𝐻0 nếu tt/2(df)
Bên phải: Bác bỏ H0 nếu t t(df)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
114
BÀI TOÁN
➢ Chúng ta có thể kết luận, với mức ý nghĩa 0.05, rằng tỷ lệ hộ gia
đình biết đến sản phẩm của khách hàng tăng lên sau khi quảng cáo
mới chiến dịch?
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜋1 – 𝜋2 ≤0 và 𝐻1 : 𝜋1 – 𝜋2 > 0
➢ Trong đó:
✓ 𝜋1 = tỷ lệ tổng thể hộ gia đình “biết” về sản phẩm sau chiến dịch mới
✓ 𝜋2 = tỷ lệ tổng thể hộ gia đình “biết” về sản phẩm trước chiến dịch
mới
❖2. Chọn mức ý nghĩa α= 0.05
115
𝜋1 1 − 𝜋1 𝜋2 1 − 𝜋2
𝜎𝑝lj 1−𝑝lj2 = +
𝑛1 𝑛2
p1 − p2
1–2
119
BÀI TOÁN
➢Hiệp hội đang tiến hành nghiên cứu để đánh giá hiệu quả của
chiến dịch quảng cáo mới của khách hàng. Trước khi chiến dịch
mới bắt đầu, một cuộc khảo sát qua điện thoại với 150 hộ gia
đình trong khu vực chợ kiểm định cho thấy 60 hộ gia đình “biết”
về sản phẩm của khách hàng.
➢Chiến dịch mới đã được bắt đầu với các quảng cáo trên TV và
báo chạy trong ba tuần.
➢Một cuộc khảo sát được thực hiện ngay sau chiến dịch mới cho
thấy 120 trong số 250 hộ gia đình “biết” về sản phẩm của khách
hàng. Dữ liệu có hỗ trợ cho quan điểm rằng chiến dịch quảng
cáo đã mang lại sự gia tăng nhận thức về sản phẩm của khách
hàng không?
120
LỜI GIẢI
𝑝᪄1 1−𝑝᪄1 𝑝᪄2 1−𝑝᪄2
➢ 𝑝᪄1 − 𝑝᪄2 ± 𝑧𝛼/2 +
𝑛1 𝑛2
➢0.08 ± 0.10
❖Do đó, khoảng tin cậy đối xứng 95% của sự khác biệt về nhận
biết sản phẩm trước và sau là [–0.02, 0.18], điều này có nghĩa
khoảng từ -.02 đến 0.18 sẽ chứa giá trị khác biệt về nhận biết
biết sản phẩm trước và sau.
5.3
122
❖Gọi:
➢𝜎 2 : Phương sai tổng thể
➢𝜎02 : Giá trị giả định về phương sai tổng thể
❖Khi kiểm định về phương sai một tổng thể gồm các loại giả
thuyết sau
➢Hai bên: H0 : σ2 = σ20 và Ha : σ2 ≠ σ20
➢Bên trái: H0 : σ2 ≥ σ20 và Ha : σ2 < σ20
➢Bên phải: H0 : σ2 ≥ σ20 và Ha : σ2 > σ20
❖Thống kê kiểm định (Test statistic)
(𝑛−1)𝑠 2
➢𝜒 2 =
𝜎02
125
Sử dụng thống kê kiểm định 𝜒 2 và bậc tự do n-1 để xác định p-value phù
4
hợp
So sánh mức ý nghĩa và p-value để xem bác bỏ H0 hay không
5
Bác bỏ H0 nếu p-value ≤ α/2 Bác bỏ H0 nếu p-value ≤ α
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
126
BÀI TOÁN
➢Nhớ lại rằng tổ chức BB đang xếp hạng máy điều hòa nhiệt độ
ThermoRite. Tổ chức BB đưa ra xếp hạng “chấp nhận được” đối
với bộ điều nhiệt có phương sai nhiệt độ từ 0.5 trở xuống.
➢Sử dụng 10 dữ liệu, chúng tôi sẽ tiến hành kiểm định giả thuyết
(với α = 0.10) để xác định xem liệu phương sai nhiệt độ của bộ
điều nhiệt ThermoRite là “có thể chấp nhận được”.
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢𝐻0 : 𝜎 2 ≤ 0.5 và 𝐻0 : 𝜎 2 > 0.5
➢Trong đó 𝜎 2 = phương sai của tổng thể nhiệt độ.
❖2. Chọn mức ý nghĩa =.10
❖3. Thống kê kiểm định
➢Phương sai mẫu 𝑠 2 = 0.7
(𝑛−1)𝑠 2 9(.7)
➢𝜒 2 = 2
𝜒 = = 12.6
𝜎02 .5
TIẾP CẬN giá trị tới hạn
❖4a. Giá trị tới hạn
➢Vì đây là kiểm định bên phải nên bác bỏ H0
➢χ2.10 (9)= 14.684
129
➢Trong đó:
✓ 𝜒 2 các giá trị dựa trên phân phối Chi-square với n — 1 bậc tự do
✓ 1 — là hệ số tin cậy.
132
❖Căn bậc hai của các cận trên và dưới của khoảng phương sai sẽ
cung cấp khoảng tin cậy cho độ lệch chuẩn tổng thể.
(𝑛−1)𝑠 2 (𝑛−1)𝑠 2
➢ 2 ≤σ≤ 2
𝜒𝛼/2 𝜒(1−𝛼/2)
133
BÀI TOÁN
➢Bảng xếp hạng của Tổ chức BB cho biết bộ điều nhiệt được sản
xuất để kiểm soát nhiệt độ trong nhà. Trong một thử nghiệm
gần đây, 10 bộ điều nhiệt do Thermo Rite sản xuất đã được
chọn và đặt trong phòng thí nghiệm được duy trì ở nhiệt độ
68oF. Chúng ta sẽ sử dụng kết quả dưới đây để xác định khoảng
tin cậy đối xứng 95% cho phương sai tổng thể.
Bộ điều nhiệt 1 2 3 4 5 6 7 8 9 10
Nhiệt độ 67.4 67.8 68.2 69.3 69.5 67.0 68.1 68.6 67.9 67.2
134
❖Với df = n – 1 = 10 – 1 = 9 và α = 0.05
(𝑛 − 1)𝑠 2 2
2.700 ≤ 2 ≤ 𝜒.025
.025 𝜎
2
0 2.700
136
❖Hàm CHISQ.INV: Trả về nghịch đảo của xác suất bên trái của
phân phối Chi bình phương.
➢Syntax: CHISQ.INV(probability,deg_freedom)
❖Hàm CHISQ.INV.RT: Trả về nghịch đảo của xác suất bên phải
của phân phối Chi bình phương.
➢Syntax: CHISQ.INV.RT(probability,deg_freedom)
❖Cú pháp hàm CHISQ.INV.RT và CHISQ.INV có các đối số sau đây:
➢Probability: bắt buộc. Xác suất liên quan đến phân phối Chi bình
phương.
➢Deg_freedom: Bắt buộc. Bậc tự do.
137
LỜI GIẢI
❖Phương sai mẫu 𝑠 2 cung cấp ước lượng điểm của 𝜎 2
lj 2
σ(𝑥𝑖 −𝑥) 6.3
➢𝑠 2 = = = .70
𝑛−1 9
❖Khoảng tin cậy đối xứng 95% cho phương sai tổng thể
(10−1).70 (10−1).70
➢ ≤ 𝜎2 ≤
19.02 2.70
➢.33 ≤ 𝜎 2 ≤ 2.33
139
Giá trị của s12 /s22 được sử dụng Dữ liệu mẫu cung cấp một giá trị
để suy luận khác biệt cho hai trung bình mẫu
về giá trị khác biệt 𝜎12 /𝜎22 s12 /s22
❖Suy luận thống kê về khác biệt giữa 2 phương sai tổng thể
➢Kiểm định giả thuyết (Hypothesis testing)
➢Ước lượng khoảng/Khoảng tin cậy (The Confidence Interval:
CI)
5.3.2a
141
❖Gọi:
➢ 𝜎12 = phương sai của tổng thể 1 và 𝜎22 = phương sai của tổng thể 2.
➢ s12 = phương sai của mẫu 1 và s22 = phương sai của mẫu 2.
❖Các cặp giả thuyết
𝜎12 𝜎12
➢ Hai bên: 𝐻0 : 𝜎12 = 𝜎22 và 𝐻1 : 𝜎12 ≠ 𝜎22(𝐻0 : 2 = 1 và 𝐻1 : 2 ≠1)
𝜎2 𝜎2
𝜎 2 𝜎 2
➢ Bên trái: 𝐻0 : 𝜎12 𝜎22 và 𝐻1 : 𝜎12 < 𝜎22 (𝐻0 : 12 1 và 𝐻1 : 12 <1)
𝜎2 𝜎2
𝜎12 𝜎12
➢ Bên phải: 𝐻0 : 𝜎12 𝜎22 và 𝐻1 : 𝜎12 > 𝜎22 (𝐻0 : 2 1 và 𝐻1 : 2 >1)
𝜎2 𝜎2
❖Thống kê kiểm định (Test statistic)
𝑠12
➢𝐹 =
𝑠22
❖Chúng ta sử dụng dữ liệu được thu thập từ hai mẫu ngẫu nhiên độc
lập, một mẫu từ tổng thể 1 và một mẫu khác từ tổng thể 2.
❖Hai phương sai mẫu sẽ là cơ sở để suy luận về hai phương sai tổng
thể.
142
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
144
❖BÀI TOÁN
➢BB đã tiến hành thử nghiệm tương tự, như được mô tả trước
đó, trên 10 bộ điều nhiệt khác, lần này được sản xuất bởi
TempKing. Chúng tôi sẽ tiến hành kiểm định giả thuyết với α=
0.10 để xem phương sai của máy điều nhiệt ThermoRite và máy
điều nhiệt TempKing có bằng nhau không.
Bộ điều nhiệt 1 2 3 4 5 6 7 8 9 10
Nhiệt độ theo
67.4 67.8 68.2 69.3 69.5 67.0 68.1 68.6 67.9 67.2
mẫu ThermoRite
Nhiệt độ theo
67.7 66.4 69.2 70.1 69.5 69.7 68.1 66.6 67.3 67.5
mẫu TempKing
145
BÀI TOÁN
➢Hai giảng viên đại học quan tâm đến việc liệu có bất kỳ sự thay
đổi nào trong cách họ chấm điểm học phần Thống kê Kinh
doanh và Kinh tế hay không. Mỗi người chấm cùng một bộ 30
bài kiểm tra. Phương sai điểm của giảng viên thứ nhất, thứ hai
tương ứng là 52.3 và 89.9. Kiểm định xem phương sai của giảng
viên thứ nhất nhỏ hơn không với mức ý nghĩa là 10%.
149
LỜI GIẢI
➢ Ký hiệu 1 và 2 tương ứng là các chỉ số phụ cho biết giảng viên thứ
nhất và thứ hai.
➢ 𝑛1 = 𝑛2 = 30.
❖1. Xây dựng cặp giả thuyết
➢ 𝐻0 : 𝜎12 = 𝜎22 hay 𝐻0 : 𝜎12 /𝜎22 =1
➢ 𝐻1 : 𝜎12 < 𝜎22 hay 𝐻1 : 𝜎12 /𝜎22 <1
❖2. Chọn mức ý nghĩa =10%
❖3. Tính thống kê kiểm định
s21 52.3
➢𝐹 = = = 0.5818
s22 89.9
❖4. Tính p-value
➢ Với F= 0.5818 và bậc tư do 𝑛1 − 1 = 29 và 𝑛2 − 1 = 29.
➢ p-value=F.DIST(0.5818,29,29,TRUE)= 0.075324
150
❖ 5. Quyết định
➢ Vì =10%=0.1>p-value=0.075324
➢ Nên bác bỏ 𝐻0 , chấp nhận 𝐻1
❖ 6. Kết luận
➢ Với mức ý nghĩa 10%, có đủ bằng chứng để kết luận rằng sự khác biệt về
điểm số cho giảng viên thứ nhất là nhỏ hơn.
F
0.5818
Chương 06
2
❖Kiểm định phi tham số (đôi khi được gọi là kiểm định không
phân phối) không giả thiết bất cứ điều gì về phân phối.
❖Khi nào thì sử dụng kiểm định phi tham số?
➢Các kiểm định phi tham số thường là cách duy nhất để phân tích
dữ liệu phân loại.
➢Khi dữ liệu là định lượng phải chuyển đổi dữ liệu thành dữ liệu
phân loại thì tiến hành kiểm định phi tham số.
➢Một hoặc nhiều giả thiết của kiểm định tham số đã bị vi phạm.
➢Kích thước mẫu của bạn quá nhỏ để thực hiện kiểm định tham
số.
➢Dữ liệu có các giá trị ngoại lai không thể xóa được.
➢Muốn kiểm định trung vị hơn là trung bình.
4
❖Kiểm định dấu 1 mẫu: Sử dụng kiểm định này để ước lượng giá trị
trung bình của tổng thể và so sánh nó với giá trị tham chiếu hoặc giá
trị mục tiêu.
❖Kiểm định hạng dấu Wilcoxon 1 mẫu: Với kiểm định này, ước lượng
trung bình tổng thể và so sánh nó với giá trị tham chiếu/mục tiêu.
❖Kiểm định Friedman: được sử dụng để kiểm định sự khác biệt giữa
các nhóm có biến phụ thuộc thứ bậc.
❖Kiểm định Kruskal-Wallis: để tìm hiểu xem hai hoặc nhiều trung bình
có khác nhau hay không (Giống ANOVA một chiều).
❖Kiểm định Mann-Whitney: dùng để so sánh sự khác biệt giữa hai
nhóm độc lập khi các biến phụ thuộc là thứ bậc hoặc liên tục.
❖Tương quan hạng Spearman: Sử dụng khi muốn tìm mối tương quan
giữa hai bộ dữ liệu, đặc biệt khi dữ liệu có phần tử ngoại lại và những
biến thứ bậc.
5
❖So với kiểm định tham số, kiểm định phi tham số có một số ưu
nhược điểm sau:
❖Ưu điểm
➢Ít giả thiết hơn.
➢Cỡ mẫu nhỏ được chấp nhận.
➢Chúng có thể được sử dụng cho tất cả các loại dữ liệu, bao gồm
biến định danh, biến khoảng hoặc dữ liệu có giá trị ngoại lai
hoặc dữ liệu được đo lường không chính xác.
❖Nhược điểm
➢Ít hiệu quả hơn so với kiểm định tham số.
➢Tốn nhiều công sức hơn để tính toán thủ công.
➢Bảng giá trị tới hạn cho nhiều kiểm định không có trong nhiều
gói phần mềm máy tính.
7
❖Các bước thực hiện kiểm định Wilcoxon Signed-Rank bao gồm:
➢Tính giá trị chênh lệch (Dif) giữa các cặp mẫu.
➢Loại bỏ mọi cặp chênh lệch Dif bằng 0.
➢Lấy trị số tuyệt đối cho giá trị chệnh lệch |dif|
➢Xếp hạng n sự chênh lệch tuyệt đối còn lại theo thứ tự tăng dần.
➢Gán thứ hạng cho mỗi giá trị chênh lệch, nếu có các giá trị chênh
lệch trùng nhau, ta gán cùng một thứ hạng cho chúng và sau đó
tính trung bình các thứ hạng tương ứng.
➢Tính giá trị (T+) bằng tổng các thứ hạng có trị số chênh lệch là
dương.
➢Tính giá trị (T-) bằng tổng các thứ hạng có trị số chênh lệch là
âm.
➢Tính giá trị Thống kê kiểm định T (T = min(T+, T-)).
9
➢Gán thứ hạng cho mỗi giá trị chênh lệch, nếu có các giá trị chênh
lệch trùng nhau, ta gán thứ hạng cho chúng và sau đó tính trung
bình các thứ hạng tương ứng.
➢Tính giá trị (T+) bằng tổng các thứ hạng có trị số chênh lệch là
dương.
➢Tính giá trị (T-) bằng tổng các thứ hạng có trị số chênh lệch là
âm.
➢Tính giá trị Thống kê kiểm định T (T = min(T+, W-)).
❖4. Tính giá trị tới hạn
➢Căn cứ vào mức ý nghĩa và bậc tự do tra Bảng Wilcoxon để tìm
giá trị tới hạn
11
BÀI TOÁN
❖Người tiêu dùng tập trung g đánh giá mức độ hấp dẫn của hai thiết
kế bao bì cho một sản phẩm mới.
Khách hàng 1 2 3 4 5 6 7 8 9 10
Thiết kế 1 5 4 4 6 3 5 7 5 6 7
Thiết kế 2 8 8 4 5 9 9 6 9 3 9
❖Kiểm định giả thuyết rằng khách hàng không có sự khác biệt về ưa
thích giữa hai gói bằng cách sử dụng = 0.01.
LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Không có sự khác biệt về xếp hạng ưu thích
➢ 𝐻1 : Có sự khác biệt về xếp hạng ưa thích
13
BÀI TOÁN
❖Một nhà hàng Ý gần khuôn viên trường đại
học Kinh tế đã đề xuất một công thức mới Sốt
cho nước sốt được sử dụng trên bánh pizza Sốt pizza
pizza của mình. Một mẫu ngẫu nhiên gồm Student ban đầu mới
8 sinh viên đã được chọn, và mỗi em được A 6 8
yêu cầu đánh giá hương vị của nước sốt B 4 9
ban đầu và loại mới được đề xuất trên C 5 4
thang điểm từ 1 đến 10. D 8 7
E 3 9
❖Điểm số của so sánh hương vị như trên
F 6 9
Bảng sau, với con số cao hơn cho thấy sự
G 7 7
thích thú hơn đối với sản phẩm.
H 5 9
❖Dữ liệu có cho thấy xu hướng chung là
thích nước sốt pizza mới hơn sốt pizza
ban đầu không?
17
LỜI GIẢI
❖1. Cặp giả thuyết
➢H0 : Sinh viên thích nước sốt pizza ban đầu hơn sốt pizza mới
➢H1 : Sinh viên thích nước sốt pizza mới hơn sốt pizza ban đầu
❖2. Chọn mức ý nghĩa 5%
❖3. Tính thống kê kiểm định
Sinh viên Sốt pizza ban đầu Sốt pizza mới dif |dif Hạng Hạng (+) Hạng (-)
A 6 8 -2 2 3 3
B 4 9 -5 5 6 6
C 5 4 1 1 1.5 1.5
D 8 7 1 1 1.5 1.5
E 3 9 -6 6 7 7
F 6 9 -3 3 4 4
G 7 7 0 0
H 5 9 -4 4 5 5
T+=3 T-=25
18
CHÚ Ý: T+ có nghĩa sinh viên thích nước sốt ban đầu hơn và
ngược lại.
➢Thống kê kiểm định
✓ T= min(T+ , T- ) = min(3, 25)=T+=3
❖4. Tính giá trị tới hạn
➢Với mức ý nghĩa 5%, bậc tự do là 7, trả bảng phân phối
Wilcoxon Signed-Rank, chúng ta được 𝑇0.05 7 =4.
➢Vì T=3 < 𝑇0.05 7 =4 nên chúng ta sẽ bác bỏ giả thuyết H0 .
❖5. Quyết định
➢So sánh thống kê kiểm định và giá trị tới hạn để quyết địnhbác
bỏ giả thuyết H0 hay không.
➢Giả thuyết H0 bị bác bỏ nếu T Giá trị Thống kê kiểm định
Wilcoxon.
19
❖Đối với n lớn, phân phối của biến ngẫu nhiên, z, xấp xỉ chuẩn
chuẩn
𝑛(𝑛+1)
T−𝜇𝑇 W−
➢𝑧 = = 4
𝜎𝑇 𝑛(𝑛+1)(2n+1)
24
❖Nếu số, n, của các khác biệt lớn và T là giá trị quan sát được của
thống kê Wilcoxon, thì các kiểm định sau đây có mức ý nghĩa .
➢Nếu giả thuyết thay thế là một đuôi, bác bỏ giả thuyết H0
nếu 𝑧 ≥ 𝑧𝛼
➢Nếu giả thuyết thay thế là hai mặt, bác bỏ giả thuyết H0 nếu
|𝑧| ≥ 𝑧𝛼/2
23
Qua Chuyến
Văn phòng đêm bay Dif |Dif| Rank Rank (+) Rank (-)
1 32 25 7 7 10 10
2 30 24 6 6 9 9
3 19 15 4 4 7 7
4 16 15 1 1 1.5 1.5
5 15 13 2 2 4 4
6 18 15 3 3 6 6
7 14 15 -1 1 1.5 1.5
8 10 8 2 2 4 4
9 7 9 -2 2 4 4
10 16 11 5 5 8 8
T+=49.5 T-=5.5
25
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢ H0 : Chênh lệch thời gian giao hàng trung bình của hai dịch vụ bằng 0.
➢ H1 : Chênh lệch thời gian giao hàng trung bình của hai dịch vụ khác 0.
❖2. Sử dụng mức ý nghĩa 0.05
❖3. Thống kê kiểm định
𝑛(𝑛+1) 10(10+1)
➢ 𝜇𝑇+ = = = 27.5
4 4
𝑛(𝑛+1)(2𝑛+1) 10(11)(21)
➢ 𝜎𝑇+ = = = 9.81
24 24
49.5−27.5
➢𝑧 = =1.68
9.81
➢ Vì /2=0.025→𝑧0.025 = 1.96
➢ Z=1.68 < 𝑧0.025 = 1.96
26
❖5. Quyết định bác bỏ hay chấp nhận giả thuyết dựa vào quy tắc
bác bỏ
➢Đối với giả thuyết hai đuôi:
✓ Bác bỏ H0 nếu U U(𝑛1 , 𝑛2 , /2)
➢Đối với giả thuyết đuôi trái:
✓ Bác bỏ H0 nếu U ≤ U(𝑛1 , 𝑛2 , )
➢Đối với giả thuyết đuôi phải
✓ Bác bỏ H0 nếu UU (𝑛1 , 𝑛2 , )
❖6. Kết luận: Giải thích quyết định trong ngữ cảnh của ứng dụng.
32
❖Đối với cỡ mẫu lớn (cả hai ít nhất là 10), phân phối của biến
ngẫu nhiên
𝑈−𝜇𝑈
➢𝑧 = xấp xỉ phân phối chuẩn.
𝜎𝑈
❖Quy tắc quyết định cho giả thuyết H0 rằng hai tổng thể có cùng
trung vị
➢Đối với giả thuyết đuôi phải
𝑈−𝜇𝑈
✓ Bác bỏ H0 if z = − 𝑧𝛼
𝜎𝑈
➢Đối với giả thuyết đuôi trái
𝑈−𝜇𝑈
✓ Bác bỏ H0 if z = 𝑧𝛼
𝜎𝑈
➢Đối với giả thuyết hai đuôi
𝑈−𝜇𝑈 𝑈−𝜇𝑈
✓ Bác bỏ H0 nếu z = − 𝑧α/2 hay z = 𝑧α/2
𝜎𝑈 𝜎𝑈
33
BÀI TOÁN
➢ Một cách tiếp cận mới để chăm sóc trước khi sinh được cho phụ nữ
mang thai. Một kiểm định ngẫu nhiên với 15 phụ nữ mang thai để
đánh giá liệu những phụ nữ tham gia chương trình có sinh con
khỏe mạnh hơn những phụ nữ được chăm sóc chuẩn hay không.
Kết quả là điểm số APGAR được đo 5 phút sau khi sinh. Hãy nhớ lại
rằng điểm APGAR nằm trong khoảng từ 0 đến 10 với điểm từ 7 trở
lên được coi là chuẩn (khỏe mạnh), 4-6 thấp và 0-3 cực kỳ thấp.
Các dữ liệu được hiển thị dưới đây.
Chăm sóc thông thường 8 7 6 2 5 8 7 3
Chương trình mới 9 9 7 8 10 9 6
LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Hai tổng thể bằng nhau
➢ 𝐻1 : Hai tổng thể không bằng nhau.
❖2. Mức ý nghĩa α = 0.05
❖3. Tính thống kê kiểm định
➢ Khi mẫu nhỏ (𝑛1 =8 và 𝑛2 =7), sử dụng kiểm định Mann Whitney U.
➢ Thống kê kiểm định là U =min(𝑈1 , 𝑈1 )
𝑛1 (𝑛1 +1)
➢ U1 = 𝑛1 𝑛2 + − 𝑅1
2
𝑛2 (𝑛2 +1)
➢ U2 = 𝑛1 𝑛2 + − 𝑅2
2
➢ Trong đó 𝑅1 và 𝑅2 lần lượt là tổng các hạng trong nhóm 1 và 2.
35
❖4. Tính giá trị tới hạn và thiết lập quy tắc quyết định.
➢Với kiểm định hai bên và mức ý nghĩa α=0.05, kích thước 𝑛1 =8
và 𝑛2 =7, giá trị tới hạn cho kiểm định này là 10.
➢Quy tắc quyết định như sau: Bác bỏ 𝐻0 nếu U < 10.
❖5. Quyết định
➢Chúng ta Bác bỏ 𝐻0 bởi vì 9.5 < 10
❖6. Kết luận
➢Chúng ta có bằng chứng có ý nghĩa thống kê ở mức α = 0.05 để
chỉ ra rằng tổng thể điểm APGAR không bằng nhau giữa những
phụ nữ được chăm sóc trước khi sinh thông thường so với
những phụ nữ được chăm sóc trước khi sinh theo chương trình
mới.
38
𝑛2
𝑛1
2 3 4 5 6 7 8 9 10
2 0 0 0
3 0 1 1 2 2 3
4 0 1 2 3 4 4 5
5 0 1 2 3 5 6 7 8
6 1 2 3 5 6 7 10 11
7 1 3 5 6 8 10 12 14
8 0 2 4 6 7 10 13 15 17
9 0 2 4 7 10 12 15 17 20
10 0 3 5 8 11 14 17 20 23
11 0 3 6 9 13 16 19 23 26
12 1 4 7 11 14 18 22 26 29
13 1 4 8 12 16 20 24 28 33
Với kiểm định hai bên và mức ý nghĩa α=0.05, 𝑛1 =8 và 𝑛2 =7, giá
trị tới hạn cho kiểm định này là 10.
40
➢ Độ lệch chuẩn:
1
✓ 𝜎𝑊 = 𝑛 𝑛 (𝑛 + 𝑛2 + 1)
12 1 2 1
❖BÀI TOÁN
➢Nhà sản xuất cho biết chi phí Tủ đông Westin Tủ đông Easton
($) ($)
năng lượng hàng năm liên
quan đến việc vận hành các 55.10 56.10
thiết bị gia dụng như tủ đông. 54.50 54.70
➢Chi phí năng lượng cho một 53.20 54.40
mẫu gồm 10 tủ đông Westin 53.00 55.40
và 10 tủ đông Easton. Từ dữ 55.50 54.10
liệu chỉ ra, sử dụng = 0.05, 54.90 56.00
liệu có sự khác biệt trong chi
55.80 55.50
phí năng lượng hàng năm cho
54.00 55.00
hai nhãn hiệu tủ đông không?
54.20 54.30
55.20 57.00
44
LỜI GIẢI
❖1. Xây dựng các giả thuyết
➢ 𝐻0 : Chi phí năng lượng hàng năm cho tủ đông Westin và Easton là
như nhau.
➢ 𝐻1 : Chi phí năng lượng hàng năm cho tủ đông Westin và Easton là
khác nhau.
❖2. Chọn mức ý nghĩa =5%
❖3. Tính thống kê kiểm định
➢ Đầu tiên, xếp hạng dữ liệu kết hợp từ các giá trị thấp nhất đến cao
nhất như bảng ở slide sau và tính được tổng các thứ hạng của mẫu
đầu tiên (W)=86.5
➢ Trung bình:
1 1
✓ 𝜇𝑊 = 𝑛1 (𝑛1 + 𝑛2 + 1)= 10(10 + 10 + 1)=105
2 2
45
Tủ đông Tủ đông
Hạng Hạng
westin($) easton($)
55.10 12 56.10 19
54.50 8 54.70 9
53.20 2 54.40 7
53.00 1 55.40 14
55.50 15.5 54.10 4
54.90 10 56.00 18
55.80 17 55.50 15.5
54.00 3 55.00 11
54.20 5 54.30 6
55.20 13 57.00 20
Tổng hạng 86.5 Tổng hạng 123.5
46
❖1. Nhập liệu vào SPSS và lưu tên File ChiphiNangluong với 2 trường:
➢ CPNL: Chi phí năng lượng
➢ Loai: Loại với Value lables
✓ 1= Tủ đông Westin
✓ 2= Tủ đông Easton
❖2. Trên thanh công cụ, Analyze →Nonparametric Tests →2
Independent Samples.
❖3. Trong cửa sổ hiện lên, chuyển biến CPNL vào ô Test Variable List,
và đưa biến Loai vào ô Grouping Variable và →Mann-Whitney U
trong phần Test type.
❖4. Define Groups...→ sau đó nhập số 1 vào ô Group1, số 2 vào ô
Group 2 (biến Loai có 2 giá trị là 1 và 2, việc nhập như vậy giúp SPSS
phân biệt tổng thể Tủ đông Westin và Tủ đông Easton trên biến Loai)
49
Test Statisticsa
CPNL
Mann-Whitney U 31.500
Wilcoxon W 86.500
Z -1.399
Asymp. Sig. (2-tailed) 0.162
b
Exact Sig. [2*(1-tailed Sig.)] .165
a. Grouping Variable: Loai
b. Not corrected for ties.
51
❖Trong đó:
➢k = số tổng thể
➢𝑛𝑖 = số quan sát trong mẫu i
➢𝑛 𝑇 = σ𝑛𝑖 = tổng số quan sát trong tất cả các mẫu
➢𝑅𝑖 = tổng các hạng của mẫu i
53
❖Khi các tổng thể giống nhau, phân phối mẫu của thống kê kiểm
định H có thể được xấp xỉ phân phối Chi bình phương với k – 1
bậc tự do.
❖Tính xấp xỉ này có thể chấp nhận được nếu mỗi cỡ mẫu 𝑛𝑖 > 5.
❖Kiểm định này luôn được thể hiện dưới dạng kiểm định đuôi
phải.
❖Quy tắc bác bỏ là: Bác bỏ 𝐻0 nếu p-value ≤
54
❖BÀI TOÁN
➢ Giám đốc thể thao tại trường đại học Không Thể thao Thể thao
ABC, quan sát về việc liệu tổng số lần thể thao 1 2
vắng mặt của học sinh trong bốn năm có 13 18 12
giống nhau đối với những học sinh không 16 12 22
tham gia môn thể thao nào và hai môn 6 19 9
thể thao. 27 7 11
➢ Dữ liệu về số lần vắng mặt có sẵn cho 20 20 15 15
sinh viên tốt nghiệp gần đây và được liệt 14 20 21
kê trên bảng bên. 17 10
➢ Kiểm định xem ba tổng thể có giống nhau
về số lần vắng mặt hay không. Sử dụng
= .10.
55
LỜI GIẢI
❖1. Cặp giả thuyết
➢ 𝐻0 : Số vắng mặt bı̀nh quân giữa các loại thể thao đều giống nhau
➢ 𝐻1 : Không phải tất cả số vắng mặt của các loại thể thao đều giống
nhau
❖2. Chọn mức ý nghĩa α=5%
❖3. Thống kê kiểm định Kruskal-Wallis
2
12 𝑘 𝑅𝑖
➢𝐻= σ
𝑛𝑇 (𝑛𝑇 +1) 𝑖=1 𝑛𝑖
− 3(𝑛 𝑇 + 1)
➢ k = 3 tổng thể, 𝑛1 = 6, 𝑛2 = 7, 𝑛3 = 7, 𝑛 𝑇 = 20
2
12 𝑘 𝑅𝑖
➢𝐻 = σ − 3(𝑛 𝑇 + 1)
𝑛𝑇 (𝑛𝑇 +1) 𝑖=1 𝑛𝑖
❖Bước 1. Nhập liệu vào SPSS và lưu tên File Vangthethao với 2 trường:
➢ Sobuoivang: Số buổi vắng
➢ Loaithethao: Loại thể thao với
➢ Value lables
✓ 0= Không có
✓ 1= Thể thao 1
✓ 2= Thể thao 2
59
❖Kết quả
Ranks
Loaithethao N Mean Rank
Không có 6 11.08
Thể thao 1 7 11.07
Sobuoivang
Thể thao 2 7 9.43
Total 20
Test Statisticsa,b
Sobuoivang
Kruskal-Wallis H 0.354
df 2
Asymp. Sig. 0.838
a. Kruskal Wallis Test
b. Grouping Variable: Loaithethao
63
❖Giả sử rằng một mẫu ngẫu nhiên (𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) của n cặp
quan sát được lấy. Nếu 𝑥𝑖 và 𝑦𝑖 được xếp hạng theo thứ tự tăng
dần và mối tương quan mẫu của các cấp bậc này được tính toán,
hệ số kết quả được gọi là hệ số tương quan xếp hạng Spearman.
Nếu không có thứ hạng X hoặc Y bị ràng buộc, công thức để tính
hệ số tương quan hạng Spearman, 𝑟𝑠 :
6 σ 𝑑𝑖2
➢𝑟𝑠 = 1 −
𝑛(𝑛2 −1)
➢Trong đó:
✓ n = số quan sát được xếp hạng
✓ 𝑥𝑖 = thứ hạng của quan sát i đối với biến đầu tiên
✓ 𝑦𝑖 = thứ hạng quan sát i đối với biến thứ hai
✓ 𝑑𝑖 = 𝑥𝑖 − 𝑦𝑖
64
❖Tính chất
➢ |𝑟𝑠 | 1
➢ 𝑟𝑠 >0 Mối quan hệ giữa X và Y là thuận.
➢ 𝑟𝑠 < 0 Mối quan hệ giữa X và Y là nghịch.
➢ Nếu không có mối quan hệ giữa X và Y, thì 𝑟𝑠 sẽ bằng không.
➢ Giá trị của 𝑟𝑠 sẽ là +1 nếu hạng của X hoàn toàn trùng với hạng của
Y.
➢ Giá trị của 𝑟𝑠 sẽ là -1 nếu thứ hạng của X theo thứ tự ngược lại với
thứ hạng của Y.
65
n n
0.05 0.025 0.01 0.005 0.05 0.025 0.01 0.005
5 0.9 — — — 18 0.399 0.476 0.564 0.625
6 0.829 0.886 0.943 — 19 0.388 0.462 0.549 0.608
7 0.714 0.786 0.893 — 20 0.377 0.45 0.534 0.591
8 0.643 0.738 0.833 0.881 21 0.368 0.438 0.521 0.576
9 0.6 0.683 0.783 0.833 22 0.359 0.428 0.508 0.562
10 0.564 0.648 0.745 0.794 23 0.351 0.418 0.496 0.549
11 0.523 0.623 0.736 0.818 24 0.343 0.409 0.485 0.537
12 0.497 0.591 0.703 0.78 25 0.336 0.4 0.475 0.526
13 0.475 0.566 0.673 0.745 26 0.329 0.392 0.465 0.515
14 0.457 0.545 0.646 0.716 27 0.323 0.385 0.456 0.505
15 0.441 0.525 0.623 0.689 28 0.317 0.377 0.448 0.496
16 0.425 0.507 0.601 0.666 29 0.311 0.37 0.44 0.487
17 0.412 0.49 0.582 0.645 30 0.305 0.364 0.432 0.478
67
BÀI TOÁN
➢Công ty Crennor cung cấp dịch vụ quản lý danh mục đầu tư cho
khách hàng của mình. Hai trong số các chuyên gia phân tích của
Crennor đã xếp hạng mười khoản đầu tư như trong bảng.
Đầu tư A B C D E F G H I J
Chuyên gia 1 1 4 9 8 6 3 5 7 2 10
Chuyên gia 2 1 5 6 2 9 7 3 10 4 8
69
LỜI GIẢI
❖1. Xây dựng cặp giả thuyết
➢H0 : s = 0 → Không tồn tại tương quan hạng giữa hai chuyên
gia phân tích
➢H1 : s ≠ 0 → Tồn tại tương quan hạng giữa hai chuyên gia
phân tích
❖2. Chọn mức ý nghĩa =5%
❖3. Tính thống kê kiểm định
6 σ 𝑑𝑖2 6(92)
➢𝑟𝑠 = 1 − =1− = 0.4424
𝑛(𝑛2 −1) 10(100−1)
➢𝑧 = (𝑟𝑠 − 𝑟 )/𝑟 = (.4424 - 0)/.3333 = 1.33
70
➢Trong đó:
1
➢𝜎𝑟𝑠 = = .333
10−1
❖Bước 1. Nhập liệu vào SPSS và lưu tên File Nhadautu với 3 trường:
➢ Danhmuc: Danh mục đầu tư
➢ Chuyengia1: Chuyên gia phân tích 1
➢ Chuyengia2: Chuyên gia phân tích 2
74
❖Trường hợp sử dụng thông tin mẫu, Skewness của tổng thể được
ước tính bằng
σ𝑛
𝑖=1 𝑥𝑖 −𝑥᪄
3
➢ Skewness =
𝑛𝑠 3
❖Và Kurtosis được ước lượng bởi
σ𝑛
𝑖=1 𝑥𝑖 −𝑥᪄
4
➢ Kurtosis =
𝑛𝑠 4
79
❖Trong nhiều trường hợp, hai tham số tổng thể có thể được ước
lượng bằng công thức sau:
𝑛 (n−1)
➢Skewness = ×H
n−2
(n−1)𝑛(𝑛+1) 3(𝑛−1)2
➢Kurtosic = K −
(𝑛−2)(𝑛−3) (𝑛−2)(𝑛−3)
σ(𝑥i −𝑥)ҧ 3 σ 𝑥i −𝑥ҧ 4
➢Trong đó: H= σ(𝑥i −𝑥)ҧ 2 2
và K= 2
[σ 𝑥i −𝑥ҧ 2 ]
❖Đối với phân phối chuẩn
➢Hệ số đối xứng (Skewness Coefficient) = 0
➢Hệ số độ nhọn (Kurtosic Coefficient) = 3
80
❖Xấp xỉ Chi bình phương chỉ gần với cỡ mẫu rất lớn
❖Nếu cỡ mẫu không quá lớn, thống kê kiểm định Bowman-
Shelton được so sánh với các điểm có ý nghĩa từ Bảng 6.1.
Table 6.1 Significance Points of the Jarque–Bera Statistic (Bera and Jarque 1981)
Sample size N 10% point 5% point Sample size N 10% point 5% point
20 2.13 3.26 200 3.48 4.43
30 2.49 3.71 250 3.54 4.61
40 2.7 3.99 300 3.68 4.6
50 2.9 4.26 400 3.76 4.74
75 3.09 4.27 500 3.91 4.82
100 3.14 4.29 800 4.32 5.46
125 3.31 4.34 ∞ 4.61 5.99
150 3.43 4.39
82
❖Nhiệt độ trung bình hàng ngày đã được ghi lại trong 200 ngày
được chọn ngẫu nhiên, với độ lệch của mẫu là 0.232 và độ nhọn
là 3.319.
❖Kiểm định giả thuyết H0 rằng phân phối thực sự là chuẩn
2
(Skewness)2 Kurtosis−3 (0.232)2 (3.319−3)2
➢ JB = n + = 200 + =
6 24 6 24
2.642
❖Từ Bảng 6.1, giá trị tới hạn 10% đối với n = 200 là 3.48, vì vậy
không có đủ bằng chứng để bác bỏ 𝐻0 nên chấp nhận 𝐻0 .
❖Kết luận: Với mức ý nghĩa 10, có thể kết luận rằng nhiệt độ
trung bình hàng ngày tuân theo phân phối chuẩn.
83
σ 𝑥i −𝑥ҧ 4 37.4335
➢ K= = =0.260319214
[σ 𝑥i −𝑥ҧ 2 ]
2
12.59572 2
(n−1)𝑛(𝑛+1) 3(𝑛−1)2
❖Kurtosic = K −
(𝑛−2)(𝑛−3) (𝑛−2)(𝑛−3)
=23.31428571 * 0.260319214 - 3.657143 = 2.412013531
2
(Skewness)2 Kurtosis−3
❖JB = n +
6 24
(1.375070675)2 (2.412013531−3)2
= 17 × + = 5.371729
6 24
❖Tra bảng phân phối 𝜒 2 với bậc tự do là 2 và mức ý nghĩa 5%, kết quả
2
là 𝜒0.05 (2)=5.991.
2
➢ Vì JB= 5.371729 < 𝜒0.05 (2)=5.991
❖Kết luận: Với mức ý nghĩa 5% có thể kết luận, điểm bình quân tuân
theo phân phối chuẩn.
86
❖Cách tiếp cận cơ bản được sử dụng trong kiểm định Shapiro-
Wilk (SW) về tính chuẩn như sau:
➢Sắp xếp dữ liệu theo thứ bậc tăng dần sao cho 𝑥1 ≤ … ≤ 𝑥𝑛 .
➢Tính SS như sau:
✓ SS= σ𝑛𝑖=1 𝑥𝑖 − 𝑥᪄ 2
❖Tìm giá trị trong Bảng Shapiro-Wilk (với giá trị n đã cho) gần
nhất với W, nội suy nếu cần. Đây là p-value cho kiểm định.
❖Ví dụ: giả sử W = 0.975 và n = 10. Dựa trên Bảng 6.3 của Bảng
Shapiro-Wilk, p-value của kiểm định nằm trong khoảng từ 0.90
(W = 0.972) đến 0.95 (W = 0.978) .
88
n= … 9 10 11 12 13 14 15 16 17 18 …
a1 0.5888 0.5739 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4968 0.4886 …
a2 0.3244 0.3291 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 …
a3 0.1976 0.2141 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 …
a4 0.0947 0.1224 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 …
a5 0.0399 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 …
a6 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 …
a7 0.0240 0.0433 0.0593 0.0725 0.0837 …
a8 0.0196 0.0359 0.0496 …
a9 0.0163 …
a10 …
…
89
p
n 0.01 0.02 0.05 0.1 0.5 0.9 0.95 0.98 0.99
3 0.753 0.756 0.767 0.789 0.959 0.998 0.999 1.000 1.000
… … … … … … … … … …
9 0.764 0.791 0.829 0.859 0.935 0.972 0.978 0.984 0.986
10 0.781 0.806 0.842 0.869 0.938 0.972 0.978 0.983 0.986
11 0.792 0.817 0.850 0.876 0.940 0.973 0.979 0.984 0.986
12 0.805 0.828 0.859 0.883 0.943 0.973 0.979 0.984 0.986
13 0.814 0.837 0.866 0.889 0.945 0.974 0.979 0.984 0.986
14 0.825 0.846 0.874 0.895 0.947 0.975 0.980 0.984 0.986
15 0.835 0.855 0.881 0.901 0.950 0.975 0.980 0.984 0.987
16 0.844 0.863 0.887 0.906 0.952 0.976 0.981 0.985 0.987
17 0.851 0.869 0.892 0.910 0.954 0.977 0.981 0.985 0.987
18 0.858 0.874 0.897 0.914 0.956 0.978 0.982 0.986 0.988
… … … … … … … … … …
90
❖Jarque-Bera
➢ Rất hiệu quả.
➢ Skewness và kurtosis có sẵn trong SPSS
➢ JB không có sẵn trong SPSS.
❖Kolmogorov-Smirnov
➢ Không nhạy cảm với các vấn đề ở đuôi.
➢ Tốt với tập dữ liệu n > 50.
➢ Có sẵn trong SPSS
❖Shapiro-Wilks
➢ Không hoạt động tốt nếu một số giá trị trong tập dữ liệu giống nhau.
➢ Hoạt động tốt nhất cho các tập dữ liệu có n < 50, nhưng có thể được
sử dụng với các tập dữ liệu lớn hơn.
➢ Có sẵn trong SPSS.
94
❖Dữ liệu mẫu có phù hợp với phân phối giả thuyết H0 ?
➢Ví dụ:
✓ Các kết quả mẫu có phù hợp với xác suất dự kiến đã chỉ định
không?
✓ Các cuộc gọi hỗ trợ kỹ thuật có giống nhau vào tất cả các ngày
trong tuần không? (tức là, các cuộc gọi có tuân theo phân phối
đồng đều không?)
✓ Các phép đo từ quy trình sản xuất có tuân theo phân phối chuẩn
không?
95
❖Các cuộc gọi hỗ trợ kỹ thuật có giống nhau vào tất cả các ngày
trong tuần không? (tức là, các cuộc gọi có tuân theo phân phối
đồng đều không?)
➢Dữ liệu mẫu cho 10 ngày mỗi ngày trong tuần trên bảng.
Tổng số cuộc gọi cho ngày này
Thứ hai 290
Thứ ba 250
Thứ Tư 238
thứ năm 257
Thứ sáu 265
Thứ bảy 230
Chủ nhật 192
96
➢Trong đó:
✓ K = số danh mục
0 2
✓ 𝑂𝑖 = tần suất quan sát cho loại i Không bác Bác bỏ 𝐻0
✓ 𝐸𝑖 = tần suất ky vọng cho danh mục i bỏ 𝐻0 2
❖Miền bác bỏ:
➢Bác bỏ 𝐻0 nếu 𝜒 2 > 𝜒α2 (df)
98
❖ Kết luận
➢ 𝜒 2 = 23.05 >2.05 (6)= 12.5916 nên Bác bỏ𝐻0 và
kết luận rằng phân phối không đồng đều.
99
Totals C1 C2 … Cc N
100
❖BÀI TOÁN
➢ Có tài liệu về 300 sinh viên về giói tính và Tay thuận
tay thuận như bảng bên. Xem xét giữa Giới Tổng
giới tính và tay thuận có liên quan với tính Trái Phải
nhau hay không?
❖LỜI GIẢI Nữ 12 108 120
❖1. Cặp giả thuyết
Nam 24 156 180
➢ 𝐻0 : Không có mối liên quan giữa tay
thuận và giới tính
Tổng 36 264 300
➢ 𝐻1 : Có mối liên quan giữa tay thuận và
giới tính
❖2. Chọn mức ý nghĩa 5%.
104
Chi-Square Tests
Asymptotic Exact Sig. Exact Sig.
Value df Significance (2-sided) (2-sided) (1-sided)
a
Pearson Chi-Square .758 1 0.384
b
Continuity Correction 0.475 1 0.491
Likelihood Ratio 0.772 1 0.380
…
110
BÀI TOÁN
➢Có tài liệu về Tổng doanh thu qua một số năm được thu thập và
lưu trong File companies.sav. Doanh thu hàng năm có mối quan
hệ với nhau ở mức độ nào?
LỜI GIẢI
➢Dùng hệ số Kendall’s Tau đã tạo sẵn trong SPSS để xem xét mối
liện hệ giữa Tổng doanh thu qua các năm.
112
Correlations
DT14 DT15 DT16 DT17 DT18
Kendall's tau_b DT14 Correlation Coefficient 1.000 .735** .749** .721** .355
Sig. (2-tailed) . .000 .000 .001 .089
N 15 15 15 15 15
DT15 Correlation Coefficient .735** 1.000 .674** .762** .392
Sig. (2-tailed) .000 . .001 .000 .059
N 15 15 15 15 15
DT16 Correlation Coefficient .749** .674** 1.000 .628** .251
Sig. (2-tailed) .000 .001 . .002 .223
N 15 15 15 15 15
DT17 Correlation Coefficient .721** .762** .628** 1.000 .200
Sig. (2-tailed) .001 .000 .002 . .333
N 15 15 15 15 15
DT18 Correlation Coefficient .355 .392 .251 .200 1.000
Sig. (2-tailed) .089 .059 .223 .333 .
N 15 15 15 15 15
**. Correlation is significant at the 0.01 level (2-tailed).
Chương 07
2
❖Phân tích hồi quy nghiên cứu sự phụ thuộc của một biến, gọi là
biến phụ thuộc vào một hoặc nhiều biến khác, gọi là các biến
độc lập (hay còn gọi là biến giải thích), nhằm ước lượng giá trị
trung bình của biến phụ thuộc.
❖Nhiệm vụ
➢Ước lượng giá trị trung bình của biến phụ thuộc.
➢Kiểm định về bản chất của sự phụ thuộc giữa các biến.
➢Dự đoán giá trị của biến phụ thuộc, gồm có dự đoán giá trị trung
bình và cá biệt của biến phụ thuộc dựa vào giá trị của biến độc
lập đã biết.
5
❖Vận dụng phân tích hồi qui vào số liệu kinh tế nhằm kiểm
nghiệm các mô hình do các nhà kinh tế toán đề xuất và xác định
các ước lượng bằng số.
❖Phân tích các vấn đề kinh tế hiện thời dựa trên vận dụng đồng
thời lý thuyết và thực tế được thực hiện bởi các suy đoán thích
hợp.
❖Các nhà hoạch định chính sách muốn xem xét mối quan hệ phụ
thuộc giữa chi tiêu của các hộ gia đình với thu nhập, qui mô, tài
sản…
❖Các nhà quản trị sản xuất muốn xem xét mối quan hệ phụ thuộc
giữa chi phí sản xuất với khối lượng sản phẩm, giữa kết quả sản
xuất với các các yếu tó đầu vào như vốn, lao động, công nghệ...
6
❖Các nhà nghiên cứu marketing muốn xem xét mối quan hệ phụ
thuộc giữa khối lượng sản phẩm bán ra với giá cả; doanh thu
phụ thuộc như thế nào vào chi phí quảng cáo…
❖Các nhà kinh tế nông nghiệp muốn nghiên cứu mối quan hệ phụ
thuộc giữa năng suất thu hoạch với nhiệt độ, giống cây trồng,
lượng phân bón, vùng…
❖Sản lượng thu hoạ ch phụ thuọ c vào lượng phân bón, lượng
nước tưới tiêu,…;
❖Các nhà phân tích thị trường chứng khoán nghiên cứu mó i liên
hệ giá của cổ phiếu với các đặc trưng của công ty phát hành cổ
phiếu đó, cũng như với tình hình chung của nền kinh tế.
7
❖Doanh thu bán hàng phụ thuộc như thế nào vào giá bán, chi phí
quảng cáo, thu nhập của khách hàng;
❖GDP của nè n kinh tế phụ thuọ c vào vó n, lao đọ ng, nguò n tài
nguyên, công nghệ…;
❖Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời
gian, mùa, vùng;
❖Tỷ suất sinh của phụ nữ phụ thuộc vào tỷ lệ ché t của trẻ em,
mức thu nhập bình quân đầu người, trình độ văn hoá;
❖Thu nhập của người lao động phụ thuộc vào trình độ chuyên
môn, nghề nghiệp, số năm kinh nghiẹ m...
8
❖Trong mô hình hồi qui, thuật ngữ tuyến tính có thể được diễn
giải theo hai cách khác nhau
➢Tuyến tính theo biến: Ý nghĩa đầu tiên và có lẽ là “tự nhiên” hơn
của tuyến tính là Y là một hàm tuyến tính của biến X. Theo cách
giải thích này, hàm hồi quy như 𝑌 = 𝛽1 + 𝛽2 𝑋 2 + 𝜀 không
phải là hàm tuyến tính vì biến X xuất hiện bậc 2.
➢Tuyến tính theo tham số: Cách giải thích tuyến tính thứ hai là Y,
là một hàm tuyến tính của các tham số , có hoặc không tuyến
tính theo biến X. Theo cách giải thích này 𝑌 = 𝛽1 + 𝛽2 𝑋 2 + 𝜀
là hồi quy tuyến tính theo tham số.
CHÚ Ý: Thông thường, trong mô hình hồi qui, thuật ngữ tuyến
tính thường được hiểu là tuyến tính theo tham số. Như vậy, 𝑌 =
𝛽1 + 𝛽2 𝑋 2 + 𝛽2 𝑋 3 + 𝜀 thường được gọi là hồi qui tuyến tính.
10
Hệ số
chặn
1
Hệ số Đường hồi quy
chặn
Hệ số 1 Hệ số góc 2 =0
chặn
1
x x x
Mối quan hệ tuyến tính dương Mối quan hệ tuyến tính âm Không có mối quan hệ
Positive Linear Relationship Negative Linear Relationship No Relationship
11
➢Trong đó:
✓ 𝑥𝑖 = giá trị của biến độc lập cho quan sát thứ i
✓ 𝑦𝑖 = giá trị của biến phụ thuộc cho quan sát thứ i
ҧ giá trị trung bình của biến độc lập
✓ 𝑥=
ത giá trị trung bình của biến phụ thuộc
✓ 𝑦=
➢Hệ số chặn
✓ 𝑏1 = 𝑦lj − 𝑏2 𝑥lj
15
❖Ví dụ: Reed Auto thực hiện nhiều quảng cáo truyền hình vào
cuối tuần trước đợt giảm giá. Dưới đây là dữ liệu từ mẫu của 5
lần bán hàng:
Số lượng quảng cáo
truyền hình Số lượng ô tô đã bán
(X) (Y)
1 14
3 24
2 18
1 17
3 27
𝑥 = 10 y= 100
𝑥ҧ = 2 𝑦ത = 2
16
❖LỜI GIẢI
➢Hệ số góc
σ(𝑥𝑖 −𝑥)(𝑦
lj lj
𝑖 −𝑦) 20
✓ 𝑏2 = σ(𝑥𝑖 −𝑥)lj 2
= =5
4
➢Hệ số chặn
✓ 𝑏1 = 𝑦lj − 𝑏2 𝑥lj = 20 − 5(2) = 10
➢Phương trình hồi quy
✓Y = 10 + 5X
➢Giải thích ý nghĩa của các hệ số hồi qui
✓ 𝑏1 = 10→ Khi X=0, Y =10 điều này có nghĩa không thực hiện
quảng cáo thì lượng bán bình quân sẽ là 10 chiếc.
✓ 𝑏2 =5 → Nếu tăng một lần quảng cáo thì bình quân lượng xe bán
tăng 5 chiếc.
17
❖Tính chất: 0 ≤ 𝑟 2 ≤ 1
➢ 𝑟 2 = 1: Ðường hồi qui phù hợp “hoàn hảo”
➢ 𝑟 2 = 0: Không có mối liên hệ tương quan giữa X và Y.
❖Ý nghĩa:
➢ Đo lường mức độ phù hợp của mô hình;
➢ Phản ảnh tỷ lệ % phần biến động của Y giải thích được bằng đường
hồi qui trong toàn bộ biến động của biến phụ thuộc Y.
❖Nhằm đánh mối liên hệ tương quan giữa biến phụ thuộc Y với biến
giải thích X, chúng ta dùng hệ số tương quan mẫu
σ 𝑥𝑖 𝑦𝑖
➢ 𝑟𝑥𝑦 =
σ 𝑥𝑖 2 σ 𝑦𝑖 2
❖Tuy nhiên, trong hồi qui đơn, hệ số tương quan được tính như sau
➢ 𝑟𝑥𝑦 = sgn(b2 ) Hệ số xác định=sgn(b2 ) 𝑟 2
➢ Trong đó:
= 𝑏1 + 𝑏2 X
✓ 𝑏2 = Hệ số góc của phương trình hồi quy ước lượng Y
✓ Sgn (x) là hàm dấu của x
❖VÍ DỤ: Bán ô tô Reed
➢ 𝑟𝑥𝑦 = sgn( b2 ) 𝑟 2
❖Dấu của 𝑏2 trong phương trình hồi qui 𝑌 = 10 + 5X là dấu“+”.
➢ 𝑟𝑥𝑦 = + .8772 = .9366
20
❖Để kiểm định sự tồn tại của hồi quy, chúng ta tiến hành kiểm
định giả thuyết giá trị của hệ số góc 𝛽2 là bằng 0 hay không. Hai
kiểm định thường được sử dụng là kiểm định t và F. Cả hai kiểm
định t và F yêu cầu phương sai của 𝜀 (𝜎 2 ).
❖Tuy nhiên, chúng ta không có 𝜎 2 mà dùng ước lượng của nó
➢Trung bình bình phương sai số (MSE) là ước lượng của 𝜎 2 , và
được ký hiệu 𝑠 2
✓ 𝑠 2 = MSE = SSE/(n - 2)
➢Trong đó: SSE = σ( 𝑦𝑖 − 𝑦ො𝑖 )2 = σ(𝑦𝑖 − 𝑏1 − 𝑏2 𝑥𝑖 )2
❖Giá trị s được gọi là sai số chuẩn của ước lượng (The standard
error of the estimate).
SSE
➢𝑠 = MSE =
𝑛−2
21
❖4. Sử dụng thống kê kiểm định để tính p-value hay giá trị tới hạn
𝑡𝛼/2 (𝑛 − 2)
❖5. Quyết định bác bỏ giả thuyết 𝐻0 hay không
➢ Bác bỏ 𝐻0 nếu p-value ≤ hoặc là 𝑡 ≤ −𝑡𝛼 n − 2 hoặc 𝑡 ≥ 𝑡𝛼 (n − 2)
2 2
❖6. Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng
22
❖Trong đó:
➢ 𝑏j là ước lượng điểm
➢ 𝑡𝛼 /2 (𝑛 − 2) × 𝑆𝑒(𝑏𝑗 ) là biên độ sai số
➢ 𝑡𝛼 /2 (𝑛 − 2) là giá trị tới hạn t với mức ý nghĩa /2 và bậc tự do n - 2
➢ 1- gọi là hệ số tin cậy (confidence coefficient)
24
❖Bảng ANOVA
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
b
Regression 100.000 1 100.000 21.429 .019
Residual 14.000 3 4.667
1 Total 114.000 4
a. Dependent Variable: Y
b. Predictors: (Constant), X
Phần 2
31
❖Mô hình hồi qui bội là mô hình trong đó biến phụ thuộc phụ
thuộc vào ít nhất hai biến giải thích.
❖Những ứng dụng:
➢Doanh thu bán hàng phụ thuộc vào giá bán, chi phí quảng cáo,
thu nhập của khách hàng.
➢Chi phí sản xuất phụ thuộc vào khối lượng sản phẩm sản xuất,
qui trình công nghệ, trình độ lành nghề của người lao động.
➢Tiêu dùng của dân cư phụ thuộc vào thu nhập khả dụng, thời
gian, mùa, vùng...
❖Khái quát, chúng ta có n quan sát và mỗi quan sát gồm k trị số
(Yi , X2i , … , Xki ), i = 1, n
32
b1, b2, . . . , bk
Phương trình hồi quy bội
Cung cấp ước lượng về
1, 2, . . . , k 𝑌 = 𝑏1 𝑋1 + 𝑏2 𝑋2 +. . . +𝑏𝑘 𝑋𝑘
Thống kê mẫu là
b1, b2, . . . , bk
35
n b1 + b 2 X 2i + + b k X ki = Y
i
b1 X 2i + b 2 X 2i2 + + b k X 2i X ki = YX
i 2i
b1 X ki + b 2 X 2i X ki + + b k X ki2 = YX
i ki
❖Giả sử chúng ta tin rằng lương hằng năm có liên quan đến số
năm kinh nghiệm và điểm kiểm tra năng khiếu theo hồi quy mô
hình sau:
➢Mô hình hồi qui tổng thể ngẫu nhiên: Y = 𝛽1 + 𝛽2 X2 + 𝛽3 X 3 + 𝜀
➢Mô hình hồi qui mẫu ngẫu nhiên: Y = b1 + b2 X 2 + b3 X 3 + e
❖Trong đó:
➢𝑌 = Lương hằng năm (1000USD)
➢X 2 = Số năm kinh nghiệm (Năm)
➢X 3 = Điểm kiểm tra năng khiếu
39
❖Phương trình hồi quy ước lượng là: 𝑌 = 2,951 + 1.406X2 + 0.253X3
❖Hay theo dạng ngẫu nhiên: Y= 2.951 + 1.406X2 + 0.253X3+e
41
❖Với kết quả ước lượng, có thể giải thích như sau:
➢𝑏1 =2.951: Lương trung bình hằng năm khi số năm kinh
nghiệm và điểm kiểm tra năng khiếu đều bằng 0.
➢𝑏2 = 1.406: Nếu số năm kinh nghiệm tăng thêm một năm trong
điều kiện điểm kiểm tra năng khiếu không đổi thì Lương hằng
năm tăng bình quân 1406 USD.
➢𝑏3 = 0.253: Nếu điểm kiểm tra năng khiếu tăng thêm một điểm
trong khi số năm kinh nghiệm không đổi thì Lương hằng năm
tăng bình quân 253USD.
42
❖Tính chất: Với công thức như trên, giá trị của hệ số xác định sẽ
nằm trong đoạn 0 và 1, tức: 0 ≤ 𝑟 2 ≤ 1
➢𝑟 2 = 1: Ðường hồi qui phù hợp “hoàn hảo” hay đường hồi qui đi
qua tất cả các quan sát;
➢𝑟 2 = 0: Không có mối liên hệ tương quan giữa X và Y.
❖Ý nghĩa:
➢Đo lường mức độ phù hợp của mô hình;
➢Phản ảnh tỷ lệ % phần biến động của Y giải thích được bằng
đường hồi qui trong toàn bộ biến động của biến phụ thuộc Y.
44
❖ANOVA
ANOVAa
Model Sum of Squares df Mean F Sig.
Square
Regression 479.267 2 239.633 36.605 .000b
1 Residual 98.196 15 6.546
Total 577.463 17
a. Dependent Variable: Y
b. Predictors: (Constant), X2, X3
❖𝑅2 = 𝑆𝑆𝑅/𝑆𝑆𝑇=479.267/577.463=0.830
➢ 𝑅 2 =0.83: lớn nên mô hình rất phù hợp
➢ 𝑅 2 = 0.83: trong 100% phần biến động trong mức lương hàng năm
được giải thích bởi 83% sự thay đổi do 2 biến giải thích: Số năm kinh
nghiệm và điểm kiểm tra năng khiếu của lập trình viên.
46
❖Việc thêm các biến độc lập, ngay cả những biến không có ý
nghĩa thống kê, sẽ làm cho sai số dự đoán trở nên nhỏ hơn, do
đó làm giảm tổng bình phương do sai số, SSE.
❖Vì SSR = SST – SSE nên khi SSE càng nhỏ thì SSR càng lớn, nên
𝑟 2 = SSR/SST sẽ tăng.
❖Hệ số xác định bội điều chỉnh bù cho số lượng biến độc lập
trong mô hình.
𝑆𝑆𝐸 Τ 𝑛−k
ത 2
➢𝑅 = 1 − Τ
𝑆𝑆𝑇 𝑛−1
❖Thật dễ dàng để thấy rằng 𝑅᪄ 2 và 𝑅2 có liên quan với nhau vì
𝑛−1
➢𝑅𝑎2 = 1 − (1 − 𝑅 2 )
𝑛−k
❖Hệ số xác định điều chỉnh rất hữu ích để so sánh mức độ phù
hợp của các mô hình hồi quy khác nhau với nhau.
47
20−1
❖𝑅𝑎2 = 1 − (1 − .830) = .807
20−3
48
❖Trong hồi quy tuyến tính đơn, kiểm định F và t đưa ra cùng một
kết luận.
❖Trong hồi quy bội, kiểm định F và t có những mục đích khác
nhau.
➢Kiểm định F được gọi là kiểm định ý nghĩa chung cho cả mô
hình.
➢Kiểm định t được tiến hành cho từng biến độc lập trong mô
hình.
49
❖Đầu ra ANOVA
Sum of Mean
Model df F Sig.
Squares Square
b
1 Regression 479.267 2 239.633 36.605 .000
Residual 98.196 15 6.546
Total 577.463 17
a. Dependent Variable: Y
b. Predictors: (Constant), X2, X3
p-value dùng để kiểm
❖Thống kê kiểm định định ý nghĩa chung
➢F = MSR/MSE =239.633/6.546=36.605
❖Kết luận
➢P-value < 0.05. vì vậy chúng ta có thể bác bỏ 𝐻0 .
➢Ngoài ra. F =36.605> 3.59
52
❖Khi thực hiện những suy đoán thống kê về các tham số hồi qui,
chúng ta có thể đề xuất giả thuyết về 𝑗 , chẳng hạn H0 : 𝑗 = ∗𝑗
❖Chúng ta có
➢t = (bj − βj )/Se(bj )~T(n − k)
❖Nếu H0 đúng, chúng ta có
➢ t = (bj − β∗j )/Se(bj )~T(n − k)
❖Các cặp giả thuyết
➢Hai phía: H0 : j = ∗j và H1 : j ≠ ∗j
➢Bên trái: H0 : j ≥ j∗ và H1 : j < ∗j
➢Bên phải: H0 : j ≤ ∗j và H1 : j > ∗j
54
4 Sử dụng mức ý nghĩa , bảng phân phối t để tính giá trị tới hạn phù hợp
So sánh thống kê kiểm định và giá trị tới hạn để quyết định bác bỏ H0
hay không
5 Bên trái: Bác bỏ H0 nếu t -𝑡 (𝑛 − 𝑘)
Bác bỏ H0 nếu t𝑡/2 (𝑛 − 𝑘)
Bên phải: Bác bỏ H0 nếu t 𝑡 (𝑛 − 𝑘)
6 Giải thích kết luận thống kê trong ngữ cảnh của ứng dụng.
56
❖Trường hợp đặc biệt, khi muốn kiểm định tồn tại mối quan hệ
của riêng biến 𝑋𝑗 với biến phụ thuộc. Khi đó, cặp giả thuyết sẽ
là
➢H0 : βj = 0: Không có mối quan hệ giữa biến phụ thuộc y và biến
độc lập X j
➢H1 : βj ≠ 0: Có mối quan hệ giữa biến phụ thuộc y và biến độc lập
Xj
❖Thống kê kiểm định
bj
➢t=
Se(bj ൯
CHÚ Ý:
➢Qui trình và cách tiếp cận giống trên
➢Trong các phần mềm thống kê có trình bày kết quả tính toán
thống kê t và giá trị xác suất tương ứng, với nhãn p-value hay Sig.
57
❖Ví dụ: Xem xét có tồn tại mối quan hệ giữa số năm kinh nghiệm;
điểm bài kiểm tra năng khiếu với giữa Lương hàng năm.
➢𝐻0 : 𝛽2 = 0: Không có mối quan hệ giữa Lương hằng năm và số
năm kinh nghiệm.
➢𝐻1 : 𝛽2 ≠ 0: Có mối quan hệ giữa lương hằng năm và số năm
kinh nghiệm
❖Quy tắc bác bỏ
➢Vì = 0.05 và df = n-k=18-3=15, 𝑡.025 (15) = 2.13
➢Bác bỏ 𝐻0 nếu p-value .05, hoặc nếu |t|2.13
58
❖Ngoài kiểm định các giả thuyết liên quan đến các tham số hồi
qui, chúng ta cần xác định ước lượng điểm và khoảng tin cậy
của các tham số hồi qui.
❖Ước lượng điểm của các tham số hồi qui:
➢Các hệ số hồi qui mẫu bj chính là các ước lượng điểm của các
tham số hồi qui βj
❖Ước lượng khoảng, chính là khoảng tin cậy của j . Chúng ta
dùng khoảng tin cậy đối xứng vì nó nhỏ nhất và đơn giản.
❖Khoảng tin cậy đối xứng 100(1- )% của 𝑗 là
𝑏𝑗 −𝛽𝑗
➢𝑃 −𝑡𝛼 /2 (𝑛 − k) ≤ ≤ 𝑡𝛼 /2 (𝑛 − k) = 1 − 𝛼
𝑆𝑒(𝑏𝑗 )
❖Hay khoảng tin cậy 100(1- )% của 𝑗 là
➢𝑏𝑗 − 𝑡𝛼 /2 (𝑛 − k) × 𝑆𝑒(𝑏𝑗 ) ≤ 𝛽𝑗 ≤ 𝑏𝑗 + 𝑡𝛼 /2 (𝑛 − k) × 𝑆𝑒(𝑏𝑗 )
60
❖Bản chất
➢Đa cộng tuyến là tồn tại mối quan hệ tuyến tính “hoàn hảo” giữa
một số hoặc tất cả các biến giải thích trong mô hình hồi quy.
❖Hậu quả của đa cộng tuyến
➢Các ước lượng OLS có phương sai và hiệp phương sai lớn. Từ
đó, khoảng tin cậy có xu hướng rộng hơn nhiều, dẫn đến dễ
chấp nhận “giả thuyết bằng 0”; tỷ lệ t của một hoặc nhiều hệ số
có xu hướng không có ý nghĩa thống kê.
➢Mặc dù tỷ lệ t của một hoặc nhiều hệ số không có ý nghĩa thống
kê nhưng hệ số xác định có thể rất cao.
➢Các ước lượng OLS và các sai số chuẩn của chúng có thể nhạy
cảm với những thay đổi nhỏ trong dữ liệu
62
❖Trong nhiều tình huống, biến độc lập là biến phân loại. Khi đó, phải
tạo biến giả (Dummy). Biến giả là biến nhị phân nhận giá trị 0 hoặc 1.
❖Nếu biến phân loại có 𝑚 loại, yêu cầu tm − 1 biến giả, với mỗi biến giả
được mã hóa thành 0 hoặc 1.
❖Trong biến phân loại, có một loại luôn được gán bằng 0 được gọi là
loại cơ sở (base category) hay loại tham chiếu (reference category).
➢ Ví dụ, một biến chỉ ra trình độ học vấn có thể được đại diện bởi 𝑋2 và
𝑋3 như sau:
✓ Trong trường hợp này, loại trình độ
Đại học được gọi là loại sơ sở hay loại Bậc học 𝑋𝟐 𝑋𝟑
tham chiếu.
❖Phải cẩn thận trong việc xác định và Đại học 0 0
giải thích các biến giả.
Thạc sĩ 1 0
Tiến sĩ 0 1
67
X2 Y X2 Y
(Năm) X3 X4 (1000USD) (Năm) X3 X4 (1000USD)
4 78 0 24.0 9 88 1 38.0
7 100 1 43.0 2 73 0 26.6
1 86 0 23.7 10 75 1 36.2
5 82 1 34.3 6 74 0 29.0
10 84 1 38.0 8 87 1 34.0
0 75 0 22.2 4 79 0 30.1
1 80 0 23.1 6 94 1 33.9
6 83 0 30.0 3 70 0 28.2
6 91 1 33.0 3 89 0 30.0
69
❖Hãy xem xét mô hình sau, được gọi là mô hình hồi quy hàm mũ
➢𝑌 = α𝑋𝛽 𝑒 (*)
❖Lấy logarit tự nhiên của mô hình này, chúng ta có thể viết như
sau:
➢ln𝑌 = lnα + 𝛽ln𝑋 + (**)
➢Trong đó: ln =log theo cơ số e, và trong đó: 𝑒 = 2.718
❖Mô hình này được gọi là mô hình log-log hay mô hình log kép
➢Đặt 𝛼 ∗ = ln𝛼 và 𝑌𝑖∗ = ln 𝑌𝑖 và 𝑋 ∗ = lnX, (**) trở thành:
➢𝑌 ∗ = 𝛼 ∗ + 𝛽X ∗ +
❖Ước lượng OLS 𝑎∗ và 𝑏 thu được tương ứng sẽ là ước lượng
tuyến tính không chệch tốt nhất của 𝛼 ∗ và .
❖Hệ số góc β là hệ số co giãn của Y đối với X, nghĩa là phần trăm
thay đổi của Y đối với một tỷ lệ phần trăm thay đổi của X.
74
demanded
Quantity
Y đối với X, nghĩa là % thay đổi của Y đối Y= X i–
Log of quantity
demanded
giá. lnY = ln –LnX
Log of ln
price X
75
❖Chúng ta có thể nhớ lại công thức lãi kép nổi tiếng sau đây:
➢𝑌 = 𝑌0 1 + 𝑟 𝑡
➢Trong đó: 𝑟 là tốc độ tăng trưởng kép (theo thời gian) của 𝑌.
➢Lấy logarit tự nhiên của mô hình này, chúng ta có thể viết như
sau:
➢ln(𝑌) = ln(𝑌0 ) + 𝑡 ln 1 + 𝑟
❖Đặt 𝛽1 = ln(𝑌0 ) và 𝛽2 = ln (1 + 𝑟), tạo biến mới LnY=Ln(Y), mô
hình trở thành:
➢ln𝑌 = 𝛽1 + 𝛽2 𝑡
❖Thêm phần nhiễu vào mô hình, mô hình trở thành
➢ln𝑌 = 𝛽1 + 𝛽2 𝑡 + ε
❖Mô hình này được gọi là mô hình bán logarit vì chỉ có một biến
xuất hiện ở dạng logarit.
76
❖Các mô hình thuộc loại sau đây được gọi là mô hình nghịch đảo:
1
➢𝑌 = + 𝛽 +ε
𝑋
❖Mô hình này là phi tuyến theo biến 𝑋 nhưng là tuyến tính theo α
và 𝛽 và do đó được gọi là mô hình hồi quy tuyến tính.
❖Để thực hiện hồi qui mô hình này, chúng ta tạo ra biến mới
z=1/x, khi đó mô hình trở thành:
➢𝑌 = + 𝛽z + ε
❖Mô hình này có các đặc trưng sau: khi 𝑋 tăng vô hạn, số hạn
𝛽(1/𝑋) tiến dần về không (lưu ý: 𝛽 là một hằng số) và Y tiệm
cận giá trị .
78
Y Y Y
X X
0 0 X 0
-/
–
Cost
❖Đường chi phí cận biên hình chữ U và đường
chi phí trung bình (AC) của sản lượng
➢ 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑋 2 + 𝜀
X
❖Ghi chú Output
Cost
phí trung bình (AC) của sản lượng thường có
hình chữ U—ban đầu, khi sản lượng tăng cả
MC và AC đều giảm, nhưng sau một mức sản Output
X
lượng nhất định thì cả hai đều giảm. hướng
lên trên, một lần nữa là hệ quả của quy luật
hiệu suất giảm dần
82
❖Dạng chuẩn để sản xuất một hàng hóa duy nhất với hai yếu tố:
➢Y = AL K
➢Trong đó
✓ Y = Kết quả (Giá trị gia tăng, tổng sản lượng, GDP, Lợi nhuận…)
✓ L = đầu vào Lao động
✓ K = đầu vào Vốn
✓ A = năng suất nhân tố tổng hợp
✓ α và β lần lượt là hệ số co giãn đầu ra theo vốn và lao động.
✓ Hệ số co giãn của đầu ra đo lường khả năng thay đổi đầu ra đối
với sự thay đổi về lao động hoặc vốn được sử dụng trong sản
xuất.
83
❖Chúng ta phát triển một mô hình hồi quy bội với hai biến độc
lập: 𝑥 và 𝑥 2
➢𝑦 = 𝑏0 + 𝑏1 𝑥 + 𝑏2 𝑥 2 + 𝑒
❖Mô hình này thường được gọi là mô hình đa thức bậc hai hoặc
mô hình bậc hai.
400
350
300
250 y = -0.0374x2 + 6.749x + 35.709
R² = 0.909
Sales
200
150
100
50
0
0 20 40 60 80 100 120
Months
85
❖Mặc dù không có cách tiếp cận duy nhất dẫn đến một mô hình
tốt, nhưng khi xây dựng một mô hình kinh tế lượng hãy dùng
những tiêu chí của. A. C. Harvey¹ sau đây
➢Tiết kiệm (Parsimony): Theo nguyên tắc Occam, hay nguyên tắc
tiết kiệm, gợi ý rằng một mô hình nên được giữ càng đơn giản
càng tốt.
➢Khả năng nhận dạng (Identifiability): Đối với một tập hợp dữ
liệu nhất định, các tham số ước tính phải có các giá trị duy nhất
hoặc, chỉ có một ước lượng cho mỗi tham số.
➢Mức độ phù hợp (Goodness of Fit): Giải thích càng nhiều càng
tốt sự thay đổi của biến phụ thuộc bằng các biến giải thích có
trong mô hình.
86
❖Dãy số thời gian hay còn được gọi là Chuỗi thời gian: là một chuỗi các
trị số của một biến/chỉ tiêu được sắp xếp theo thứ tự thời gian. Các trị
số của chỉ tiêu được đo tại các thời điểm hoặc thời kỳ khác nhau.
➢ Ví dụ: hàng ngày (giá cổ phiếu, báo cáo thời tiết), hàng tuần (cung
tiền), hàng tháng (tỷ lệ thất nghiệp, CPI chỉ số giá tiêu dùng), hàng quý
(GDP), hàng năm (ngân sách chính phủ), năm năm (điều tra dân số),
hoặc mười năm một lần (điều tra dân số).
❖Loại dữ liệu được gọi là dữ liệu tần số cao được thu thập trong một
khoảng thời gian cực kỳ ngắn. Trong giao dịch chớp nhoáng trên thị
trường chứng khoán và ngoại hối, dữ liệu tần số cao như vậy hiện đã
trở nên phổ biến.
❖Trong chuỗi thời gian, trình tự của các quan sát là quan trọng, trái
ngược với dữ liệu chéo thì trình tự các quan sát không quan trọng.
4
❖Mã ZEEL trong ngành chứng khoán liên kết với công ty Zee
Entertainment Enterprises Limited. Zee là một công ty truyền thông
và giải trí đa quốc gia có trụ sở tại Ấn Độ.
Date Prev Close Open High Low Last Close VWAPVolume Turnover
07/04/2021 199.9 200.95 204.25 199.8 200.5 200.4 201.71 12421910 2.50564E+14
08/04/2021 200.4 202 205.2 200.6 202 201.95 203.08 8695941 1.76601E+14
09/04/2021 201.95 202.5 208 201 206.25 206.05 205.7 11821377 2.43166E+14
12/04/2021 206.05 201.2 201.25 176.1 184.15 181.1 186.64 24875466 4.64282E+14
13/04/2021 181.1 184.85 189.25 182.1 187.9 188.05 186.48 9965317 1.8583E+14
15/04/2021 188.05 189.4 190.5 184.9 188.8 189.2 187.91 10404058 1.95498E+14
16/04/2021 189.2 189.2 196.9 189.2 196.35 193.95 193.14 7952202 1.53585E+14
19/04/2021 193.95 187 191.2 185.1 191 190.35 188.28 9346956 1.75988E+14
20/04/2021 190.35 193 201.75 192.2 197.3 197.4 197.17 15709132 3.09744E+14
22/04/2021 197.4 195.5 199.8 191.7 192.15 192.3 194.76 10203121 1.98711E+14
23/04/2021 192.3 192 193 187 188 188 190.04 8529439 1.6209E+14
…. …. …. …. …. …. …. …. …. …
5
04 03
Biến động Biến động
ngẫu nhiên chu kỳ
(Irregular
❖CHÚ Ý! Một chuỗi thời gian variation)
(Cyclical
variation)
không nhất thiết phải bao gồm tất
cả bốn thành phần này.
9
❖Giá trị quan sát trong chuỗi thời gian là tổng hoặc tích của các
thành phần:
➢ Mô hình cộng (Additive Model): 𝑌t = Tt + St + Ct × It
➢ Mô hình nhân (Multiplicative model): Yt = Tt St Ct It
➢ Trong đó:
✓ 𝑇𝑡 = Thành phần xu thế ở thời kỳ t
✓ 𝑆𝑡 = Thành phần thời vụ ở thời kỳ t
✓ 𝐶𝑡 = Thành phần chu kỳ ở thời kỳ t
✓ 𝐼𝑡 = Thành phần bất thường ở thời kỳ t
10
❖Chuỗi thời gian có thể hiển thị các thay đổi đến các giá trị tương đối
cao hơn hoặc thấp hơn trong một khoảng thời gian dài.
❖Tăng hoặc giảm có hệ thống có thể là tuyến tính hoặc phi tuyến tính.
700000
30000
600000
25000
500000
20000
400000
15000
300000
10000
200000
5000
100000
0 Thời 0 Thời
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 gian 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 gian
11
❖Thành phần thời vụ được nhận ra bằng cách xem cùng một mô hình
lặp lại trong các khoảng thời gian liên tiếp trong vòng một năm.
❖Mô hình thời vụ có thể xảy ra trong vòng một ngày, tuần, tháng, quý,
năm hoặc một số khoảng thời gian khác không quá một năm, often
hàng tháng hoặc hàng quý.
6000
5000
4000
3000
2000
1000
0
Thời gian
I II III IV I II III IV I II III IV I II III IV I II (Hàng quý)
12
❖Thành phần chu kỳ đại diện cho một mô hình theo chu kỳ bao gồm
chuyển động lên và xuống. Nó có thể kéo dài hơn một năm và đi từ
giai đoạn này sang giai đoạn khác để hoàn thành một chu kỳ.
6000
5000
4000
3000
2000
1000
0
Năm
2014
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2015
2016
2017
2018
13
❖Thành phần bất thường đề cập đến các biến động không thể kiểm
soát và không thể tránh khỏi. Nó xảy ra ngẫu nhiên, trái ngược với
những thay đổi hoặc sự xuất hiện thông thường và không liên kết với
một khuôn mẫu.
100
80
60
40
20
0
-20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
-40
-60
-80
-100
14
❖Phải đảm bảo tính tính chất có thể so sánh được giữa các mức độ
trước và sau trong dãy số.
➢ Muốn vậy thì phạm vi, nội dung và phương pháp tính toán và đơn
vị tính chỉ tiêu qua trước và sau trong dãy số phải thống nhất.
❖Các khoảng cách thời gian trong dãy số nên bằng nhau (nhất là đối
với dãy số thời kỳ).
➢ Thuận tiện cho việc xác định biến động xu thế, thời vụ, chu kỳ của
hiện tượng, thuận tiện cho việc tính toán các chỉ tiêu phân tích,
biểu diễn lên đồ thị.
15
1 2
Trung bình Thay đổi
theo thời gian tuyệt đối
Tốc độ
phát triển 3 Tốc độ tăng
4
5
Giá trị tuyệt
đối của 1%
tăng
16
❖Trung bình theo thời gian: Giá trị trung bình cộng của một chuỗi
các giá trị của biến trong một khoảng thời gian.
❖Chuỗi thời điểm (Point series)
➢Đối với chuỗi thời gian với các khoảng thời gian bằng nhau
𝑦1 𝑦𝑛
+𝑦2 +...+𝑦𝑛−1 + Giá trị hàng tồn kho
✓ 𝑦ത = 2 2
Ngày
𝑛−1 (Triệu đồng)
✓ Trong đó: 1-1 356
ത Trung bình theo thời gian;
o 𝑦: 1-2 364
1-3 370
o 𝑦𝑖 : giá trị của chỉ tiêu tại thời điểm i
1-4 352
➢VD: Trị giá hàng tồn kho 4 tháng đầu năm
✓ Trung bình hàng tồn kho 3 tháng đầu năm:
356 362
+364+370+
✓ 𝑦lj = 2 2
= 362,667
4−1
17
➢ Đối với chuỗi thời gian có các khoảng thời gian không bằng nhau:
σ𝑛
𝑖=1 𝑦𝑖 𝑡𝑖
✓ 𝑦lj = σ𝑛
𝑖=1 𝑡𝑖
✓ Trong đó:
▪ 𝑦𝑖 : Giá trị của biến y vào thời điểm i
▪ 𝑡𝑖 = khoảng thời gian ứng với giá trị biến y
18
BÀI TOÁN
➢ Có tài liệu về tình hình tang, giảm công nhân của một doanh nghiệp
trong tháng 3 như sau:
✓ Ngày 1.3 số công nhân là 300
✓ Ngày 5.3 tuyển thêm 15 công nhân
✓ Ngày 10.3 có 5 công nhân nghỉ việc
✓ Ngày 15.3 tuyển thêm 10 công nhân
✓ Ngày 21.3 tuyển thêm 5 công nhân
✓ Và đến cuối tháng không có gì thay đổi.
➢ Hãy tính số công nhân bình quân trong danh sách.
19
LỜI GIẢI
➢ Thành lập dãy số thời gian
Ngày 1.3 5.1 10.3 15.3 21.3 31.3
Số công nhân 300 315 310 320 325 325
➢ Tính số công nhân bình quân
✓ Nhận xét: cần tính khoảng thời gian mà mỗi giá trị số công nhân tồn tại
và xem nó như quyền số,
σ𝑛
𝑖=1 𝑦𝑖 𝑡𝑖 300×4+315×5+310×5+320×6+325×11 9820
➢ 𝑦lj = σ𝑛
= = = 316.77
𝑖=1 𝑡𝑖 4+5+5+6+11 31
❖Như vậy, số công nhân bình quân trong tháng 3 là 317 người.
20
BÀI TOÁN
➢Việc bán hàng của thuốc bổ nhức đầu Week Sales
nhãn hiệu Comfort (dạng chai) trong 10 1 110
tuần qua tại BBB được trình bày ở bảng 2 115
bên. BBB muốn xác định doanh số trung 3 125
bình mỗi tuần là bao nhiêu?. 4 120
5 125
LỜI GIẢI
6 120
𝑦𝑖 110+⋯+130 1200
➢ 𝑦ത = = = = 120 7 130
𝑛 10 10
8 115
❖Giải thích: 9 110
➢Doanh số trung bình mỗi tuần là 120 10 130
chai.
21
❖Thay đổi tuyệt đối đề cập đến sự khác biệt của một chỉ tiêu giữa
hai thời kỳ.
❖Các loại thay đổi tuyệt đối
➢ Thay đổi tuyệt đối liên hoàn (Chain absolute change) = Giá trị chỉ
tiêu kỳ i (𝑦𝑖 )- Giá trị chỉ tiêu kỳ i-1 (𝑦𝑖−1 )
✓ 𝛿𝑖 = 𝑦𝑖 − 𝑦𝑖−1 ∀𝑖 = 2, 𝑛
➢ Thay đổi tuyệt đối định gốc (Fixed base absolute change): Giá trị
chỉ tiêu kỳ i (𝑦𝑖 )- Giá trị chỉ tiêu kỳ gốc (𝑦0 )
✓ 𝑖 = 𝑦𝑖 − 𝑦1 ∀𝑖 = 1, 𝑛
➢ Thay đổi tuyệt đối trung bình (Average absolute change)
𝑛
𝑖=2 𝛿𝑖 𝑦𝑛 −𝑦1
✓ 𝛿ҧ = =
𝑛−1 𝑛−1
❖Chú ý: Thay đổi tuyệt đối bình quân có ý nghĩa khi các mức thay
đổi qua các giai đoạn không khác nhau nhiều.
22
❖Tốc độ phát triển là phần trăm thay đổi của chỉ tiêu giữa hai
thời kỳ.
❖Các loại tốc độ phát triển
➢Tốc độ phát triển liên hoàn (Chain development rate)
𝑦𝑖
✓ 𝑡𝑖 = ∀𝑖 = 2, 𝑛
𝑦𝑖−1
➢Tốc độ phát triển định gốc (Fixed base development rate)
𝑦𝑖
✓ 𝑇𝑖 = ∀𝑖 = 1, 𝑛
𝑦1
➢Tốc độ phát triển bình quân
ҧ n−1 t2t3 … tn
t=
❖Mối liên hệ giữa tốc độ phát triển liên hoàn với định gốc
𝑗
➢𝑇𝑗 = ς𝑘−2 𝑡𝑘
23
BÀI TOÁN
➢ Có tài liệu về tốc độ phát triển năng suất thu hoạch của một địa
phương qua các giai đoạn như sau:
Giai đoạn 2010-2015 2015-2022
Tốc độ phát triển năng trung bình năm (%) 104 105
➢ Hãy tính tốc độ phát triển bình quân mỗi năm trong cả giai đoạn từ
2010 đến 2020.
LỜI GIẢI
➢ Ứng dụng công thức sau:
σ𝑛
𝑖=1 𝑓𝑖
2
σ𝑖=1 𝑓𝑖
𝑓 𝑓 𝑓𝑛 𝑓 𝑓 5+7
➢ t=
ҧ t11 t 22 … tn = t11 t 22 = 1.045 . 1.057 = 1.046
➢ Như vậy, tốc độ phát triển bình quân mỗi năm của năng suất trong cả
giai đoạn từ 2010 đến 2020 là 104.6%.
25
❖Nhận xét: Nếu tốc độ phát triển bình quân tính từ dãy số
Thời gian 1 2 … n
Giá trị 𝑦𝑖 𝑦1 𝑦1 … 𝑦𝑛
❖Với dãy số này, tính tốc độ phát triển liên hoàn sẽ được như
sau:
Thời gian 1 2 3 … n
Tốc độ phát − 𝑡2 = 𝑦2 /𝑦1 𝑡3 = 𝑦3 /𝑦2 … 𝑡𝑛 = 𝑦𝑛 /𝑦𝑛−1
triển liên hoàn
26
❖Nếu tốc độ phát triển bình quân tính mỗi giai đoạn trong toàn
bộ thời gian thì sẽ tính theo công thức sau:
➢ t=
ҧ n−1 t 2 t 3 … t n
❖Chúng ta có thể biến đổi thành công thức sau:
n−1 y2 y3 yn n−1 yn
➢ t=
ҧ n−1
t2t3 … tn = ( ) ( )…( )=
𝑦1 𝑦2 𝑦𝑛−1 𝑦1
27
❖Tốc độ tăng là phần trăm thay đổi trong chỉ tiêu giữa hai thời kỳ.
❖Các loại tốc độ tăng
➢ Tốc độ tăng liên hoàn (Chain growth rate)
𝑦𝑖 −𝑦𝑖−1
✓ a𝑖 = ∀𝑖 = 2, 𝑛
𝑦𝑖−1
❖Chỉ tiêu này phản ảnh cứ 1% tăng của tốc độ tăng thì ứng với
một giá trị tuyệt đối là bao nhiêu. Công thức tính như sau:
𝛿𝑖
𝑐𝑖 =
𝑎𝑖 (%)
Có thể biến đổi như sau:
𝑦𝑖 − 𝑦𝑖−1 𝑦𝑖−1
𝑐𝑖 = 𝑦 − 𝑦 =
𝑖 𝑖−1
𝑥100 100
𝑦𝑖−1
29
❖Để tính toán các chỉ tiêu này, cần tạo các biến mới để lưu trữ
chúng.tạo biến mới.
❖Ví dụ: Muốn tính Lượng thay đổi tuyệt đối liên hoàn, cần tạo biến mới
với
➢ Name: TDTDLH
➢ Lable: Lượng thay đổi tuyệt đối liên hoàn.
❖Thực hiện các bước sau:
➢ Bước 1. Từ menu chính, Transform →Compute Variable... Hộp
thoại Compute Variables xuất hiện.
➢ Bước 2. Tại hộp thoại Compute Variables, nhập tên biến mới TDTDLH
vào ô target variable. Nó có thể là biến dã tồn tại hay biến mới sẽ được
them vào File đang hoạt động.
➢ Bước 3. Để xây dựng biểu thức, hãy dán các thành phần vào trường
Biểu thức hoặc nhập trực tiếp vào trường Numeric Expression, cụ thể,
nhập biểu thức LuotDukhachQT-Lag(LuotDukhachQT,1).
31
1
2
3
37
❖Tình huống ứng dụng: Dãy số thời kỳ có khoảng cách thời gian ngắn,
dao động ngẫu nhiên không lớn và có rất nhiều mức độ.
❖Cách thực hiện: Mở rộng khoảng cách thời gian từ GIỜ sang NGÀY,
Ngày sang TUẦN, từ TUẦN sang THÁNG, THÁNG sang QUÍ, QUÍ sang
NĂM.
❖Trong SPSS dùng các hàm Date Extraction: XDATE.WEEK(Datevalue);
XDATE.MONTH(Datevalue); XDATE. YEAR (Datevalue).
0.140 0.300
Millions
Millions
0.120
0.250
0.100
0.080 0.200
0.060 0.150
0.040
0.020 0.100
0.000 0.050
1 3 5 7 9 11 1 3 5 7 9 11 1 3 5 7 9 11 1 3 5 7 9 11
0.000
I II III IV I II III IV I II III IV I II III IV 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
2015 2016 2017 2018 2015 2016 2017 2018
38
❖Trung bình di động đơn (SMA: Single moving average ): là trung bình
không trọng số của k điểm dữ liệu. Số giá trị mà chúng ta sử dụng để
tính các SMA được gọi là khoảng trượt hay còn gọi là khoảng san bằng
(span) (k).
❖SMA thường được sử dụng để xác định hướng xu thế.
❖Trung bình di động gồm:
➢ Trung bình di động cuối khoảng san bằng:
σ𝑖𝑗=𝑖−𝑘 𝑦𝑗
✓ S𝑀A𝑖 =
𝑘
σ𝑖𝑗=𝑖−𝑘 𝑦𝑗 𝑦𝑖 −𝑦𝑖−𝑘−1
✓ S𝑀A𝑖 = = SMA𝑖−1 +
𝑘 𝑘
σ𝑖+1
𝑗=𝑖+1−𝑘 𝑦𝑗 𝑦𝑖+1 −𝑦𝑖−𝑘
✓ S𝑀A𝑖+1 = = SMA𝑖 +
𝑘 𝑘
39
σ𝑖𝑗=𝑖−𝑘 𝑌𝑗
Tuần Doanh số 3SMA
❖SMA𝑖 =
𝑘
(110 + 115 + 125)/3 σ3𝑗=1 𝑌𝑗 110+115+125
1 110 ➢𝑆𝑀𝐴3 = = =
3 3
2 115 116.7
3 125 116.7 σ4𝑗=2 𝑌𝑗 115+125+120
4 120 120.0
➢SMA4 = = =
3 3
5 125 123.3 120.0
6 120 121.7
7 130 125.0
8 115 121.7 ➢...
9 110 118.3 σ10
𝑗=8 𝑌𝑗 115+110+130
10 130 118.3 ➢𝑆𝑀𝐴10 = = =
3 3
118.3
40
1 110 … 125
2 115 …
120
3 125 119.375
115
4 120 121.875
5 125 123.125 110
6 120 123.125
105
7 130 120.625 0 2 4 6 8 10 12
9 110 …
10 130 …
45
❖Bậc hai: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2
❖Bậc ba: 𝐸 𝑌𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3
❖Lũy thừa: 𝐸 𝑌𝑡 = 𝛽0 𝑡 𝛽1
❖S: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 /𝑡
❖Hàm tăng trưởng: 𝐸 𝑌𝑡 = exp 𝛽0 + 𝛽1 𝑡
❖Hàm mũ:𝐸 𝑌𝑡 = 𝛽0 𝑒 𝛽1𝑡
❖…
51
❖Lượng bán hàng thuốc bổ đau đầu nhãn hiệu Comfort (chai)
trong 10 tuần qua tại BBB được hiển thị bảng bên.
Week (t) 1 2 3 4 5 6 7 8 9 10
Sales (y) 110 115 125 120 125 120 130 115 110 130
53
❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.295 .087 -.027 7.553
The independent variable is t.
❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t .727 .832 .295 .875 .407
(Constant) 116.000 5.160 22.482 .000
56
❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.429 .184 -.049 7.633
The independent variable is t.
❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t 4.061 3.750 1.649 1.083 .315
t ** 2 -.303 .332 -1.389 -.912 .392
(Constant) 109.333 8.978 12.178 .000
57
❖Model summary
Model Summary
Adjusted R Std. Error of
R R Square Square the Estimate
.650 .422 .133 6.940
The independent variable is t.
❖Coefficient table
Coefficients
Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
t 18.991 10.096 7.714 1.881 .109
t ** 2 -3.540 2.082 -16.231 -1.700 .140
t ** 3 .196 .125 9.048 1.571 .167
(Constant) 92.500 13.469 6.868 .000
59
❖Trong thực tế, sự biến động của một số hiện tượng kinh tế - xã hội
thường có tính thời vụ - nghĩa là hằng năm, vào khoảng thời gian nhất
định, mức độ của hiện tượng tăng cao và đến thời gian khác thì mức
độ lại giảm đi rất rõ.
❖Tính thời vụ có thể do nhiều yếu tố khác nhau, chẳng hạn như thời
tiết, kỳ nghỉ và ngày lễ và bao gồm các mẫu định kỳ, lặp đi lặp lại và
nói chung là đều đặn và có thể dự đoán được trong các cấp độ của
chuỗi thời gian.
❖Biến động thời vụ làm cho hoạt động của một số doanh nghiệp gặp
khó khăn, lúc quá căng thẳng, lúc thì quá nhàn rỗi.
❖Không thể loại trừ biến động thời vụ mà chỉ có thể khắc phục ảnh
hưởng của nó.
60
❖Chúng ta phải nghiên cứu biến động thời vụ nhằm đề ra những chủ
trương biện pháp phù hợp, kịp thời, hạn chế những ảnh hưởng của nó
đến sản xuất và sinh hoạt của xã hội
❖Mô tả ảnh hưởng thời vụ giúp hiểu rõ hơn về tác động của thành phần
này đối với một chuỗi cụ thể.
❖Sau khi thiết lập mô hình thời vụ, có thể thực hiện các phương pháp
để loại bỏ nó khỏi chuỗi thời gian để nghiên cứu tác động của các
thành phần khác như các biến động chu kỳ và bất thường. Việc loại bỏ
ảnh hưởng thời vụ được gọi là điều chỉnh dữ liệu thời vụ hoặc khử
thời vụ.
❖Để sử dụng các mẫu trong quá khứ của biến động thời vụ để góp phần
dự báo và dự đoán các xu thế trong tương lai.
61
❖ Phương pháp chỉ số thời vụ phụ thuộc vào mô hình mô tả các thành phần của
dãy số
➢ Mô hình nhân (Multiplicative model)
✓ Đầy đủ các thành phần Yt = Tt St Ct It
✓ Chỉ biến động thời vụ và ngẫu nhiên: Yt = St It …
✓ Biến động xu thế, thời vụ và ngẫu nhiên: Yt = Tt St It
➢ Mô hình cộng (Additive Model)
✓ Đầy đủ các thành phần: 𝑌t = Tt + St + Ct × It
✓ Chỉ biến động thời vụ và ngẫu nhiên : Yt = St + It
✓ Gồm biến động, xu thế, thời vụ và ngẫu nhiên : Yt = Tt + St +It
✓ ...
➢ Trong đó
✓ 𝑇𝑡 = Thành phần xu thế ở thời kỳ t
✓ 𝑆𝑡 = Thành phần thời vụ ở thời kỳ t
✓ 𝐶𝑡 = Thành phần chu kỳ ở thời kỳ t
✓ 𝐼𝑡 = Thành phần ngẫu nhiên ở thời kỳ t
62
❖Trường hợp giá trị của chuỗi thời gian ít hoặc không chịu tác
động của yếu tố xu thế, chỉ có biến động thời vụ và biến động
ngẫu nhiên: 𝑌𝑡 = 𝑆𝑡 𝐼𝑡 .
❖Công thức của chỉ số thời vụ:
𝑦ത 𝑖
➢𝐼𝑖 = × 100
𝑦ത0
➢Trong đó: 𝐼𝑖 : chỉ số thời vụ của thời vụ i
➢Thời vụ thường có thể tháng, quí, mùa.
✓ 𝑦ത𝑖 : Trung bình thời vụ i (Trung bình của các thời vụ cùng tên, ví
dụ các tháng/quí/mùa cùng tên qua các năm)
✓ 𝑦ത0 : Trung bình chung theo thời gian
63
❖Ví dụ:
➢ Có số liệu về doanh thu bán xăng dầu hàng quý của các công ty
xăng dầu qua các năm như bảng sau.
LỜI GIẢI
➢ Thông qua đồ thị, có thể kết luận rằng doanh số bán xăng chỉ chịu
ảnh hưởng bởi biến động thời vụ và ngẫu nhiên.
➢ Cho nên dung chỉ số thời vụ giản đơn theo công thức trên.
Năm Bình quân 100
Qúi I(%) 90
15 16 17 18 Quí 80
70
(5)=(1+2+3+
(A) (1) (2) (3) (4) (6)=(5)/5 60
4)/4 50
40
I 29 28 31 34 30.50 58.86 30
II 37 36 38 32 35.75 68.99 20
10
III 66 82 79 90 79.25 152.96 0
IV 58 57 66 66 61.75 119.18 I II III IV I II III IV I II III IV I II III IV
❖Trường hợp giá trị của chuỗi thời gian chịu tác động của yếu tố
xu thế, biến động thời vụ và biến động ngẫu nhiên theo mô hình
nhân có dạng: 𝑦𝑡 = 𝑇𝑡 𝑆𝑡 𝐼𝑡 .
❖Để xác định thành phần thời vụ, cần loại bỏ thành phần xu thế
vào ngẫu nhiên. Để thực hiện điều này, có thể dùng:
➢Số bình di động trung tâm: nếu tính thời vụ theo tháng hay quí
thì khi tính số bình quân di động trung tâm phải qua hai lần.
✓ Khi đó, chỉ số thời vụ sẽ là:
yij
σn−1
j=1 ⋅100
𝐶𝑀𝐴𝑖𝑗
✓ 𝐼i𝑆 = (%)
n−1
➢𝑦𝑖𝑗 (𝑦𝑡 ): Giá trị thực tế thời vụ i năm j
➢𝑀𝐴𝑖𝑗 (𝑀𝐴𝑡 ): Số bình quân di động trung tâm thời vụ i năm j.
65
❖Bước 3. Tính toán các chỉ số thời vụ cho từng thời kỳ i và loại tính
ngẫu nhiên
yij
σn−1
j=1 ⋅100
𝐶𝑀𝐴𝑖𝑗
❖𝐼i𝑆 = (%)
n−1
❖Bước 4. Điều chỉnh chỉ số thời vụ.
67
❖Nghiên cứu biến động thời Năm Quí Khách Năm Quí Khách
vụ trong ngành du lịch của 2011 I 7827.3 2015 I 8982.1
một địa phương từ năm II 7706.6 II 8452.5
III 8360.5 III 9309.0
1998 đến năm 2000. Số liệu IV 8503.1 IV 9439.3
được thu thập theo quý như 2012 Ta 8355.0 2016 I 9056.0
trong Bảng (1000 lượt). II 8196.9 II 8724.6
III 8924.8 III 9639.4
IV 9051.2 IV 9904.4
2013 I 8746.2 2017 I 9585.8
II 8535.5 II 9427.3
III 9305.0 III 10395.6
IV 9293.5 IV 10413.6
2014 I 9142.7 2018 I 10088.1
II 8788.8 II 9999.9
III 9297.6 III
IV 9551.6 IV
68
LỜI GIẢI
➢Biểu diễn dữ liệu lên đồ thị và qua đó nhận thấy lượng du khác
chịu ảnh hưởng của biến động thời vụ, xu thế và ngẫu nhiên
11000
10500
10000
9500
9000
8500
8000
7500
7000
I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II III IV I II
2011 2012 2013 2014 2015 2016 2017 2018
69
Lượt Mat
❖Bước 1. Tính toán trung bình di Năm Quí MA4
khách (Lần 1) (Lần 2) yt/MAt
động trung tâm lần 1, kết quả ở (1) (2) (3) (4) (5) (6)
cột 4 và. 2011 I 7827.30 #N/A #N/A
II 7706.60 8099.38 #N/A
❖Bước 2. Xác định yếu tố thời vụ & III 8360.50 8231.30 8292.59 1.00819
bất thường (𝑆𝑡 𝐼𝑡 ). Kết quả ở cột 6. IV 8503.10 8353.88 8424.41 1.00934
2012 I 8355.00 8494.95 8563.46 0.97566
II 8196.90 8631.98 8680.88 0.94425
III 8924.80 8729.78 8772.10 1.01741
IV 9051.20 8814.43 8861.95 1.02136
… … … … … …
2016 I 9056.00 9214.83 9272.96 0.97660
II 8724.60 9331.10 9397.33 0.92841
III 9639.40 9463.55 9551.39 1.00922
IV 9904.40 9639.23 9733.75 1.01753
2017 I 9585.80 9828.28 9891.93 0.96905
II 9427.30 9955.58 10018.36 0.94100
III 10395.60 10081.15 10152.73 1.02392
IV 10413.60 10224.30 10224.30 1.01852
2018 I 10088.10
II 9999.90
70
❖Có dữ liệu về số phòng được đặt (1000 lượt) được thu thập theo quí
và được trình bày trên bảng sau
Năm Quí Số phòng được đặt Năm Quí Số phòng được đặt
2013 I 7827,3 2017 I 8982,1
II 7706,6 II 8452,5
III 8360,5 III 9309,0
IV 8503,1 IV 9439,3
2014 I 8355,0 2018 I 9056,0
II 8196,9 II 8724,6
III 8924,8 III 9639,4
IV 9051,2 IV 9904,4
2015 I 8746,2 2019 I 9585,8
II 8535,5 II 9427,3
III 9305,0 III 10395,6
IV 9293,5 IV 10413,6
2016 I 9142,7 2020 I 10088,1
II 8788,8 II 9999,9
III 9297,6 III
IV 9551,6 IV
73
Số phòng Yi/ŷi=
LỜI GIẢI Năm Quí được đặt yi ŷi SiIi
❖Bước 1. Thực hiện hồi qui (A) (B) (1) (2) (3)=(1)/(3)
1993 I 7827,3 8130,1645 0,9627
➢ Thực hiện hồi qui theo mô II 7706,6 8197,0587 0,9402
hình tuyến tính ŷ𝑡 = 𝑎 + III 8360,5 8263,9529 1,0117
IV 8503,1 8330,847 1,0207
𝑏𝑇𝑡 =8063,27 + 66,89417𝑇𝑡 . 1994 I 8355,0 8397,7412 0,9949
Sau đó, chúng ta tính các giá II 8196,9 8464,6354 0,9684
III 8924,8 8531,5295 1,0461
trị ŷ𝑡 và kết quả được trình IV 9051,2 8598,4237 1,0527
bày trên cột (2). 1995 I 8746,2 8665,3179 1,0093
… … … … …
❖Bước 2. Tính toán ảnh hưởng II 8724,6 9534,9421 0,915
biến động thời vụ và biến động III 9639,4 9601,8363 1,0039
ngẫu nhiên và được trình bày IV 9904,4 9668,7305 1,0244
1999 I 9585,8 9735,6246 0,9846
trên cột (3) II 9427,3 9802,5188 0,9617
III 10395,6 9869,413 1,0533
IV 10413,6 9936,3071 1,048
2000 I 10088,1 10003,2013 1,0085
II 9999,9 10070,0955 0,993
74
❖Chúng ta sẽ mở rộng phương pháp hồi quy để bao gồm các tình huống
trong đó chuỗi thời gian chứa cả ảnh hưởng thời vụ và xu thế , không
biến động chu kỳ trong trường hợp theo mô hình cộng.
❖Trường hợp: Các thành phần kết hợp theo mô hình cộng
76
❖Các dự báo về doanh thu trung bình hàng mùa trong ba mùa của năm
5 là:
➢ Mùa 1: 𝑌ƶ = 797 + 1095.43(1) + 1189.47(0) + 36.47(13)= 2366.5
➢ Mùa 2: 𝑌ƶ = 797 + 1095.43(0) + 1189.47(1) + 36.47(14) = 2497.0
➢ Mùa 3: 𝑌ƶ = 797 + 1095.43(0) + 1189.47(0) + 36.47(15) =1344.0
80
❖Bây giờ chúng ta thảo luận về một số phương pháp dự báo phù
hợp với chuỗi thời gian:
➢ Phương pháp dựa vào lượng tăng tuyệt đối bình quân
➢ Phương pháp dựa vào tốc độ phát triển bình quân
➢ Trung bình di động
➢ San bằng hàm mũ
➢ Holt-Winters không có tính thời vụ
➢ Dự báo bằng hàm xu thế
❖Chúng thích hợp nhất cho các dự báo ngắn hạn.
81
❖Phương pháp này được sử dụng tốt đối với dãy số có các lượng
tăng tuyệt đối liên hoàn xấp xỉ nhau tức chúng thay đổi theo cấp số
cộng. Mô hình dự đoán sẽ là
➢ 𝑦ො𝑛+𝐿 = 𝑦𝑛 + 𝛿𝐿ሜ
➢ Trong đó:
✓ 𝛿ሜ là lượng tăng tuyệt đối bình quân
✓ L là tầm xa dự đoán
✓ 𝑦𝑛 là mức độ cuối của dãy số
82
❖Phương pháp này được sử dụng tốt đối với dãy số có các tốc độ
phát triển liên hoàn xấp xỉ nhau tức chúng thay đổi theo cấp số
nhân. Mô hình dự đoán sẽ là
➢ 𝑦ො𝑛+𝐿 = 𝑦𝑛 𝑡𝑖lj 𝐿
➢ Trong đó:
✓ 𝑡lj𝑖 là tốt độ phát triển bình quân
✓ L là tầm xa dự đoán
✓ 𝑦𝑛 là mức độ cuối của dãy số
83
❖Phương pháp trung bình di động sử dụng giá trị trung bình của k giá
trị dữ liệu gần nhất trong chuỗi thời gian làm dự báo cho giai đoạn
tiếp theo.
σ(K giá trị gần nhất) 𝑌𝑡 +𝑌𝑡−1 +⋯+𝑌𝑡−𝑘+1 σ𝑖𝑗=𝑖−𝑘+1 𝑌𝑗
➢ 𝐹𝑡+1 = = =
𝑘 𝑘 𝑘
❖Trong đó:
➢ 𝐹𝑡+1 = dự báo của chuỗi thời gian tại thời gian t + 1
➢ 𝑌𝑡 = Giá trị thực tế của chuỗi thời gian tại thời gian t
❖Mỗi quan sát trong tính trung bình di động cùng trọng số.
84
Week (t) 1 2 3 4 5 6 7 8 9 10
Sales (y) 110 115 125 120 125 120 130 115 110 130
85
σ𝑖𝑗=𝑖+1−𝑘 𝑌𝑗
Week Sales 3 MA Forecast ❖F𝑖+1 =
𝑘
1 110 σ3𝑗=1 𝑌𝑗 110+115+125
➢ 𝐹4 = = = 116.7
2 115 (110 + 115 + 125)/3 3 3
σ4𝑗=2 𝑌𝑗 115+125+120
3 125 ➢ 𝐹5 = = = 120.0
3 3
4 120 116.7
5 125 120.0
➢ ...
6 120 123.3
7 130 121.7
8 115 125.0
9 110 121.7 σ10
𝑗=8 𝑌𝑗 115+110+130
➢ 𝐹11 = = = 118.3
3 3
10 130 118.3
11 118.3
86
❖Phương pháp này là trường hợp đặc biệt của phương pháp trung bình
di động có trọng số. Trọng số cho các giá trị dữ liệu được tính toán tự
động và trở nên nhỏ hơn khi các quan sát cũ hơn.
❖Dự báo san bằng hàm mũ là trung bình có trọng số của tất cả các quan
sát trong chuỗi thời gian.
❖Thuật ngữ san bằng hàm mũ xuất phát từ bản chất theo hàm mũ của
sơ đồ trọng số cho các giá trị lịch sử.
89
Week (t) 1 2 3 4 5 6 7 8 9 10
Sales (y) 110 115 125 120 125 120 130 115 110 130
92
Absolute
α = 0.8 Forecast Absolute Squared Percent
Week Sales Forecast Error Error Error Error
1 110
2 115 110.00 5.00 5.00 25.00 4.35
3 125 114.00 11.00 11.00 121.00 8.80
4 120 122.80 -2.20 2.20 7.84 1.83
5 125 120.56 4.44 4.44 19.71 3.55
6 120 124.11 -4.11 4.11 16.91 3.43
7 130 120.82 9.18 9.18 84.23 7.06
8 115 128.16 -13.16 13.16 173.30 11.44
9 110 117.63 -7.63 7.63 58.26 6.94
10 130 111.53 18.47 18.47 341.27 14.21
Total 75.19 847.52 61.61
97
❖Để thực hiện phương pháp dự báo Holt-Winters, chúng ta ước lượng
t và xu thế Tt như sau:
Y
➢Y1 = Y2 T2 = Y2 − Y1
➢Yt = (1 − α)(Y
t−1 + Tt−1 ) + αYt (0 < α < 1; t = 3, 4, … , n)
t − Y
➢ Tt = (1 − β)Tt−1 + β(Y t−1 ) (0 < β < 1; t = 3, 4, … , n)
❖Trong đó, và là các hằng số làm mịn có giá trị được cố định trong
khoảng từ 0 đến 1.
❖Tại thời điểm n, chúng ta có được dự báo về các giá trị tương lai, 𝑌𝑛+ℎ
của chuỗi bằng cách Y n+h = Y
n + hTn
100
➢ T4 = 0.4T3 + 0.6 Yƶ 4 − Yƶ 3 t 𝐘𝐭 𝐭
𝐘 𝐓𝐭
➢ = 0.4 16.96 + 0.6 (175.4 − 1 133 #N/A #N/A
168.6) = 10.86 2 155 155 22
❖ Các tính toán còn lại tiếp tục theo cùng một 3 165 169 17
cách, lần lượt thiết lập, 𝑡 = 5,6, … , 11. Kết quả 4 171 175 11
của các tính toán này được thể hiện trong 5 194 192 14
Bảng bên. 6 231 223 25
❖ Bây giờ, chúng ta hãy sử dụng các ước lượng 7 274 266 36
n và xu hướng Tn này để dự báo các quan sát
Y 8 312 309 40
trong tương lai. 9 313 324 25
n+1 = Y n + Tn 10 333 338 18
➢Y
11 343 347 13
❖ và
12 - 360
n+2 = Y
➢Y n + 2Tn 13 - 373
❖ Tổng quát, trong h giai đoạn tới 14 - 386
n+h = Y
➢Y n + hTh
103
❖Từ kết quả trên, mức và ước tính xu hướng gần đây nhất là:
➢Y11 =347
➢T11 =13
❖Sau đó, dự báo cho những giai đoạn tiếp theo như sau:
➢ 𝑌12 = 347 + 13 = 360
➢ 𝑌13 = 347 + (2)(13) = 373
➢ 𝑌14 = 347 + (3)(13) = 386
➢…
104
❖Với hàm hồi qui theo thời gian, chúng ta có thể ngoại suy để xác
định giá trị của nó ở thời gian dự đoán.
❖Khi dự đoán, chúng ta có thể dự đoán giá trị trung bình hay giá trị
riêng biệt của chỉ tiêu. Mỗi một loại dự đoán như thế, có thể dự
đoán điểm và dự đoán khoảng.
❖Giả định chúng ta đã xác định được hàm hồi qui ŷ𝑖 = 𝑓(𝑡𝑖 ).
❖Như vậy, ước lượng điểm (dự đoán điểm) của chỉ tiêu dự đoán tại
thời gian n+L sẽ là:
➢ ŷ𝑛+𝐿 =f(n+L)
❖Với L là tầm xa dự đoán
105
❖Khoảng tin cậy 100(1-)% của giá trị riêng biệt dự đoán sẽ là
➢ ŷ𝑛+L 𝑡/2 (𝑛 − 𝑝)𝑆𝑒(𝑦)
❖Trong đó:
➢ 𝑡/2 (𝑛 − 𝑝) là giá trị tra bảng phân phối T với mức ý nghĩa /2 và bậc
tự do là n−p
➢ Se(y) là sai số chuẩn dự đoán và
❖Trong trường hợp mô hình hồi qui tuyến tính ŷ𝑖 = a + b𝑡𝑖 thì
1 3(𝑛+2𝐿−1)2
➢ 𝑆𝑒(𝑦) = 𝑆𝑌 1 + +
𝑛 𝑛(𝑛2 −1)
σ(𝑦𝑖 −𝑦ො 𝑖 )2
➢ Trong đó: 𝑠𝑌 =
𝑛−𝑝
106
1 3(14+2∗1−1)2
= 0.3753582* 1 + +
14 14 (14 2 −1)
❖Đo lường độ chính xác của dự báo được sử dụng để xác định mức độ
hiệu quả của phương pháp dự báo cụ thể trong việc tái tạo dữ liệu
chuỗi thời gian đã có sẵn.
❖Các phép đo độ chính xác của dự báo là những yếu tố quan trọng
trong việc so sánh các phương pháp dự báo khác nhau.
❖Bằng cách chọn phương pháp có độ chính xác tốt nhất cho dữ liệu đã
biết, chúng ta hy vọng sẽ tăng khả năng thu được dự báo tốt hơn cho
các khoảng thời gian trong tương lai.
109
❖Khái niệm chính liên quan đến việc đo lường độ chính xác của dự báo
là sai số dự báo.
➢ Sai số dự báo = Giá trị thực – giá trị dự báo
❖Đặt :
➢ 𝑌𝑡 =Giá trị thực tế của Y tại thời gian t.
➢ 𝐹𝑡 =Giá trị dự báo của Y tại thời gian t
➢ 𝑒𝑡 = Sai số dự báo= 𝑌𝑡 - 𝐹𝑡
𝑌t −F𝑡𝑡
➢ = 𝑝𝑡 % Sai số dự báo.
𝑌𝑡
110
Week (t) 1 2 3 4 5 6 7 8 9 10
Sales (y) 110 115 125 120 125 120 130 115 110 130
112
❖Chúng ta xét tài liệu giả định về giá cả và lượng bán tại một cửa
hàng như sau:
Đơn Giá bán
Mặt vị (1000đồng) Lượng bán
hàng tính Tháng 1 Tháng 2 Tháng 1 Tháng 2
A Kg 50 45 1000 1100
B M 30 24 2000 2400
C L 40 40 4000 6000
❖Căn cứ vào tài liệu trên, thực hiện tính các chỉ số nói lên biến động
về giá bán và lượng bán cho từng mặt hàng và chung cho cả 3 mặt
hàng.
118
❖Một số ký hiệu:
➢ p, q tương ứng là giá bán và lượng bán từng mặt hàng;
➢ 1,0 tương ứng là kỳ nghiên cứu (tháng 2) và kỳ gốc (tháng 1)
➢ i, I tương ứng là chỉ số các thể và chỉ số tổng hợp.
Đơn Giá bán (p)
Mặt vị (1000đồng) Lượng bán (q)
hàng tính 𝑝0 𝑝1 𝑞0 𝑞1
A Kg 50 45 1000 1100
B m 30 24 2000 2400
C L 40 40 4000 6000
119
❖Nghiên cứu biến động lượng bán của từng mặt hàng
➢ Chỉ số cá thể:
✓ 𝑖q = q1 /q0
✓ 𝑝 = q1 − q0
➢ Ví dụ nghiên cứu biến động giá mặt hàng A
q𝐴 1100
✓ 𝑖q𝐴 = 1
= = 1.1 hay 110%
q𝐴
0 1000
❖Chỉ số giá tổng hợp được phát triển cho mục đích cụ thể là đo lường
sự thay đổi kết hợp của nhiều mặt hàng.
❖Chỉ số giá tổng hợp không trọng số trong kỳ nghiên cứu/báo cáo, ký
hiệu là I, được tính như sau
σ p𝑖1
➢ Ip = σ
p𝑖0
❖Trong đó:
➢ p𝑖1 = đơn giá cho mặt hàng i trong thời kỳ nghiên cứu
➢ p𝑖0 = đơn giá cho mặt hàng i trong thời kỳ gốc
❖Chú ý: vì giá của các mặt hàng khác nhau khi cộng với nhau không có
nghĩa nên công thức này không nên dùng.
124
❖Với chỉ số tổng hợp có trọng số, mỗi mặt hang trong nhóm được
tính trọng số theo tầm quan trọng của nó, thường là số lượng bán.
❖ Đặt q 𝑖 = số lượng của mặt hàng 𝑖, chỉ số giá tổng hợp gia quyền
trong kỳ nghiên cứu được tính như sau:
σ p𝑖1 q𝑖
➢ Ip = σ
𝑝𝑖0 q𝑖
❖Chú ý: vì chúng ta đang nghiên cứu biến động giá nên cần cố định
lượng bán ở một kỳ nhất định.
125
❖Khi trọng số lượng bán được chọn ở gốc, chỉ số này được gọi là chỉ số
LASPEYRES.
σ 𝑝1 𝑞0
𝐼𝑝 =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞0 − σ 𝑝0 𝑞0
❖Khi trọng số lượng bán được chọn ở kỳ nghiên cứu, chỉ số là chỉ số
PAASCHE.
σ 𝑝1 𝑞0
𝐼𝑝 =
➢ σ 𝑝0 𝑞1
𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞1
126
σ 𝑝1 𝑞0 45×1100+24×2000+40×4000 253000
➢ 𝐼𝑝 = σ 𝑝0 𝑞0
= = = .937 ℎ𝑎𝑦 93.7%
50×1100+30×2000+40×4000 270000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞0 − σ 𝑝0 𝑞0 = 253000 − 270000 = −17000
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
6.3% và do đó làm cho doanh thu giảm 17000 ngàn đồng.
128
σ 𝑝1 𝑞1 45×1100+24×2400+40×6000 347100
➢ 𝐼𝑝 = σ 𝑝0 𝑞1
= = = .946 ℎ𝑎𝑦 94.6%
50×1100+30×2400+40×6000 367000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞1 = 347100 − 367000 = −19900
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
5,4% và do đó làm cho doanh thu giảm 19900 ngàn đồng.
129
❖Khi trọng số giá bán được chọn ở gốc, chỉ số này được gọi là chỉ số
LASPEYRES.
σ 𝑝0 𝑞1
𝐼q =
➢ σ 𝑝0 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝0 𝑞0
❖Khi trọng số lượng bán được chọn ở kỳ nghiên cứu, chỉ số là chỉ số
PAASCHE.
σ 𝑝1 𝑞1
𝐼𝑞 =
➢ σ 𝑝1 𝑞0
𝛥𝑝𝑞(q) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞0
130
σ 𝑝1 𝑞1 45×1100+24×2400+40×6000 347100
➢ 𝐼q = σ 𝑝1 𝑞0
= = = 1.371 ℎ𝑎𝑦 137.1%
45×1000+24×2000+40×6000 253000
➢ 𝛥𝑝𝑞(𝑝) = σ 𝑝1 𝑞1 − σ 𝑝1 𝑞1 = 347100 − 253000 =94100
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
37,1% và do đó làm cho doanh thu giảm 94100 ngàn đồng.
132
❖Trong thực tế, nguồn số liệu không phải bao giờ cũng có đầy đủ như
đã trình bày ở trên mà có thể ở dạng các chỉ số các thể về giá bán và
lượng bán của từng mặt hàng như sau
Chỉ số cá thể (%) Doanh thu (1000đồng)
❖Ví dụ
σ ip 𝑝0 𝑞0 0.9×50.000+.8×60.000+1.0×16000 2530000
➢ 𝐼𝑝 = σ 𝑝0 𝑞0
= =
270000 270000
➢ = .937 hay 93.7%
❖Vậy giả cả chung cho 3 loại hàng hoá kỳ báo cáo so với kỳ gốc giảm
6.3%.
134
❖Ví dụ
σ iq 𝑝0 𝑞0 1.1×50.000+1.2×60.000+1.5×16000 3670000
➢ 𝐼𝑞 = σ 𝑝0 𝑞0
= =
270000 270000
➢ = 1.359 hay 135.9%
❖Vậy, lượng bán của 3 loại hàng hoá kỳ báo cáo tăng so với kỳ gốc
3.59%.
Chương 09
2
❖Giả thiết #1: Biến phụ thuộc nên được đo ở mức khoảng hoặc tỷ lệ.
❖Giả thiết #2: Biến độc lập bao gồm hai hoặc nhiều nhóm phân loại,
độc lập.
❖Giả thiết #3: Các quan sát độc lập, nghĩa là không có mối quan hệ
nào giữa các quan sát trong mỗi nhóm hoặc giữa các nhóm với
nhau.
❖Giả thiết #4: Không nên có ngoại lai đáng kể.
❖Giả thiết #5: Biến phụ thuộc của bạn phải có phân phối xấp xỉ
chuẩn cho mỗi loại của biến độc lập.
❖Giả thiết #6: Cần phải có phương sai đồng nhất.
7
❖Giả thiết #1: Biến phụ thuộc nên được đo ở mức khoảng hoặc tỷ lệ.
❖Giả thiết #2: Biến độc lập bao gồm hai hoặc nhiều nhóm phân loại,
độc lập.
❖Giả thiết #3: Các quan sát độc lập, nghĩa là không có mối quan hệ
nào giữa các quan sát trong mỗi nhóm hoặc giữa các nhóm với
nhau.
❖Giả thiết #4: Không nên có ngoại lai đáng kể.
❖Giả thiết #5: Biến phụ thuộc của bạn phải có phân phối xấp xỉ
chuẩn cho mỗi loại của biến độc lập.
❖Giả thiết #6: Cần phải có phương sai đồng nhất.
9
❖Dữ liệu cần có để thực hiện phân tích ANOVA gồm hai biến:
➢Biến phân loại gồm k loại khác nhau (k3), mỗi loại được xem
như tổng thể.
✓ Ví dụ: Ngành nghề đào tạo; phòng ban, miền, quí…
➢Biến định lượng
✓ Ví dụ: điểm, thu nhập, doanh thu, lợi nhuận, hài lòng…
❖Giả sử rằng chúng ta muốn so sánh các trung bình của k tổng
thể, các tổng thể được giả định là có cùng phương sai. Từ k tổng
thể chọn k mẫu ngẫu nhiên độc lập có 𝑛1 , 𝑛2 , … , 𝑛𝑘 quan sát.
Chúng ta sử dụng ký hiệu 𝑥𝑗𝑖 để biểu thị quan sát thứ i trong
tổng thể thứ j. Chúng ta có thể hiển thị dữ liệu mẫu như trong
Bảng ở slide sau.
10
❖Kích thước các tổng thể có thể khác hay giống nhau.
11
❖BÀI TOÁN
➢ Công ty AutoShine đang xem xét việc tiếp
Sáp
thị một loại sáp xe hơi. Ba loại sáp khác
nhau đã được sản xuất. Để kiểm định độ Quan Loại Loại Loại
bền của những loại sáp này, chọn 5 chiếc sát 1 2 3
ô tô mới để bôi sáp loại 1, chọn 5 chiếc ô 1 27 33 29
tô với loại 2 và 5 chiếc ô tô với loại 3. Sau 2 30 28 28
đó, mỗi chiếc xe được chạy liên tục qua
3 29 31 30
máy rửa xe tự động cho đến khi lớp sáp
phủ có dấu hiệu xuống cấp. 4 28 30 32
➢ Số lần mỗi chiếc ô tô được rửa sạch trước 5 31 30 31
khi sáp bị xuống cấp được hiển thị trên
bảng bên.
➢ AutoShine phải quyết định loại sáp nào
sẽ được tung ra thị trường?
12
① Thống kê mô tả
② Ước lượng phương sai tổng thể giữa các nhóm
③ Ước lượng phương sai tổng thể trong nội bộ nhóm
④ So sánh ước lượng Phương sai: Kiểm định F
⑤ Bảng ANOVA
13
❖Trong phân tích phương sai, thường dùng những đại lượng thống
kê mô tả và thường được trình bày theo dạng bảng như sau:
(1-) % Confidence
Std. Interval for Mean
Tổng Mean Deviation Std. Lower Upper
thể 𝐧𝐣 𝐱ത 𝐣 𝒔𝒋 Error Bound Bound Min Max
1 𝑛𝑗 𝑥ҧ1 𝒔𝟏 𝑆𝑒1 LCI1 UCI1 𝑥1𝑚𝑖𝑛 𝑥1𝑚𝑎𝑥
2 𝑛𝑗 𝑥ҧ2 𝒔𝟐 𝑆𝑒2 LCI2 UCI2 𝑥2𝑚𝑖𝑛 𝑥2𝑚𝑎𝑥
… … … … … … … … …
j 𝑛𝑗 𝑥𝑗ҧ 𝒔𝒋 𝑆𝑒𝑗 LCIj UCIj 𝑥𝑗𝑚𝑖𝑛 𝑥𝑗𝑚𝑎𝑥
… … … … … … … … …
k 𝑛𝑗 𝑥ҧk 𝒔𝒌 𝑆𝑒𝑘 LCIk UCIk 𝑥𝑘𝑚𝑖𝑛 𝑥𝑘𝑚𝑎𝑥
14
❖Trong đó
nj
∑i=1 xij
➢ xത j = (j = 1,2, … , k)
nj
1 nj 2
➢ sj = ∑ xji − x᪄ j
nj i=1
➢ n = ∑K
j=1 nj
➢ Sej =sj / nj
➢ LCIj = xlj j − t /2 nj − 1 sj / nj
➢ UCIj = xlj j + t /2 nj − 1 sj / nj
15
❖Ước lượng phương sai tổng thể dựa trên sự biến động của trung
bình mẫu được gọi là trung bình bình phương giữa các nhóm và
được ký hiệu là MSB
2
𝑆𝑆𝐵 ∑𝑘 𝑛 𝑥᪄
𝑗=1 𝑗 𝑗 −𝑥᪄ҧ
➢ MSB= =
𝑘−1 𝑘−1
𝑘 𝑛𝑗 2
➢ SSB = ∑𝑗=1 ∑𝑖=1 𝑥𝑗𝑖 − 𝑥᪄𝑗
1 𝑛𝑗
➢ 𝑥𝑗lj = ∑𝑖=1 𝑥𝑗𝑖
𝑛𝑗
1 𝑛𝑗
➢ 𝑥ҧ = ∑𝑘j=1 ∑i=1 𝑥𝑖𝑗
𝑛
1 𝑘
➢ 𝑥ҧ = ∑ 𝑛 𝑥ҧ
𝑛 j=1 𝑗 𝑗
❖Tử số được gọi là tổng bình phương giữa các nhóm (SSB).
❖Mẫu số là bậc tự do liên quan đến SSB.
16
❖Ước lượng phương sai tổng thể dựa trên sự thay đổi của các quan
sát mẫu trong mỗi mẫu được gọi là trung bình bình phương trong
nội bộ nhóm và được ký hiệu là SSW.
𝑆𝑆𝑊 ∑𝑘 2
𝑗=1(𝑛𝑗 −1)𝑠𝑗
➢ MSW = =
𝑛−𝑘 𝑛−𝑘
𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ𝑗
➢ 𝑠𝑗2 =
𝑛𝑗 −1
❖Tử số được gọi là tổng bình phương trong nội bộ nhóm (SSW).
❖Mẫu số là bậc tự do liên quan đến SSW.
17
❖Với toàn bộ tập dữ liệu như một mẫu, công thức tính tổng bình
phương là SST
𝑛𝑗
➢ SST = ∑𝑘𝑗=1 ∑𝑖=1(𝑥𝑖𝑗 − 𝑥)
ሜlj 2
❖SST được phân chia thành SSB và SSW
➢ SST = SSB + SSW
❖Bậc tự do của SST được chia thành bậc tự do của SSB và bậc tự do
của SSW. Khi đó, bảng phân tích phương sai như sau:
Source of Sum of Degrees of p-
Mean Square F
Variation Squares Freedom value
Between Groups SSB k-1 MSB=SSB/(k-1) MSB/MSW
Within Groups SSW n- k MSW=SSW/(n − k)
Total SST n- 1
19
LỜI GIẢI
Gọi 𝜇1 , 𝜇2 và 𝜇3 lần lượt là số lần rửa trung bình bằng sáp Loại 1, 2 và 3.
❖1. Xây dựng cặp giả thuyết
➢ H0 : μ1 = μ2 = μ3 Số lần rửa trung bình của 3 loại sáp là như nhau.
➢ H1 : Tồn tại một loại sáp có số lần rửa trung bình tổng thể khác nhau.
❖2. Chọn mức ý nghĩa α
❖3. Tính thống kê kiểm định
➢ Tính toán bình quân và phương sai cho từng loại sáp theo công thức
sau:
1 𝑛𝑗
✓ 𝑥𝑗lj = ∑ 𝑥
𝑛𝑗 𝑖=1 𝑗𝑖
𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ 𝑗
✓ 𝑠𝑗2 =
𝑛𝑗 −1
22
❖Khi đã kết luận rằng các trung bình nhóm tổng thể là khác nhau
bằng cách bác bỏ giả thuyết KHÔNG, chúng ta cần biết có trung
bình nhóm nào khác với các trung bình nhóm khác hay không.
❖Để biết, chúng ta dùng kỹ thuật so sánh bội.
❖Việc thực hiện so sánh bội khá phức tạp vì có rất cặp cần so sánh.
Ví dụ, nếu có k loại tức k giá trị trung bình nhóm thì số cặp cần so
sánh sẽ là
𝑘! 𝑘(𝑘−1)
➢ 𝐶𝑘2 = =
2!(𝑘−2)! 2
➢ Ví dụ: k=4, thì số cặp cần so sánh là 6
❖Hiện nay có rất nhiều kỹ thuật so sánh như LSD; Tukey;
Bonferroni; Sidak; Scheffe; R-E-G-W F; R-E-G-W Q; S-N-K; Tukey's
b. Duncan...
28
❖Thủ tục MSD (Mean Significant Difference) của Tukey, còn được
gọi là phương pháp kiểm định Tukey, là một phương pháp thống
kê dùng để so sánh các cặp giá trị trung bình của các nhóm trong
phân tích phương sai (ANOVA). Thủ tục này giúp xác định rõ ràng
các cặp nhóm có sự khác biệt đáng kể về mặt thống kê. Dưới đây
là các bước thực hiện thủ tục MSD của Tukey.
❖1. Tiến hành kiểm định ANOVA
➢ Thực hiện phân tích phương sai (ANOVA) để kiểm tra xem có sự
khác biệt đáng kể giữa các nhóm hay không.
❖2. Xác định nhóm có sự khác biệt
➢ Nếu kết quả kiểm định ANOVA cho thấy có sự khác biệt đáng kể
giữa các nhóm, chúng ta sẽ tiếp tục thực hiện thủ tục MSD để xác
định cụ thể các cặp nhóm có sự khác biệt đáng kể với nhau.
29
❖BÀI TOÁN
➢ Công ty Chemitech đã phát triển một hệ
Phương pháp
thống lọc mới cho nguồn cung cấp nước
đô thị. Nhóm kỹ thuật công nghiệp chịu A B C
trách nhiệm xác định 3 phương pháp A,
58 58 48
B, C lắp ráp tốt nhất cho hệ thống lọc
mới. Các phương pháp này khác nhau về 64 69 57
trình tự các bước được sử dụng để lắp
ráp hệ thống. Các nhà quản lý tại 55 71 59
Chemitech muốn xác định phương pháp 66 64 47
lắp ráp nào có thể tạo ra số lượng hệ
thống lọc lớn nhất mỗi tuần. Kết quả là 67 68 49
số lượng đơn vị được sản xuất bởi 15
công nhân như trên Bảng bên.
31
LỜI GIẢI
❖1. Tiến hành kiểm định ANOVA
➢ Trước tiên cần tính toán một số thống kê mô tả, kết quả như trên
bảng sau:
95% Confidence
Interval for Mean
Phương Std. Std. Lower Upper
pháp N Mean Deviation Error Bound Bound Min Max
A 5 62 5.244 2.345 55.49 68.51 55 67
B 5 66 5.148 2.302 59.61 72.39 58 71
C 5 52 5.568 2.490 45.09 58.91 47 59
Total 15 60 7.838 2.024 55.66 64.34 47 71
32
➢ Bảng ANOVA
Sum of Mean
Squares df Square F Sig.
Between Groups 520.000 2 260.000 9.176 0.004
Within Groups 340.000 12 28.333
Total 860.000 14
❖Với kết quả như trên bảng ANOVA, có thể nhận xét sau:
➢ Vì Sig. =0.004 nên có thể kết luận rằng: Với mức ý nghĩa 5% có thể
kết luận rằng rằng số lượng đơn vị phẩm sản xuất trung bình của 3
phương pháp không như nhau.
❖Vậy nên cần xem xét cặp nào khác nhau?
33
K Số nhóm
df k-> 2 3 4 5 6 7 8 9 10 …
1 17.969 26.976 32.819 37.082 40.408 43.119 45.397 47.357 49.071 …
2 6.085 8.331 9.798 10.881 11.734 12.435 13.027 13.539 13.988 …
3 4.501 5.910 6.825 7.502 8.037 8.478 8.852 9.177 9.462 …
4 3.926 5.040 5.757 6.287 6.706 7.053 7.347 7.602 7.826 …
5 3.635 4.602 5.218 5.673 6.033 6.330 6.582 6.801 6.995 …
6 3.46 4.339 4.896 5.305 5.628 5.895 6.122 6.319 6.493 …
7 3.344 4.165 4.681 5.060 5.359 5.606 5.815 5.997 6.158 …
8 3.261 4.041 4.529 4.886 5.167 5.399 5.596 5.767 5.918 …
9 3.199 3.948 4.415 4.755 5.024 5.244 5.432 5.595 5.738 …
10 3.151 3.877 4.327 4.654 4.912 5.124 5.304 5.460 5.598 …
11 3.113 3.820 4.256 4.574 4.823 5.028 5.202 5.353 5.486 …
12 3.081 3.773 4.199 4.508 4.750 4.950 5.119 5.265 5.395 …
13 3.055 3.734 4.151 4.453 4.690 4.884 5.049 5.192 5.318 …
14 3.033 3.701 4.111 4.407 4.639 4.829 4.990 5.130 5.253 …
15 3.014 3.673 4.076 4.367 4.595 4.782 4.940 5.077 5.198 …
16 2.998 3.649 4.046 4.333 4.557 4.741 4.896 5.031 5.150 …
17 2.984 3.628 4.020 4.303 4.524 4.705 4.858 4.991 5.108 …
18 2.971 3.609 3.997 4.276 4.494 4.673 4.824 4.955 5.071 …
… … … … … … … … … … …
35
❖ MSD của Tukey cũng có thể được sử dụng để xây dựng ước lượng khoảng tin
cậy về sự khác biệt giữa hai trung bình tổng thể. Thủ tục chung như sau đây:
➢ 𝑥᪄𝑖 − 𝑥᪄𝑗 ± MSD
❖ Trong đó:
➢ MSD = 𝑞 (𝑘, 𝑑𝑓) 𝑀𝑆E/𝑛𝑤
✓ 𝑞𝛼 (k, n-k) được tra từ bảng phân phối Studentized Range Q với k là số nhóm
n-k là bậc tự do và mức ý nghĩa .
o 𝑛𝑤 là số lượng quan sát trong mỗi nhóm.
o df =n-k bậc tự do của MSE.
❖ Qui tắc bác bỏ giả thuyết
➢ Nếu khoảng tin cậy như biểu thức chứa giá trị 0, chúng ta kết luận rằng hai
trung bình tổng thể bằng nhau.
➢ Nếu khoảng tin cậy không chứa giá trị 0, chúng ta kết luận rằng có sự khác
biệt giữa hai trung bình tổng thể.
38
❖Bước 4. Post hoc → xuất hiện hộp thoại One-Way ANOVA: Post Hoc
Multiple Comparisons
41
❖Bước 7. Tại hộp thoại One-Way ANOVA, OK→ được kết quả.
42
❖Bảng thống kê mô tả
Descriptives
Giomoituan (Số giờ làm việc mỗi tuần)
95% Confidence
Interval for Mean
Std. Std. Lower Upper
Nhà máy 𝑛𝑗 Mean Deviation Error Bound Bound Min Max
1 5 55.000 5.09902 2.28035 48.6687 61.3313 48.00 62.00
2 5 68.000 5.14782 2.30217 61.6081 74.3919 63.00 74.00
3 5 57.000 4.94975 2.21359 50.8541 63.1459 51.00 63.00
Total 15 60.000 7.54983 1.94936 55.8190 64.1810 48.00 74.00
43
1 𝑛𝑗
❖Mean=𝑥𝑗lj = ∑ 𝑥
𝑛𝑗 𝑖=1 𝑗𝑖
∑𝑘
j=1 𝑥ҧ 𝑗 𝑛𝑗
❖ 𝑥ҧ =
∑𝑘
𝑗=1 𝑛𝑗
𝑛𝑗 2
∑𝑖=1 𝑥𝑖𝑗 −𝑥ҧ 𝑗
❖Std. Deviation= 𝑠𝑗 =
𝑛𝑗 −1
❖Bảng ANOVA
➢ Bảng ANOVA phản ảnh liệu có sự khác biệt có ý nghĩa thống kê
giữa các trung bình nhóm hay không. Theo kết quả, Sig.= 0.003 (p-
value = 0.003), nhỏ hơn 0.05. Do đó, có sự khác biệt có ý nghĩa
thống kê về số giờ làm việc trung bình giữa các nhà máy.
ANOVA
Giomoituan
Sum of Squares df Mean Square F Sig.
Between Groups 490.000 2 245.000 9.545 .003
Within Groups 308.000 12 25.667
Total 798.000 14
45
❖Như vậy, với mức ý nghĩa 5% có thể kết luận như sau:
❖Sự khác biệt về thời gian
❖BÀI TOÁN
➢File dữ liệu Chitieuthucpham.sav lưu dữ liệu về chi tiêu về thực
phẩm của các gia đình ở một số quốc gia. Cho mức ý nghĩa 5%,
hãy đánh giá xem chi tiêu trung bình của các gia đình giữa các
quốc gia có giống nhau không?
➢Chi tiêu trung bình của Trung Quốc Nhật Mỹ Việt Nam
các cặp gia đình của các 1 3 8 12
quốc gia nào khác nhau? 5 8 14 10
4 15 22 8
7 9 15 4
6 4 18 6
2 12 32 14
3 18 26 18
16 45 24
48
LỜI GIẢI
❖1. Thực hiện phân tích ANOVA
➢Bảng thống kê mô tả
95% Confidence
Interval for Mean
Std. Std. Lower Upper
N Mean Deviation Error Bound Bound Min Max
Trung Quốc 7 4.0000 2.16025 0.81650 2.0021 5.9979 1.00 7.00
Nhật 8 10.6250 5.55331 1.96339 5.9823 15.2677 3.00 18.00
Mỹ 8 22.5000 11.75949 4.15761 12.6688 32.3312 8.00 45.00
Châu Âu 8 12.0000 6.59004 2.32993 6.4906 17.5094 4.00 24.00
Total 31 12.5484 9.74966 1.75109 8.9722 16.1246 1.00 45.00
49
❖Bảng ANOVA
Sum of
Squares df Mean Square F Sig.
Between Groups 1335.802 3 445.267 7.931 0.001
Within Groups 1515.875 27 56.143519
Total 2851.677 30
➢ Vậy, với mức ý nghĩa 5%=0.05 có thể kết luận như sau: Chi tiêu
thực phẩm trung bình của cặp Trung quốc với Nhật, Trung Quốc
với Mỹ, Nhật với Châu Âu không khác nhau đáng kể còn các cặp
khác thì khác nhau đáng kể.
PHÂN TÍCH PHƯƠNG SAI
HAI YẾU TỐ
54
❖Đơn vị thực nghiệm là đối tượng quan tâm của thực nghiệm.
❖Thiết kế hoàn toàn ngẫu nhiên là thiết kế thực nghiệm trong đó
các điều trị được bố trí ngẫu nhiên cho các đơn vị thực nghiệm.
❖Nếu các đơn vị thực nghiệm không đồng nhất, thì có thể sử dụng
khối để tạo thành các nhóm đồng nhất, dẫn đến thiết kế khối ngẫu
nhiên.
55
❖Mặc dù mối quan tâm chính của chúng ta là phân tích một yếu
tố cụ thể của thực nghiệm, chúng ta có thể nghi ngờ rằng yếu tố
thứ hai có thể gây ảnh hưởng đáng kể đến kết quả.
❖Loại thiết kế này có thể được sử dụng để lấy thông tin về hai
yếu tố cùng một lúc.
❖Loại thiết kế này được gọi là thiết kế khối ngẫu nhiên.
❖Giả sử chúng ta có nhóm K và có các khối H. Chúng ta sử dụng
xij để biểu thị quan sát mẫu tương ứng với nhóm thứ i và khối
thứ j. Sau đó, dữ liệu mẫu có thể được đặt ra như trong Bảng
sau.
56
❖Kích thước các tổng thể có thể khác hay giống nhau.
57
❖Bảng ANOVA
THEO NHÓM
❖Cặp giả thuyết
➢ 𝐻0 : Trung bình tổng thể của k nhóm đều giống nhau
➢ 𝐻1 : Ít nhất một trung bình tổng thể trong nhóm khác với các trung
bình khác.
❖Thống kê kiểm định
MSB
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là b-1 và bậc
tự do ở mẫu là (k-1)(b-1) sẽ được 𝐹 (k-1, (k -1 )(b-1)),
❖Quyết định bác bỏ 𝐻0 hay không
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (b-1, (k -1 )(b-1))
62
THEO KHỐI
❖Các cặp giả thuyết
➢ 𝐻0 : Trung bình tổng thể của b khối đều giống nhau
➢ 𝐻1 : Ít nhất một trung bình tổng thể trong các khối khác với các
trung bình khác.
❖Thống kê kiểm định
MSW
➢𝐹 =
MSE
❖Giá trị tới hạn
➢ Tra bảng phân phối với mức ý nghĩa , bậc tự do ở tử là k-1 và bậc
tự do ở mẫu là (k-1)(b-1) sẽ được 𝐹 (k-1, (k -1 )(b-1)),
❖Qui tắc bác bỏ
➢ Bác bỏ 𝐻0 nếu 𝐹𝐹 (k-1, (k -1 )(b-1))
63
❖BÀI TOÁN
➢ Công ty Crescent Oil đã phát triển ba hỗn
hợp xăng mới và phải quyết định nên sản Hỗn hợp
Khối
xuất và phân phối hỗn hợp hoặc nhiều (ô tô) X Y Z
hỗn hợp nào. Một nghiên cứu về xếp
1 31 30 30
hạng số dặm mỗi gallon của ba hỗn hợp
để xác định xem xét chúng có giống nhau 2 30 29 29
đối với ba hỗn hợp hay không. 3 29 29 28
➢ Năm chiếc ô tô đã được thực nghiệm 4 33 31 29
bằng cách sử dụng từng loại trong số ba
hỗn hợp xăng và xếp hạng dặm cho mỗi 5 26 25 26
gallon được hiển thị trên bảng bên.
64
LỜI GIẢI
Nhóm (Hỗn hợp) Trung
❖yếu tố (Factor): Hỗn hợp xăng bình khối
X Y Z
❖Nhóm (Groups): Hỗn hợp X, Khối (ô tô) 𝑥ҧ𝑖
Hỗn hợp Y, Hỗn hợp Z 1 31 30 30 30.333
❖Khối (Blocks): Ô tô 2 30 29 29 29.333
❖Biến phản hồi (Response 3 29 29 28 28.667
variable): Số dặm mỗi gallon 4 33 31 29 31.000
5 26 25 26 25.667
Trung bình
29.8 28.8 28.4
nhóm 𝑥𝑗ҧ
65
❖Bảng ANOVA
❖Bảng ANOVA
Tests of Between-Subjects Effects
❖Trong một số thực nghiệm, chúng ta muốn rút ra kết luận về nhiều
biến hoặc yếu tố.
❖Các thực nghiệm yếu tố và tính toán ANOVA tương ứng của chúng
là những thiết kế có giá trị khi cần có kết luận đồng thời về hai
hoặc nhiều yếu tố.
❖Thuật ngữ yếu tố được sử dụng vì các điều kiện thực nghiệm bao
gồm tất cả các kết hợp có thể có của các yếu tố.
➢ Ví dụ: đối với a cấp độ của yếu tố A và b cấp độ yếu tố B, thực
nghiệm sẽ liên quan đến việc thu thập dữ liệu về các kết hợp cả hai
yếu tố ab.
76
❖Thủ tục ANOVA cho thực nghiệm yếu tố hai yếu tố tương tự như
thực nghiệm hoàn toàn ngẫu nhiên và thực nghiệm khối ngẫu
nhiên.
❖Chúng ta lại phân chia tổng bình phương (SST) thành các nguồn
của nó.
➢ SST= SSA + SSB + SSI + SSE
❖Tổng bậc tự do, 𝑛 − 1, được phân chia (𝑎 − 1) bậc tự do cho yếu tố
A, 𝑏 − 1 tự do cho yếu tố B, (𝑎 − 1)(𝑏 − 1) bậc tự do cho tương
tác, và 𝑎𝑏(m − 1) bậc tự do cho sai số.
Tổng bình
SST = SSA + SSB + SSI + SSE
phương
Bậc tự do n-1 = a-1 + b-1 + (a-1)(b-1) + ab(r-1)
82
❖𝑥𝑖𝑗𝑙 : quan sát tương ứng với thứ l lấy từ nhóm thứ i của yếu tố A và khối
thứ j của yếu tố B.
❖ 𝑥ҧ𝑖 . là trung bình mẫu cho các quan sát trong nhóm thứ i của yếu tố A
∑𝑏 𝑟
𝑗=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄𝑖. =
𝑏𝑟
❖ 𝑥ҧ.𝑗 là trung bình mẫu cho các quan sát trong khối j của yếu tố B
∑𝑎 𝑟
𝑖=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄.j =
𝑎𝑟
❖ 𝑥ҧ𝑖𝑗 là trung bình mẫu cho các quan sát của kết hợp trong nhóm thứ i của
yếu tố A với khối thứ j của yếu tố B.
∑𝑟𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄ij =
𝑟
❖ 𝑥ҧ là trung bình mẫu chung của tất cả n quan sát
∑𝑎 𝑏 𝑟
𝑖=1 ∑𝑗=1 ∑𝑙=1 𝑥𝑖𝑗𝑙
➢ 𝑥᪄ҧ =
𝑎𝑏𝑟
83
❖Bảng ANOVA
❖Ví dụ: Khảo sát tiền lương của công nhân ở khu công nghiệp
➢ Một cuộc khảo sát đã được tiến hành về mức lương theo tháng
(triệu đồng) giờ đối với mẫu công nhân trong hai ngành tại ba nhà
máy ở khu công nghiệp. Một phần mục đích của cuộc khảo sát là để
xác định xem có tồn tại sự khác biệt trong cả loại ngành và nhà
máy hay không. Dữ liệu mẫu được hiển thị trên bảng.
Ngành AA BB CC
12.10 11.80 12.90
I 11.80 11.20 12.70
12.10 12.00 12.20
12.40 12.60 13.00
II 12.50 12.00 12.10
12.00 12.50 12.70
86
❖Bước 1. Mở File:
Luongokhucongnghiep.sav.
❖Bước 2. Tại menu chính,
Analyze →General linear
model →Univariate →xuất
hiện hộp thoại Univariate.
❖Bước 3. Tại hộp thoại
Univariate, chuyển Luong vào
khoang Dependent variable và
chuyển nganh và nhamay vào
Fixed factor(s). Xem hình bên.
87
❖Bảng ANOVA
Tests of Between-Subjects Effects
Dependent Variable: Luong
Type III Sum Mean
Source of Squares df Square F Sig.
Model 2705.567a 6 450.928 3775.209 .000
Nganh .500 1 .500 4.186 .063
Nhamay 1.121 2 .561 4.693 .031
Nganh * Nhamay .370 2 .185 1.549 .252
Error 1.433 12 .119
Total 2707.000 18
a. R Squared = .999 (Adjusted R Squared = .999)
89