Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 88

Chương 2

THÔNG KÊ MÔ TẢ:
TRÌNH BÀY BẰNG BẢNG VÀ ĐỒ THỊ
2.1 Tóm tắt dữ liệu định tính hay còn gọi là dữ
liệu phân loại (Summarizing Qualitative Data)

Phân phối tần số: Phân phối tần số là một


bảng tóm tắt dữ liệu cho thấy số lượng phần tử
(tần số) xuất hiện trong mỗi nhóm không chồng
lấn.
Mục đích là cung cấp cái nhìn sâu sắc hơn về
dữ liệu mà chúng ta không thể thấy được ngay trên
dữ liệu ban đầu.

Ví dụ 2.1: Nước giải khát của 50 sinh viên dùng


trong giờ giải lao tại căn tin
Bảng 2.1 Dữ liệu mẫu 50 loại nước ngọt sinh viên dùng
Coke vfersh Coke Sprite Coke Pepsi Pepsi Coke Sprise Pepsi
classic classic classic Classi
c

Coke Sprite Diet vfersh Coke Pepsi Pepsi Pepsi Coke Pepsi
classic Coke classic classic

Diet Coke Coke Sprite Diet Coke Diet Coke Coke Coke
Coke classic classic Coke classic Coke Classi classic Classi
c c

Sprite Diet Coke Coke Coke Pepsi Coke Vfresh Diet Diet
Coke classic classic classic classic Coke coke

vfersh vfersh Coke Diet Pepsi Diet Coke Sprise Peps Coke
classic Coke coke Classi classic
c
Thực hiện đếm
Tên nước Số sinh viên Tần số
ngọt (số sinh viên)

Coke classic ǀǀǀǀǀǀǀǀǀǀ 20


ǀǀǀǀǀǀǀǀǀǀ
Diet Coke ǀǀǀǀǀǀǀǀǀ 9

Sprite ǀǀǀǀǀǀ 6

Pepsi ǀǀǀǀǀǀǀǀǀǀ 10

Vfresh ǀǀǀǀǀ 5

Tổng 50
Enter, cho ra 20, sau đó
Copy cho tới C6

Thực hiện đếm trên Excel


Kết Loại nước ngọt Số sinh
quả SV sử dụng viên
Coke classic 20
cuối
cùng Diet coke 9
Sprite 6
Pepsi 10
Vfresh 5
Tổng số 50
Phân phối tần suất (tần số tương đối)
Thực tế chúng ta cũng quan tâm đến tỷ lệ
hoặc tỷ lệ phần trăm các phần tử trong mỗi nhóm.
Tần suất của một nhóm là tỷ lệ các phần
tử thuộc về nhóm đó.
Cho tập dữ liệu với n quan sát, tần suất
của mỗi nhóm được xác định:
Tần số
Tần suất =
n
Tần suất phần trăm bằng tần suất nhân với 100.
Phân phối tần suất là bảng tóm tắt dữ liệu cho
thấy tần suất cho mỗi nhóm

Phân phối tần suất phần trăm là bảng tóm tắt


của tập dữ liệu cho thấy các tần suất phần trăm
trong mỗi nhóm.
Bảng 2.2 Phân phối tần suất và tần suất
phần trăm của nước ngọt
Bảng 2.2 Phân phối tần suất và tần suất phần trăm của
nước ngọt
Nước Tần Tần suất Tần suất Từ bảng 2.2:
ngọt số (Relative phần trăm Tần suất cho
frequency) (Percent Coke Classic là:
Frequency) 20/50 = 0,40
Coke 20 0,40 40 Tần suất cho Diet
Classic Coke là:
Diet 9 0,18 18 9/50 = 0,18
Coke Tương tự,
Sprite 6 0,12 12 Tần suất phần
Pepci 10 0,20 20 trăm cho biết trong
Vfresh 5 0,10 10 số 50 sinh viên có
Tổng 50 1,00 100 40% dùng Coke
Classic, v.v..
Bar Graphs and Pie Charts
(biểu đồ thanh và tròn)

Bar Graphs là kỹ thuật đồ họa nhằm


mô tả dữ liệu định tính (phân loại) được tóm
tắt trong bảng phân phối tần số, tần suất
hoặc tần suất phần trăm.
Sử dụng Excel
Bar Charts: Insert Chart  Chọn Bar và
Click
Tổng 50 1.0 100
0
Tên trục ngang: Tên các loại nước ngọt (nhãn đại diện
cho các nhóm)
Tên trục dọc: Tần số (Số SV sử dụng)

Hình 2.1: Biểu đồ hình thanh biểu hiện các loại nước ngọt sinh viên dùng
Pareto Diagram

 In quality control, bar charts are used to identify


the most important causes of problems.

 When the bars are arranged in descending order of


height from left to right (with the most frequently
occurring cause appearing first) the bar chart is
called a Pareto diagram.

 This diagram is named for its founder, Vilfredo


Pareto, an Italian economist.
Pareto Diagram
Biểu đồ hình tròn (Pie chart) – là một
công cụ đồ họa để trình bày phân phối tần
suất và tần suất phần trăm cho dữ liệu
định tính.
Vòng tròn 360
độ và Coke Classic
có tần suất 40% hay
0,4 phần biểu đồ
được dán nhãn
Coke Classic bao
gồm
0,4(360)=144,0 độ,
Khu vực dán
nhãn Diet Coke
gồm
0,18(360)=64,8 độ;
v.v…
Tóm tắt dữ liệu định lượng
□ Phân phối tần số
 Phân phối tần suất và tần suất phần trăm
 Đồ thị điểm
 Biểu đồ phân phối Histogram
 Phân phối tích lũy
 Đồ thị Ogive
2.2 Tóm tắt dữ liệu định lượng
Phân phối tần số - là bảng tóm tắt dữ liệu
cho thấy số lượng phần tử (items) hay tần số trong
mỗi nhóm không chồng lấn.
Bảng 2.3 Thời gian dành cho giải trí, (giờ/tuần)
của 20 sinh viên được hỏi ngẫu nhiên
12 14 19 18 15 15 18 17 20 27
22 23 22 21 33 28 14 18 16 13

Để tóm tắt dữ liệu định lượng, ta thực hiện phân


nhóm (Phân tổ) hay lập bảng phân phối tần số:
Để xác định các nhóm cho một phân
phối tần số với dữ liệu định lượng, ba
bước cần thực hiện:
1.Xác định số lượng các nhóm riêng
biệt
2.Xác định độ rộng mỗi nhóm
3.Xác định các giới hạn nhóm
Số nhóm: Tác giả khuyên nên sử dụng từ 5
đến 20 nhóm.
Với một lượng ít các dữ liệu (như bảng 2.3), ta
sử dụng 5 nhóm.
Đối với một số lượng lớn các dữ liệu, thường
đòi hỏi một số lượng lớn các nhóm (không nên
quá 20)

Mục đích: số nhóm vừa đủ để thể hiện


được sự thay đổi của dữ liệu, nhưng không
nên có quá nhiều nhóm mà một nhóm chỉ
chứa một vài phần tử.
Độ rộng của các nhóm: Nhóm tác giả khuyên là
độ rộng như nhau cho mỗi nhóm.

Độ rộng Largest Data Value – Smallest data Value


của nhóm =
Number of Classes
Độ rộng của nhóm có thể làm tròn đến
một giá trị thuận tiện hơn dựa trên sở thích của
người xây dựng tần số.

Chú ý: Chênh lệch giữa giới hạn dưới của 2


nhóm liền kề là độ rộng nhóm.
Từ bảng 2.3 Thời gian dành cho giải trí,
(giờ/tuần) của 20 sinh viên được hỏi ngẫu nhiên

12 14 19 18 15 15 18 17 20 27
22 23 22 21 33 28 14 18 16 13

Từ số liệu bảng trên độ rộng của nhóm:


Giới hạn nhóm: Phải được xác định sao cho
mỗi giá trị quan sát thuộc về một và chỉ một
nhóm.

Giới hạn dưới là giá trị nhỏ nhất được gắn cho
nhóm
Giới hạn trên là giá trị lớn nhất được gắn cho
nhóm.
Các giá trị thích hợp cho giới hạn nhóm
phụ thuộc vào độ chính xác của dữ liệu.
Bảng 2.4 Phân phối tần số
cho dữ liệu thời gian giải trí
Tác giả
chọn 10 giờ là giới
Thời gian giải Frequency
trí, giờ/tuần
hạn dưới và 14 giờ
10 – 14 4
là giới hạn trên cho
15 – 19 8 nhóm đầu tiên; 15
20 – 24 5 giờ là giới hạn
25 – 29 2 dưới và 19 giờ là
30 – 34 1 giới hạn trên cho
Tổng 20 nhóm cho nhóm
Hai giới hạn dưới đầu tiên của tiếp theo; cứ thế
nhóm là 10 và 15, độ rộng nhóm
là 15 – 10 = 5
tiếp tục.
Chú ý
Không có một phân phối tần số tốt
nhất cho một tập dữ liệu. Những người khác
nhau có thể xây dựng phân phối tần số khác
nhau, nhưng đều chấp nhận được. Mục đích
là để thể hiện các nhóm tự nhiên và thấy
được sự thay đổi của dữ liệu.
Trị số giữa của nhóm: Trị số giữa của nhóm
bằng (Giới hạn dưới của nhóm + Giới hạn trên của
nhóm)/2.
)/2
Từ ví dụ bảng 2.4, Trị số giữa của nhóm
đầu tiên là: (10+14)/2 = 12; các nhóm còn lại là 17,
22, 27 và 32.
Thực hiện trên Excel:
Chọn hết cột Tần số
Type:
=FREQUENCY(A2:A51,B2:B6
)
Bấm Ctrl + Shift
+Enter
Bấm Ctrl + Shift +Enter
Relative Frequency and Percent
Frequency Distribution
Frequency of class
Relative Frequency =
n
Percent Frequency Distribution của một
nhóm là tần số tương đối (tần suất) nhân với
100.
Bảng 2.5 Relative Frequency and Percent
Frequency Distribution cho dữ liệu thời gian giải trí
của sinh viên
Thời gian Frequency Relative Percent
giải trí, Frequency Frequency
giờ/tuần
10 – 14 4 0,20 20
15 – 19 8 0,40 40
20 – 24 5 0,25 25
25 – 29 2 0,10 10
30 – 34 1 0,05 5
Tổng 20 1,00 100
Đồ thị điểm (Dot Plot)
Đồ thị điểm thể hiện chi tiết dữ liệu
và rất hữu ích để so sánh phân phối dữ liệu
cho hai hay nhiều biến.

Thời gian giải trí (giờ/tuần)

Hình 2.3 Đồ thị điểm thời gian giải trí


Thời gian giải trí (giờ/tuần)

Từ đồ thị điểm, ta thấy các giá trị cụ thể về thời


gian giải trí gồm: 12 13 14 14 15 15 16 17 18
18 18 19 20 21 22 22 23 27 28 33. Từ đây,
ta có thể tính các đại lượng thống kê mô tả dạng
số: trung bình, trung vị, mốt,....
Histogram (Biểu đồ phân phối)
- Đặt biến quan tâm trên trục ngang
- Tần số, tần suất, tần suất phần trăm trên
trục thẳng đứng
Thực hiện trên Excel
Nếu chưa có Data analysis của Excel
Mở Excel ⇒ Biểu tượng
⇒ Excel Option
⇒Add – Ins ⇒ Go
□ Analysis Toolpak
□ Analysis Toolpak –VBA
⇒ OK
Từ Data analysis ⇒ Histogram ⇒
Input Range: nhập địa chỉ khu vực
chứa dữ liệu (đưa cả hàng tiêu đề)
Bin Range: đưa phạm vi các giá trị
cận trên vào (đưa cả hàng tiêu đề)
⇒ Label
⇒ Chọn Cummulative Percentage
(nếu tính tần số tích lũy), không thì excel chỉ
tính tần số.
⇒ Output options: New Worksheet
fly
Có dữ
liệu đã
nhập
□ Chọn C2:C6 vào
□ Giữ nút CTRL Excel
và chọn E2:E6 bên đây
□ Click Insert, Click
Column
□ Kết quả cho biểu đồ
dưới đây
Muốn cho các thanh của đồ thị không có
khoảng cách, ta đưa chuột vào các cột đồ thị, bấm
chuột trái một lần để chọn đối tượng, tiếp theo
bấm chuột phải để lấy menu tắt, từ Format Data
Series…chọn Option, nhập giá trị 0 vào Gap
width và OK. Kết quả xem Slide sau.
Thời gian giải trí

Hình 2.1: Phân phối số sinh viên theo thời gian dành cho giải trí
Đồ thị phân phối tần số thể hiện:
□ Khái quát về sự tập trung của dữ liệu
□ Mức độ phân tán tương đối của tập dữ
liệu
□ Nhận dạng sơ bộ hình dáng của phân
phối (lệch trái, lệch phải, đối xứng)
Từ các biểu
Lệch phải
đồ
Histogram
bên cạnh ta
có thể thấy
các hình
dạng phân
phối của
Lệch phải nhiều tập dữ liệu:
Lệch trái,
lệch phải,
đối xứng.
Phân phối tích lũy (Cumulative Distribution)
Tần số tích lũy, tần suất, tần suất phần
trăm tích lũy tính được bằng cách cộng dồn các
tần số, tần suất, tần suất phần trăm trong phân
phối tần số, tần suất, tần suất phần tram.
Phân phối tần số tích lũy  thể hiện số lượng
dữ liệu có giá trị nhỏ hơn hoặc bằng với giới
hạn trên của mỗi nhóm.
Phân phối tần suất tích lũy – thể hiện tỷ lệ dữ
liệu có giá trị nhỏ hơn hoặc bằng giới hạn
trên của mỗi nhóm.
Phân phối tần suất phần trăm tích lũy – thể
hiện phần trăm của dữ liệu có giá trị nhỏ hơn
hoặc bằng giới hạn trên của mỗi nhóm.
 Nhóm cuối cùng của một phân phối tần số tích lũy
luôn bằng tổng số quan sát.

 Nhóm cuối cùng của một phân phối tần suất


tích lũy luôn bằng 1,0.

 Nhóm cuối cùng của một phân phối tần suất


phần trăm tích lũy luôn bằng 100.
Bảng 2.6 Cumulative frequency, cumulative relative
Frequency and cumulative percent Frequency Distribution
cho dữ liệu thời gian giải trí của sinh viên
Thời gian giải Tần Tần số tích Tần suất Tần suất % tích lũy
trí, giờ/tuần số lũy phần trăm

Nhỏ hơn hoặc 4 4 20 20


bằng 14
Nhỏ hơn hoặc 8 12 (4+8) 40 60 (20+40)
bằng 19
Nhỏ hơn hoặc 5 17 25 85 (20+40+25)
bằng 24 (4+8+5)
Nhỏ hơn hoặc 2 19 10 95
bằng 29 (4+8+5+2) (20+40+25+10)
Nhỏ hơn hoặc 1 20 5 100
bằng 34 (4+8+5+2+1) (20+40+25+10+5)
Đồ thị Ogive
Đồ thị Ogive là đồ thị của phân phối tích lũy.
■ Từ dữ liệu trên Excel:
Insert  Line  simple
Line
Ghi chú:
1.Biểu đồ Histogram chỉ là biểu đồ hình thanh
không có sự tách biệt giữa thanh. Đối với dữ liệu
định lượng rời rạc, một sự tách biệt giữa các thanh
là thích hợp; đối với dữ liệu định lượng liên tục
(thời gian giải trí của sinh viên) , một sự tách biệt
giữa các thanh là không thích hợp.
2.Nhóm mở (nhóm đầu tiên không có giới hạn dưới
và nhóm cuối cùng không có giới hạn trên. Mục
đích là tránh hình thành quá nhiều nhóm khi tập dữ
liệu có giá trị nhỏ hoặc lớn bất thường)
2.3 Phân tích dữ liệu thăm dò: Biểu đồ nhánh

Kỹ thuật phân tích dữ liệu thăm dò đó là Biểu đồ
nhánh lá
Nó hiển thị cả thứ tự và hình dạng của một tập
dữ liệu cùng một lúc.

Theo phöông phaùp nhaùnh vaø laù: Moãi giá


trị ñöôïc taùch thaønh 2 phaàn:
Caùc chöõ soá đầu tiên beân traùi mỗi giá trị
laø nhaùnh (coù theå laø 1 hay 2 chöõ soá ôû haøng
chuïc hay haøng traêm)
Caùc chöõ soá cuối cùng beân phaûi mỗi giá trị
laø laù (coù theå laø 1 hay 2 chöõ soá ôû haøng ñôn vò
hoaëc haøng chuïc).
Ví duï: Doanh soá baùn trong 40 ngaøy
đầu naêm 2020 cuûa 1 ñaïi lyù baùn bia
chai Tiger (trieäu ñoàng):
183; 191; 194; 200; 184; 191; 194; 201;
186; 191; 195; 202; 187; 192; 195; 203; 188;
192; 196; 204; 189; 192; 196; 205; 189; 193;
197; 206; 190; 193; 197; 207; 190; 193; 198;
208; 190; 194; 198 &ø 209
Doanh soá baùn/ ngaøy
Ví duï, doanh soá baùn
quan saùt ñöôïc coù 3 chöõ
183 tr.ñ ñöôïc chia thaønh
soá, ta coù theå taùch soá
2 phaàn: phaàn nhaùnh
lieäu thaønh 2 phaàn:
goàm 2 chöõ soá 18 vaø
phaàn nhaùnh goàm 2 chöõ
phaàn laù: 3. Keát quaû
soá ñaàu, vaø chöõ soá
ñöôïc trình baøy nhö sau:
coøn laïi laø laù.

183; 191; 194; 200; 184; 191;


194; 201; 186; 191; 195; 202; 18 3467899
187; 192; 195; 203; 188; 192;
196; 204; 189; 192; 196; 205; 19 0001112223334
189; 193; 197; 206; 190; 193;
197; 207; 190; 193; 198; 208; 4455667788
190; 194; 198; 209
20 0123456789
Nếu biểu đồ nhánh lá ban đầu của chúng
ta có quá nhiều lá, chúng ta sử dụng 2 nhánh
cho mỗi chữ số đầu.
Khi 1 giá trị nhánh được viết 2 lần:
• Nhánh đầu sẽ gồm các giá trị của lá từ 0 – 4,
• Nhánh 2 gồm các giá trị của lá từ 5-9
Doanh so ban Stem-and-Leaf Từ ví dụ
Plot
trên
Frequency Stem & Leaf

2.00 18 . 34
5.00 18 . 67899
15.00 19 . 000111222333444
8.00 19 . 55667788
5.00 20 . 01234
5.00 20 . 56789

Stem width: 10
Each leaf: 1 case(s)
Từ biểu đồ nhánh lá, xoay ngược chiều kim
đồng hồ, nó cung cấp một hình ảnh dữ liệu tương
tự một biểu đồ histogram với các nhóm 180-184,
185-189, …
Các nhóm Số ngày
Theo doanh số, trđ

180 - 184 2
185 - 189 5
190 - 194 15
195 - 199 8
200 - 204 5
205 - 209 5
Tổng 40
Biểu đồ histogram

Doanh số
Hai lợi thế của biểu đồ nhánh lá so với
histogram:
1. Biểu đồ nhánh là dễ dàng xây dựng
bằng tay.
2. Trong một nhóm, biểu đồ nhánh lá
cung cấp nhiều thông tin hơn biểu đồ
histogram bởi vì nhánh là cho thấy giá trị dữ
liệu thực tế.
• Trong ví dụ trước, đơn vị lá là 1.
• Đơn vị của lá có thề là 100; 10; 1; 0.1;...
Ví dụ: Đơn vị lá = 0,1
Nếu ta có dữ liệu như sau về điểm thi kết thúc
học phần của 7 sinh viên
8,6 9,7 9,5 9,1 8,2 7,0 6,8

Biểu Đơn vị lá = 0,1

đồ 6 8
7 0
nhánh
8 2 6
lá 9 1 5 7
Nếu ta có dữ liệu như sau:
1806 1717 1974 1791 1682 1910 1838

Đơn vị lá =10
16 8
17 1 9
18 0 3
19 1 7
Nhánh đầu tiên là 16 và lá tương ứng là 8. Kết
hợp chúng ta có được 168. Để tái tạo một giá trị xấp
xỉ giá trị ban đầu, ta nhân số này với 10, giá trị đơn
vị lá. Như vậy, 168x10=1680 là một giá trị xấp xỉ giá
trị ban đầu sử dụng để xây dựng biểu đồ nhánh lá.
Ví dụ, có dữ liệu về lương khởi điểm của 20 SV tốt
nghiệp ngành QT và kế toán được trình bày theo phương
pháp nhánh và lá:

Yêu cầu sinh viên hãy SO SÁNH PHÂN PHỐI lương


khởi điểm của hai ngành
Ghi chú:

Trường hợp nếu không khai báo đơn vị lá, nó


quy ước là 1.

Đơn vị của lá dùng để nhân với nhánh và lá để


có được giá trị gần đúng ban đầu của dữ liệu.
2.4 Bảng chéo và đồ thị phân tán
- Sử dụng để tóm tắt dữ liệu cho thấy
mối liên hệ giữa hai biến.
Bảng chéo là bảng tóm tắt dữ liệu
cho hai biến đồng thời.
Bảng chéo
 Bảng chéo là một bảng tóm tắt dữ liệu cho 2
biến.
 Bảng chéo được dùng khi:
• Một biến là định tính và một biến là định
lượng,
• Cả hai biến là định tính, hoặc
• Cả hai biến là định lượng.
 Các nhãn bên trái và bên trên xác định các
nhóm của hai biến.
Bảng 2.7 Phương thức thanh toán của 12 khách hàng và
Garage Number (Garage number 1, Garage number 2,
Garage number 3)
Customer Payment Method Parking Garage
1 Charge 2
2 Charge 1
3 Cash 2
4 Charge 2
5 Charge 1
6 Cash 1
7 Cash 3
8 Charge 1
9 Charge 3
10 Cash 2
11 Cash 1
12 Charge 1
Bảng 2.8 Phương thức thanh toán của 12 khách
hàng và Garage Number (Garage number 1,
Garage number 2, Garage Umber 3)
Payment Parking Garage
Method Toång
1 2 3

Charge 4 2 1 7(58,3%)

(trả sau)
Cash 2 2 1 5(41,7%)

Toång 6 (50%) 4 (33,3%) 2 (16,7%) 12


(100%)
Bảng 2.9 Số hộ gia đình theo thu nhập/ tháng của
thành phố Hà Nội và Tp.HCM

Thu nhập tháng Thành phố Tổng


của hộ gia đình Hà nội TpHCM
(tr.đ)

< 10 8 12 20
10 - 14 20 25 45
15 - 19 30 40 70
20 - 24 15 20 35
25 - 29 10 15 25
≥ 30 5 10 15
Tổng số 88 122 210
Click INSERT
Chọn
COLUMN
Hình 2.4 Số hộ gia đình theo thu nhập/ tháng của
thành phố Hà Nội và Tp.HCM
Bảng chéo
 Ví dụ: Finger Lakes Homes
Số lượng căn hộ Finger Lakes được bán theo giá và
theo loại trong 2 năm qua như .
Biến định Biến định
lượng tính

Khoảng giá Loại căn hộ


Colonial Log Split A-Frame Tổng
< 200.000 USD 18 6 19 12 55
> 200.000 USD 12 14 16 3 45
Tổng 30 20 35 15 100
Bảng chéo

 Ví dụ: Finger Lakes Homes

• Phần lớn các căn hộ (19) trong mẫu có kiểu


split-level và giá dưới 200.000 USD.

• Chỉ có 3 căn hộ kiểu A-Frame và giá cao hơn


hoặc bằng 200.000USD
Bảng chéo
Phân phối
 Ví dụ: Finger Lakes Homes tần số cho
biến mức
giá

Loại căn hộ
Khoảng giá
Colonial Log Split A-Frame Tổng
<200000USD 18 6 19 12 55
> 200.000USD 12 14 16 3 45
Tổng 30 20 35 15 100

Phân phối tần số cho


biến loại căn hộ
Bảng chéo: Phần trăm hàng và cột

Chuyển đổi các giá trị trong bảng thành tỷ lệ phần


trăm theo cột hoặc tỷ lệ phần trăm theo hàng có thể
cung cấp cái nhìn sâu hơn về mối quan hệ giữa hai
biến.
Từ dữ liệu gốc:
Mức giá Loại căn hộ Tổng
Colonial Log Split A-Frame

< 200.000 18 6 19 12 55

≥ 200.000 12 14 16 3 45

Tổng 30 20 35 15 100

Mức Loại căn hộ Tổng


giá
Colonial Log Split A-Frame

< 200.000 (18/55)100 (6/55).100 (19/55)100 (12/55)100 100%

≥ 200.000 (12/45)100 (14/45)100 (16/45)100 (3/45)100 100%


Bảng chéo: Phần trăm hàng

 Ví dụ: Finger Lakes Homes

Loại căn hộ
Khoảng giá
Colonial Log Split A-Frame Tổng
< 200.000USD 32,73 10,91 34,55 21,82 100
> 200.000USD 26,67 31,11 35,56 6,67 100
Lưu ý: tổng hàng thật sự là 100,01 do làm tròn số.

(Colonial và > 200.000USD)/(Tổng > 200.000USD) x 100


= (12/45) x 100 = 26,67%
Crosstabulation: Phần trăm theo cột

Loạại icăn
Lo cănhhộộ
Khoảảng
Kho nggiá
giá
Colonial Log
Colonial Log Split
Split A-Frame
A-Frame
<200.000USD60,00
<200.000USD 60,00 30,00 54,29
30,00 54,29 80,00
80,00
>> 40,00
200.000USD40,00
200.000USD 70,00 45,71
70,00 45,71 20,00
20,00
TTổổng
ng 100
100 100
100 100
100 100
100

Trong tổng số căn hộ


loại Colonial, có 40%
số căn hộ có giá
200.000 usd trở lên
Bảng chéo: Nghịch lý Simpson
 Dữ liệu trong 2 hoặc 3 bảng chéo là thường được
gom lại để tạo ra một bảng chéo tổng hợp.

 Chúng ta phải cẩn thận khi kết luận về mối quan


hệ giữa hai biến trong bảng chéo tổng hợp.

 Trong một số trường hợp, các kết luận dựa


trên một bảng chéo tổng hợp có thể sẽ ngược lại
hoàn toàn so với dữ liệu ban đầu. Các kết luận
nghịch lý dựa trên bảng tổng hợp so với dữ liệu
ban đầu gọi là Nghịch lý Simpson.
Điểm thi thông kê và giới tính lớp DK1 Điểm thi thông kê và giới tính lớp DK2

Điểm 7.0 8.0 9.0 9.5 Tổng Điểm 7.0 8.0 9.0 9.5 Tổng

Nam 1 3 2 6 Nam 1 6 7
Nữ 0 4 4 1 9 Nữ 0 7 1 8
Tổng 1 7 6 1 15 Tổng 1 13 1 15

Bảng chéo kết hợp 2 bảng trên

Điểm 7.0 8.0 9.0 9.5 Tổng

Nam 2 9 2 13
Nữ 0 11 5 1 17
Tổng 2 20 7 1 30
Đồ thị phân tán và đường xu thế
Đồ thị phân tán trình bày bằng đồ họa mối liên
hệ giữa hai biến định lượng và một đường xu thế cung
cấp một xấp xỉ cho mối liên hệ.
hệ
Để minh họa, hãy xem mối liên hệ giữa hợp
đồng và doanh thu được quan sát trong 10 tuần
lễ của một công ty tư vấn (bảng 2.8)
Bảng 2.8 Dữ liệu về số hợp đồng và doanh thu được
quan sát trong 10 tuần lễ của một công ty tư vấn
Tuần Số HĐ Doan
lể h
số,tr.đ
1 2 50
2 3 56
3 2 48
4 4 60
5 5 70
5 5 76
6 2 45
7 4 62
8 1 30
9 3 60
10 4 65
Step1: Chọn Hình 2.5 Đồ thị phân tán và
B2:C11 đường xu thế của công ty tư vấn
Step2: Click Insert
Step3: Charts &
Click Scatter
Step4: Click Scatter
with only Markers
Step5: Click Chart
Layouts
Chọn Layout trong
số Layouts và
thêm Chart Layout
cũng như Chart
Title
Phương pháp bảng biểu và đồ thị
Dữ liệu
Dữ liệu định tính Dữ liệu định lượng

Phương pháp Phương Phương pháp Phương pháp


Bảng pháp Bảng đồ thị
đồ thị • PP tần số
•Biểu đồ thanh
• Phân phối • PP tần suất. • Đồ thị điểm
• Biểu đố tròn
tần số •PP tần suất • Biểu đồ
• Phân phối tần suất. phần trăm phân phối
• Phân phối tần suất •PP tần số tích lũy • Biểu đồ nhánh lá
phần trăm • PP tần suất •Đồ thị phân tán
• Bảng chéo tích lũy
PP tần suất phần
trăm tích lũy
• Bảng chéo
Điểm bài tập online và điểm thi kết thúc học phần
môn TK trong KT & KD của 12 sinh viên lớp. …

Điểm 5 6 5 9 7 6 7 8 9 7 8 7
BT
online

Điểm 6 6 7 10 7 5 6 9 9 7 9 9
thi kết
thúc
HP

Vẽ đồ thị phân tán thể hiện mối liên hệ giữa điểm bài
tập online và điểm thi kết thúc học phần.
Kết thức chương 2
CẢM ƠN CÁC BẠN ĐÃ LẮNG NGHE!
PivotTable Report
Creating the initial worksheet
□ Mở Excel với tập dữ liệu
□ Insert
□ Trong Tables Group, chọn PivotTable
(góc trái)
□ Đưa hết dữ liệu vào: Select a table or
range
Enter A1:C101 vào Table/Range box
Chọn: New Worksheet
Chọn OK
□ Rê (Drag) Quality Rating vào vùng
Row Labels
□ Rê (Drag) Meal Prices vào vùng
Column Labels
□ Rê (Drag) Restaurant vào vùng
Values
□ Click Sum of Restaurant và vào
Value Field Setting chọn Count và OK
□ Right-click B4  Click chuột phải và
chọn Group
□ Enter 10 vào Starting at box
□ Enter 49 vào Ending at box
□ Enter 10 vào By box
Click OK
Right-Click on Excellent in cell A5
Choose Move
Select Move”Excellent” to END

You might also like