TKMT DTTX Slide2

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 30

THỐNG KÊ MÔ TẢ

(Descriptive Statistics)

Khoa Công nghệ Thông tin - Trường ĐH Khoa học Tự nhiên

6/2013

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 1 / 30


Measures of central tendency Khái niệm

Độ đo xu hướng trung tâm (Measures of central tendency)

Khái niệm: "The tendency of quantitative data to cluster around


some central value. The central value is commonly estimated by the
mean ..." (Nguồn: https://en.wikipedia.org/wiki/Central_
tendency#cite_note-Dodge-2)
Các độ đo xu hướng trung tâm thường dùng: Trung bình (mean),
Trung vị (median), Yếu vị (mode)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 2 / 30


Measures of central tendency Trung bình

Trung bình (Mean)

Là tổng các giá trị chia cho tổng số lượng phần tử.
Ký hiệu: Trung bình của quần thể (còn được gọi là kỳ vọng) được ký
hiệu là µ, trung bình của tập mẫu S được ký hiệu là mean(S).
Trung bình quần thể µ = ΣXN với ΣX là tổng giá trị các phần tử
trong quần thể, N là số phần tử của quần thể.
Trung bình mẫu S: mean(S) = ΣX n với ΣX là tổng các phần tử trong
tập mẫu, n là số phần tử của tập mẫu

Example
Cho tập mẫu S = {3, 2, 5, 1, 5, 5, 6, 5, 7} thì trung bình tập mẫu là
mean(S) = ...

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 3 / 30


Measures of central tendency Trung vị

Trung vị (Median)

Là điểm nằm chính giữa của một phân phối, theo nghĩa là số lượng
dữ liệu lớn hơn nó và số lượng dữ liệu nhỏ hơn nó bằng nhau.
Cho tập dữ liệu S. Sắp xếp S theo thứ tự tăng dần, kết quả là
S = {x1 , . . . , xn }. Trung vị được tính như sau:
x(n+1)/2 nếu n mod 2 = 1
median = {
(xn/2 + xn/2+1 )/2 nếu n mod 2 = 0

Example
Cho tập dữ liệu S1 = {3, 2, 5, 1, 5, 5, 6, 5, 7} thì trung vị của S1 là
median(S1 ) = . . .
Cho tập dữ liệu S2 = {3, 2, 5, 1, 5, 5, 6, 5, 7, 7} thì trung vị của S2 là
median(S2 ) = . . .

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 4 / 30


Measures of central tendency Bài tập

Bài tập mở rộng 1

1 "Trimmed mean" (trung bình lược bỏ)(Nguồn:


(http://onlinestatbook.com/2/summarizing_distributions/
additional_measures.html)
(a) Khái niệm ’trimmed mean’
(b) Xác định giá trị ’trimmed mean’ 20% của tập dữ liệu sau:
{5, 5, 5, 6, 5, 7, 7, 8, 7, 1, 10}
(c) Xác định giá trị trung bình (mean) của tập dữ liệp trên
(d) Giá trị tính được trong câu (b) và (c), giá trị nào mô tả tóm tắt cho
tập dữ liệu tốt hơn? Từ đó suy ra trong trường hợp nào dùng giá trị
’trimmed mean’ để mô tả xu hướng trung tâm của dữ liệu tốt hơn so
với giá trị trung bình.

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 5 / 30


Five-number summary Phần tư vị

Phần tư vị (quartile)
Xem dữ liệu Life expectancy data trong tập tin excel (Nguồn: http://data.worldbank.org/)

1 min=..., max=...
2 Phần tư vị thứ 1 (phân vị 1/4, phân vị 0.25, 1st quartile, q0.25 ) = ...
3 Median (phần tư vị thứ 2, phân vị 1/4, phân vị 0.5, 2nd quartile, q0.5 ) = ...
4 Phần tư vị thứ 3 (phân vị 3/4, phân vị 0.75, 3rd quartile,q0.75 ) = ...
5 IQR = phần vị 3/4 - phân vị 1/4 = ...
6 Ngưỡng xác định giá trị ngoại lệ: ngưỡng trên = phân vị 3/4 +IQR × 1.5=...,
ngưỡng dưới = phân vị 1/4 −IQR × 1.5=...
(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 6 / 30
Five-number summary Boxplot

Boxplot (box and whisker plot) I

Nếu chèn thêm 1 dòng dữ liệu sau vào tập dữ liệu ban đầu:

Nước A 140

thì boxplot sẽ như thế nào?

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 7 / 30


Five-number summary Boxplot

Boxplot (box and whisker plot) II

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 8 / 30


Five-number summary Bài tập

Bài tập 2

Example
1 Cho tập dữ liệu sau S = 79, 68, 88, 69, 90, 74, 87, 93, 76. Xác định giá
trị min, max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá
trị mean, trimmed mean 40%.
2 Cho tập dữ liệu sau S = 78, 93, 68, 84, 90, 74. Xác định giá trị min,
max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá trị mean,
trimmed mean 40%.
3 Cho tập dữ liệu sau S = 78, 93, 68, 84, 90, 74, 130. Xác định giá trị
min, max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá trị
mean, trimmed mean 40%.

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 9 / 30


Five-number summary Bài tập

Giải bài tập 2 I

Quy ước khái niệm ’trimmed mean’ như sau (để khớp với kết quả tính trong Excel):
Trimmed mean a% (trung bình lược bỏ) là giá trị trung bình được tính lại sau khi
a
bỏ đi k giá trị dữ liệu nhỏ nhất và k giá trị dữ liệu lớn nhất, với k = 2×100 × n.
Nếu k không phải là số nguyên, thì xấp xỉ k bằng số nguyên nhỏ hơn và gần nó
nhất. Ví dụ: Nếu k = 1.6 thì làm tròn về 1. Nếu k = 1.2 thì làm tròn về 1.

Example
1 I Sắp xếp tăng dần tập dữ liệu S = {68, 69, 74, 76, 79, 87, 88, 90, 93}
I Số lượng dữ liệu: 9
I Số lượng dữ liệu lược bỏ ở mỗi đầu (lược bỏ các giá trị nhỏ nhất và
các giá trị lớn nhất): 40%
2 × 9 = 1.8 → làm tròn về 1.
I Tập dữ liệu sau khi lược bỏ ở mỗi đầu: {69, 74, 76, 79, 87, 88, 90}
I Giá trị trimmed mean 40%: 69+74+76+79+87+88+90
7 = 80.42857
I Nếu dùng excel: =TRIMMEAN(<dữ liệu>,0.4)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 10 / 30


Five-number summary Bài tập

Giải bài tập 2 II

Example
1 Mean=80.11, Median=79, Trimmed mean 40%=80.43, min=68, max=90,
q1/4 = 74, q3/4 = 88
2 Mean=81.17, Median=81, Trimmed mean 40%=81.5, min=68, max=93,
q1/4 = 75, q3/4 = 88.5
3 Mean=88.14, Median=84, Trimmed mean 40%=83.8, min=68, max=130,
q1/4 = 76, q3/4 = 91.5

Nhận xét:
Mean có bị ảnh hưởng nhiều bởi các giá trị cực trị (extreme value) không?
Median có bị ảnh hưởng nhiều bởi các giá trị cực trị (extreme value) không?

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 11 / 30


Five-number summary Bài tập

Bài tập 3

Nếu chèn thêm 1 dòng dữ liệu sau vào tập dữ liệu ban đầu (dữ liệu chưa
thêm dòng 140):

Nước A 2000

1 Xác định giá trị median, mean, trimmed mean 8% của tập dữ liệu
trước và sau khi thêm dòng dữ liệu mới.
2 Trong 2 giá trị median, mean giá trị nào có sự thay đổi lớn, giá trị
nào không có sự thay đổi lớn?

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 12 / 30


Measure of spread Khái niệm

Độ đo tính biến thiên (Measure of spread)

Khái niệm tính biến thiên (variability, variation, spread, dispersion):


"Measure of variation is a measure that describes how spread out or
scattered a set of data. It is also known as measures of dispersion or
measures of spread."
Các độ đo tính biến thiên thường dùng: Phương sai (variance), độ
lệch chuẩn (standard deviation), khoảng quan sát (range), khoảng
cách phần tư vị (interquartile)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 13 / 30


Measure of spread Range, IQR

Khoảng quan sát và khoảng cách phần tư vị

Khoảng quan sát range = max − min


Khoảng cách phần tư vị IQR (interquartile) IQR = q0.75 − q0.25
trong đó q0.75 , q0.25 là phân vị 3/4 và phân vị 1/4 của tập dữ liệu.

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 14 / 30


Measure of spread Variance, Standard deviation

Phương sai và độ lệch chuẩn


Câu hỏi: Các giá trị trong tập dữ liệu cách giá trị trung bình bao xa?
Khái niệm: Là trung bình bình phương độ lệch của các giá trị dữ liệu so với giá trị
trung bình (mean)
Phương sai của quần thể được tính
Σ(X − µ)2
σ2 = (1)
N
Phương sai của tập mẫu được tính
Σ(X − mean)2
s2 = (2)
n−1
Độ lệch chuẩn (standard deviation) là căn bậc 2 của phương sai. Ký hiệu: độ lệch
chuẩn của quần thể được ký hiệu là σ, độ lệch chuẩn của tập mẫu được ký hiệu là
s.
Nhận xét:
Tại sao trong công thức tính s 2 , mẫu số là n − 1, không phải n?
Nếu n lớn, nếu mẫu số là n, kết quả có khác biệt nhiều không?
Range, IQR, sd: giá trị nào bị ảnh hưởng nhiều bởi các giá trị cực trị?
Ví dụ: Cho tập mẫu S = {68, 69, 74, 76, 79, 87, 88, 90, 93}. Tính phương sai s 2 = . . . và
độ lệch chuẩn s.
(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 15 / 30
Shape of data Histogram

Khái niệm

1 Distribution (phân phối): "the pattern of values in the data, showing


their frequency of occurrence relative to each other" (Nguồn:
Coursera)
2 Histogram là đồ thị giúp diễn tả (visualizing) một phân phối.
I Trục ngang: miền dữ liệu được chia thành các Bin (khoảng giá trị).
Các giá trị thuộc bin nào thì sẽ được đếm cho bin đó. Cách phân chia
các bin: tùy ý theo người dùng hoặc theo một hệ thống luật [Scott,
1992] nhưng phải thỏa điều kiện: các bin không giao nhau (mutually
exclusive).
I Trục dọc: số lượng dữ liệu thuộc từng bin
I Các bin có bắt buộc bằng nhau không?

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 16 / 30


Shape of data Histogram

Ví dụ I

Example

Dữ liệu: Tuổi thọ trung bình của các nước trên thế giới (Nguồn:
http://data.worldbank.org/indicator/SP.DYN.LE00.IN/countries/1W?
order=wbapi_data_value_2011%20wbapi_data_value%20wbapi_data_
value-last&sort=asc&display=default)
Min = ..., Max=...
Chia miền dữ liệu thành các bin như sau và đếm số lượng dữ liệu trong từng bin
như sau:
Bin Số lượng dữ liệu
≤ 40 ...
> 40 và ≤ 50 ...
> 50 và ≤ 60 ...
> 60 và ≤ 70 ...
> 70 và ≤ 80 ...
≥ 80 ...

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 17 / 30


Shape of data Histogram

Ví dụ II

Khi đó, 40, 50, 60, 70, 80 gọi là ’cutpoints’ (các điểm mốc), là điểm xác định điểm
bắt đầu và kết thúc của 1 bin.

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 18 / 30


Shape of data Histogram

Ví dụ III

Vẽ histogram

Nếu chia bin khác, histogram có hình dạng khác

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 19 / 30


Shape of data Histogram

Ví dụ IV

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 20 / 30


Shape of data Histogram

Các thông tin đọc từ histogram

Có thể đọc được dữ liệu cụ thể từ histogram không? Có thể xác định
giá trị min, max từ histogram không?
Một số thông tin đọc từ histogram:
I Số lượng Mode (đỉnh của histogram, peak): unimodal (1 mode),
bimodal (2 mode), multimodal (nhiều hơn 2 mode), uniform (không có
mode)
I Tính biến thiên của dữ liệu (extent of spread of data): dàn trải vừa
phải, dàn trải rộng
I Tính đối xứng (extent of symmetry): đối xứng (symmetric), lệch trái
(left-skewed), lệch phải (right-skewed)
I Có tồn tại outlier (giá trị ngoại lệ) không?
I So sánh hình dạng với hình dạng của các phân phối thường gặp:
uniform distribution (phân phối đều), normal distribution (phân phối
chuẩn),...

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 21 / 30


Shape of data Histogram

Ví dụ mode, extent of spread, extent of symmetry, outlier I

Example (Mode)

Example (Outlier)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 22 / 30


Shape of data Histogram

Ví dụ mode, extent of spread, extent of symmetry, outlier II

Example (Spread)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 23 / 30


Shape of data Histogram

Ví dụ mode, extent of spread, extent of symmetry, outlier


III

Example (Symmetry)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 24 / 30


Shape of data Histogram

Ví dụ đọc thông tin từ histogram I

Example (Phân tích histogram)

Dữ liệu: Tuổi thọ trung bình của các nước trên thế giới trong tập tin
worldbankDataExpectancyLife.xls (Nguồn:
http://data.worldbank.org/indicator/SP.DYN.LE00.IN/
countries/1W?order=wbapi_data_value_2011%20wbapi_data_
value%20wbapi_data_value-last&sort=asc&display=default) Vẽ
histogram với các bin xác định như trong slide 17, kết quả như sau:

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 25 / 30


Shape of data Histogram

Ví dụ đọc thông tin từ histogram II

Unimodal hay bimodal hay multimodal hay uniform?


Symmetric hay left-skewed hay right-skewed?
Có hay không các outlier (giá trị ngoại lệ)?
Vẽ boxplot và trả lời các câu hỏi sau
I Phần hình hộp lệch về thanh chắn phía trên hay phía dưới?
I Đường nằm ngang nằm giữa hình hộp lệch về phía trên hay phía dưới
hộp?

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 26 / 30


Shape of data Histogram

Ví dụ đọc thông tin từ histogram III

Xác định 5 giá trị tóm tắt dữ liệu (five-number summary) và trả lời các câu hỏi
sau
I Khoảng cách giữa phần tư vị thứ 1 với median, so với khoảng cách
giữa phần tư vị thứ 3 với median, khoảng cách nào lớn hơn?
I Khoảng cách giữa min với median, so với khoảng cách giữa max với
median, khoảng cách nào lớn hơn?
I So sánh 3 giá trị, mean, mode, median

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 27 / 30


Shape of data Histogram

Ví dụ đọc thông tin từ histogram IV

Example (Phân phối unimodal, symmetric, bell-shaped (hình chuông) (Nguồn:


Coursera))

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 28 / 30


Shape of data Skewness, Kurtosis

Câu hỏi: có giá trị số nào giúp mô tả tính đối xứng (symmetry) và độ bằng phẳng của
phân bố hay không?

Σni=1 (xi − x)4


kurtosis = −3 (3)
(n − 1) s 4
Σni=1 (xi − x)4
kurtosis = (4)
(n − 1) s 4
Σni=1 (xi − x)3
skewness = (5)
(n − 1) s 3
trong đó
Quy ước sử dụng công thức 3 (excess kurtosis) cho kurtosis để phù hợp với kết
quả do excel tính được.
xi là các giá trị trong tập dữ liệu mẫu, x là trung bình (mean) của tập mẫu, s là
độ lệch chuẩn của tập mẫu
kurtosis = 0: đỉnh giống hình chuông; kurtosis < 0: đỉnh bằng hơn đỉnh hình
chuông; kurtosis > 0: đỉnh nhọn hơn đỉnh hình chuông
skewness = 0: đối xứng; skewness < 0: lệch trái (left skew, negative skew);
skewness > 0: lệch phải (right skew, positive skew)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 29 / 30


Shape of data Skewness, Kurtosis

Example (Skewness,Kurtosis)

(Nguồn:http://www.vosesoftware.com)

(Nguồn: http://en.wikipedia.org/wiki/Kurtosis)

(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 30 / 30

You might also like