Professional Documents
Culture Documents
TKMT DTTX Slide2
TKMT DTTX Slide2
TKMT DTTX Slide2
(Descriptive Statistics)
6/2013
Là tổng các giá trị chia cho tổng số lượng phần tử.
Ký hiệu: Trung bình của quần thể (còn được gọi là kỳ vọng) được ký
hiệu là µ, trung bình của tập mẫu S được ký hiệu là mean(S).
Trung bình quần thể µ = ΣXN với ΣX là tổng giá trị các phần tử
trong quần thể, N là số phần tử của quần thể.
Trung bình mẫu S: mean(S) = ΣX n với ΣX là tổng các phần tử trong
tập mẫu, n là số phần tử của tập mẫu
Example
Cho tập mẫu S = {3, 2, 5, 1, 5, 5, 6, 5, 7} thì trung bình tập mẫu là
mean(S) = ...
Trung vị (Median)
Là điểm nằm chính giữa của một phân phối, theo nghĩa là số lượng
dữ liệu lớn hơn nó và số lượng dữ liệu nhỏ hơn nó bằng nhau.
Cho tập dữ liệu S. Sắp xếp S theo thứ tự tăng dần, kết quả là
S = {x1 , . . . , xn }. Trung vị được tính như sau:
x(n+1)/2 nếu n mod 2 = 1
median = {
(xn/2 + xn/2+1 )/2 nếu n mod 2 = 0
Example
Cho tập dữ liệu S1 = {3, 2, 5, 1, 5, 5, 6, 5, 7} thì trung vị của S1 là
median(S1 ) = . . .
Cho tập dữ liệu S2 = {3, 2, 5, 1, 5, 5, 6, 5, 7, 7} thì trung vị của S2 là
median(S2 ) = . . .
Phần tư vị (quartile)
Xem dữ liệu Life expectancy data trong tập tin excel (Nguồn: http://data.worldbank.org/)
1 min=..., max=...
2 Phần tư vị thứ 1 (phân vị 1/4, phân vị 0.25, 1st quartile, q0.25 ) = ...
3 Median (phần tư vị thứ 2, phân vị 1/4, phân vị 0.5, 2nd quartile, q0.5 ) = ...
4 Phần tư vị thứ 3 (phân vị 3/4, phân vị 0.75, 3rd quartile,q0.75 ) = ...
5 IQR = phần vị 3/4 - phân vị 1/4 = ...
6 Ngưỡng xác định giá trị ngoại lệ: ngưỡng trên = phân vị 3/4 +IQR × 1.5=...,
ngưỡng dưới = phân vị 1/4 −IQR × 1.5=...
(2013) THỐNG KÊ MÔ TẢ (Descriptive Statistics) 6/2013 6 / 30
Five-number summary Boxplot
Nếu chèn thêm 1 dòng dữ liệu sau vào tập dữ liệu ban đầu:
Nước A 140
Bài tập 2
Example
1 Cho tập dữ liệu sau S = 79, 68, 88, 69, 90, 74, 87, 93, 76. Xác định giá
trị min, max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá
trị mean, trimmed mean 40%.
2 Cho tập dữ liệu sau S = 78, 93, 68, 84, 90, 74. Xác định giá trị min,
max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá trị mean,
trimmed mean 40%.
3 Cho tập dữ liệu sau S = 78, 93, 68, 84, 90, 74, 130. Xác định giá trị
min, max và các phần tư vị. Vẽ boxplot tương ứng. Xác định giá trị
mean, trimmed mean 40%.
Quy ước khái niệm ’trimmed mean’ như sau (để khớp với kết quả tính trong Excel):
Trimmed mean a% (trung bình lược bỏ) là giá trị trung bình được tính lại sau khi
a
bỏ đi k giá trị dữ liệu nhỏ nhất và k giá trị dữ liệu lớn nhất, với k = 2×100 × n.
Nếu k không phải là số nguyên, thì xấp xỉ k bằng số nguyên nhỏ hơn và gần nó
nhất. Ví dụ: Nếu k = 1.6 thì làm tròn về 1. Nếu k = 1.2 thì làm tròn về 1.
Example
1 I Sắp xếp tăng dần tập dữ liệu S = {68, 69, 74, 76, 79, 87, 88, 90, 93}
I Số lượng dữ liệu: 9
I Số lượng dữ liệu lược bỏ ở mỗi đầu (lược bỏ các giá trị nhỏ nhất và
các giá trị lớn nhất): 40%
2 × 9 = 1.8 → làm tròn về 1.
I Tập dữ liệu sau khi lược bỏ ở mỗi đầu: {69, 74, 76, 79, 87, 88, 90}
I Giá trị trimmed mean 40%: 69+74+76+79+87+88+90
7 = 80.42857
I Nếu dùng excel: =TRIMMEAN(<dữ liệu>,0.4)
Example
1 Mean=80.11, Median=79, Trimmed mean 40%=80.43, min=68, max=90,
q1/4 = 74, q3/4 = 88
2 Mean=81.17, Median=81, Trimmed mean 40%=81.5, min=68, max=93,
q1/4 = 75, q3/4 = 88.5
3 Mean=88.14, Median=84, Trimmed mean 40%=83.8, min=68, max=130,
q1/4 = 76, q3/4 = 91.5
Nhận xét:
Mean có bị ảnh hưởng nhiều bởi các giá trị cực trị (extreme value) không?
Median có bị ảnh hưởng nhiều bởi các giá trị cực trị (extreme value) không?
Bài tập 3
Nếu chèn thêm 1 dòng dữ liệu sau vào tập dữ liệu ban đầu (dữ liệu chưa
thêm dòng 140):
Nước A 2000
1 Xác định giá trị median, mean, trimmed mean 8% của tập dữ liệu
trước và sau khi thêm dòng dữ liệu mới.
2 Trong 2 giá trị median, mean giá trị nào có sự thay đổi lớn, giá trị
nào không có sự thay đổi lớn?
Khái niệm
Ví dụ I
Example
Dữ liệu: Tuổi thọ trung bình của các nước trên thế giới (Nguồn:
http://data.worldbank.org/indicator/SP.DYN.LE00.IN/countries/1W?
order=wbapi_data_value_2011%20wbapi_data_value%20wbapi_data_
value-last&sort=asc&display=default)
Min = ..., Max=...
Chia miền dữ liệu thành các bin như sau và đếm số lượng dữ liệu trong từng bin
như sau:
Bin Số lượng dữ liệu
≤ 40 ...
> 40 và ≤ 50 ...
> 50 và ≤ 60 ...
> 60 và ≤ 70 ...
> 70 và ≤ 80 ...
≥ 80 ...
Ví dụ II
Khi đó, 40, 50, 60, 70, 80 gọi là ’cutpoints’ (các điểm mốc), là điểm xác định điểm
bắt đầu và kết thúc của 1 bin.
Ví dụ III
Vẽ histogram
Ví dụ IV
Có thể đọc được dữ liệu cụ thể từ histogram không? Có thể xác định
giá trị min, max từ histogram không?
Một số thông tin đọc từ histogram:
I Số lượng Mode (đỉnh của histogram, peak): unimodal (1 mode),
bimodal (2 mode), multimodal (nhiều hơn 2 mode), uniform (không có
mode)
I Tính biến thiên của dữ liệu (extent of spread of data): dàn trải vừa
phải, dàn trải rộng
I Tính đối xứng (extent of symmetry): đối xứng (symmetric), lệch trái
(left-skewed), lệch phải (right-skewed)
I Có tồn tại outlier (giá trị ngoại lệ) không?
I So sánh hình dạng với hình dạng của các phân phối thường gặp:
uniform distribution (phân phối đều), normal distribution (phân phối
chuẩn),...
Example (Mode)
Example (Outlier)
Example (Spread)
Example (Symmetry)
Dữ liệu: Tuổi thọ trung bình của các nước trên thế giới trong tập tin
worldbankDataExpectancyLife.xls (Nguồn:
http://data.worldbank.org/indicator/SP.DYN.LE00.IN/
countries/1W?order=wbapi_data_value_2011%20wbapi_data_
value%20wbapi_data_value-last&sort=asc&display=default) Vẽ
histogram với các bin xác định như trong slide 17, kết quả như sau:
Xác định 5 giá trị tóm tắt dữ liệu (five-number summary) và trả lời các câu hỏi
sau
I Khoảng cách giữa phần tư vị thứ 1 với median, so với khoảng cách
giữa phần tư vị thứ 3 với median, khoảng cách nào lớn hơn?
I Khoảng cách giữa min với median, so với khoảng cách giữa max với
median, khoảng cách nào lớn hơn?
I So sánh 3 giá trị, mean, mode, median
Câu hỏi: có giá trị số nào giúp mô tả tính đối xứng (symmetry) và độ bằng phẳng của
phân bố hay không?
Example (Skewness,Kurtosis)
(Nguồn:http://www.vosesoftware.com)
(Nguồn: http://en.wikipedia.org/wiki/Kurtosis)