Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

Mô tả dữ liệu

Tổng kết dữ liệu


Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Thống kê mô tả

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tổng kết dữ liệu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

1 Mô tả dữ liệu
Bảng tần số
Bảng tần số tương đối
Nhóm dữ liệu
2 Tổng kết dữ liệu
Trung bình mẫu
Trung vị mẫu
Mode mẫu
Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu
3 Tập dữ liệu cặp đôi và hệ số tương quan mẫu
Tập dữ liệu cặp đôi
Hệ số tương quan mẫu

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Ví dụ: Bảng sau đây là bảng tần số của tập hợp dữ liệu về lương
của năm đầu tiên làm việc (đơn vị là nghìn dollar) của 42 sinh viên
vừa mới tốt nghiệp kỹ sư điện tử.
Starting Salary Frequency
47 4
48 1
49 3
50 5
51 8
52 10
53 0
54 5
56 2
57 3
60 1
TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Dữ liệu từ bảng tần số trên có thể được biểu diễn một cách hình
học bằng column chart:

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Xét một tập dữ liệu gồm n giá trị. Nếu f là tần số của một giá trị,
f
thì tỷ số được gọi là tần số tương đối (relative frequency)
n
của giá trị đó.
Ví dụ: Bảng sau đây là bảng tần số tương đối:
Type of Cancer Number of New Cases Relative Frequency
Lung 42 0.21
Breast 50 0.25
Colon 32 0.16
Prostate 55 0.275
Melanoma 9 0.045
Bladder 12 0.06

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Thông thường, người ta hay sử dụng pie chart để biểu diễn hình
học cho bảng tần số tương đối:

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Đối với một tập dữ liệu có số lượng giá trị khác nhau quá lớn, ta
thường chia các giá trị này thành các nhóm, hoặc các khoảng lớp
(class interval). Ví dụ:

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Với bảng dữ liệu về tuổi thọ của 200 bóng đèn sợi đốt như trên, ta
có thể chia nhóm thành bảng tần số sau:
Class Interval Frequency
[500, 600) 2
[600, 700) 5
[700, 800) 12
[800, 900) 25
[900, 1000) 58
[1000, 1100) 41
[1100, 1200) 43
[1200, 1300) 7
[1300, 1400) 6
[1400, 1500) 1

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu Bảng tần số
Tổng kết dữ liệu Bảng tần số tương đối
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Nhóm dữ liệu

Một cách hiệu quả để tổ chức tập dữ liệu cỡ vừa và nhỏ là vẽ


thân và lá (stem and leaf plot).
Ví dụ: Thống kê về số điểm thi học kỳ của một nhóm sinh viên, ta
tổ chức dữ liệu kiểu "thân và lá" như sau:
9 0, 1, 4
8 3, 5, 5, 7, 8
7 2, 4, 4, 5, 7, 7, 8
6 0, 2, 3, 4, 6, 6
5 2, 5, 5, 6, 8
4 3, 6

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Định nghĩa
Xét một tập dữ liệu gồm n giá trị số x1 , . . . , xn . Trung bình mẫu
(sample mean), ký hiệu x, được định nghĩa bởi
x1 + · · · + xn
x= .
n

Đôi khi ta cần xác định trung bình mẫu của một tập hợp dữ liệu
được cho trong bảng tần số, gồm k giá trị phân biệt v1 , . . . , vk có
các tần số tương ứng là f1 , . . . , fk , trong đó f1 + . . . + fk = n.
Trong trường hợp này, trung bình mẫu được tính bởi
v1 · f1 + · · · + vk · fk
x= .
n

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Starting Salary Frequency


47 4
48 1
49 3
50 5
51 8
52 10
53 0
54 5
56 2
57 3
60 1
Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp:
47 · 4 + 48 · 1 + · · · + 60 · 1
x= ≈ 51.76
42
TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Trung vị mẫu

Định nghĩa
Xét một tập dữ liệu gồm n giá trị được sắp xếp từ nhỏ đến lớn.
Nếu n là số lẻ, thì trung vị mẫu (sample median) là giá trị
n+1
ở vị trí thứ .
2
Nếu n là số chẵn, thì trung vị mẫu là trung bình cộng của hai
n n
giá trị ở vị trí thứ và + 1.
2 2
Ví dụ: Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp,
trung vị mẫu là trung bình cộng của hai giá trị ở vị trí thứ 21 và
51 + 52
22, đó là = 51.5.
2
TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Định nghĩa
Xét một tập dữ liệu gồm n giá trị. Mode mẫu (sample mode) là
giá trị được xảy ra với tần số nhiều nhất.

Ví dụ: Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp,
mode mẫu là 52, đó là giá trị xảy ra với tần số nhiều nhất.

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Các thống kê như trung bình mẫu, trung vị mẫu và mode mẫu
đều có ý nghĩa mô tả xu hướng tập trung của tập dữ liệu.
Một thống kê cho phép mô tả độ phân tán của các giá trị dữ
liệu là phương sai mẫu.

Định nghĩa
Xét một tập dữ liệu x1 , . . . , xn . Phương sai mẫu (simple
variance), ký hiệu s 2 , được xác định bởi

(x1 − x)2 + · · · + (xn − x)2


s2 = .
n−1

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Định nghĩa
Xét một tập dữ liệu x1 , . . . , xn . Đại lượng s định bởi
s
(x1 − x)2 + · · · + (xn − x)2
s=
n−1

được gọi là độ lệch chuẩn mẫu (sample standard deviation).

Ví dụ: Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp,
phương sai mẫu là:
359.62
s2 ≈ ≈ 8.77
41
Độ lệch chuẩn mẫu là:
s ≈ 2.96
TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Định nghĩa
Xét một tập dữ liệu và 0 < p < 1. Phân vị mẫu (sample
percentile) 100p là giá trị dữ liệu sao cho có ít nhất 100p% dữ
liệu nhỏ hơn hoặc bằng nó và có ít nhất 100(1 − p)% dữ liệu lớn
hơn hoặc bằng nó. Nếu có hai giá trị dữ liệu thỏa mãn điều kiện
trên, thì phân vị mẫu 100p là trung bình cộng của hai giá trị đó.

Ví dụ: Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp và
xét p = 0.8. Phân vị mẫu 80 theo định nghĩa là giá trị dữ liệu sao
cho có ít nhất 80% dữ liệu (ít nhất 33.6 dữ liệu) nhỏ hơn hoặc
bằng nó và có ít nhất 20% dữ liệu (ít nhất 8.4 dữ liệu) lớn hơn
hoặc bằng nó. Rõ ràng dữ liệu đó ở vị trí thứ 34, đó là giá trị 54.

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Định nghĩa
Phân vị mẫu 25 được gọi là tứ phân vị thứ nhất (first quartile);
phân vị mẫu 50 được gọi là trung vị hoặc tứ phân vị thứ hai
(second quartile); phân vị mẫu 75 được gọi là tứ phân vị thứ
ba (third quartile)

Ví dụ: Xét bảng lương khởi đầu của 42 sinh viên mới tốt nghiệp.
Tứ phân vị thứ nhất là giá trị ở vị trí thứ 11, đó là 50.
Tứ phân vị thứ hai là trung bình cộng của các giá trị ở vị trí
thứ 21 và 22, đó là 51.5.
Tứ phân vị thứ ba là giá trị ở vị trí thứ 32, đó là 54.

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Thông thường, người ta hay sử dụng box chart để tổng kết một
tập dữ liệu bởi các tứ phân vị Q1 , Q2 , Q3 và min, max:

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

Thông thường người ta dựa vào các tứ phân vị Q1 , Q2 , Q3 của box


chart để phát hiện ra những dữ liệu "bất thường" hay còn gọi là
"ngoại lai", đó là những dữ liệu nằm ngoài đoạn [O1 , O2 ], trong đó:

O1 = Q1 − 1.5 · IQR, O2 = Q3 + 1.5 · IQR,

với IQR là khoảng trải giữa (interquartile range) được tính bởi

IQR = Q3 − Q1 .

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Trung bình mẫu
Mô tả dữ liệu Trung vị mẫu
Tổng kết dữ liệu Mode mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu Phương sai mẫu và độ lệch chuẩn mẫu
Phân vị mẫu

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tập dữ liệu cặp đôi
Tổng kết dữ liệu
Hệ số tương quan mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Ví dụ: Bảng dữ liệu sau đây ghi lại số năm đi học và nhịp tim của
10 người:
Person Years of School Pulse Rate
1 12 73
2 16 67
3 13 74
4 18 63
5 19 73
6 12 84
7 18 60
8 19 62
9 12 76
10 14 71

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tập dữ liệu cặp đôi
Tổng kết dữ liệu
Hệ số tương quan mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Có một cách hữu ích để miêu tả tập dữ liệu cặp đôi là vẽ nó trên
một đồ thị hai chiều, còn gọi là scatter chart. Chẳng hạn, tập dữ
liệu trong bảng trên được vẽ như trong hình sau đây:

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tập dữ liệu cặp đôi
Tổng kết dữ liệu
Hệ số tương quan mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Định nghĩa
Hệ số tương quan mẫu (sample correlation coefficient) của
các cặp dữ liệu (xi ; yi ), i = 1, . . . , n, ký hiệu là r , được định nghĩa
bởi
n
P
(xi − x)(yi − y )
i=1
r=s s .
n n
(xi − x)2 · (yi − y )2
P P
i=1 i=1

Khi r > 0 ta nói rằng các cặp dữ liệu có tương quan dương
(positively correlated), và khi r < 0 ta nói rằng chúng có mối
tương quan âm (negatively correlated).

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tập dữ liệu cặp đôi
Tổng kết dữ liệu
Hệ số tương quan mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Sử dụng bất đẳng thức B.C.S, ta chứng minh được:

|r | ≤ 1.

Giá trị |r | là một thước đo cho sự mạnh yếu của mối liên quan
tuyến tính giữa các giá trị x và y .
Giá trị |r | = 1 có nghĩa là có một mối liên quan tuyến tính
hoàn toàn, tức là có một đường thẳng đi qua tất cả các cặp
điểm dữ liệu (xi ; yi ), i = 1, . . . , n.
Giá trị |r | = 0.8 có nghĩa mối liên quan tuyến tính tương đối
mạnh; mặc dù không có đường thẳng nào đi qua tất cả các
cặp điểm dữ liệu, nhưng có một đường thẳng mà rất "gần"
tất cả các cặp điểm dữ liệu.
Giá trị |r | = 0.3 có nghĩa là mối liên quan tuyến tính tương
đối yếu.
TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.
Mô tả dữ liệu
Tập dữ liệu cặp đôi
Tổng kết dữ liệu
Hệ số tương quan mẫu
Tập dữ liệu cặp đôi và hệ số tương quan mẫu

Ví dụ: Với bảng dữ liệu ghi lại số năm đi học và nhịp tim của 10
người, hệ số tương quan mẫu là r = −0.7638. Sự tương quan
âm này cho thấy rằng có mối liên quan tuyến tính tương đối mạnh
giữa nhịp tim nhanh với số năm đi học ít, và nhịp tim chậm với số
năm đi học nhiều.

TS. Đào Huy Cường Bộ môn Toán Ứng Dụng Khoa Toán - Tin, Trường
Xác Suất
ĐHSPThống Kê (Probability
TP.HCM And Statistics)
Email: cuongdh@hcmue.edu.vn Web: sites.

You might also like