Professional Documents
Culture Documents
Slide XSTK Chương1
Slide XSTK Chương1
UTEX
www.hcmute.edu.vn
Chương 1 trang bị cho sinh viên
Bài toán Xác suất: Tỷ lệ sinh bé trai ở vùng A là 0,52. Tính xác suất trong
1000 trẻ sinh tại vùng này, số bé trai là từ 510 đến 530 bé.
Thu thập dữ liệu
Mẫu cần đảm bảo được rút ra từ tổng thể một cách ngẫu nhiên và đại diện
cho tổng thể.
Mẫu ngẫu nhiên đơn giản là mẫu gồm các phần tử mà mỗi phần tử được
lấy ra từ tổng thể với khả năng là như nhau.
Biến Thống kê
Một biến thống kê là một đặc tính mà giá trị có thể thay đổi từ đối tượng
này sang đối tượng khác trong tổng thể.
Biến Thống kê
Một biến thống kê là một đặc tính mà giá trị có thể thay đổi từ đối tượng
này sang đối tượng khác trong tổng thể.
Các đặc trưng đo lường được có các giá trị có thể có là các số thực.
Dữ liệu đơn biến bao gồm các quan sát trên một biến duy nhất. Tập dữ
liệu gồm n quan sát trên một biến x, những quan sát riêng lẻ sẽ được ký
hiệu là x1 , x2 , . . . , xn .
Dữ liệu mẫu ghép cặp là tập dữ liệu gồm n cặp quan sát trên cặp biến
(x, y ), sẽ được ký hiệu là (x1 , y1 ); (x2 , y2 ); . . . , (xn , yn ).
Cỡ mẫu
Số lượng quan sát trong một mẫu đơn được gọi là kích thước mẫu, hay cỡ
mẫu, được ký hiệu là n.
Cỡ mẫu
Số lượng quan sát trong một mẫu đơn được gọi là kích thước mẫu, hay cỡ
mẫu, được ký hiệu là n.
Nếu xét đồng thời hai mẫu, ta ký hiệu m và n hay n1 và n2 biểu thị số lượng
các quan sát của hai mẫu.
Khảo sát thương hiệu điện thoại sinh viên trường Đại học X đang sử dụng:
Samsung (S); Oppo (O); Iphone (I); Nokia (N); Acesus (A); Biphone (B)
hoặc loại khác (K)
Tập dữ liệu thu được
A O S S I B K S I S
O S I N I B N O S K
Các phương pháp trực quan để mô tả dữ liệu mẫu
Bảng tần số, tần suất
Một số loại biểu đồ
Các tham số đặc trưng
Bảng tần số, tần suất
Xét dữ liệu bao gồm các quan sát của một biến rời rạc hoặc biến nhận các giá
trị mang ý nghĩa phân loại.
Tần số của một giá trị của x bất kỳ cụ thể là số lần giá trị xảy ra trong
tập dữ liệu.
Tần số tương đối hay tần suất, tỷ lệ của một giá trị là tỷ lệ giữa tần
số của giá trị đó và số lượng quan sát của tập số liệu.
số lần giá trị xuất hiện
Tần số tương đối =
số quan sát của tập số liệu
A O S S I B K S I S
O S I N I B N O S K
Trong dữ liệu gồm 20 quan sát về x là thương hiệu điện thoại sinh viên trường
đại học X đang sử dụng có 6 lần S xuất hiện trong dữ liệu mẫu.
Tần số giá trị S của x là: 6
6
Tần số tương đối giá trị S của x là 20 = 0, 3
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
x1 n1 f1
x2 n2 f2
... ... ...
xk nk fk
k
X
ni = n
i=1
k
ni X
fi = ; fi = 1
n
i=1
A O S S I B K S I S
O S I N I B N O S K
Bảng tần số, tần suất của dữ liệu mẫu về thương hiệu điện thoại của sinh viên:
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
3
O 3 20 = 0, 15
1
A 1 20 = 0, 05
6
S 6 20 = 0, 3
4
I 4 20 = 0, 2
2
N 2 20 = 0, 1
2
B 2 20 = 0, 1
2
K 2 20 = 0, 1
A O S S I B K S I S
O S I N I B N O S K
Bảng tần số, tần suất của dữ liệu mẫu về thương hiệu điện thoại của sinh viên:
Giá trị xi Tần số ni Tần suất hay tỷ lệ fi
3
O 3 20 = 0, 15
1
A 1 20 = 0, 05
6
S 6 20 = 0, 3
4
I 4 20 = 0, 2
2
N 2 20 = 0, 1
2
B 2 20 = 0, 1
2
K 2 20 = 0, 1
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Z ta có bảng
số liệu:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Z ta có bảng
số liệu:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Để xây dựng bảng tần số cho dữ liệu liên tục đòi hỏi phải phân chia trục đo
thành một số lớp (khoảng) thích hợp sao cho mỗi quan sát được chứa trong
chính xác một khoảng.
Để tránh trường hợp một quan sát nằm trên ranh giới giữa các lớp (khoảng)
nên khó xác định nó thuộc chính xác một khoảng nào, ta thường sử dụng các
lớp khoảng từ 1,40 đến < 1,45; từ 1,45 đến < 1,50; . . . ; từ 1,80 đến
< 1,85. Khi đó 1,70 rơi trong lớp từ 1,70 đến < 1,75 mà không thuộc lớp
từ 1,65 đến 1,70.
Quy ước
Một quan sát trên một ranh giới được đặt trong khoảng ranh giới bên phải.
Bảng tần số của dữ liệu chiều cao sinh viên có dạng
Giá trị xi (m) 1,4-1,45 1,45-1,5 1,5-1,55
Tần số ni 1 2 6
Giá trị xi (m) 1,55-1,6 1,6-1,65 1,65-1,70
Tần số ni 9 7 9
Giá trị xi (m) 1,70-1,75 1,75-1,80 1,80-1,85
Tần số ni 7 1 3
Biểu đồ Gốc-Lá
Biểu đồ Gốc-Lá
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 555566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 0000013
1 1,7 9
3 1,8 002
Biểu đồ Gốc-Lá
Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
Biểu đồ Gốc-Lá
Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
Biểu đồ Gốc-Lá
Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
3. Ghi lá cho mỗi quan sát bên cạnh giá trị gốc tương ứng.
Biểu đồ Gốc-Lá
Xét một tập hợp các dữ liệu số x1 , x2 , . . . , xn mà mỗi xi bao gồm ít nhất hai
chữ số.
Hướng dẫn tạo biểu đồ gốc và lá
1. Chọn một hoặc nhiều chữ số đầu cho các giá trị gốc, các chữ số sau là lá.
2. Liệt kê các giá trị gốc có thể có trong một cột dọc.
3. Ghi lá cho mỗi quan sát bên cạnh giá trị gốc tương ứng.
4. Chỉ ra các đơn vị cho cành và lá.
Biểu đồ Gốc-Lá
Biểu đồ Gốc-Lá
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 555566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 0000013
1 1,7 9
3 1,8 002
Biểu đồ Gốc-Lá
Khảo sát chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y:
1,55 1,73 1,65 1,71 1,55 1,51 1,68 1,56 1,63
1,55 1,57 1,63 1,59 1,54 1,80 1,45 1,60 1,55
1,60 1,65 1,70 1,68 1,70 1,65 1,56 1,54 1,52
1,64 1,67 1,50 1,80 1,48 1,65 1,70 1,82 1,79
1,70 1,40 1,67 1,70 1,67 1,58 1,60 1,62 1,52
Biểu đồ gốc lá dữ liệu mẫu về chiều cao của 45 sinh viên trường Đại học Y
Tần số Gốc Lá
1 1,4 0
2 1,4 58
6 1,5 012244
9 1,5 5 55566789 Độ rộng của gốc: 0,10
7 1,6 0002334 Mỗi lá: 1 trường hợp
9 1,6 555577788 Đơn vị: m
7 1,7 000001 3
1 1,7 9
3 1,8 002
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.
Ưu điểm của biểu đồ gốc và lá: là biểu diễn được dữ liệu gốc trên biểu đồ.
Xác định các giá trị tiêu biểu hoặc đại diện.
Mức độ lan truyền của các giá trị tiêu biểu.
Thể hiện bất kỳ khoảng trống trong dữ liệu.
Mức độ đối xứng trong phân phối giá trị.
Số lượng và vị trí của đỉnh.
Thể hiện giá trị ngoại lai.
Nhược điểm của biểu đồ gốc và lá: chỉ biểu diễn được dữ liệu số có giá trị
gồm 2 chữ số và chỉ phù hợp với dữ liệu có cỡ nhỏ.
Biểu đồ Gốc-Lá
Biểu đồ Chấm
Biểu đồ Chấm
Biểu đồ Chấm
Mỗi quan sát được đại diện bởi một dấu chấm ở trên các vị trí tương ứng
trên thang điểm đo nằm ngang.
Biểu đồ Chấm
Mỗi quan sát được đại diện bởi một dấu chấm ở trên các vị trí tương ứng
trên thang điểm đo nằm ngang.
Khi một giá trị xuất hiện nhiều hơn một lần những dấu chấm được xếp
chồng lên nhau theo chiều dọc.
A O S S I B K S I S
O S I N I B N O S K
Biểu đồ chấm của dữ liệu mẫu về thương hiệu điện thoại của một sinh viên
trường đại học X đang sử dụng
*
*
* *
* * *
* * * * * *
* * * * * * *
O A S I N B K
Biểu đồ Chấm
Ưu điểm
Giống như biểu đồ gốc và lá, một biểu đồ chấm (dotplots) cũng cung cấp
thông tin về vị trí, mức độ lan truyền, giá trị ngoại lai và những khoảng trống
của tập dữ liệu.
Nhược điểm
Phù hợp với tập dữ liệu là nhỏ hoặc có rất ít giá trị dữ liệu riêng biệt.
Biểu đồ Chấm
Biểu đồ Histogram
Số Tín chỉ xi 12 15 18 21 24 27 30
Số sinh viên ni 6 14 26 49 54 41 28
50
Số Sinh viên
40
30
20
10
12 15 18 21 24 27 30
Biểu đồ Histogram
Diện tích của mỗi hình chữ nhật tỉ lệ với tần số tương đối của các giá trị.
Số Tín chỉ xi 12 15 18 21 24 27 30
Số sinh viên ni 6 14 26 49 54 41 28
50
Số Sinh viên
40
30
20
10
12 15 18 21 24 27 30
Biểu đồ Histogram
Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng như
nhau
8
Số sinh viên
6
1.41.451.51.551.61.651.71.751.8
Chiều cao
Biểu đồ Histogram
Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng như
nhau
1. Xác định tần số và tần số tương đối cho mỗi lớp (mỗi khoảng).
2. Đánh dấu ranh giới lớp trên một trục đo nằm ngang.
3. Phía trên mỗi lớp (khoảng), vẽ một hình chữ nhật có chiều cao là tần số
tương đối (hoặc tỷ lệ) tương ứng.
Biểu đồ Histogram
Xét dữ liệu chiều cao (đơn vị: m) của 45 sinh viên trường Đại học Y ta có
bảng số liệu:
Giá trị xi 1,4-1,45 1,45-1,5 1,5-1,55
Tần số ni 1 2 6
Giá trị xi 1,55-1,6 1,6-1,65 1,65-1,70
Tần số ni 9 7 9
Giá trị xi 1,70-1,75 1,75-1,80 1,80-1,85
Tần số ni 7 1 3
8
Số sinh viên
6
1.41.451.51.551.61.651.71.751.8
Chiều cao
Biểu đồ cột của mẫu dữ liệu trên là
1.8 − 1.85 3
1
1.7 − 1.75 7
1.65 − 1.7 9
1.6 − 1.65 7
1.55 − 1.6 9
1.5 − 1.55 6
2
1
0 2 4 6 8 10
Biểu đồ Histogram
Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng
không như nhau
Biểu đồ cột của mẫu dữ liệu định tính là thương hiệu điện thoại sinh viên
trường X sử dụng
O A S I N B K
Hướng dẫn tạo biểu đồ cột cho dữ liệu liên tục với các khoảng có độ rộng
không như nhau
Sau khi xác định tần số và tần số tương đối, tính chiều cao của mỗi hình chữ
nhật theo công thức
Chiều cao hình chữ nhật = tần số tương đối của lớp
độ rộng của lớp
Kết quả là chiều cao hình chữ nhật thường được gọi là mật độ và thang đo
theo chiều dọc là thang đo mật độ.
Tần số tương đối = (độ rộng lớp).(mật độ)
=(chiều rộng hcn).(chiều cao hcn)
= diện tích hình chữ nhật
Biểu đồ Histogram
Biểu đồ Histogram
Biểu đồ Histogram
Dữ liệu đa biến
Dữ liệu đa biến nói chung là khá khó khăn để mô tả trực quan. Một trong các
phương pháp để mô tả là dùng biểu đồ phân tán cho dữ liệu hai biến số.
Mỗi cặp giá trị trong dữ liệu sẽ được biểu diễn bởi một chấm có tọa độ
tương ứng là cặp dữ liệu này.
Biểu diễn tất cả dữ liệu ta thu được một đám mây các điểm trong biểu đồ
phân tán này.
Dựa trên hình dạng đám mây điểm này ta có thể dự đoán được xu hướng
mối quan hệ giữa các biến đặc trưng của dữ liệu hoặc đưa ra kết luận
không có mối quan hệ giữa các biến này.
Mỗi cặp giá trị trong dữ liệu sẽ được biểu diễn bởi một chấm có tọa độ tương
ứng là cặp dữ liệu này.
Ta xét dữ liệu ghép cặp của hai đặc trưng X và Y
(3.5, 12); (4.5, 15); (6.2, 16); (3.2, 19); (4.1, 21); (3.9, 24);
(6.5, 26); (4.8, 29); (3.0, 31); (2.5, 35); (4.7, 46)
Trung bình mẫu
Trung bình mẫu
x̄ là giá trị trung bình của các quan sát trong một mẫu.
Trung bình của tất cả các giá trị trong tổng thể được gọi là trung bình
tổng thể và được ký hiệu µ.
Trung bình mẫu
x̄ là giá trị trung bình của các quan sát trong một mẫu.
Trung bình của tất cả các giá trị trong tổng thể được gọi là trung bình
tổng thể và được ký hiệu µ.
Trung vị là giá trị ở chính giữa các quan sát được sắp xếp.
Trung vị là giá trị ở chính giữa các quan sát được sắp xếp.
Giả sử quan sát lớn nhất x9 không chứa trong dữ liệu mẫu.
x1 x2 x3 x4 x5 x6 x7 x8
12 18 22 25 27 31 36 40
xn/2 + xn/2+1 25 + 27
x̃ = = = 26
2 2
x̃ là giá trị trung vị mẫu, giá trị ở giữa tổng thể là trung vị của tổng
thể ta kí hiệu bằng µ̃.
Ta sử dụng các trung vị mẫu x̃ như là một suy luận về trung vị của tổng
thể µ̃.
x̃ là giá trị trung vị mẫu, giá trị ở giữa tổng thể là trung vị của tổng
thể ta kí hiệu bằng µ̃.
Ta sử dụng các trung vị mẫu x̃ như là một suy luận về trung vị của tổng
thể µ̃.
Hình: Biểu đồ hộp của dữ liệu chiều cao của 45 sinh viên trường X.
Bất kỳ quan sát xa hơn 1, 5fs từ tứ phân vị gần nhất là một ngoại lại. Với
Hình: Biểu đồ hộp của dữ liệu chiều cao của 45 sinh viên trường X với giá trị min là 1,3m.
Trung bình thu gọn
Một trung bình thu gọn là trung bình của
dữ liệu được thu gọn bớt đi một số dữ liệu
thuộc nhóm lớn nhất và nhỏ nhất.
Trung bình thu gọn
Một trung bình thu gọn là trung bình của
dữ liệu được thu gọn bớt đi một số dữ liệu
thuộc nhóm lớn nhất và nhỏ nhất.
Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Tỷ lệ mẫu
Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
Tỷ lệ mẫu
Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tỷ lệ mẫu
Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tần số mẫu tương đối hoặc tỷ lệ mẫu tương đối loại ta quan tâm là x/n
Tỷ lệ mẫu
Khi dữ liệu được phân loại và ta chỉ quan tâm đến dữ liệu thuộc loại nào đó.
Nếu chúng ta kí hiệu x là số cá thể trong mẫu rơi vào loại ta quan tâm
thì số lượng cá thể không thuộc loại ta quan tâm là n − x.
Tần số mẫu tương đối hoặc tỷ lệ mẫu tương đối loại ta quan tâm là x/n
Tỷ lệ mẫu các loại còn lại là 1 − x/n.
Phương sai mẫu
Phương sai mẫu
Hình: Các mẫu có độ đo trung tâm giống hệt nhau nhưng khác nhau về độ biến thiên.
Phương sai mẫu
Bật chức năng Tần số:Shilf + Menu + nhấn mũi tên xuống + 2 + 1
Lưu ý: Chỉ cần làm 1 lần, trừ khi tắt OFF thì cần bật ON lại.