Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Intro: Mean, Median và Mode là những thuật ngữ cơ bản trong thống

kê, lý thuyết xác suất, … Trong thống kê, 3 thuật ngữ này là những ví dụ về
số bình quân, hay còn gọi là giá trị đại diện chỉ tiêu biểu hiện mức độ điển
hình của một tổng thể gồm nhiều đơn vị cùng loại được xác định theo một
tiêu thức nào đó.
I. Values and collections of values (Giá trị và tập giá trị)
1. Giá trị:
a. Khái niệm: Giá trị trong khuôn khổ bài thuyết trình sẽ đại diện cho
những con số.
b. Ví dụ: 5, 1, 3.6, 1041, 0, 200, 0.5, -100
2. Tập giá trị
a. Khái niệm: Tập giá trị là tập hợp những giá trị thỏa mãn một điều kiện
nào đó, được đặt trong dấu ngoặc vuông.
b. Ví dụ: [4, 12, 9, -4, 222].
II. Measuring central tendency (Đo lường xu hướng tập trung)
Số đo bình quân được sử dụng phổ biến trong nguyên lý thống kê để nêu lên
đặc điểm chung nhất, phổ biến nhất của hiện tượng kinh tế xã hội trong các
điều kiện không gian và thời gian cụ thể.

Ví dụ 1: Tiền lương bình quân của một công nhân trong doanh nghiệp là
mức lương phổ biến nhất, đại diện cho các mức lương khác nhau của công
nhân trong doanh nghiệp.

Ví dụ 2: Thu nhập bình quân đầu người của một địa bàn là mức thu nhập
phổ biến nhất, đại diện cho các mức thu nhập khác nhau của mọi người trong
địa bàn đó.

Số đo bình quân còn dùng để so sánh đặc điểm của những hiện tượng không
có cùng một quy mô hay làm căn cứ để đánh giá trình độ đồng đều của các
đơn vị tổng thể.
Khuynh hướng tập trung của dữ liệu thường được đo lường qua 3 tham số đó
là số trung bình, số trung vị và số mode.
1. Mean
Để tìm trung bình, ta cộng tất cả giá trị các phần tử của dãy số lại rồi
chia cho tổng số phần tử.
2. Median
Số trung vị (Median) là giá trị giữa trong một phân bố chia phân bố
thành 2 nhóm mà trong đó số các số trong mỗi nhóm bằng nhau. Nói cách
khác, nếu m là trung vị của một phân bố nào đó thì 1/2 cá thể trong phân bố
đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn
hơn m.
Median được tính như sau:
- Sắp xếp dữ liệu theo thứ tự tăng dần (hoặc giảm dần): 17.9-19.5-21.2-
23.0-24.6-25.1
- Nếu số phần tử là số lẻ thì median chính là giá trị ở giữa.
- Nếu số phần tử là một số chẵn thì median là trung bình của 2 giá trị ở
giữa. Với số liệu trên ta có median = 22.1 (bằng trung bình của 21.2 và
23.0)
3. Mode:
Mode là số có tần suất xuất hiện nhiều nhất trong mẫu. Nếu trong mẫu
không có số nào xuất hiện lặp lại thì không có mode. Với mẫu dữ liệu trên thì
không có mode.
4. So sánh
Trong 3 tham số Mean, Mode và Median thì Median có khả năng đo lường xu
hướng tập trung của dữ liệu mạnh nhất.

Trở lại ví dụ chạy 100 m trên, giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần
thứ 7. Lần này đột nhiên chân bạn bị đau và bạn đi bộ thay vì chạy và kết quả
thời gian của lần này là 79.9 giây. Bạn cố gắng thử thêm lần nữa và kết quả
vẫn 79.9 giây. Bây giờ ta có mẫu cho 8 lần chạy như sau:

x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9}

Nếu bạn quan sát cẩn thận, đối với 6 lần chạy đầu tiên thì thời gian chính gian
chạy còn 2 lần sau có sự khác biệt rất lớn so với 6 lần chạy ban đầu (2 giá trị
này được xem là bất thường của dữ liệu – outlier) thực chất nó không phải
thời gian chạy mà là thời gian đi bộ. Nếu bạn không bị đau thì thời gian chạy
dao động quanh Median.

Theo bảng trên ta thấy rằng 2 Outliers không ảnh hưởng nhiều đến Median
(từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và
Mode. Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu
mạnh hơn Mean vì Median không bị ảnh hưởng bởi các Outliers nhưng nhiều
người vẫn thích sử dụng Mean để đo lường xu hướng tập trung của dữ liệu vì
dễ tính hơn không cần phải sắp xếp dữ liệu như Median.
NHẬN XÉT VỀ MODE

Mode rất hữu ích đối với dữ liệu có kiểu dữ liệu phân loại (nominal). Đối với
các dữ liệu có kiểu phân loại ta không thể dùng Mean hay Median vì nó
không có ý nghĩa gì mà phải dùng Mode. Ví dụ nếu dữ liệu mô tả giới tính là
nominal và 1 là nam, 0 là nữ thì Mean hay Median là 0.5 không có ý nghĩa gì.
Trong khi đó Mode cho biết tần suất nam hay nữ xuất hiện nhiều nhất.
III. Properties of the measures of central tendency (Những thuộc tính
của số đo bình quân/ đo lường xu hướng tập trung) (Phần t làm)
Khi đo lường 1 xu hướng tập trung (, dùng giá trị điển hình để biểu thị/
tổng quát /đại diện hóa 1 tập hợp), ta phải đánh đổi bằng việc mất thông tin về
các phần tử trong tập hợp. Xét theo một khía cạnh, rút gọn 1 tập hợp, quy
thành 1 số giống như việc nén dữ liệu. Tuy nhiên như đã học trong KTLT,
nén dữ liệu thì có thể khôi phục lại được dữ liệu gốc nma sử dụng số bình
quân/ đo lường xu hướng tập trung thì không thể khôi phục lại được các phần
tử gốc.
Để giải quyết được vấn đề này, ta nên biết được đặc điểm/thuộc tính
những thông tin nào sẽ bị mất khi sử dụng từng loại số bình quân và khi nào
nên sử dụng loại nào để phù hợp với tập hợp số mà ta đang xem xét
1. The mean, the mode, and the median running for president!
Xét tình huống có 3 ứng cử viên đang tham gia tranh cử. Mỗi ứng
viên sẽ thuyết phục bạn bầu cho họ bằng cách hứa hẹn rằng họ sẽ trở thành
người đại diện cho bạn tốt hơn 2 ứng viên còn lại. Và dĩ nhiên họ sẽ không
chỉ thuyết phục mỗi bạn, mà để tối đa hóa cơ hội thắng họ sẽ cố gắng vận
động được cử tri bầu cho họ nhất có thể. Do đó, họ muốn trở thành đại diện
của càng nhiều cử tri càng tốt. Cuối cùng, đại diện tổng thể tốt nhất của cử tri
sẽ thắng cuộc bầu cử.
3 ứng viên trong ví dụ này cũng chính là ẩn dụ cho 3 số đo bình quân
mà chúng tôi nêu tới tiếp theo đây. liệu giá trị trung bình, yến vị hay
trung vị sẽ là các giá trị đại diện tốt nhất cho tổng thể tập hợp? Phần tiếp
theo chúng tôi sẽ làm rõ.
Kể từ đây, tôi sẽ sử dụng ký hiệu sau:
x = một số thực cụ thể
S = tổng của tất cả các số trong một tập hợp
N = số lượng các số trong một tập hợp
MEAN, MODE, MEDIAN = các thước đo được tính toán tương ứng
cho một tập hợp.
Theo tinh thần của ẩn dụ bầu cử, chúng ta hãy nghe các lập luận ủng hộ
từng biện pháp và xem chúng ta nên chọn biện pháp nào!
2. A warm-up simulation
https://drive.google.com/file/d/
1pp0Ouz1pqDCZMpcqrGPmBF9kStihRR7T/view

Trục X đại diện cho những giá trị riêng lẻ trong tập hợp và trục y cho biết
số lượng của mỗi giá trị.
Các đường màu đỏ, cam, xanh lần lượt đại diện cho giá trị hiện tại của các
phép đo. Hai giá trị đầu tiên bằng nhau và bằng 4.5 , trong khi giá trị đường
màu đỏ bằng 4 (Đường màu đỏ và đường màu cam đang bị overlap)
Tiếp theo, thêm các số vào bên phải của tập hợp. Sau việc add thêm mỗi số,
xu hướng bình quân sẽ được tính toán lại, thay đổi.
Ở một số trường hợp, khi thêm số mới vào, giá trị trung bình dễ bị thay đổi
nhất, trong khi các giá trị còn lại vẫn giữ nguyên.
Trong một số trường hợp khác, khi thêm vào nhiều số mới, trung vị và yến vị
di chuyển tới chỗ mà phần lớn các giá trị tập hợp, phần lớn các số tụ hợp,
trong khi giá trị trung bình lại hầu như không thay đổi.
Giá trị trung bình luôn trượt liên tục dọc theo trục x. Mặt khác, đường trung
bình, yến vị có thể không thay đổi hoặc di chuyển đột ngột sang một vị trí
mới.
3. The mean
4. The median
5. The mode

You might also like