Professional Documents
Culture Documents
2 Statistical Analysis
2 Statistical Analysis
Documents:
PhD. Pham Tien Lam
M.sc Nguyen Van Quyen
Bài toán
• Một hãng ô tô khảo sát khả năng mua một loại xe mới của khách hàng bằng
việc điều tra các thông tin của khách hàng thông qua mạng xã hội.
• Thông qua mạng xã hội hãng sẽ thu thập được thông tin về tuổi (age) của khách
hàng, và có thể đánh giá được thu nhập của khách hàng.
• Hãng muốn biết những khách hàng như thế nào thì sẽ có khả năng mua
xe ?
Nghiên cứu giải quyết bài toán
• 1. Đặt vấn đề -> xây dựng các giả thuyết
• 2. Thu thập dữ liệu -> các đối tượng được nghiên cứu
• 3. Tổ chức dữ liệu, phân tích, tính toán các đặc trưng thống kê
• 4. Kiểm chứng các giả thuyết, suy diễn để đưa ra các kết luận
• 5. Khái quá hoá thông tin thành hệ thống tri thức
Nghiên cứu giải quyết bài toán
1. Đặt vấn đề (Mô hình hóa bài toán)
• Input: Thông tin khách hàng
• Output: Khả năng (Xác suất) khách hàng mua xe
2. Dữ liệu
2. Dữ liệu
• Mỗi đối tượng trong tập dữ liệu Điểm dữ liệu (data instance / data point) hoặc
mẫu (sample)
• Mỗi điểm dữ liệu được xác định bằng các trường thông tin
Các biến số mô tả Features
• Feature vectors: Tập hợp các biến số mô tả dưới dạng 1 vector
2. Dữ liệu
2. Dữ liệu
• Các feature có thể là: số nguyên, số thực, chuỗi kí tự, Boolean
• Cẩn trọng khi thực hiện các phép toán trong không gian feature.
2. Dữ liệu
Những thứ thu được từ dữ liệu?
• Tỉ lệ Nam / Nữ?
• Số người mua hàng?
• Khoảng tuổi?
• Tương quan giữa thu nhập và tuổi? Tổng hợp báo cáo. Xây dựng kịch
• Tương quan giữa thu nhập và khả năng mua hàng bản kinh doanh từ dữ liệu
• Khách hàng là Nam / Nữ sẽ mua hàng?
• Dự đoán khả năng mua hàng của một khách hàng?
• ….
2. Dữ liệu (Phân tích dữ liệu)
3. Thống kê
• Tập hợp tất các đối tượng thỏa 1 đk nghiên cứu nào đó
• Bao gồm toàn bộ thành viên của 1 tập xác định nào đó
Population
• VD: tập khách hàng thỏa tiêu chí (20-60 tuổi) và ở Hà Nội
Sampl
e
Giá trị trung bình nhạy cảm (sensitive) với những điểm ngoại lệ
Cần phát hiện các ngoại lệ trong 1 phân phối xác suất, vì chúng có thể
làm thay đổi kết quả phân tích dữ liệu
3.3 Median (Trung vị)
Giá trị chia đôi tập dữ liệu
3.3 Median (Trung vị)
Cách tính trung vị
3.3 Median (Trung vị)
3.4 Mode (số yếu vị)
• Là giá trị của phần tử có số lần xuất hiện nhiều nhất trong danh sách
hoặc tập mẫu.
• Ví dụ, yếu vị của {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} là 6
3.4 Mode (số yếu vị)
VD, đo chiều cao và cân nặng của mọi người, các giá trị này sẽ tạo thành một phân bố hình cái
chuông úp, đỉnh của đường cong hình chuông này sẽ là chiều cao và cân nặng phổ biến nhất
của mọi người.
Q1
Q1
Q2
Q2
3. 5 Variance (Phương sai)
Đại lượng đặc trung cho độ phân tán (sai số của 1 phép đo) của tập dữ
liệu quanh giá trị trung bình
3.5 Variance (Phương sai)
3.6 Standard deviation (Độ lệch chuẩn)
• Độ lệch chuẩn là thước đo độ phân tán của một tập hợp các giá trị so với giá trị trung
bình của chúng.
• Độ lệch chuẩn của 1 giá trị càng thấp nghĩa là giá trị đó càng gần với giá trị trung bình
của tập hợp.
Độ lệch chuẩn cho ta biết được độ phân tán của giá trị thống kê so với
giá trị trung bình, ở từng thời điểm khác nhau.
Nếu độ lệch chuẩn thấp thì tính biến động không đáng kể và ngược lại.
Cả độ lệch chuẩn và phương sai đều dùng để đo lường các mức độ lan
truyền của dữ liệu trong bất kỳ tập dữ liệu nào.
3.6 Standard deviation (Độ lệch chuẩn)
3.7 Interquartile range (Tứ phân vị)
Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu.
Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá trị
này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn)
thành 4 phần có số lượng quan sát đều nhau.
Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung vị
Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới
Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên
3.7 Interquartile range (Tứ phân vị)
3.7 Interquartile range (Tứ phân vị)
3.7 Interquartile range (Tứ phân vị)
3.7 Interquartile range (Tứ phân vị)
The k’th percentile is the value such
Percentile that k% of the data is less than or
equal to that value.
N
∑ i=1 (xi − μx)(yi − y
Cov(x, y)
corr = σxσy = N μ )
∑ i=1 (xi − μx )2(yi − y
2
N
1
C= ¯ Xi − ¯
(Xi − X) T
∑
N i=1 ( X)
C= σ (x,x) σ (x,y)
[σ(y,x) σ(y,y)]