2 Statistical Analysis

INTRODUCTION TO DATA SCIENCE
AND ARTIFICIAL INTELLIGENCE

Lecturer: Nguyễn Văn Thiệu
Email: thieu.nguyenvan@phenikaa-uni.edu.vn
Documents:
PhD. Pham Tien Lam
M.sc Nguyen Van Quyen
Bài toán
• Một hãng ô tô khảo sát khả năng mua một loại xe mới của khách hàng bằng
việc điều tra các thông tin của khách hàng thông qua mạng xã hội.
• Thông qua mạng xã hội hãng sẽ thu thập được thông tin về tuổi (age) của khách
hàng, và có thể đánh giá được thu nhập của khách hàng.
• Hãng muốn biết những khách hàng như thế nào thì sẽ có khả năng mua
xe ?
Nghiên cứu giải quyết bài toán
• 1. Đặt vấn đề -> xây dựng các giả thuyết
• 2. Thu thập dữ liệu -> các đối tượng được nghiên cứu
• 3. Tổ chức dữ liệu, phân tích, tính toán các đặc trưng thống kê
• 4. Kiểm chứng các giả thuyết, suy diễn để đưa ra các kết luận
• 5. Khái quá hoá thông tin thành hệ thống tri thức
Nghiên cứu giải quyết bài toán
1. Đặt vấn đề (Mô hình hóa bài toán)
• Input: Thông tin khách hàng
• Output: Khả năng (Xác suất) khách hàng mua xe
2. Dữ liệu
2. Dữ liệu
• Mỗi đối tượng trong tập dữ liệu  Điểm dữ liệu (data instance / data point) hoặc
mẫu (sample)
• Mỗi điểm dữ liệu được xác định bằng các trường thông tin
 Các biến số mô tả  Features
• Feature vectors: Tập hợp các biến số mô tả dưới dạng 1 vector
2. Dữ liệu
2. Dữ liệu
• Các feature có thể là: số nguyên, số thực, chuỗi kí tự, Boolean
• Cẩn trọng khi thực hiện các phép toán trong không gian feature.
2. Dữ liệu
Những thứ thu được từ dữ liệu?
• Tỉ lệ Nam / Nữ?
• Số người mua hàng?
• Khoảng tuổi?
• Tương quan giữa thu nhập và tuổi? Tổng hợp báo cáo. Xây dựng kịch
• Tương quan giữa thu nhập và khả năng mua hàng bản kinh doanh từ dữ liệu
• Khách hàng là Nam / Nữ sẽ mua hàng?
• Dự đoán khả năng mua hàng của một khách hàng?
• ….
2. Dữ liệu (Phân tích dữ liệu)
3. Thống kê
• Tập hợp tất các đối tượng thỏa 1 đk nghiên cứu nào đó
• Bao gồm toàn bộ thành viên của 1 tập xác định nào đó
Population
• VD: tập khách hàng thỏa tiêu chí (20-60 tuổi) và ở Hà Nội
Sampl
e
• Tập con được tách ra từ quần thể để nghiên cứu. Từ đó

đưa ra các kết luận về quần thể.
• Tập con đại diện cho toàn bộ quần thể.
• Sẽ có biên độ sai số với khoảng tin cậy
3. Thống kê
3. Thống kê
Các đặc trưng của thống kê trong tập dữ liệu
• Min / Max (Nhỏ nhất / lớn nhất) and Range

• Mean (Trung bình)
• Median (Trung vị)
• Mode (Yếu vị)
• Variance (Phương sai)
• Standard deviation (Độ lệch chuẩn)
• Interquartile range (Tứ Phân Vị)
• Hệ số tương quan
3.1 Min / Max and Range
 MinValue is also known as infimum. MinValue is typically
used to find the smallest possible values given constraints.
 MaxValue is also known as supremum. MaxValue is typically

used to find the largest possible values given constraints.
3.2 Mean (Trung bình)
3.2 Mean (Trung bình)
• VD: Tập điểm môn Văn: D = {1, 3, 10.0, 5, 2, 3, 1.5, 2.5, 2}
Hỏi điểm trung bình môn Văn?
 10.0 là điểm ngoại lệ (outliers)
 Giá trị trung bình nhạy cảm (sensitive) với những điểm ngoại lệ
 Cần phát hiện các ngoại lệ trong 1 phân phối xác suất, vì chúng có thể
làm thay đổi kết quả phân tích dữ liệu
3.3 Median (Trung vị)
Giá trị chia đôi tập dữ liệu
Cách tính trung vị
3.4 Mode (số yếu vị)
• Là giá trị của phần tử có số lần xuất hiện nhiều nhất trong danh sách
hoặc tập mẫu.
• Ví dụ, yếu vị của {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} là 6
3.4 Mode (số yếu vị)
 Yếu vị là giá trị đại diện nhất cho phân bố.
VD, đo chiều cao và cân nặng của mọi người, các giá trị này sẽ tạo thành một phân bố hình cái
chuông úp, đỉnh của đường cong hình chuông này sẽ là chiều cao và cân nặng phổ biến nhất
của mọi người.
Q1
Q1
Q2
Q2
3. 5 Variance (Phương sai)
Đại lượng đặc trung cho độ phân tán (sai số của 1 phép đo) của tập dữ
liệu quanh giá trị trung bình
3.5 Variance (Phương sai)
3.6 Standard deviation (Độ lệch chuẩn)
• Độ lệch chuẩn là thước đo độ phân tán của một tập hợp các giá trị so với giá trị trung
bình của chúng.
• Độ lệch chuẩn của 1 giá trị càng thấp nghĩa là giá trị đó càng gần với giá trị trung bình
của tập hợp.
dữ liệu A có độ phân tán thấp
dữ liệu B lại có sự phân tán lớn

 Độ lệch chuẩn cho ta biết được độ phân tán của giá trị thống kê so với
giá trị trung bình, ở từng thời điểm khác nhau.
 Nếu độ lệch chuẩn thấp thì tính biến động không đáng kể và ngược lại.
 Cả độ lệch chuẩn và phương sai đều dùng để đo lường các mức độ lan
truyền của dữ liệu trong bất kỳ tập dữ liệu nào.
3.7 Interquartile range (Tứ phân vị)
 Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu.
 Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất, thứ nhì, và thứ ba. Ba giá trị
này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn)
thành 4 phần có số lượng quan sát đều nhau.
 Giá trị tứ phân vị thứ hai Q2 chính bằng giá trị trung vị
 Giá trị tứ phân vị thứ nhất Q1 bằng trung vị phần dưới
 Giá trị tứ phân vị thứ ba Q3 bằng trung vị phần trên
The k’th percentile is the value such
Percentile that k% of the data is less than or
equal to that value.
Quartile k = 25, 50, 75,

s 100
3.8 Phân tích tương quan
• Phân tích tương quan của 2 features trong 1 tập dữ liệu  Quan hệ
của 2 features như thế nào (x, y)
3.8 Phân tích tương quan
Correlation coefficients are indicators of the strength of the linear
relationship between two different variables, x and y
Covariance is a measure of how two variables change

together
N
1
Cov(x , y) = σxy = ∑ (xi − x¯)(y
i −
N i=1 y¯)
N
∑ i=1 (xi − μx)(yi − y
Cov(x, y)
corr = σxσy = N μ )
∑ i=1 (xi − μx )2(yi − y
2
−1 < corr < 1 μ)

Covariance matrix?
The covariance matrix is also known as the variance-covariance

matrix, as the diagonal values of the covariance matrix show
variances and the other values are the covariances.
N
1
C= ¯ Xi − ¯
(Xi − X) T
∑
N i=1 ( X)
C= σ (x,x) σ (x,y)
[σ(y,x) σ(y,y)]

2 Statistical Analysis

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2 Statistical Analysis

Uploaded by

Copyright:

Available Formats

INTRODUCTION TO DATA SCIENCE

AND ARTIFICIAL INTELLIGENCE

• Tập con được tách ra từ quần thể để nghiên cứu. Từ đó

• Min / Max (Nhỏ nhất / lớn nhất) and Range

 MaxValue is also known as supremum. MaxValue is typically

 10.0 là điểm ngoại lệ (outliers)

 Yếu vị là giá trị đại diện nhất cho phân bố.

dữ liệu A có độ phân tán thấp

dữ liệu B lại có sự phân tán lớn

Quartile k = 25, 50, 75,

Covariance is a measure of how two variables change

−1 < corr < 1 μ)

The covariance matrix is also known as the variance-covariance

You might also like