Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 8

Lời mở đầu

Trong thời đại 4.0 ngày nay công nghệ phát triển một cách mạnh mẽ, nhiều bước
đột phá, nhảy vọt về mặt kỹ thuật số và mạng internet. Điều này giúp con người
giảm bớt những gánh nặng trong công việc, giúp cuộc sống trở nên thuận tiện, dễ
dàng. Bên cạnh những lợi ích đáng kinh ngạc do sự phát triển kỹ thuật số và mạng
internet thì vấn đề bảo mật an toàn cho thông tin cũng như vật chất ngày càng trở
nên quan trọng và khó khăn. Hiện nay có rất nhiều vụ đánh cắp thông tin, thẻ tín
dụng và tài khoản ngân hang, không những vậy còn đánh sập hoặc hack vào những
trong của công ty với hành vi phá hoại, lừa gạt, thậm chí còn xâm nhập vào hệ
thống máy tính của nhà nước, chính phủ. Trên thế giới ngày càng xuất hiện nhiều
vụ ăn cắp thông tin của người tiêu dùng từ đó lợi dụng làm những mục đích xấu.
Vì vậy nhằm mục đích nâng cao bảo mật an toàn, các hệ thống nhận dạng con
người được ra đời với độ đáng tin cậy ngày càng cao. Nhận diện khuôn mặt giúp
cải thiện độ bảo mật, Không cần phải trực tiếp tiếp xúc với thiết bị để xác thực
tránh bị ăn cắp thông tin, tiết kiệm thời gian. Đối với những công ty lớn thì công
dụng của nhận diện khuôn mặt càng rõ ràng. Bằng cách xác định, phân tích và xác
nhận xem người đó có phải là nhân sự của công ty hay không. Từ đó, hạn chế khả
năng xảy ra mất cắp tài sản, bị kẻ gian đột nhập hay các vấn đề nguy hiểm tiềm ẩn.
Qua đó, ta có thể thấy được rằng việc nhận diện khuôn mặt rất quan trong đối với
nhịp sống hiện nay.

Trong nhận diện khuôn mặt kỹ thuật Dimensionality Reduction ( giảm chiều dữ
liệu) khá quan trọng. các feature vectors trong các bài toán thực tế có số chiều rất
lớn thậm chí tới hàng nghìn, số lượng điểm dữ liệu phức tạp gây khó khăn cả việc
lưu trữ và tốc độ tính toán. Vì vậy giảm số chiều của bài toán cũng là một bược
quan trọng trong nhiều bài toán cách này được coi là một phương pháp nén dữ liệu.
Một trong những phương pháp khá hay trong Dimensionality Reduction mà chúng
em sẽ nhắc tới đó là Principal Component Analysis (PCA), tức Phân tích thành
phần chính.

Phần 1 : giới thiệu

1.1 khái niệm về PCA

PCA ( Principal Component Analysis) hay tiếng việt là phép phân tích thành phần
chính là một thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi một
tập hợp dữ liệu từ một không gian nhiều chiều sang một không gian mới ít chiều
hơn nhằm tối ưu hóa việc thể hiện sự biến thiên của dữ liệu.

Mục tiêu của phương pháp PCA là giảm số chiều của một tập vector sao cho vẫn
đảm bảo được rằng tối đa thông tin quan trọng nhất nói cách khác phương pháp
này sẽ giữ lại B thuộc tính mới từ C các thuộc tính bao đầu mà không làm mất đi
những thông tin quan trọng (B<C).

1.2Đặc tính
A) Giảm số chiều dữ liệu.
B) Xây dựng một không gian mới ít chiều, có khả năng biểu diễn dữ liệu tốt
tương đương không gian cũ
C) Tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ
D) Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám
phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn
hình 1.1ví dụ kinh điên của PCA cho đặt tính 4

1.3cơ sở toán học


1.3.1 kỳ vọng, độ lệch chuẩn, phương sai, hiệp phương sai.

A) kỳ vọng (mean, expected value):

- Biểu diễn cho giá trị “mong muốn”, là trung bình cộng của toàn bộ các giá trị.

- Biểu thức toán học:


n
E ( X )=μ=∑ x i P (x i)
i=1

B) Phương sai (Variance)

- Là trung bình cộng của bình phương khoảng cách từ mỗi điểm tới kỳ vọng.
Phương sai càng nhỏ thì các điểm dữ liệu càng gần với kỳ vọng, phương sai càng
lớn thì ta nói dữ liệu càng có tính phân tán.

- Biểu thức toán học:


N

∑ ( x i−μ )2
Var ( X )=σ 2= i=1
N
C) Hiệp phương sai (Covariance):

- Độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên ( phân biệt với phương
sai- đo mức độ biến thiên của một biến)

- Biểu thức toán học:

Σ ( x i−x ) ( y i− y )
Cov x , y =
N −1

D) Độ lệch chuẩn (Standard Deviation):


- Là thước đo độ phân tán của một tập hợp các giá trị so với giá trị trung bình của
chúng. Độ lệch chuẩn của một giá trị càng thấp nghĩa là giá trị đó càng gần với giá
trị trung bình của tập hợp.
- Biểu thức toán học:


N

∑ ( xi −μ )2
i=1
σ=
N

- Trong đó:
x_i, y_i : một giá trị x, y đã cho trong tập dữ liệu.
x ̅, y ̅ : giá trị trung bình của x, y

Ví dụ:
Hình 1.2.1 Trong không gian 1 chiều. Hình 1.2.2 Không gian 2 chiều mà hai
chiều không tương quan

Trong trường hợp này, ma trận hiệp


phương sai là ma trận đường chéo với
hai phần tử trên đường chéo là σ1,σ2
đây cũng chính là hai trị riêng của ma
trận hiệp phương sai và là phương sai
của mỗi chiều dữ liệu. Phương sai càng
lớn thì dữ liệu trong chiều đó càng phân
tán. Trong ví dụ này, dữ liệu theo chiều
thứ hai phân tán nhiều hơn so so với
chiều thứ nhất.

Hình 1.2.3Dữ liệu trong không gian hai


chiều có tương quan

1.3.2 trị riêng (eigenvalue), vector riêng (eigenvector) của ma trận hiệp phương
sai:

a) ma trận hiệp phương sai (covariance matrix)

Ma trận hiệp phương sai của tập hợp m biến ngẫu nhiên là một ma trận vuông
hạng (m × m), trong đó các phần tử nằm trên đường chéo (từ trái sang phải, từ
trên xuống dưới) lần lượt là phương sai tương ứng của các biến này.Trong Phân
tích Thành Phần Chính (PCA), ma trận hiệp phương sai là một ma trận đại diện cho
mối quan hệ giữa các biến trong tập dữ liệu. Ma trận này được tính bằng cách lấy
trung bình của tích vô hướng giữa các biến của tập dữ liệu. Công thức tính ma
trận hiệp phương sai như sau:
Trong đó:
S là ma trận hiệp phương sai
X là tập dữ liệu
N là số điểm dữ liệu trong tập dữ liệu
b) trị riêng (eigenvalue), vector riêng (eigenvector)
Cho A là ma trận vuông cấp n trên trường số K(K=R;C) số l € K được gọi là giá trị
riêng ( gọi tắt là trị riêng- kí hiệu GTR) của ma trận A, nếu tồn tại một vector
0≠u€Kn sao cho:Ax= lx . Nói một cách hình học, một vectơ riêng tương ứng với
một giá trị riêng thực khác 0 có cùng phương sau khi nó được kéo dài ra bởi phép
biến đổi và giá trị riêng là hệ số nhân. Nếu giá trị riêng là âm thì vectơ sẽ đổi
chiều. Một cách dễ hiểu, trong một không gian vectơ đa chiều, vectơ riêng không
bị quay đi

Hình 1.3.2.1 Ma trận biến đổi A tác động bằng việc kéo dài vectơ x
mà không làm đổi phương của nó, vì thế x là một vectơ riêng của A

1.4 Cơ sở trong thống kê:


- PCA được coi là phương pháp đi tìm một hệ cơ sở trực chuẩn đóng vai trò một
phép xoay, sao cho trong hệ cơ sở mới này, phương sai theo một số chiều nào đó
là rất nhỏ, và ta có thể bỏ qua.
1.5 Các bước Phân tích thành phần chính (PCA):
Bước 1: Tính vecto kỳ vọng X̅ của dữ liệu

Bước 2: Tính véctơ X̂ = X − X̅.


Bước 3: Tính ma trận hiệp phương sai

Bước 4: Tìm trị riêng của S và vecto riêng của ma trận rồi sắp xếp chúng theo thứ
tự giảm dần của trị riêng.

Bước 5: Chọn K vector riêng ứng với K trị riêng lớn nhất để xây dựng ma
trận UK có các cột tạo thành một hệ trực giao. K vectors này, còn được gọi
là các thành phần chính, tạo thành một không gian con gần với phân bố
của dữ liệu ban đầu đã chuẩn hoá.

Bước 6: Tính ảnh ATX̂ T của véc tơ X̂.

Bước 7: Dữ liệu mới chính là toạ độ của các điểm dữ liệu trên không gian mới.

Dữ liệu ban đầu có thể tính được xấp xỉ theo dữ liệu mới như sau:

❖ Lưu ý:
a/ Ma trận S là ma trận đối xứng thực và các giá trị riêng của S là các số thực
không âm. Luôn chéo hóa trực giao được
b/ Trên đường chéo của S là phương sai của các véctơ 𝑥1; 𝑥2; … ; 𝑥𝑁. Phần tử 𝑠𝑖𝑗 là
hiệp phương sai của 𝑥𝑖 và 𝑥𝑗 . Tổng các phần tử trên đường chéo của S là phương
sai của bảng dữ liệu.
c/ Ma trận P là ma trận trực giao. Mỗi ma trận trực giao tương ứng với một phép
quay. Các cột của ma trận P tạo nên hệ trực chuẩn. Nếu ta chọn cơ sở trực chuẩn
là họ véctơ cột của ma trận P, thì ta xây dựng được hệ trục tọa độ mới dựa trên
các vectơ này và có một phép quay từ hệ trục tọa độ ban đầu sang hệ trục tọa độ
mới.
1
d/ Nếu dữ liệu mẫu (sample data), thì S= (N−1) X̂ TX̂.

1
Nếu dữ liệu dân số (population data), thì S= N X̂ TX

e/ Ma trận S luôn chéo hóa trực giao được.

Hình 1.5.1 các bước thực hiện PCA

You might also like