Các Bư C Dùng PCA

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

Công thức (1)

Mục đích của PCA là giảm số chiều dữ liệu với các mục tiêu, tìm một không gian
mới với ít chiều dữ liệu hơn nhưng vẫn giữ khả năng biểu diễn phân bố dữ liệu
tương đương hoặc tốt hơn không gian gốc. PCA được ứng dụng trong nhiều lĩnh
vực khác nhau. Trong phân tích dữ liệu PCA được sử dủng ộng rãi để khám phá dữ
liệu, rút gọn dữ liệu, nén dữ liệu, đối với cơ sở dữ liệu có số chiều lớn, khó trực
quan hóa và tính toán.
Với ω là vector trực giao sao cho khi ta chiếu dữ liệu lên các vector thì phương sai
của dữ liệu được tối đa hóa.

Lúc này mục tiêu của bài toán trở về tìm


kiếm ω thỏa mãn Σω=λ ω. Dựa vào định
nghĩa của eigenvector và aigenvalue của ma
trận hiệp phương sai Σ , với dữ liệu n chiều, ta
có thể thìm được n eigenvector và n
aigenvalue. Tuy nhiên ta không cần sử dụng
hết các eigenvector mà chỉ cần chọn một số
eigenvector mà tại đó eigenvalue có giá trị
tương đối cao để đại diện cho không gian
mới với n nhỏ hơn so với không gian gốc. Ta
gọi đó là các FeatureVector.
Vậy FeatureVector = (eig1, eig2, …, eign)

Công thức (2)


Chọn (1) hoặc (2) để chèn vào bài
Hình trên đây thể hiện được giá trị của phương sai, khi mà đối với không gian ban đầu
(O1 xy) thì phần overlape của 2 lớp khi ánh xạ lên mỗi trục là khá lớn. Khi đó không
gian mới (O2 zt) được cực đại hóa phương sai cho trục O2 z nên khi ánh xạ lên đây các
lớp sẽ tách biệt với nhau khá rõ. Để tìm được không gian mới, PCA đi tìm các trị riêng
của ma trận hiệp phương sai của dữ liệu đầu vào. Các trị riêng thể hiện phương sai của
chiều dữ liệu mới, các vector riêng ứng với trị riêng đó tương ứng với một không gian
dữ liệu mới. Vậy nên sau bước này chúng ta chọn các vector riêng ứng với các trị riêng
có giá trị lớn nhất để được một không gian mới được cực đại hóa phương sai

You might also like