Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

LÝ THUYẾT PCA

I. Giới thiệu về PCA


- Phân tích thành phần chính (PCA) là một phương pháp được sử dụng để giảm số chiều
của một tập dữ liệu bao gồm một số lượng lớn dữ liệu có các biến liên quan, trong khi
vẫn giữ lại phần lớn thông tin quan trọng nhất. Điều này đạt được bằng cách chuyển đổi
sang một tập hợp các biến mới, các thành phần chính (PCs) không tương quan với nhau
và được sắp xếp sao cho số ít đầu tiên giữ lại hầu hết các biến có trong tất cả các các biến
ban đầu.
- PCA được phát minh vào năm 1901 bởi Karl Pearson, nó như một dạng tương tự của
định lý trục chính trong cơ học, sau đó nó được phát triển độc lập và được đặt tên bởi
Harold Hotelling vào những năm 1930.
- PCA có những ưu điểm sau:
+ Giảm chiều dữ liệu nhưng vẫn giữ được nhiều thông tin quan trọng cũng như độ chính
xác nhất định so với dữ liệu ban đầu
+ Loại bỏ sự tương quan giữa các biến, tránh gây nhiễu thông tin
+ Dễ quan sát, nắm bắt đúng thông tin quan trọng
+ Tạo ra các biến mới không tương quan với nhau, giúp chúng ta tính toán nhanh hơn với
độ chính xác cao
+ Về mặt ý nghĩa toán học, PCA giúp chúng ta xây dựng những biến mới là tổ hợp tuyến
tính của những biến ban đầu
- Phương pháp phân tích thành phần chính PCA đóng vai trò quan trọng và được sử dụng
rộng rãi trong các lĩnh vực kinh tế, sinh học, hóa học và nhiều lĩnh vực khác
II. Một số khái niệm toán học trong PCA
1. Kỳ vọng (mean): là trung bình cộng của các giá trị
x 1 + x 2+ x3 +...+ x n
X=
N
2. Độ lệch chuẩn: thể hiện độ phân tán của giá trị mang tính thống kê so với giá trị trung
bình của nó
^
X =X − X
3. Phương sai (variance): thể hiện sự đặc trưng cho độ phân tán của các dữ liệu so với
giá trị trung bình của nó
2 2
σ =( X − X )

4. Hiệp phương sai (covariance): là một đại lượng đo lường mối quan hệ biến thiên của
hai biến ngẫu nhiên. (Phân biệt phương sai - đo mức độ biến thiên của một biến)
cov ( X ,Y )=(X − X)(Y − Y )

5. Ma trận hiệp phương sai: Ma trận hiệp phương sai là một ma trận đối xứng được sử
dụng để đo lường mối quan hệ tuyến tính giữa các biến trong tập dữ liệu. Nó đo lường
mức độ biến động chung giữa các cặp biến và cho biết sự tương quan tuyến tính giữa
chúng. Nó là ma trận vuông hạng (m × m), trong đó các phần tử nằm trên đường chéo (từ
trái sang phải, từ trên xuống dưới) lần lượt là phương sai tương ứng của các biến này,
trong khi các phần tử còn lại (không nằm trên đường chéo) là các hiệp phương sai của đôi
một hai biến ngẫu nhiên khác nhau trong tập hợp
III. Cơ sở lý thuyết về PCA

You might also like