Professional Documents
Culture Documents
BTL ĐẠI SỐ TUYẾN TÍNH K23
BTL ĐẠI SỐ TUYẾN TÍNH K23
MỞ ĐẦU:
- Phép phân tích thành phần chính (Principal Components Analysis - PCA) là một thuật
toán thống kê sử dụng phép biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một
không gian nhiều chiều sang một không gian mới ít chiều hơn (2 hoặc 3 chiều) nhằm tối
ưu hóa việc thể hiện sự biến thiên của dữ liệu.
- Phân tích PCA để giảm chiều dữ liệu giúp đưa ra cái nhìn bao quát cho con người về dữ
liệu nhiều chiều, giúp ta khái quát các số liệu thu được, đồng thời có thể đưa ra các ước
lượng, dự đoán chính xác với các đại lượng sau này.
- Cùng là 1 chú lạc đà, tuy nhiên với các góc nhìn khác nhau (trục thông tin), chúng ta có
những cách thu nhận thông tin khác nhau và cho ta những kết luận khác nhau.
- Phân tích thành phần chính là thuật toán tìm một không gian mới (với số chiều nhỏ hơn
không gian cũ), các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi
trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể
- Phân tích thành phần chính là phương pháp biến đổi giúp giảm số lượng lớn các biến
có tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp
tuyến tính của những biến cũ không có tương quan lần nhau.
- Phân tích thành phần chính về cơ bản là một kỹ thuật giảm kích thước đơn giản, biến
đổi các cột của bộ dữ liệu thành một tập các đặc trưng mới. Nó thực hiện điều này
bằng cách tìm một tập hợp các hướng mới (như trục X và Y) giải thích sự biến đổi tối
đa trong dữ liệu, tức là hướng đó ta tìm được giá trị lớn nhất của phương sai.
- Đảm bảo các trục tọa độ trong không gian mới luôn trực giao đôi một với nhau, mặc
dù trong không gian ban đầu các trục có thể không trực giao
- Ví dụ, chúng ta có 100 biến ban đầu có tương quan tuyến tính với nhau, khi đó chúng
ta sử dụng phương pháp Phân tích thành phần chính xoay chiều không gian cũ thành
chiều không gian mới mà ở đó chỉ còn 5 biến không có tương quan tuyến tính mà vẫn
dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.
- Nếu chúng ta có thể biểu diễn các vectơ dữ liệu ban đầu trong một hệ cơ sở mới mà
trong hệ cơ sở mới đó, tầm quan trọng giữa các thành phần là khác nhau rõ rệt, thì
- Ví dụ, có hai camera đặt dùng để chụp một con người, một camera đặt phía trước
người và một camera đặt trên đầu. Rõ ràng là hình ảnh thu được từ camera đặt phía
trước người mang nhiều thông tin hơn so với hình ảnh nhìn từ phía trên đầu. Vì vậy,
bức ảnh chụp từ phía trên đầu có thể được bỏ qua mà không có quá nhiều thông tin về
Phân tích thành phần chính là phương pháp đi tìm một hệ cơ sở mới sao cho thông
tin
của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ mang một lượng nhỏ
thông tin. Và để cho đơn giản trong tính toán, PCA sẽ tìm một hệ trực chuẩn để làm cơ
sở mới.
Phương pháp phân tích thành phần chính (Principal Component Analysis) là công cụ
toán thống kê vạn năng được áp dụng rất hiệu quả khi xử lý thông tin từ các ma trận số
3.1.3. Ưu điểm của phương pháp Phân tích thành phần chính
- Giảm số chiều của không gian chứa dữ liệu khi nó có số chiều lớn.
- Xây dựng những trục tọa độ mới, thay vì giữ lại các trục của không gian cũ, nhưng
lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo độ biến thiên của dữ
- Tạo điều kiện để các liên kết tiềm ẩn của dữ liệu có thể được khám phá trong không
gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này
- Đảm bảo các trục tọa độ trong không gian mới luôn trực giao đôi một với nhau, mặc
dù trong không gian ban đầu các trục có thể không trực giao