BTL đại số tuyến tính

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HCM

ĐH BÁCH KHOA HCM

BÁO CÁO BÀI TẬP LỚN


Đề tài 2
Tên sinh viên Mã số sinh viên
Cao Đoàn Anh Chân 2310328

Yêu Cầu:
1/ Mô tả cơ sở lý thuyết của PCA
2/ Nêu các bước chi tiết dùng PCA để giảm chiều dữ liệu
3/ Thực hành: Input là một file f tùy ý. Số hóa file f. Phân tích PCA.
Giảm chiều dữ liệu. Đánh giá sai số.
4/ Sản phẩm: là một phần mềm (code matlab, hoặc python,...) có khả
năng giảm chiều của một file dữ liệu tùy ý

1/ Cơ sở lý thuyết PCA:
Chúng tôi xin trình bày về phương pháp Principal Component Analysis (PCA) -
một ứng dụng đáng chú ý của đại số - được áp dụng rộng rãi trong nhiều lĩnh vực
như công nghệ thông tin, sinh học và ngay cả tài chính. Khi phân tích dữ liệu ban
đầu, chúng ta thường đối mặt với vấn đề rằng các biến đa số có mối quan hệ với
nhau, điều này gây khó khăn cho việc sử dụng chúng để xây dựng các mô hình tính
toán như hồi quy.
Ngoài ra, với số lượng biến giải thích lớn, ta gặp khó khăn trong việc có cái nhìn
toàn cục về dữ liệu, chẳng hạn như thị trường chứng khoán với hàng ngàn mã cổ
phiếu khác nhau. Vì vậy, ta cần phải tìm cách để có cái nhìn tổng quan về xu
hướng của toàn bộ thị trường dựa trên dữ liệu từ hàng ngàn cổ phiếu này.
Phương pháp PCA được sử dụng để biểu diễn dữ liệu đa chiều lên một không gian
mới có cơ sở trực giao. Trong cách tiếp cận này, mỗi cơ sở trong không gian mới
được coi như một biến và dữ liệu gốc được biểu diễn thông qua các biến độc lập
của không gian mới.
Một vấn đề đặt ra là liệu việc chuyển dữ liệu sang không gian mới có làm mất đi
thông tin quan trọng của dữ liệu gốc không? Để giải quyết vấn đề này, PCA tìm
không gian mới sao cho khả năng phản ánh thông tin gốc càng cao càng tốt, và đại
diện cho khái niệm "thông tin" ở đây là phương sai. Một điểm đáng chú ý khác là
vì các biến trong không gian mới độc lập, ta có thể tính toán tỷ lệ phương sai được
giải thích bởi từng biến, điều này giúp ta quyết định việc sử dụng một số ít biến để
giải thích dữ liệu.
Một số ví dụ :
- Giảm kích thước của dữ liệu.
- Khi có thể giảm dữ liệu về 2 hoặc 3 chiều sẽ giúp chúng ta có thể nhìn dữ
liệu được một cách trực quan hơn.
- Xử lý vấn đề liên quan giữa các biến trong dữ liệu ban đầu bằng cách sử
dụng các biến mới trong không gian mà PCA tìm được để mô tả dữ liệu.
2/Các bước dùng PCA để giảm chiều dữ liệu:
1. Chuẩn bị dữ liệu cần giảm chiều là ma trận X có kích thước (n_sample,
n_feature), trong đó mỗi hàng là một mẫu dữ liệu có n_feature thuộc tính.
2. Trừ mỗi điểm dữ liệu trong ma trận X cho vector kỳ vọng (mean vector):
𝑋 𝑘 = 𝑋 𝑘- 𝑋 𝑚𝑒𝑎𝑛

với k = 1..n_sample và 𝑋 𝑚𝑒𝑎𝑛 là vector trung bình của tất cả các điểm dữ liệu.
3. Tính ma trận hiệp phương sai:
𝑇
𝑋 ⋅𝑋
S=
𝑛− 𝑠𝑎𝑚𝑝𝑙𝑒

trong đó 𝑋 𝑇 là ma trận chuyển vị của X.


4. Tìm trị riêng và vector riêng của ma trận hiệp phương sai S.
5. Chọn k trị riêng có giá trị lớn nhất và tạo ma trận U với các hàng là các vector
riêng ứng với các trị riêng đã chọn.
6. Ánh xạ không gian ban đầu sang không gian mới có k chiều bằng cách nhân ma
trận dữ liệu X cho ma trận U:
𝑋 𝑛𝑒𝑤= 𝑋 ⋅𝑈

Note: Nếu không hiểu phép nhân ở Step 6 bạn có thể lấy từng mẫu dữ liệu nhân
với từng vector riêng, khi đó mỗi mẫu dữ liệu ban đầu sẽ được nhân với k vector
nên sẽ có k chiều.

You might also like