CSLT và các bước chi tiết dùng PCA giảm dữ liệu

ĐẠI HỌC QUỐC GIA TP.
HCM TRƯỜNG ĐẠI

HỌC BÁCH KHOA
BÁo cáo bài tập lớn
ĐẠI SỐ TUYẾN TÍNH
PHÂN TÍCH PCA ĐỂ GIẢM DỮ LIỆU
Họ và tên GVHD:
MSSVNGUYỄN XUÂN MỸ
Nhiệm vụ
lP: l09
Nguyễn Đình Hoàng Duy 2310478
NHÓM: 02 1,2, tổng hợp
Lê Thị Vũ Hạ 2310893 3, tổng hợp
Vũ Văn Đoàn
DANH SÁCH THÀNH 2310750
VIÊN 1,2, tổng hợp
Trần Trọng Đạt 2310710 4, tổng hợp
Lê Nguyên Đạt 2310645 4, tổng hợp
Lê Quốc Đạt 2310649 4, tổng hợp
Nguyễn Phúc Duy 2310494 4, tổng hợp
MỤC LỤC
ĐỀ BÀI:
Phần nội dung:

1/ Giới thiệu PCA.
a) Khái niệm tích phân thành phần chính (PCA).
b) Đặc tính của tích phân thành phần chính (PCA).
2/ Cơ sở lí thuyết PCA.
a) Một số khái niệm.
b) Cơ sở lí thuyết.
3/ Các bước tiến hành PCA để giảm dữ liệu.
4/ Thực hành: Input là một file f tùy ý. Số hóa file f. Phân tích PCA giảm
chiều dữ liệu. Đánh giá sai số.
5/ Đoạn code có khả năng giảm chiều của file dữ liệu tùy ý.
Phần kết luận.
TÀI LIỆU THAM KHẢO.
\
1/ Giới thiệu PCA.
Các tập dữ liệu lớn ngày càng phổ biến trong nhiều lĩnh vực như trong
tính toán ví dụ: hồi quy… và với số biến giải thích lớn chúng ta sẽ rất khó
để có cái nhìn trực quan về dữ liệu ví dụ: thị trường ta quan tâm có hàng
ngàn mã cổ phiếu làm cách nào để khi quan sát dữ liệu từ hàng ngàn cổ
phiếu này ta hình dung được xu hướng của toàn thị trường… Để diễn giải
các tập dữ liệu như vậy, cần có các phương pháp giảm đáng kể tính chiều
của chúng theo cách có thể diễn giải được, sao cho hầu hết thông tin
trong dữ liệu được giữ nguyên. Nhiều kỹ thuật đã được phát triển cho
mục đích này, nhưng phân tích thành phần chính (PCA) là một trong
những kỹ thuật lâu đời nhất và được sử dụng rộng rãi nhất. Ý tưởng của
nó rất đơn giản—giảm tính chiều của tập dữ liệu, trong khi vẫn duy trì
càng nhiều 'tính biến thiên' (tức là thông tin thống kê) càng tốt.
A. / Khái niệm PCA.
PCA hay tích phân thành phần chính được sử dụng cho dữ liệu nhiều
chiều và tương quan. Ý tưởng cơ bản của PCA là chuyển đổi không gian
ban đầu của các thuộc tính (feature) thành không gian của thành phần
chính. PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có
tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là
tổ hợp tuyến tính của những biến cũ không có tương quan lần nhau
nhưng mà vẫn dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.
Hình 1: Ví dụ về tích phân PCA.
B. / Đặc tính của tích phân thành phần chính.
 Giảm số chiều của dữ liệu khi không gian chứa dữ liệu có số chiều
quá lớn.
 Tạo một trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ
lại nhiều thông tin nhất nhưng không ảnh làm hưởng tới chất lượng
của các mô hình dự báo.
 Giúp chúng ta khám phá thêm những thông tin quý giá mới khi mà
tại chiều thông tin cũ những thông tin quý giá này bị che mất.
 Đảm bảo các trục toạ độ trong không gian mới luôn trực giao đôi
một với nhau, mặc dù trong không gian ban đầu các trục có thể
không giao nhau.
2/ Cơ sở lí thuyết PCA
Với tư tưởng biến đổi nhằm giảm số lượng lớn các biến có tương quan
với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến
tính của những biến cũ không có tương quan lẫn nhau nhưng vẫn giữ
được nhiều nhất lượng thông tin từ nhóm biến ban đầu. Sau đây chúng ta
hãy làm rõ hơn về mặt lí thuyết của phương pháp này.
A./ Một số khái niệm.

 Kỳ vọng (mean): giá trị mong muốn, biểu diễn giá trị trung
bình của một biến.
 Độ lệch chuẩn: đánh giá mức độ phân tán của biến ngẫu nhiên
theo đơn vị đo của nó. Giúp chúng ta thấy sự chênh lệch giá
trị của từng thời điểm so với giá trị trung bình
 Phương sai (variance): với bảng số liệu, cho thấy sự đặc trưng
độ phân tán của các số liệu trong tập đối với giá trị trung bình.
 Hiệp phương sai (covariance): đại lượng đo sự biến thiên cùng
nhau của 2 biến ngẫu nhiên.
 Ma trận hiệp phương sai (covariance matrix): đối với tập hợp
m biến ngẫu nhiên là một ma trận vuông hạng (m × m), trong
đó các phần tử nằm trên đường chéo (từ trái sang phải, từ trên
xuống dưới) lần lượt là phương sai tương ứng của các biến
này trong khi các phần tử còn lại (không nằm trên đường
chéo) là các hiệp phương sai của đôi một hai biến ngẫu nhiên
khác nhau trong tập hợp.
B./ Cơ sở lí thuyết.
 Với nhu cầu tạo ra một không gian nhỏ hơn không gian ban
đầu nhưng vẫn giữ được nhiều nhất các thông tin quan trọng.
Ta xây dưng lên phương sai nhằm mục đích để so sánh giá trị
phương sai giữa các chiều để coi mức độ quan trọng của chiều
đó chứa. Từ đó chúng ta biết có thể lược bỏ các chiều không
gian nào và chiều không gian nào không quan trọng (có
phương sai gần bằng 0).
3.Các bước tiến hành PCA để giảm dữ liệu.
1. Tính giá trị trung bình X̅ của X.

2. Tính vectơ X̂ = X – X̅
1 T
Tính ma trận hiệp phương sai: S = N −1 X̂ X̂
3. Tìm giá trị riêng của S, sắp xếp theo giá trị giảm dần và tìm các
vectơ đơn vị riêng ứng với các giá trị riêng .
4. Chọn k trị riêng ban đầu và k véctơ riêng đơn vị ứng với các trị
riêng này. Lập ma trận A có các cột là các véctơ riêng đã chọn. Ma
trận A là phép biến đổi cần tìm.
5. Tính ảnh T
A X̂
T
của vectơ X̂ .
Dữ liệu X ban đầu được xấp xỉ bởi X ≈ AX̂ + X̅
Mỗi cột của A X̂ T chứa toạ độ của các hàng ma trận ấy trong cơ sở từ
các cột của ma trận P. X̂ X̂

CSLT và các bước chi tiết dùng PCA giảm dữ liệu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CSLT và các bước chi tiết dùng PCA giảm dữ liệu

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA TP.

HCM TRƯỜNG ĐẠI

BÁo cáo bài tập lớn

ĐẠI SỐ TUYẾN TÍNH

PHÂN TÍCH PCA ĐỂ GIẢM DỮ LIỆU

Phần nội dung:

1/ Giới thiệu PCA.

A. / Khái niệm PCA.

B. / Đặc tính của tích phân thành phần chính.

A./ Một số khái niệm.

3.Các bước tiến hành PCA để giảm dữ liệu.

1. Tính giá trị trung bình X̅ của X.

You might also like