Professional Documents
Culture Documents
CSLT và các bước chi tiết dùng PCA giảm dữ liệu
CSLT và các bước chi tiết dùng PCA giảm dữ liệu
Họ và tên GVHD:
MSSVNGUYỄN XUÂN MỸ
Nhiệm vụ
lP: l09
Nguyễn Đình Hoàng Duy 2310478
NHÓM: 02 1,2, tổng hợp
Lê Thị Vũ Hạ 2310893 3, tổng hợp
Vũ Văn Đoàn
DANH SÁCH THÀNH 2310750
VIÊN 1,2, tổng hợp
Trần Trọng Đạt 2310710 4, tổng hợp
Lê Nguyên Đạt 2310645 4, tổng hợp
Lê Quốc Đạt 2310649 4, tổng hợp
Nguyễn Phúc Duy 2310494 4, tổng hợp
MỤC LỤC
ĐỀ BÀI:
Các tập dữ liệu lớn ngày càng phổ biến trong nhiều lĩnh vực như trong
tính toán ví dụ: hồi quy… và với số biến giải thích lớn chúng ta sẽ rất khó
để có cái nhìn trực quan về dữ liệu ví dụ: thị trường ta quan tâm có hàng
ngàn mã cổ phiếu làm cách nào để khi quan sát dữ liệu từ hàng ngàn cổ
phiếu này ta hình dung được xu hướng của toàn thị trường… Để diễn giải
các tập dữ liệu như vậy, cần có các phương pháp giảm đáng kể tính chiều
của chúng theo cách có thể diễn giải được, sao cho hầu hết thông tin
trong dữ liệu được giữ nguyên. Nhiều kỹ thuật đã được phát triển cho
mục đích này, nhưng phân tích thành phần chính (PCA) là một trong
những kỹ thuật lâu đời nhất và được sử dụng rộng rãi nhất. Ý tưởng của
nó rất đơn giản—giảm tính chiều của tập dữ liệu, trong khi vẫn duy trì
càng nhiều 'tính biến thiên' (tức là thông tin thống kê) càng tốt.
PCA hay tích phân thành phần chính được sử dụng cho dữ liệu nhiều
chiều và tương quan. Ý tưởng cơ bản của PCA là chuyển đổi không gian
ban đầu của các thuộc tính (feature) thành không gian của thành phần
chính. PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có
tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là
tổ hợp tuyến tính của những biến cũ không có tương quan lần nhau
nhưng mà vẫn dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.
Hình 1: Ví dụ về tích phân PCA.
Giảm số chiều của dữ liệu khi không gian chứa dữ liệu có số chiều
quá lớn.
Tạo một trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ
lại nhiều thông tin nhất nhưng không ảnh làm hưởng tới chất lượng
của các mô hình dự báo.
Giúp chúng ta khám phá thêm những thông tin quý giá mới khi mà
tại chiều thông tin cũ những thông tin quý giá này bị che mất.
Đảm bảo các trục toạ độ trong không gian mới luôn trực giao đôi
một với nhau, mặc dù trong không gian ban đầu các trục có thể
không giao nhau.
2/ Cơ sở lí thuyết PCA
Với tư tưởng biến đổi nhằm giảm số lượng lớn các biến có tương quan
với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến
tính của những biến cũ không có tương quan lẫn nhau nhưng vẫn giữ
được nhiều nhất lượng thông tin từ nhóm biến ban đầu. Sau đây chúng ta
hãy làm rõ hơn về mặt lí thuyết của phương pháp này.
B./ Cơ sở lí thuyết.
Với nhu cầu tạo ra một không gian nhỏ hơn không gian ban
đầu nhưng vẫn giữ được nhiều nhất các thông tin quan trọng.
Ta xây dưng lên phương sai nhằm mục đích để so sánh giá trị
phương sai giữa các chiều để coi mức độ quan trọng của chiều
đó chứa. Từ đó chúng ta biết có thể lược bỏ các chiều không
gian nào và chiều không gian nào không quan trọng (có
phương sai gần bằng 0).