Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

CHƯƠNG 1.

MỞ ĐẦU:

1.1. YÊU CẦU ĐỀ TÀI:

- Mô tả cơ sở lý thuyết của PCA


- Nêu các bước chi tiết dùng PCA để giảm chiều dữ liệu
- Thực hành: Input là một file f tùy ý. Số hóa file f. Phân tích PCA. Giảm chiều dữ liệu.
Đánh giá sai số.
- Làm một phần mềm (code matlab, hoặc python,...) có khả năng giảm chiều của một file
dữ liệu tùy ý.
1.2. YÊU CẦU THÊM:
- Nhóm cần có kiến thức cơ bản về PCA.
- Nhóm cần có kiến thức cơ bản về lập trình Matlab ( hoặc Code, Python,...).
CHƯƠNG 2. ĐẶT VẤN ĐỀ:
- Mỗi bộ dữ liệu thu thập được khi tiến hành các nghiên cứu, thí nghiệm thường đượcthể
hiện dưới dạng bảng các giá trị số của nhiều cá thể. Chúng tạo thành “đám mây số liệu”
khá phức tạp. Từ đó các bài toán học máy thì dữ liệu có kích thước rất lớn. Máy tính có
thể hiểu và thực thi các thuật toán trên dữ liệu này, tuy nhiên đối với con người để "nhìn"
dữ liệu nhiều chiều thật sự là rất khó. Vì vậy bài toán giảm chiều dữ liệu ra đời.

- Phép phân tích thành phần chính (Principal Components Analysis - PCA) là một thuật
toán thống kê sử dụng phép biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một
không gian nhiều chiều sang một không gian mới ít chiều hơn (2 hoặc 3 chiều) nhằm tối
ưu hóa việc thể hiện sự biến thiên của dữ liệu.

- Phân tích PCA để giảm chiều dữ liệu giúp đưa ra cái nhìn bao quát cho con người về dữ
liệu nhiều chiều, giúp ta khái quát các số liệu thu được, đồng thời có thể đưa ra các ước
lượng, dự đoán chính xác với các đại lượng sau này.

CHƯƠNG 3. PHÂN TÍCH THÀNH PHẦN CHÍNH


3.1. CƠ SỞ LÝ THUYẾT

3.1.1. Giới thiệu về Phân tích thành phần chính

- Cùng là 1 chú lạc đà, tuy nhiên với các góc nhìn khác nhau (trục thông tin), chúng ta có
những cách thu nhận thông tin khác nhau và cho ta những kết luận khác nhau.
- Phân tích thành phần chính là thuật toán tìm một không gian mới (với số chiều nhỏ hơn
không gian cũ), các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi
trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể

Hình 3.1: Ví dụ về phân tích PCA

3.1.2. Khái niệm về Phân tích thành phần chính

Hình 3.2: Biểu đồ mô phỏng

- Phân tích thành phần chính là phương pháp biến đổi giúp giảm số lượng lớn các biến

có tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp

tuyến tính của những biến cũ không có tương quan lần nhau.

- Phân tích thành phần chính về cơ bản là một kỹ thuật giảm kích thước đơn giản, biến

đổi các cột của bộ dữ liệu thành một tập các đặc trưng mới. Nó thực hiện điều này

bằng cách tìm một tập hợp các hướng mới (như trục X và Y) giải thích sự biến đổi tối

đa trong dữ liệu, tức là hướng đó ta tìm được giá trị lớn nhất của phương sai.

- Đảm bảo các trục tọa độ trong không gian mới luôn trực giao đôi một với nhau, mặc
dù trong không gian ban đầu các trục có thể không trực giao

- Ví dụ, chúng ta có 100 biến ban đầu có tương quan tuyến tính với nhau, khi đó chúng

ta sử dụng phương pháp Phân tích thành phần chính xoay chiều không gian cũ thành

chiều không gian mới mà ở đó chỉ còn 5 biến không có tương quan tuyến tính mà vẫn

dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu.

- Nếu chúng ta có thể biểu diễn các vectơ dữ liệu ban đầu trong một hệ cơ sở mới mà

trong hệ cơ sở mới đó, tầm quan trọng giữa các thành phần là khác nhau rõ rệt, thì

chúng ta có thể bỏ qua những thành phần ít quan trọng nhất.

- Ví dụ, có hai camera đặt dùng để chụp một con người, một camera đặt phía trước

người và một camera đặt trên đầu. Rõ ràng là hình ảnh thu được từ camera đặt phía

trước người mang nhiều thông tin hơn so với hình ảnh nhìn từ phía trên đầu. Vì vậy,

bức ảnh chụp từ phía trên đầu có thể được bỏ qua mà không có quá nhiều thông tin về

hình dáng của người đó bị mất.

 Phân tích thành phần chính là phương pháp đi tìm một hệ cơ sở mới sao cho thông
tin
của dữ liệu chủ yếu tập trung ở một vài toạ độ, phần còn lại chỉ mang một lượng nhỏ

thông tin. Và để cho đơn giản trong tính toán, PCA sẽ tìm một hệ trực chuẩn để làm cơ

sở mới.

Phương pháp phân tích thành phần chính (Principal Component Analysis) là công cụ
toán thống kê vạn năng được áp dụng rất hiệu quả khi xử lý thông tin từ các ma trận số

liệu quan trắc.

3.1.3. Ưu điểm của phương pháp Phân tích thành phần chính

- Giảm số chiều của không gian chứa dữ liệu khi nó có số chiều lớn.

- Xây dựng những trục tọa độ mới, thay vì giữ lại các trục của không gian cũ, nhưng
lại có khả năng biểu diễn dữ liệu tốt tương đương, và đảm bảo độ biến thiên của dữ

liệu trên mỗi chiều mới.

- Tạo điều kiện để các liên kết tiềm ẩn của dữ liệu có thể được khám phá trong không

gian mới, mà nếu đặt trong không gian cũ thì khó phát hiện vì những liên kết này

không thể hiện rõ.

- Đảm bảo các trục tọa độ trong không gian mới luôn trực giao đôi một với nhau, mặc

dù trong không gian ban đầu các trục có thể không trực giao

CHƯƠNG 6. KẾT LUẬN


Mục đích của phân tích thành phần chính là rút ra thông tin chủ yếu chứa trong bảng
- Mục đích của phân tích thành phần chính là rút ra thông tin chủ yếu chứa trong bảng
số liệu bằng cách xây dựng một biểu diễn đơn giản hơn sao cho đám mấy số liệu được
thể hiện rõ nhất. Cụ thể hơn, phân tích thành phần chính tức là đi tìm những trục hay
mặt phẳng “phản ánh” tốt nhất, trung thực nhất đám mây điểm -biến, điểm - cá thể.
- PCA giúp giảm số chiều dữ liệu khi dữ liệu có quá nhiều chiều thông tin. Do dữ liệu
ban đầu có số chiều lớn (nhiều biến) thì PCA giúp chúng ta xoay trục tọa độ xây một
trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ lại được nhiều thông tin nhất
mà không ảnh hưởng tới chất lượng của các mô hình dự báo. Trong không gian mới,
có thẻ giúp chúng ta khám phá thêm những thông tin quý giá mới khi mà tại chiều
thông tin cũ những thông tin quý giá này bị che mất

Mục đích của phân tích thành


phần chính là rút ra thông tin
chủ yếu chứa trong bảng

You might also like