BaiTap3 Nhom17

You might also like

Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 34

Singular value decomposition

Principal component analysis

Nhóm 17
Trần Chí Khanh Nguyễn Thảo Trâm Nguyễn Tấn Phát
Phân công
Họ tên Công việc Hoàn thành

Trần Chí Khanh 100%

Nguyễn Tấn Phát 100%

Nguyễn Thảo Trâm 100%


Singular value
01. decomposition và Ví
Dụ

Principal component
Nội dung 02. analysis và Ví Dụ

03. Demo code


02.Principal component analysis
Giới Thiệu

PCA là phương pháp:


• Loại bỏ thành phần phụ
• Giữ thành phần chính
• Không ảnh hưởng nhiều so với dữ liệu gốc
02.Principal component analysis
Lợi ích
Giảm chiều dữ liệu nhưng vẫn giữ được độ chính xác nhất
định so với dữ liệu ban đầu

Dễ quan sát nắm bắt thông tin, nhận biết sự tương quan

Giúp ta tinh toán nhanh hơn với độ chính xác cao


02.Principal component analysis
Ứng dụng

Nông nghiệp Kinh tế Khoa học

Nhận diện Giảm chiều


khuôn mặt dữ liệu

Đẩy nhanh quá trình nghiên cứu, phát triển,… Nhưng vẫn giữ được độ
chính xác cao.
Phân tích thành phần chính
a.Bảng giá trị: - Cá thể
- Biến
- Số liệu trên đó đo giá trị các biến

Chiều cao Huyết áp Nhịp tim Cân nặng

Bạn A …. …. …. ….

Bạn B …. …. …. ….
Phân tích thành phần chính
b. Tìm thành phần chính:
- Là đi tìm những trục hay mặt phẳng “phản ánh ” tốt nhất sự
tương quan
c. Biểu diễn hình học:
- Chiếu đám mây số liệu lên các mặt phẳng chính ta sẽ tìm được
hình ảnh “rõ nhất” của dữ liệu

Giúp ta quan sát rõ hơn và đưa ra những nhận xét thích hợp
Phân tích thành phần chính

d. Phân tích hình ảnh dữ liệu thu được:


- Quan sát sự tương quan giữa các biến dễ dàng
- Rút ra nhưng nhận xét
- Đánh giá chuyên môn 1 cách hữu ích
Một số khái niệm toán học trong PCA

a. Giá trị trung bình


(mean):
𝑥1 + 𝑥 2+ …+ 𝑥 𝑛
𝜇=
𝑛
Một số khái niệm toán học trong PCA

b. Phương sai (variance): Của 1 bảng số liệu, thể hiện sự đặc


trưng độ phân tán các số liệu trong tập dữ liệu so với giá trị
trung bình (kí hiệu: )

𝜎
2
=
∑ 2
( 𝑥 −𝜇)
𝑁
Một số khái niệm toán học trong PCA

c. Hiệp phương sai (covariance): Là độ đo sự biến thiên cùng


nhau của 2 biến ngẫu nhiên

𝐶𝑜𝑣 ( 𝑋 , 𝑌 )=
∑ ( 𝑋 𝑦 − 𝑋 )(𝑌 𝑗 − 𝑌 )
𝑛 −1
Một số khái niệm toán học trong PCA

d. Trị riêng, vector riêng của ma trận hiệp phương sai:


 Ma trận hiệp phương sai:
 Trị riêng: Giải phương trình đặc trưng
 Nghiệm của phương trình đặc trưng là trị riêng
 Vector riêng: Giải hệ phương trình thuần nhất
 Tìm vector ứng với trị riêng
Thuật toán PCA:

1. Tính giá trị trung bình của tất cả biến


Thuật toán PCA:

2. Trừ đi mỗi điểm dữ liệu của toàn bộ dữ


liệu đi một giá trị trung bình
Thuật toán PCA:

3. Tính ma trận hiệp phương sai

4. Tính các vector riêng của S sau đó sắp


xếp chúng theo thứ tự giảm dần. Tính các
vector riêng của giá trị riêng
Thuật toán PCA:

5. Chọn k vector riêng ứng với k trị riêng


lớn nhất để xây dựng ma trận A ( các cột
là vector riêng đã chọn)
Thuật toán PCA:

6. Chiếu dữ liệu ban đầu xuống không


gian vừa tìm được:
Thuật toán PCA:

7. Có được một bộ dữ liệu trong cơ sở mới


với số chiều ít hơn, giúp cho việc phân
tích trở nên dễ dàng
Ví dụ
Cho bảng số liệu sau
Môn Toán Lý Văn Sử

Tên
Bùi Thanh An 9 9 4 5
Phạm Kim Anh 6 4 8 8
Vũ Công Bình 9 9 4 4
Đặng Minh Chí 7 6 7 9
Phạm Ngọc Diệp 10 8 5 4
Tạ Minh Hiếu 9 8 6 4
Trần Kim Khánh 10 7 4 6
Nguyễn Minh Quân 5 6 9 8
Nguyễn Xuân Sơn 6 5 8 7
Phạm Đăng Vinh 9 8 5 5
Bước 1: Tính giá trị trung bình của tất cả các biến

Toán Lý Văn Sử

8 7 6 6
Bước 2: Trừ đi mỗi điểm dữ liệu của toàn bộ dữ liệu đi một giá trị trung bình
Môn Toán Lý Văn Sử

Tên
Bùi Thanh An 1 2 -2 -1
Phạm Kim Anh -2 -3 2 2
Vũ Công Bình 1 2 -2 -2
Đặng Minh Chí -1 -1 1 3
Phạm Ngọc Diệp 2 1 -1 -2
Tạ Minh Hiếu 1 1 0 -2
Trần Kim Khánh 2 0 -2 0
Nguyễn Minh Quân -3 -1 3 2
Nguyễn Xuân Sơn -2 -2 2 1
Phạm Đăng Vinh 1 1 -1 -1
Bước 3: Tính ma trận hiệp phương sai:

( )( )
𝑇
1 −2 1 −1 2 1 2 −3 −2 1 1 −2 1 −1 2 1 2 −3 −2 1
1 2 −3 2 −1 1 1 0 −1 −2 1 2 −3 2 −1 1 1 0 −1 −2 1
𝑆=
10 −1 − 2 2 −2 1 −1 0 −2 3 2 −1 −2 2 −2 1 −1 0 −2 3 2 −1
−1 2 −2 3 −2 −2 0 2 1 −1 −1 2 −2 3 −2 −2 0 2 1 −1

( )
10 22 − 29 − 25
3 9 9 9

( )
30 22 − 29 − 25 22 26 −8 −8
1 22 26 − 24 − 24 = 9 9 3 3
𝑆=
9 − 29 − 24 32 24 − 29 −8 32 8
− 25 − 24 24 32 9 3 9 3
− 25 −8 8 32
3 3 3 9
Bước 4: Tính các giá trị riêng của S sau đó sắp xếp chúng theo thứ tự giảm
dần. Tính các vector riêng của giá trị riêng.

𝜆 1 ≈ 11 , 582

( )
22 − 29
− 8 ,249 − 25
9 9

()
9

( )
22 −8 𝑥1 − 1 , 014
− 8,693 −8
9 3 𝑥2 − 0 , 912
3 . = 0≤ ¿ 𝑣 1 ≈
− 29 −8 𝑥3 1, 042
− 8,026 8
9 3 𝑥 1
8 3 4
− 25 −8
3 − 8,026
9 3
Bước 4: Tính các giá trị riêng của S sau đó sắp xếp chúng theo thứ tự giảm
dần. Tính các vector riêng của giá trị riêng.

𝜆 1 ≈ 1 , 030

( )
22 − 29
2 , 304 − 25
9 9

()
9

( )
22 −8 𝑥1 0 , 560
1 ,859 −8
9 3 𝑥2 − 0 , 406
3 . = 0≤ ¿ 𝑣 1 ≈
− 29 −8 𝑥3 − 0 , 769
2 , 526 8
9 3 𝑥 1
8 3 4
− 25 −8
3 2 , 526
9 3
Bước 4: Tính các giá trị riêng của S sau đó sắp xếp chúng theo thứ tự giảm
dần. Tính các vector riêng của giá trị riêng.

𝜆 1 ≈ 0 , 574

( )
22 − 29
2 ,759 − 25
9 9

()
9

( )
22 −8 𝑥1 − 0 , 929
2 , 315 −8
9 3 𝑥2 1, 774
3 . = 0≤¿ 𝑣 1 ≈
− 29 −8 𝑥3 − 0 , 312
2,981 8
9 3 𝑥 1
8 3 4
− 25 −8
3 2 , 981
9 3
Bước 4: Tính các giá trị riêng của S sau đó sắp xếp chúng theo thứ tự giảm
dần. Tính các vector riêng của giá trị riêng.

𝜆 1 ≈ 0 , 147

( )
22 − 29
3 , 186 − 25
9 9

()
9

( )
22 −8 𝑥1 2 , 489
2 ,741 −8
9 3 𝑥2 1 , 178
3 . = 0≤¿ 𝑣 1 ≈
− 29 −8 𝑥3 2 , 492
3 , 408 8
9 3 𝑥 1
8 3 4
− 25 −8
3 3 , 408
9 3
Bước 4: Tính các giá trị riêng của S sau đó sắp xếp chúng theo thứ tự giảm
dần. Tính các vector riêng của giá trị riêng.
Trị riêng 11, 582 1, 030 0, 547 0, 147

Phần Trăm 86, 867% 7, 725% 4, 035% 1, 103%

Luỹ tích 86, 867% 94, 592% 98, 897% 100%

Biến số PC1 PC2 PC3 PC4

Toán -1, 014 0, 560 -0, 929 2, 489

Lý -0, 912 -0, 406 1, 774 1, 178

Văn 1, 042 -0, 769 -0, 312 2, 492

Sử 1 1 1 1
Bước 5: Chọn k vector riêng ứng với k trị riêng lớn nhất để xây dung ma
trận A

( )
− 1 , 014 0 , 560
− 0 , 912 − 0 , 406
𝐴=
1 ,042 − 0 ,769
1 1
Bước 6: Chiếu dữ liệu ban đầu xuống không gian vừa tìm được.

( )
− 1137 143
500 500
422 14
125 25
− 1637 − 357

( )
1 2 −2 −1 500 500
−2 −3 2 2 518 2077
1 2 −2 −2 125 1000

( )
−1 −1 1 3 − 1 , 014 0 , 560 − 2079 − 517
2 1 −1 −2 0 , 912 − 0 , 406 = 500 1000
1 1 0 −2 1 , 042 − 0 , 769 − 1051 − 923
2 0 −2 0 1 1 500 500
−3 −1 3 2 − 514 1329
−2 −2 2 1 125 500
1 1 −1 −1 907 − 1581
125 1000
411 − 423
125 500
268 − 77
125 1000
Từ số liệu trên ta đưa về bảng sau:
Tên PC1 PC2

Bùi Thanh An -2, 274 0, 286

Phạm Kim Anh 3, 376 0, 56

Vũ Công Bình -3, 274 -0, 714

Đặng Minh Chí 4, 144 2, 077

Phạm Ngọc Diệp -4, 158 -0,, 517

Tạ Minh Hiếu -2, 102 -1, 846

Trần Kim Khánh -4, 112 2, 658

Nguyễn Minh Quân 7, 256 -1, 581

Nguyễn Xuân Sơn 3, 288 -0, 846

Phạm Đăng Vinh -2, 144 -0, 077


Thank you
very much!
Demo code

You might also like