Professional Documents
Culture Documents
BTL DSTT
BTL DSTT
ii
MỤC LỤC
Table of Contents
Trang bìa.....................................................................................................................................................1
iii
Chương 2. Thuật toán PCA
ii
Chương 1. Giới thiệu
Nhận diện khuôn mặt, một trong những ứng dụng quan trọng của công nghệ
thông tin và trí tuệ nhân tạo, đã trở thành một lĩnh vực nghiên cứu sôi động và có
ảnh hưởng rất lớn trong thế kỷ 21. Tuy nhiên, đối mặt với sự phức tạp và đa dạng
của dữ liệu hình ảnh, việc phân tích và nhận diện khuôn mặt vẫn là một thách thức
lớn đối với các nhà nghiên cứu và nhà phát triển.
Trong lĩnh vực này, Principal Component Analysis (PCA) đã trở thành một
công cụ quan trọng để giảm số chiều của dữ liệu và trích xuất các đặc trưng quan
trọng từ các hình ảnh khuôn mặt. PCA không chỉ giúp giảm chiều của dữ liệu mà
còn cho phép chúng ta hiểu rõ hơn về cấu trúc và biến đổi của các đặc trưng khuôn
mặt, từ đó tạo ra các mô hình nhận diện chính xác hơn và ổn định hơn.
Trong phần này, chúng ta sẽ khám phá cách PCA được áp dụng trong việc nhận
diện khuôn mặt. Chúng ta sẽ tìm hiểu về cách PCA giúp giảm nhiễu và tăng hiệu
suất của các mô hình nhận diện khuôn mặt, đồng thời đạt được độ chính xác cao và
ổn định trong các ứng dụng thực tế.
Hãy bắt đầu hành trình khám phá cùng PCA trong nhận diện khuôn mặt và nhận
thấy sức mạnh của nó trong việc giải quyết các thách thức phức tạp trong lĩnh vực
này.
3
Chương 2. Thuật toán PCA
Trong hình trên, ta thấy rằng dữ liệu trên trục mới đã giảm sự tương quan đáng kể
(biến Y1 và Y2 gần như không tương quan)
Phương pháp PCA là một trong số các thuật toán Dimension Reduction (giảm
chiều dữ liệu) với mục đích cốt lõi là giảm số chiều dữ liệu, tức là biến đổi một tập
hợp dữ liệu từ một không gian nhiều chiều sang một không gian ít chiều hơn nhưng
không làm mất đi những dữ liệu quan trọng.
ii
Chương 2. Thuật toán PCA
Nói một cách đơn giản, là việc đi tìm một hàm số, hàm số này lấy đầu vào là một
điểm dữ liệu ban đầu x∈RD với D rất lớn, và tạo ra một điểm dữ liệu mới z∈RK có số
chiều K<D.
- Trị riêng và vector riêng (Eigenvalues and Eigenvectors): Trong PCA, chúng ta
tính trị riêng và vector riêng của ma trận hiệp phương sai. Trị riêng là các giá trị
riêng của ma trận, còn vector riêng là các vector ứng với các trị riêng. Chúng giúp
chúng ta hiểu cách dữ liệu phân tán trong các hướng khác nhau.
- Chọn số chiều (Dimension selection): PCA giúp chọn ra những chiều quan trọng
nhất bằng cách sắp xếp trị riêng theo thứ tự giảm dần và chọn ra một số lượng trị
riêng lớn nhất (tương ứng với những vector riêng ứng với chúng) để tạo thành một
ma trận chiều mới.
- Tỉ lệ giữ lại thông tin (Explained Variance Ratio): Là tỉ lệ của tổng trị riêng đã
chọn so với tổng trị riêng của toàn bộ ma trận hiệp phương sai. Nó đo lường phần
trăm thông tin mà các thành phần chính đã giữ lại so với dữ liệu gốc.
- Ma trận chiều mới (Projection Matrix): Sau khi chọn ra các thành phần chính,
chúng ta có thể sử dụng ma trận chiều mới để chiếu dữ liệu từ không gian ban đầu
sang không gian mới có số chiều ít hơn.
- Giảm chiều (Dimension Reduction): Là quá trình giảm số chiều của dữ liệu bằng
cách chỉ giữ lại các thành phần chính quan trọng nhất.
Trong lý thuyết xác suất, giá trị kỳ vọng là tổng quát của trung bình có trọng
số. Một cách không chính thức, giá trị kỳ vọng là giá trị trung bình số học của một
số lượng lớn các kết quả được chọn độc lập của một biến ngẫu nhiên. Vì nó có được
thông qua số học nên giá trị mong đợi đôi khi thậm chí có thể không được đưa vào
ii
Chương 2. Thuật toán PCA
tập dữ liệu mẫu; đó không phải là giá trị mà bạn "mong đợi" nhận được trong thực
tế.
Giá trị kỳ vọng của một biến ngẫu nhiên với số lượng kết quả hữu hạn là giá trị
trung bình có trọng số của tất cả các kết quả có thể xảy ra. Trong trường hợp các kết
quả có thể xảy ra liên tục, kỳ vọng được xác định bằng sự tích hợp. Trong nền tảng
tiên đề cho xác suất được cung cấp bởi lý thuyết đo lường, kỳ vọng được đưa ra
bằng tích phân Lebesgue .
Giá trị kỳ vọng của biến ngẫu nhiên X thường được ký hiệu
là E( X ), E[ X ] hoặc E X, với E cũng thường được cách điệu là EX .
Gọi μ là giá trị kỳ vọng (trung bình) của biến ngẫu nhiên X với mật độ f ( x ) :
−∞
μ ≡ E [ X ]= ∫ ❑ xf ( x ) dx
+∞
Trong thống kê , độ lệch chuẩn là thước đo mức độ biến thiên hoặc phân tán của
một tập hợp các giá trị. Độ lệch chuẩn thấp cho biết các giá trị có xu hướng gần với
giá trị trung bình (còn gọi là giá trị mong đợi ) của tập hợp, trong khi độ lệch chuẩn
cao cho biết các giá trị được trải rộng trên một phạm vi rộng hơn.
Độ lệch chuẩn của một biến ngẫu nhiên, mẫu, tổng thể thống kê, tập dữ
liệu hoặc phân bố xác suất là căn bậc hai của phương sai của nó. Nó đơn giản hơn về
mặt đại số, mặc dù trong thực tế kém chắc chắn hơn so với độ lệch tuyệt đối trung
bình. Một đặc tính hữu ích của độ lệch chuẩn là, không giống như phương sai, nó
được biểu thị bằng cùng đơn vị với dữ liệu.
Trong khoa học, người ta thường báo cáo cả độ lệch chuẩn của dữ liệu (dưới
dạng thống kê tóm tắt) và sai số chuẩn của ước tính (dưới dạng thước đo sai số tiềm
ẩn trong các phát hiện). Theo quy ước, chỉ ảnh hưởng nhiều hơn hai sai số chuẩn so
với kỳ vọng không được coi là "có ý nghĩa thống kê", một biện pháp bảo vệ chống
lại kết luận giả thực sự là do lỗi lấy mẫu ngẫu nhiên.
Khi chỉ có sẵn một mẫu dữ liệu từ tổng thể, thuật ngữ độ lệch chuẩn của
mẫu hoặc độ lệch chuẩn của mẫu có thể đề cập đến đại lượng nêu trên được áp dụng
cho các dữ liệu đó hoặc đại lượng được sửa đổi là ước tính không thiên vị của độ
lệch chuẩn dân số (độ lệch chuẩn của toàn bộ dân số).
Độ lệch chuẩn σ của X được định nghĩa là:
σ ≡ √E ¿¿
ii
Chương 2. Thuật toán PCA
2.4.3. Phương sai (Variance):
\ Phương sai là một thước đo khoảng cách chênh lệch giữa các số liệu trong một
tập dữ liệu với nhau so với giá trị trung bình của tập dữ liệu được ký hiệu
là σ2, s2, Var(X), V(X) trong thống kê. Phương sai là kỳ vọng của độ lệch bình
phương của một biến ngẫu nhiên so với trung bình tổng thể hoặc trung bình mẫu của
nó.
n
1
Công thức: Var ( X )= ∑ ❑(x i−μ)
2
n i=1
Trong lý thuyết xác suất và thống kê, ma trận hiệp phương sai (còn được gọi
là ma trận tự động hiệp phương sai, ma trận phân tán, ma trận phương sai hoặc ma
trận hiệp phương sai) là ma trận vuông biểu thị hiệp phương sai giữa mỗi cặp phần
tử của một vector ngẫu nhiên nhất định.
Theo trực giác, ma trận hiệp phương sai khái quát hóa khái niệm phương sai
thành nhiều chiều. Ví dụ, sự biến thiên trong một tập hợp các điểm ngẫu nhiên trong
không gian hai chiều không thể được mô tả đầy đủ bằng một số duy nhất, cũng như
các phương sai trong. Và hướng dẫn chứa tất cả các thông tin cần thiết; một ma trận
sẽ là cần thiết để mô tả đầy đủ sự biến đổi hai chiều.
Bất kỳ ma trận hiệp phương sai nào cũng có tính đối xứng và nửa xác định
dương và đường chéo chính của nó chứa các phương sai (tức là hiệp phương sai của
từng phần tử với chính nó).
Ma trận hiệp phương sai của một vector ngẫu nhiên thường được ký hiệu là Kxx.
K X X =cov [ X i , X j ] =E ¿)
i j
Trong đại số tuyến tính, một vector riêng hay vector đặc trưng (eigenvector) của
một biến đổi tuyến tính là một vector khác vector mà được nhân với một hệ số vô
hướng khi biến đổi tuyến tính đó được áp dụng lên nó. Hệ số vô hướng tương ứng,
thường được ký hiệu là, được gọi là giá trị riêng.
ii
Chương 2. Thuật toán PCA
Nói một cách hình học, một vector riêng tương ứng với một giá trị
riêng thực khác 0 có cùng phương sau khi nó được kéo dài ra bởi phép biến đổi và
giá trị riêng là hệ số nhân. Nếu giá trị riêng là âm thì vector sẽ đổi chiều. Một cách
dễ hiểu, trong một không
gian đa chiều, vector riêng
không bị quay đi.
Công thức:
Phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về
cùng một dữ liệu.
❖ Kinh tế:
- Xử lý và phân tích dữ liệu về giá cả và lạm phát: PCA có thể giúp xác định các
thành phần quan trọng của giá cả và lạm phát, giúp quản lý rủi ro và dự báo xu
hướng chung.
- Quản lý rủi ro tài chính: PCA có thể được sử dụng để phân tích biến động của các
yếu tố tài chính, giúp các nhà đầu tư và ngân hàng quản lý rủi ro trong các danh mục
đầu tư của họ.
ii
Chương 2. Thuật toán PCA
- Đánh giá tác động của chính sách kinh tế: PCA có thể được áp dụng để đánh giá
tác động của các chính sách kinh tế, ví dụ như chính sách tiền tệ hoặc chính sách tài
khóa, trên các biến kinh tế khác nhau.
- Xử lý dữ liệu tài chính đa biến: Khi có một lượng lớn các biến liên quan đến kinh
tế và tài chính, PCA có thể giúp giảm số chiều của dữ liệu, giảm nhiễu và tìm ra các
biến quan trọng nhất.
- Dự báo xu hướng thị trường và tình hình kinh tế: PCA có thể được sử dụng để
xác định các yếu tố chính ảnh hưởng đến sự biến động thị trường và dự báo xu
hướng kinh tế.
❖ Kỹ thuật:
- Phân tích dữ liệu hình ảnh: PCA có thể được sử dụng để giảm chiều của các hình
ảnh, đặc biệt là khi số chiều của dữ liệu là quá lớn. Điều này giúp giảm lượng dữ liệu
cần xử lý và vẫn giữ lại những đặc trưng quan trọng.
- Nhận dạng khuôn mặt: Trong lĩnh vực nhận dạng khuôn mặt, PCA có thể giảm
chiều của dữ liệu hình ảnh khuôn mặt, giúp tăng tốc quá trình nhận dạng và giảm chi
phí tính toán.
- Phân tích tín hiệu và âm thanh: PCA có thể được sử dụng để giảm chiều của tín
hiệu âm thanh hoặc tín hiệu trực giác, giúp loại bỏ nhiễu, khử tiếng ồn.
- Xử lý và phân tích dữ liệu di truyền: Trong di truyền học, PCA có thể được sử
dụng để phân tích các biến liên quan đến di truyền và giúp xác định các yếu tố quan
trọng.
- Nén dữ liệu và tạo biểu đồ: PCA cung cấp một cách hiệu quả để nén dữ liệu mà
vẫn giữ lại các đặc trưng quan trọng. Nó cũng có thể được sử dụng để tạo biểu đồ để
hiểu rõ hơn về cấu trúc dữ liệu.
ii
Chương 2. Thuật toán PCA
CHƯƠNG 3: ỨNG DỤNG PCA TRONG NHẬN DIỆN KHUÔN MẶT
Bước 3: Tìm min . Tức là ta tìm khuôn mặt thứ l trong tập mẫu
có khoảng cách gần nhất với khuôn mặt cần nhận diện.
Bước 4: Nếu er < Tr (Tr là một ngưỡng chọn chấp nhận được nào đó).
Tức là ảnh khuôn mặt cần xác định “đủ gần” với ảnh của người thứ l trong tập mẫu.
Khi đó, ta kết luận đó chính là khuôn mặt của người thứ l. er
ii
Chương 2. Thuật toán PCA
- Phương pháp này nhạy cảm với tỉ lệ khuôn mặt - yêu cầu tiền xử lí dữ liệu để
chuẩn hoá tỉ lệ.
(VD: khuôn mặt sẽ khó nhận dạng nếu khuôn mặt bị biến dạng do các yếu tố khách
quan)
- Tỉ lệ nhận dạng của nó giảm khi nhận dạng dưới các tư thế khác nhau.
(VD: Nghiêng đầu, cười, nhắm mắt…)
- Phương pháp này có thể yêu cầu khung nền đồng nhất và có thể không đáp ứng
được ở hầu hết các cảnh tự nhiên.
(VD: việc nhận dạng khuôn mặt trong môi trường có ánh sáng thấp sẽ dễ nhận dạng
hơn so với môi trường bên ngoài)
● Nhận dạng ngay lập tức cá nhân tội phạm trong khoảng cách an toàn.
● Nhận diện trạng thái tài xế khi người lái xe có biểu hiện ngủ gật, mất tập trung.
ii
Chương 2. Thuật toán PCA
CHƯƠNG 4: CODE TRONG MATLAB
ii
Chương 2. Thuật toán PCA
CHƯƠNG 5: KẾT LUẬN
5.1. Kết luận
- Mục đích chính của phân tích thành phần chính (Principal Component Analysis –
PCA)nhằm tóm tắt thông tin các biến quan sát được đưa vào phân tích nhân tố và
giúp làm giảm số lượng nhiều quan sát thành một số lượng ít hơn các nhân tố
chính.Cụ thể là các nhân tố chính này giải thích được nhiều nhất đặc điểm thông tin
của tất cả các biến quan sát ban đầu. Nhìn chung, công nghệ nhận diện khuôn mặt đã
đang được áp dụng rộng rãi hiện nay và có thể trong tương lai, công nghệ này sẽ
càng phát triển hơn nữa, áp dụng hữu ích trong cuộc sống công nghệ hóa hiện đại.
- Nhận diện khuôn mặt bằng PCA là một công nghệ nhận dạng khuôn mặt hiệu quả,
dễ dàng triển khai và có độ chính xác cao. Nó có nhiều ứng dụng trong an ninh, giám
sát và xác minh danh tính của người dùng. Nhờ có những ứng dụng ấy và sự tiến bộ
trong khoa học công nghệ, cuộc sống con người đã nâng cấp lên và không còn khó
khăn như trước kia.
[2] https://www.geeksforgeeks.org/ml-face-recognition-using-eigenfaces-pca-
algorithm/
[3] https://machinelearningcoban.com/2017/06/15/pca/
[4] https://phamdinhkhanh.github.io/deepai-book/ch_ml/index_PCA.html
[5] https://tuanvanle.wordpress.com/2013/12/25/phuong-phap-phan-tich-
thanh-phan-chinh-principal-component-analysis-pca/
ii