A Universal Image Quality Index

You might also like

Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 6

A Universal Image Quality Index

Zhou Wang, Student Member, IEEE, and Alan C. Bovik, Fellow, IEEE

- Human visual system model (HVS model) được xử dụng trong xử lý ảnh, video và
computer vision nhằm giải quyết các quá trình sinh lý học chưa được hiểu đầy đủ. Mô
hình như vậy thường dùng để đơn giản hóa các hành vi trong một hệ thống phức tạp.
Đặc điểm HVS:
+ Bộ lọc dải tần thấp
+ Ít phân giải màu
+ Motion sensitivity: nhạy cảm trong các peripheral vision; mạnh hơn texture sensitivity
+ Texture stronger: sự khác biệt chiều sâu 3D không cần phải tuyệt đối chính xác.
+ Nhận diện toàn bộ khuôn mặt
Ví dụ về sử dụng HVS:

 Flicker frequency of film and television using persistence of vision to fool viewer into
seeing a continuous image
 Interlaced television painting half images to give the impression of a higher flicker
frequency
 Colour television (chrominance at half resolution of luminance corresponding to
proportions of rods and cones in eye)
 Image compression (difficult to see higher frequencies more harshly quantised)
 Motion estimation (use luminance and ignore colour)

Mean Squared Error (MSE): xác định sự sai khác giữa giá trị ước lượng và giá trị thật.
MSE là một hàm rủi ro. MSE tính trung bình bình phương các lỗi.

Peak signal to noise ratio (PSNR): là một thuật ngữ kỹ thuật chỉ tỷ lệ giữa giá trị năng
lượng cực đại của tín hiệu vào năng lượng của nhiễu ảnh hưởng tới sự thể hiện của tín
hiệu đó. Bởi vì nhiều tín hiệu có một miền dao động rất rộng, PSNR thường được diễn
đạt theo tỷ lệ logarith decibel.
PSNR là đơn vị đo chất lượng codecs tái xây dựng được nén có mất mát dữ liệu (nén
ảnh). Tín hiệu trong trường hợp này là dữ liệu gốc, nhiễu là lỗi tạo ra bởi việc nén.
Nó thường được định nghĩa qua MSE cho 2 ảnh đơn sắc I và K trong đó 1 cái được coi
như là ước lượng xấp xỉ của cái còn lại:

PSNR:
- Root mean squared error (RMSE)
- Mean absolute error (MAE): là đại lượng thể hiện mức độ sai lệch giữa giá trị dự
đoán và kết quả thực sự (cuối cùng).

As the name suggests, the mean absolute error is an average of the absolute
errors ei = fi − yi, where fi is the prediction and yi the true value. Note that alternative
formulations may include relative frequencies as weight factors.

Tổng quan
Chúng tôi đề xuất một phương pháp xếp hạng chất lượng ảnh khách quan quan – một
phương pháp dễ dàng tính toán và áp dụng vào rất nhiều các ứng dụng xử lý ảnh. Thay vì
sử dụng phương pháp tính tổng lỗi (error summation), index đề xuất được thiết kế bằng
việc mô hình hóa các lỗi ảnh theo 3 thành phần: độ mất mát tương hỗ (tương quan), sự
sai khác về độ sang và tương phản. Mặc dù index mới được xác định một cách toán học
và không có mô hình hệ thống trực quan của con người nhưng lại dễ dàng cài đặt, các thí
nghiệm của chúng tôi trên nhiều kiểu sai khác ảnh chỉ ra rằng nó có kết quả tốt hơn nhiều
sao với phương pháp đo trung bình bình phương lỗi. Các bức ảnh kiểm nghiệm và cài đặt
thuật toán MATLAB hiệu quả có tại http://an-
chovy.ece.utexas.edu/~zwang/research/quality_index/demo.html.
Thuật ngữ cơ sở: Hệ thống trực quan người dùng (HVS), phương pháp đo chất lượng
ảnh, trung bình bình phương lỗi (MSE).

I. Giới thiệu
Phương pháp đo chất lượng ảnh khách quan đóng vai trò quan trọng trong nhiều ứng
dụng xử lý ảnh. Có 2 lớp cở bản trong hướng đánh giá chất lượng ảnh khách quan hay
độ sai lệch. Đầu tiên là các phương pháp đo như trung bình bình phương lỗi (MSE),
peak signal to noise ratio (PSNR), trung bình bình phương lỗi cơ bản (RMSE), trung
bình lỗi tuyệt đối (MAE), và signal to noise ratio (SNR). Lớp thứ hai của phương
pháp đo xem xét các đặc trưng hệ thống trực quan người dùng (HVS) nhằm kết hợp
các phương pháp đo chất lượng ảnh cảm quan. Tuy nhiên, thật không may là tất cả
các phương pháp đo phức tạp chủ quan trên ngay trên lý thuyết chưa hề cho thấy
những lợi ích hơn các phương pháp toán học như RMSE và PSNR trong những điều
kiện kiểm thử nghiêm ngặt và môi trường ảnh nhiễu khác nhau.
Các phương pháp đo toán học được định nghĩa vẫn có sức hấp dẫn bởi 2 nguyên do. |
Thứ nhất, chúng hoàn toàn dễ tính toán và thường có độ phức tạp tính toán thấp. Thứ
hai, chúng hoàn toàn độc lập với điều kiện kiểm tra và cá nhân theo dõi. Mặc dù
nhiều người cho rằng điều kiện quan sát đóng vai trò quan trọng trong cảm nhận của
người về chất lượng ảnh, nhưng trong phần lớn các trường hợp, các dữ liệu ảnh tĩnh
và nhất quán được sử dụng trong hệ thống phân tích. Nếu có N cách quan sát khác
nhau, một phương pháp quan sát phụ thuộc góc nhìn sẽ tạo ra N các kết quả đo khác
nhau. Ngoài ra, đó là trách nhiệm của người dùng để kiểm tra góc quan sát, tính toán
và đưa vào các tham số điều kiện vào hệ thống đo lường. Ngược lại, một phương
pháp đo lường độc lập với điều kiện quan sát sẽ chỉ tạo ra một giá trị đánh giá chất
lượng ảnh.
Trong paper này, chúng tôi đề xuất một phương pháp đánh giá chất lượng ảnh tống
quát hoàn toàn dựa trên toán học. “Tổng quát” ở đây mang nghĩa là hướng tiếp cận đo
đạc này không phụ thuộc vào ảnh sẽ đưa vào kiểm tra, điều kiện quan sát hay cá nhân
theo dõi. Quan trọng hơn là, nó có thể được áp dụng vào nhiều ứng dụng xử lý ảnh
khác nhau và cung cấp các so sánh hữu ích cho nhiều loại nhiễu ảnh. Hiện nay, PSNR
và MSE vẫn được mang nghĩa tổng quát dù vẫn còn những thể hiện không rõ ràng
(nghi ngờ, đáng ngờ). Phương pháp này phát triển một cách khác để thay thế vai trò
của chúng.

II. Định nghĩa chỉ số đánh giá mới

Q nằm trong khoảng [-1, 1]. Giá trị 1 đạt được khi và chỉ khi yi = xi với mọi i = 1, 2,
w
…, N. Giá trị thấp nhất -1 xảy ra khi yi = 2 x − xi với i = 1, 2, …, N. Cách đánh giá
(xếp hạng) này mô hình tất cả các sai lệch (nhiễu) như là sự cấu thành của 3 yếu tố:
độ mất mát tương hỗ, nhiễu sáng và nhiễu tương phản. Để hiểu điều này, chúng ta
viết lại định nghĩa Q như là tích của 3 thành phần:
σ xy ww 2σ xσ
Q= ⋅ 2 xy
⋅σ y
(2)
σxσ y ( xw) 2 + ( yw) 2 x
2
+σ y 2
Thành phần thứ nhất là hệ số tương quan giữa x và y – đo độ tương hỗ tuyến tính giữa
x và y, và giá trị này nằm trong khoảng [-1, 1]. Giá trị cao nhất 1 đạt được khi
yi = ax i + b với mọi i = 1, 2, …, N trong đó a, b là hằng số và a > 0. Thậm chí nếu x
và y tương quan tuyến tính thì vẫn có sự sai lệch giữa chúng – được đánh giá qua
thành phần thứ hai và thứ ba. Thành phần thứ 2 có giá trị nằm trong khoảng [0, 1] đo
mức độ tương tự của độ sáng trung bình giữa x và y. Giá trị này bằng 1 khi và chỉ khi
w w
x = y.σ x và σ y được xem như ước lượng độ tương phản của x và y, do đó thành phần
thứ 3 chỉ ra mức độ tương tự về độ tương phản giữa các ảnh. Miền giá trị của nó cũng
là [0, 1], giá trị cao nhất đạt được khi và chỉ khi σ x = σ y .

III. Ứng dụng vào ảnh

Các hình ảnh thì thường không cố định trong khi chất lượng ảnh có một khoảng dao
động, mặc dù vậy trong thực tế người ta vẫn mong muốn sử dụng một giá trị đánh giá
chất lượng tổng thể để đánh giá toàn bộ một bức ảnh.Do vậy, ta cần đo các đặc trưng
thống kê rồi tổng hợp chúng lại. Chúng tôi áp dụng phương pháp tính toán đo đạc trên
miền bộ phận sử dụng phương pháp tiếp cận cửa sổ trượt. Bắt đầu từ góc trên trái của
ảnh, một cửa sổ trượt kích thước BxB di chuyển từng pixel theo chiều ngang và dọc
trên tất cả các hàng và cột của ảnh cho tới khi tới được góc dưới phải của hình. Tại
bước thứ j, chỉ số chất lượng bộ phận Q j được tính trong miền cửa sổ. Nếu như có M
bước thì chỉ số chất lượng tổng thể là:
M
Q= 1
M ∑Q
j =1
j (3)

Chúng ta sử dụng những ảnh có độ sai lệch khác nhau để kiểm tra chỉ số chất lượng
mới và so sánh kết quả với MSE cùng những đánh giá chủ quan. Các ảnh được kiểm
tra thì có độ sai lệch khác nhau: nhiễu salt-pepper, nhiễu phụ Gaussian, nhiễu đốm
nhiều lần, dịch chuyển trung bình (mean shift), kéo dãn độ tương phản (contrast
stretching), làm mờ và nén JPEG. Một số ảnh mẫu được cho trong ví dụ 1 và 2 mà
chúng tôi đã điều chỉnh tất cả các sai lệch để cho ra cùng giá trị MSE tương ứng với
mỗi ảnh gốc, trừ ảnh nén JPEG có giá trị MSE nhỏ hơn. Chỉ số chất lượng ảnh tổng
thể của mỗi ảnh cũng được tính toán trong đó kích thước cửa sổ trượt là B = 8. Trong
các thí nghiệm mang tính chủ quan, chúng tôi đưa ra ảnh gốc và 7 ảnh nhiễu cho 22
người ( 90% số này đã được dùng trong xử lý ảnh), yêu cầu họ so sánh ảnh nhiễu với
ảnh gốc và xếp hạng chúng theo chất lượng. Kết quả xếp hạng trung bình, cùng với
MSE và kết quả đo chất lượng theo hướng đề xuất được cho trong bảng 1.
Trong thí nghiệm này, kết quả của MSE rất thấp trong đó các ảnh có chỉ số MSE gần
nhau lại có chất lượng ảnh khác nhau rõ rệt. Ngược lại, phương pháp đánh giá mới
thể hiện sự tương đồng với đánh giá chủ quan. Trên thực tế, xếp hạng theo phương
pháp mới tương tự với xếp hạng chủ quan trung bình. Điều này được thấy qua xếp
hạng trong ví dụ 2(b) và ví dụ 2(a). Điều này hoàn toàn không có gì ngạc nhiên bởi lẽ
phương pháp contrast stretching (ví dụ 2b) là quá trình làm cải thiện ảnh – làm tăng
chất lượng trực quan hình ảnh gốc. Thực tế, nhiều người quan sát còn cho rằng nó
còn tốt hơn cả ảnh gốc. Tuy nhiên, nếu ta cho rằng ảnh gốc là hoàn hảo (như phương
pháp ta đã làm) thì hoàn toàn có lý khi 2a có giá trị chất lượng cao hơn. Chỉ một số ít
các ảnh được đưa ra trong bài báo này vì lý do giới hạn. Các ảnh thể hiện và cài đặt
thuật toán MATLAB hiệu quả có tại http://anchovy.ece.utexas.edu/~zwang/re-
search/quality_index/demo.html – nơi chúng tôi cố gắng thể hiện một đặc tính tổng
quát bằng việc so sánh kết qua tính trên các ảnh khác nhau với các loại và lớp ảnh
nhiễu khác nhau.
IV. Kết luận và thảo luận
Một phương pháp đánh giá chất lượng ảnh mới được đề xuất. Các kết quả thí nghiệm
của chúng tôi chỉ ra rằng nó cho ra kết quả MSE tốt trong nhiều loại nhiễu ảnh khác
nhau. Có lẽ một thuật toán đánh giá chất lượng đơn giản với kết quả tốt như vậy sẽ
gây ra ngạc nhiên mà không cần cài đặt mô hình HVS. Chúng tôi nghĩ thành công này
có được bởi vì khả năng đánh giá thông tin mất mát trong quá trình nhiễu ảnh là rất
lớn (mạnh). Phương pháp này hoàn toàn khác biệt với MSE – đánh giá dựa trên
cường độ lỗi, thay vì các thông tin thực bị mất. Trong tương lai, các thí nghiệm đầy
đủ hơn cần được tiến hành để đánh giá phương pháp mới.
Không nghi ngờ rằng mô hình hóa chính xác hơn của HVS thì luôn có lợi ích trong
thiết kế các phương pháp đo chất lượng ảnh. Tuy nhiên, nếu không có framework
toán học được xác định chặt chữ thì những nỗ lực trong mô hình hóa HVS sẽ không
đưa lại kết quả thành công. Ví dụ, tổng lỗi trong độ đo Minkowski:
1

Er = (∑ sk − s 'k )
β β
(4)
k
hoặc tương đương nó được sử dụng rộng rãi trong các mô hình đánh giá chất lượng
ảnh và video trước đây, trong đó β là hằng số trong khoảng giá trị từ 1 đến 4, sk và
s 'k là các thành phần ảnh tương ứng ( trong các định dạng ảnh khác nhau thì đó là giá
trị pixel, giá trị trọng số pixel, hệ số DCT có trọng số và hệ số gợn có trọng số) của
ảnh gốc và ảnh được kiểm tra. Chúng tôi cho rằng đây không phải là cách đánh giá
chất lượng ảnh toán học thích hợp, bởi sự khác nhau của ảnh không được thể hiện đầy
đủ qua sự tương quan giữa sk và s 'k - những bằng chứng đưa ra được cho là rất quan
trọng. Chúng tôi tin tưởng rằng ý kiến cơ bản được giới thiệu trong bài báo này là một
điểm khởi đầu đầy hứa hẹn cho sự phát triển các phương pháp đánh giá chất lượng
ảnh và video trong tương lai.

x = { xi i = 1, 2,..., N }
y = { yi i = 1, 2,..., N }
vw
4σ xy xy
Q=
(σ x
2
)
+σ y 2 ( x ) + ( y ) 

2 2

vw
4σ xy xy
Q=
(σ x
2
+ σ y 2 ) ( x ) + ( y ) 

2 2

1 N
x= ∑ xi
N i =1
1 N
y = ∑ yi
N i =1
1 N
∑ ( xi − x )
2
σ x2 =
N − 1 i =1
1 N
∑ ( yi − y )
2
σ y2 =
N − 1 i =1
1 N
σ xy = ∑ ( xi − x ) ( yi − y )
N − 1 i =1

You might also like