Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 161

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC KINH TẾ - KỸ THUẬT CÔNG NGHIỆP


KHOA CÔNG NGHỆ THÔNG TIN

BÀI GIẢNG
TRUYỀN THÔNG ĐA PHƯƠNG TIỆN

Đối tượng: HSSV trình độ Đại học, Cao đẳng, TCCN


Ngành đào tạo: Công nghệ thông tin

Lưu hành nội bộ


MỤC LỤC

LỜI GIỚI THIỆU ....................................................................................................1


Chương 1. NHẬP MÔN MULTIMEDIA ................................................................
1.1. Tổng quan ............................................................................................................
1.2. Mô hình truyền thông con người .......................................................................
1.2.1. Hệ thống vật lý ...................................................................................................
1.2.2. Sự mã hóa đơn giản ............................................................................................
1.2.3. Sự cảm nhận .......................................................................................................
1.2.4. Bộ nhớ ................................................................................................................
1.2.5. Hệ thống nhận thức ............................................................................................
1.2.6. Hệ thống nhớ ......................................................................................................
1.3. Ước lượng và hội tụ .............................................................................................
1.3.1. Sự hội tụ của viễn thông và tin học ....................................................................
1.3.2. Các kiến trúc cho các ứng dụng mạng ...............................................................
1.3.3. Mạng máy tính ...................................................................................................
1.3.4. Tích hợp .............................................................................................................
1.3.5. Tính toán có thể vận chuyển được......................................................................
1.3.6. Các trình ẩn thông minh .....................................................................................
1.3.7. Sự hội tụ .............................................................................................................
Chương 2. KHÁI NIỆM CHUNG VỀ ÂM THANH AUDIO VÀ VIDEO ...........
2.1. Kỹ thuật Audio ....................................................................................................
2.1.1. Khái niệm ...........................................................................................................
2.1.2. Ứng dụng ............................................................................................................
2.1.3. Kỹ thuật Audio số ..............................................................................................
2.1.4. Giới thiệu về âm thanh và hệ thống xử lý âm thanh ..........................................
2.1.5. Một số khái niệm toán học trong xử lý âm thanh ..............................................
2.1.6. Các mô hình dùng trong xử lý âm thanh ............................................................
2.2. Kỹ thuật Video ....................................................................................................
2.2.1. Tổng quan về xử lý ảnh và video số ..................................................................
2.2.2. Khái niệm cơ bản về xử lý ảnh ..........................................................................
2.2.3. Các phần tử cơ bản của hệ thống xử lý ảnh số ...................................................
2.2.4. Lý thuyết toán ứng dụng trong xử lý ảnh và video số ........................................

2
Chương 3. NGUYÊN LÝ, KỸ THUẬT VÀ CÁC CHUẨN NÉN DỮ LIỆU
MULTIMEDIA: ÂM THANH, HÌNH ẢNH, VIDEO KỸ THUẬT SỐ ...............
3.1. Công nghệ đường truyền tốc độ cao .................................................................
3.2. Mạng đa phương tiện, các công nghệ và kiến trúc. ..........................................
3.3. Các giao thức truyền thông đa phương tiện thời gian thực ............................
3.4. Nguyên lý nén dữ liệu .........................................................................................
3.5. Lượng tử hóa ảnh (Image Quantization) ..........................................................
3.6. Các phương pháp mã hóa (Shannon – fano và Huffman) ...............................
3.7. Kỹ thuật nén ảnh, video ......................................................................................
3.7.1. Kỹ thuật nén ảnh JPEG ......................................................................................
3.7.2. Chuẩn nén MPEG, chuẩn H.26X .......................................................................
Chương 4. BẢO ĐẢM CHẤT LƯỢNG DỊCH VỤ (QoS) TRUYỀN THÔNG ĐA
PHƯƠNG TIỆN .........................................................................................................
4.1. Các loại dịch vụ cơ bản và yêu cầu chung của chúng về chát lượng dịch vụ.
4.1.1. Dịch vụ thoại/telex/Fax/nhắn tin ........................................................................
4.1.2. Dịch vụ truyền thông đa phương tiện .................................................................
4.2. Nhu cầu và xu hướng phát triển của các loại dịch vụ truyền thông đa phương
tiện ...............................................................................................................................
4.2.1. Dịch vụ VoIP ......................................................................................................
4.2.2. Dịch vụ Video thời gian thực .............................................................................
4.2.3. Dịch vụ VPN ......................................................................................................
4.2.4. Tích hợp dịch vụ viễn thông trên mạng truyền hình cáp (CATV) .....................
4.2.5. Dịch vụ trực tuyến (Online services) .................................................................
4.2.6. Thông tin cá nhân toàn cầu - Dịch vụ cho tương lai...........................................
Chương 5. MỘT SỐ ỨNG DỤNG MULTIMEDIA.................................................
5.1. Mạng thông tin toàn cầu......................................................................................
5.2. Hệ thống hội thảo truyền hình (Videoconference Systems).............................
5.3. Hệ thống truyền hình theo yêu cầu (Video-on-demand System).....................
TÀI LIỆU THAM KHẢO .........................................................................................
DANH MỤC TỪ KHÓA ...........................................................................................

3
Chương 1 : NHẬP MÔN MULTIMEDIA

1.1. Tổng quan


Sản phẩm của công nghệ Multimedia đã và đang xâm nhập ngày càng sâu, rộng
vào mọi lĩnh vực của đời sống xã hội. Có thể nói các sản phẩm của công nghệ có mặt
ở khắp mọi nơi, từ công sở đến gia đình. Nó xuất hiện trong nhiều lĩnh vực từ giáo
dục, y tế, đến vui chơi giải trí, nghiên cứu khoa học v..v..
Sức mạnh của các sản phẩm do công nghệ Multimedia mang lại là sự đa dạng
phong phú của các dạng thông tin. Người ta có thể thu nhận, sử lý thông tin thông qua
thị giác, thính giác nhờ âm thanh, hình ảnh, văn bản mà công nghệ Multimedia mang
lại. Điều này làm cho hiệu quả thu nhận, sử lý thông tin cao hơn so với thông tin chỉ ở
dạng văn bản.
Ý tưởng đặt nền móng cho lĩnh vực công nghệ này đã có từ năm 1945. Ông
Vanner Brush ,giám đốc cơ quan nghiên cứu phát triển khoa học của chính phủ Mỹ
lúc bấy giờ (Director ofthe office Scientific Research and Development in the US
Gouverment) đã đưa ra câu hỏi là, liệu có thể chế tạo được loại thiết bị cho phép lưu
trữ các dạng thông tin để thay cho sách, nói một cách khác chẳng nhẽ mọi thông tin
chỉ có thể lưu trữ ở dạng sách ? Nhận thức được ý nghĩa quan trọng của loại thiết bị có
tính chất trên, hàng loạt các nhà khoa học, công nghệ đã tập trung nghiên cứu. Nó là
cở sở hay nền tảng của công nghệ Multimedia ngày nay.
Năm 1960 Ted Nelson và Andrries Van Dam đã công bố công trình nói về kỹ
thuật truy nhập dữ liệu dưới cái tên gọi Hypertext và Hypermedia. Kỹ thuật này cho
đến nay vẫn được giữ nguyên tên và được sử dụng rộng rãi trong dịch vụ Web trên
Internet. Năm 1968 Engleband đã đưa ra được hệ thống sử dụng Hypertext trên máy
tính với cái tên NLS. Bộ quốc phòng Mỹ thành lập tổ chức DARPA (US deference
advanced Research Prọject Agency) để nghiên cứu về công nghệ Multimedia. Năm
1978 phòng thí nghiệm khổng lồ MIT Media Laboratory chuyên nghiên cứu về công
nghệ Multimedia được thành lập. Chỉ sau một thời gian ngắn hoạt động, nhận thức
được tầm quan trọng và ý nghĩa xã hội của công nghệ Multimedia, người ta đã đầu tư
gần 40 triệu USD cho phòng thí nghiệm này. Một loạt các công ty, các hãng lớn đã
cho ra đời các phòng thí nghiệm về Multimedia như AT & T, BELL, Olivity...Những
nỗ lực không ngừng của các nhà khoa học,công nghệ đã cho phep người ta gặt hái
được nhiều kết quả có tính chất nền móng cho lĩnh vực Multimedia .
Những kết quả này đa nhanh chóng được triển khai ứng dụng trong các lĩnh vực
truyền hình, viễn thông v.v...

4
1.2. Một vài khái niệm và định nghĩa
1.2.1. Dữ liệu Multimedia
Thông thường chúng ta thường ghi nhận thông tin ở dạng văn bản , các văn bản
này được mã hoá và lưu giữ trên máy tính, khi đó chúng ta có dữ liệu dạng văn bản.
Một câu hỏi đặt ra nếu thông tin chúng ta thu nhận được ở một dạng khác như âm
thanh (voice) , hình ảnh (Image) thì dữ liệu của nó ở dạng nào? Chính điều này dẫn
đến một khái niệm mới ta gọi đó là dữ liệu Multimedia.
Dữ liệu Multimedia là dữ liệu ở các dạng thông tin khác nhau.
Ví dụ dữ liệu Multimedia là các dữ liệu ở các dạng thông tin như
- Âm thanh (Sound)
- Hình ảnh (image)
-Văn bản (text).
- Kết hợp của cả ba dạng trên.
Khi nghiên cứu các dữ liệu ở các dạng thông tin trên, người ta nhận ra rằng cần
phải phân chia dữ liệu Multimedia nhỏ hơn nữa. Bởi vì dữ liệu ở các dạng âm thanh,
hình ảnh trong quá trình "vận động" theo thời gian có những tính chất rất khác so với
dạng tĩnh. Điều này đòi hỏi kỹ thuật, công nghệ xử lý rất khác nhau.Vì vậy trong lĩnh
vực công nghệ Multimedia người ta chia dữ liệu multimedia ở các dạng:
1. Văn bản (Text)
2. Âm thanh (sound)
3. Audio (âm thanh động, có làn điệu)
4. Image/ Picture (Hình ảnh)
5. Motion picture (ảnh động)
6. Video (ảnh động kết hợp âm thanh động)
7. Animation (hình ảnh sử dụng theo nguyên tắc chiếu phim)
8. AVI (Audio-Video Interleaved AVI)
9. Kết hợp giữa các dạng trên.
1.2.2. Công nghệ Multimedia
Một cách đơn giản công nghệ Multimedia là công nghệ xử lý dữ liệu multimedia
Chúng ta cần lưu ý rằng khái niệm xử lý dữ liệu trong công nghệ thông tin bao
hàm các công việc sau: mã hóa, lưu trữ, vận chuyển, biến đổi, thể hiện dữ liệu. Với ý
nghĩa đó công nghệ Multimedia là công nghệ mã hóa, lưu trữ, vận chuyển, biến đổi,
thể hiện dữ liệu multimedia.

5
1.2.3. Đồng bộ (synchronic)
Đồng bộ là khái niệm rất quan trọng trong công nghệ multimedia, vì chúng ta
biết rằng dữ liệu multimedia là dữ liệu của thông tin ở các dạng khác nhau, mỗi dạng
cần phải có thiết bị và công nghệ xử lý khác nhau, khi kết hợp chúng lại vấn đề đồng
bộ luôn được đặt ra. Chẳng hạn người ta không thể chấp nhận nghe tiếng súng nổ
trước khi thấy súng bắn. Khái niệm đồng bộ hay đồng bộ hóa (Sychronization) có ý
nghĩa quan trọng trong công nghệ multimedia. Vậy thế nào là đồng bộ? hay đồng bộ
hóa đó là quá trình sự sắp xếp các "sự kiện" theo trật tự thời gian sao cho các sự kiện
ở cùng trật tự thời gian phải xảy ra cùng một thời điểm.
Các đối tượng được xem xét trong lĩnh vực Multimedia có thể là các thiết bị vật
lý, cơ học và cũng có thể là các đối tượng trìu tượng được xem xét trong lĩnh vực lập
trình theo hướng đối tượng. Các "sự kiện" được xem xét trong lĩnh vực Multimedia có
thể là âm thanh, ánh sáng, mầu sắc... và thậm chí có thể là các vận động cơ học của
các thiết bị.
1.3. Mô hình truyền thông con người
Để dẫn nhập mô hình truyền thông của con người, chúng ta hãy xem xét các
thành phần hiển nhiên rõ ràng của truyền thông con người. Trong bất kỳ hội thoại/giao
tiếp nào giữa mọi người, hai kênh yếu tố khác trong hệ thống truyền thông là bộ nhớ
hay văn hóa biểu thị chia sẻ của nó. Mỗi một chúng ta đều có bộ nhớ. Nó cung cấp
môi trường suy nghĩ và văn hóa chia sẻ môi trường.
Các giao thức liên quan
Giải mã các khái niệm
Các khái niệm mã hóa
đến nhận thức
Các giao thức
Các xúc cảm mã hóa Giải mã các xúc cảm
xúc cảm
Mã hóa theo các từ Các giao thức Giải mã theo các từ
lời nói

Sự nhớ Sự nhớ
6
Nhận thức Nhận thức 5

Ký ức Ký ức 4
Cảm xúc Cảm xúc 3
Các ký hiệu Các ký hiệu 2

Thế giới vật lý


1

Các kênh truyền thông con người 1998 IEEE


6
Một số ví dụ ứng dụng Multimedia
- Hệ thống xây dựng và soạn thảo video số.
- Tạp chí điện tử
- Trò chơi
- Thương mại điện tử
- Truyền hình tương tác iTV
- Truyền hình hội nghị
- Truyền hình theo yêu cầu
- Thực tại ảo.

Các dạng môi trường và tín hiệu

Dạng môi trường

7
Audio synthesised
synthesis digital audio
III – CÁC LĨNH VỰC NGHIÊN CỨU ỨNG DỤNG
Chúng ta đã biết một cách tổng thể, công nghệ multimedia là công nghệ xử lý dữ
liệu multimedia, tuy nhiên chúng ta không biết trong công nghệ giải quyết những vấn
đề gì? nó phân chia thành bao nhiêu lĩnh vực nghiên cứu . Trong phần này chúng ta
xem xét một cách tổng thể cấu trúc bên trong của lĩnh vực công nghệ này. Sự đa dạng,
phong phú và sinh động của các ứng dụng công nghệ Multimedia khiến cho các học
giả quan tâm đến Multimedia, đến nay người ta vẫn còn tranh cãi về cách phân chia
các lĩnh vực nghiên cứu, ứng dụng của Multimedia. Dựa vào đặc thù của công nghệ
và đối tượng nghiên cứu, người ta đã tạm thống nhất cách phân chia công nghệ
Multimedia thành hai lĩnh vực chính sau:

- Trong các hệ thống thông tin Miltimedia (Multimedia information) lại bao gồm các
lĩnh vực:
 Mô hình hệ thống thông Tin Multimedia (model information multimedia)
Trong lĩnh vực này người ta giải quyết các vấn đề sau:
- Các cấu trúc logic của các tài liệu Multimedia (logical Structure of media document)
- Các phương thức để edit, Browse các tài liệu Multimedia
- Các quá trình tạo ra thông tin Multimedia
- Các dạng (Form) các công cụ (Tool) phục vụ cho xử lý dữ liệu Multimedia.
 Mô hình dữ liệu multimedia phân tán (Multimedia distributed processing
Model)
Trong lĩnh vực này người ta quan tâm đến các mục tiêu sau:

8
- Các ngôn ngữ lập trình thao tác trên dữ liệu là các tài liệu Multimedia.
- Kết hợp các chức năng cần thiết với các khái niệm lập trình các khái niệm cho phép
lập trình truy nhập vào các dữ liệu lưu trữ trên các thiết bị ngoại vi multimedia (Media
device control)
- Các dạng dữ liệu Multimedia và các dịch vụ cần trao đổi dữ liệu Multimedia
(Interchange)
- Quản trị các dịch vụ viễn thông ở mức cao.
- Các mô hình dữ liệu hypermedia, các máy chủ (server) đáp ứng dịch vụ hypermedia
(hypermedia engine)
- Các hệ điều hành mạng đáp ứng dịch vụ multimedia theo thời gian
thực
-Trong lĩnh vực các hệ thống viễn thông Multimedia (Multimedia Communication
Systems)
 Mô hình các dịch vụ multimedia trên mạng (Multiservice Network multimedia
Model)
Lĩnh vực này quan tâm nghiên cứu các vấn đề sau:
- Mạng đa dịch vụ (Multiservice) trên các hệ thống dữ liệu Multimedia phân tán
- Các giao thức (protocol) đáp ứng việc giao lưu giữa các mạng khác nhau có quản lý
dữ liệu Multimedia
- Trao đổi dữ liệu Multimedia trên internet
Mô hình hệ thống Multimedia hội nghị (Multimedia conferencing Model): Mô hình
này giải quyết các vấn đề kết nối máy tính với các hệ thống viễn thông, tạo nên một
hệ thống mạng không thiết kế trước, có khả năng đáp ứng các cuộc hội thảo, hội nghị
theo thời gian thực.
Chú ý:
- Ngoài các mô hình đã nêu còn có mô hình pha trộn kết hợp của các lĩnh vực
trên để tạo nên các mô hình đáp ứng các yêu cầu đa dạng của thực tế.
- Trong lĩnh vực Multimedia còn tồn tại các bài phức tạp còn phải nghiên cứu
trong tương lại như nhận dạng tiếng nói, nhận dạng ảnh v.v....

9
BÀI TẬP CHƯƠNG 1

1. Trình bày khái niệm Multimedia? Các khía cạnh liên quan đến multimedia? Cho ví
dụ?
2. Ảnh Bitmap là gì? Nêu đặc điểm của nó?
3. Trình bày các đặc trưng multimedia trên web?
4. Phân loại các phương pháp nén ảnh
5. Nêu các thành phần dữ liệu của multimedia?
6. Ảnh vector là gì? Nêu đặc điểm cảu chúng?
7. Trình bày quá trình phát triển một sản phẩm multimedia?
8. Vẽ sơ đồ khối của một hệ thống nén tiêu biểu, giải thích các thành phần cơ bản trên
sơ đồ?
9. Nêu ứng dụng của multimedia (Mua bán giao dịch qua mạng). Hãy nêu ứng dụng
của đa phương tiện trong công tác giáo dục, y tế, sản xuất?
10. Lịch sử phát triển của multimedia. (1975-1980-1987-1995)
11. Vẽ biểu đồ so sánh các khuôn dạng dữ liệu multimedia
12. Xác định những nét chính của sản phẩm multimedia.
13. Trình bày những yêu cầu về thử nghiệm sản phẩm?
14. Kịch bản là gì? Có các loại kịch bản nào? So sánh các loại kịch bản và cho ví dụ
minh họa về kịch bản chi tiết cho sản phẩm đa phương tiện?
15. Lí do cần đề cập thuật ngữ đa phương tiện?
16. Bố cục có vai trò quan trọng thế nào trong thiết kế sản phẩm đa phương tiện?
17. Hãy bố cục bàn làm việc, có máy tính, màn hình, văn phòng phẩm và tài liệu?
18. Thế nào là quá trình sản xuất đa phương tiện? Khâu nào là đặc biệt quan trọng?
19. Hãy cho biết một số khái niệm đơn giản về bản quyền và vi phạm bản quyền?
20. Vai trò của nội dung đa phương tiện?
21. Hãy cho biết một số mốc phát triển chính của nghiên cứu, ứng dụng về đa phương
tiện?
22. Hãy liệt kê một số kết quả nghiên cứu, ứng dụng về đa phương tiện mà các cơ sở
trong nước đạt được, trong thời gian 5 năm gần đây?
23. Hãy lấy ví dụ về tính chất đa phương tiện trong giao diện người dùng trong môi
trường Windows, với loại giao diện cửa sổ?
24. Hãy lấy ví dụ về tính chất đa phương tiện trong giao diện người dùng trong môi
trường Windows, với loại giao diện thực đơn?
25. Thiết kế sản phẩm đa phương tiện có nguyên tắc không? Khi thiết kế giao diện
khuôn dạng, người ta tuân theo những nguyên tắc nào?
26. Vai trò của con người trong tương tác với hệ thống sử dụng đa phương tiện?
27. Một số thiết bị dùng trong đa phương tiện, hay trong đa hình thái, như găng điện
tử, thiết bị thực ảo … có giá trị gì trong tương tác đa phương tiện?
28. Các loại dữ liệu đa phương tiện có cách thu nhập khác nhau ra sao?
29. Chuẩn bị thiết bị gì đề thu nhập dữ liệu đa phương tiện?
30. Vai trò lãnh đạo đề án đa phương tiện trong việc
a. Xây dựng đề án?
b. Quản lý tài chính?

10
31. Vai trò của người dùng trong việc xây dựng các điều khoản thực hiện của đề án đa
phương tiện?
32. Vai trò của bản quyền đối với
a. Người dùng đa phương tiện?
b. Người sản xuất đa phương tiện?
33. Việc tổ chức nhóm công tác trong đề án đa phương tiện theo nguyên tắc gì?
34. Một số vai trò trong đề án đa phương tiện?
35. Việc thay đổi nhân sự, đặc biệt các vai chủ chốt … sẽ ảnh hưởng đến quá trình
thực hiện đề án đa phương tiện ở khía cạnh nào?
36. Tích hợp dữ liệu đa phương tiện theo một số phần mềm khuyến cáo đáp ứng được
các nguyên tắc tích hợp nào? Lấy ví dụ?
37. Dữ liệu âm thanh thu thập khác âm thanh trong video ở đâu?
38. Dữ liệu video được mô tả dưới dạng nén, theo chuẩn thể hiện, và có dữ liệu meta
ra sao?
39. Phân biệt tiếp thị sản phẩm đa phương tiện với sản phẩm tin học thông thường?
40. Bố cục hình ảnh, văn bản trên giao diện người – máy có một số loại chính nào?
41. Người ta tạo hình đối tượng 3D theo mô hình nào?
42. Một số yêu cầu đặt ra đối với phòng thu âm, để đảm bảo chất lượng âm thành
trong sản phẩm đa phương tiện?
43. Thử nghiệm và đánh giá sản phẩm đa phương tiện có những lưu ý gì?
44. Khi làm tư liệu về đề án đa phương tiện, cần mô tả các khía cạnh nào?

11
Chương 2: KHÁI NIỆM CHUNG VỀ ÂM THANH AUDIO VÀ VIDEO
2.1 Kỹ thuật Audio
2.1.1 Khái niệm
Âm thanh (audio): là dao động các sóng âm gây ra áp lực làm dịch chuyển các
hạt vật chất trong môi trường đàn hồi làm tai người cảm nhận được các dao động này.
Tai người có thể nghe được các dao động trong khoảng tần số 20Hz đến 20kHz.
Âm thanh tự nhiên: Là sự kết hợp giữa các sóng âm mang tần số khác nhau.
Dải động của tai: Giới hạn bởi ngưỡng nghe thấy (0dB) đến ngưỡng đau
(120dB) của người.
Ngưỡng nghe tối thiểu: Mức thấp nhất của biên độ mà tai người có thể cảm
nhận được âm thanh tùy thuộc vào từng người, mức áp lực và tần số của âm thanh.
Hiệu ứng che khuất âm thanh: Hiện tượng âm thanh mà tại đó ngưỡng nghe của
một âm tăng lên trong khi có mặt của một âm khác (khó nghe hơn). Được sử dụng
trong kỹ thuật nén.
Hướng âm thanh: Tai và não có thể giúp ta xác định hướng âm thanh, điều này
có thể ứng dụng để tạo các hiệu ứng âm thanh như stereo, surround.
Vang và trễ: Vang là hiện tượng kéo dài âm thanh sau khi nguồn âm đã tắt. Trễ
là thời gian d âm thanh phản xạ đến đích so với âm thanh trực tiếp. Nếu d>50ms thì
trễ đó gọi là tiếng vọng. Biên độ của âm thanh cứ sau một lần phản xạ thì bị suy giảm.
2.1.2 Ứng dụng
Âm thanh đóng vai trò quan trọng trong các ứng dụng truyền thông đa phương
tiện.
Các hiệu ứng đặc biệt của âm thanh như âm nhạc và tiếng nói có thể được đưa
vào các ứng dụng, đặc biệt là các ứng dụng trong hệ thống đào tạo và bán hàng tự
động hoặc hệ thống điểm thông tin. Một lời chú thích bằng tiếng nói có thể được dùng
để diễn tả những gì đang diễn ra trên màn hình hoặc để làm nổi bật và nhấn mạnh
những khái niệm then chốt. Âm thanh có thể được sử dụng kết hợp với hình ảnh tĩnh
hoặc động để giải thích cho người sử dụng một ý tưởng hay một quy trình hiệu quả
hơn theo cách giải thích chỉ đơn giản bằng văn bản hay đồ họa, âm nhạc có thể được
sử dụng để thu hút sự chú ý của khách hàng hoặc để tạo ra một phong cách riêng biệt.
Trong một số lĩnh vực chuyên dụng tự âm thanh có thể hình thành nên sự lôi
cuốn của một ứng dụng truyền thông đa phương tiện, chẳng hạn như các hệ thống chỉ
đường cho người khiếm thị,... Một dự án mới đây đã giúp cho việc chuyển nhật báo

12
đến một thiết bị máy tính đặt tại nhà người đọc. Người sử dụng cũng có thể chọn nghe
hệ thống xử lý tiếng nói đọc lớn các bài báo đã được chọn lọc.
Công nghệ xử lý âm thanh ngày càng được cải tiến, mối quan tâm của người
dùng đến các hệ thống xử lý và nhận dạng tiếng nói trong các ứng dụng kinh doanh,
an ninh,...ngày càng tăng lên.
2.1.3 Kỹ thuật Audio số
Để máy tính làm việc được với âm thanh, chúng phải được chuyển thành tín hiệu
số (digital) từ tín hiệu tương tự (analog). Quá trình này gọi là "lấy mẫu" (sampling),
mỗi một phần của một thời gian lấy mẫu, tín hiệu tương tự được ghi nhận lại thành
những bit.
Có 2 yếu tố ảnh hưởng đến chất lượng âm thanh:
1. Tần số lấy mẫu:
 Tần số lấy mẫu là số lần mẫu được lấy trong một đơn vị thời gian.
 Tần số chung nhất là: 11.025 kHz, 22.05 kHz, và 44.1 kHz.
 Nếu tần số lấy mẫu cao hơn thì chất lương sẽ tốt hơn.
2. Số bit mã hoá (kích thước lấy mẫu):
Quyết định tổng lượng thông tin có thể biểu diễn (mã hoá).
Minh họa:

Tín hiệu analog và digital.


 Kích thước lấy mẫu thông thường là 8 bit và 16 bit.
 Kích thước lấy mẫu 8-bit cho 256 giá trị dùng để thể hiện âm thanh, nếu 16-bit
thì cho 65. 536 giá trị.
 Nếu kích thước lấy mẫu cao hơn thì chất lượng sẽ tốt hơn.
Kích thước file của 10 giây ứng với giá trị tần số và số bit:

Tần số Số Bit Kích thước File

44.1 kHz 16 1.76 MB

44.1 kHz 8 882 KB

22.05 kHz 16 882 KB

22.05 kHz 8 440 KB

13
11.025 kHz 8 220 KB

Sóng âm và cảm giác âm


Chuyển đổi

Analog-Digital

Xử lý, Lưu trữ, Truyền dẫn

(Digital)

Nguồn tín hiệu Chuyển đổi Xuất âm hiển


thị
(Analog) Analog-Digital
2.1.4 Giới thiệu về âm thanh và hệ thống xử lý âm thanh Analog
2.1.4.1. Âm thanh(Sound)
Âm thanh về mặt cảm giác đó là sự cảm nhận của con người thông qua thính
giác và bộ não. Âm thanh về mặt khoa học đó là sự vận động vật lý trong môi trường
trung gian của các nguyên tử theo dạng sóng, các sóng này có tần số thay đổi theo
thời gian. Người ta có thể mô tả chuyển động của sóng âm thanh bằng một đại lượng
liên tục theo thời gian, nói cách khác có thể mô tả âm thanh bằng đại lượng analog
theo cách sau:
Sóng âm thanh lan truyền trong không khí tác động lên vật chắn có nối với
nguồn điện, sóng âm thanh tạo nên áp suất thay đổi lên vật chắn làm cho điện thế V
của nguồn điện thay đổi liên tục - điện thế chính là biểu diễn sự thay đổi liên tục của
sóng âm thanh, người ta nói rằng đại lượng biểu diễn sự thay đổi của sóng âm thanh
theo thời gian là đại lượng analog (tương tự).

- Chu kỳ và tần số
Như chúng ta đã biết, đối với sóng âm có một số thuộc tính quan trọng sau: Chu
kỳ (period), tần số (frequence), tốc độ (speed), biên độ (amplitude),…
- Chu kỳ là khoảng thời gian xuất hiện liên tiếp của đỉnh sóng tại một điểm; kí
hiệu T

14
- Tần số là là số chu kỳ diễn ra trong một đơn vị thời gian tính theo giây. Đơn vị
của tần số tính bằng Hertz (Hz). Kí hiệu là f. Giữa chu kỳ và tần số có mối liên hệ sau:
T=1/f
- Tai người nhậy cảm với một dải rộng các tần số , bình thường từ 22Hz đến
22000 Hz điều này phụ thuộc vào sức khỏe người nghe. Dải tần từ 22Hz đến 22000
Hz gọi là dải nghe được. Tiếng nói con người thường nằm trong giải tần 500Hz đến
22000 Hz.
- Tốc độ âm thanh phụ thuộc vào môi trường nó lan truyền ví dụ nhiệt độ không
khí, ở nhiệt độ 20c sóng âm thanh lan truyền với tốc độ 343,8 met/s.
- độ rộng tần số (Banwithd ) : sự khác nhau giữa tần số cực đại và cực tiểu
- Biên độ (amplitude): là giá trị lớn nhất của hàm trong mọi chu kỳ;
Biên độ của sóng âm thanh là tính chất quan trọng, nhờ nó người ta cảm nhận
được độ to nhỏ (loudness) của âm thanh.
- Độ ồn của âm thanh: Độ ồn của âm thanh con người có thể cảm nhận được
bằng tai
Đơn vị đo tiếng ồn là decibel (db). Nó được xác định bởi

Ở đây
- P1,P2 là năng lượng được đo bằng watt, jul, gram.cm/s….. hay đại lượng vật
lý nào đó mà đơn vị đo của nó là năng lượng trên thời gian (power per time)
- Level – là mức độ ồn
2.1.4.2. Đặc tính của âm thanh tương tự
Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc
điểm của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được
đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để
biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.

Hình: Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người

15
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng
như trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí
khác nhau. Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí
(hoặc đôi khi là vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp
khi so sánh với nhau phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn
những thiết bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù
công nghệ có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin
được truyền đạt bằng thông số liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống
xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại
dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng
rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau
trong thực tế. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và
với chi phí thấp hơn.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có
thể
được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký
hiệu (symbol).
Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme).
Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ
30 đến 50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại
nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng
cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là
khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân,
như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh. Với
tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa
các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại
khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo
nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có
hai điều cần quan tâm chung là:
1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại
2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền
tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho
không làm giảm nghiêm trọng nội dung của thông điệp thoại.

16
Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể
được dễ dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự
động.
2.1.4.3. Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc
nhiều biến độc lập khác, ví dụ như:
 Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
 Hình ảnh: cường độ sáng theo không gian (x, y, z)
 Địa chấn: chấn động địa lý theo thời gian
 Biểu diễn toán học của tín hiệu: hàm theo biến độc lập
Ví dụ:
 u(t) = 2t2 − 5
 f (x, y) = x2 − 2xy − 6y2
Chú ý: Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm
sơ cấp, cho nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự
nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các
phép toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện
phép toán còn được gọi là xử lý tín hiệu.
2.1.4.4. Phân loại tín hiệu:
Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần ,cùng chung mô tả một đối
tượng nào đó (thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim
(ECG-ElectroCardioGram) , tín hiệu điện não (EEG – ElectroEncephaloGram), tín
hiệu ảnh màu RGB.
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu
hình ảnh, tín hiệu tivi trắng đen.
Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong
đoạn thời gian [a,b], ký hiệu x(t) .

17
Hình 1.2 Tín hiệu liên tục theo thời gian
Tín hiệu rời rạc thời gian: là tín hiệu chỉ được định nghĩa tại những thời điểm rời
rạc khác nhau, ký hiệu x(n) .

Hình 1.3 Tín hiệu rời rạc theo thời gian


Tín hiệu liên tục giá trị: là tín hiệu có thể nhận trị bất kỳ trong đoạn [ , ] min max
Y Y , ví dụ tín hiệu tương tự (analog).

Hình 1.4 Tín hiệu liên tục giá trị


Tín hiệu rời rạc giá trị: tín hiệu chỉ nhận trị trong một tập trị rời rạc định trước
(tín hiệu số).

18
Hình 1.5 Tín hiệu rời rạc giá trị
Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Hình 1.6 Tín hiệu analog


Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Hình 1.7 Tín hiệu số


Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước
được. Các tín hiệu trong tự nhiên thường thuộc nhóm này
Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác
định rõ, thông thường có công thức xác định rõ ràng.
2.1.4.5 Phân loại hệ thống xử lý:
Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống
xử lý số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt
với độ chính xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu,
nhược điểm là khó thực hiện với các tín hiệu có tần số cao.
2.1.5 Một số khái niệm toán học trong xử lý âm thanh
2.1.5.1 Phép biến đổi z
Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức

19
Biến đổi z của x(n) được định nghĩa bởi biểu thức (1.6a). X (z) còn được gọi là
dãy công suất vô hạn theo biến z−1 với các giá trị của x(n) chính là các hệ số của dãy
công suất.
Miền hội tụ ROC là { z X (z) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ,
hay nói cách khác

Thông thường, miền hội tụ của z có dạng:


Ví dụ: x(n) = (n-n0). Theo công thức (1.3a), ta có X(z)=z-n0
Ví dụ: Cho x(n) = u(n) − u(n − N) . Theo công thức (1.3a), ta có

Ví dụ: Cho x(n) = an. u(n). Suy ra ,


Bảng 2.1 Chuỗi tín hiệu và biến đổi z tương ứng
Chuỗi tín hiệu Biến đổi z
1. Tuyến tính ax1 (n) + bx2 (n) aX 1 ( z) + bX 2 ( z)

x(n + n0 ) n
2. Dịch z 0 X ( z)

3. Hàm mũ n −1
a x(n) X (a z)

4. Hàm tuyến tính nx(n)

5. Đảo thời gian x(-n) −1


X(z )
6. Tương quan x(n)*h(n) X(z)H(z)
7. Nhân chuỗi x(n)w(n)

2.1.5.2 Phép biến đổi Fourier


Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức

20
Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế
iw
z = e . Như mô tả trong Hình 1.4, trong mặt phẳng z, tần số w là góc quay. Điều kiện
đủ để tồn tại biến đổi Fourier là = 1, như vậy

Hình 1.15 Vòng tròn đơn vị thuộc mặt phẳng z


Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X (e iw ) là hàm
điều hòa w, với chu kỳ là 2π . Bằng cách thay z = eiw ở bảng 2.1, có có được bảng biến
đổi Fourier tương ứng.
2.1.5.3 Mô hình toán của sóng âm thanh
Như trên đã đề cập, đại lượng mô tả sự biến đổi của sóng âm thanh theo thời
gian là đại lượng liên tục, về nguyên tắc ta có thể coi nó là hàm phụ thuộc thời gian
g(t) liên tục theo t . Vì g(t) là hàm mô tả sự biến đổi của sóng, nên nó có chu kỳ T và
tần số f , nghĩa là:
- Tồn tại T : g(t+T)=g(t) với mọi t
- Tồn tại tần số f , G(f) là kết quả của phép biến đổi furie ngược của hàm g(t),
hàm G(f) là hàm phụ thuộc tần số;
- Giữa chu kỳ T và tần số f có quan hệ sau : T=1/f
Ví dụ 1 :
g(t)= sin(2ft)+1/3sin(2(3f)t)
Hàm g(t) là hàm tổng của hai hàm mô tả sóng hình sin , hàm thứ nhất có biên độ
1 tần số f, hàm thứ hai có biên độ 1/3 tần số 3f. Miền tần số của hàm g gồm 2 điểm
(f,1) và (3f,1/3) xen hình Hình dưới.

21
Ví dụ trên chỉ ra rằng hàm gốc g(t) tạo ra bởi hai tần số f, 3f tương ứng với biên
độ 1 và 1/3

hình H5
2.1.6 Các mô hình dùng trong xử lý âm thanh
2.1.6.1 Mô hình quang phổ
2.1.6.1.1 Mô hình sin
Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có
có dạng

Với = , và là thành phần biên độ và tần số tương ứng


của thành phần sin thứ i. Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời
gian thực, như vậy ta có thể viết lại

Với =
Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào
cũng có thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán
trong mô hình này.
Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta
tách việc xử lý riêng tín hiệu này thành phần xử lý Stochastic (Λ) được ký hiệu là e(n)
.

+ e(n) r A

22
Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng
lưu đồ ở hình 1. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt
của tổng hợp mô hình phổ - spectral modeling synthesis.

Hình: Phân tích các thành phần hình sin của phần stochastic
Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân
tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các
đỉnh tần số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức
phân tích được. Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ
dẫn” trong các khung STFT.
Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số
và pha phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai
tín hiệu đó được đơn giản, biên độ của các thành phần nên được nội suy giữa các
khung tín hiệu, và phép nội suy tuyến tính thường được sử dụng. Các tần số cũng như
pha của tín hiệu cũng có thể được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần
số có ảnh hưởng chặt chẽ đến phép nội suy pha.
Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần
sin có thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo
dao động bảng sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở
FFT. Kỹ thuật FFT được sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành
phần hình sin.
Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu
nhiễu thặng dư có thể được thực hiện ở miền tần (được mô tả trong hình 1) hoặc trực
tiếp từ miền thời gian.

23
Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic
được mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính.
Phổ cường độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của
hàm piecewise-linear. Việc tổng hợp trong miền thời gian có thể được thực hiện bằng
phép đảo FFT, sau khi đã ấn định được một tập cường độ mong muốn và một tập pha
ngẫu nhiên.
Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp
dụng việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 1.22 mô tả một
các bước thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc

Hình: Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
2.1.6.1.2 Tín hiệu sin + nhiễu + nốt đệm
Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của
nhiều tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó,
một thành phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu
chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần nốt
đệm để xét riêng. Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của một
nốt nhạc không làm ảnh hưởng đến chất lượng xử lý.
Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm được phát họa dùng
trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ
việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền
tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền
thời gian khi được ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có
thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ của việc
phân tích SNT được mô tả trong Hình dưới:

24
Hình: Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm
Khối DCT trong Hình 1.23 mô tả hoạt động của phép rời rạc cosin.
Phép biến đổi, được định nghĩa như sau:

Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và
ngược lại.
2.1.6.1.3 Mô hình LPC
Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp
LPC được mô tả trong lưu đồ trong Hình 1.24. Về bản chất, mô hình chính là giải
thuật trừ tổng hợp thực hiện một tính hiệu có phổ “đặc” được lọc bởi một bộ lọc cực.
Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua quá trình
phân tích, hoặc có thể dử dụng các thông tin của tín hiệu thoại/phi thoại.

Hình: Tổng hợp LPC


1.2.2.2 Mô hình miền thời gian
Việc mô tả âm thanh trong miền tần rất có hiệu quả, tuy nhiên trong một vài ứng
dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời
gian lại có ưu thế hơn.
1.2.2.2.1 Máy tạo dao động số
Ta nhận thấy một âm thanh phức tạp đuợc tổng hợp từ nhiều thành phần hình sin
bằng phép tổng hợp FTT-1. Nếu như các thành phần hình sin không quá nhiều, việc

25
tổng hợp từng thành phần được thực hiện bằng cách lấy giá trị trung bình của máy tạo
dao động số.

Với = xR(n) + jxI(n) ở dạng số phức, mỗi bước nhảy thời gian được định
nghĩa như sau:
xR(n+1) =
xI(n+1) =
Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu e jω0 0 và thực
hiện việc lệch pha vào số mũ. Tín hiệu xR(n +1) có thể được tính theo công thức sau
xR(n+1) = 2
Đáp ứng xung của bộ lọc như sau

Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị.
Gọi xR1, xR2 là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra xR,
pha ban đầu φ0 có thể được tính theo hệ phương trình sau
xR1 = sin(φ0 – ω0)
xR2 = sin(φ0− 2ω0)
Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối
với các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển
khai. Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:
Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó
đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng
mẫu trong miền thời gian
Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi
đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này.
1.2.2.2.2 Máy tạo dao động bảng sóng
Trong phương pháp kinh điển và linh động nhất về tổng hợp các dạng sóng có
chu kỳ (bao gồm tín hiệu dạng sin) là việc đọc lặp đi lặp lại một bảng chứa nội dung
của một dạng sóng đã được lưu trữ trước. Nếu dạng sóng được tổng hợp ở dạng sin,
đối xứng thì việc lưu trữ cho phép chỉ cần lưu trữ ¼ chu kỳ, và việc tính toán số học
sẽ được nội suy cho cả chu kỳ.
Đặt buf [ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng
sóng.
Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng
là bội số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó.

26
Gọi B là chiều dài của bộ đệm, trị của gia số I là:

Sự thay đổi tần số lấy mẫu


Bài toán thiết kế máy tạo dao động bảng sóng có thể chuyển thành bài toán thay
đổi tần số lấy mẫu, ví dụ như biến đổi tín hiệu được lấy mẫu tại tần số lấy mẫu Fs,1

thành tín hiệu được lấy mẫu tại tần số Fs,2 . Nếu với L và M là các số
nguyên tối giản, việc thực hiện thay đổi tần số lấy mẫu có thể được như hiện bằng các
bước:
1. Tăng tần số lấy mẫu bằng hệ số L
2. Sử dụng bộ lọc thông thấp
3. Giảm tần số lấy mẫu bằng hệ số M

Hình: Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu

Hình: Ví dụ về thay đổi tần số lấy mẫu với


1.2.2.2.3 Tổng hợp lấy mẫu bảng sóng

27
Tổng hợp lấy mẫu bảng sóng là phần mở rộng của máy dao động bảng sóng đối
với
• Dạng sóng phân tích không phải dạng sin
• Bảng dạng sóng được lưu trữ với nhiều chu kỳ
Các tín hiệu điều khiển rất quan trọng trong việc nhận được âm thanh tự nhiên
1.2.2.2.4 Tổng hợp hạt (với Giovanni De Poli)
Các bảng sóng ngắn có thể được đọc với nhiều tốc độ khác nhau, và kết quả là
âm điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền
thời gian, việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt
đầu từ ý tưởng việc phân tích âm thanh trong miền thời gian được thay thế bằng
biểu diễn chúng thành một chuỗi các thành phần ngắn được gọi là “hạt”. Các thông
số của kỹ thuật này là các dạng sóng của hạt thứ g k (⋅) , vị trí trong miền thời gian lk
và biên độ ak

s g (n) =
Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các
hạt và các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn
các thông số tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa
chọn các mô hình biểu diễn liên quan đến các quá trình hoạt động mà các quá trình
này có thể ảnh hưởng đến âm thanh nào đó theo nhiều cách khác nhau.
Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là
phân phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có
dạng

Với ω (i) là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và
d
băng tần phổ f
k

1.2.2.3 Các mô hình phi tuyến


1.2.2.3.1 Điều pha và điều tần
Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc
thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong
giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên
John Chowning. Về bản chất, Chowning đã thực hiện các nghiên cứu trên các phạm
vi khác nhau của việc tạo tiếng rung bằng các bộ tạo dao động đơn giản, và thu được
kết quả là các tần số rung nhanh sẽ tạo ra các thay đổi đầy kịch tính. Như vậy, điều
chế tần số của một máy tạo dao động cũng đủ tạo ra tín hiệu âm thanh có phổ phức
tạp. Mô hình FM của Chowning như sau:

28
x(n) = A sin(ωcn + I sin(ωmn)) = A sin(ωcn + φ (n)) m

Với ωc là tần số sóng mang và ωm là tần số điều chế, I là chỉ số điều chế.
Phương trình thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình
ω(n)= ωc - I ωmcos(ωmn)
Hoặc: f(n)=fc – Ifm cos(2πfmn)
Hình 1.27 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều
chế được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang
dùng để điều khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần
số điều chế và chỉ số điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở
phổ tần số của âm thanh kết quả.

Hình: Phần triển khai phân phối pd của điều pha.


Việc phân tích dựa trên đặc tính lượng giác
x(n) = A sin(ω n + I sin(ω n)
c m

Với J k (I ) là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 9
ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số
điều chế.

29
Hình 1.28 Các giá trị của hàm Bessel.
Băng thông có giá trị xấp xỉ bằng
BW = 2(I+0.240.27)m  2Im m

1.2.2.3.2 Méo phi tuyến


Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD)
rất đơn giản: ngõ ra của mạch tạo dao động được dùng như là thông số của một
hàm phi tuyến. Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong
một bảng, và ngõ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng.
Điều thú vị của NLD là lý thuyết này cho phép thiết kế một bảng méo cho bởi các đặc
điểm kỹ thuật của một phổ mong muốn.
Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau
x(n) = A cos(ω0 n)
y(n) = F (x(n))
Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n
được định nghĩa đệ quy như sau:
T0 ( x) = 1
T1 ( x) = x
Tn ( x) = 2xTn−1( x) − Tn−2( x) ,
và có tính chất:
Tn (cosθ ) = cos nθ

30
Như vậy, với tính chất (31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp
độ m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động: sinx(n) =cos0n, như
vậy y(n)=cos(m0n) là hàm bậc m của x.
Phổ của y(n) với:

là:

Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng
hợp, xử lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối
cộng hưởng một chiều
1.2.3 Mô hình thời gian rời rạc
Trong hầu hết các trường hợp liên quan đến xử lý thông tin, việc biểu diễn tín
hiệu sao cho đảm bảo tính tiện lợi trong phân tích mà vẫn không làm mất đi tính
chất của tín hiệu là điều mà các nhà khoa học quan tâm. Sóng âm thanh xuất phát từ
lời nói của người có tính chất tự nhiên và ngẫu nhiên nhất. Phân tích toán học thuận
tiện nhất là xem sóng âm thanh là một hàm số theo biến thời gian t . Ta ký hiệu
xa (t ) là dạng sóng tương tự theo thời gian t .

Hình: Biểu diễn tín hiệu âm thoại


Trong giáo trình này, ta dùng ký hiệu x(n) mô tả cho chuỗi số. Trong trường
hợp lấy mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu
của tín hiệu tương tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi
đó tín hiệu sau khi lấy mẫu được ký hiệu bởi xa (nT ) . Hình 1.1 mô tả một ví dụ của
việc tín hiệu âm thoại được biểu diễn ở cả hai dạng là tín hiệu tương tự và dạng chuỗi
các mẫu được lấy mẫu ở tần số là 8kHz.

31
Xung đơn vị được định nghĩa như sau:
δ (n) = 1 n=0

=0 ngược lại
Chuỗi bước đơn vị được ký hiệu
u(n) = 1 n ≥ 0
=0 n<0

Hàm mũ
n
x(n) = a
jw0
Nếu a ở dạng số phức, a = re , thì

32
Hình 1.30 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin
suy giảm

Hình 1.31 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn
ngõ vào/đa ngõ ra
Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng
một vector được mô tả như ở Hình 1.31.
Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý
tín hiệu âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, công thức h(n), khi
đó tín hiệu ngõ ra được tính bởi công thức

với * là phép chập hai tín hiệu


2.2 Kỹ thuật Video
2.2.1 Tổng quan về xử lý ảnh và video số
Xử lý ảnh số là lĩnh vực khoa học tương đối mới mẻ và được quan tâm nhiều
hiện nay. Hai ứng dụng cơ bản của xử lý ảnh là nâng cao chất lượng hình ảnh và xử lý
ảnh cũng như video số với mục đích lưu trữ hoặc truyền qua các hệ thống truyền dẫn
hình ảnh. Trong phần này, chúng ta sẽ đề cập tới nhưng vấn đề sau:
1- Giới thiệu khái niệm cơ bản về ảnh số và xử lý video số, xác định ranh giới
của lĩnh vực xử lý ảnh.
2- Giới thiệu các ứng dụng quan trọng của xử lý ảnh trong một số lĩnh vực khoa
học
3- Xác định các giai đoạn cơ bản trong quá trình xử lý ảnh;
4- Giới thiệu các thành phần của hệ thống xử lý ảnh tổng quát.
2.2.1.1. Khái niệm cơ bản về xử lý ảnh
Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là
tọa độ không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một
điểm được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại
điểm này. Nếu x,y,và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Xử

33
lý ảnh số là quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra
bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và có 1
giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel.
Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn
hảo, cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng
dụng quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm
nhận về sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác.
Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế
trong vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình
ảnh quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý
có thể được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia
gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể
tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm
vi tướng đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác.
Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật
toán xử lý như sau:
1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các
bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh.
Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh
quang học.
2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng
để phân lớp, phân đọan ảnh, xác định và dự đóan biên ảnh, nén anh để lưu trữ hoặc
truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là
hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc
luồng dữ liệu nhận được sau khi nén ảnh.
3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng
là quá trình xử lý được thực hiện trong hệ thống thì giác của con người.
2.2.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để
nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng
ảnh quang học trong mắt người quan sát. Thời gian gần đây, phạm vi ứng dụng xử lý
ảnh mở rộng không ngừng, có thể nói hiện không có lĩnh vực khoa học nào không sử
dụng các thành tựu của công nghệ xử lý ảnh số. Trong y học các thuật tóan xử lý ảnh
cho phép biến đổi hình ảnh được tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu
âm thành hình ảnh quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn
hình hiển thị. Hình ảnh các cơ quan chức năng của con người sau đó có thể được xử lý
tiếp để nâng cao độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt lớp) hoặc
tạo ra hình ảnh trong không gian ba chiều (siêu âm 3 chiều).

34
Trong lĩnh vực địa chất, hình ảnh nhận được từ vệ tinh có thể được phân tích để
xác định cấu trúc bề mặt trái đất. Kỹ thuật làm nổi đường biên (image enhancement)
và khôi phục hình ảnh (image restoration) cho phép nâng cao chất lượng ảnh vệ tinh
và tạo ra các bản đồ địa hình 3-D với độ chính xác cao.

Hình 2.1.1 Ảnh nhận được từ vệ tinh dùng trong khí tượng học
Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết
cũng được xử lý, nâng cao chất lượng và ghép hình để tạo ra ảnh bề mặt trái đất trên
một vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời tiết một cách chính xác
hơn. Dựa trên các kết quả phân tích ảnh vệ tinh tại các khu vục đông dân cư còn có
thể dự đóan quá trình tăng trưởng dân số, tốc độ ô nhiễm môi trường cũng như các
yếu tố ảnh hưởng tới môi trường sinh thái. Ảnh chụp từ vệ tinh có thể thu được thông
qua các thiết bị ghi hình cảm nhận được tia sáng quang học (λ = 450 − 520 nm) (hình
2a), hoặc tia hồng ngoại (λ = 760 − 900 nm) (hình2b). Trên hình 2a và 2b lần lượt là
ảnh bề mặt trái đất nhận được từ 2 ống ghi hình nói trên, dễ dàng nhận thấy sự khác
biệt rõ ràng giữa hai ảnh. Đặc biệt trên ảnh 2b, hình con sông được tách biệt rất rõ
ràng so với vùng ảnh hai bên bờ. Thiết bị thu hình nhạy cảm với vật thể bức xạ các tia
trong miền hồng ngoại sẽ cho ra những bức ảnh trong đó vật thể có nhiệt độ thấp sẽ
được phân biệt rõ ràng so với vật thể có nhiệt độ cao hơn. Như vậy việc lựa chọn các
thiết bị ghi hình khác nhau sẽ tạo ra ảnh có đặc tính khác nhau, tùy thuộc vào mục
đích sử dụng trong các lĩnh vực khoa học cụ thể .

35
2.2.1a 2.2.1b
Hình 2.1.2 - Ảnh bề mặt trái đất thu được từ hai camera khác nhau
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số
lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để
phát hiện bọt khí bên vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu
chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ thống đếm sản phẩm thông qua
hình ảnh nhận được từ camera quan sát.
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo
mật hoặc kiểm soát truy cập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay
khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu
quả hệ thống bảo mật cá nhân cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các
ứng dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời
sống như tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhìn công nghiệp
trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong
mạng viễn thông v.v.
2.2.1.3. Các giai đoạn chính trong xử lý ảnh
1- Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong tòan bộ
quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại
các giai đoạn sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý
tiếp theo sẽ bị giảm.
Thiết bị thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon
v.v.) hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device).
2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng
ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản,
làm nổi đường biên, khử nhiễu v.v.
3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt.
Đây là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực
hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức

36
tạp, còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đọan sai
thì kết quả nhận được cuối cùng sẽ không chính xác.
4- Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đoạn hình ảnh. Các
vật thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên
ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương
pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý
vào hình dạng bên ngòai của chi tiết ảnh như độ cong, các góc cạnh v.v. Biểu diễn
vùng thường được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh
như đường vân (texture) hay hình dạng skeletal.
5- Nén ảnh - bao gồm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để
lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình
ảnh số.
6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật
thể đó (ví dụ các phương tiện giao thông có trong ảnh).
Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều
khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể
đơn giản như vị trí vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu
nhỏ vùng tìm kiếm.
Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư
hỏng có thể gặp trong quá trình kiểm sóat chất lượng thành phẩm hoặc các ảnh vệ tinh
có độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong một vùng.
Ngoài việc điều khiển họat động của từng modul xử lý ảnh (hình 2.1.3), cơ sở kiến
thức còn sử dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hình
2.1.3, quá trình điều khiển nói trên được biểu diễn bằng mũi tên hai chiều.

37
Hình 2.1.3 Các giai đoạn xử lý ảnh số
2.2.1.4. Các phần tử cơ bản của hệ thống xử lý ảnh số
Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý
ảnh đề cập ở trên được mô tả trên hình 2.1.4.

Hình 2.1.4 Các thành phần chính của hệ thống xử lý ảnh


Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi
hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng
số. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng
ngoại. Hai loại thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn
ghi hình điện tử và chip CCD (Charge Couple Device – linh kiện ghép điện tích).
Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng
tương đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước
nhỏ gọn (đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử
dụng. Đèn hình này sử dụng nguyên lý hiệu ứng quang điện trong và nguyên lý tích
lũy điện tích.
Chip CCD là linh kiện bán dẫn có khả năng
biến đổi năng lượng quang phổ thành tín hiệu
điện. Thành phần chính của chip CCD là
các tụ điện MOS (Metal-Oxide-
Semiconductor). Tụ điện MOS được hình thành

38
bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp SiO2 và một má
tụ bằng lớp bán dẫn loại p hoặc n (hình 2.1.5).
Hình 2.1.5 Cấu trúc tụ điện MOS
Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn
trên hình 2.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm
trên hình ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD có
thể chia ra làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều).
Trên Hình 2.1.6a là cấu trúc chip CCD dạng chuỗi, quá trình ghi (tích điện) và
đọc được thực hiện tại hai khu vực khác nhau, gọi là miền tích điện và miền nhớ. Hai
khu vực trên được ngăn cách bởi cổng chuyển dịch. Sau khi kết thúc quá trình tích
điện tại các phần tử cảm quang, điện tích sẽ được truyền song song qua cổng chuyển
dịch vào thanh dịch ngang (không nhạy cảm với ánh sáng) tức miền nhớ. Sau khi
cổng chuyển dịch đóng lại, quá trình ghi và đọc tại hai miền nói trên sẽ được tiến
hành song song.

Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình
2.16b). Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình
“đọc” tín hiệu được thực hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức
quá trình ghi và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch
chuyển từng ảnh. Khi sử dụng phương pháp này, trong chip CCD được thiết kế một
miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng miền tích lũy – là ma
trận các phần tử cảm quang.
Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá
trình ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ
được tiến hành song song.Từng dòng ảnh được dịch chuyển xuống thanh dịch ngang,
sau đó các gói điện tích ứng với các điểm trong dòng ảnh sẽ được đẩy ra lần lượt
khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới
từ miền tích lũy sẽ lại được chuyển về đây.Với những tính năng vượt trội trước ống

39
ghi hình điện tử cổ điển, linh kiện biến đổi - quang điện CCD được sử dụng rất rộng
rãi trong công nghệ truyền hình và ảnh số. Hầu hết các camera quay video dân dụng
và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở chip CCD.
Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng
rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen
trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ
~1MB. Để lưu một ảnh màu không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ
nhớ số trong hệ thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính
để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví
dụ 25 hình/s); 2- bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu
thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash v.v.. 3- Bộ
nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy
cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần (ROM) hoặc nhiều lần (ROM)
như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn
sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt,
giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ
nung nóng v.v.
Bộ xử lý ảnh chuyên dụng:
Xử dụng chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh
chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm
nổi đường bao, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tích hợp bộ
nhớ đệm có tốc độ cao.
Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng
cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu
video) thành hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là
đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal
Display). Đèn hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD
nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp.
Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều
khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.
2.2.1.5 Biểu diễn ảnh số
Trong phần này, chúng ta sẽ đề cập tới một số những kiến thức cơ bản và ký
hiệu được sử dụng trong lĩnh vực xử lý ảnh. Đó là các vấn đề về ánh sáng, màu sắc,
khả năng tiếp thu hình ảnh quanh học của hệ thống thị giác. Tiếp theo là quá trình
biến đổi ảnh analog thành tín hiệu ảnh số, cách biểu diễn hình ảnh số, ảnh hưởng của
quá trình lấy mẫu và lượng tử hóa tới chất lượng ảnh số. Ngoài ra, trong phần này sẽ
xét tới quan hệ tương quan giữa các điểm ảnh, những kiến thức cơ bản này sẽ được sử
dụng rộng rãi trong các phần sau của bài giảng này.

40
2.1.5.1 Ánh sáng, màu sắc và hình ảnh
Phổ của các sóng điện từ trong thiên nhiên trải dài từ tia gamma (10-12 m) đến
sóng radio (10-4-104 m). Mắt người chỉ cảm nhận được những sóng điện từ có bước
sóng từ 380nm (tia màu tím) đến 780 nm (tia màu đỏ) (hình 2.1.7).

Hình 2.1.7 Các màu quang phổ trong ánh sáng mặt trời
Các bức xạ điện từ đặc biệt nói trên được gọi là ánh sáng. Trong lĩnh vực xử lý
ảnh, người ta chỉ quan tâm đến phần năng lượng bức xạ mà mắt người cảm nhận
được. Các đại lượng trắc quang được sử dụng để đánh giá tính chất của nguồn sáng:
quang thông, độ sáng, độ rọi và độ chói. Để đánh giá được tác động của ánh sáng lên
mắt người, chúng ta phải lưu ý đến hai yếu tố quan trọng:
1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng
khác nhau.
Trên đồ thị độ nhạy của mắt người (Hình 2.1.8) ta thấy vùng lục – vàng (λ ~ 555
nm) là nơi nhậy cảm nhất của mắt.
2 – Mật độ phân bố công suất của các nguồn sáng trong thiên nhiên không đồng
đều trên trục tần số (hình 2.1.9).

Hình 2.1.8 Đáp ứng phổ (độ nhạy) của mắt người

41
Hình 2.1.9 Đồ thị phân bố công suất của các nguồn bức xạ:
1- Bầu trời phía bắc 2- Đèn điện 3- Mặt trời 4- Nguồn sáng đẳng năng E
Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân
bố công suất trên trục tần số ρ (λ ):
dP(λ )
ρ (λ ) = (Watt/μm)

λ - bước sóng (μm);
P(λ )– công suất nguồn bức xạ có bước sóng λ (Watt);
Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời,
áng sáng đèn đốt nóng v.v.) sẽ bằng:

Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta
đưa ra khái niệm quang thông F (lumen 1)

V (λ ) - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị).
Trên đồ thị V (λ ) (hình 2.1.8) ta thấy mắt người cảm nhận tốt nhất tia bức xạ có
bước sóng 555 nm, do đó V (555nm) = 1.
K là hệ số tỷ lệ giữa quang thông và công suất bức xạ.
Một số ví dụ về đơn vị quang thông:
1- Bóng đèn sợi tóc có thường có hệ số phát sáng là 8 – 15 lumen/watt, khi công
suất bóng là P=100 watt, quang thông của đèn sẽ bằng F  800 ÷1500 lumen .
2- Để có hình ảnh đủ độ chói trên màn hình 6x8m, quang thông của đèn chiếu
phải đạt là 8000 lumen.
Nói chung, quang thông của một nguồn sáng có thể phân bố không đồng đều
trong mọi phương hướng. Do đó ta định nghĩa đại lượng độ sáng I đặc trưng cho khả
năng phát sáng của nguồn sáng theo một hướng nào đó (hình 2.1.10):

42
(candela)
- góc khối; (sr-steradian)
` dF – quang thông truyền qua góc khối

Hình 2.1.10 Minh họa độ sáng của nguồn điểm


Góc khối lớn nhất là

, do đó độ sáng trung bình của nguồn điểm sẽ bằng toàn bộ


quang thông chia cho góc 4π:

Thí dụ: Bóng đèn sợi tóc công suất P=100 watt, F  800 ÷1500 lumen , sẽ cho
độ
sáng trung bình là:

candela
Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng.
Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng.
Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng:

(lux) (2.1.5)
1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng
1lumen.
Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (Hình 2.1.10). Diện tích bề
mặt hình cầu giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và
pháp tuyến dS0.

43
Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với
bình phương khoảng cách giữa nguồn sáng và bề mặt đó.
Bảng dưới đây cho ta độ rọi trong một số trường hợp:
Vật được rọi sáng Độ rọi (lx)

Màn hình chiếu bóng (kino) 40-200

Trường quay (studio) 2000

Trang sách lúc đọc 30

Vật thể trong bóng râm (ban ngày) 1000

Vật thể ngoài nắng 100000

Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc
trưng cho bề mặt được chiếu sáng).
Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức
độ sáng của nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ
chói sẽ bằng:
2
(candel / m )
Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2
và cường độ sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng)
Dưới đây là độ chói của một số nguồn sáng:
Bảng 2.1.2
Vật phát sáng Độ chói (cd/m2)
Màn hình chiếu phim 10-30

Bóng hình TV 40-80

Sợi tóc đèn chiếu sáng 5 106- 107


Mặt trời 1.5 109
2.2.4 Lý thuyết toán ứng dụng trong xử lý ảnh và video số
Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma
trận 2 chiều các bít. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các
phần tử ảnh (pixel). Đối với ảnh động video), kết quả quá trình số hóa sẽ là ma trận 3
chiều cho thấy phân bố các điểm ảnh trong không gian theo hàng và cột cũng như quá
trình biến đổi hình ảnh trong miền thời gian.

44
Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng
các thuật toán trong miền không gian và thời gian hoặc các thuật toán trong không
gian tín hiệu khác dựa trên phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier,
biến đổi Karhumen Loeve v.v. Trong phần này chúng ta sẽ làm quen với công cụ toán
học thường dùng để mô tả quá trình xử lý ảnh trong không gian và các phép biến đổi
không gian một và hai chiều (được sử dụng rộng rãi trong các hệ thống lọc và nén
ảnh).
Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ
minh họa một số phép biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa
trên phần mềm Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các
phép xử lý ma trận rất thích hợp cho việc mô tả các giải thuật xử lý ảnh số. Trong tài
liệu này, tác giả sử dụng Matlab 7.04 SP2. Dấu “>>” là ký hiệu khởi đầu 1 hàm trong
môi trường Matlab.
2.1.7.1 Các toán tử không gian
a) Hệ thống tuyến tính
Hệ thống xử lý tín hiệu số nói chung và xử lý ảnh nói riêng đều có thể được mô
tả thông qua phương trình sau:
y (m,n) = T [x (m,n)] (2.1.19)
x (m,n) - ảnh số đưa vào hệ thống (là tín hiệu 2 chiều);
y (m,n) - ảnh số tại đầu ra hệ thống;
T – toán tử đặc trưng của hệ thống.
Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính.
Hệ thống biểu diễn bởi (2.1) được gọi là tuyến tính khi và chỉ khi:
T(ax1 (m,n) + bx2(m,n)] = aT[x1 (m,n)] + bT[x2(m,n)]=
= ay1 (m,n) + by2(m,n) (2.1.20)
a và b là các hằng số bất kỳ.
Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các
phép dịch chuyển trong không gian, phép chập, các phép biến đổi cũng như nhiều quá
trình lọc tuyến tính mà chúng ta sẽ xét ở các chương sau.
b) Xung đơn vị trong không gian 2 chiều
Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh
trong không gian.
1 Khi m=n
0 Khi mn
là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian.

45
Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị được đưa vào
hệ thống: h[m,n] = T [δ (m,n)]
c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều
Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp
tổng quát, đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông
qua đáp ứng xung như sau:

Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh ra thông
qua ảnh gốc nói trên và đáp ứng xung của hệ thống sử dụng tích chập:

hay y (m,n) = x (m,n)  h(m,n) (2.1.24b)


2.1.7.2 Các phép tính với vector và ma trận
Đối với tín hiệu hình ảnh, các thuật toán nói trên thường được thực hiện trên ma
trận các điểm ảnh hai chiều, do đó phần này sẽ giới thiệu sơ lược về ma trận và các
phép toán thực hiện trên ma trận.
a) Vector
Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử f (n) với n=1,
2, ..., N sắp xếp theo cột dọc:

Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử f (n) với
n=1, 2, ...,N sắp xếp theo dòng ngang: h = [h(1),h(2)..h( j)..h(N)] (2.1.26)
b) Ma trận
Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2,..,M,
n=1,2,...,N được sắp xếp thành M hàng và N cột như sau:

(2.1.27)
Lưu ý rằng, trong Matlab, địa chỉ của mỗi điểm ảnh được xác định theo vị trí
hàng và cột trong ma trận của điểm ảnh đó, ví dụ F(2,1) là điểm ảnh nằm ở hàng thứ
2, cột thứ 1 trong ma trận F. Các biểu diễn này khác với phương pháp biểu diễn ảnh số
được xét ở phần .

46
Ma trận NxN được gọi là ma trận vuông cấp N.
Trong ma trận vuông, tập hợp các phần tử F(1,1), F(2,2),..., F(N,N) được gọi là
đường chéo chính, đường chéo còn lại gọi là đường chéo phụ.
Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận
chéo. Ma trận chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký
hiệu là In.
c) Cộng ma trận
Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C
cũng có kích thước MxN, các phần tử của C là: C(m,n) = A(m,n)+B(m,n).
d) Nhân ma trận
Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B.
Khi nhân ma trận A có kích thước MxP với B-PxN ta nhận được C có kích thước
MxN:

C(m,n) =
∑ A ( m, p )B ( p,n )(2.1.28) p=1

Tích của hai ma trận không có tính giao hoán.


Ví dụ 1.
Sử dụng Matlab để tạo ma trận và nhân ma trận

47
e) Ma trận nghịch đảo
Ma trận nghịch đảo của ma trận vuông A là ma trận A −1 nếu: AA−1 = I và
A−1A=I.
Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả
nghịch.

Ma trận đơn vị I có nghịch đảo là chính nó.


f) Ma trận chuyển vị
Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột
thành hàng và giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký
hiệu là AT .
Nếu A = AT, ma trận A được gọi là ma trận đối xứng. Ma trận nhận được
T
khi cộng A + AT và nhân AA là ma trận đối xứng.

g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1:


k = g Tf = f Tg

Ví dụ: x = [1 2 3] x
h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma
trận:

48
T
A=gf ,
A(m, n) = g ( m ) f ( n ) (2.1.30)

Ví dụ: x = x [1 3 4] =
i. Tích chập hai ma trận
Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và
bất biến quan hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô
tả theo (2.1.23):
N −1 N −1
y ( m, n ) = ∑ ∑ x ( l , k ) h ( m − l; n − k )

l =0 k =0 2.1.31)
Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu
diễn dưới dạng ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu
ta cần tìm tích chập hai ma trận. Tích chập hai ma trận kích thước M1 x N1 và M2 x
N2 sẽ là ma trận có kích thước:
( M 1 + M 2 − 1) × ( N 1 + N 2 − 1)

Ví dụ:

Hình 2.1.23 Tích chập hai ma trận

49
Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm
y(1,1) (Hình 2.1.23), các điểm ảnh không tồn tại trong x(m,n) phải được gán các giá
trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng 0, lặp lại các
giá trị mức xám trên đường biên của ảnh v.v. Ta sẽ xét các trường hợp này khi nói về
các phương pháp lọc ảnh 2.1.23), các điểm ảnh không tồn tại trong x(m,n) phải được
gán các giá trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng
0, lặp lại các giá trị mức xám trên đường biên của ảnh v.v. Ta sẽ xét các trường hợp
này khi nói về các phương pháp lọc ảnh
k. Biến đổi ma trận thành một vector (stacking operator)
Trong một số trường hợp, việc phân tích hình ảnh 2 chiều sẽ đơn giản hơn khi
ma trận Fcác điểm ảnh 2 chiều ( N1 × N 2 ) được biến đổi thành vector cột có kích
thước ( N1 N 2 ,1), để làm được như vậy, chúng ta sắp xếp lần lượt các cột (hay hàng)
của F thành 1 vector dài.
Thao tác trên có thể được mô tả thông qua vector v n (N2 x 1) và ma trận
Nn (N1x N2 x N1)
Ma trận F sẽ được biến đổi thành vector f như sau:

(2.1.34)
Biến đổi nghịch từ f thành F là:

∑ n

Sử dụng công thức (2.1.34) và (2.1.35) có thể dễ dàng xác định quan hệ
giữa hai phương pháp biểu diễn hình ảnh 2 chiều thông qua ma trận và vector.
Phương pháp biểu diễn dưới dạng vector giúp thu gọn đáng kể các công thức mô tả
quá trình xử lý ảnh và cho phép chúng ta áp dụng những phương pháp xử lý tín hiệu 1
chiều trong xử lý ảnh.

50
Ví dụ: Biến đổi ma trận F (3x3) thành vector f

= =
Tương tự ta có:

; 
2.3.2.1 Biến đổi cosin rời rạc DCT
Công đoạn đầu tiên của hầu hết các quá trình nén là xác định thông tin dư thừa
trong miền không gian của một mành hoặc một ảnh của tín hiệu video. Nén không
gian được thực hiện bởi phép biến đổi cosin rời rạc DCT (Discrete Cosine
Transform). DCT biến đổi dữ liệu dưới dạng biên độ thành dữ liệu dưới dạng tần số.
Mục đích của quá trình biến đổi là thay đổi dữ liệu biểu diễn thông tin: dữ liệu của
ảnh con tập trung vào một phần nhỏ các hệ số hàm truyền. Việc mã hóa và truyền chỉ
thực hiện đối với các hệ số năng lượng này, và có thể cho kết quả tốt khi tạo lại tín

51
hiệu video có chất lượng cao. DCT đã trở thành tiêu chuẩn quốc tế cho các hệ thống
mã chuyển vị bởi nó có đặc tính gói năng lượng tốt, cho kết quả là số thực và có các
thuật toán nhanh để thể hiện chúng.
Các phép tính DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu
chói Y và các khối tương ứng của tín hiệu hiệu màu. Việc chia hình ảnh thành các
block đã được thực
hiện ở khối tiền xử lý. Hiệu quả của việc chia này rất dễ thấy. Nếu ta tính toán
DCT trên toàn bộ frame thì ta xem như toàn bộ frame có độ dư thừa như nhau. Đối
với một hình ảnh thông thường, một vài vùng có một số lượng lớn các chi tiết và
các vùng khác có ít chi tiết . Nhờ đặc tính thay đổi của các ảnh khác nhau và các
phần khác nhau của cùng một ảnh, ta có thể cải thiện một cách đáng kể việc mã hóa
nếu biết tận dụng nó.
a) DCT một chiều
DCT một chiều biến đổi biên độ tín hiệu tại các điểm rời rạc theo thời gian hoặc
không gian thành chuỗi các hệ số rời rạc, mỗi hệ số biểu diễn biên độ của một thành
phần tần số nhất định có trong tín hiệu gốc. Hệ số đầu tiên biểu diễn mức DC trung
bình của tín hiệu. Từ trái sang phải, các hệ số thể hiện các thành phần tần số không
gian cao hơn của tín hiệu và được gọi là các hệ số AC. Thông thường, nhiều hệ số AC
có giá trị sẽ gần hoặc bằng 0.
Quá trình biến đổi DCT thuận (FDCT) được định nghĩa như sau:

Hàm biến đổi DCT ngược (một chiều):

Trong đó: X(k) là chuỗi kết quả.


x(m) là giá trị của mẫu m.
k-chỉ số của hệ số khai triển.
m-chỉ số của mẫu.
N- số mẫu có trong tín hiệu

b) DCT hai chiều

52
Để tách tương quan nội dung ảnh cao hơn, mã hóa DCT hai chiều (2-D) được
dùng cho các khối 8×8 giá trị các điểm chói. Quá trình biến đổi DCT tiến FDCT
(forward DCT) được định nghĩa như sau:

Trong đó:
f(j,k)- các mẫu gốc trong khối 8×8 pixel.

F(u,v)-các hệ số của khối DCT 8×8.


1/ nếu u, v = 0
C(u), C(v) =
1 nếu u, v  0
Phương trình trên là một liên kết của hai phương trình DCT một chiều, một cho
tần số ngang và một cho tần số đứng. Giá trị trung bình của block 8x8 chính là hệ số
thứ nhất (khi u,v= 0)

Phương trình này cộng tất cả các giá trị pixel trong khối 8×8 và chia kết quả cho
8. Kếtquả phép tính bằng 8 lần giá trị pixel trung bình trong khối. Do đó hệ số thứ
nhất được gọi là hệ số DC. Các hệ số khác, dưới giá trị thành phần một chiều, biểu
diễn các tần số cao hơn theo chiều dọc. Các hệ số ở về phía bên phải của thành phần
một chiều biểu thị các tần số cao hơn theo chiều ngang. Hệ số trên cùng ở cận phải
(0,7) sẽ đặc trưng cho tín hiệu có tần số caonhất theo phương nằm ngang của ma trận
8×8, và hệ số hàng cuối bên trái (7,0) sẽ đặc trưng cho tín hiệu có tần số cao nhất theo
phương thẳng đứng. Còn các hệ số khác ứng với những phối hợp khác nhau của các
tần số theo chiều dọc và chiều ngang.
Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch có thể tạo
lại các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau:

Như vậy, biến đổi DCT giống như biến đổi Fourier và các hệ số F(u,v) cũng
giống nhau về ý nghĩa. Nó biểu diễn phổ tần tín hiệu được biễu diễn bằng các mẫu
f(j,k). Bản thân phép biến đổi DCT không nén được số liệu, từ 64 mẫu ta nhận được
64 hệ số. Tuy nhiên, phép biến đổi DCT thay đổi phân bố giá trị các hệ số so với phân
bố các giá trị mẫu.

53
Do bản chất của tín hiệu video, phép biến đổi DCT cho ta giá trị DC tức F(0,0)
thường lớn nhất và các hệ số trực tiếp kề nó ứng với tần số thấp có giá trị nhỏ hơn,
các hệ số còn lại ứng với tần số cao có giá trị rất nhỏ.
Hình vẽ 2.3.4 là một ví dụ minh họa quá trình DCT hai chiều của một khối 8×8
điểm ảnh (chói) được trích ra từ một ảnh thực. Nếu dùng quá trình DCT cho các tín
hiệu số thành phần Y, CR,CB thì các tín hiệu CB,CR có biên độ cực đại ±128 ( giá trị
nhị phân trong hệ thống lấy mẫu 8 bit), còn tín hiệu Y có một khoảng cực đại từ 0 đến
255 giá trị nhị phân. Để đơn giản việc thiết kế bộ mã hóa DCT, tín hiệu Y được dịch
mức xuống dưới bằng cách trừ 128 từ từng giá trị pixel trong khối để có khoảng cực
đại của tín hiệu giống như đối với các tín hiệu CR và CB. Ở phần giải mã DCT, giá
trị này (128) được cộng vào các giá trị pixel chói. Giá trị hệ số DC của khối DCT có
một khoảng từ –1024 đến 1016.

Hình 2.3.4 Mã hóa khổi 8x8 bằng DCT 2 chiều

54
Đối với hệ số AC ( với u,v=1,2,...,7), C(u) và C(v)=1 và các giá trị cực đại của
nó nằm trong khoảng ±1020 theo phương trình FDCT. Khối 8×8 các giá trị của hệ số
DCT đưa ra 1 giá trị DC lớn (ví dụ =591), biểu diễn độ sáng trung bình của khối 8×8
và các giá trị rất nhỏ của các thành phần tần số cao theo chiều ngang và chiều đứng.
Nguyên tắc chung là nếu có sự thay đổi nhiều giá trị pixel-đến-pixel theo 1
chiều của khối pixel (ngang, đứng, chéo) sẽ tạo ra các giá trị hệ số cao theo các
chiều tương ứng của khối hệ số DCT.
Khi nén ảnh theo JPEG, ma trận các hệ số khai triển sau DCT phải được nhân
với bảng trọng số Q(u,v) để loại bỏ một phần các hệ số có biên độ nhỏ (thường là các
tàhnh phần cao tần). Trên Hình 2.3.5 mô tả quá trình biến đổi DCT từ ảnh gốc (a) và
ma trận hệ số DCT trước (b) và sau (d) khi nhân với Q(u,v) (c).

Hình 2.3.5 Khai triển DCT và bảng trọng số Q(u,v).


Ví dụ được trình bày trong hình vẽ 2.3.6, quá trình biến đổi DCT một khối pixel
có các giá trị pixels đen ( giá trị=0) và trắng (giá trị=255) xen kẽ. Sau khi giảm với –
128 thu được các giá trị pixels trong dải động +127 và –128. Đây là khối ảnh có sự
biến đổi lớn nhất về giá trị biên độ các điểm ảnh và các hệ số DCT kết quả xác định

55
nhận xét này. Mặc dù có nhiều hệ số tần số bằng 0, giá trị của các hệ số có tần số cao
đóng vai trò quan trọng trong việc tái tạo lại hình ảnh khi biến đổi DCT ngược.

Hình 2.3.6 Khai triển DCT cho khối ảnh có đọ chói dạng bàn cờ.
Tóm lại, DCT làm giảm độ tương quan không gian của thông tin trong block.
Điều đó cho phép biễu diễn thích hợp ở miền DCT do các hệ số DCT có xu hướng có
phần dư thừa ít hơn. Điều này có nghĩa là DCT gói một phần lớn năng lượng tín hiệu
vào các thành phần biến đổi có tần số tương đối thấp để lưu trữ hoặc truyền dẫn, tạo 0
và các giá trị rất thấp đối với thành phần tần số cao. Nhờ đặc tính của hệ thống nhìn
của mắt người, các hệ số DCT có thể được mã hóa phù hợp, chỉ các hệ số DCT
quan trọng nhất mới được mã hóa và truyền đi. DCT thuận kết hợp với DCT
nghịch sẽ không cho tổn thất nếu độ dài từ mã của hệ số là 13 đến 14 bits cho tín
hiệu video đầu vào được số hóa bằng các mẫu dài 8 bit. Nếu hệ số được lượng tử hóa
bằng 11 bit (hoặc ngắn hơn), thì nén bằng DCT sẽ có tổn hao.

56
BÀI TẬP CHƯƠNG 2

1.Nguyên lý cơ bản của nén cơ sở DTC (Discrete Cosine Transformation )?


2. Tóm tắt quá trình nén JPEG, khả năng chính của JPGE 2000 là gì?
3. Sự khác biệt chính giữa MPEG 4, với MPEG 1, 2, 3. Tại sao phù hợp vớiviệc
truy tìm chỉ mục video là gì?
4. Tại sao đưa ra MPEG 7, mục đích của MPEG 7 là gì?

57
Chương 3 : NGUYÊN LÝ, KỸ THUẬT VÀ CÁC CHUẨN NÉN DỮ LIỆU
MULTIMEDIA: ÂM THANH, AUDIO, HÌNH ẢNH, VIDEO KỸ THUẬT SỐ
3.1.Công nghệ đường truyền tốc độ cao
3.2 Mạng đa phương tiện, các công nghệ và kiến trúc.
3.3.Các giao thức truyền thông đa phương tiện thời gian thực
3.4. Nguyên lý nén dữ liệu
3.5. Lượng tử hóa ảnh (Image Quantization)
Lượng tử hóa ảnh là lượng tử hóa các hệ số F(u,v) sao cho làm giảm được số
lượng bit cần thiết. Các hệ số tương ứng với tần số thấp có các giá trị lớn hơn, và
như vậy nó chứa phần năng lượng chính của tín hiệu, do đó phải lượng tử hóa với độ
chính xác cao. Riêng hệ số một chiều đòi hỏi độ chính xác cao nhất, bởi lẽ nó biểu thị
giá trị độ chói trung bình của từng khối phần tử ảnh.
Bất kỳ một sai sót nào trong quá trình lượng tử hệ số một chiều đều có khả năng
nhận biết dễ dàng bởi nó làm thay đổi mức độ chói trung bình của khối. Ngược lại,
với các hệ số tương ứng với tần số cao và có các giá trị nhỏ, thì có thể biểu diễn lại
bằng tập giá trị nhỏ hơn hẳn các giá trị cho phép.
Chức năng cơ bản của bộ lượng tử hóa là chia các hệ số F(u,v) cho các hệ số ở
vị trí tương ứng trong bảng lượng tử Q(u,v) để biểu diễn số lần nhỏ hơn các giá trị
cho phép của hệ số DCT. Các hệ số có tần số thấp được chia cho các giá trị nhỏ, các
hệ số ứng với tần số cao được chia cho các giá trị lớn hơn. Sau đó, các hệ số được làm
tròn (bỏ đi các phần thập phân).
Kết quả ta nhận được bảng Fq(u,v) mới, trong đó phần lớn các hệ số có tần số
cao sẽ
bằng 0. Hệ số lượng tử hóa thuận được xác định theo biểu thức:

Các giá trị Fq(u,v) sẽ được mã hóa trong các công đoạn tiếp theo.
Cần phải xác định là trong quá trình lượng tử hóa có trọng số có xảy ra mất
thông tin, gây tổn hao. Đây là bước tổn hao duy nhất trong thuật toán nén. Mức độ
tổn hao phụ thuộc vào giá trị các hệ số trên bảng lượng tử. Sau khi nhân các hệ số
lượng tử hóa Fq(u,v) với Q(u,v) và biến đổi ngược DCT sẽ không nhận được block sơ
cấp các mẫu f(j,k). Tuy nhiên, trong trường hợp ảnh tự nhiên và lựa chọn các giá trị
Q(u,v) thích hợp, sự khác nhau sẽ nhỏ đến mức mà mắt người không phân biệt được
giữa ảnh gốc và ảnh biểu diễn.

58
Các thành phần DC và tần số thấp là các thông số nhạy cảm nhất của khối pixel
gốc. Hệ số DC sẽ được lượng tử với độ chính xác 12 bit nhằm tránh các nhiễu xuất
hiện giữa các khối điểm ảnh. Ngược lại, các hệ số tần số cao có thể lượng tử hóa thô
với độ chính xác 2 bit-do khả năng cảm nhận của mắt người giảm ở tần số cao. Theo
đó, hệ số chia trong bảng lượng tử hóa là nhỏ đối với các hệ số có tần số thấp và tăng
từ từ đối với các hệ số có tần số cao hơn.
Trong hình vẽ dưới đây, giá trị khối xác định cho phép các giá trị tín hiệu chói
và tín hiệu màu được lượng tử khác nhau. Nhiễu lượng tử đối với tín hiệu màu khó
nhìn thấy hơn đối với tín hiệu chói, cho nên có thể thực hiện lượng tử hóa thô tín hiệu
màu.
Như vậy, khối DCT đóng vai trò quan trọng trong quá trình lượng tử hóa khi
thiết kế hệ thống nén video vì nó ảnh hưởng trực tiếp đến việc cho lại chất lượng ảnh
khôi phục tốt hay xấu.

Hình 2.3.7 Các bảng lượng tử cho tín hiệu chói và màu theo chuẩn JPEG
Việc biến đổi sao cho chất lượng hình ảnh do mắt người cảm nhận tốt, phụ
thuộc vào các thành phần tần số và sự biến đổi chi tiết ảnh từng vùng trong miền
không gian. Các ảnh càng chi tiết thì hệ số thành phần tần số cao càng lớn.
3.6 Các phương pháp mã hóa (Shannon – fano và Huffman)
Entropi là khái niện trong lý thuyết thông tin do Shannon đưa ra vào năm 1948.
Có thể coi entropi là đại lượng đo thông tin hay còn gọi là độ bất định. Nó được tính
như một hàm phân bố xác suất.
Giả sử ta có một biến ngẫu nhiên X nhận các giá trị trên một tập hữu hạn theo
một phan bố xác suất p(X). Thông tin thu nhận được bởi một sự kiện xảy ra tuân theo
một phân bố p(X) là gì?. Tương tự, nếu sự kiện còn chưa xảy ra thì cái gì là độ đo bất
định và kết quả?. Đại lượng này được gọi là Entropy của X và được kí hiệu là H(X).

59
Nhận xét
Nhận thấy rằng, log2 pi không xác định nếu pi = 0. Bởi vậy đôi khi entropi đượ
định nghĩa là tổng tương ứng trên tất cả các xác suất khác 0. Vì
nên trên thực tế cũng không có trở ngại gì nếu cho p i =
0 với giá trị i nào đó. Tuy nhiên ta sẽ tuân theo giả định là khi tính ẻtropi của một
phân bố xác suất pi, tổng trên sẽ được lấy trên các chỉ số i sao cho p i  0. Ta cũng thấy
việc lựa chọn cơ số của logarit là tùy ý; cơ số này không nhất thiết phải là 2. Một cơ
số khác chỉ làm thay đổi giá trị của entropi đi một hằng số.
Chú ý rằng, nếu pi = 1/n với 1in thì H(X) = log2n. Cũng dễ dàng thấy rằng
H(X)≥0 và H(X) = 0 khi và chỉ khi pi =1 với một giá trị nào đó và Pj =0 với mọi j i.
Xét Entropi của các thành phần khác nhau của một hệ mật. ta có thể coi khóa là
một biến ngẫu nhiên K nhận các giá trị tuân theo phân bố xác suất p k và bởi vậy có thể
tính được H(K). Tượng tự ta có thể tính các entropi H(P) và H(C) theo các phân bố
các suất tương ứng của bản mã và bản rõ.
Ví dụ:
Giả sử ta có một biến ngẫu nhiên X có 3 giá trị có thể là x 1, x2, x3 với các xác
suất tương ứng bằng ½, ¼ và ¼. Cách mã hóa hiệu qur nhất của 3 biến là mã hóa x 1 là
0, mã của x2 là 10 và mã của x3 là 11.
Ta có: H(P) = -1/4log21/4 – 3/4log23/4
= -1/4(-2) – ¾(log23-2)
= 2 – 3/4log23
 0.81
Bằng các tính toán tương tự, ta có H(K) = 1.5 và H(C) = 1.85
Mã Huffman và Entropy
Trong phần này ta sẽ thảo luận về quan hệ giữa entropy và mã hóa Huffman
Ta coi X là biến ngẫu nhiên nhạn các giá trị trên một tập hữu hạn và p(X) là
phân bố xác suất tương ứng.
Một phép mã hóa X là một ánh xạ bất kỳ:
f: X  {0,1}*

60
Trong đó {0,1} kí hiệu tập tất cả các xâu hữu hạn các số 0 và 1. Với một danh
sách hữu hạn (hoặc một xâu) các biến cố x1, x2, ..., xn, ta có thể mở rộng phép mã hóa f
nhờ sử dụng định nghĩa sau:
f(x1, x2, ..., xn) = f(x1) f(xn)
Khi đó có thể coi f là ánh xạ:
f: X*  {0,1}*
Ta giả sử xâu x1 x2 ... xn được tạo ra từ một nguồn bất kì sao cho mỗi xi xảy ra
đều tusn theo phân bố xác suất trên X. Điều đó có nghĩa là xác xuất của một xâu bất kì
x1 x2 ... xn (không nhất thiết phân biệt) được tính bằng p(x1) x... x p(xn).
Ta dùng ánh xạ f để mã hóa các xâu, nhưng các xâu phải được giải mã một cách
duy nhất nên f nhất thiết phải là đơn ánh.
Ví dụ.
Giả sử X= {a, b, c, d}, xét 3 phép mã hóa sau:
f(a) = 1 f(b) = 10 f(c) = 100 f(d) = 1000
g(a) = 0 g(b) = 10 g(c) = 110 g(d) = 111
h(a) =0 h(b) =01 h(c) =10 h(d) =11
Có thể thấy rằng, f và b là các phép mã hóa đơn ánh, còn h không phải là một
đơn ánh. Một phép mã hóa bất kỳ dùng f có thể được giải mã bằng cách bắt đầu ở
điểm cuối và giải mã ngược trở lại: Mỗi lần gặp số ta sẽ biết vị trí kết thúc của phần tử
hiệ thời.
Phép mã dùng g có thể được giải mã bằng cách bắt đầu ở điểm đầu và xử lý liên
tiếp. Tại thời điểm bất kì mà ở đó có một dãy con là các kí tự mã của a, b, c hoaawcj d
thì có thể giải mã và có thể cắt ra khỏi dãy con. Ví dụ với xâu 10101110, ta có thể giải
mã 10 là b, 10 tiếp theo là b, 111 là d và cuối cùng 0 là a. Bởi vậy xâu đã giải mã là
bbda.
Để thấy rằng h không phải là một đơn ánh, chỉ cần xét ví dụ sau:
h(ac) = h(bc) = 010
Ta nhận thấy phép mã g tốt hơn f. sở dĩ như vậy vì nếu dùng g thì việc giải mã
có thể được làm liên tiếp từ đầu đến cuối và bởi vậy không cần phải có bộ nhớ. Tính
chất cho phép giải mã liên tiếp đơn giản của g được gọi là tính chất tiền tố độc lập
(một phép mã hóa g được gọi là có tiền tố độc lập nếu không tồn tại 2 phần tử x, y 
X và một xâu z {0,1} sao cho g(x) = g(y) z).
Ta sẽ đo tính hiệu quả của phép mã hóa f như đã làm ở trên: đó là độ dài trung
bình trọng số (được kí hiệu là l(f)) của phép mã háo một phần tử của X. Bởi vậy ta có
định nghĩa sau:

61
Trong đó là kí hiệu dộ dài xâu y. Nhiệm vụ bây giờ là phải tìm một phép mã
hóa đơn ánh sao cho tối thiểu hóa được l(f). Thuật toán Huffman nổi tiếng thực hiện
được mục đích này. Hơn nữa, phép mã háo f tạo bởi thuật toán Huffman là một phép
mã hóa có tiền tố độc lập và
H(X)  l(f)  H(X) +1
Như vậy, gí trị Entropy cho ta đánh giá khá chính xác về độ dài trung bình của
một phép mã hóa đơn ánh tối ưu.
Ta sẽ mô tả ngắn gọn hình thức hóa về thuật toán Huffman.
Thuật toán Huffman bất dàu với phan bố xác suất trên tập X và mã mỗi phần tử
ban đầu là trống. Trong mỗi bước lặp, hai phần tử có xác suất thấp nhất sẽ được kết
hợp thành một phần tử có xác suất bằng tổng của hai xác suất này. Trong 2 phần tử,
phần tử có xác suất nhỏ hơn sẽ được gán giá trị “0”, phần tử có giá trị lớn hơn sẽ được
gán giá trị “1”. Khi chỉ còn lại một phần tử thì mã của x  X sẽ được cấu trúc bằng
dãy các phần tử ngược từ cuối cùng tới phần tử ban đầu x.
Ta sẽ minh họa thuật toán này qua ví dụ sau:
Ví dụ:
Giả sử X = Ơa, b, c, d, e} có phân bố xác suất: p(a) = 0.05; p(b) =0.10; p(c)
=0.12; p(d) = 0.13 và p(e) = 0.60. Thuật toán Huffman được thực hiện như trong
bảng sau:

Điều này dẫn đến phép mã hóa sau:


x f(x)

a 000

b 001

c 010

d 011
62
Bởi vậy độ dài trung bình của phép mã hóa là:
l(f) = 0.05 x3 + 0.10 x 3 + 0.12 x3 + 0.13 x3 +0.60 x 1 = 1.8
So sánh giá trị này với entropy:
h(X) = 0.2161 + 0.3322 + 0.3671 + 0.3842 + 0.4422
= 1.7402
3.7 Kỹ thuật nén ảnh, video
Tín hiệu video sau khi được số hoá 8 bit có tốc độ 216 Mb/s. Để có thể truyền
trong một kênh truyền hình thông thường, tín hiệu video số cần phải được nén trong
khi vẫn phải đảm bảo chất lượng hình ảnh.
Nén video trong những năm 1950 được thực hiện bằng công nghệ tương tự với
tỷ số nén thấp. Ngày nay công nghệ nén đã đạt được những thành tựu cao hơn bằng
việc chuyển đổi tín hiệu video từ tương tự sang số. Công nghệ nén số (Digital
Compressed) đòi hỏi năng lực tính toán nhanh. Song ngày nay với sự phát triển của
công nghệ thông tin, điều này không còn trở ngại.
Như chúng ta biết tín hiệu video có dải phổ từ 0 – 6 MHz, tuy nhiên trong nhiều
trường hợp năng lượng phổ chủ yếu tập trung ở miền tần số thấp và chỉ có rất ít thông
tin chứa đựng ở miền tần số cao.
Đối với tín hiệu video số, số lượng bit được sử dụng để truyền tải thông tin đối
với mỗi miền tần số khác nhau, có nghĩa là: miền tần số thấp, nơi chứa đựng nhiều
thông tin, được sử dụng số lượng bít lớn hơn và miền tần số cao, nơi chứa đựng ít
thông tin, được sử dụng số lượng bít ít hơn. Tổng số bít cần thiết để truyền tải thông
tin về hình ảnh sẽ giảm một cách đáng kể và dòng dữ liệu được “nén ” mà chất lượng
hình ảnh vẫn đảm bảo. Thực chất của kỹ thuật “nén video số” là loại bỏ đi các thông
tin dư thừa. Các thông tin dư thừa trong nén video số thường là:
+ Độ dư thừa không gian giữa các pixel;
+ Độ dư thừa thời gian do các ảnh liên tiếp nhau;
+ Độ dư thừa do các thành phần màu biểu diễn từng pixel có độ tương quan cao;
+ Độ dư thừa thống kê do các kí hiệu xuất hiện trong dòng bít với xác suất xuất
hiện không đều nhau;
+ Độ dư thừa tâm lý thị giác (các thông tin nằm ngoài khả năng cảm nhận của
mắt).vv…
Như vậy, mục đích của nén tín hiệu video là :
- Giảm tốc độ dòng bít của tín hiệu gốc xuống một giá trị nhất định đủ để có thể
tái tạo ảnh khi giải nén;
- Giảm dung lượng dữ liệu trong lưu trữ cũng như giảm băng thông cần thiết;

63
- Tiết kiệm chi phí trong lưu trữ và truyền dẫn dữ liệu trong khi vẫn duy trì chất
lượng ảnh ở mức chấp nhận đựơc.
Với nguyên nhân và mục đích của việc nén tín hiệu được trình bày như ở trên,
ngày nay có nhiều các chuẩn nén đã ra đời như: JPEG, M-JPEG, MPEG, DV… Trong
đó chuẩn nén MPEG được sử dụng nhiều trong nén video trong truyền hình với thành
công của chuẩn nén video MPEG-2 trong truyền hình số và chuẩn nén MPEG-4 trong
truyền hình trên mạng Internet.

Hình 2.3.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu


3.8. Các phương pháp nén ảnh trong hệ thống video thời gian thực
Việc lựa chọn kỹ thuật nén phụ thuộc vào chất lượng ảnh và giới hạn thời gian
trễ. Các tiêu chuẩn về các hệ thống nén ảnh dựa trên tuỳ chọn này để đưa ra các chuẩn
phù hợp. Trong hệ thống truyền ảnh động (video), người ta thường sử dụng phương
pháp nén theo tiêu chuẩn MPEG (như MPEG-1, MPEG-2, MPEG-4). Trong đó, điểm
ảnh là thành phần cơ bản nhất và được nhóm thành từng khối 8 × 8 điểm ảnh (block),
một nhóm 4 × 4 block này hình thành một khối 16 × 16 điểm ảnh gọi là
Macroblock(MB). Một slice là một dãy các MB liên tiếp giữa hai ký hiệu đánh dấu tái
đồng bộ (sync.marker). Các thành phần cấu trúc cao hơn của chuỗi video là khung
ảnh (frame), đây chính là các ảnh thực sự của chuỗi video. Có 3 khung ảnh tiêu biểu:
khung I, khung P, và khung B. cuối cùng là nhóm các khung (GOP) bắt đầu với
khung I và kết thúc với khung P hoặc B.
3.9 Các tiêu chuẩn nén ảnh
Các tiêu chuẩn quan trọng bao gồm:
- JPEG: dùng cho nén ảnh tĩnh, phát triển bởi sự kết hợp giữa ITU-TS và ISO.
- MPEG-1, MPEG-2, MPEG-4, MPEG-7: do Ủy ban ISO
IEC/JTC1/SC29-
/WG11 phát triển cho mã hoá kết hợp giữa video và audio.
- H.261: do Nhóm nghiên cứu XI phát triển và được biết rộng rãi như tiêu
chuẩn mã hoá video cho các dịch vụ nghe nhìn tốc độ n × 64Kbps.
- ITU-TS H.263 cho các ứng dụng điện thoại thấy hình dưới tốc độ dưới
64Kbps.

64
Mặc dù các tiêu chuẩn được giới thiệu ở trên phù hợp cho từng loại ứng dụng
riêng biệt. Tuy nhiên, chúng cũng có chung các nguyên tắc cơ bản. Sự khác biệt
giữa các chuẩn phụ thuộc chủ yếu vào yêu cầu đặc biệt của từng ứng dụng. Trong
đó, tiêu chuẩn MPEG-4 được xem như một chuẩn tổng quát hoá của chuẩn H.263, vì
vậy, việc khảo sát dựa trên chuẩn này sẽ có tính chất áp dụng chung cho cả hai chuẩn.
3.7.1 Kỹ thuật nén ảnh JPEG
JPEG ( Joint Photographic Expert Group ) là tên của một tổ chức nghiên cứu
về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986,
JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Tiêu
chuẩn này có thể được ứng dụng trong nhiều lĩnh vực : lưu trữ ảnh, Fax màu, truyền
ảnh báo chí, ảnh cho y học, camera số v.v...
Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên
cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng ảnh
khôi phục khá tốt và ít tính toán hơn so với nén MPEG. Nén JPEG có thể thực hiện
bởi bốn mode mã hóa đó là:
a) Mã tuần tự (sequential DCT-based) : ảnh được mã hóa theo kiểu quét từ
trái qua phải, từ trên xuống dưới dựa trên khối DCT.
b) Mã hóa lũy tiến (progressive DCT-based) : ảnh được mã hóa bằng
kiểu quét phức hợp theo chế độ phân giải không gian cho các ứng dụng trên kiểu băng
hẹp và do đó thời gian truyền dẫn có dài.
c) Mã hóa không tổn thất (lossless) : ảnh được đảm bảo khôi phục chính
xác cho mỗi giá trị mẫu của nguồn. Thông tin không cần thiết sẽ mới cắt bỏ cho nên
hiệu quả nén thấp hơn so với phương pháp có tổn thất.
d) Mã hóa phân cấp (hierarchical) : ảnh được mã hóa ở chế độ phân giải
không gian phức hợp, để cho những ảnh có độ phân giải thấp có thể được truy xuất và
hiển thị mà không cần giải nén như những ảnh có độ phân giải trong không gian cao
hơn.

65
Hình 2.3.3 Sơ đồ mã hóa và giải mã theo JPEG
JPEG - viết tắt của nhóm từ Joint Photographic Experts Group. Nó được
CCITT(International Telegraph and Telephone Consultative Committee) công nhận
và đã được công nhận là chuẩn ISO năm 1991. Nó có các đặc điểm sau:
1. Tỷ lệ nén cao
2. sử dụng nhiều tham số để hiệu chỉnh các tỉ lệ nén, chất lượng nén
3. Rất tốt cho các loại ảnh đen trắng và các ảnh có tone thay đổi liên tục
4. Không quá phức tạp cho cả phần mềm và phần cứng.
Quá trình nén JPEG có thể tóm tắt gồm các bước sau :
1- Chuyển đổi không gian màu
- Chuyển ảnh từ không gian màu RGB sang không gian màu (brightness, Hue,
Saturation). Lý do mắt người nhận ra những thay đổi nhỏ của thành phần luminance
nhưng không nhậy cảm với sự thanh đổi của thành phần chrominance, người ta dựa
vào điều này để bỏ bớt dữ liệu của thành phần chrominance . Việc chuyển đổi không
gian màu trong Jpeg và Mpeg được thực hiện theo công thức sau :

66
sử dụng ba tham số Y, Cb, Cr ; Y ứng với brightness (Độ sáng, độ chói) Cb,Cr là
hai thành phần ứng với Hue (sắc màu) và Saturation(độ đậm nhạt). với y thuộc
khoảng [16, 235], khi đó việc chuyển không gian màu được thực hiện theo công thức
sau:
Y = (77/256)R + (150/256)G + (29/256)B,
Cb = −(44/256)R − (87/256)G + (131/256)B + 128,
Cr = (131/256)R − (110/256)G − (21/256)B + 128;
Phép chuyển ngược từ YCbCr theo công thức :
R=Y+1.371(Cr − 128) ;
G=Y − 0.698(Cr − 128) − 0.336(Cb − 128) ;
B=Y+1.732(Cb − 128).
2- Giảm độ phân giải
Sau khi chuyển đổi không gian màu , người ta giảm độ phân giải của ảnh gốc,
để làm giảm dữ liệu của thành phần Hue và Saturation. Việc làm này có thể theo các tỉ
lệ khác nhau. ví dụ độ phân giải có thể thay đổi theo tỉ lệ 2:1 giữa hàng và cột
3. – Chia ảnh thành các khối 8 x8
Ảnh màu được chia thành các khối 8 x8 , coi khối này là một đơn vị dữ liệu. các
đơn vị dữ liệu được nén riêng biệt. Trong trường hợp kích thước ảnh không là bội của
8, ta thêm hàng vào hàng cuối ảnh, thêm cột vào cột cuối bên phải.
4- Thực hiện biến đổi cosin trên sơ đồ zizag
Sử dụng phép biến đổi cosin để biến đổi trên khối 8 x8 ( đơn vị dữ liệu ).
Phép biến đổi dược thực hiện trên mảng 8 x 8 hay trên đơn vị dữ liệu ảnh theo
công thức sau :

Khi giải nén sử dụng phép biến đổi cosin ngược theo công thức

67
Để mã hóa entropy các hệ số được lượng tử hóa Fq(u,v), trước hết, cần biến
đổi mảng hai chiều của các hệ số Fq(u,v) thành chuỗi số một chiều bằng cách quét
zig-zag.
Việc xử lý 64 hệ số của khối 8x8 pixel bằng cách quét zig-zag làm tăng tối đa
chuỗi các giá trị 0 và do vậy làm tăng hiệu quả nén khi dùng RLC.

5.- Lượng hóa :


Sau khi biến đổi cosin trên các đơn vị dữ liệu ta nhận được dãy có 64 thành
phần , các thành phần này gọi là các hệ số lượng tử hay hệ số QC ( quantization
coefficient -QC) .Các hệ số QC được làm tròn về dạng số nguyên. Sau đó người sử
dụng nhiều kĩ thuật khác nhau để giảm kích thước dữ liệu của các thành phần này.
Chẳng hạn kỹ thuật lưu giữ sự sai khác tương đối của các hệ số QC hoặc sử dụng các
bảng lượng hóa màu đã được khuyến cáo bởi nhóm Jpeg.
6- Sử dụng kỹ thuật nén
Sử dụng kỹ thuật nén RLE hoặc mã Hufman, mã số học để mã các hệ số QC.
Mã số học được coi là kỹ thuật mã tối ưu.
2.3.2.11 Phương pháp nén ảnh động M – JPEG
M – JPEG là sự mở rộng của JPEG. Vì nén M – JPEG chỉ thực hiện trong mỗi
ảnh, điều đó dẫn đến hiệu quả (tỉ số nén) thấp hơn so với các phương pháp nén
ảnh động MPEG sẽ được xét sau đây.
Nén ảnh động theo phương pháp M – JPEG có dặc điểm như sau:

Tín hiệu 48 Mbit/s ( hệ số nén 3,5 ) cho kết quả ảnh rất tốt.
• Tín hiệu 36 Mbit/s ( hệ số nén 4,7 ) cho kết quả ảnh có nhiễu với mức độ
chất lượng nhất định.
• Tín hiệu 24 Mbit/s cho kết quả ảnh có nhiễu nhìn thấy, chất lượng ảnh
khôi phục không đủ dùng cho mục đích chuyên dùng.

68
Trong trường hợp nén với tỉ số cao sẽ xuất hiện các ô vuông ( Artifacts ) trên
ảnh khôi phục, đó là các đặc trưng của các hệ số DC. Nếu mã hóa nhiều lần thì hiệu
ứng trên sẽ tăng lên.
Với những đặc điểm trên, chuẩn M – JPEG có ưu điểm khi sử dụng trong công
nghệ sản xuất chương trình truyền hình. Vì các ảnh được mã hóa độc lập với nhau nên
việc thực hiện dựng chính xác tới từng ảnh là hoàn toàn có thể thực hiện được. Đây
chính là điểm mạnh của M – JPEG sử dụng trong các thiết bị sản xuất chương trình
tiện dụng cho studio và dựng hậu kỳ, làm kỹ xảo với giá thành hệ thống phù hợp,
không gây tổn hao trong quá trình dựng.
Tuy nhiên, đối với các thiết bị sử dụng định dạng nén M – JPEG có các nhược
điểm :
• Mặc dù sử dụng cùng một phương pháp nén M – JPEG trong các thiết bị
của mình, các sản phẩm của các nhà máy khác nhau cũng không hoàn toàn giống nhau
về mặt biểu diễn cũng như phương pháp xử lý đối với tín hiệu video được nén. Chính
vì vậy các thiết bị này rất khó có thể trao đổi trực tiếp số liệu cho nhau.
• Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không
thể sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi được nén còn cao.
3.7.2 Chuẩn nén MPEG, chuẩn H.26X
3.7.2 .1 Giới thiệu chung về MPEG
- MPEG (Moving Picture Expert Group) là nhóm chuyên gia về hình ảnh, được
thành lập từ tháng 2 năm 1988 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu Audio
và Video số. Ngày nay, MPEG đã trở thành một kỹ thuật nén Audio và Video phổ
biến nhất vì nó không chỉ là một tiêu chuẩn riêng biệt mà tuỳ thuộc vào yêu cầu cụ thể
của từng thiết bị sẽ có một tiêu chuẩn thích hợp nhưng vẫn trên cùng một nguyên lý
thống nhất.
- Tiêu chuẩn đầu tiên được nhóm MPEG đưa ra là MPEG-1, mục tiêu của
MPEG-1 là mã hoá tín hiệu Audio-Video với tốc độ khoảng 1.5Mb/s và lưu trữ trong
đĩa CD với chất lượng tương đương VHS.
- Tiêu chuẩn thứ 2 : MPEG-2 được ra đời vào năm 1990, không như MPEG-1
chỉ nhằm lưu trữ hình ảnh động vào đĩa với dung lượng bit thấp. MPEG-2 với “công
cụ ” mã hoá khác nhau đã được phát triển. Các công cụ đó gọi là “Profiles” được tiêu
chuẩn hoá và có thể sử dụng để phục vụ nhiều mục đích khác nhau.
- Tiêu chuẩn tiếp theo mà MPEG đưa ra là MPEG-4, được đưa ra vào tháng 10
năm 1998, đã tạo ra một phương thức thiết lập và tương tác mới với truyền thông
nghe nhìn trên mạng Internet, tạo ra một phương thức sản xuất, cung cấp và tiêu thụ
mới các nội dung video trên cơ sơ nội dung và hướng đối tượng (content/object-
based).

69
- MPEG-7: là một chuẩn dùng để mô tả các nội dung Multimedia, chứ không
phải là một chuẩn cho nén và mã hoá audio/ảnh động như MPEG-1, MPEG-2 hay
MPEG-4. MPEG-7 sử dụng ngôn ngữ đánh dấu mở rộng XML(Extansible Markup
Language) để lưu trữ các siêu dữ liệu Metadata, đính kèm timecode để gắn thẻ cho
các sự kiện, hay đồng bộ các dữ liệu. MPEG-7 bao gồm 3 bộ chuẩn sau:
+ Bộ các sơ đồ đặc tả (Description Schemes) và các đặc tả (Description).
+ Ngôn ngữ xác định DDL (Description Definition Language) để định nghĩa các
sơ đồ đặc tả.
+ Sơ đồ mã hoá quá trình đặc tả.
Việc kết hợp MPEG-4 và MPEG-7 sẽ tạo ra các giải pháp lý tưởng cho các dịch
vụ Streaming Media, các hệ thống lưu trữ và sản xuất Streaming Media trong thời
gian tới.
2.3.3.2 Bù chuyển động trong chuẩn nén MPEG
Trong tất cả các trường hợp, khi một ảnh mã hoá dùng khung tham khảo thì
luôn dùng kỹ thuật bù chuyển động để nâng cao hiệu suất nén. Sau đây, chúng ta sẽ
đề cập đến phương pháp bù chuyển động.
Các phương pháp bù chuyển động: có hai cách là bù chuyển động ước đoán và
nội suy. Phương pháp ước đoán bù chuyển động giả thiết ảnh hiện tại là một phép
biến đổi từ ảnh trước đó, nghĩa là biên độ và hướng dịch chuyển không cần thiết phải
giống ảnh trước đó. Phương pháp nội suy bù chuyển động là kỹ thuật nhiều độ phân
giải: chỉ mã hoá một tín hiệu phụ với độ phân giải thấp (khoảng 1/2 đến 1/3 tốc độ
khung). Ảnh có độ phân giải đầy đủ sẽ được xây dựng lại qua nội suy ảnh có độ phân
giải thấp cộng thêm thành phần sửa sai. Đơn vị xử lý ảnh mà MPEG sử dụng là
macroblock (MB) 16 × 16 điểm ảnh. Trong ảnh mã hoá nội suy, các MB có thể là loại
nén trong khung hay nén liên khung. Trong kỹ thuật ước đoán chuyển động, nếu sử
dụng kỹ thuật so sánh khối (BMA - Block Matching Algorithm) thì sẽ thu được các
vectơ chuyển động theo tiêu chí tối thiểu hoá sai số giữa khối cần tìm vectơ chuyển
động và mỗi khối ứng cử.

70
Hình 2.3.17 Minh họa quá trinh bù chuyển động theo giải thuật BMA
2.3.3.3 Các cấu trúc ảnh
MPEG định nghĩa các loại ảnh khác nhau cho phép sự linh hoạt để cân nhắc
giữa hiệu quả mã hóa và truy cập ngẫu nhiên. Các loại ảnh đó như sau:
Ảnh loại I (Intra-picture)
Là ảnh được mã hóa riêng, tương tự như việc mã hóa ảnh tĩnh trong JPEG. Ảnh
I chứa đựng dữ liệu để tái tạo lại toàn bộ hình ảnh vì chúng được tạo thành bằng
thông tin của chỉ một ảnh và để dự báo cho ảnh B,P. Ảnh I cho phép truy cập ngẫu
nhiên, tuy nhiên cho tỷ lệ nén thấp nhất.
Ảnh loại P (Predicted-picture)
Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc ảnh P phía trước. Ảnh P
cung cấp cho hệ số nén cao hơn ảnh I và có thể sử dụng làm một ảnh so sánh cho việc
bù chuyển động cho các ảnh P và B khác.
Ảnh loại B ( Bi-directional predicted picture)
Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trước
và ở phía sau. Ảnh B cho tỷ lệ nén cao nhất.
Ảnh loại D ( Dc-coded picture)
Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng
trong MPEG-2. Nó giống như ảnh I, tuy nhiên chỉ có thành phần một chiều ở đầu ra
DCT được thể hiện. Nó cho phép dò tìm nhanh nhưng chất lượng ảnh thấp.
Nhóm ảnh (GOP)
Đối với chuẩn MPEG, chất lượng ảnh không những phụ thuộc vào tỷ lệ nén
trong từng khuôn hình mà còn phụ thuộc vào độ dài của nhóm ảnh. Nhóm ảnh (GOP-
Group of picture) là khái niệm cơ bản của MPEG. Nhóm ảnh là đơn vị mang thông tin
độc lập của MPEG.
MPEG sử dụng ba loại ảnh I, B, P. Trong đó, ảnh P, B không phải là một
ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện trước nó (đối
với ảnh P) hay sự khác biệt đối với cả khuôn hình xuất hiện trước và sau nó (đối với
ảnh B). Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ liệu từ các ảnh lân
cận, chính vì vậy đối với MPEG một khái niệm mới là GOP (nhóm ảnh) được sử
dụng. Mỗi GOP bắt buộc phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp sau nó là
một loại các ảnh P và B. Nhóm ảnh có thể mở (Open) hoặc đóng (Closed).
Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh
trước ảnh I tiếp theo, tức là ảnh cuối cùng của GOP dùng ảnh đầu tiên của GOP tiếp
theo làm ảnh chuẩn, Hình 2.3.18.

71
Hình 2.3.18 Cấu trúc GOB mở
Trong Hình 2.4.18, ảnh P ( ảnh 4) được dự báo trước trên cơ sở ảnh I (ảnh 1).
Ảnh B được dự đoán từ hai hướng, ảnh B (ảnh 2) và ảnh B ( ảnh 3) được dự đoán từ
hai ảnh I ( ảnh 1) và ảnh P (ảnh 4). Ảnh B (ảnh 5,6) được dự đoán từ ảnh P (ảnh 4) và
ảnh I tiếp theo (ảnh 6). Một điều chú ý là thứ tự truyền ảnh và hiện ảnh trên màn hình
là không giống nhau.
Đối với cấu trúc khép kín (đóng), việc dự đoán ảnh không sử dụng thông tin của
GOP khác. Trong trường hợp này, theo quy định, ảnh cuối cùng của một GOP bao
giờ cũng là ảnh P (Hình 2.3.19).

Hình 3.3.19 Cấu trúc GOB đóng


Nhóm ảnh được xác định bởi hai thông số m và n. Thông số m xác định số
khung hình P và khung hình B xuất hiện giữa hai khung hình I gần nhau nhất. Số n
xác định số khung hình B giữa hai khung hình P.
Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP. Tuy
nhiên, GOP dài thường gây khó khăn cho quá trình tua, định vị, sửa lỗi... Do đó tùy

72
thuộc vào từng khâu (sản xuất, dựng hình, truyền dẫn, phát sóng v..v) mà ta chọn độ
dài GOP thích hợp. Trong sản xuất hậu kỳ, nếu có yêu cầu truy cập ngẫu nhiên vào
bất cứ ảnh nào, điều đó cũng có nghĩa là yêu cầu dựng chính xác đến từng ảnh, GOP
đương nhiên sẽ phải chỉ có duy nhất ảnh I. Trong trường hợp này, tỷ lệ nén sẽ đạt rất
thấp. Để tăng tỷ lệ nén cho truyền dẫn và phát sóng, trong GOP số lượng ảnh P, B sẽ
phải tăng lên. Lúc này không cho phép việc dựng hình cũng như làm các kỹ xảo trên
chuỗi hình ảnh đó. Trong trường hợp này ta có thể có GOP gồm 12 ảnh.
2.3.3.5 Cấu trúc dòng bit MPEG
Để tạo khả năng chống lỗi khi truyền tín hiệu qua kênh có nhiễu, bộ ước đoán
phải được xác lập lại (reset) thường xuyên và mỗi ảnh nén trong khung hay nén
ước đoán được phân đoạn thành nhiều lát nhỏ (slice) cho việc tái đồng bộ tại bộ giải
mã phía thu. Cấu trúc dòng MPEG gồm 6 lớp: lớp dãy ảnh (sequence), lớp nhóm ảnh
(GOP), lớp ảnh (pictrue), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối
(Block). Mỗi lớp này hỗ trợ một chức năng nhất định: một là chức năng xử lý tín hiệu
(DCT, bù chuyển động) hai là chức năng logic (tái đồng bộ, điểm truy xuất ngẫu
nhiên). Quá trình tạo ra dòng bit MPEG là ghép kênh: kết hợp các dòng dữ liệu vào,
dòng dữ liệu ra, điều chỉnh đồng bộ và quản lý bộ đệm. Cú pháp dòng MPEG bao
gồm: lớp dòng bit (stream), lớp gói (pack) và lớp gói tin (packet) như trong Hình
1. Khối. Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương
pháp nén DCT.
2. Tổ hợp cấu trúc khối (macroblock): một cấu trúc khối là một nhóm các khối
tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh.
Cấu trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo
cấu trúc mẫu được sử dụng. Thông tin đầu tiên trong cấu trúc khối mang dạng của
nó (là cấu trúc khối Y hay Cr, Cb) và các vector bù chuyển động tương ứng.
3. Mảng (Slice): mảng bao gồm một vài cấu trúc khối kề nhau. Kích thước lớn
nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là
một cấu trúc khối. Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ
ảnh, và hệ số cân bằng lượng tử.
4. Ảnh (Picture): lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã
hóa là ảnh P, I hay ảnh B. Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải
mã có thể sắp xếp các ảnh lại theo một thứ tự đúng. Trong thông tin đầu của ảnh còn
chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động.
5. Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều các khung I, P và B.
Cấu trúc nhóm ảnh được xác định bằng hai tham số m và n. Mỗi một nhóm ảnh
bắt đầu bằng một khung I cho phép xác định điểm bắt đầu để tìm kiếm và biên tập.
Thông tin đầu gồm 25 bit chứa mã định thời và điều khiển.

73
6. Đoạn (chương trình) video: đoạn video bao gồm thông tin đầu, một số nhóm
ảnh và thông tin kết thúc đoạn. Thông tin đầu của đoạn video chứa đựng kích thước
mỗi chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video số, tần số ảnh
và bộ đệm tối thiểu cần có. Đoạn video và thông tin đầu tạo thành một dòng bit
được mã hóa gọi là dòng cơ bản
(Elementary Stream).

74
Hình 2.3.20 Kiến trúc dòng dữ liệu MPEG
2.3.3.6 Sơ đồ khối bộ mã hóa MPEG
Quá trình nén theo chuẩn MPEG là sự kết hợp giữa nén trong ảnh và nén liên
ảnh. Tín hịeu đầu vào có dạng 4:2:2 hoặc 4:2:0 được nén liên ảnh nhằm tạo ra ảnh
khác biệt ở đầu ra bộ cộng. Ảnh khác biệt này sau đó được nén trong ảnh qua các
bước: biến đổi DCT, lượng tử hóa, mã hóa. Cuối cùng ảnh này được trộn cùng với
vector chuyển động đưa đến bộ khuyếch đại đệm sẽ thu được ảnh đã nén. Ta xét ví dụ
bộ nén theo phương pháp trên, dùng ảnh I và P trong cấu trúc GOP (Hình 2.3.21).
Ảnh thứ nhất trong nhóm phải được mã hóa như ảnh loại I. Trong trường hợp
này, sau khi lấy mẫu lần đầu, tín hiệu video được truyền đến khối biến đổi DCT cho
các MB riêng, sau đó bộ lượng tử và mã hóa entropy. Tín hiệu ra từ bộ lượng tử hóa
được đưa đến bộ lượng tử hóa ngược và biến đổi DCT ngược, sau đó được lưu vào bộ
nhớ ảnh.
Trong trường hợp mã hóa ảnh loại P, mạch nén chuyển động làm việc. Trên cơ
sở so sánh ảnh đang xét và ảnh trong bộ nhớ, sẽ xác định được các vector chuyển
động, sau đó dự báo ảnh. Sự chênh lệch giữa ảnh đang xét và dự báo ảnh của nó được
biến đổi DCT, lượng tử hóa và mã hóa entropy. Cũng như trong trường hợp các ảnh
loại I, tín hiệu ra từ bộ lượng tử hóa được giải lượng tử hóa và biến đổi DCT ngược
rồi cộng với ảnh dự báo đang xét và lưu vào bộ nhớ.
Tốc độ bit của tín hiệu video được nén không cố định, phụ thuộc vào nội dung
ảnh đang xét. Ngược lại, tại đầu ra bộ mã hóa, dòng bit phải cố định để xác định tốc
độ cho dung lượng kênh truyền. Do đó, tại đầu ra bộ mã hóa phải có bộ nhớ đệm đủ
lớn. Bộ mã hóa phải kiểm tra trạng thái đầy của bộ nhớ đệm. Khi số liệu trong bộ
nhớ đệm gần bằng dung lượng cực đại, thì các hệ số biến đổi DCT ngược được
lượng tử hóa ít chính xác hơn. Trong trường hợp ngược lại, có nghĩa là bộ nhớ đệm
chứa số liệu quá ít, thì việc lượng tử hóa các hệ số sẽ tăng lên.

75
Hình 2.3.21 Bộ mã hóa MPEG tiêu biểu
2.3.3.7 Quá trình giải mã
Quá trình giải mã, theo lý thuyết, là ngược lại với quá trình mã hóa và được
minh họa trên Hình 2.3.22.

76
Hình 2.3.22 Bộ giải mã MPEG tiêu biểu
Chuỗi tín hiệu vào được giải mã entropy tại VLD (Variable-Length Decoder).
Sau đó tách số liệu ảnh (hệ số biến đổi DCT) ra khỏi các vector chuyển động. Số liệu
sẽ được giải lượng tử hóa và biến đổi DCT ngược. Trong trường hợp ảnh loại I bắt
đầu ở mỗi nhóm ảnh trong chuỗi, sẽ nhận được ảnh đầu ra hoàn chỉnh bằng cách
trên. Nó được lưu trong bộ nhớ ảnh và được sử dụng để giải mã các ảnh tiếp theo.

Trong trường hợp ảnh loại P sẽ thực hiện giải lượng tử và biến đổi DCT ngược
với việc sử dụng các vector chuyển động và ảnh lưu vào bộ nhớ ảnh. Trên cơ sở đó
xác định được dự báo ản đang xét. Ta nhận được ảnh ra sau khi cộng dự báo ảnh
và kết quả biến đổi DCT ngược. Ảnh này cũng được lưu vào bộ nhớ để có thể sử
dụng như là chuẩn khi giải mã các ảnh tiếp theo.
2.3.3.8 Tiêu chuẩn MPEG-1
Chuẩn MPEG-1 cho phép vận dụng ảnh động linh hoạt như một dạng dữ liệu
của máy tính. Do đó, ta có thể truyền và nhận ảnh động thông qua máy tính và mạng
viễn thông. MPEG-1 chọn các khối (MB-Macro Block) 16x16 để thực hiện quá trình
bù chuyển động. Kích thước này là sự hài hòa giữa hiệu quả nén bằng cách bù chuyển
động và việc lưu trữ các khối MB. Các khối MB này lại có thể chia ra làm nhiều loại
khác nhau như : Intra coded, Forward prediction coded, Backward prediction coded
và Bi-directional prediction coded. Dựa trên các khối MB, thông tin các vector
chuyển động được lưu trữ cùng với tín hiệu khác biệt (giữa ảnh nén và ảnh dự báo).
Sự khác nhau giữa vector động hiện tại và vector động truyền đi trước được mã hóa
bằng mã entropy.
Tín hiệu video số MPEG-1 vào bao gồm 1 tín hiệu chói Y’ và 2 tín hiệu hiệu
màu Cb và Cr. Tỷ số tần số lấy mẫu tín hiệu chói so với tần số lấy mẫu hai tín hiệu
hiệu màu Cb và Cr là 2:1 theo cả hai chiều dòng và mành như một tín hiệu không
chèn. Trước khi mã hóa các ảnh có thể được sắp xếp lại theo trật tự giải mã bởi vì
bộ giải mã chỉ có thể giải mã được ảnh B sau khi đã giải mã ảnh I và P. Sau quá
trình giải mã thì trật tự của các ảnh sẽ được sắp xếp lại như cũ.
Sau khi chọn kiểu ảnh cho một ảnh vào, bộ mã hóa sẽ đánh giá chuyển động
cho mỗi khối MB của ảnh. Với mỗi khối MB này bộ mã hóa sẽ tạo ra một vector
chuyển động cho 1 ảnh P và 2 vector chuyển động cho 1 ảnh B.
Tùy thuộc vào từng kiểu ảnh mà tín hiệu sai lệch (giữa ảnh nén và ảnh dự báo)
được nhận dạng bằng cách tìm ra sự khác nhau giữa dự đoán bù chuyển động và dữ

77
liệu thực sự của MB hiện tại. Tín hiệu sai lệch này được chuyển đến khối DCT 8x8 và
lượng tử hóa khi đi qua bộ lượng tử hóa. Các hệ số lượng tử hóa DCT được quét theo
trật tự zig-zag và mã hóa bằng mã entropy.
Một bộ điều khiển cùng với bộ đệm có nhiệm vụ điều chỉnh tốc độ dữ liệu đưa
ra thông qua điều chỉnh bước lượng tử. Để có thể tạo ra được ảnh I và ảnh P trong bộ
đệm trong quá trình mã hóa, thì bộ giải mã lượng tử và bộ chuyển đổi ngược DCT
8x8 được đưa vào nhằm tạo ra tín hiệu sai lệch.
2.3.3.9 Cấu trúc dòng bit và các tham số chính của chuẩn nén MPEG-1
MPEG-1 là thuật toán chỉ định nghĩa cú pháp (syntax) biểu diễn dòng bit mã hóa
và giải mã. Cú pháp dòng bit được cấu tạo bằng 6 lớp : Sequence (chuỗi ảnh),
GOP = Group of Picture (nhóm ảnh), Picture (ảnh), Slice, macro block (MB), block
(khối). Cấu tạo và chức năng của mỗi lớp được chỉ ra trong bảng 2.3.4. Các tham số
chính của tiêu chuẩn MPEG-1 được minh họa trong bảng 2.3.5.
Bảng 2.3.4 Các thông số MPEG-1.
Lớp Cấu tạo Chức năng

Sequence Gồm nhiều GOP Dòng bit video

GOP Gồm từ (1÷n) ảnh bắt đầu Đơn vị truy xuất


bằng ảnh I
Picture I, B, P Gồm nhiều Slice Đơn vị mã hóa
Slice Gồm nhiều MB cơ bản

Macro Block Với 4:2:2 gồm : 4 block Y, 1 block Đơn vị bù


Cr và 1 block Cb chuyển động
(MB)
Block Gồm 8x8 pixel Đơn vị tính DCT

Bảng 2.3.5. Tham số theo tiêu chuẩn nén MPEG-1.


Tham số Đặc điểm

Tín hiệu mã hóa Y và Cr, Cb

Cấu trúc lấy mẫu 4:2:0

Kích thước ảnh tối đa(điểm ảnh x điểm 4095x4095


ảnh)
Biểu diễn mẫu 8 bit

Độ chính xác của quá trình lượng tử 9 bit


hóa và biến đổi DCT

78
Phương pháp lượng tử hóa hệ số DC DPCM tuyến tính

Cấu trúc khối trong quá trình lượng 16x16 bit


tử hóa thích nghi
Độ chính xác cực đại của hệ số DC 8 bit

Biến đổi VLC Mã Huffman

Bảng VLC Không thể truyền tải

Hệ số cân bằng các khối Có thể biến đổi

Bù chuyển động Trong khung hình và giữa các


khung hình
Quét Tuần tự

Độ chính xác dự đoán chuyển động ½ điểm ảnh

Tốc độ khi nén 1,85 Mbps cho nén tham số

100 Mbps cho dòng đầy đủ tham


Phương pháp nén MPEG-1 cho phép truy cập ngẫu nhiên các khung hình
video, tìm kiếm thuận và nghịch trên dòng tín hiệu nén, biên tập và phát lại trên dòng
tín hiệu nén. MPEG-1 là tập con của MPEG-2, nên tất cả các bộ giải mã MPEG-2 đều
có thể giải mã được dòng tín hiệu MPEG-1.
2.3.3.10 Tiêu chuẩn MPEG-2
2.3.3.10.1 Giới thiệu về chuẩn MPEG-2
MPEG-2 là dự án giai đoạn 2 của ủy ban ISO/PEC MPEG. MPEG-2 hướng tới
các ứng dụng rộng rãi hơn và có tốc độ bit cao hơn MPEG-1, bao gồm điện tử viễn
thông và truyền hình số thế hệ kế tiếp. Nội dung kỹ thuật đã được đúc kết vào
11/1993 thành dự thảo ISO/IEC 13818 tên gọi “ Mã hóa chung ảnh động và audio đi
kèm” gồm ba phần chính: Hệ thống; Video; Thử nghiệm. MPEG-2 được tiến hành
ngay sau MPEG-1, nhằm hỗ trợ việc truyền video số tốc độ bit lớn hơn 4 Mbps, bao
gồm các ứng dụng DSM (phương tiện lưu trữ số), các hệ thống TV hiện đại (PAL,
NTSC, SECAM), cáp, thu lượm tin tức điện tử, truyền hình trực tiếp từ vệ tinh,
EDTV (truyền hình mở rộng), HDTV (truyền hình có độ phân giải cao) v...v.
MPEG-2 là chuẩn nén video có tổn thất. Công ty Nethold’s Multichoice đã
truyền 20 kênh truyền hình số cho Bỉ, Hà Lan, Luxembourge, Scandinavia, Trung
Đông, Châu Phi, ... qua vệ tinh Pan Amsat vào tháng 10/1995. Hệ thống sử dụng

79
trên một triệu bộ giải mã MPEG-2 set-top của Phillips, Panasonic, Pace. Mạng
truyền hình Dish của Echostar có kế hoạch truyền 150 kênh truyền hình số. Cả châu
Âu (DVB), Mỹ (ATV), và nhiều hãng khác trên thế giới (Galaxy, Shinawatra
Satellite, ...) dùng MPEG-2 trong các hệ truyền hình có độ phân giải cao để có thể
phát sóng truyền hình số trên mặt đất.
Chuẩn MPEG-2 bao gồm 4 phần chính :
• Các hệ thống (ISO/IEC 13818-1).

• Video (ISO/IEC 13818-2).

• Audio (ISO/IEC 13818-3).

• Các hệ thống kiểm tra (ISO/IEC 13818-4).

Phần 1 đưa ra cấu trúc kết nối phức tạp giữa dữ liệu audio và video và đồng bộ
thời gian thực. Phần 2 đưa ra cách mã hóa tín hiệu video và cũng chỉ ra quá trình giải
mã để tái tạo lại các khung ảnh. Phần 3 là cấu trúc mã hóa của tín hiệu audio và
phần 4 là các hệ thống kiểm tra các yêu cầu đặt ra của MPEG-2.
MPEG-2 hoạt động hoàn toàn dựa trên các cơ sở MPEG-1, tuy nhiên có thêm
một vài yêu cầu tạo thành một hệ thống đầy đủ cho các dịch vụ nghe nhìn:
• Hỗ trợ xử lý file hoặc frame.
• Áp dụng vào nhiều lĩnh vực từ tốc độ bit rất thấp đến rất cao (từ chất lượng
ảnh rất thấp đến rất cao). MPEG-2 đưa ra các dạng thức cơ bản ứng với 6 profiles và
một số level.
• MPEG-2 có tính tương hợp (compatibility) và tính co dãn (scalability) cao theo
không gian và thời gian.
2.3.3.10.2 Cấu trúc dòng bit video MPEG-2
Một trong những khác biệt chính giữa hai tiêu chuẩn MPEG-2 và MPEG-1 là
ở chỗ MPEG-2 có khả năng xử lý chuỗi video xen kẽ, ví dụ như dạng thức ITU-R601.
Sơ đồ mã hóa có thể thích nghi với sự lựa chọn field hoặc frame, trong đó MPEG-1
chỉ có một mode cố định. Hình 2.3.23 chỉ ra cấu trúc dòng bit video MPEG-2.

80
Hình 2.3.23 Cấu trúc dòng bit vdeo MPEG-2

Chuỗi video được mã hóa bắt đầu bằng Sequence Header, sau đó là chuỗi mở
rộng (nếu có) và các nhóm ảnh. Nếu phần chuỗi mở rộng (Sequence extension) không
được xác định (không có mã báo có thành phần mở rộng), các lớp tiếp theo khi đó sẽ
thực hiện một quy trình giống như MPEG-1 và đó là tương hợp thuận. Khi có thêm
phần mở rộng thì phải có thêm các đặc tính mở rộng để mã hóa hữu hiệu hơn.
• Header của nhóm ảnh (GOP) có chức năng tương tự như header của MPEG-
1.

Các thông số quan trọng dùng để mã hóa ảnh mở rộng được định nghĩa
trong extension header của ảnh. Vì có hai loại ảnh, liên tục và xen kẻ nên cấu trúc ảnh
cần phải được xác định rõ field trên hay field dưới hoặc frame.
2.3.3.10.3 Đặc tính và các mức trong MPEG-2
Nén MPEG-2 có một chuỗi các mức (Level) và đặc tính (Profile), được dùng
cho nhiều ứng dụng khác nhau.
Cấu trúc tín hiệu số trong tiêu chuẩn MPEG-2 rất phức tạp. Việc sử dụng tiêu
chuẩn MPEG-2 không phải lúc nào cũng cần thiết hoặc có ý nghĩa. Vì thế dẫn đến
việc phân chia cấu trúc thành các tập con gọi là profiles. Có 6 định nghĩa về profile:
• Simple profile (profile đơn giản): có số công cụ thấp nhất và sử dụng tốc độ bit
thấp và không dùng B frame. Nó tương đương với đặc điểm kỹ thuật MPEG-1, phù
hợp với các ứng dụng low-delay bởi không cần thiết sắp xếp lại các frame.
• Main profile (profile chính): có tầm ứng dụng khá rộng. Nó rất quan trọng vì
đáp ứng được độ phân giải đối với truyền hình quy ước. Nó cho chất lượng ảnh tốt
hơn với cùng một tốc độ bit so với low profile nhưng thời gian trì hoãn khi mã và giải
mã tăng lên.
• SNR profile scalable (profile phân cấp theo SNR): có các công cụ của main
profile và cho phép phân cấp theo tỉ số tín hiệu trên tạp âm. Tính phân cấp theo tỉ số
tín hiệu trên tạp âm có nghĩa là chất lượng hình ảnh và tỉ số tín hiệu trên tạp âm có
tính thõa hiệp. Chuỗi ảnh có thể chia hành hai phân lớp phân biệt nhau về chất lượng.
Các lớp thấp bao gồm ảnh có chất lượng cơ sở, lớp cao bao gồm các lớp hoàn thiện
hơn đối với lớp thấp hơn, cho phép khôi phục cùng ảnh đó nhưng chất lượng tốt hơn.
Lớp thấp hơn, ví dụ chứa tín hiệu video theo chuẩn 4:2:0, còn lớp cao hơn với tín
hiệu video trong chuẩn 4:2:2. Có thể mã hóa kênh khác nhau cho các lớp riêng.
Trong trường hợp này, lớp dưới có tín hiệu video chất lượng thấp hơn ( ví dụ

81
lượng tử hóa với độ chính xác thấp). Còn lớp cao hơn thì lớp bảo vệ cho phép khôi
phục lại tín hiệu video với độ chính xác đầy đủ thông số kênh truyền hoặc bộ mã hóa.
• Spatially Scalable profile (phân cấp theo không gian): tương tự với SNR
profilenhưng thêm vào lớp cơ bản lớp nâng cao chất lượng độ phân giải ảnh (Picture
Resolution Enhancement layer). Tính phân cấp theo không gian có nghĩa là có sự thỏa
hiệp đối với độ phân giải. Chuỗi ảnh được chia ra thành hai lớp tương ứng với các độ
phân giải khác nhau của ảnh. Lớp thấp hơn bao gồm ảnh có độ phân giải thấp ví dụ
như truyền hình tiêu chuẩn, lớp cao hơn bao gồm ảnh có độ phân giải cao hơn ví dụ
như truyền hình độ phân giải cao (HDTV).
• High profile (profile cao): gồm các đặc điểm của spatial profile thêm vào cấu
trúc lấy mẫu 4:2:2. Nó bao gồm toàn bộ các công cụ của spatially scalable profile
cộng thêm khả năng mã hóa các tín hiệu màu khác nhau cùng một lúc. Nó được dự
định dùng cho HDTV, cho phép các bộ thu HDTV giải mã cả hai lớp để hiển thị một
ảnh HDTV. “High profile” là một hệ thống hoàn hảo được thiết kế cho toàn bộ các
ứng dụng mà không hạn chế tốc độ bit.
• 4:2:2 profile: tương tự MP, nhưng cho phép một tốc độ bit cao hơn. Nó gia
tăng kích thước ảnh dọc lên 576 lines với chuẩn quét 625/50 và 512 lines với chuẩn
quét 525/60.
Vấn đề hạn chế các mức có liên quan đến độ phân giải cực đại của ảnh. Có 4
mức hạn chế sau :
• Low level (mức thấp): ứng với độ phân giải của MPEG-1, có nghĩa là bằng ¼
độ phân giải truyền hình tiêu chuẩn.
• Main level (mức chính): độ phân giải của truyền hình tiêu chuẩn.
• High – 1440 level (mức cao 1440): độ phân giải của HDTV với 1440
mẫu/dòng.
• High level (mức cao): độ phân giải HDTV với 1920 mẫu/dòng.
Bảng 2.3.6. Bảng thông số chính profile và level của tín hiệu chuẩn MPEG-2.
Profile Đơn giản Chính Phân cấp Phân cấp Cao
(Simple) (Main) theo SNR theo không (High)
gian
Thấp 4:2:0 4:2:0
(Low) 352x288 352x288
4 Mbps 4Mbps
I, P, B

82
Chính 4:2:0 4:2:0 4:2:0 4:2:0
(Main) 720x576 720x576 720x576 720x576
15 Mbps 15 Mbps 15 Mbps 20 Mbps
I, P I, P, B I, P, B I, P, B
Cao – 1440 4:2:0 4:2:0 4:2:0,4:2:2
(High– 1440x1152 1440x1152 1440x1152
1440) 60 Mbps 60 Mbps 80 Mbps
I, P, B I, P, B I, P, B
Cao 4:2:0 4:2:0,4:2:2
(High) 1920x1152 1920x1152
80 Mbps 100 Mbps
I, P, B I, P, B
Kết hợp 4 level và 5 profile ta được tổ hợp 20 khả năng và hiện nay đã có 11
khả năng được ứng dụng như Bảng 2.3.6 (theo tài liệu của Tektrronic). Trong các ô
của Bảng 2.4.6, lần lượt từ trên xuống là: tỷ lệ lấy mẫu (4:2:0 hoặc 4:2:2); dòng
dưới ghi điểm ảnh theo chiều ngang x theo chiều dọc; dòng dưới nữa là vận tốc cao
nhất của dòng dữ liệu sau khi nén; dòng cuối cùng là các loại ảnh sử dụng để nén.
2.3.3.10.4 Ứng dụng MPEG-2 trong nén tín hiệu video
™ Các tính chất nén tín hiệu video
Tính chất nén tín hiệu video (hoặc giảm tốc độ bit của video BRR – Bit rate
reduction) là sự kết hợp nhiều yếu tố khác nhau :
• Tỉ lệ nén : tỉ lệ nén từ 2:1 đến 150:1, tùy thuộc vào chất lượng ảnh yêu cấu cho
từng ứng dụng.
• Chất lượng ảnh : chất lượng ảnh cao thường dùng cho khâu xử lý ảnh, trong
khâu hậu kỳ (dựng hình); giảm hơn trong khâu lấy tin (news), truyền dẫn phát sóng.
• Khả năng tạo nhiều lần : Trong quá trình sản xuất hậu kỳ, truyền dẫn phát sóng
tín hiệu video gốc phải đi qua nhiều công đoạn, nén và giải nén.
• Đối xứng/ không đối xứng : với sơ đồ nén đối xứng, số lượng xử lý ở phần mã
hóa và giải mã giống nhau. Sơ đồ MPEG-2 là không đối xứng vì các công đoạn giải
mã ít hơn so với mã hóa.
• Trễ giữa mã hóa và giải mã : độ trễ này phụ thuộc vào cấu trúc và độ phức tạp
của bộ mã hóa, kích thước GOP và chuỗi GOP. Trong truyền hình, độ trễ tổng cộng
có thể chấp nhận được là <1ms cho trường hợp phỏng vấn trực tiếp. Trong truyền dẫn
phát sóng thì vấn đề này ít khắc khe hơn.

83
• Khả năng dựng hình : dựng hình với độ chính xác 1 frame là yêu cầu cao trong
khâu hậu kỳ. Hiện tại, trong khâu hậu kỳ phải giải mã nhiều frames (I, B, P) và mã
hóa lại sau khi cấy một đoạn mới vào. Do có thể thay đổi chiều dài GOP xuống còn
ảnh I, cho nên
MPEG-2 cho phép dựng hình với độ chính xác từng frame.
• Độ phức tạp và giá thành : có một sự thỏa hiệp giữa kỹ thuật xấp xỉ chuyển
động có hiệu quả (nâng cao hiệu quả nén cao) và giảm độ phức tạp và giá thành của
các chip xử lý.
2.3.3.11 Tiêu chuẩn MPEG-4
MPEG-4 bao gồm 2 phần là version 1 và version 2. Bắt đầu từ năm 1993 và
hình thành các đề nghị vào tháng 7 năm 1995. Các đề nghị về audio và video
được đánh giá bởi các chuyên gia và đưa ra bản thảo vào tháng 11 năm 1997 và
trở thành tiêu chuẩn quốc tế ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ
xung và nâng cấp lên thành các version 3 và 4.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp.
Thực tế tiêu chuẩn đưa ra với 3 dãy tốc độ bit
- dưới 64 kbps
- 64 đến 384 kbps
- 384 Kbps đến 4 Mbps
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép khôi phục lỗi tại phía thu,
vì vậy chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xãy ra lỗi như truyền
dữ liệu qua các thiết bị cầm tay. Những profile và level khác trong MPEG-4 cho phép
sử dụng tốc độ bit lên đến 38.4 Mbps và việc xử lý chất lương studio cần các profile
và level lên đến 1.2Gbps.
MPEG-4 là chuẩn quốc tế đầu tiên dành cho mã hoá các đối tượng (object)
video. Với độ linh động và hiệu quả do mã hoá từng đối tượng video, MPEG-4 đạt
yêu cầu ứng dụng cho các dịch vụ nội dung video có tính tương tác và các dịch vụ
truyền thông video trực tiếp hay lưu trữ. Trong MPEG-4, khung ảnh của một đối
tượng video (hay còn gọi là phẳng đối tượng video) được mã hoá riêng lẽ. Sự cách ly
các đối tượng video như vậy mang đến độ mềm dẻo hơn cho việc thực hiện mã hoá
thích nghi làm tăng hiệu quả nén tính hiệu. Mặc dù tập trung vào những ứng dụng tốc
độ bit thấp nhưng MPEG-4 cũng bao gồm cả studio chất lượng cao và HDTV
Các đối tượng khác nhau trong một cảnh gốc có thể được mã hóa và truyền đi
riêng biệt như là video object và audio object và được kết hợp trở lại tại bộ giải mã.
Các loại object khác nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các
công cụ phù hợp nhất. Những object khác nhau có thể được tạo ra một cách độc lập
và trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền

84
(background) và object cận cảnh. Ví dụ: đoạn video quay trận bóng đá được xử lý để
tách riêng quả bóng ra khỏi cảnh sân cỏ. Background (cảnh không có quả bóng ) sẽ
được truyền đi và ai cũng có thể thấy game để thu hút khan giả nhưng chỉ những
người có trả tiền mới thấy quả bóng.
Hình 2.3.24 cho thấy các khái niệm chung về quá trình mã hóa và giải mã các
đối tượng độc lập trong chuẩn nén MPEG-4.

Hình 2.3.24 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4
Như đã biết không có phương pháp mã hóa nào có thể gọi là tối ưu hoàn toàn.
DCT và phép lương tử chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh
có mức chói thay đổi chậm nhưng sẽ không tối ưu với nhiều chi tiết ảnh có kích
thước nhỏ thường xuất hiên trên đoạn video. Một ví dụ đơn giản nếu một cảnh có
xen các dòng chữ (text) thì hệ thống thông thường sẽ xem các chữ như là các chi
tiết ảnh thường, do đó sau khi mã hóa bằng MPEG-1 hay MPEG2,các chi tiết nhỏ
được thêm vào với cách thức như trên sẽ tạo ra tín hiệu năng lượng có tần số cao và
các cạnh của dòng chữ sẽ không được mã hóa tốt bởi DCT
Do đó việc thêm chữ vào ảnh hưởng rất lớn đến hiệu suất mã hóa video. Tuy
nhiên có thể mã hóa các chữ theo một cách đơn giản như các ký tự thuộc mã ASCII,
vị trí, font, kích thước, màu, thông tin về không gian có thể được thêm vào với số bit
tương đối nhỏ. Nhưng để làm điều này bộ giải mã cần phải có khả năng tạo ra các
title từ những thông tin được cung cấp và khóa các title này khi qua bộ giải mã video
trước khi hiển thị. Việc giải mã luồng bit video MPEG-4 yêu cầu bộ giải mã có nhiều
cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể
truyền nhiều luồng text và việc chọn ở bộ giải mã luồng nào trong số những luồng
trên kết hợp với video. Việc lựa chọn này có thể do người xem quyết định hoặc do
các thông tin khác được truyền trong luồng bit.
Ba đặc tính rất quan trọng của MPEG-4 là:
- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở
bộ giải mã
- Các object có thể là các cảnh có được từ camera hay tự tạo như text

85
- Các thông tin trong luồng bit có thể hiển thị nhiều dạng khác nhau từ cùng
một luồng bit (tùy theo lựa chọn người xem chẳng hạn như ngôn ngữ)
MPEG-4 cho khả năng mã hóa video và audio hơn hẳn MPEG-2 cũng như
khả năng khôi phục lỗi. Tuy nhiên sức mạnh thật sự của MPEG-4 là các ứng dụng
mới mà có thể xây dựng dựa vào việc mã hóa độc lập các object cho hiệu suất mã cao
hơn, và việc tách riêng các object cho phép tương tác các object với nhau đặc biệt là
các chương trình giáo dục và các trò chơi. Và cũng do khả năng tách biệt các object
mà có thể thay đổi tỷ lệ tạm thời chẳng hạn như vẫn duy trì độ phân giải của các
object cận cảnh quan trọng nhưng giảm ảnh phong xuống tốc độ thầp hơn nếu hệ
thống sử dụng có băng thông bị hạn chế hoặc thiếu tài nguyên (bộ nhớ, tốc độ tính)
Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã
hết tất cả các luồng bit mà nó hổ trợ và có khả năng kết hợp. Do đó phần cứng của bộ
giải mã MPEG-4 phức tạp hơn so với bộ giải mã MPEG-2. Và ngày nay thì càng có
nhiều bộ mã thực hiện giải mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có
thể bị hạn chế về khả năng linh hoạt
2.3.3.11.1 Video trong MPEG-4
Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 cần tìm hiểu cấu trúc
của một cảnh video được MPEG-4 định nghĩa. Một cảnh tiêu biểu bao gồm phong
ảnh (background) một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ
vật, một hoặc nhiều người và một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh
được lấy mẫu một lần cho một khung và tạo ra các bitmap sẽ được mã hóa. MPEG-4
cũng làm việc giống như vậy nhưng nó có thể giải quyết từng đối tượng riêng rẽ. Để
đơn giản hơn có thể không xét đến các đồ vật như vậy ngoài các thành phần đồ
họa cảnh bao gồm background, một người được xem là foreground. Ví dụ: người
dự báo thời tiết đứng trước nền màu xanh biển hay xanh lá cây và một nền
(background) khác chẳng hạn như bản đồ thời tiết gọi là “chroma keyed”. Trong
studio ảnh một người đứng trước nền màu sẽ được xử lý để loại bỏ nền màu và tạo
thành “key signal” hay alpha channel diễn tả hình dạng của người cận cảnh.
Thông tin về hình dạng người sẽ được kết hợp với thành phần cảnh. Nơi người đứng
thì cảnh nền được thay thế bằng ảnh người và những nơi khác của ảnh nền thì không
thay đổi. Trong thuật ngữ của MPEG-4 thì người cận ảnh được xem là đối tượng
video (video object) được tương trưng bởi hai phần tử là ảnh video của người gọi là
“texture” và key signal hay alpha channel được xem là shape.
2.3.3.11.2 Cấp độ của video MPEG-4
Trước tiên object phải được lấy mẫu. Hầu hết các object được lấy mẫu trong
khoảng thời gian không đổi (gọi là frame) và mỗi thời gian lấy mẫu đươc gọi là video
object plane (VOP). Như vậy mỗi object trong một cảnh được tượng trưng bởi 1
chuỗi các VOP ngoại trừ các object tĩnh có thể dùng một VOP.

86
VOP bao gồm dữ liệu texture và thông tin về đường nét (shape) có dạng chữ
nhật hoặc dữ liệu đường nét phức tạp kết hợp với object. VOP cũng giống như
các frame của các version trước của MPEG có thể được mã hóa với intradata hoặc sử
dụng bù chuyển động.
Tiếp theo là nhóm các VOP với nhau thành GOV (Group of video object
planes). GOV tương tự như GOP (group of pictures) của MEPG trước và cung cấp
điểm trong luồng bit mà VOP được mã hóa độc lập với các VOP khác và như thế nó
cung cấp các điểm truy xuất ngẫu nhiên trong luồng bit
VOL (Video object layer) cho phép thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc
GOV. Nhiều VOL tương ứng với nhiều tỷ lệ của chuỗi (VOP hoặc GOV) và mỗi tỷ lệ
phù hợp với một tập các tài nguyên có thể thông thường giới hạn băng thông hoặc
giới hạn khả năng tính toán. Mức video object (VO) bao gồm mọi thành phần trong
luồng bit mô tả đối tương video đặc biệt.
Cuối cùng là Video session (VS) là mức video cao nhất của cảnh MPEG-4 bao
gồm tất cả đối tượng video cả tự nhiên và tự tạo trong một cảnh.
2.3.3.11.3 Mã hóa đường nét (shape)
Có hai loại đường nét với đối tượng video trong MPEG-4 là chữ nhật và tùy
ý. Dạng chữ nhật chỉ đơn thuần là chỉ phạm vi của ảnh nên ít quan trọng. Tuy nhiên
nó vẫn được dùng để tăng tính linh hoạt trong các chuẩn trước. Chẳng hạn trong
MPEG-2 phạm vị của ảnh được mã hóa trong phần header của luồng bit. Trong
MPEG-4 kích thước chữ nhật của đối tượng video nền đơn giản là có thể so sánh
nhưng cũng có thể có các đối tượng chữ nhật khác trong cùng một session như ảnh
trong ảnh (picture in picture).
Đường nét cũng tượng trưng cho đối tượng video và ở bất kỳ điểm nào trong
mặt phẳng ảnh nó xác định có đối tượng nào được kết hợp với nó thì có thể nhìn thấy
được. Đường nét dạng chữ nhật được gọi là mask và có kích thước có thể thay đổi
theo kích thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc
của mask là bội số của 16 pixel.
Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám.
Đường nét nhị phân là dạng đơn giản nhất chỉ ra đối tượng là rõ ràng hay không rõ
ràng (thấy được hoặc không thấy) ở bất kỳ điểm đã cho.
2.3.3.11.4 Mã hóa texture
Mã hóa texture, là thuật ngữ trong MPEG-4 tương ứng với việc mã hóa dữ
liệu ảnh chuyển động, dựa vào mã hóa MPEG-2 có mở rộng và cải tiến. Các đối
tượng video có thể được mã hóa với I-VOP, P-VOP, B-VOP. Hầu hết các profile
MPEG-4 đều sử dụng tiêu chuẩn 4:2:0 và YUV để mô tả đối tượng video texture.

87
Trong MPEG-4 không phải tất cả các đối tượng video có cùng kích thước và
việc mã hóa texture chỉ cần thiết ở những khu vực là một phần của đối tượng. Đối
với những đối tượng chữ nhật thì đơn giản chọn kích thước là bội số của 16 pixel
(một macroblock) theo mỗi hướng và tất cả các macroblock sẽ được xử lý. Đối với
các đối tượng có đường nét phức tạp thì đường biên (boundary) được định nghĩa là
tín hiệu đường nét (shape signal). Phạm vi của đối tượng cũng được định nghĩa bởi
dãy hình chữ nhật các macroblock nhưng mã hóa texture được thực hiện đối với toàn
bộ các macroblock trên đường biên hoặc phần bên trong đường biên đối tượng
I-VOP được mã hóa như khung I trong MPEG-2. MPEG-4 sử dụng bộ dự
đoán thích ứng đối với các giá trị DC. Bộ dự đoán cũng xác định gradient độ sáng
ngang và dọc và dự đoán giá trị DC từ các khối ở trên và bên trái theo hướng của
gradient nhỏ hơn
Sự tương quan của các ảnh ngoài việc có lợi cho dự đoán hệ số DC còn giúp
việc mã hóa các hệ số AC. Những vùng texture giống nhau sẽ tạo ra một dãy các
hệ số AC giống nhau sau khi biến đổi DCT. Các hệ số AC quan trọng nhất tương
trưng cho năng lượng lớn nhất của texture giống nhau rất nhiều (có lợi cho quá
trình mã hóa). Các hệ số này thông thường là các hệ số khác zero trong hàng đầu
tiên hoặc cột đầu tiên, chúng thường được lượng tử hóa với mức độ chính xác cao
nhất. Trong MPEG-4 các hệ số AC của hàng đầu tiên hoặc cột đầu tiên được dự đoán
từ các khối ngay ở trên và bên trái.
Việc lượng tử các hệ số cũng tương tự như phương pháp sử dụng trong MPEG-2
nhưng cơ chế quét các hệ số và mã hóa với chiều dài từ mã thay đổi thì được cải tiến
hơn.
Các phương pháp được chọn để đọc hệ số ra được xác định dựa vào quá trình dự
đoán DC. Khi không có dự đoán DC thì quét zigzag như trong MPEG-2 được sử
dụng. Nếu hệ số DC được dự đoán từ khối phía bên trái thì sử dụng quét dọc luân
phiên (Alternate-vertical scanning) là hệ thống quét sẽ đọc theo chiều dọc trước tiên.
Tuy nhiên nếu hệ số DC được dự đóan từ các khối ở trên thì chọn quét ngang luân
phiên (Altrenate Horziontal scan).
Để cải thiện hiệu quả của bộ mã hóa có chiều dài thay đổi (VLC) trong MPEG-4
dùng hai bảng VLC khác nhau.
2.3.3.11.5 Mã hóa đường biên
Khả năng mã hóa những đối tượng có đường nét tùy ý thường gặp những tình
huống đặc biệt ở đường biên của đối tượng. Khi đó, các khối nằm bên ngoài đường
biên thì không cần mã hóa texture. Nhưng tất cả những khối bên trong đường biên
được mã hóa theo các kỹ thuật đã trình bày. Mã hóa texture cần cho các khối đường
biên nhưng trong các khối đó chỉ có một phần thuộc đối tượng. Trước khi mã hóa
đường biên, người ta thực hiện biện pháp "đệm" (padding) các khối này. Những pixel

88
không phải là thành phần của đối tượng được gán cho những giá trị bằng nhau và
bằng với giá trị trung bình của tất cả các pixel trong phần đối tượng. Giá trị của các
pixel bên trong đối tượng không thay đổi. Việc thay đổi giá trị bên ngoài đối tượng
không ảnh hưởng đến kết quả sau cùng bởi vì các pixel này không được hiển thị. Quá
trình trên được xem là làm giảm thiểu năng lượng của các hệ số khi biến đổi DCT
2.3.3.11.6 Sprites
MPEG-4 có một lọai đối tượng khác thường được dùng làm cảnh nền là sprite.
Sprite là đối tượng video thường có kích thước lớn hơn màn hình hiển thị. Sprite là
đối tượng được sử dụng liên tục trong một cảnh (tương tự như cảnh nền tĩnh). Thông
thường một cảnh của game bao gồm cảnh nền và một số đối tượng nhân tạo di chuyển
theo kịch bản của game và hành động của người chơi. Trong quá trình hành động
cảnh được nhìn thấy chỉ là một vùng nhỏ trong cảnh nền, vùng này là thành phần của
cùng một ảnh tĩnh (Hình 2.3.25). MPEG-4 cung cấp khả năng truyền toàn bộ cảnh
nền như sprite và khả năng tạo cảnh khác nhau bằng cách truyền các thông tin
cropping và wraping để xác định phần sprite sẽ được hiển thị ở một thời điểm nhất
định. Sau khi sprite được truyền đi thì chỉ có thông tin cropping/wraping cho sprite và
các đối tượng cận ảnh (foreground) cần được truyền. Trong game điển hình mỗi phần
của sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng
kể.

Hình 2.3.25 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng
hiển thị của màn hình
Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả
nhưng sẽ làm tăng băng thông và thời gian truyền trước khi hoạt động có thể bắt đầu.
MPEG-4 sử dụng phương pháp sau để tránh vấn đề này. Sprite có thể truyền từng
phần khi cần. Một phần sprite cần thiết tại thời điểm tức thời sẽ được truyền đi. Tất cả
các cảnh sprite sẽ được lưu trữ ở bộ giải mã như là một phần của sprite. Theo phương
pháp khác, sprite có thể được mã hóa liên tiếp và truyền đi toàn bộ với độ phân giải
thấp và độ phân giải cao hơn sẽ được truyền sau.

89
Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG
trước và luôn được mã Intra bởi vì bản chất của ảnh là tĩnh.
2.3.3.11.7 Animations
Như đã biết một trong số những điểm mạnh của MPEG-4 là khả năng truyền
cả đối tượng tự nhiên cũng như các đối tượng được tự tạo ra (vì dụ hình animation) và
kết hợp chúng ở bộ giải mã. Một trong nhiều khả năng thú vị sử dụng đối tượng nhân
tạo là mặt người hoạt hình (facial animation). Đây cũng là một ví dụ khác của việc
ánh xạ texture thành đường nét chuyển động nhưng trong trường hợp này đường nét
được chỉ định bởi mô hình lưới hay mô hình 3D được hình thành bới các node. Vị trí
của mỗi node được mã hóa sử dụng mã hóa dự đoán trước để tăng hiệu suất mã khi
đường nét của khuôn mặt thay đổi.
Version 2 của MPEG-4 có thể thêm vào thân hình (body) động. Thân hình là
một đối tượng có thể tạo ra các mô hình thân hình ảo và động dưới dạng tập hợp lưới
3D nhiều cạnh. Hai tập hợp các thông số định nghĩa cho body: Tập hợp các tham số
định nghĩa body (BDP- body definition parameter) và tập hợp các thông số động
body (BAP - body animation parameter). Tập BDP định nghĩa tập các thông số để
biến đổi body mặc định thành các body theo yêu cầu khách hàng với bề mặt body,
kích thước body và texture. Các tham số động body (BAP) cho phép tạo ra chuyển
động với các mô hình body khác nhau. Như vậy, có thể ngay lập tức nhận BAP từ
luồng bit thu mà tạo ra sự linh hoạt của body. Khi thu được, BDP được dùng để biến
đổi body chung (body một người chuẩn chẳng hạn) thành các body riêng biệt dựa vào
giá trị của các thông số. Bất cứ thành phần nào cũng có thể trống. Một thành phần
trống có thể được thay thế bằng thành phần mặc định tương ứng khi body được
biều hiện. Các đặc điểm mặc định được xem như các đặc điểm chuẩn. Các đặc điểm
này được định nghĩa như sau: bàn chân chỉ đến hướng phía trước, hai cánh tay đặt ở
hai bên của body với lòng bàn tay hướng vào trong body. Các đặc điểm này cũng
ngầm định trong tất cả BAP có giá trị mặc định.
Mô hình body người có thể hổ trợ những ứng dụng khác nhau từ mô phỏng
chuyển động thực của người đến công nghệ game sử dụng mô hình giống như người.
2.3.3.11.8 Scalability
MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối
tượng. Trong cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base
layer) tượng trưng cho
chất lượng thấp nhất từ
luồng bit và một hoặc
nhiều lớp tăng cường
(enhancement layer).
Những lớp này có thể

90
được tạo ra bằng việc mã hóa đơn giản. Chất lượng hình ảnh có thể được điều chỉnh
thể bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit truyền đi sẽ chỉ
bao gồm chỉ lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bấc thấp. Một
cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết
định những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải
thấp hoặc tài nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.
Hình 2.3.26 Bộ mã hóa phân cấp chất lượng MPEG-4
Hình 2.3.26 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp
chất lượng với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống còn độ phân
giải thấp và mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ tổng
hợp Multiplexer. Lớp cơ sở còn được giải mã tại chỗ và đưa tới bộ up-converted để
có cùng độ phân giải như ngõ vào. Tín hiệu có độ phân giải cao này sẽ được so
sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu ra bộ trừ được mã
hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã hóa
tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi
lớp tăng cường chỉ sử dụng mã hóa dự đoán.
Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP
được chia thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa
lớp cơ sở, phần còn lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường.
Quá trình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối
tượng cơ sở. Điều này làm cho quá trình mã hóa và giải mã trửo nên linh động hơn.
Chẳng hạn một bộ giải mã trong hệ thống game không có đủ khả năng để giải mã tất
cả các đối tượng ở tốc độ cao nhất có thể nên nó chỉ chọn giải mã đối với cảnh nền
tốc độ thấp và chấp nhận mức độ chuyển động nền bị giựt, đồng thời giải mã với tốc
độ cao đối với các đối tượng cận ảnh làm cho chuyển động của chúng mịn hơn
2.3.3.11.9 Mã hóa mở rộng (ACE: Advanced Coding Extension)
Version 2 của MPEG-4 đưa ra ba công cụ mới để cải thiện hiệu suất mã hóa đối
với đối tượng video. Bao gồm: Bù chuyển động toàn cục (GMC: global motion
compensation), bù chuyển động phần tư (quarter pel motion compensation) và DCT
hình dáng thích ứng (shape- adative DCT). Các công cụ này cải thiện hiệu suất mã
đến hơn 50% so với version 1 tùy theo lọai ảnh và tốc độ bit.
GMC cho phép mã hóa toàn bộ chuyển động của đối tượng với một vài thông số
và cải thiện độ phân giải của vector chuyển động bằng cách giảm sai số do dự đoán
và sử dụng độ dư Shape-adaptive DCT có thể được dùng để cải thiện hiệu suất mã
của những khối đường biên khi không phải tất cả các pixel đều là phần tử của ảnh.
Thay vì sử dụng DCT hai chiều 8x8 thì dùng khối DCT một chiều đối với hàng dọc
được trước sau đó đến hàng ngang và chỉ xét những pixel thuộc đối tượng, gọi là các
active pixel.

91
Chuẩn H.261
Khuyến cáo H.261 của CCITT là chuẩn nén cho các dịch vụ hội nghị truyền hình
và điện thoại truyền hình qua mạng số dịch vụ tích hợp ISDN ở tốc độ n × 64Kbps.
Chuẩn này có 2 đặc tính quan trọng là ngưỡng trễ mã hoá tối đa là 150ms vì trễ này
phù hợp với truyền thông video hai chiều dựa vào cảm nhận của người xem về hình
ảnh phản hồi trực tiếp và dễ dàng thực hiện mạch tích hợp VLSI chi phí thấp cho việc
thương mại hoá sản phẩm rộng rãi.
2.3.3.13 Chuẩn H.263
H.263 là chuẩn dành cho video tốc độ thấp 46 Kbps dùng trong các ứng dụng
hội nghị từ xa qua mạng PSTN. Chuẩn này có cả đặc tính của MPEG-1 và MPEG-2.
Mã hoá video của H.263 dựa trên chuẩn H.261 và thực chất nó là phiên bản mở
rộng của H.261 với phương pháp mã hoá video kết hợp DPCM/DCT. Cả hai
chuẩn này đều dùng kỹ thuật chính như DCT, bù chuyển động, mã hoá chiều dài từ
mã thay đổi, lượng tử hoá vô hướng và xử lý trên cấp macroblock. Duy chỉ có khái
niệm về khung PB trong H.263 là khá đặc biệt, tên PB có nguồn gốc từ P và B, là sự
kết hợp của P và B.
So sánh chuẩn MPEG-4 Với chuẩn H264
(Cụ thể hơn với cơ sở giải toán)
Khác nhau:
I. Chuẩn MPEG -4
Là một chuẩn động, dễ thay đổi: với MPEG -4 các đối tượng khác nhau trong
một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ
giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau trên mạng.
Cũng nhờ xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh
xa, gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình…)
nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khung hình. Sự tổ hợp lại
thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng đó.

92
Hình 1:Cấu trúc của bộ mã hoá và giải mã Video MPEG - 4
Trên hình 1 là cấu trúc của bộ mã hoá và giải mã Video MPEG - 4, các thiết bị
mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video
(video-object) riêng biệt.
Các thiết bị MPEG -4 chia thành các nhóm công cụ gọi là các Profiles, mỗi
nhóm Profiles chỉ chứa một vài tính năng cần thiết của chuẩn mã hoá thích hợp cho
một phạm vi ứng dụng nào đó. Mỗi Profiles lại chỉ có một số các mức (Levels) khác
nhau, thể hiện mức độ phức tạp xử lý tính toán dữ liệu của công cụ đó (thông qua việc
xác định rõ tốc độ bít, con số tối đa của các đối tượng trong khung hình, độ phức tạp
của quá trình giải mã audio…)
Media Profiles có: Audio Profiles, Visual Profiles, Graphics Profiles.
MPEG 4 sử dụng 3 loại khung hình để mã hóa và giải mã Video
Khung hình I (Intra Pictures): được mã hóa mà không có sự so sánh tham
khảo các ảnh khác, dùng trong nén trong ảnh. Chúng chứa tất cả các thông tin cần
thiết để tái tạo lại ảnh sau giải mã, nên tỷ lệ nén các ảnh I tương đối thấp. Vì vậy, ảnh
I là điểm nút quan trọng phục vụ việc truy cập vào một đoạn Video.
Khung hình P (Predicted Pictures): được mã hoá từ ảnh I, ảnh P trước đó, nhờ
sử dụng các thuật toán dự đoán bù chuyển động. Các ảnh P có thể được sử dụng như
là cơ sở dữ liệu cho việc dự đoán ảnh tiếp theo. Tuy nhiên do hạn chế của kỹ thuật bù
chuyển động, số ảnh P giữa hai ảnh I không thể quá lớn. Tỷ lệ nén của các ảnh P
tương đối lớn so với tỷ lệ nén các ảnh I.
Khung hình B (Bidirectionally Predicted Pictures): được mã hoá bởi phép nội
suy giữa các ảnh I và P ở trước và sau đó. Vì không được sử dụng để mã hoá các ảnh
tiếp theo, ảnh B không phải là nguồn gốc sinh ra các lỗi ảnh trong quá trình mã hoá.
Các ảnh B cho tỷ lệ nén cao nhất.
II. Chuẩn H264
Chuẩn nén MPEG-4AVC hay còn gọi là H.264/MPEG-4 Part 10 được sử dụng
để truyền dẫn video trên đối tượng là mạng Internet.
Ưu điểm của H264 so với các chuẩn trước đó:
- Phân chia mỗi hình ảnh thành các Block bao gồm nhiều điểm ảnh.
- Có Dự đoán về không gian nhờ Khai thác triệt để sự dư thừa về mặt không gian
tồn tại giữa các hình ảnh liên tiếp bởi một vài mã của những Block gốc.
- Khai thác sự phụ thuộc tạm thời giữa các Block của hình ảnh liên tiếp, do đó
chỉ cần mã hoá những chi tiết thay đổi giữa các ảnh liên tiếp. Việc này được thực hiện
thông qua dự đoán và bù chuyển động.

93
- Bất kỳ Block nào cũng có thể được thực hiện từ một hoặc vài ảnh mã hoá trước
đó hay ảnh được mã hoá sau đó để quyết định Vector chuyển động (Các Vector được
sử dụng trong bộ mã hoá và giải mã để dự đoán các loại Block).
- Khai thác tất cả sự dư thừa về không gian còn lại trong ảnh bằng việc giải mã
các Block dư thừa. Ví dụ như sự khác biệt giữa các Block gốc và Block dự đoán sẽ
được mã hoá thông qua quá trình biến đổi, lượng tử hoá và mã hoá Entropy.
Profile xác định tập các công cụ mã hoá hoặc các thuật toán mã hoá có thể được
sử dụng để tạo ra các dòng bít tương thích. Level đặt ra những giới hạn cho những
thông số chủ yếu nhất định của dòng bít.
1. Mã hóa video của H264:

Hình 2: Sơ đồ mã hoá Video của H264/MPEG Part 10


Lớp mã hoá video của H264/MPEG Part 10 là sự kết hợp của mã hoá không
gian, mã hoá thời gian và mã chuyển vị.
Ảnh được tách thành các khối, ảnh đầu tiên của dãy hoặc điểm truy cập ngẫu
nhiên thì được mã hoá “Intra”- mã hoá trong ảnh, có nghĩa là không dùng thông tin
của các ảnh khác mà chỉ dùng thông tin chứa trong ảnh đó, (Mỗi mẫu của một khối
trong một Frame Intra được dự đoán nhờ dùng các mẫu không gian bên cạnh của các
khối đã mã hoá trước đó).
Đối với tất cả các ảnh còn lại của dãy hoặc giữa các điểm truy cập ngẫu nhiên,
mã hoá “Inter” được sử dụng, dùng dự đoán bù chuyển động từ các ảnh được mã hoá
trước đó.
Bộ mã hoá có thể lựa chọn giữa mã hoá Intra và Inter cho miền hình dạng khối
của mỗi ảnh.

94
Bộ lọc tách khối làm giảm sự nhiễu khối tại các đường biên của block.
Cuối cùng, Vector chuyển động hay các mode dự đoán liên ảnh được liên kết với
thông tin của hệ số biến đổi lượng tử hóa và được mã hoá sử dụng mã.
Các ảnh và bù chuyển động dùng trong H264/MPEG Part 10
* Chia ảnh thành các Macro-Block .
Mỗi ảnh video, Frame hoặc Field được chia thành các Macro-Block (khối lớn)
có kích thước cố định 16 x 16 mẫu cho thành phần chói(luma) và 8 x 8 mẫu cho một
trong hai thành phần màu(chroma).
H264/MPEG Part 10 hỗ trợ 5 dạng mã hóa Slice khác nhau:
Khung hình (slice) I, trong đó tất cả Macro-Block được mã hoá không có sự
tham chiếu tới các ảnh khác trong dãy video.
Hai dạng Slice P và Slice B có sự tham chiếu tới các ảnh khác; với Slice P thì
chỉ tham chiếu tới các ảnh trước đó; còn Slice B thì tham chiếu tới cả ảnh trước và ảnh
sau nó. Hai dạng khác mà mới xuất hiên ở H264/MPEG Part 10 đó là SI (Switching I)
và SP (Switching P) được dùng để cho chuyển mạch hiệu quả giữa các dòng bít được
mã hoá ở các tốc độ bít khác nhau.
- Slice SP: Slice mã hoá đặc biệt để có khả năng chuyển đổi giữa các dòng
video, tương tự như việc mã hoá một Slice P.
- Slice SI: Slice đã chuyển đổi tương tự như việc mã hoá một Slice I.
* Dự đoán trong ảnh Intra- Frame.
H.264 sử dụng phương pháp dự đoán các Macro-Block mã hoá trong ảnh để
giảm một lượng lớn các bít được mã hoá bằng chính bản thân tín hiệu gốc đưa vào.
Để lấy mẫu tín hiệu chói, Block dự đoán có thể được định dạng: Cho mỗi Block
nhỏ (Subblock) là 4 x 4, mỗi Block là 8 x 8, hay mỗi Macro-Block là 16 x 16.
Trong trường hợp được lựa chọn từ 9 mode: cho các Block luma (khối tín hiệu
chói) là 4 x 4 và 8 x 8; 4 mode cho một Block luma 16 x 16; và 4 mode cho mỗi
Block chroma (khối tín hiệu màu).

Hình 3: Các mode trong MPEG-4

95
Hình 3 chỉ ra một Block luma 4 x 4 được dự đoán. Để dự đoán các mẫu [a,b, …,
p] cho Block hiện tại, các mẫu khôi phục lại ở phía trên và bên trái trước đó [A,B,
…,M] được dùng theo định hướng các mode. Các mũi tên trong hình 18 chỉ định
hướng dự đoán của mỗi mode. Với mode 0 (vertical-theo chiều dọc) và mode 1
(horizontal-theo chiều dọc), các mẫu dự đoán được định dạng bằng phép ngoại suy từ
các mẫu cao [A,B,C,D] và từ các mẫu bên trái [I, J, K, L], tách biệt nhau. Với mode 2
(DC- một chiều), tất cả các mẫu dự đoán được định dạng bằng cách lấy trung bình của
các mẫu phía trên và bên trái [A, B, C, D, I, J, K, L]. Với mode 3 (đường chéo xuống
phía trái), mode 4 (đường chéo xuống phía phải), mode 5 (theo chiều dọc phía phải),
mode 6 (theo chiều ngang xuống), mode 7 (theo chiều dọc phía trái) và mode 8 (theo
chiều ngang lên), các mẫu dự đoán được định dạng từ trọng số trung bình của các mẫu
dự đoán từ A-M.
Ví dụ, các mẫu a và d được dự đoán lần lượt bằng cách tính làm tròn (I/4 + M/2
+ A/4) và (B/4 + C/2 + D/4) trong mode 4, và bằng (I/2 + J/2) và (J/4 + K/2 + L/4)
trong mode 8. Bộ mã hoá có thể lựa chọn mode dự đoán cho mỗi Block để số dư giữa
các Block được mã hoá và dự đoán là nhỏ nhất.
Để dự đoán cho mỗi Block luma 8 x 8, một mode được lựa chọn từ 9 mode,
tương tự như việc dự đoán khối trong ảnh 4 x 4. Để dự đoán cho tất cả thành phần độ
chói luma 16 x 16 của một Macro-Block, thì ta phải dùng 4 mode. Với mode 0 (theo
chiều dọc), mode 1 (theo chiều ngang), mode 2 (DC), việc dự đoán thì tương tự như
trong các trường hợp của Block luma 4 x 4. Với mode 4 (mặt phẳng-Plane), một hàm
mặt phẳng tuyến tính được làm khớp với các mẫu phía trên và bên trái. Mỗi thành
phần màu của một Macro-Block được dự đoán từ các mẫu thành phần màu ở phía trên
và/hay đến bên trái mà vừa được mã hoá hay khôi phục lại trước đó. Việc dự đoán
thành phần màu được định nghĩa cho 3 kích cỡ Block có thể là: thành phần màu 8 x 8
định dạng 4:2:0, thành phần màu 8 x 16 trong định dạng 4:2:2 và thành phần màu 16 x
16 trong định dạng 4:4:4. Với 4 mode dự đoán cho tất cả các trường hợp thì rất giống
với mode dự đoán thành phần chói 16 x 16, ngoại trừ các mode có thứ tự sau là khác:
mode 0, mode 1, mode 2 và mode 3.
* Bù chuyển động trong các Slice P (Prediction Inter Frame)
Ngoài các dạng mã hoá Macro-Block Intra, các dạng mã hoá bù chuyển động
hoặc dự đoán khác được xác định cho các Macro-Block Slice P.
-Chia Macro-Block thành các Block : Trong H.264, ảnh hiện tại có thể được
phân chia thành các Macro-Block hay các Block nhỏ hơn. Một Macro-Block của các
mẫu thành phần màu 16 x 16 có thể chia nhỏ hơn thành các Block kích cỡ từ 4 x 4.
Với Macro-Block mode 16 x 16, có 4 trường hợp là: 16 x 16, 16 x 8, 8 x 16, hay 8 x

96
8, ngoài ra cũng có 4 trường hợp cho mode 8 x 8 là : 8 x 8, 8 x 4, 4 x 8, hay 4 x 4 .

Hình 4: Phân chia Macro-Block cho bù chuyển động


Trên: Phân chia các Macro-Block .
Dưới: Phân chia các phần 8 x 8.
Việc lựa chọn kích cỡ phân chia phụ thuộc vào các đặc điểm video đầu vào.
- Các giá trị dự đoán cho thành phần chói (Luma) và thành phần màu
(Chroma):
Tín hiệu dự đoán cho mỗi khối luma m x n đã mã hoá dự đoán thu được bằng
việc đổi chỗ diện tích của ảnh tham chiếu tương ứng, nó được xác định bởi Vector
chuyển động biến đổi và chỉ số ảnh tham chiếu.
Như vậy, nếu Macro-Block được mã hoá khi dùng dạng Sub-Macro-Block
(Macro-Block phụ) Inter 4 x 4, nhiều nhất 16 Vector chuyển động có thể được truyền
đi cho một Macro-Block P Slice. Độ chính xác bù chuyển động bằng ¼ khoảng cách
mẫu (trong MPEG-4 là ½ pixel).
Trong trường hợp Vector chuyển động nhắm trúng vị trí của một mẫu nguyên
vẹn (Integer- Sample), các tín hiệu dự đoán là các mẫu tương ứng của ảnh tham chiếu;
nếu khác đi, chúng được nội suy ở các vị trí của mẫu con (Sub-Sample). Trong thành
phần tín hiệu chói, các mẫu phần tử ảnh phụ tại vị trí một phần hai phần tử ảnh được
phát đầu tiên và được nội suy từ các mẫu phần tử ảnh nguyên bên cạnh sử dụng một
bộ lọc FIR 6 đầu ra với các trọng số (1, -5, 20, 20, -5, 1)/32.
Với thành phần tín hiệu màu (Chroma): Việc lấy mẫu nguồn Video định dạng
4:2:0, 1/8 các mẫu phần tử ảnh được dùng trong các thành phần màu (tương ứng với
¼ các mẫu phần tử ảnh trong thành phần màu).
-Bù chuyển động: H264/MPEG Part 10 cho phép các Vector chuyển động
không hạn chế, tức là chúng có thể nhắm ra ngoài miền ảnh. Trong trường hợp này
các Frame tham chiếu được mở rộng ra ngoài biên ảnh bằng việc lặp lại các Pixel biên
trước khi nội suy.

97
H264/MPEG Part 10 hỗ trợ dự đoán bù chuyển động đa ảnh (Multi-Picture).
Điều này có nghĩa là có nhiều hơn một ảnh được mã hoá trước đó có thể được sử dụng
để tham chiếu cho dự đoán bù chuyển động.

Hình 5: Bù chuyển động nhiều Frame – ngoài Vector chuyển động, các
tham số tham chiếu ảnh (Δ) cũng được truyền đi.
Cả bộ mã hoá và bộ giải mã phải lưu trữ các ảnh tham chiếu được sử dụng cho
dự đoán ảnh Inter trong bộ nhớ đêm đa ảnh (Multi-Picture).
Bộ giải mã sao lưu lại bộ nhớ đệm đa ảnh của bộ mã hoá, theo dạng nhớ đệm
ảnh tham chiếu và các hoạt động điều khiển quản lý bộ nhớ bất kỳ được xác định
trong dòng bít.
Tham số chỉ số tham chiếu cho mỗi khối luma bù chuyển động 16 x 16, 16 x 8,
8 x 16 hoặc 8 x 8.
Ngoài các mode bù chuyển động được mô tả ở trên, Macro-Block P- Slice cũng
có thể được mã hoá trong mode gọi là SKIP
Các tín hiệu thiết lập lại thì thu được tương tự như cách với tín hiệu dự đoán của
Macro-Block Inter 16 x 16, tức là tham chiếu tới ảnh đặt ở vị trí có chỉ số 0 trong bộ
nhớ đệm đa ảnh.
Nhìn chung Vector chuyển động được sử dụng cho việc thiết lập lại Macro-
Block SKIP là đồng nhất với bộ dự đoán Vector chuyển động cho khối 16 x 16. Nếu
các điều kiện đặc biệt được duy trì, Vector chuyển động Zero được sử dụng thay cho
nó.
- Bù chuyển động trong các Slice B (Bi-Direction Prediction Inter Frame)
Dự đoán hai chiều rất có hiệu quả để giảm sự tương quan theo thời gian bằng
việc sử dụng các ảnh tham chiếu.

98
Các chuẩn nén hiện nay với các ảnh B sử dụng mode dự đoán hai chiều, tức là
chỉ cho phép kết hợp các tín hiệu dự đoán trước đó với các tín hiệu dự đoán sau. Một
tín hiệu dự đoán được nhận từ một ảnh trong ảnh (Inter Picture) tiếp sau, hay từ một
ảnh dự đoán trước, hoặc từ tín hiệu trung bình tuyến tính của hai tín hiệu dự đoán bù
chuyển động.

Hình 6: Ảnh nội suy B (dự đoán hai chiều)


So với các tiêu chuẩn trước đó, H264/MPEG Part 10 đã tổng quát khái niệm
Slice B và không những chỉ hỗ trợ một cặp dự đoán theo hướng forward/backward
(tiến/lùi)(+1/-1) mà còn cả hai cặp theo hướng forward/forward (tiến/tiến) và
backward/backward (lùi/lùi).
Tham chiếu tiến hai bước (two forward) có thể có lợi cho dự đoán bù chuyển
động của một vùng vừa thay đổi cảnh trước đó, và tham chiếu lùi hai bước mà cảnh
vừa thay đổi sau đó.
Các ảnh khác có thể tham chiếu các ảnh B cho dự đoán chuyển động, phụ thuộc
vào hoạt động điều khiển quản lý bộ nhớ của việc nhớ đệm đa ảnh.
- Dự đoán có trọng số (weighted Prediction)
Sự biến đổi dần dần từ cảnh nay sang cảnh khác thì cần các ảnh có trọng số khác
nhau.
Sự biến đổi dần dần là rất phổ biến trong các chuyển động, chuyển cảnh từ mờ
dần sang đen (fade to black) (fade to black : các mẫu thành phần chói của cảnh dần
dần xấp xỉ zero, các mẫu thành phần màu dần dần xấp xỉ 128), một cảnh chuyển đổi
sang mờ dần từ đen (fade from black).
H264/MPEG Part 10 sử dụng phương pháp dự đoán có trọng số cho một Macro-
Block của Slice P hay Slice B. Một tín hiệu dự đoán là p cho Slice B được thu được
bằng các trọng số khác nhau từ hai tín hiệu tham chiếu là r1 và r2, ta có:
P = w1 x r1 + w2 x r2

99
Trong đó w1 và w2 là các trọng số. Nó được xác định khác nhau theo hai loại ẩn
(Implicit) và hiện (explicit) trong bộ mã hoá.
- Việc phân chia các Macro-Block : Các Slice B dùng sự chia nhỏ Macro-
Block tương tự như với các Slice P. Tức là với Macro-Block 16 x 16 có thể phân chia
thành các phần với kích thước như: 16 x 16, 16 x 8, 8 x 16 và 8 x 8; còn với khối có
kích thước 8 x 8 thì có thể chia thành các phần với kích thước như: 8 x 8, 8 x 4, 4 x 8
và 4 x 4.
Ngoài ra với các mode dự đoán khác nhau (như dự đoán trực tiếp hay dự đoán
hai chiều) có thể dùng các kích thước ảnh khác nhau.. Nếu không có tín hiệu dự đoán
được truyền đi cho mode Macro-Block trực tiếp, nó sẽ được dùng đến mode SKIP
Slice Block và có thể được mã hoá rất hiệu quả, tương tự như với mode SKIP trong
các Slice P.
Các Vector bù chuyển động cũng tương tự như đối với Slice P với những biến
đổi thích hợp vì các khối bên cạnh có thể được mã hoá khi dùng mode dự đoán khác
nhau.
- Các mảng SP và SI.
Trong các tiêu chuẩn trước đó, việc chuyển đổi hoàn toàn giữa các dòng bít
(bitstream) thì có thể chỉ trong một ảnh I. Việc khôi phục lại các ảnh I tại các khoảng
thời gian cố định cho phép truy cập ngẫu nhiên hay hiển thị lại nhanh. Tuy nhiên, mặt
hạn chế của ảnh I là nó yêu cầu số lượng bít lớn, vì vậy các ảnh I không khai thác
được sự dư thừa về mặt thời gian.
H.264 giới thiệu các mảng chuyển đổi là SP (Switching P) và SI (Switching I) để
chuyển đổi giữa các dòng bít được mã hoá ở các tốc độ bít khác nhau.
Các tín hiệu dự đoán Inter của các dòng bít cho một Frame (khung hình) SP
được chọn được lượng tử hoá trong miền biến đổi, sau đó được đưa vào dải biên độ
thô hơn để cho phép mã hoá tốc độ bít thấp tín hiệu khác nhau giữa các dòng bít.
Các Frame SI được xác định để thực hiện sự thích nghi hoàn thiện cho các
Frame SP trong trường hợp mà dự đoán Inter không thể được sử dụng do các lỗi
truyền dẫn.

100
Hình 7: chuyển đổi sử dụng ảnh SP

Trong hình 7 chỉ ra một ví dụ về cách sử dụng các ảnh SP chuyển đổi giữa các
dòng bít .
Có 2 dòng bít là P(1,k) và P(2,3) tương ứng với cùng một chuỗi bít được mã hoá
tại các tốc độ bít khác nhau. Trong khoảng thời gian mỗi dòng bít được mã hoá, các
ảnh SP được đặt tại các vị trí chuyển đổi từ một dòng bít đến dòng bít khác sẽ được
cho phép.
Trong trường hợp chuyển đổi từ dòng bít P(1,3) ở trên đến P(2,3), một ảnh SP là
S(3) cho phép đưa ra ảnh P(2,3) đã giải mã bằng việc sử dụng P(1,2) trong dòng bít
khác, thậm chí là bao gồm các bù chuyển động.
Mảng SI được sử dụng tương tự như mảng SP, nhưng dự đoán được định dạng
bằng việc sử dụng các mode dự đoán trong ảnh 4 x 4 từ các mẫu đã giải mã trước đó
của ảnh đã được khôi phục lại.
Xác định Vector chuyển động (Motion Estimation)
Một con số (giá trị SAD “Summation of Absolute Difference” = tổng sự khác
nhau tuyệt đối) thu được cái đó biểu thị “how well- tốt như thế nào” đó là khối riêng
biệt thích hợp với vị trí nào đó trong ảnh trước đó.
Nếu giá trị SAD (là không (zero) nghĩa là mỗi điểm ảnh (pixel) là chính xác
trong cùng một vị trí như trong ảnh trước đó, cho nên vị trí mới cho khối đó tìm được.
Nếu không một vị trí nào là khớp hoàn toàn, thì thuật toán có hai lựa chọn :
- Đầu tiên : nó kết luận rằng tất cả sự khác nhau là quá lớn nghĩa là một câu hỏi
đặt ra là một thực thể mới không tồn tại trong ảnh trước đó hay nó di chuyển quá xa
so với vị trí trước hay vị trí sau đó.
- Trong trường hợp thứ hai, giá trị SAD nhỏ khác không (nonezero) nó chấp
nhận sự thoả mãn nhất tuy nhiên sự thoả mãn đó không hoàn toàn.

101
Trong tiêu chuẩn MPEG -4, với mỗi 16 x 16 điểm ảnh trong một khối thì được
thoả mãn cho tất cả các vị trí trong một vùng tìm kiếm, phạm vi đó xa bao nhiêu từ vị
trí gốc một khối (block) có thể di chuyển giữa hai khung (frame). Điển hình vùng tìm
kiếm là +/- 16 điểm ảnh. Khi đó, với mỗi vị trí tìm kiếm là 256(=16 x 16) điểm ảnh
của mọi block thì được so sánh với ảnh trước đó. Với định dạng CIF độ phân giải là
(352 x 288) tại 30 ảnh (frame) trên một giây (frame/s) cho dòng video, con số so sánh
như sau:
- Mỗi Macro-Block có: 16 x 16 = 256 pixel;
- Mỗi Macro-BLock được thoả mãn trong mỗi vị trí tìm kiếm là: 16 x 16 =256;
- Mỗi khung hình (frame) bao gồm 396 block;
- 30 khung hình được xử lý trong mỗi giây.
Như vậy, tổng sự khác nhau (cả cộng và trừ) trong một giây kết quả là:
256 x 256 x 396 x 30 = 778.567.680.
Ví dụ bộ xử lý đa năng có khả năng thực hiện cả việc cộng và trừ trong một chu
kỳ đồng hồ, bộ xử lý có thể cần chạy với tần số là 779 MHz để thực hiện xác định
vector chuyển động. Có hai giải pháp tiêu biểu như sau:
1. Nhẹ nhàng hơn là dùng thuật toán tối ưu nhất.
2. Có sự trợ giúp của phần cứng là xác định vector chuyển động.
Nén video
Ưu điểm độc đáo hơn của H264/MPEG Part 10 là ở chỗ nó sử dụng biến đổi
không gian nguyên(gần giống với DCT) đối với các khối 4 x 4 điểm ảnh.
Xét biến đổi nguyên cho cấu trúc 4 x 4 như sau:
+ Cho hệ số DCT của khối dữ liệu đầu vào 4 x 4 là F, công thức chính xác được
cho là: X=HFHT (1)
Trong đó ma trận H là

HT là ma trận chuyển vị của ma trận H.


Các giá trị a,b, c là :

102
Tuy nhiên để cho đơn giản ta có thể cho giá trị c =0.5 và để đảm bảo tính trực
giác thì các giá trị của a, b được lựa chọn như sau:

Do phép nhân trong quá trình biến đổi được tránh do phải kết hợp với quá trình
lượng tử hoá, vì vậy phương trình (1) được viết thành :

Trong đó :
+ Ma trận H được cho là :

+ Ma trận SF là :

Ký hiệu biểu diễn phép nhân tích trực tiếp phần tử với phần tử (the element by
element multiplication ) của ma trận tương ứng.
So sánh với MPEG-2, thì ta thấy trong từng Slice sẽ có 1 khối đầu tiên chứa giá
trị hệ số DC và các khối tiếp theo sẽ có những giá trị sẽ có những giá trị khác nhau,
những khối này được gán thêm giá trị dự đoán khối, tạo thành chuỗi dòng khối. Còn
với MPEG-4 có thể dự đoán xa hơn. Chỉ cần một khối cũng có thể dự đoán toàn bộ
hàng trên cùng của hệ số hoặc có thể dự đoán toàn bộ cột bên trái của hệ số từ 1 khối
đầu tiên.
- Lượng tử hoá
H264/MPEG Part 10 dùng phương pháp lượng tử hóa vô hướng. Các bộ lượng
tử hoá được lựa chọn cho mỗi Macro-Block là dựa vào các tham số lượng tử hoá QP
(Quantization Parameter). Các bộ lượng tử hoá được sắp xếp sao cho có sự tăng
khoảng 12.5% trong kích thước bước lượng tử hoá khi QP tăng một đơn vị. Nhìn
chung các hệ số biến đổi được lượng tử hoá của khối được quét zig-zag và được
truyền đi nhờ dùng phương pháp mã hoá Entropy.
-Mã hoá Entropy
Mã hoá Entropy trong các tiêu chuẩn trước đó như MPEG -1,2,4, H.261, và
H.263 thì cơ bản là trên các bảng cố định mã hoá biến đổi theo chiều dài (VLC). Các

103
tiêu chuẩn đó xác định các bộ mã hoá từ là cơ bản trên sự phân bố xác suất của các
video chung thay cho mã Huffman chính xác đến các chuỗi video.
Tuy nhiên H.264 sử dụng các VLC để mà khớp với một biểu tượng được mã hoá
cơ bản trên các đặc trưng của ngữ cảnh.
Để mã hoá dữ liệu dư thừa, một phương pháp phức tạp hơn gọi là CAVLC(mã
hoá chiều dài biến đổi tương thích theo tình huống) được phát triển. Ngoài ra,
CABAC (mã hoá thuật toán nhị phân tương thích theo tình huống) được phát triển
trong Mail Profile và High Profile, CABAC có khả năng mã hoá tốt hơn nhưng độ
phức tạp cao hơn so với CAVLC.
+ Mã hoá chiều dài biến đổi tương thích theo tình huống - Context-based
Adaptive Variable Length Coding (CAVLC)
Sau khi biến đổi và lượng tử hoá, xác suất các hệ số là zero hay +/-1 là rất lớn.
CAVLC xử lý các hệ số zero và +/-1 theo cách khác nhau với các mức của các hệ số.
Tổng số các số zero và +/-1 được mã hoá. Các hệ số khác các mức của chúng được
mã hoá.
+ Mã hoá thuật toán nhị phân tương thích theo tình huống – Context –
based Adaptive Binary Arithmetic Coding (CABAC)
CABAC dùng thuật toán để mã hoá, để đạt được hiệu quả nén tốt hơn, mô hình
có khả năng cho mỗi phần tử biểu tượng được cập nhật như trong hình 28. Quá trình
xử lý mã hoá CABAC bao gồm 3 bước cơ bản sau đây:

Hình 8: Sơ đồ khối của CABAC


- Bước 1: Nhị phân hoá; một biểu tượng giá trị của nó không phải là nhị phân
(như một hệ số biến đổi hay Vector chuyển động) là bản đồ duy nhất để chuỗi nhị
phân trước đó được mã hoá thuật toán. Quá trình xử lý này thì giống như việc xử lý
của việc biến đổi một biểu tượng dữ liệu thành mã hoá chiều dài biến đổi, nhưng mã
nhị phân được mã hoá tốt hơn bằng bộ mã hoá thuật toán trước đó để truyền.
- Bước 2: phạm vi làm mô hình: một phạm vi mô hình thì có khả năng cho một
hay nhiều phần tử của biểu tượng đã nhị phân. Một mô hình có khả năng được lựa
chọn như để việc lựa chọn sự tương ứng có thể phụ thuộc vào các phần tử cú pháp đã
mã hoá trước đó.

104
- Bước 3: thuật toán mã hoá nhị phân:Một bộ mã hoá thuật toán mã hoá mỗi
phần tử theo mô hình có khả năng lựa chọn cùng với một việc cập nhật mô hình tiếp
sau.
Bộ lọc tách khối
H.264/MPEG-4 Part 10 sử dụng bộ lọc tách khối (Deblocking Filter) để làm
giảm hiện tượng tách khối, ngăn chặn việc truyền của tạp âm mã hoá được tích luỹ.
Tại bộ lọc này, cường độ lọc được điều khiển bởi giá trị của nhiều phần tử cấu trúc.
Các chuẩn nén trước đó đã không sử dụng bộ lọc tách khối bởi vì việc bổ sung
rất phức tạp, mặt khác việc chia các nhiễu khối có thể được làm giảm bằng việc sử
dụng MC chính xác một nửa phần tử ảnh.
H.264 sử dụng bộ lọc tách khối để việc thực hiện việc mã hoá cao hơn mặc dù
việc thực hiện rất phức tạp. Việc lọc được áp dụng cho các mép của các Block 4 x 4
trong một Macro-Block. Quá trình điều khiển bộ lọc tách khối thành phần chói được
thực hiện trên 4 cạnh của mẫu 16 x 16 (16-sample) và quá trình xử lý bộ lọc tách khối
cho mỗi thành phần màu được thực hiện trên 2 cạnh của mẫu 8 x 8.
Bộ lọc tách khối được áp dụng tương thích với một vài mức(level) sau:
- Mức mảng (Slice Level): Mặt mạnh của của việc lọc toàn bộ có thể được điều
chỉnh tới các đặc điểm riêng của chuỗi video.
- Mức cạnh của khối (Block – edge Level ): mặt mạnh của việc lọc là phụ thuộc
vào việc quyết định dự đoán Inter/Intra, các chuyển động khác nhau, và việc hiển thị
của các dư thừa mã hoá trong 2 Block tham gia. Đặc biệt việc lọc mạnh được áp dụng
cho các Macro-Block với các đặc điểm rất phẳng để loại bỏ “sự nghiêng nhân tạo
(tilting artifacts)”.
- Mức lấy mẫu (Sample Level): các giá trị mẫu và các điểm bắt đầu phụ thuộc
vào bộ lượng tử hóa có thể dừng việc lọc cho mỗi mẫu riêng biệt.

2. Kỹ thuật giải mã video của H264

105
Hình 9: Sơ đồ giải mã Video H264/MPEG -4 Part 10
Bù chuyển động
Bù chuyển động thực hiện việc thiết lập lại các khung hình (frame) trên cơ sở
các Vector đã nhận được, dữ liệu khung hình delta đã nhận (dữ liệu khác nhau giữa
hai khung hình liên tiếp) và hình ảnh đã mã hoá trước đó.
Vì vậy, nếu dữ liệu delta được nhận, thì dòng khung hình được thiết lập lại bằng
việc cộng dữ liệu khung hình delta với dữ liệu từ khung hình đã được giải mã trước đó
trong vị trí riêng đã được chỉ dẫn bằng Vector chuyển động đã nhận được.
Khôi phục lỗi (Error Resiliency)
Lỗi đàn hồi bao gồm ba loại kỹ thuật khác nhau được sử dụng khi một lỗi được
phát hiện. Việc phát hiện lỗi có thể xảy ra trong 3 trường hợp sau:
- Trong trường hợp có một lỗi, lỗi đó thực sự được phát hiện;
- Trong trường hợp có một lỗi, lỗi đó không được phát hiện;
- Trong trường hợp không có lỗi, bộ giải mã biết là không có lỗi;

Nếu lỗi được phát hiện, hệ thống bộ giải mã lỗi đàn hồi cố gắng che giấu lỗi. 1.
Đồng bộ lại ( Resynchronisation)
Bộ công cụ Đồng bộ lại cố gắng để có thể đồng bộ lại giữa bộ giải mã và dòng
bít sau khi một lỗi hay một loạt lỗi được phát hiện.
Khôi phục dữ liệu (Data Recovery)
Sau khi đồng bộ vừa được thiết lập lại, các công cụ khôi phục dữ liệu cố gắng
khôi phục lại dữ liệu thường bị mất.
Các công cụ đó không chỉ đơn giản là mã hoá đúng các lỗi, mà kỹ thuật đòi hỏi
cao hơn là mã hoá dữ liệu cho một loại lỗi đàn hồi. Ví dụ, một bộ công cụ riêng vừa
được xác nhận bằng nhóm Video (Video Group) là mã hoá chiều dài biến đổi ngược

106
RVLC (Reversible Variable Length Codes). Trong phương pháp này, các từ mã hoá
chiều dài biến đổi được thiết kế để đọc cả hướng tiến cũng như hướng lùi.

Hình 10: Ví dụ về Mã hoá chiều dài biến đổi ngược

Hình 10 minh hoạ cho ví dụ trên sử dụng một RVLC được chỉ ra trong hình dưới
đây. Nhìn chung, trong một tình huống như vậy, nơi mà một sự tăng vọt của các lỗi
làm sai lạc một phần của dữ liệu, tất cả dữ liệu giữa hai điểm đồng bộ có thể bị mất.
Tuy nhiên, được chỉ ra trong hình 26, một RVLC làm cho một vài dữ liệu được khôi
phục. Chú ý đến các thông số QP và HEC trong hình sau thể hiện các trường dành
riêng (Field Reserved) trong phần đầu header gói video cho thông số lượng tử hoá và
mã hoá mở rộng header, theo thứ tự định sẵn.
Tóm lại hiệu quả mã hoá của H264/MPEG Part 10 với các tiêu chuẩn trước
đó
• Dự đoán hệ số AC/DC mà ở đó các hệ số Macro-Block được dự đoán từ các hệ
số trong các Macro-Block bên cạnh và từ một số dữ liệu trong bản thân Macro-Block .
Việc giải mã Macro-Block phải thay đổi khác với thuật toán dòng bít đơn giản trước
đó để đưa vào một số tính toán cho mỗi hệ số.
• Các công cụ toán học mới như CAVLC và CABAC cho sự cải thiên đáng kể
trong mã hoá Entropy.
• Trong khi bù chuyển động trong MPEG-2 Part 2 được hạn chế đến nội suy hai
chiều ½ pixel thì H264/MPEG Part 10 cho phép các Vector chuyển động chính xác
đến ¼ pixel và sau đó dùng nội suy nhiều chiều(Bi-cubic). Nội suy nhiều chiều tạo ra
sự thích hợp hơn cho Macro-Block , do vậy giảm năng lượng được lưu trong ảnh lỗi,
làm giảm số bít cần phải mã hoá. Tuy nhiên nội suy nhiều chiều đòi hỏi nhiều thuật
toán hơn, sự phức tạp thực hiện bù chuyển động cao hơn.
• Việc dùng bộ lọc tách khối ở cả hai phía bộ mã hoá và bộ giải mã làm giảm sự
không liên tục ở các biên của khối do các hệ số chất lượng khác nhau được sử dụng
cho các khối cạnh nhau gây ra. Điều này làm giảm nhiễu khối thường thấy trong mã
hoá MPEG-2 tốc độ bít thấp vì nó nằm trong vòng bù chuyển động, bộ mã hoá và bộ
giải mã vẫn còn trong sự đồng bộ. Công cụ này có ảnh hưởng đến tính phức tạp của
bộ mã hoá và bộ giải mã vì số biên khối và cũng vì thực tế là bộ lọc tách khối cũng
không thể được thực hiện như một module riêng biệt.

107
• Kích thước khối thay đổi từ 16 x 16 xuống còn 4 x 4. Khi kích thước khối giảm
cung cấp độ lợi mã hoá mà không có sự tăng đáng kể tính phức tạp.
• Các Header tương đối lớn trong MPEG-2(trong Sequence, Picture, Slice ) để
biểu diễn một OverHead cố định trong dòng dữ liệu. OverHead này là không đáng kể
trong tốc độ 6 Mb/s nhưng ở tốc độ vài trăm Kb/s thì chúng dễ nhận thấy. Vì vậy
H264/MPEG Part 10 thực hiện các Header hiệu quả hơn.

Qua quá trình thực nghiệm đã cho rằng sự tiết kiệm tốc độ bít trung bình của
H264/MPEG Part 10 so với MPEG-2 là khoảng 65%. Như vậy hiệu quả của nén
H264/MPEG Part 10 tăng lên đáng kể.
Hiệu quả nén tăng của H264/MPEG Part 10 tạo ra các phạm vi ứng dụng mới

108
Chương 4: BẢO ĐẢM CHẤT LƯỢNG DỊCH VỤ (QoS) TRUYỀN
THÔNG ĐA PHƯƠNG TIỆN
4.1. Các loại dịch vụ cơ bản và yêu cầu chung của chúng về chất lượng dịch
vụ.
4.1.1 Dịch vụ thoại/telex/Fax/nhắn tin
Dịch vụ thoại
Điện thoại là dịch vụ viễn thông được phát triển rộng rãi nhất, là dịch vụ cung
cấp khả năng truyền đưa thông tin dưới dạng tiếng nói hoặc tiếng nói cùng hình ảnh
(như trường hợp điện thoại thấy hình – videophone) từ một thuê bao tới một hoặc
nhóm thuê bao.
Dịch vụ thoại cơ bản nhất là dịch vụ điện thoại cố định do mạng PSTN (mạng
điện thoại chuyển mạch công cộng) cung cấp. Dịch vụ này cấp cho khách hàng đường
truyền tới tận nhà riêng, kết nối tới tổng đài điện thoại cố định, cho phép khách hàng
thực hiện được cuộc gọi thoại đi tới các khách hàng khác.

Hình: Dịch vụ thoại


Ngoài dịch vụ điện thoại truyền thống, còn có nhiều dịch vụ khác như dịch vụ
điện thoại dùng thẻ (cardphone), điện thoại di động tốc độ thấp (điện thoại di động nội
vùng – cityphone), điện thoại di động, điện thoại vệ tinh và hàng hải v.v.
Để sử dụng dịch vụ điện thoại dùng thẻ, khách hàng mua trước một tấm thẻ với
một giá tiền xác định trước tại các đại lý bưu điện. Khi sử dụng thẻ này, khách hàng
có thể gọi điện nội hạt, liên tỉnh hoặc quốc tế. Khi cần gọi, khách hàng đưa thẻ vào
các máy điện dùng thẻ công cộng đặt trên đường phố. Cước phí đàm thoại sẽ được trừ
và ghi nhận vào tấm thẻ tùy theo thời gian đàm thoại và loại hình dịch vụ của cuộc
gọi. Có thể dùng nhiều thẻ cho một cuộc gọi hoặc một thẻ cho nhiều cuộc khác nhau.
Dịch vụ này có ưu điểm lớn nhất là thuận tiện cho việc quản lý lượng sử dụng của
khách hàng. Tuy nhiên mật độ máy điện thoại dùng thẻ công cộng phải cao, phù hợp
với các khu dân cư đông, kinh tế phát triển, du lịch, nghỉ mát.
Dịch vụ điện thoại di động là dịch vụ thông tin vô tuyến được thiết lập nhằm
đảm bảo liên lạc với các máy điện thoại đầu cuối di động. Một thuê bao điện thoại cố
định có thể gọi cho một thuê bao di động hoặc ngược lại hoặc cả hai đều là thuê bao di

109
động. Bên cạnh việc cung cấp khả năng trao đổi thông tin dưới dạng tiếng nói, các
thuê bao điện thoại di động còn có thể sử dụng các dịch vụ khác như dịch vụ bản tin
ngắn, hộp thư thoại, FAX hoặc truyền số liệu … Taị Việt Nam, hiện nay có sáu nhà
khai thác dịch vụ viễn thông được chính phủ cung cấp dịch vụ điện thoại di động:
VINAPHONE (trước đây là PVC), VMS, VIETTEL, SPT, EVN và
HANOITELECOM. Đến cuối năm 2004, tổng số lượng thuê bao điện thoại cố định và
di động ở Việt Nam là khoảng 10 triệu, đến giữa năm 2006 con số này đã lên khoảng
17 triệu.
Dịch vụ Telex
Dịch vụ Telex là dịch vụ cho phép thuê bao trao đổi thông tin với nhau dưới
dạng chữ bằng cách gõ vào từ bàn phím và nhận thông tin trên màn hình hoặc in ra
bằng giấy. Dịch vụ này sử dụng các đường truyền tốc độ thấp, dựa trên một mạng kết
nối riêng, có cách đánh số thuê bao khác với các thuê bao điện thoại thông thường.

Hình: Máy Telex


Dịch vụ Fax
Dịch vụ Fax là dịch vụ cho phép truyền nguyên bản các thông tin có sẵn trên
giấy như chữ viết, hình vẽ, biểu bảng, sơ đồ … gọi chung là bản fax từ nơi này đến
nơi khác thông qua hệ thống viễn thông.

Hình: Dịch vụ Fax


Dịch vụ Fax bao gồm fax công cộng và fax thuê bao. Dịch vụ fax công cộng là
dịch vụ mở tại các cơ sở Bưu điện để chấp nhận, thu, truyền đưa, giao phát các bức
fax theo nhu cầu của khách hàng. Dịch vụ fax thuê bao cung cấp cho các tổ chức hoặc
cá nhân có nhu cầu liên lạc với các thiết bị đầu cuối khác qua mạng viễn thông. Thiết
bị fax thuê bao được đấu nối với tổng đài điện thoại công cộng bằng đường cáp riêng
hoặc chung với thiết bị điện thoại.
Dịch vụ nhắn tin

110
Nhắn tin là dịch vụ cho phép người sử dụng tiếp nhận các tin nhắn. Muốn sử
dụng dịch vụ này, khách hàng cần mua hoặc thuê một máy nhắn tin của Bưu điện.
Máy nhắn tin có kích thước nhỏ gọn, có thể cho vào túi hay đặt gọn trong lòng bàn
tay. Người cần nhắn gọi điện tới trung tâm dịch vụ của bưu điện yêu cầu chuyển tin
nhắn tới người nhận là thuê bao nhắn tin. Dịch vụ này rất tiện lợi cho những người
thường xuyên di chuyển mà vẫn nhận được thông tin với chi phí không lớn. Trước
đây tại một số thành phố lớn như Hà Nội, Thành phố Hồ Chí Minh, Đà Nẵng đều có
các trung tâm cung cấp dịch vụ nhắn tin. Ngoài ra dịch vụ nhắn tin Việt Nam 107 cho
phép người dùng có thể nhận được tin nhắn trong phạm vi toàn quốc song đến nay
dịch vụ này đã ngừng hoạt động. Hiện nay, dịch vụ nhắn tin thường được thực hiện
thông qua điện thoại di động hoặc cố định.
4.1.2 Dịch vụ truyền thông đa phương tiện
Dịch vụ viễn thông băng thông rộng cung cấp cho khách hàng khả năng truyền
tải thông tin với độ rộng băng tần lớn lên tới vài chục Mbit trên giây (Mbit/s) (trên
nền mạng ISDN Mạng số đa dịch vụ tích hợp). Băng tần này cho phép truyền tải đồng
thời nhiều dạng thông tin khác nhau với các yêu cầu về băng tần cũng rất khác nhau
trên cùng một kênh liên lạc. Máy tính, máy fax, điện thoại và kể cả điện thoại thấy
hình đều có thể được phục vụ thông qua một kênh liên lạc duy nhất. Băng tần này
được sử dụng và phân bổ giữa các dịch vụ khác nhau một cách mềm dẻo, tối ưu và
đáp ứng tối đa yêu cầu về chất lượng dịch vụ khách hàng. Tại thiết bị thuê bao, khi
các dịch vụ viễn thông khác nhau, sử dụng nhiều môi trường thông tin khác nhau như
tiếng nói, hình ảnh, âm thanh hay số liệu đều được tích hợp vào một thiết bị duy nhất,
khi đó ta có được dịch vụ thông tin đa phương tiện (multimedia). Lúc đó liên lạc sẽ
được thực hiện thông qua nhiều môi trường thông tin trong cùng một thời điểm và
cũng đơn giản như thực hiện một cuộc điện thoại thông thường.
Hình dưới là một ví dụ điển hình của dịch vụ đa phượng tiện: Dịch vụ Truyền
hình hội nghị (Video conference).

Hình: Dịch vụ truyền hình hội nghị

111
4.2. Nhu cầu và xu hướng phát triển của các loại dịch vụ truyền thông đa phương
tiện.
4.2.1. Dịch vụ VoIP (Voice over IP)
VoIP - Voice over Internet Protocol/ Giao thức thực hiện các cuộc gọi qua kết
nối Internet

Internet Voice, cũng được biết như thoại qua giao thức( Voice Over IP), là một công
nghệ mà cho phép tạo cuộc gọi dùng kết nối băng thông rộng thay vì dùng đường dây
điện thoại tương tự (analog). Nhiều dịch vụ dùng Voice over IP có thể chỉ cho phép
bạn gọi người khác dùng cùng loại dịch vụ, tuy nhiên cũng có những dịch vụ cho phép
gọi những người khác dùng số điện thoại như số nội bộ,đường dài, di động, quốc tế.
Trong khi cũng có những dịch vụ chỉ làm việc qua máy tính, hay loại điên thoại qua
IP(IP phone) đặc biệt. Cũng có vài dịch vụ cho phép dùng điện thoại truyền thống qua
một bộ điều hợp (adaptor).
VoIP cho phép thực hiện cuộc dùng máy tính qua mạng dữ liệu như Internet.
VoIP chuyển đổi tín hiệu thoại từ điện thoại tương tự analog vào tín hiệu số (digital)
trước khi truyền qua Internet, sau đó chuyển đổi ngược lại ở đấu nhận. Khi tạo một
cuộc gọi VoIP dùng điện thoại với một bộ điều hợp, chúng ta sẽ nghe âm mời gọi,
quay số sẽ xảy ra sau tiến trình này. VoIP có thể cũng sẽ cho phép tạo một cuộc gọi
trực tiếp từ máy tính dùng loại điện thoại tương ứng hay dùng microphone.
VoIP cho phép tạo cuộc gọi đường dài qua mạng dữ liệu IP có sẵn thay vì phải
được truyền qua mạng PSTN ( public switched telephone network). Ngày nay nhiều
công ty đã thực hiện giải pháp VoIP của họ để giảm chi phí cho những cuộc gọi
đường dài giữa nhiều chi nhánh xa nhau.
Trước đây, khi dựa vào giao tiếp thoại trên mạng PSTN. Trong suốt cuộc gọi
giữa hai địa điểm, đường kết nối thì được dành riêng cho bên thực hiện cuộc gọi.
Không có thông tin khác có thế truyền qua đường truyền này, cho dù vẫn cón thừa
lượng băng thông sẵn dùng. Sau đó với sự xuất hiện của mạng giao tiếp dữ liệu, nhiều

112
công ty đã đầu tư cho mạng giao tiếp dữ liệu để chia sẽ thông tin với nhau, trong khi
đó thoại và fax vẫn tiếp tục sử dụng mạng PSTN.
Nhưng ngày nay điều này không còn là vấn đề nữa, với sự phát triển nhanh
chóng và được sứ dụng rộng rãi của IP, chúng ta đã tiến rất xa trong khả năng giảm
chi phí trong việc hổ trợ truyền thoại và dữ liệu, Giải pháp tích hợp thoại vào mạng dữ
liệu, và cùng hoạt động bên cạnh với hệ thống PBX hiện tại hay những thiết bị điện
thọai khác, để đơn giản cho việc mở rông khả năng thoại cho những vị trí ở xa. Traffic
thoại thực chất sẽ được mang tự do (free) bên trên mạng dữ liệu thông qua cơ sở hạ
tầng và thiết bị phấn cứng có sẵn
Mặc dù những khái niệm vể VoIP là đơn giản, Tuy nhiên để thực hiên và ứng
dụng VoIP là phức tạp. Để gởi voice, thông tin phải được tách biệt thành những gói
(packet) giống như dữ liệu. Gói là những phấn thông tin được chia nhỏ để dễ dàng cho
việc gởi gói, cũng có thể dùng kỉ thuật nén gói để tiết kiệm băng thông, thông qua
những tiến trình codec (compressor/de-compressor).
Có rất nhiều loại giao thức dùng thực hiện dịch vụ VoIP, những giao thức báo
hiệu (signaling) VoIP phổ biến là SIP và H323. Cả SIP và H323 đều cho pháp
người dùng thực hiện cùng công việc: để thiết lập giao tiếp cho những ứng dụng đa
phuơng tiện (multimedia) như audio, video, những giao tiếp dữ liệu khác. Nhưng
H323 chủ yếu được thiết kế cho những dịch vụ đa phuơng tiên, trong khi SIP thì phù
hợp cho những dịch vu VoIP.
RTP (Real-time Transport Protocol) định nghĩa định dạng chuẩn của gói tin
cho việc phân phối audio và video qua Internet.
VoIP làm việc như thế nào?
Khi nói vào ống nghe hay microphone, giọng nói sẽ tạo ra tín hiệu điện từ, đó là
những tín hiệu analog. Tín hiệu analog được chuyển sang tín hiệu số dùng thuật
tóan đặc biệt để chuyển đổi. Những thiết bị khác nhau có cách chuyển đổi khác nhau
như VoIP phone hay softphone, nếu dùng điện thoại analog thông thường thì cần một
Telephony Adapter (TA). Sau đó giọng nói được số hóa sẽ được đóng vào gói tin và
gởi trên mạng IP.
Trong suốt tiến trình một giao thức như SIP hay H323 sẽ được dùng để điểu
khiển (control) cuộc gọi như là thiết lập, quay số, ngắt kết nối… và RTP thì được
dùng cho tính năng đảm bảo độ tin cậy và duy trì chất lượng dịch vụ trong quá trinh
truyền.
Số hóa tín hiệu Analog
Biểu diễn tín hiệu tương tự(analog) thành dạng số (digital) là công việc khó
khăn. Vì bản thân dạng âm thanh như giọng nói con người ở dạng analog do đó cần
một số lượng lớn các giá trị digital để biểu diễn biên độ (amplitude), tần số(frequency)
và pha (phase), chuyển đổi những giá trị đó thành dạng số nhị phân(zero và one) là rất

113
khó khăn. Cần thiết cần có cơ chế dùng để thực hiện sự chuyển đổi này và kết quả của
sự phát triển này là sự ra đời của những thiết bị được gọi là codec (coder-decoder) hay
là thiết bị mã và giải mã.
Tín hiệu đện thoại analog (giọng nói con người) được đặt vào đầu vào của thiết
bị codec và được chuyển đổi thành chuỗi số nhị phân ở đầu ra. Sau đó quá trình này
thực hiện trở lại bằng cách chuyển chuỗi số thành dạng analog ở đầu cuối, với cùng
qui trình codec.
Có 4 bước liên quan đến quá trình số hóa(digitizing) một tín hiệu tương tự
(analog):
Lấy mẫu (Sampling)
Lượng tử hóa (Quantization)
Mã hóa (Encoding)
Nén giọng nói (Voice Compression)
Multiplexing: Ghép kênh là qui trình chuyển một số tín hiệu dồng thời qua một
phương tiện truyền dẫn.
PAM(pulse-amplitude modulation)- điều chế biên độ xung
TDM(Time Division Multiplexing)-Ghép kênh phân chia theo thời gian: Phân
phối khoảng thời gian xác định vào mỗi kênh, mỗi kênh chiếm đường truyền cao tốc
trong suốt một khaỏng thời gian theo định kì.
FDM(Frequency Division Multiplexing)-Ghép kênh phân chia theo tần số:
Mỗi kênh được phân phối theo một băng tần xác định, thông thường có bề rộng 4Khz
cho dịch vụ thoại.
PCM(Pulse code modulation)- Điều chế theo mã: là phương pháp thông dụng
nhất chuyển đổi các tín hiệu analog sang dạng digital ( và ngược lại) để có thể vận
chuyển qua một hệ thống truyền dẫn số hay các quá trình xử lý số. Sự biến đổi này
bao gổm 3 tiến trình chính: lấy mẫu, lượng tử hoá, mã hoá. Tiến trình này hoạt động
như sau:
Giai đoạn đầu tiên cuả PCM là lấy mẫu các tín hiệu nhập (tín hiệu đi vào thiết bị
số hoá), nó tạo ra một tuần tự các mẫu analog dưới dạng chuỗi PAM. Các mẫu PAM
có dãi biên độ nối tiếp nhau, sau đó phân chia dải biên độ này thành một số giới hạn
các khoảng. Tất cả các mẫu với các biên độ nào đó nếu mẫu nào rơi vào một khoảng
đặc biệt nào thì được gán cùng mức giá trị cuả khoảng đó. Công việc này được gọi là
“lượng tử hoá”. Cuối cùng trong bộ mã hoá, độ lớn của các mẫu được lương tử hoá
được biểu diễn bởi các mã nhị phân
Lấy mẫu (Sampling)

114
Tín hiệu âm thanh trên mạng điện thoại có phổ năng lượng đạt đến 10Khz. Tuy
nhiên, hầu hết năng lượng đều tập trung ở phần thấp hơn trong dải này. Do đó để tiết
kiệm băng thông trong các hệ thống truyền được ghép kênh theo FDM và cả TDM.
Các kênh điện thoại thường giới hạn băng tần trong khoảng từ 300 đến 3400Hz. Tuy
nhiên trong thực tế sẽ có một ít năng lương nhiễu được chuyển qua dưới dạng các tần
số cao hơn tần số hiệu dụng 3400Hz.
Do đó phổ tẩn số có thể được mở rộng đến 4Khz, theo lý thuyết Nyquist: khi
một tín hiệu thì được lấy mẫu đồng thời ở mỗi khoảng định kì và có tốc độ ít nhất
bằng hai lần phổ tần số cao nhất, sau đó nhũng mẫu này sẽ mang đủ thông tin để cho
phép việc tái tạo lại chính xác tín hiệu ở thiết bị nhận. Với phổ tần số cao nhất cho
thoại là 4000Hz hay 8000 mẫu được lấy trong một giây, khoảng cách giữa mỗi mẫu là
125 micro giây.
Lượng tử hoá (Quantization)

Tiến trình kế tiếp của số hóa tín hiệu tuần tự là biểu diễn giá trị chính xác cho mỗi
mẫu được lấy. Mỗi mẫu có thể được gán cho một giá trị số, tương ứng với biên độ
(theo chiều cao) của mẫu.

115
Sau khi thực hiện giới hạn đầu tiên đối với biên độ tương ứng với dải mẫu, đến lượt
mỗi mẫu sẽ được so sánh với một tập hợp các mức lượng tử và gán vào một mức xấp
xỉ với nó. Qui định rằng tất cả các mẫu trong cùng khoảng giữa hai mức lượng tử
được xem có cùng giá trị. Sau đó giá trị gán được dùng trong hệ thống truyền. Sự
phục hồi hình dạng tín hiệu ban đầu đòi hỏi thực hiện theo hướng ngược lại.
Mã hóa (Encoding)
Mỗi mức lượng tử được chỉ định một giá trị số 8 bit, kết hợp 8 bit có 256 mức
hay giá trị. Qui ước bit đầu tiên dùng để đánh dấu giá trị âm hoặc dương cho mẫu.
Bảy bít còn lại biểu diễn cho độ lớn; bit đầu tiên chỉ nữa trên hay nữa dưới của dãy,
bit thứ hai chỉ phần tư trên hay dưới, bit thứ 3 chỉ phần tám trên hay dưới và cứ thế
tiếp tục.
Ba bước tiến trình này sẽ lặp lại 8000 lần mỗi giây cho dịch vụ kênh điện thoại.
Dùng bước thứ tư là tùy chọn để nén hay tiết kiệm băng thông. Với tùy chọn này thí
một kênh có thể mang nhiều cuộc gọi dồng thời.
Nén giọng nói (Voice Compression)
Mặc dù kỉ thuật mã hóa PCM 64 Kps hiện hành là phương pháp được chuẩn hóa,
nhưng có vài phương pháp mã hóa khác được sử dụng trong những ứng dụng đặc biệt.
Các phương pháp này thực hiện mã hóa tiếng nói với tốc độ nhỏ hơn tốc độ của PCM,
nhờ đó tận dụng được khả năng của hệ thống truyền dẫn số. Chắc hẳn, các mã hóa tốc
độ thấp này sẽ bị hạn chế về chất lượng, đặt biệt là nhiễu và méo tần số.
Một số ví dụ hệ thống mã hóa tiếng nói tốc độ thấp:
CVSD( Continuously variable slope delta modulaton) Kỹ thuật này là một dẫn
xuất của điều chế delta, trong đó một bit đơn dùng để mã hóa mỗi mẫu PAM hoặc lớn
hơn hoặc nhỏ hơn mẫu trước đó. Vì không hạn chế bởi 8 bit, mã hóa có thể họat đông
ở tốc độ khác nhau vào khỏang 20 Kps.
ADPCM( Adaptive differential PCM): Kỹ thuật này là một dẫn xuất của PCM
chuẩn, ở đó sự khác biệt giữa các mẫu liên tiếp nhau được mã hóa, thay vì tất cả các
mẫu điều được mã hóa, được truyền trên đường dây. CCITT có đề nghị một chuẩn
ADPCM 32 Kps, 24 Kps, 16Kbs cho mã hóa tiếng nói.
Chuẩn PCM thì cũng được biết như chuẩn ITU G.711
Tốc độ G.711: 64 Kps=(2*4 kHz)*8 bit/mẫu
Tốc độ G.726: 32 Kps=(2*4 kHz)*4 bit/mẫu
Tốc độ G.726: 24 Kps=(2*4 kHz)*3 bit/mẫu
Tốc độ G.726: 16 Kps=(2*4 kHz)*2 bit/mẫu
Packetizing voice

116
Mỗi một khi giọng nói đã được số hoá và được nén lại, nó phải được chia thành
những phần nhỏ, để đặt vào gói IP, VoIP thì không hiệu qua cho những gói tin nhỏ,
trong khi những gói tin lớn thì tạo ra nhiều độ trễ, do ảnh hưởng của vài loại header
mà kích thưóc cuả dữ liệu thoại(voice data ) cũng sẽ ảnh hưởng. Ví dụ header cuả IP,
UDP, RTP là 40 byte, nếu gói tin voice cũng chỉ khoảng 40 byte thì hoàn toàn không
hiệu quả, kích thước gói tin lớn nhất có thể trong môi trường Ethernet là 1500 byte,
dùng 40 byte cho header còn lại 1460 byte có thể sử dụng cho phần dữ liệu thoại,
tương đương với 1460 mẫu(samples) không được nén hay thời gian để đặt phần dữ
liệu vào gói tin. Nếu gói bị mất nhiều hay đến đích không đúng thứ tự sẽ làm cho cuộc
thoại bị ngắt quãng.
Thông thường, cần khoảng 10us đến 30 us (trung bình là 20us) để đặt dữ liệu
thoại vào bên trong gói tin, ví dụ phần dữ liệu thoại(voice data) vơí kích thước 160
byte không nén cần khoảng 20us để đặt phần dữ liệu thoại vào bên trong gói tin. Số
lượng dữ liệu thoại bên trong gói tin cần cân bằng giữa sự hiệu quả trong sử dụng
băng thông và chất lượng của cuộc thoại.
4.2.2. Dịch vụ Video thời gian thực
Giải pháp thông thường cho các dịch vụ video thời gian thực đã tập trung vào
các kiến trúc tập trung để lưu trữ nội dung và streaming. Cho dù các máy chủ video
được đặt ở một vị trí headend quốc gia, khu vực hoặc địa phương, các kiến trúc tập
trung, với giả định rằng các ứng dụng hỗ trợ một không-thời gian thực, phân phối
phân cấp toàn bộ các chức danh.
Bài viết này phác thảo một chiến lược nội dung quản lý hiệu quả hơn, trong đó
nội dung được phân phối trong thời gian thực và theo yêu cầu nhỏ hơn so với toàn bộ
danh hiệu đơn vị của granularity. Kiến trúc này lợi ích thay thế từ một cách tiếp cận
bộ nhớ đệm thông minh cho phép các nhà cung cấp dịch vụ được hưởng lợi từ khả
năng lưu trữ nội dung tập trung (giảm vốn quản lý nội dung và các chi phí hoạt động)
và trực tiếp phân phối (cho phép nhiều hơn nữa hiệu quả và quản lý băng thông hiệu
quả chi phí). Đồng thời, kiến trúc này phân phối bảo tồn cả end-to-end độ trễ ngắn và
đa dạng nội dung không giới hạn mà nhu cầu thế hệ mới nổi hiện nay của thuê bao.
Ngoài ra, kiến trúc cho phép các nhà cung cấp dịch vụ để thực hiện một loạt các dịch

117
vụ tiên tiến, chẳng hạn như remixing của nội dung "đuôi dài" (niche hoặc người dùng
tạo ra nội dung), trong đó yêu cầu truy cập ngắn độ trễ subsegments của nội dung
trong các cửa hàng nội dung sâu sắc.
Sự phát triển của các dịch vụ video thời gian thực
Các nhà cung cấp dịch vụ ngày nay đang trải qua một chuyển đổi nhanh chóng
trong các dịch vụ họ cung cấp cho các thuê bao, các mạng lưới hỗ trợ các dịch vụ, và
các thuê bao của các thiết bị sử dụng để truy cập chúng. Như mong đợi thuê bao truy
cập và tương tác với nội dung phát triển, nhà cung cấp dịch vụ đang chuyển từ vai trò
của nhà cung cấp dịch vụ truy cập cơ bản để chính thức "các nhà cung cấp kinh
nghiệm. Điều đó có nghĩa là cung cấp cho các thuê bao một "cuộc sống kết nối," true
trong đó đầy đủ các dịch vụ thoại, video, và dữ liệu có thể được truy cập trên bất kỳ
thiết bị, cả bên trong và bên ngoài nhà, bất cứ khi nào khách hàng lựa chọn.
Hiệu truyền hình có hiệu quả là trung tâm với khả năng của một nhà cung cấp
dịch vụ để thành công trong mô hình này phát triển. Tuy nhiên, để cung cấp một cung
cấp video hấp dẫn, nhà khai thác phải quản lý tiêu thụ băng thông video có hiệu quả,
cung cấp các mảng rộng của các nội dung rằng nhu cầu thuê bao, và cung cấp chất
lượng cao trên tất cả các vùng và các thiết bị.
Trong nhiều năm, dịch vụ video đã được định nghĩa như một dịch vụ phân phối
nội dung phát sóng. Trong mô hình này, tất cả các yếu tố của dịch vụ trực thuộc Trung
ương xác định và kiểm soát. Chủ sở hữu nội dung tạo ra các dịch vụ - đó là, một kênh
cung cấp tuần tự của "chương trình," rải rác "quảng cáo", với thời gian giao hàng có
liên quan để múi giờ của người nhận dự kiến nội dung (ví dụ, Thái Bình Dương, núi ,
Trung và Đông Bắc Mỹ). Lần trong ngày được phân loại là "giờ cao điểm" và "thời
gian không-chính", và nội dung và quảng cáo được tùy chỉnh cho phù hợp. Các chủ sở
hữu nội dung sử dụng các dịch vụ như Ratings Nielsen để đo lường và phân loại phổ
biến kênh. Các nhà quảng cáo tạo ra doanh thu dựa trên "phổ biến". Gần đây hơn, đổi
mới công nghệ (chẳng hạn như chèn kỹ thuật số tiêu chuẩn SCTE35, SCTE30, và
DVS 629) đã cho phép các nhà cung cấp dịch vụ để cung cấp nội dung quảng cáo cá
nhân hoá nhiều hơn tại khu vực hoặc cấp khu vực.
Mặc dù mô hình này đã thống trị các dịch vụ video trong nhiều thập kỷ, một loại
mới của dịch vụ video được gọi là video theo yêu cầu (VoD) đã nổi lên trong những
năm gần đây. VoD là một dịch vụ cá nhân, mỗi thuê bao kiểm soát cả hai loại và thời
gian xem nội dung. Số lượng theo yêu cầu nội dung được cung cấp bởi các nhà khai
thác đã tăng lên nhanh chóng từ chỉ là một vài nghìn giờ (cả miễn phí và trả tiền) đến
hàng chục ngàn giờ. Xem xét số lượng của nội dung video theo yêu cầu tiềm năng đã
được tạo ra từ đầu của phim ảnh và truyền hình, các nhà cung cấp dịch vụ lưu trữ nội
dung này để mở rộng theo cấp số nhân.

118
Hầu hết các nhà khai thác truyền thống tư tưởng của hai loại dịch vụ video phát
sóng và VoD như riêng biệt, dịch vụ bị ngắt kết nối. Họ chia sẻ một cạnh phân phối
chung cơ sở hạ tầng (cáp đồng trục, không khí, đường dây thuê bao kỹ thuật số, chất
xơ, và do đó) và thiết bị hiển thị (TV chỉ, cho đến gần đây). Nhưng nếu không, các
nhà khai thác đã tạo ra cơ sở hạ tầng song song trong nhiều năm để thực hiện hai dịch
vụ này.
Tuy nhiên, cái mới, tính năng ngày càng phổ biến trong các dịch vụ video đang
thay đổi tất cả mọi thứ: tạm dừng. Khi thuê bao bấm nút tạm dừng, họ chuyển đổi từ
một dịch vụ phát sóng với một dịch vụ theo yêu cầu. Sau khi nhấn tạm dừng một lần
nữa, các thuê bao có thể được tiêu thụ nội dung một vài giây hoặc một giờ một nửa
phía sau chương trình trực tiếp. Mặc dù khả năng này tạm dừng đã trở nên vô cùng
phổ biến với các thuê bao, nó cũng trình bày cơ hội hấp dẫn cho các nhà cung cấp
dịch vụ. Trong trường hợp quảng cáo, ví dụ, nếu điểm chơi là chỉ là một vài giây sau
đó (trong khung thời gian của quảng cáo trực tiếp), sau đó hệ thống có thể chơi cùng
một quảng cáo quy hoạch. Tuy nhiên, nếu quảng cáo không còn sống, và nếu thuê bao
không được trình bày với các quảng cáo quy hoạch ban đầu, sau đó một cơ hội tồn tại
để thay thế một quảng cáo cá nhân hoá nhiều hơn. Trong mọi trường hợp, phát sóng
hai dịch vụ trước đó bị ngắt kết nối và VoD tại một dịch vụ kết hợp duy nhất. Sự kiện
đã được thiết lập trong chuyển động cho một kiến trúc hội tụ cung cấp tất cả các dịch
vụ.
Pause trực tiếp xác định việc thông qua hàng loạt thị trường nhanh chóng của
thời gian thay đổi truyền hình, thường được gọi là ghi video kỹ thuật số (DVR). Trong
nhiều năm qua, dân số nói chung đã trở nên ngày càng quen thuộc hơn với các hiện
tượng DVR. Sự hấp dẫn chính của DVR là nó cho phép các thuê bao để kiểm soát khi
họ có thể xem nội dung. Điều này lợi ích khả năng cả hai thuê bao và chủ sở hữu nội
dung bởi vì, với nhu cầu đa nhiệm của xã hội ngày nay, các thuê bao thường không
thể xem nội dung theo để phát sóng các mốc thời gian. Vì vậy, chủ sở hữu nội dung
có được một khán giả lớn hơn, và các thuê bao có thể xem và khám phá nhiều nội
dung mà họ được hưởng. Bằng chứng là bắt đầu gắn kết quảng cáo truyền hình mà
thời gian thay đổi cũng được theo dõi hơn các thuê bao thực sự chú ý nhiều hơn nữa
trong khi chuyển tiếp nhanh hay tua và thường dừng lại và phát lại một quảng cáo về
một chủ đề quan tâm cá nhân.
Thời gian chuyển cung cấp khả năng để thao tác các dòng nội dung tuyến tính,
cung cấp khả nãng tạm dừng hoặc khởi ðộng lại dòng chương trình tuyến tính trong
thời gian thực. Một số nhà cung cấp dịch vụ hiện đang cung cấp dịch vụ thay đổi nội
dung lựa chọn, ví dụ, cho phép người sử dụng giai điệu vào cuối chương trình để bắt
đầu xem từ đầu của chương trình. Một ưu điểm khác của hiện tượng thay đổi thời gian
là tiềm năng để bổ sung cho các dịch vụ truyền thống DVR bằng cách cung cấp nội
dung ghi vào máy tính, thiết bị cầm tay, và các thiết bị khác ngoài các hộp set-top. Bởi

119
vì có một số "công bằng sử dụng" các câu hỏi pháp lý xung quanh thời gian thay đổi,
các nhà cung cấp dịch vụ có thể cần phải thương lượng quyền sử dụng nội dung với
chủ sở hữu nội dung.
Các thông báo gần đây của chủ sở hữu nội dung (ví dụ, Disney và ABC) làm cho
nội dung có sẵn trong vòng 24 giờ phát sóng (hoặc ngay lập tức, như là trường hợp
"bắt đầu-Over" Time-Warner Cable của dịch vụ) một chỉ số hàng đầu nhiều nội dung
chủ sở hữu đã bắt đầu chấp nhận thực tế mới: khách hàng đang yêu cầu và trả tiền cho
nội dung xem khi họ muốn, trên thiết bị của sự lựa chọn của họ. Và, kinh nghiệm thời
gian chuyển đổi cho thấy thuê bao muốn tạm dừng, tua lại, nhanh chóng chuyển tiếp
(và thậm chí nhiều thuê bao trung tâm dịch vụ như chương trước, chương kế tiếp, tập
trước, và tập tiếp theo) có sẵn cho tất cả các nội dung, cả hai sống và ghi lại. Những
ngày đẩy ra 250 đến 500 kênh phát sóng trên một lịch trình cố định cho các thuê bao
đã mất hết. Người ta có thể suy nghĩ về mô hình video mới nổi chính xác hơn là thời
đại của hàng tỷ các kênh cá nhân.
Cuối cùng, các nhà cung cấp dịch vụ đang nhìn thấy sự xuất hiện của Video 2.0
một mô hình mới, trong đó video không còn tải về từ một nhà phân phối trung tâm
bằng cách sử dụng kết nối một chiều cho các khách hàng bị cô lập, nhưng thay vì trở
nên tương tác và cộng đồng. Web 2.0 biến Internet từ một kho lưu trữ nội dung tĩnh
để trao đổi năng động hai chiều, trong đó người tiêu dùng nội dung đã trở thành người
sáng tạo của nội dung, bắt đầu mới nội dung, cộng đồng, và tương tác. Sự gia tăng
nhanh chóng của YouTube, đã đi từ số không đến 120 triệu dòng video được tải
xuống mỗi ngày chỉ trong một vài tháng, nêu bật những cách thức mới trong đó người
tiêu dùng đang suy nghĩ về nội dung video và các cơ hội tiềm năng rất lớn cho các
công ty có thể tận dụng sự thay đổi này trong quan điểm.
Các biến thể của dịch vụ video thời gian thực có ý nghĩa gì cho việc lưu trữ nội
dung? Đơn giản: yêu cầu lưu trữ sẽ phát triển theo cấp số nhân, dựa trên nhu cầu thuê
bao. Và, từ quan điểm của thuê bao, khi nội dung được phát hiện, nó được yêu cầu
"bây giờ", với kỳ vọng cho sự chậm trễ để hình ảnh chỉ các phần phân đoạn của một
giây.
Khi các rào cản công nghệ và chi phí cho sản xuất nội dung tiếp tục thấp hơn
cho cả hai chuyên gia và nghiệp dư, các nhà cung cấp dịch vụ có thể mong đợi nhanh
chóng, tăng trưởng liên tục trong các cơ sở của nhà sản xuất nội dung. Văn bản (viết
blog), âm thanh (podcast), và hình ảnh (Flickr) đã tăng lên rất nhiều phổ biến. Người
dùng tạo ra video chỉ mới bắt đầu trở nên phổ biến, nhưng chỉ số của sự gia tăng
nhanh chóng của nội dung video đã có mặt, bằng chứng là việc mua gần đây của
YouTube của Google. Trong tương lai, điều này gia tăng nhanh chóng của sản xuất
hàng loạt nội dung 2,0 Video và dịch vụ có thể sẽ làm tăng yêu cầu lưu trữ của các

120
nhà khai thác bởi một số đơn đặt hàng của độ lớn hơn nữa so với sự phát triển nội
dung đã được thảo luận.
Phát triển lưu trữ yêu cầu
Hai đổi mới công nghệ lớn, thời gian chuyển và VoD, đang lái xe mở rộng lưu
trữ. Dù tính năng này, nhưng hầu hết có lẽ cả hai sẽ có mặt trong bất kỳ kịch bản điều
hành / thuê bao. Hai yếu tố không hoàn toàn độc lập. Các nhà phân tích mong đợi một
số nội dung phát sóng sẽ được mua lại vào thư viện VoD của nhà khai thác lâu dài,
trong khi một số nội dung phát sóng sẽ được loại bỏ, vì nó đã có mặt trong thư viện
VoD.
Một phân tích thú vị DVD và doanh số bán sách (dẫn đến khái niệm được sử
dụng rộng rãi nội dung "đuôi dài") có thể có liên quan để xác định một yếu tố tăng
trưởng chủ yếu cho nội dung video . Phân tích các nghiên cứu các xu hướng bán hàng
của "hit" dựa trên hàng tồn kho trong các cửa hàng "gạch và vữa", so với hàng tồn kho
"mở rộng" trong "chi phí thấp" các cửa hàng Internet. Rhapsody nghiên cứu xem xét,
Amazon và Netflix. Phân tích chi tiết sẽ không được lặp đi lặp lại ở đây, nhưng trong
kịch bản "chi phí thấp" hàng tồn kho, các nghiên cứu cho thấy rằng 20 đến 30% của
tổng doanh thu từ hàng tồn kho mở rộng không có sẵn trong diễn đàn "gạch và vữa"
đối thủ cạnh tranh. Phát hiện này cho thấy rằng, khi lập kế hoạch một thời gian
chuyển hoặc dịch vụ VoD, sự sẵn có của hàng tồn kho đuôi dài nay là tiềm năng để
tạo ra doanh thu đáng kể.
Thời gian chuyển một mình tạo ra nội dung quan trọng. Đối với một nhà cung
cấp dịch vụ cung cấp 500 kênh, nội dung có thể được mua theo tỷ giá 12.000 giờ mỗi
ngày (24 giờ mỗi ngày x 500 kênh). Nếu một giả định rằng 50% nội dung này sẽ bị
xóa bởi vì nó là bản sao nội dung, hoặc vì quyền không tồn tại cho lưu trữ lâu dài, tốc
độ mà nội dung được mua lại nó vẫn đáng kể. Vào lúc 6000 giờ mỗi ngày trong
khoảng thời gian hai tuần, 84.000 giờ nội dung sẽ được mua lại. Nếu các phiên bản
song song của các nội dung được tạo ra thượng nguồn (ví dụ, nguồn cấp dữ liệu khác
nhau với các quảng cáo quy hoạch khác nhau được chèn vào), sau đó yêu cầu lưu trữ
sẽ nhân lên tuyến tính. (Là một yêu cầu cơ bản cho không gian lưu trữ bảo tồn, nó
được giả định rằng một bản duy nhất của mỗi kênh phát sóng sẽ được giữ lại trong lưu
trữ, không phải là bản sao cụ khu. 2)
Trong khi yêu cầu lưu trữ có khả năng tăng trưởng đáng kể bất kể công nghệ cơ
bản của cơ sở hạ tầng video, đổi mới công nghệ mới cho phép các nhà cung cấp để
quản lý sự phát triển nội dung và phân phối hiệu quả hơn nhiều. Sự gia tăng của các
công nghệ như video kỹ thuật số chuyển sang cho các nhà khai thác cáp và IPTV cho
các nhà cung cấp dây cho phép các nhà cung cấp dịch vụ để cung cấp nội dung hơn rất
nhiều hơn là có thể có trong quá khứ. Ví dụ, nhiều hãng vận tải có thể cung cấp
chương trình lớp dân tộc và đã tìm thấy rằng những lập trình tạo ra doanh thu đáng kể

121
và là một trong những chiến lược thành công nhất cho các thuê bao video lên bán
chạy. Trong khi cung cấp tất cả (và tương lai) hiện có dân tộc tầng nội dung theo yêu
cầu cũng sẽ lái xe yêu cầu lưu trữ bổ sung, nó có thể sẽ cực kỳ hấp dẫn để các cơ sở
thuê bao người sử dụng và sẵn sàng trả tiền cho các dịch vụ này.
Một lần nữa, tuy nhiên, các trình điều khiển công suất này không bao gồm đến
2,0 mô hình, trong đó thuê bao tạo ra video sẽ trở nên phổ biến như nội dung thông
thường (nếu không như vậy). Mô hình này có thể sẽ leo thang các yêu cầu lưu trữ hơn
nữa ngoài những trình điều khiển đã được thảo luận.
Kiến trúc được phân phối nội dung thông thường
Một cơ sở hạ tầng video nói chung bao gồm một hệ thống phụ lưu trữ nội dung
và hệ thống trực tuyến. Hệ thống con dòng suối nội dung trong bất cứ định dạng
tương thích với thiết bị của thuê bao. Nhiều phiên bản của các hệ thống trực tuyến tồn
tại. Trong một số trường hợp, các hệ thống lưu trữ địa phương và yêu cầu lưu trữ của
danh hiệu toàn bộ. Trong trường hợp khác, hệ thống mảng các máy chủ có chứa sự kết
hợp của đĩa và bộ nhớ truy cập ngẫu nhiên (RAM) lưu trữ nội dung bộ nhớ cache
trong các phân khúc granularities nhỏ.
Các hệ thống lưu trữ nội dung chứa cả hai nội dung phát sóng trực tiếp tiêu hóa
(thời gian chuyển) (tăng trưởng ở tỷ lệ số phân đoạn nội dung x độ phân giải x định
dạng mỗi giờ) và nội dung trước đây mua lại. Nội dung này có thể bao gồm phim ảnh,
sản xuất cho TV, và những bộ phim độc lập, mà cũng liên quan đến nhiều nghị quyết
và các định dạng.
Trong kiến trúc truyền thống, nhiều nhà khai thác quản lý lưu trữ trong các yếu
tố trực tuyến bằng cách lưu trữ các danh hiệu toàn bộ prepositioning, sử dụng phổ
biến xác định hành chính của một mảnh của nội dung như tiêu chuẩn quan trọng để
lưu trữ nội dung đó. Đa số các giải pháp như vậy có một giới hạn lưu trữ tối đa trên từ
hàng trăm đến hàng ngàn giờ (đối với nội dung độ nét tiêu chuẩn). Miễn là hệ thống
không vượt quá giới hạn lưu trữ, nó có thể làm cho nội dung có sẵn trong các yếu tố
trực tuyến. Tuy nhiên, khi hệ thống vượt quá giới hạn dung lượng lưu trữ toàn bộ-title,
các thuê bao kinh nghiệm "từ chối dịch vụ" tình hình (thường là một "dịch vụ không
có sẵn" thông báo lỗi). Trên thực tế, điều hành có thể kinh nghiệm "từ chối thu nhập"
tình huống đó là, mất doanh thu 20-30% bổ sung có thể được thực hiện bằng cách
cung cấp thu phí dựa trên nội dung đuôi dài.
Kiến trúc được phân phối nội dung năng động
Ngày nay, một hình thức năng động hơn phân phối nội dung ngày càng trở nên
khả thi. Cách tiếp cận này cho phép các yếu tố trực tuyến để tự động để thay thế ít phổ
biến nội dung dựa trên thuê bao nhu cầu và để có được nội dung mới được yêu cầu
ngắn độ trễ truyền.

122
Hình 1 cho thấy một sơ đồ khái niệm của kiến trúc này. Trong mô hình này, một
mảng của các máy chủ lưu trữ nội dung được kết nối với một mảng của các máy chủ
streaming. Biểu đồ này giả định rằng các phương pháp kết nối Gigabit Ethernet và 10
Gigabit Ethernet. Mô hình này xác định không có giao thức phân phối nội dung cụ thể
giữa nội dung và các yếu tố hệ thống phụ trực tuyến.
Hình 1: Nội dung lưu trữ theo từng cấp và các mảng Streamer

Mô hình phân phối nội dung động này có thể sử dụng một trong ba phương pháp
lấy và streaming nội dung yêu cầu, tùy thuộc vào khả năng của kiến trúc và các dòng
khác nhau. Tuy nhiên, hai phương pháp đầu tiên đẩy mạnh tiêu đề toàn-nạp và lấy cả
hai đều có những hạn chế khiến họ không cung cấp một cách tiếp cận lý tưởng để
phân phối video thời gian thực tiến bộ. Phương pháp thứ ba, bộ nhớ cache-điền vào
phân đoạn, có thể tránh được nhiều của độ trễ và các vấn đề khác được trình bày bởi
các phương pháp tiếp cận khác và cung cấp chiến lược, hiệu quả hơn khả năng mở
rộng.
Phương pháp 1: Tăng tốc toàn bộ-Tiêu đề Fetch
Đối với hệ thống video không thể để dòng suối trong ăn, một sự cân bằng phải
được thực hiện giữa ăn độ trễ và băng thông nội dung. Nếu, ví dụ, yêu cầu trường hợp
xấu nhất là có thể chơi một phần của nội dung không muộn hơn hai phút từ thời điểm
đề nghị, sau đó một bộ phim một giờ phải được lấy ra ở tỷ lệ 30 lần dòng, đó là, 120
Mbps cho nội dung MPEG-2 mã hóa phân giải tiêu chuẩn hoặc 60 Mbps cho định
nghĩa tiêu chuẩn MPEG-4.
Trong các hệ thống tiêu đề toàn bộ nội dung phải được hấp thụ trước khi để
truyền, ăn vào có xu hướng nhanh chóng tràn ngập các liên kết. Ví dụ, trong hệ thống
như vậy tối đa là tám giờ phim có thể được lấy ra trong vòng hai phút trên một kết nối
Gigabit Ethernet với một hệ thống lưu trữ. Trong một mạng lưới toàn quốc, khu vực,
hoặc thậm chí địa phương, xác suất của tám hay nhiều yêu cầu đồng thời cho nội dung
đuôi dài là rất cao, như là xác suất của các yêu cầu đồng thời cho 80 phim trong một

123
liên kết Ethernet 10 Gigabit trong một mạng lớn hơn. Trực tuyến của các bộ phim độ
nét cao thậm chí không khả thi theo mô hình này.
Cách 2: Progressive Fetch
Đối với những hệ thống có thể bắt đầu hấp đồng thời trong khi nuốt, nội dung có
thể được cung cấp với độ trễ ngắn hơn và đòi hỏi ít băng thông. Giả sử nội dung mà là
thu được với tốc độ dòng, dòng có thể bắt đầu sau khi tối thiểu của hệ thống trực
tuyến của ăn độ trễ đã trôi qua. Tuy nhiên, bất cứ khi nào streamer bắt đầu trực tuyến,
nó phụ thuộc vào khả năng của mảng máy chủ lưu trữ nội dung để tiếp tục cung cấp
nội dung với tốc độ dòng, mà không có jitter. Nếu các mảng máy chủ nội dung giới
thiệu jitter, khoảng cách cũng sẽ được giới thiệu trong đầu ra trực tuyến. Thông
thường, các hệ thống trực tuyến sẽ được yêu cầu để giới thiệu sự chậm trễ bổ sung để
xử lý bất kỳ jitter tiềm năng. Vì vậy, trong khi một hệ thống trực tuyến có thể có thể
ăn nội dung với một độ trễ 10 giây, hệ thống có thể kết thúc giới thiệu sự chậm trễ
hơn nữa. Và, kể từ khi tạm dừng màn hình hiển thị khi underruns bộ đệm sẽ được coi
là không thể chấp nhận được trong một dịch vụ video thời gian thực, sự chậm trễ có
thể có được đệm thêm hơn nữa.
Trong kịch bản này, hệ thống có thể một phần ăn tiêu đề với sự chậm trễ dài hơn
(có lẽ 1-2 phút) và sau đó bắt đầu chơi. Thông thường, của máy tính dựa trên triển
khai trực tuyến sử dụng phương pháp này, trong đó sự chậm trễ xảy ra đầu tiên và sau
đó trực tuyến bắt đầu. Tuy nhiên, với phương pháp này, vẫn còn một khả năng mạng
sẽ không thể duy trì tốc độ dòng, và do đó màn hình hiển thị sẽ đóng băng. (Trong
máy tính dựa trên các ứng dụng trực tuyến, "làm mới bộ đệm" biểu tượng thường xuất
hiện khi điều này xảy ra.) Ngoài ra cho vấn đề này, các nhà khai thác cũng sẽ được
thử thách với quy mô các giải pháp như vậy trên các mạng chế độ nổ, đầu vào / đầu ra
(I / O ) hệ thống, và các hệ thống con đĩa.
Các vấn đề với cách tiếp cận lấy tiến bộ bao gồm:
• Khó khăn của nhân rộng các hệ thống phụ phân phối nội dung để phù hợp với
số lượng ngày càng tăng song song đồng thời lấy hoạt động
• tổng hợp thực hiện chức năng ăn với các yếu tố trực tuyến được giới hạn
• Thủ thuật chế độ (nhanh chóng chuyển tiếp, quay lại, và như vậy) thường được
tạo ra trong thời gian thực, làm hạn chế mở rộng quy mô
Người điều khiển có thể sử dụng phương pháp lấy tiến bộ trong các tình huống
trong đó tần số của nội dung kéo bên ngoài là cực kỳ thấp (có khả năng ít hơn nhiều
so với 10%, hoặc có lẽ khoảng 1%), miễn là hệ thống lưu trữ nội dung có thể duy trì
tỷ lệ phân phối các dòng nội dung như vậy (tránh tranh quá mức đối với một trục
chính được chia sẻ và hiệu quả thực hiện các giao thức), và miễn là các biến thể chậm
trễ được chấp nhận thuê bao.
Cách 3: Segmented cache điền

124
Một nội dung phương pháp phân phối thay thế cung cấp cả độ trễ thấp (dưới 300
ms) và sử dụng băng thông tối thiểu là phân đoạn bộ nhớ cache-điền. Trong mô hình
này, các phân đoạn được định nghĩa như là một phần nhỏ của nội dung, với một kích
thước đại diện cho mỗi phân đoạn của 64 kilobyte. Mô hình này yêu cầu và truyền
phân đoạn trong tất cả các phần của hệ thống, bao gồm lưu trữ, phân phối, và
streaming.
Trong phương pháp tiếp cận bộ nhớ cache-điền vào phân đoạn, bộ nhớ đệm cung
cấp một cơ chế bổ sung hỗ trợ của các phân đoạn, kể từ khi mô hình đòi hỏi phải lưu
trữ vĩnh viễn nội dung trong các mảng lưu trữ chính nó. Bộ nhớ cache được định
nghĩa là lưu trữ tạm thời, mang lại lợi ích cho hệ thống bằng cách bảo tồn tất cả các
loại tài nguyên (đĩa, xe buýt, bộ nhớ) trong hệ thống. Bộ nhớ đệm là một kỹ thuật nổi
tiếng và triển khai rộng rãi cho các dịch vụ như phục vụ các trang web. Nếu một phân
đoạn của nội dung trong một tài nguyên bộ nhớ cache địa phương, sau đó nó không
cần được yêu cầu bằng cách sử dụng một nguồn tài nguyên đắt tiền hơn như mạng I /
O. Kỹ thuật quản lý bộ nhớ cache đáng kể làm giảm tiêu thụ tài nguyên, đặc biệt là
mạng I / O. Trong một cấu hình lưu trữ lớn, khu vực hoặc toàn quốc, nơi mà nó có
khả năng là hai hoặc nhiều người sẽ yêu cầu truy cập vào một phần của nội dung đuôi
dài đồng thời, phân phối nội dung đuôi dài cũng có thể hưởng lợi từ bộ nhớ đệm.
Hình 2 cho thấy một hệ thống phân cấp bộ nhớ đệm đa tầng. Tier 1 là lưu trữ gần
gũi nhất với các cạnh mạng lưới, từ đó nội dung được diễn ra trong thời gian thực.
Lưu trữ này chiếm một tỷ lệ phần trăm nhỏ của phần cứng (RAM) vì hiệu quả bộ nhớ
đệm cung cấp bởi các thuật toán phổ biến nội dung năng động, hệ thống sử dụng. Tier
2 là địa phương lưu trữ có thể được đặt trong một hệ thống duy nhất hoặc trong một
hệ thống ngang hàng kết nối bởi băng thông tốc độ cao của địa phương. Tầng 3 là một
thư viện nội dung địa phương cho phép nội dung phổ biến để được tổ chức tại địa
phương và truy cập bằng cách sử dụng các tài nguyên mạng không tốn kém. Tầng 4 là
nguồn thường trực của nội dung và có thể được đặt bất cứ nơi nào, ngay cả trong một
quốc gia hoặc siêu headend. Với bộ nhớ đệm theo từng cấp, các nhà khai thác có thể
xây dựng địa phương, khu vực, và thậm chí cả mạng lưới video quốc gia với ít nhất là
một bản duy nhất của tất cả các nội dung có sẵn, cả hai chiếc đuôi ngắn và đuôi dài.

125
Hình 2: Caching Hierarchy
Caching là một phương pháp phổ biến để tối ưu hóa sự kết hợp của các thành
phần chi phí cao và chi phí thấp trong các hệ thống. Lưu trữ đắt tiền nhất nhưng hiệu
suất cao nhất là RAM, trong khi lưu trữ ít tốn kém nhất là các ổ đĩa. RAM lưu trữ là
mười lần so với giao diện hệ thống máy tính nhỏ (SCSI) lưu trữ, và 100 lần đắt hơn so
với công nghệ tiên tiến lưu trữ nối tiếp (SATA) đính kèm.
Các chức năng bộ nhớ cache-điền vào phân đoạn là một chi phí thấp hơn nhiều
chức năng hơn so với ăn chức năng trong tiêu đề toàn bộ tiến bộ và tăng tốc lấy các
phương pháp. Trong một kiến trúc bộ nhớ cache-điền, chức năng ăn được thực hiện
bởi các yếu tố lưu trữ nội dung. Chi phí của ăn (siêu dữ liệu, tập tin lừa, khả năng
phục hồi) được phân bổ trên tất cả các vở kịch tương lai của cả hai nội dung phổ biến
và đuôi dài.
Với mô hình bộ nhớ cache-điền vào phân đoạn phân phối nội dung, các nhà khai
thác cũng có thể đáp ứng yêu cầu độ trễ thấp hơn nhiều. Ví dụ, nhà khai thác có thể
thực hiện một hệ thống trong đó các yếu tố trực tuyến là nhận thức của băng thông
nhu cầu của tất cả các dòng, và phân khúc của nó có thể tổng hợp I / O với các yếu tố
nội dung để giúp đảm bảo dịch vụ được duy trì cho tất cả các dòng chảy. Bởi vì các
lợi ích của bộ nhớ đệm cho nội dung phổ biến (lưu trữ phổ biến nội dung không tạo ra
mạng I / O), mô hình này dự trữ băng thông mạng đủ để tự động lấy nội dung đuôi
dài.
Cache-điền vào phân đoạn mô hình phân phối nội dung cũng cho phép nhanh
chóng chuyển đổi giữa các tiêu đề nội dung khác nhau. Ví dụ, trong một kịch bản
quảng cáo nhắm mục tiêu (trong một phát sóng chuyển hoặc thời gian chuyển môi
trường), một chèn quảng cáo nhúng, đòi hỏi phải có bảy giây để phản ứng, có thể
được xử lý với một thời gian phản ứng phụ-300 ms. Tương tự như vậy, một số các

126
dịch vụ mới hơn như remixing cụm phân khúc tiêu đề nội dung nhiều (ví dụ, cung cấp
"Các cảnh tốt nhất từ cuộc điều tra của Da Vinci` '") cũng có thể được xử lý mà không
quản lý toàn bộ-danh hiệu đơn vị của granularity, rất nhiều tăng lưu trữ và băng thông
mạng hiệu quả. Và, trong tương lai, như thuê bao kiểm soát remixing nội dung đuôi
dài (ví dụ, bỏ qua intros hoặc xe kéo), tắc nghẽn của tất cả các nguồn lực, bao gồm cả
mạng I / O, cũng sẽ được giảm.
Kiến trúc thông minh hơn: Nội dung Giao hàng tận nơi hệ thống Cisco
Các nhà khai thác nhiều hơn và nhiều hơn nữa hiện nay đạt tới kết luận rằng một
bộ sưu tập của các mảng lưu trữ có thể mở rộng nội dung là một phần không thể tách
rời của một end-to-end, hệ thống dịch vụ video thời gian thực. Với những yêu cầu mới
xuất hiện trong nội dung đuôi dài và 2,0 tiên tiến cá nhân dịch vụ, các nhà cung cấp
dịch vụ cần một phương pháp truy cập nội dung có thể hỗ trợ cả hai khởi động, độ trễ
của dòng suối và các dịch vụ mới tiên tiến như độ trễ, không dung nạp remixing. Các
nhà cung cấp dịch vụ cũng đang ngày càng nhận thức rằng một kiến trúc phân tán,
trong đó các dòng với bộ nhớ cache lưu trữ tạm thời được đặt gần với các cạnh của
mạng có thể cung cấp khả năng mở rộng đáng kể và lợi thế băng thông hiệu quả hơn
thông thường, hệ thống video tập trung.
Các hệ thống video lý tưởng nên sử dụng phương pháp phân phối bộ nhớ cache
điền vào phân khúc, phân phối nội dung theo yêu cầu trong ít hơn so với toàn bộ danh
hiệu đơn vị của granularity và có hiệu quả có thể mở rộng các dịch vụ video thời gian
thực để cấu hình khu vực và quốc gia. Bằng cách sử dụng bộ nhớ đệm granularity
phân khúc, chẳng hạn một hệ thống video có thể làm giảm băng thông tiêu thụ cho các
dịch vụ video vận chuyển một số đơn đặt hàng của cường độ. Và, với các mảng lưu
trữ tập trung, nó có thể khấu hao sự phát triển của nội dung từ nx 1000 giờ nx 100.000
giờ (nx 1.000.000 giờ và hơn thế nữa) trên dấu chân toàn bộ khu vực và quốc gia.
Nội dung Hệ thống Cisco Giao hàng tận nơi (CDS) kết hợp tất cả các chiến lược
này thành một nền tảng duy nhất cho phép các nhà khai thác cung cấp cho các thuê
bao với tất cả các nội dung mà họ yêu cầu phát sóng, thời gian thay đổi, và chế độ
VoD bất cứ khi nào và tuy nhiên họ yêu cầu. CDS Cisco vượt qua hệ thống VoD
thông thường bằng cách cung cấp điều hành với một nền tảng thông minh dựa trên
mạng, cung cấp cho các thế hệ tiếp theo của giải trí, phương tiện truyền thông tương
tác, và các dịch vụ quảng cáo cá nhân cho thuê bao của họ. Nền tảng này bổ sung mới
nhất cho IP Cisco mạng thế hệ mới (IP NGN) Dịch vụ trao đổi khung kết hợp video
ăn, lưu trữ, phân phối, cá nhân, và khả năng truyền tải vào một giải pháp mà các nhà
khai thác có thể sử dụng để cung cấp những nội dung bản địa hoá, tương tác, và cá
nhân trên toàn một danh mục đầu tư ngày càng tăng của các thiết bị heterogonous.
Không giống như các giải pháp VoD đầu, chức năng như máy chủ video lớn, tập
trung và vô cùng khó khăn với quy mô như là cơ sở thuê bao và các thư viện nội dung

127
lớn, CDS Cisco có chức năng như một mạng lưới video thực sự không chỉ là một máy
chủ video. Bằng cách nắm lấy đầy đủ các khả năng của mạng IP và chiến lược phân
phối nội dung nêu trong bài báo này, CDS Cisco bao trùm một mô hình hoàn toàn mới
cho việc cung cấp các dịch vụ video thuê bao, đại diện cho một giải pháp video nhiều
hơn nữa hiệu quả chi phí linh hoạt, và sẵn sàng cho tương lai .
Khi các nhà cung cấp dịch vụ âm mưu chiến lược của họ để biến đổi thành các
nhà cung cấp kinh nghiệm, để cung cấp cho khách hàng một "cuộc sống kết nối",
trong đó nội dung vượt qua các thiết bị truy cập, và để cung cấp trên lời hứa của 2,0
Video để dân chủ hóa sản xuất và phân phối nội dung video, họ cần một Video giải
pháp được thiết kế để hỗ trợ tất cả các yêu cầu này trong tương lai. Họ cũng cần một
giải pháp cung cấp đầy đủ các công cụ để cung cấp, kinh nghiệm video tương tác cá
nhân, và chất lượng cao mà khách hàng yêu cầu ngay bây giờ, và là một phần của một
khuôn khổ video lớn hơn IP tích hợp tất cả các khía cạnh của định, bảo quản, và thực
hiện một kinh nghiệm khách hàng tốt hơn. Là một thành phần cốt lõi của giải pháp
IPTV của Cisco, các CDS Cisco xây dựng dựa trên chuyên môn IP và VoD của Cisco
và lãnh đạo các video của khoa học Atlanta trong các headend và trong nhà khách
hàng để cung cấp một giải pháp video thực sự toàn diện.
4.2.3. Dịch vụ VPN
Là dịch vụ mạng riêng ảo do VNPT cung cấp, cho phép kết nối các mạng máy
tính của doanh nghiệp (như các văn phòng, chi nhánh, cộng tác viên từ xa, v.v...)
thuộc các vị trí địa lý khác nhau tạo thành một mạng duy nhất và tin cậy thông qua
việc sử dụng các liên kết băng rộng xDSL. MegaWAN sử dụng phương thức chuyển
mạch nhãn đa giao thức (Multil Protocol Label Switching), giao thức của mạng thế hệ
tiếp theo (NGN).
MegaWAN cung cấp kết nối mạng riêng cho khách hàng trên nền mạng
IP/MPLS. Dịch vụ VPN/MPLS cho phép triển khai các kết nối nhanh chóng, đơn
giản, thuận tiện với chi phí thấp.
Sử dụng MegaWAN, khách hàng có thể vừa truy nhập mạng riêng ảo vừa truy
cập Internet (nếu khách hàng có nhu cầu).
Công nghệ: Sử dụng đường dây thuê bao số xDSL kết hợp công nghệ
VPN/MPLS.
Tốc độ kết nối: Cung cấp các tốc độ linh hoạt mềm dẻo tuỳ theo nhu cầu của
khách hàng.
Khả năng đáp ứng: Tại các tỉnh và thành phố trên cả nước có dịch vụ ADSL,
SHDSL do VNPT cung cấp.

128
Giá cước: Giá cước mềm dẻo theo từng loại tốc độ.
MegaWAN đậc biệt thích hợp với các tổ chức/ công ty hoạt động trong lĩnh vực
tài chính, ngân hàng, với tốc độ truy cập và tính bảo mật cao.

129
Chương 5: MỘT SỐ ỨNG DỤNG MULTIMEDIA
5.1. Mạng thông tin toàn cầu (Internet)
1. Internet là gì?
Internet là mạng máy tính toàn cầu kết nối hàng triệu máy tính và mạng máy tính
trên khắp thế giới và sử dụng bộ giao thức truyền thông TCP/IP.
Một số ứng dụng của Internet:
+ Tạo ra 1 phương thức giao tiếp hoàn toàn mới giữa con người với con người.
VD: Chat, điện thoại Internet…
+ Đảm bảo cho mọi người khả năng thâm nhập đến nhiều nguồn thong tin
thường trực, các dịch vụ mua bán, truyền tệp…
2. Kết nối Internet bằng cách nào?
a) Sử dụng modem qua đường điện thoại:
+ Máy tính cần cài đặt modem qua đường điện thoại.
+ Người dựng ký hợp đồng với nhà cung cấp dịch vụ Internet ISP để được cấp
quyền truy cập gồm:
User name: tên truy cập.
Password: mật khẩu.
Số điện thoại truy cập
Cách kết nối này thuận tiện cho người dùng nhưng tốc độ đường truyền không
cao.
b) Sử dụng đường truyền riêng:
+ Thuê đường truyền riêng nối từ máy đến nhà cung cấp dịch vụ.
+ Một máy ủy quyền (Proxy) trong mạng LAN được dùng để kết nối với nhà
cung cấp dịch vụ Internet.
Ưu điểm là tốc độ đường truy6èn cao.
c) Một số phương thức kết nối khác:
+ Sử dụng đường truyền ADSL (đường thuê bao bất đối xứng)
- Tốc độ cao hơn kết nối điện thoại.
- Giá thành ngày càng hạ nên được rất nhiều người lựa chọn.
- Công nghệ không dây Wi – Fi là phương thức kết nối mới nhất, thuận tiện
nhất, kết nối mọi nơi, mọi thời điểm.: đt di dộng, máy tính xách tay…
- Dịch vụ kết nối Internet qua đường truyền hình cáp. Chẳng hạn: Truyền hình
cáp VTC…

130
3. Các máy tính trong Internet giao tiếp với nhau bằng cách nào?

Các máy tính trong Internet hoạt động và trao đổi với nhau đ*uợc là do chúng cùng sử
dụng bộ giao thức truyền thông TCP/IP.
TCP (Transmisson Control Protocol):
- Là giao thức cho phép hai thiết bị truyền thông trong mạng kết nối với nhau và
trao đổi các dòng dữ liệu (đã đóng gói) hoặc thông tin cần truyền.
- Đảm bảo phân chia dữ liệu ở máy gửi thành gói nhỏ có khuôn dạng, kích thước
xác định và phục hồi dữ liệu gốc ở máy nhận.
IP (Internet Protocol):
Là giao thức chịu trách nhiệm về địa chỉ và định tuyến đuờng truyền, cho phép
các gói tin đi đến đích một cách riêng lẻ, độc lập.
Nội dung gói tin gồm:
- Địa chỉ nhận.
- Địa chỉ gửi.
- Dữ liệu, độ dài.
- Các thông tin kiểm soát, phục vụ khác.
*Làm thế nào gói tin đến đúng người nhận?
Để gói tin đến đúng máy ngu*ời nhận (máy đích) thì trong gói tin phải có thông
tin để xác định máy đích. Mỗi máy tính tham gia vào mạng phải có địa chỉ duy nhất
đ*uợc gọi là địa chỉ IP.
- Địa chỉ IP trong Internet: Là một dãy bốn số nguyên phân cách nhau bởi dấu
chấm (.)
Ví dụ: 172.154.32.1
- Để thuận tiện cho ngu*ời dùng địa chỉ IP được chuyển sang dạng kí tự (tên
miền).
Ví dụ:
http://thptxuanloc.com www.google.com.vn www.edu.net.vn
5.2. Hệ thống hội thảo truyền hình (Videoconference Systems)
Hội nghị truyền hình là công nghệ mới mang lại nhiều tiện ích thiết thực cho các
tổ chức, doanh nghiệp. Nó không chỉ giúp tiết kiệm chi phí, thời gian mà còn nâng cao
văn hóa doanh nghiệp. Tuy nhiên để có một hệ thống hội nghị truyền hình tốt là
không đơn giản. Nó phụ thuộc vào nhiều yếu tố như: giải pháp, thiết bị, nhà cung cấp
dịch vụ mạng, v.v... do đó các doanh nghiệp cần tìm hiểu và lựa chọn kỹ để áp dụng
phù hợp với nhu cầu của mình.
Yêu Cầu Chung Của Giải Pháp Hội Nghị Truyền Hình.

131
1. Yêu cầu thiết bị
Các hệ thống HNTH đa điểm gồm 4 thành phần cơ bản: thiết bị đầu cuối HNTH
(Thiết bị VCS), thiết bị điều khiển đa điểm (MCU), Gateway và Gatekeeper. Ngoài ra
còn có các thiết bị tùy chọn khác (thiết bị chia sẻ dữ liệu, thiết bị ghi hình lại hình ảnh
Video Conferencing, thiết bị lập lịch và quản lý hội nghị, …)
- Thiết bị VCS: Có chức năng thu nhận hình ảnh, âm thanh (qua camera, micro)
mã hóa chúng rồi chuyển qua giao diện mạng. Các VCS còn có cổng giao tiếp với
máy tính (PC, Laptop) cho phép kết nối và trình chiếu các tài liệu từ máy tính vào
phiên làm việc HNTH. VCS sử dụng màn hình TV, màn hình máy tính hoặc máy
chiếu làm thiết bị hiển thị và có thể sử dụng bất kỳ hệ thống âm thanh nào có sẵn.
- Thiết bị MCU: Có chức năng điều khiển đa điểm, cho phép kết nối nhiều VCS
vào một phiên làm việc HNTH. Hình ảnh, âm thanh từ các thiết bị VCS được nhận về,
trộn và chia hình hiển thị theo yêu cầu của người quản lý hệ thống. Ngòai ra, MCU
còn hỗ trợ kết nối các đầu cuối thoại (Voice only) vào phiên làm việc HNTH. Để đáp
ứng yêu cầu làm việc đa phương tiện, đa mạng thiết bị MCU còn hỗ trợ chuyển mã
(transcoding) các yếu tố liên qua đến chất lượng HNTH như: giao diện mạng, băng
thông, chuẩn mã hóa Video/Audio, tốc độ khung hình…
- Thiết bị Gateway: Có chức năng chuyển đổi tín hiệu giữa 2 mạng khác nhau,
làm nhiệm vụ giao tiếp, chẳng hạn như giao tiếp giữa mạng H.323 (mạng IP) và mạng
H.320 (mạng ISDN).
- Thiết bị Gatekeeper: Là thành phần tùy chọn trong hệ thống nhưng có vai trò
quan trọng trong việc điều khiển việc thiết lập cuộc gọi, quản lý thiết bị và kiểm soát
băng thông.
Các yêu cầu trên đây chỉ cần thiết trong hệ thống hội nghị truyền hình đa điểm
(3 điểm trở lên), trong trường hợp hội nghị giữa 2 điểm thì chỉ cần 2 thiết bị VCS tại 2
điểm.
2. Yêu cầu đường truyền
Đường truyền sử dụng trong giải pháp Hội Nghị Truyền hình là đường ISDN
hoặc IP.
Đối với hệ thống hội nghị truyền hình đa điểm SD (bao gôm các dòng ký hiệu là
VSX "ví dụ VSX7000s"), đường truyền tại các site nhánh phải đạt ít nhất 384 Kbps
đối xứng.
Đối với hệ thống hội nghị truyền hình đa điểm HD (bao gồm các dòng ký hiệu là
HDX "ví dụ HDX8002"), đường truyền tại các site phải đạt ít nhất 1Mbps đối xứng.
Đường truyền đến MCU phải bằng đường truyền tại các site cộng lại.

132
Trong trường hợp sử dụng đường truyền IP, đường truyền tại các site phải cộng
thêm 20%-35% header của gói IP, nên để đạt yêu cầu về tốc độ, đường truyền đến site
nhánh phải đạt ít nhất 1.2Mbps. Để có đủ băng thông cần thiết cho cả video, audio và
content trong cuộc họp hội nghị đối với hệ thống dùng công nghệ HD và 460Kbps đối
với công nghệ SD.

133
5.3. Hệ thống truyền hình theo yêu cầu (Video-on-demand System)
Trả tiền theo từng chuyên mục (iPPV): Là dịch vụ trả tiền theo từng lần xem.
iPPV là một giải pháp hiệu quả bởi vì đôi khi bạn chỉ quan tâm đến một số chuyên
mục nhất định chứ không muốn xem tất cả các kênh.
Quảng cáo (Live channel & Advertising): Quảng cáo trên kênh trực tuyến là
dịch vụ cho phép khách hàng doanh nghiệp có nhu cầu đặt quảng cáo trên MyTV qua
nhiều hình thức: TVC, Panel, Logo, Text...
Sóng phát thanh (Broadcast audio channel): Là dịch vụ nghe sóng phát thanh
theo yêu cầu. Với một danh sách định sẵn có trong hệ thống các chương trình phát
thanh được phát trực tiếp theo chuyên đề cụ thể như âm nhạc, chính trị, kinh tế, xã
hội... Bạn có thể lựa chọn và nghe các chương trình phát thanh trong nước, quốc tế
qua hệ thống MyTV.
Chia sẻ ảnh và clip (Media sharing): Tính năng này cho phép khách hàng MyTV
có thể tạo, lưu trữ và quản lý các album ảnh, clip của mình.
Ngoài ra, các giai đoạn tiếp theo sẽ có các dịch vụ tương tự nhưng với chất
lượng cao (High Definition) và thêm một số dịch vụ gia tăng giá trị khác.
I, Giới thiệu dịch vụ truyền hình Internet (IPTV)
- IPTV: Là một hệ thống dịch vụ truyền hình số theo yêu cầu được cung cấp qua
hạ tầng mạng băng rộng ( ADSL, FTTH, ...) thông qua bộ giải mã Set-Top-Box truyền
tín hiệu lên tivi
II, Lợi ích khi sử dụng IPTV
- Có thể xem nội dung của các kênh truyền hình bất cứ lúc nào mà không lệ
thuộc giờ phát sóng của đài truyền hình.
- Xem phim, ca nhạc theo yêu cầu.
- Có nhiều chức năng giải trí khác như hát karaoke, chơi game, xem tin tức, mua
sắm,,,
III, Dịch vụ NetTV của Viettel
1, Dịch vụ cung cấp
a, Kênh truyền hình ( Live TV )
- Tương tự như dịch vụ truyền hình truyền thông, dịch vụ này cung cấp cho
khách hàng những chương trình truyền hình thu lại từ hệ thống truyền hình mặt đất,
truyền hình cáp, truyền hình vệ tinh và truyền hình riêng.
- Các kênh truyền hình được chia cụ thể theo vùng, miền:

134
+ Kênh trong nước: Kênh VTV ( 06 kênh ), 20 đài tỉnh (24 kênh), VTC (08
kênh SD và 04 kênh HD), HTVC (07 kênh), TH cáp hà nội (06 kênh), HTV (06
kênh), VCTV (6 kênh), SCTV (12 kênh)
+ Kênh nước ngoài: 9 kênh quốc tế miễn phí, Qnet (10 kênh), FOX (17 kênh),
K+ (2 kênh)
b, Video theo yêu cầu (Video On Demand-VOD)
- Dịch vụ cho phép khách hàng lựa chọn xem phim, lưu lại trên sever gồm:
+ 2000 Video phim: gồm phim Holywood - phim Châu á - Phim Việt Nam
+ 2000 Video thể thao - Video hài
+ Video thời sự, tân cổ, cải lương, nhạc thiếu nhi, thời trang cuộc sống...
c, Âm nhạc theo yêu cầu (Music on Demand-MOD)
- Dịch vụ cho phép khách hàng lựa chọn nghe và xem các clip, video ca nhạc từ
thư viện của nhà cung cấp.
- Hiện nay dịch vụ âm nhạc theo yêu cầu của NetTV gồm 5000 Video âm nhạc
và 15000 Mp3 âm nhạc
d, Karaoke (Karaoke on Demand-KOD)
- Mang đến cho khách hàng danh sách những bài hát được ưa chuộng trong nước
và quốc tế, lời bài hát xuất hiện dưới dạng text trên màn hình TV
e, Các dịch vụ GTGT
- Giáo dục : các chương trình video học cấp 1, 2, 3
- Báo đọc trên TV: theo thông tin từ các báo điện tử
- Thông tin mua sắm và thông tin thị trường, kết hợp với các siêu thị lớn như
BiG C, Metro, Media Mart để cung cấp giá và hướng dẫn tiêu dùng
f, Các tính năng chỉ có trên NetTV
- TSTV (Time shift TV): Vơi tính năng này, trong khi đang theo dõi các kênh
truyền hình, khách hàng có thể tạm dừng khi có việc đột xuất không thể xem tiếp
được, sau đó khi quay lại chỉ cần chọn xem tiếp
- TVOD (TV on Demand): Hệ thống đã lưu lại chương trình của tất cả các kênh
truyền hình trong 7 ngày trước đó, nên khách hàng có thể theo dõi lại bất kì chương
trình nào trong 7 ngày trước
- NPVR: Ghi lại các chương trình truyền hình hấp dẫn
- PIP (picture in picture): trên màn hình TV khách hàng có thể xem đồng thời 2
kênh truyền hình 1 màn hình to và 1 màn hình bé.

135
THỰC HÀNH ĐA PHƯƠNG TIỆN
Bài 1: Chọn Help để biết thông tin về phần mềm này

Bài 2: Chọn trang vẽ mới


Người dùng thay đổi các thông số về tranh kết quả

Quan sát các thực đơn của phần mềm. Lưu ý:


- Nền để vẽ
- Cửa sổ LAYER (Các lớp vẽ khác nhau …)
- Các chức năng điều khiển

Bài tập 3: Làm việc với bút vẽ


1. Chọn dạng bút (bút chì, bút vẽ, bút mực …)
2. Chọn đầu bút (đầu tròn, đầu bẹt, …)
3. Chọn màu vẽ (trên bảng màu kề bên).
4. Vẽ thử

136
Bài tập 4:
Cho lớp (tầng) của bản vẽ. Chọn thực đơn LAYER

Mô tả thuộc tính liên quan đến lớp vẽ

Bài tập 5: ZOOM


- Phóng to tranh vẽ, dùng để tinh chỉnh
- Sử dụng “kính lúp” trên thanh công cụ
- Quay trở lại bằng cách chọn tỉ lệ ZOOM

Bài tập 6: Cắt


- Cắt để lấy một phần tranh vẽ
- Sử dụng công cụ “cắt hình”
- Chọn vùng (hình chữ nhật) trên hình vẽ, bằng cách vừa ấn vừa di chuột
- Chọn CROP trong trang điều khiển

137
Bài tập 7: Đánh dấu
Đánh dấu vùng làm việc. Lưu ý rằng khi chọn một vùng các chức năng vẽ, thay
đổi màu, … chỉ tác động lên các đối tượng nằm trong vùng được đánh dấu
Có hai cách chọn hình dạng vùng được đánh dấu:
a. Chọn theo đường vẽ tự nhiên (cái thòng lọng).
b. Chọn theo hình
Người ta cho phép chọn hình theo cửa sổ điều khiển

Bài tập 8: Di chuyển


Di chuyển vùng đánh dấu. Trước tiên đánh dấu vùng, sau đó dùng công cụ di
chuyển, vừa ấn vừa di chuyển

Bài tập 9: Sao chép:


- Sao chép mẫu vẽ vào một vùng đang được đánh dấu
- Chọn một vùng, theo đường viền tự do hay đường viền khuôn mẫu
- Chọn công cụ sao chép mẫu vẽ, hình “hai nét bút”;
- Di chuyển con chuột và nhấn phím để chọn mẫu vẽ, tại bất kì nơi đâu của hình
vẽ;
- Quay vẽ hình đang đánh dấu và nháy chuột để sao chép.

138
Bài tập 10: Văn bản
Sử dụng công cụ nhập một đoạn văn bản. Sau khi chọn công cụ, định vị trên
hình vẽ, cần làm việc với cửa sổ gõ văn bản, cho phép chọn phông chữ, kích thước,
màu sắc…

Bài tập 11: Dán hình mẫu


Dán một số hình mẫu vào tranh
- Chọn công cụ dán
- Chọn hình định lại trong cửa sổ điều khiển; chọn các tham số khác;
- Dán vào tranh

Bài tập 12: Tẩy xóa


Sử dụng hòn tẩy. Lưu ý tẩy theo màu nền, không theo màu lựa chọn trong thanh
màu sắc

Bài tập 13: Bình xịt màu

139
Bài tập 14: Tô
Tô màu các đối tượng trên tranh. Tranh vẽ được tạo nên bởi các nét vẽ, bằng các
công cụ khác nhau, người ta thu được nhiều đối tượng khác nhau. Khi tô, màu đổ kín
nền của đối tượng.
- Chọn công cụ đổ màu
- Chọn màu cần đổ

-
Định vị đối tượng cần tô rồi đổ màu

Bài tập 14: Nhiều lớp:


Làm việc với nhiều lớp trên cùng một bức tranh. Quan sát sự khác nhau của việc
tẩy xóa hình vẽ trên các lớp khác nhau

1. Tạo ba lớp vẽ, bằng thực đơn LAYER, chọn NEW;


2. Trên cửa sổ LAYER có chức năng
a. Chọn làm việc với một lớp
b. Khóa lớp khác
c. ON/OFF lớp vẽ
3. Bật lớp 1, gõ chữ; bật lớp 2 và khóa các lớp kia, vẽ chữ “lớp 2”; bật lớp
3, khóa lớp khác, vẽ chữ lớp 3
4. Dùng tẩy để tẩy các chữ đã viết. Người ta chỉ xóa được nút vẽ của lớp
nào đang được xác định và lớp đó cần ở chế độ không bị khóa.

140
Bài tập 15: Vẽ đường
- Vẽ các đường thẳng, hình chữ nhật bằng công cụ

- Chọn công cụ đường thẳng


- Chọn loại đường, hoặc đường thẳng, hoặc đường BEZIER; chọn độ đậm của
đường kẻ

- Chọn tương tự với công cụ hình chữ nhật (chọn loại hình, chọn nét vẽ, chọn
màu, vẽ theo chu vi hay hình đặc, …)

Bài tập 16: Vẽ bằng ngón tay


Sử dụng công cụ day hình vẽ bằng ngón tay được thực hiện như day màu kế bên
sang một nét vẽ …

Bài tập 17: Chỉ vẽ trên nền:


Người ta có thể vẽ trên hình vẽ, với điều kiện nét vẽ chỉ tác động đến nền chưa
được vẽ, tức hình đã vẽ không nét vẽ mới xóa, đè lên …
Bài tập 18: Lựa chọn đối tượng
Cây bút có nháy cho phép, tức đánh dấu đối tượng, trước khi cần xử lý đối tượng
đó. Người ta thôi đánh dấu bằng cách điều khiển chuột phải hay chọn thực đơn
NOSELECTION

141
Bài tập 19: Chọn màu:
Màu bút vẽ, màu tô, … có thể được chọn trực tiếp trên bảng màu. Tuy nhiên
chọn bằng công cụ cho phép lựa được màu trực tiếp trên hình vẽ, cho phép màu sắc
thay đổi đều

Bài tập 20: Tạo hình vẽ mẫu:


- Một số hình vẽ được dùng để dùng chung, được dán vào các tranh vẽ khác. Để
tạo:
- Chọn hình mới, với màu nền là TRANSPARENT

- Vẽ hình

- Chọn FILE EXPORT/PICTURE TUBE


- Chọn tên của hình vẽ mẫu trong cửa sổ thuộc tính

Bài tập 21: Thu nhận thông tin từ thiết bị khác


Chọn thực đơn CAPTURE

142
Bài tập 22: Xử lý ảnh
1. Nhiều chức năng xử lí ảnh được nêu trong thực đơn IMAGE
2. Vẽ một hình, đặt tên là HINH_VE, nhờ thực đơn FILE/SAVE
3. Thay đổi hình vẽ bằng các chức năng soi gương (MIRROR), lật ngược
(FLIP), hay xoay (ROTATION) với góc xoay xác định trong cửa sổ;
4. Xử lý chỉ một phần của hình vẽ, bằng cách chọn trước, đánh dấu một
vùng hình vẽ

FLIP

MIRROR

ROTATION

Xử lí một phần của hình vẽ

143
Bài tập 23: Một số định dạng hình vẽ

Sử dụng RESIZE … để định lại kích thước:

Bài tập 24: Xử lí toán học ARITHMETIC


Chức năng xử lí toán học trên nhiều hình vẽ

1. Mở hai hình vẽ
2. Chọn chức năng xử lí toán học; thu được hình vẽ mới
3. Chọn hình vẽ mới (nháy chuột), người ta sẽ thấy tác động của hình vẽ
mới: các lớp, …
4. Hình vẽ tích hợp từ hai hình vẽ được chọn

Bài tập 25: Biến dạng ảnh

144
- Các chức năng làm biến dạng một hình vẽ, hay một phần hình vẽ, được nêu
trong thực đơn DEFORMATIONS

Bài 26: Hạn chế ảnh

Bài tập 27: Tinh chỉnh ảnh


Một số chức năng làm thay đổi thẩm mĩ của hình vẽ. Các chức năng trong thực
đơn:

145
Bài 28: Màu sắc hình vẽ
Người ta dùng thực đơn COLORS để thay đổi thuộc tính về màu sắc của hình vẽ

Chức năng COLORIZE

Chức năng SOLARIZE

Chức năng NEGATIVE IMAGE

Đếm số màu mà hình vẽ đã dùng

146
Thay đổi (tăng/giảm) độ sâu của hình vẽ

147
BÀI TẬP LỚN MÔN MULTIMEDIA

1. Mã hóa tiếng nói,các mô hình,các chuẩn mã hóa tiếng nói trong truyền thông
đa phương tiện (ví dụ trong VoiP)
2. Các phương pháp nén ảnh mất thông tin.Tập trung vào các ảnh
tĩnh.JPEG,lượng tử hóa vector
3. Mã phát hiện lỗi và sửa lỗi
4. Biểu diễn và lưu trữ dữ liệu âm thanh.Các phương pháp sử dụng mô hình
Markov ẩn
5. Nén video.Các chuẩn MPEG.Nén video và audio theo MPEG
6. Phân tích đối tượng trong chuỗi video.Phát hiện và bù chuyển động của các
đối tượng trong chuỗi video
7. Truyền t hông đa phương tiện,các giao thức truyền thông thời gian
thực .Truyền video và truyền âm thanh qua mạng Internet
8. Đảm bảo chất lượng dịch vụ truyền thông đa phương tiện.Các mạng thế hệ
mới và truyền thông đa phương tiện.QoS
9. Đánh dấu ẩn vào dữ liệu đa phương tiện
10. Cơ sở dữ liệu đa phương tiện(tập trung vào video)
11. Truyền dòng video.H323
12. VoIP các mô hình,chuẩn,SIP
13. Hội nghị bằng video,các giải pháp chuẩn,truyền video
14. Các chuẩn biểu diễn và nén ảnh
- Các chuẩn nén JPEG (Nguyen Van A, Nguyen Van B)
- Các chuẩn nén JPEG2000
- Các chuẩn nén Fax (JBIG)
15. Các chuẩn biểu diễn và nén video
- Chuẩn nén MPEG-1,
- MPEG-2,
- MPEG-4
- Chuẩn mô tả nội dung Multimedia MPEG-7
- Chuẩn tổ chức multimedia MPEG-21
- Tiêu chuẩn ITU-T cho các hệ thống truyền thông AudioVisual
- Các chuẩn nén video H.261, H.263
- Các chuẩn nén mới H.264/MPEG-4 Part 10
- Các chuẩn hệ thống AudioVisual – H.3xx
16. Các chuẩn biểu diễn và nén âm thanh
- Các chuẩn nén MP3
- Các chuẩn tái hiện (surround) âm thanh số

148
17. Các chuẩn nén audio:
- PCM
- LPC
- GSM
18. Các chuẩn nén tiếng nói ITU-T G.7xx
19. Các giao thức cho các ứng dụng tương tác thời gian thực
- RTP/RTCP
- SIP
20. Các chuẩn và công nghệ điện thoại internet
- Chuẩn H.323 framework, chuẩn SIP, cổng điện thoại internet
- Vấn đề chất lượng dịch vụ
21. Các chuẩn và công nghệ truyền hình số
- Các chuẩn DTV: ATSC (Advanced Television System Committee)
- DVB (Digital Video Broadcasting)
22. Đồng bộ dữ liệu audio – video

149
PHỤ LỤC: ĐÁP ÁN, HƯỚNG DẪN GIẢI
Chương 1:
Câu 1:
- Đa phương tiện có nhiều loại, những phương tiện công cộng về đa phương tiện:
Radio, vô tuyến, quảng cáo, phim, ảnh...Nhu cầu về tương tác người-máy luôn đặt ra
trong hệ thống thông tin. Vấn đề chính về tương tác người-máy không là quan hệ giữa
con người với máy tính mà là con người với con người. Con người có vai trò quan
trọng trong hệ thống thông tin.
- Định nghĩa đa phương tiện (theo nghĩa rộng) là bao gồm các phương tiện: văn
bản, hình vẽ tĩnh (vẽ, chụp), hoạt hình (hình ảnh động), âm thanh
Cuối cùng người ta có thể định nghĩa đa phương tiện; đa phương tiện là kỹ thuật mô
phỏng và sử dụng đồng thời nhiều dạng phương tiện chuyển hoá thông tin và các tác
phẩm từ các kỹ thuật đó
- Liên quan đến định nghĩa đa phương tiện, người ta cần lưu ý những khía cạnh
sau:
• Thông tin cần phải được số hoá, phù hợp với xu thế và rẻ;
• Phải dùng mạng máy tính, để đảm bảo truyền bá, hay truyền tải tốt;
• Sử dụng phần mềm có tương tác, cho phép người dùng trao đổi với phần mềm và
thay đổi theo ý người dùng;
• Phải thiết kế giao diện người máy phù hợp với phát triển của đa phương tiện,
tức giao diện người dùng đa phương tiện được lưu ý nhiều trong các năm gần đây.
Câu 2:
* Khái niệm
- Ảnh Bitmap được xây dựng từ các điểm ảnh màu (pixels) là một khối nhỏ màu
hình chữ nhật.
- Tất cả các điểm màu được sắp xếp với nhau theo một trật tự tạo thành ảnh.
- Định dạng ảnh bitmap được thiết kế sử dụng đối với các điểm ảnh hoặc hình đồ hoạ
tương tự nhau. Một bức ảnh được tạo nên từ rất nhiều các điểm pixels.
- Tạo thành bởi các điểm mày (pixel) xếp liên tiếp (Nếu các điểm màu đen trắng
thì ảnh là đen trắng).
- Chất lượng quyết định bởi độ sâu của màu (color-depth).
- Ảnh lưu trữ kiểu bimap lưu thông tin về từng điểm ảnh, với sự hỗi trợ của bảng
màu(color-lookup table).
- Độ sâu của màu: là bộ nhớ lưu trữ dùng cho mỗi điểm ảnh.
VD:4bit = 16 màu.
8bit = 256 màu.
16bit = 32786 màu.
24bit= 16,7 triệu màu.
- Bảng màu: kỹ thuật lưu trữ ảnh bitmap dùng bảng màu để ánh xạ chính xác
thông tin về các bản màu.
- Bảng màu được lưu trữ theo kiểu mảng với chỉ số được đánh và sử dụng để trả
tới các điểm màu tương ứng.
* Đặc điểm

150
- Ảnh Bitmap phụ thuộc vào độ phân giải.
- Độ phân giải được hiểu là tập hợp các điểm pixel trong 1 ảnh và tính bằng dpi
(dots per inch) hoặc ppi (pixels per inch).
- Ảnh Bitmap hiển thị trên máy tính có độ phân giải là: 72 hoặc 96 ppi. Tuy
nhiên khi in ảnh bitmap đạt chất lượng cao chúng ta cần đặt độ phân giải khoảng 150-
300.
- Đối với ảnh Bitmap chúng ta không thể phóng to, thu nhỏ kích thước ảnh mà
vẫn giữ nguyên chất lượng ảnh.
- Giảm kích thước ảnh Bitmap đồng nghĩa với việc chúng ta xoá đi một số điểm
pixel và không thể khôi phục lại được.
- Tăng kích thước ảnh Bitmap bằng cách tạo mới thêm các điểm pixel, chương
trình xử lý ảnh sẽ ước lượng giá trị màu dựa trên các điểm màu gần nó, quá trình đó
gọi là Interpolation.
Việc thay đổi kích thước ảnh được gọi chính xác là quá trình “điều chỉnh tỷ lệ” (trong
đồ hoạ trình diễn, đây là sự điều chỉnh trục y- trục giá trị được chọn bởi chương trình,
sao cho các cách biệt về dữ liệu được rõ ràng. Mọi chương trình đồ hoạ đều có khả
năng chia thang tỷ lệ trên trục y, nhưng thang đó có thể không thoả mãn. Điều chỉnh
thang bằng tay sẽ cho kết quả tốt hơn).
- Ảnh với độ phân giải thích hợp có thể dùng để lưu trữ các ảnh quét(scanned
image).
- VD: ảnh 640X580X256 màu bằng lịc thước lưu trữ là 640x480x8 = 300kb.
Một số định dạng ảnh Bitmap thông dụng:
*BMP
*GIF
*JPEG,JPEG2000
*PNG
* PICT(ảnh tạo trong máyMacintosh)
*PCX
*TIFF
*PSD(AdobePhotoshop)
Một số phần mềm soạn thảo ảnh Bitmap thôngdụng:
* Adobe Photoshop
* CorelPhoto-Paint
* Jasc Paint Shop Pro
* Micrografx Picture Publisher
* Ulead PhotoImpact
* Microsoft Paint
Câu 3:
- Mang đầy đủ thành phần dữ liệu của Multimedia.
- Được tối ưu về mặt dung lượng, kích thước được nén lại.
- Web chính là multimedia
- Dùng brower để hiển thị nội dung web.
- Mở rộng tính năng của brower bằng các plug-in cho mỗi dạng dữ liệu ứng dụng
khác nhau.
- Khả năng tương tác của web kém->cần một số giải pháp đặc biệt để tăng tính tương
tác/tính động của web : Sever push, Shockwave, Java, Active,X, GIF animation

151
Câu 4:
Có nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào
nguyên lý nén. Cách này phân các phương pháp nén thành hai họ lớn:
- Nén chính xác hay nén không mất thông tin: họ này bao gồm các phương pháp
nén mà sau khi giải nén ta thu được chính xác dữ liệu gốc.
- Phân loại theo mục đích nén có 3 loại:
+ Nén dưa thừa không gian.
+ Nén dư thừa phổ.
+ Nén dư thừa tâm sinh lý.
- Nén có mất thông tin: họ này bao gồm các phương pháp mà sau khi giải nén ta
không thu được dữ liệu như bản gốc. Phương pháp này lợi dụng tính chất của mắt
người, chấp nhận một số vặn xoắn trong ảnh khi khôi phục lại. Tất nhiên, các phương
pháp này chỉ có hiệu quả khi mà độ vặn xoắn chấp nhận được bằng mắt thường hay
với dung sai nào đấy.
Cách phân loại thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta
cũng phân thành hai họ:
- Phương pháp không gian (Spatial Data Compression): Các phương pháp thuộc
họ này thực hiện nén bằng các tác động trực tiếp lên việc lấy mẫu của ảnh trong miền
không gian.
- Phương pháp sử dụng biến đổi (Transform Coding): gồm các phương pháp tác
động lên sự biến đổi của ảnh gốc mà không tác động trực tiếp như họ trên.
Có một cách phân loại khác nữa, cách phân loại thứ ba, dựa vào triết lý của sự mã
hóa.
Cách này cũng phân các phương pháp nén thành hai họ:
- Các phương pháp nén thế hệ thứ nhất: Gồm các phương pháp mà mức độ tính
toán là
đơn giản, thí dụ việc lấy mẫu, gán từ mã,.v.v.
- Các phương pháp nén thế hệ thứ hai: dựa vào độ bão hòa của tỷ lệ nén.
Câu 5:
Các thành phần dữ liệu của Multimedia.
- DL ảnh.
- DL âm thanh.
- DL văn bản.
- DL video.
DL ảnh chia làm 2 loại tùy vào tính chất: ảnh vector và ảnh bitmap
DL âm thanh gồm có âm thanh MIDI, âm thanh số
- MIDI(Musical InstrumentDigital Interface) là chuẩn về chuyền thông giữa thiết
bị âm nhạc và máy tính. Lưu trữ âm thanh MIDI là lưu trữ các lệnh theo chuẩn MIDI
sinh ra âm thanh từ các MIDI device. Kích thước rất nhỏ, nhưng chất lượng khác nhau
tùy vào thiết bị chơi. Phù hợp với các thiết bị nhạc.
- Âm thanh số: Lưu trữ bằng cách lấy mẫu, chất lượng tùy thuộc vào tần số lấy
mẫu (11-44KHz) và kích thước lấy mẫu (8-16 bit). Kích thước file lưu trữ: sample-
size x sample_rate x duration.
DL văn bản là dạng dữ liệu chính cung cấp thông tin, sử dụng bảng mã ASCII,
Unicode để lưu trữ thông tin, hiển thi các loại font chữ: bitmap(Fixed font) và
Vector(True Type font).

152
DL video gồm có video tương tự(analogue và video số:
- Video tương tự sử dụng tín hiệu tương tự, chuẩn lưu trữ/xử lý thông tin:
PAL,NTSC,SECAM. Chuyển đổi ra video số dùng card chuyên dụng.
- Video số : lưu trữ số hóa video, sử dụng các thuật toán nén ảnh và nén khiing
để giảm kích thước lưu trữ. Chia là các loại chuẩn tùy theo thuật toán nén sử dụng.
Câu 6:
*KN: Ảnh vector là những bức ảnh được tạo ra bằng cách xác định các điểm tọa
độ, đường theo phương trình toán học. Các đối tượng cơ bản bao gồm đường thẳng,
đường cong và một số hình toán học gốc với các thuộc tính màu sắc, độ dày đường
thẳng...
* Đặc điểm:
- Người ta hoàn toàn có thể thay đổi các thuộc tính đối tượng ảnh vectơ mà
không ảnh hưởng tới đối tượng cơ bản đó.
- Đối với ảnh vectơ chúng ta không chỉ thay đổi thuộc tính mà còn có thể thay
đổi hình dạng và sự hiển thị ảnh qua các điểm nút của ảnh.
- Ảnh vectơ cho phép biến đổi theo tỷ lệ do đó chúng không phụ thuộc vào độ
phân giải. Ta có thể tăng giảm kích thước cả trên màn hình hay khi in mà không ảnh
hưởng tới chất lượng ảnh.
- Một ưu điểm nổi bật khác của ảnh vectơ là chúng không hạn chế về hình dạng
các điểm như trong ảnh bitmap. Đối tượng vectơ này có thể thay thế hoàn toàn bởi đối
tượng vectơ khác
- Bên cạnh những ưu điểm nổi bật, hạn chế cơ bản nhất của ảnh vectơ là sự
không thích hợp đối với các ảnh tự nhiên, ảnh chụp từ máy kỹ thuật số. Ảnh vectơ
được tạo từ các vùng màu thuần nhất hoặc vùng màu xám nhưng chúng không thể mô
tả các màu sắc tinh tế khác nhau trong một bức ảnh.
- Chúng ta không thể quét một ảnh vào và lưu dưới dạng ảnh vectơ mà không sử
dụng phần mềm chuyển đổi đặc biệt.
- Ảnh vectơ dễ dàng chuyển đổi sang ảnh bitmap. Khi chuyển đổi ta có thể xác
định bất kỳ kích thước nào cho ảnh bitmap mà không ảnh hưởng tới chất lượng ảnh.
- Quan trọng nhất khi ta quyết định chuyển đổi ảnh vectơ sang ảnh bitmap là khi
chúng được sử dụng trên trang Web.
- Một số định dạng ảnh Vectơ thông dụng:
* AI (Adobe Illustrator)
* CDR (CorelDRAW)
* CMX (Corel Exchange)
* CGM Computer Graphics Metafile
* DRW (Micrografx Draw)
* DXF AutoCAD
* WMF Windows Metafile
Một số phần mềm soạn thảo ảnh Vectơ thông dụng:
* Adobe Illustrator
* CorelDRAW
* Macromedia Freehand
* Xara
* Serif DrawPlus
* Harvard Draw

153
Câu 7:
Quá trình phát triển của một sản phảm mutilmedia
a.Viết đề án theo khuôn mẫu nhận được. Tuy nhiên trong khuôn mẫu mà người
muốn trình bày cần đầu tư. Trong đề án trang quan trọng là trang mục đích, nội dung
thực hiện.
- Kế hoạch của đề án là kết quả cuối cùng cho phép phản ánh quá trình thực hiện đề 8-
Điều mà người viết đề án mutilmedia mô tả lại:
+ Xuất phát căn cứ cho phép xây dựng đề án.
+ Dự kiến khán giả.
+ Sản phẩm đa phương tiện.
- Khái niệm chủ đề liên quan tới đề án.
- Phương tiện phân phát sản phẩm.
- Môi trường sản xuất.
b. Môi trường yêu cầu của mutilmedia.
- Cần có chuẩn sử lý thông tin đa ngành, do đề án mutilmedia liên quan đến
nhiều dạng thông tin.
- Cần có môi trường truyền thông hạ tầng mạng máy tính.
- Phải đảm bảo cho dề án và cho sản phẩm có thị trường cạnh tranh lành mạnh
về phần mềm.
- Cần huấn luyện năng lực dùng mutilmedia.
c.Mục tiêu của đề án mutilmedia
- Người sản xuất nhằm mục tiêu đối với sản phẩm mutilmedia:
+ Đo được kết quả.
+ Theo chuẩn AIDA. Dùng cho truyền thông quảng cáo.
+ Các sản phẩm cần được mô tả công cụ, lợi ích, mong muốn thể hiện theo
chuẩn đóng gói sản phẩm.
d.Các đề xuất của đề án mutilmedia
- Đề án có thể đề nghị, đề xuất cho người dùng thông qua sản phảm mutilmedia.
- Do đó cần xác định: Nội dung đề xuất, mô tả các thành phần đề xuất. Điều này có
nghĩa là cần được đưa ra.
- Các đề xuất, các khẳng định mà đề án giành cho khách hàng.
- Các khuyến cáo người dùng như là khả năng ứng dụng của mutilmedia.
- Mô tả giải pháp và sử lý do lựa chọn sản phẩm mutilmedia.
e.Các rằng buộc hợp đồng thực hiện đề án mutilmedia
- Người ra xác định các điều khoản cần thực hiện đối với 2 bên ký kết hợp đồng.
Lúc này đề xuất sẽ được làm tinh để đưa vào văn kiện hợp đồng.
- Người quản lý quản trị gồm: Trưởng đề án, trưởng trang web, trợ lý đề án, trợ
lý sx chung, bộ phận thư ký.
+ SX video: Giám đốc, Người sx, trợ lý sx, người quay video. Phụ trách âm
thanh, trang phục, trang điểm, theo dõi kịch bản, lưu trữ hình ảnh âm thanh, video.
+ SX đồ họa ảnh tĩnh: Trường nhóm sản xuất, sản xuất đồ họa, lưu trữ ảnh.
+ Mô hình
+ Thiết kế đồ họa thiết kế trang web
+ Trang web ảnh, số hóa ảnh.
+ Phát triển CSDL.
+ Quản lý thu thật DL, Phát triển chỉ số hóa.
- Thiết kế, làm tư liệu:

154
+ Thiết kế tương tác
+ Thiết kế hướng dẫn sử dụng
+ Thiết kế giao diện
+ Soạn thảo trang web, kịch bản.
+ Chuyên gia, chuyên viên.
+ Tính toán và tích hợp.
+ Lập trình, lập trình web.
+ Trưởng kỹ thuật.
+ Trưởng mạng máy tính.
f.Nội dung của đề án mutilmedia
- Căn cứ vào mục tiêu của đề án mutilmedia: Vai trò của nội dung thấy rõ trong
lúc chuẩn bị đề án. Nội dung của đề án mutilmedia được thể hiện qua kịch bản
mutilmedia.
- Kịch bản được mô tả có nhiều dạng trong nội dung của đề án liệu kê các chi tiết sau:
+ Tên ứng dụng của mutilmedia, hạ tầng cho phép sử dụng mutilmedia.
+ Mục đích, đóng gói sản phẩm dùng cho việc thông báo, giải trí, đào tạo hay để
bán.
g.Kịch bản
- Là cốt truyện viễn tưởng, cá nhân với các đặc tính, sự kiện sản phẩm. Và môi
trường, nó giúp người thiết kế khai thác ý tưởng và chia quyết định thiết kế ra các tình
huống cụ thể.
- Những nét chính của kịch bản:
+ Chi tiết về cốt chuyển và chi tiết về các sự kiện xảy ra.
+ Khả năng tương tác giữa người dùng và hệ thống mutilmedia.
+ Khả năng thao tác cho phép đối với người dùng theo phương châm chia sẻ làm
hiều cảnh, việc viết kịch bản chỉ cần thu được bản viết thành lời văn, câu chuyện.
h.Kế hoạch thực hiện
- Đề án mutilmedia cần được tuân theo phương pháp khoa học về quản lý đề án
công nghệ thông tin và quản lý đầu tư nói chung. Một số kế hoạch được đưa ra là:
+ Lịch trình thực hiện.
+ Kế hoặc thu thập dữ liệu mutilmedia.
+ Kế hoạch về mẫu thứ sản phẩm. Mẫu thử cho phép kiểm tra tính khớp của kịch
bản với nội dung đặt ra.
+ Lên kế hoặc về DL ảnh tĩnh: Hình ảnh được số hóa hay chụp nhờ máy quét
hay máy ảnh số.
+ Lên kế hoặc về dữ liệu ảnh động, video.
+ Lên kế hoạch về âm thanh. Âm thanh có thể là tiếng người, âm thanh nhạc cụ
hay âm thanh tổng hợp.
Câu 8:
*SƠ ĐỒ 1:
+ Phần khối
Chuẩn nén JPEG phân ảnh ra các khối 8x8. Công đoạn biến đổi nhanh Cosin hai
chiều cho các khối 8x8 tỏ ra hiệu quả hơn. Biến đổi Cosin cho các khối có cùng kích
thước có thể giảm được một phần các tính toán chung như việc tính hệ số Cij cho 3
tầng (8 = 23), số các hệ số là: 4+2 + 1 = 7
+ Biến đổi

155
Biến đổi là một trong những công đoạn lớn trong các phương pháp nén sử dụng
phép biến đổi. Nhiệm vụ của công đoạn biến đổi là tập trung năng lượng vào một số ít
các hệ số biến đổi.
Công thức biến đổi cho mỗi khối là:
+ LƯỢNG TỬ HÓA
Khối lượng tử hóa trong sơ đồ nén đóng vai trò quan trong và quyết định tỉ lệ
nén của chuẩn nén j. Đầu vào của khối lượng tử hóa là các ma trận hệ số biến đổi
Cosin của các khối điểm ảnh.
+ Nén dữ liệu
Đầu vào của khối nén gồm hai thành phần: thành phần các hệ số một chiều và
thành phần các hệ số xoay chiều.
* SƠ ĐÒ 2:
- Bộ chuyển đổi: Thường dùng phép biến đổi cosin rời rạc để tập trung năng
lượng, tín hiệu vào một số lượng nhỏ để thực hiện phép nén hiệu quả hơn là dùng tín
hiệu nguyên thủy.
- Bộ lượng tử hóa: Tạo ra một lượng ký hiệu giới hạn nén ảnh với hai kỹ thuật
là: lượng tử vô hướng và lượng tử vector. Quá trình này không thuận nghịch.
- Bộ mã hóa: Gán 1 từ vào mã, 1 tập bit nhị phân cho mỗi ký hiệu, các hệ thống
nén được phân biệt dựa trên sự kết hợp khác nhau giữa ba bộ xử lý trên.
Câu 9: Các ứng dụng của Mutilmedia
- Trong nhiều tài liệu quảng cáo người ta khuếch trương vai trò của Mutilmedia.
Trong nhiều năm qua người ta không thể phủ nhận vai trò của Mutilmedia, văn bản,
hình ảnh, hình động, được ứng dụng trong:
+ Chương trình video theo yêu cầu.
+ Trò chơi điện tử.
+ Giao dịch và thương mại.
+ Thư điện tử có kèm hình ảnh, âm thanh.
+ Giáo dục từ xa, dạy học với sự trợ giúp của máy tính, dạy học thông qua sóng
của đài phát thanh, trên tivi, hay qua mạng máy tính.
+ Các hoạt động tiến đến chính phủ điện tử, làm việc tại nhà.
- Tóm lại Mutilmedia được ứng dụng trong các lĩnh vực sau:
+ Đào tạo trên máy : CPT
+ Mô phỏng (Giải phẫu từ xa)
+ Vừa chơi vừa học sáng tạo.
+ Thể hiện các đa phương tiện
+ Trò chơi giải trí.
Câu 10:
• Năm 1965: Trong hội thảo quốc tế về phim xuất hiện thuật ngữ đa phương tiện
• Năm 1975: Người ta gọi đa phương tiện là trò, chơi quảng cáo, video
• Năm 1985: Đã xuất hiện các ca sỹ nhạc POP dùng giàn nhạc điện tử có hệ
thống tự chỉnh âm thanh ánh sáng... Từ đó người ta thấy rằng đa phương tiện là một
phần đời sống thường ngày
• Năm 1995: Con người đã sống trong môi trường có đầy đủ tiện nghi và sử
dụng nhiều kết quả của đa phương tiện
Câu 11:
Text: Ký tự

156
Graphics: Ảnh
Color: Ảnh màu
Animation: Hoạt hình
Sound: Âm thanh
Video: Phim
Câu 12:
* Viết đề án
Người ta có thể viết đề án theo khuôn mẫu nhận được. Tuy nhiên trong khuôn
mẫu không thể thể hiện hết các điểm mạnh mà người ta muốn trình bày khi cần đầu
tư. Đề án có trang quan trọng là mục đích, nội dung thực hiện. Kế hoạch đề án là kết
quả cuối cùng, cho phép phản ánh quá trình thực hiện đề án.
Điều mà người viết đề án đa phương tiện cần mô tả là :
• Xuất phát, căn cứ cho phép xây dựng đề án;
• Đích, mục tiêu của đề án;
• Dự kiến khán giả, tức người dùng sử dụng sản phẩm đa phương tiện;
• Các khái niệm, chủ đề liên quan đến đề án;
• Phương tiện phân phát sản phẩm, truyền tải sản phẩm;
• Môi trường sản xuất;
• Ngân sách;
• Lịch sản xuất.
* Môi trường yêu cầu để sản xuất đa phương tiện
Môi trường cho việc sản xuất gồm hạ tầng kĩ thuật, chính sách phát triển, hành
lang pháp lí...
• Cần có chuẩn xử lý thông tin đa ngành, do đề án đa phương tiện liên quan đến
rất nhiều dạng thông tin;
• Cần có môi trường truyền thông, hạ tầng mạng máy tính;
• Phải đảm bảo an toàn cho đề án và cho sản phẩm;
• Có thị trường cạnh tranh lành mạnh về phần mềm;
• Cần huấn luyện năng lực dùng đa phương tiện;
Như vậy là sẽ có dịch vụ xử lý thông tin và truyền thông phù hợp và sẽ có các
dịch vụ mới đảm bảo vốn đầu tư an toàn và quá trình sản xuất được hoàn thành.
* Mục tiêu của đề án đa phương tiện
Người sản xuất sẽ nhằm mục tiêu đối với sản phẩm đa phương tiện :
􀂉 Đo được kết quả của sản phẩm đa phương tiện;
􀂉 Theo chuẩn của AIDA1 dùng cho truyền thông quảng cáo. Theo chuẩn này
sản
phẩm cần mô tả công cụ, lợi ích, mong muốn, thể hiện;
􀂉 Theo chuẩn đóng gói sản phẩm, bán sản phẩm.
- Ngoài ra, người ta còn xác định các khía cạnh liên quan đến quá trình sản xuất
đa phương tiện, chủ yếu tập trung vào :
• Kinh nghiệm về phát triển sản phẩm đa phương tiện trước đây;
• Xếp loại đề án sẽ thực hiện;
• Cần chuẩn bị thiết bị trình diễn, quản cáo cho sản phẩm đa phương tiện;
• Đào tạo, huấn luyện người dùng, người phát triển sản phẩm đa phương tiện;
• Xác định nơi phân phối sản phẩm, tức địa điểm bán hàng;
• Đặt các nơi thông báo, thông tin về sản phẩm của đề án;

157
• Có chiến dịch quảng cáo sản phẩm;
• Một số quan tâm về (i) xuất bản; (ii) giáo dục; (iii) công nghiệp giải trí; và (iv)
quốc tế hoá phạm vi của đề án.
* Các đề xuất của đề án đa phương tiện
Đề án có thể đề nghị, hay đề xuất cho người dùng thông qua sản phẩm đa
phương tiện. Vậy cần xác định (i) Nội dung đề xuất; và (ii) Mô tả các thành phần đề
xuất. Điều này có nghĩa đề án đưa ra :
• Giới thiệu tổng quan về đề án và khái quát về việc điều hành đề án;
• Các đề xuất, các khẳng định mà đề án dành cho khách hàng;
• Các khuyến cáo cho người dùng, như là khả năng ứng dụng của sản phẩm đa
phương tiện;
• Mô tả giải pháp và lí do lựa chọn sản phẩm đa phương tiện.
Việc cân đối nguồn lực để đảm bảo đề án đa phương tiện thành công dẫn đến
việc cân đối các khía cạnh :
􀂉 Khía cạnh chính của mục tiêu đề án với các khía cạnh phụ, liên quan của mục
tiêu đề án;
􀂉 Lựa chọn dạng xử lí phù hợp trong số nhiều khả năng xử lí;
􀂉 Chọn cấu trúc lược đồ trình diễn trong nhiều loại lược đồ (i) tuần tự; (ii) song
song; (iii)tương tác; hay (iv) tổ hợp của các loại cấu trúc;
􀂉 Cân đối về nguồn tài nguyên con người;
􀂉 Xếp sắp lịch trình, và dành thời gian và kinh phí thử nghiệm sản phẩm đa
phương tiện;
􀂉 Cân đối giữa giá thành và giá cả sản phẩm;
􀂉 Cân đối các ràng buộc cần tuân theo.
* Các ràng buộc của hợp đồng thực hiện đề án đa phương tiện:
Người ta có thể đặt ra mức chi cho từng công việc, theo bảng kê
- Người quản lý, quản trị: Trưởng đề án, trợ lý, thư ký
- Sản xuất video: GĐ, Ng sx, Trợ lý, Ng Quay Video, Phụ trách âm thanh, ánh
sáng, trang phục, đồ họa video, phim ảnh
- Sx âm thanh: Trưởng nhóm, biên tập âm thanh, nhạc
- SX đồ họa: trưởng sx, sx đò họa, lưu trữ ảnh, Thiết kế đồ họa, quét ảnh, giám
đóc nghệ thuật, nghệ sĩ,đánh máy
- Phát triển cơ sở DL: quản lý, thu thập dl, phát triển, tích hợp, chỉ số hóa
- Thiết kế làm tư liệu: Thiết kế tương tác- hướng dẫn sd
* Nội dung đề án đa phương tiện
Nội dung đề án căn cứ vào mục tiêu đề án. Vai trò của nội dung thấy rõ trong lúc
chuẩn bị đề án, cũng như thực hiện đề án.
Trong bảng kê nội dung đề án, người ta cần liẹt kê các chi tiết sau :
- Tên ứng dụng đa phương tiện; thuộc dạng sử dụng trực tiếp hay gián tiếp;
- Hạ tầng cho phép ứng dụng đa phương tiện;
- Mục đích của việc đóng gói sản phẩm; dùng cho việc thông báo, giải trí, đào
tạo hay để bán. Bên cạnh mục đích này, có thể bổ sung mức độ phù hợp;
- Bao bì, nhãn mác cho sản phẩm đa phương tiện;
- Nhìn nhận chung, về rộng hay sâu, đối với sản phẩm;
- Mức phù hợp của các đoạn chính trong sản phẩm so với nội dung;
- Mức phù hợp đối với khán giả, đối với mục đích chung;
- Khối lượng của từng đoạn sản phẩm;

158
- Cách thức truy cập thông tin tại mỗi đoạn sản phẩm đa phương tiện; và cách
thức truy cập qua nhiều đoạn sản phẩm.
* Kịch bản
Viết kịch bản là sáng tác. Công tác sáng tác là hoạt động trí tuệ. Một sản phẩm
nghệ thuật là tách được cái riêng trong những cái chung.
* Kế hoạch thực hiện đề án
Một số kế hoạch được nêu ra là :
􀂉 Lịch trình thực hiện;
􀂉 Kế hoạch về thu thập dữ liệu đa phương tiện. Thu thập dữ liệu
􀂉 Kế hoạch về mẫu thử sản phẩm.
􀂉 Lên kế hoạch về dữ liệu ảnh tĩnh
􀂉 Lên kế hoạch về dữ liệu ảnh động
􀂉 Lên kế hoạch về dữ liệu ảnh động, dữ liệu video.
􀂉 Lên kế hoạch về âm thanh
* Kết luận
Trong đề án đa phương tiện, kịch bản hay và khả thi cho phép quá trình thực
hiện đề án hiệu quả. đầu tư vào kịch bản và khâu chuẩn bị trước khi thực hiện sẽ quyết
định phần lớn thành công của đề án.
Câu 13:
- Ý kiển của người ngoài đề án đa phương tiện.
- Đánh giá giá trị sản phẩm.
Công việc này được thực hiện bởi 2 nhiệm vụ: Thử và đánh giá.
Khái niệm về thử nghiệm: Việc thử nghiêm sản phẩm đa phương tiện cần tiến hành
theo khía cạnh thử:
- Thử về khái niệm.
- Kiểm tra mẫu.
- Xem xét mức độ đáp ứng, các ràng buộc.
- Thử tính sử dụng được.
- Thử độ phù hợp với lĩnh vực ứng dụng đa phương tiện.
- Thử để kết luận về tính chấp nhận được của sản phẩm.
- Chiến lược thử:
+ Xác định mục đích của quá trình thử sản phẩm.
+ Liên kết kế hoạch, gồm các giai đoạn thử.
+ Có chiến lược thử nghiệm. Việc thử sản phẩm có thể thông qua phần mềm thử
nghiệm, ý kiến chuyên gia, nhận xét người dùng …
- Phần mềm thử nghiệm: Việc có bộ mẫu thửu và phần mềm tự động kiểm tra
chất lượng sản phẩm là nhu cầu trong quá trình thử nghiệm.
- Kết luận về tính chấp nhận được của sản phẩm.: Khâu thử nghiệm sản phẩm,
đánh giá kết quả là cần thiết, nhiệm vụ này đòi hỏi có các chuyên gia và chi phí cần
thiết.
Chương 2:
Câu 1:
Hướng dẫn: DCT nén ảnh theo từng khối vuông nhỏ rồi lưu chúng dưới dạng số
kỹ thuật.
Câu 2:
Hướng dẫn

159
• Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc
hóa (regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế.
• Bước tiếp theo là lấy mẫu cho các kênh màu. Đây là 1 trong 2 công đoạn làm
mất thông tin và chỉ thực hiện khi bạn chọn xác lập high compression/low quality (tỉ
lệ nén cao/chất lượng thấp) của JPEG.
• Bước tiếp là sắp xếp lại dữ liệu bằng hàm toán học gọi là DCT (Discrete
Cosine Transform).
* Khả năng chính của JPEG 2000:
Hướng dẫn
• Nếu DCT nén ảnh theo từng khối vuông nhỏ rồi lưu chúng dưới dạng số thì kỹ
thuật Wavelet Compression sẽ lưu file dưới dạng một dãy dữ liệu (kỹ thuật stream
hình) nhằm tạo độ phân giải cao hơn khi file được mở hoặc tải về.
• Lợi ích đầu tiên của Wavelet là loại trừ được những "vết dơ" bao quanh các
khối vuông và biến ước mơ hình có độ phân giải cao trên mạng thành hiện thực.
• Khả năng tạo thêm các kênh phụ để lưu trữ những thông tin như thông số màu
CMYK hay ICC profiles (nhằm loại bỏ sự khác biệt về Gamma màu giữa PC và
MAC).
• Mô tả tiến trình nén MPEG1:
• - Là chuẩn đầu tiên, thiết kế dành cho máy tính. Nó cho phép
video với độ phân giải 320x240 và tần số 30 hình/s.
• - Được thiết kế tốc độ tối đa đến 1.5Mbps. Tiêu chuẩn nén cho
âm thanh và hình ảnh động. Được dùng phổ biến cho các ứng dụng video CD-ROM
và các ứng dụng video trên internet (các file có phần mở rộng *.mpg). Một phần mở
rộng của tiêu chuẩn áp dụng cho mã hóa và nén âm thanh, được biết đến với tên MP3
Câu 3:
• Moving Picture Experts Group (MPEG) thuộc ISO/IEC. Nhóm các chuyên gia
hình ảnh động và âm thanh kỹ thuật số. Từ năm 1988 nhóm đưa ra tiêu chuẩn MPEG-
1 nó là nền tảng để sản xuất các Video CD, đĩa CD tương tác và các file nhạc nén
MP3 sau này.
Sau đó là tiêu chuẩn MPEG-2, nó là nền tảng cho các chương trình truyền hình kỹ
thuật số và đĩa DVD.
• Kế tiếp không phải là MPEG-3, người ta dự định tổ chức chuẩn này để phục vụ
cho truyền hình có độ phân giải cao, nhưng sau này sáp nhập với chuẩn MPEG-2.
MPEG-4 là tiêu chuẩn cho các phương tiện đa truyền thông tích hợp trong trang Web
tĩnh hay động, truyền hình kỹ thuật số và tương tác đồ họa ứng dụng. MPEG-4 được
hoàn tất trong tháng 10/1998 và phổ biến hồi đầu năm 1999. MPEG-4 đang trở thành
chuẩn multimedia toàn cầu trong giai đoạn hiện nay và sẽ phát triển mạnh mẽ hơn nữa
ở tương lai gần.
Tiếp theo là MPEG-7 tiêu chuẩn để mô tả nội dung đa truyền thông và truy tìm âm
thanh cũng như các nội dung trực quan khác, rồi bắt đầu từ tháng 6/2000 mới hơn nữa
là chuẩn MPEG-21 “Multimedia Framework”
Câu 4:
* Tại sao lại đưa ra chuẩn MPEG-7
• Nhiều ứng dụng đa phương tiện hiện tại đòi hỏi khả năng truy cập và xử lý dữ
liệu hình ảnh một cách hiệu quả. Có nhiều phương pháp cơ sở văn bản đã được dùng
để truy cập và xử lý nội dung hình ảnh. Để khắc phục giới hạn của phương pháp cơ sở
văn bản, điển hình là đòi hỏi phải có sự trợ giúp của con người trong việc mô tả nội

160
dung hình ảnh, các phương pháp cơ sở cấu trúc đã được đưa ra. Các cấu trúc thấp như
là văn bản, hình dạng màu sắc và các cấu trúc mức cao như là thông tin kết hợp, đã
được sử dụng trong nhiều hệ thống truy cập và xử lý cơ sở nội dung. Do chúng được
phát triển từ các ứng dụng khác nhau, các hệ thống này sử dụng nhiều cấu trúc thể
hiện khác nhau.
• * Mục đích chính của MPEG -7
• MPEG-7 là một trong những hoạt động chuẩn gần đây của nhóm MPEG. Mục
đích chính của MPEG-7 là cung cấp một mô tả chuẩn hoá cho phép truy cập và xử lý
hiệu quả nội dung đa phương tiện. MPEG-7 sẽ chuẩn hoá tập các bộ mô tả, tập các sơ
đồ mô tả, một ngôn ngữ định nghĩa mô tả và các sơ đồ cho mã hoá các mô tả.
• Nhờ có MPEG-7 mà chúng ta có thể tương tác với dữ liệu đa phương tiện qua
nội dung của chúng. Với sự xuất hiện của MPEG-7, rất nhiều ứng dụng hay có thể
thực hiện được, đơn giản hơn hãy tưởng tượng một vài ứng dụng được mô tả dưới
đây:
• - Bạn bước vào một kho dữ liệu khổng lồ để tìm một bài hát nhưng quên mất
thông tin về bài hát đó như là: tên, tác giả, ca sỹ, ... mà chỉ nhớ một đoạn giai điệu của
bài hát đó. Không sao, bạn hãy hát lên giai điệu đó qua một hệ thống recorder, âm
thanh của bạn sẽ được lấy mẫu rồi trích các đặc trưng rồi hệ thống tự động so sánh và
tìm trong kho dữ liệu những bài hát "thích hợp" nhất với những đặc trưng tìm kiếm.
• - Bạn không muốn xem hết một trận đá bóng mà chỉ muốn xem những bàn
thắng trong trận đấu đó? Chỉ cần gửi câu truy vấn đến hệ thống với từ khóa "Goal"
hay gì đó (theo hệ thống định nghĩa), lần lượt các bàn thắng sẽ được trình chiếu trước
bạn.
• - Bạn muốn tìm một picture nào đó giống một ảnh cho trước hoặc giống một
hình do bạn tự vẽ ra? Hệ thống cũng có thể thực hiện được thông qua trích chọn đặc
trưng và so sánh với kho dữ liệu đã có và trả về kết quả.

161

You might also like