Chương 2-X Lý At&ha

BÀI GIẢNG MÔN
XỬ LÝ ÂM THANH & HÌNH ẢNH

Chương 2: Kỹ thuật xử lý âm thanh
Bộ môn: Tín hiệu và Hệ thống

Chương 2- Kỹ thuật xử lý âm thanh
2.1 Các đặc trưng cơ bản của âm thanh
– Khái niệm về âm thanh và các tham số
– Các đặc điểm của hệ thống thính giác con người
2.2 Mã hóa tín hiệu thoại
– Quá trình tạo ra tiếng nói
– Tổng quan về mã hóa tín hiệu thoại
– Các phương pháp mã hóa tín hiệu thoại
2.3 Mã hóa âm thanh
2.4 Mã hóa âm thanh cảm nhận
– Phân tích thời gian- tần số
– Phân tích Psychoacoustics
– Gán bit cảm nhận
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
a)- Khái niệm về âm thanh:
- Âm thanh- Audio (trong thế giới tự nhiên) về bản chất là những
sóng âm được tạo ra từ dao động của vật thể và được truyền đi
trong một môi trường truyền âm nhất định.
- Tiếng nói- Voice (thoại) là một trường hợp riêng nhưng phổ biến
của âm thanh.
- Âm thanh của tiếng nói, là những sóng âm (tạo ra từ dao động của
các bộ phận trong bộ máy phát âm) được truyền đi trong môi
trường truyền âm (không khí). Khi truyền đến tai đập vào màng nhĩ
(màng mỏng rất nhạy), làm cho màng nhĩ dao động, các dây thần
kinh màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của
sóng đạt đến một độ lớn nhất định và người nghe nhận biết được
lời nói.
- Âm thanh (Audio) và Tiếng nói (Voice):
Thoại Audio
Băng thông 300-3400Hz 16Hz-20kHz
Tốc độ lấy mẫu 8kHz 44.1kHz/48kHz
Số bits trên mẫu 8bits 16+bits
Tốc độ bit thô 64kbps 768kbps
Số kênh 1 1-6+kênh
Mô hình hiệu quả nguồn Có Không
Sức chịu đựng nguồn Có thể yêu cầu Yêu cầu
Chất lượng mong đợi Méo do bị giới hạn Chất lượng “CD”
Tính đa dạng của phổ Harmonic, V/UV Không thể phân loại
- Các tiêu chuẩn lấy mẫu:
Tốc độ lấy
Tiêu chuẩn Số bits/mẫu Mono/stereo Tốc độ Băng tần
mẫu
Điện thoại 8 kHz 8 bits/mẫu Mono 8 kbytes/s 4Khz
AM radio 11.025 kHz 8 bits/mẫu Mono 11.0 kbytes/s 5kHz
FM radio 22.05 kHz 16 bits/mẫu Stereo 88.2 kbytes/s 10kHz
CD 44.1 kHz 16 bits/mẫu Stereo 176.4 kbytes/s 20kHz

DAT (Digital
Audio Tape) 48 kHz 16 bits/mẫu Stereo 192.0 kbytes/s 20Khz
b)- Các tham số đánh giá:
 Tần số: tần số của âm đơn là số lần dao động của không khí truyền
dẫn âm trong một đơn vị thời gian là 1 giây (Ðơn vị: Hz).
 Tần số biểu thị độ cao (pitch) của âm thanh, Tần số càng lớn thì
âm thanh càng cao và ngược lại
 Tai người chỉ cảm thụ được dao động có tần số trong khoảng từ
16 – 20.000 Hz (dải tần số âm thanh/sóng âm)
 Âm có tần số dưới 16 Hz gọi là sóng hạ âm, Âm có tần số trên
20.000 Hz gọi là sóng siêu âm.
 Áp suất âm thanh (thanh áp (p)): Âm thanh truyền đến đâu thì làm
thay đổi áp suất không khí ở đó, (Ðơn vị: Bar hoặc Pa (Pascan)).
 1 bar = 1 dyn/cm2
 1 bar = 10 Kpa; 1 Pa = 1 N/m2
• Khái niệm về âm thanh & các tham số
2.1.1-
 Công suất âm thanh (P): năng lượng âm thanh đi qua một diện
tích S trong thời gian một giây, (Ðơn vị: W (oát)).
 (1) (2.1)
Trong đó: p- thanh áp, S- diện tích
v- tốc độ dao động của một phần tử không khí

 Thông thường, máy bay phản lực có P là 10.000W; ô tô vận tải
phóng nhanh: 0,12W; nói chuyện bình thường: 0,0003W..
 Cường độ âm thanh (I): công suất âm thanh đi qua một đơn vị
diện tích là 1cm2. (Ðơn vị: W /m2(oát)) (2.2)
 I = P/S = pv
 Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp
 Độ mạnh (Intensity): do biên độ dao động của vật thể quyết định.
Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một
nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và
ngược lại, (Ðơn vị: dB (décibel)).
 Độ dài (Length): do thời gian dao động của vật thể quyết định.
 Âm sắc (Timbre): phụ thuộc vào độ cao, độ dài và độ mạnh tham
gia bổ sung vào các thành phần kết cấu của âm. Âm sắc được
quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp
do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật
thể dao động.
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Tai người)
 Khi sóng âm đập vào tai người làm rung động trống tai một cách
đồng bộ.
 Qua nhiều cơ chế, năng lượng âm thanh được truyền đến các tế
bào thần kinh mà não cảm nhận là âm thanh.
 Tai có thể chia thành 3 phần:
 Tai ngoài.
 Tai giữa.
 Tai trong.
 Tai ngoài:
 Ống tai: tập trung năng lượng âm thanh đưa đến.
 Màng nhĩ:
• Giao tiếp giữa tai ngoài và tai giữa,
• Âm thanh được chuyển thành rung
động cơ học qua tai giữa,
• Rung động màng nhĩ của trống tai.
 Tai giữa:
 Gồm 3 xương nhỏ: Xương búa, xương đe và xương bàn đạp.
 Các xương này khuếch đại áp lực âm thanh
 Liên kết từ trống tai.
 Tai trong:
 Ốc tai:
• Chuyển đổi áp lực cơ học các
xương nhỏ thành áp lực nước,
• Ốc tai chứa đầy chất lỏng,
• Áp lực nước truyền vào ống
dẫn ốc tai đễn vỏ não.
 Các ống bán nguyệt:
• Cơ chế cân bằng cơ thể,
• Cảm nhận âm thanh.
 Nghe ở các tần số khác nhau:
 Áp lực sóng lên màng nhĩ gây sức ép từ cửa sổ oval dừng đột
ngột tại màng nhĩ che cửa sổ hình tròn,
 Áp lực này truyền lên tất cả các bộ phận của màng nhĩ,
 Bề mặt bên trong của màng nhĩ có khoảng hơn 20000 tế bào
thần kinh hình sợi gọi là stereocilia,
 Màng nhĩ chặt ở một đầu và lỏng ở đầu kia:
• Âm thanh tần số cao cực đại ở đầu chặt,
• Âm thanh tần số thấp ở đầu lỏng,
 Các tần số cộng hưởng như trên sợi dây cột chặt,
 Stereo phân biệt từng khoảng nhỏ của độ dài và độ co giãn của
chất lỏng mà nó đi qua.
 Nghe ở các tần số khác nhau:
 Âm thanh nén chặt di chuyển vào tai giữa từ màng nhĩ,
 Stereocilia chuyển động,
 Mỗi stereolicia cảm nhận một tần số khác nhau,
 Tế bào stereocilia cộng hưởng với biên độ lớn của rung động
 Biên độ rung động tăng lên dẫn đến tế bào stereocilia giải phóng
xung điện từ dọc theo các tế bào thần kinh thính giác lên não,
 Não cảm nhận âm thanh nhận được nhờ những xung điện từ
này.
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)
 Tai người có thể được coi như một dải các bộ lọc,
 Phụ thuộc vào môi trường nghe, với nhiễu lớn thì hạn chế khả năng
nghe và khả năng phân biệt các âm thanh khác nhau.
 Lựa chọn tần số của màng nền:
- Các thành phần tần số khác nhau được sắp xếp khi lan truyền
dọc theo màng nền. (Giảm dần từ phải sang trái)
- Xử lý tín hiệu: quá trình xử lý chọn lọc tần số = lọc băng con,
màng nền=dải các bộ lọc thính giác thông dải.
 Màng nền=Dải bộ lọc:
Tần số cao
Tần số trung
bình
Tần số thấp
Ốc tai
a) Ngưỡng nghe tuyệt đối (AHT- Absolute Theshold of Hearing)
 Ngưỡng nghe: cường độ âm MIN mà tai còn cảm nhận được âm

 Cách đo: Cho 1 người ở trong phòng kín yên tĩnh, phát âm kiểm tra
(test tone) với tần số xác định (1kHz), tăng mức âm thanh cho đến
khi có thể nghe được, ghi lại các giá trị và lặp lại với tần số khác.
 Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối (là 1 hàm t/số âm thanh).
b) Hiện tượng che (masking)
 Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm
nhận yếu đi khi âm này có t/số gần với âm cần nghe or biên độ lớn.
 SNR = SMR (Signal to Mask Ratio) + NMR (Noise to Mask Ratio)
dB masking
tone
SNR
masking
threshold
SMR
minimum masking
NMR threshold
m-1 bit
m bit
m+1 bit
frequency
critical next
band band
b) Che tần số (Frequency masking)
 Khi một thành phần t/h cao hơn mức ngưỡng nghe, thì nó vẫn bị che khuất bởi các
thành phần lớn hơn lân cận trong miền tần số. Hiện tượng này là gọi là che tần số.
 Thành phần tín hiệu che khuất làm dịch ngưỡng nghe.
 Cách xác định: Cho 1 người ở trong phòng kín yên tĩnh, phát âm che (masking tone)
ở một mức nào đó (60dB), sau đó, phát âm kiểm tra (test tone) (1,1kHz), tăng mức
đến khi có thể nghe được. Thay đổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che
khác.
c) Che thời gian (Time masking)
 Cách xác định: Phát một âm che ở tần số 1kHz, biên độ 55dB,
thêm một âm kiểm tra 1,1kHz, biên độ 20dB trước và sau âm che.
Âm kiểm tra không thể nghe được (nó đang bị che). Lặp lại các
mức khác của âm kiểm tra và vẽ.
 Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước
khoảng 15ms và che sau khoảng 50ms.
d) Các dải băng tần tới hạn (critical bankwidth)
 Khoảng tần bị che gần đúng theo tần số và biên độ gọi là dải tới hạn.
 Dải tần nghe được của con người được phân chia tự nhiên thành các
dải băng tần tới hạn. Tai không thể phân biệt các âm thanh xuất hiện
đồng thời trong cùng một dải băng.
 Dải tới hạn biểu diễn công suất xác định của tai cho các tần số hay
dải tần số liên tục.
 Băng tần của mỗi băng tần tới hạn khoảng 100 Hz đối với các tín hiệu
dưới 500 Hz, và tăng tuyến tính trong dải 500 Hz đến 5000 Hz.
 Hệ thống thính giác có thể được mô hình như dải bộ lọc, gồm 25 bộ
lọc băng thông chồng lấn, từ 0 đến 20 KHz.
 Độ rộng của 1 băng = 1 bark.
d) Các dải băng tần tới hạn (critical bandwidth)
 Bark là đơn vị để biểu diễn một dải tới hạn, 1 bark=1 độ rộng dải tới
hạn.
 Số băng giới hạn (Bark) (2.4)
của một tần số đã cho:
 Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark]

 Hoặc: 1bark=13arctg(0.76f)+3.5arctg(f2/65.25) [bark]
(2.5)
 Flecher chia băng thông âm thanh thành 25 dải tới hạn:
 Cảm nhận âm (tần số và giải tần số âm thanh):
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Cấu trúc bộ máy phát âm
1. Khoang mũi (Nasal Cavity)
2. Ngạc cứng (Hard palate)
3. Vòm miệng (Alveoral ridge)
4. Ngạc mềm (Soft palate)
5. Đầu lưỡi (Apex)
6. Mặt lưỡi (Dorsum)
7. Lưỡi con (Uvula)
8. Gốc (cuối) lưỡi (Radix)
9. Hầu (Pharynx)
10. Nắp thanh quản (Epiglottis)
11. False Vocal Cord
12. Dây thanh (Vocal Cords)
13. Thanh quản (Larynx)
14. Thực quản (Esophagus)
15. Khí quản (Trachea)
 Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm
học có nguồn gốc từ cơ chế tạo tiếng nói.
 Khoảng không giữa dây thanh và thanh quản gọi là thanh môn.
 Hệ thống đằng sau thanh môn (phổi, phế quản, khí quản) có vai trò
như một nguồn năng lượng để tạo tiếng nói.
 Tuyến âm (vocal tract): cả bộ máy phát âm tính từ thanh môn trở lên.
 Có 2 loại nguồn âm:
 Nguồn tuần hoàn: dây thanh rung (vị trí nằm ở thanh môn)
• Dây thanh: vocal folds, vocal cords
• Chu kỳ tuần hoàn: chu kỳ rung của dây thanh
• Nguồn tuần hoàn chủ yếu tương ứng với nguyên âm
 Nguồn tạp âm: dây thanh không rung (vị trí tùy theo âm tạo ra,
không nằm ở thanh môn)
• Chủ yếu là phụ âm, VD: âm “s”  nguồn ở khoang miệng,
• Nói thì thào: dây thanh không rung, thanh môn gần như khép
Các loại phụ âm trong tiếng việt
2.2.2- Tổng quan về mã hóa tín hiệu thoại
a) Sơ đồ khối hệ thống mã hóa thoại
Ngu n B bi n đ i B a B a
i B c B l ym u
A/D ngu n kênh
Kênh truy n
B i B i B bi n đ i i
B c
kênh ngu n D/A đ u ra
b) Các ứng dụng của mã hóa thoại
Mã hóa tiếng nói là quá trình biểu diễn tín hiệu tiếng nói đã số hóa sử
dụng càng ít bit càng tốt, đảm bảo được mức chất lượng tiếng nói hợp lý
(Nén tiếng nói). Các ứng dụng:
 Thoại cố định (Wireline Telephony)
 Hội nghị truyền hình (Videoconferencing)
 Thoại di động (Digital Cellular)
 Thoại IP (IP Telephony)
 Thư thoại (Voice Mail)
 Thiết bị tiếng nói (Speech Storage)
c) Các yêu cầu đối với bộ mã hóa thoại
 Tốc độ bit thấp: băng thông truyền dẫn thấp, sử dụng hệ thống hiệu
quả hơn(<> chất lượng thoại). Tùy thuộc vào ứng dụng.
 Chất lượng thoại cao: chất lượng có thể chấp nhận được theo ứng
dụng hướng đến; Các tham số xác định: tính dễ hiểu, tính tự nhiên,
tính dễ chịu, khả năng nhận diện giọng người nói.
 Tính bền vững: qua các ngôn ngữ khác nhau, chống nhiễu
 Hiệu năng tốt đối với tín hiệu phi thoại: âm thông báo, nhạc.
 Kích thước bộ nhớ nhỏ, độ phức tạp tính toán thấp
 Trễ mã hóa thấp
2.2.3- Các phương pháp mã hóa tín hiệu thoại
a) Phân loại
Phân loại theo tốc độ Phân loại theo kỹ thuật mã hóa

a) Phân loại: theo kỹ thuật mã hóa
b) Mã hóa dạng sóng: Được phân làm 2 loại chính
 Trong miền thời gian:
 Mã hoá điều xung mã (PCM),
 Mã hóa điều biến xung mã vi sai (DPCM)
 Mã hóa điều biến xung mã vi sai thích nghi (ADPCM).
 Mã hóa điều chế Delta
 Trong miền tần số:
 Mã hoá băng con (SBC- subband coding)
 Mã hoá biến đổi thích nghi (ATC- Adaptive Transform Coding).
b) Mã hóa dạng sóng:
 Khôi phục được tín hiệu sóng giống như tín hiệu gốc.
 Độ phức tạp, giá thành, độ trễ công suất tiêu thụ thấp.
 Chỉ tạo được tiếng nói chất lượng cao tại các tốc độ lớn hơn
16kbps.
 Không tạo được tiếng nói chất lượng cao tại tốc độ nhỏ hơn
16kbps.
 Mã hoá PCM: mỗi mẫu t/h được mã hóa độc lập với các mẫu khác.
 Mã hóa DPCM (dự đoán):
– Các mẫu lân cận tương quan với nhau đáng kể = sự sai khác về
biên độ giữa các mẫu liên tiếp là khá nhỏ.
– Xây dựng mô hình mã hóa này để giảm tốc độ số liệu ở đầu ra
của nguồn: mã hóa sự sai khác giữa các mẫu liên tiếp thay vì
mã hóa từng mẫu độc lập.
– Dự đoán mẫu hiện tại từ các mẫu trước đó. Lượng tử hóa, mã
hóa sai số dự đoán thay vì cả giá trị mẫu.
– Nếu dự đoán chính xác, sai số dự đoán tập trung gần 0 và có
thể mã hóa ít bit hơn so với mẫu ban đầu.
– Bộ dự đoán thường được sử dụng là bộ dự đoán tuyến tính:
 Mã hóa ADPCM: Cải thiện chất lượng DPCM, nếu bộ dự đoán và
bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với
các đặc tính của thoại được mã hoá
 Mã hóa DPCM:
Yn  X n  Xˆ n 1 (2.6)
p
Xˆ n 1   ai Xˆ n i
i 1
 Mã hóa ADPCM:
X[n] + D[n] C[n]
L ng t a ch nghi
- Xp[n-1]
D đ n ch nghi il ng t a ch
nghi
Xp[n]
+
Dq[n]
+
C[n] Dq[n] Xp[n]

il ng t a ch +
nghi
+
L ng t a ch nghi
Xp[n-1]
•2.2.3-
Các phương pháp mã hóa tín hiệu thoại
 Mã hóa Delta:
• Sử dụng bộ lượng tử hóa sai số dự đoán gồm có 2 mức:
• Mỗi mẫu mã hóa 1 bit.
 Mã hoá băng con (SBC- subband coding):
– Tín hiệu được chia thành nhiều dải băng hẹp, tín hiệu trong miền
thời gian ứng với mỗi dải được mã hóa độc lập.
– Trong mã hóa tiếng nói, dải tần số thấp chứa phần lớn năng
lượng của tín hiệu, đồng thời nhiễu lượng tử ảnh hưởng đến tai
rất thấp. Do vậy, tín hiệu ở băng tần thấp được mã hóa nhiều bit
hơn tín hiệu ở miền tần cao.
– Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu.
– Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ
phụ thuộc vào mã hóa sử dụng trong băng con đó.
 Mã hoá biến đổi thích nghi (ATC):
– Tại phía phát: chia các mẫu tín hiệu của nguồn thành từng khung
Nf mẫu, số liệu trong mỗi khung được chuyển sang miền tần số
để mã hóa truyền đi.
– Tại phía thu mỗi khung phổ các mẫu tín hiệu được chuyển đổi
ngược lại trong miền thời gian và tín hiệu sẽ được tổng hợp lại từ
các mẫu.
– Để mã hóa hiệu quả, ta dùng nhiều bit cho các thành phần phổ
quan trọng, và ít bit cho các thành phần phổ không quan trọng.
– Các phép biến đổi được chọn sao cho các mẫu phổ không tương
quan với nhau: KLT (Karhunen-Loéve) (tối ưu nhưng phức tạp),
DCT.
c) Mã hóa tham số:
 Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm
dưới 16 Kbps.
 Để giảm tốc độ bit, mô hình tạo tiếng nói cần được khai thác: mã hóa
dựa trên mô hình (mã hóa tham số). (Mã hóa không dựa trên mô hình
được gọi là mã hóa dạng song).
 Các bộ mã hóa tham số cho tín hiệu thoại còn được gọi là Vocoder
(Voice + Coder).
 Mã hóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps)
và dù tiếng nói được tái tạo lại là dễ hiểu nhưng lại khác khá nhiều so
với giọng nói tự nhiên con người.
 Có nhiều mô hình được đề xuất: thành công nhất là mô hình mã hóa
dựa trên dự đoán tuyến tính (LPC): bộ lọc biến đổi theo thời gian.
 Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– LPC áp dụng sớm nhất cho thoại được đưa ra ở các bài báo bởi:
• Atal 1968- 1971
• Markel 1971- 1972
• Makhoul 1975
– Đây là một nhóm các phương pháp được sử dụng rộng rãi từ
thoại tiêu chuẩn đến liên lạc quân sự (chất lượng thấp).
– Tốc độ đặc trưng: 0,8-16Kbps
– LPC là một mô hình để tạo tín hiệu thoại (AR- auto regressive):
dựa trên giả thiết là tín hiệu thoại được tạo bởi một mô hình rất cụ
thể.
– Sơ đồ cơ bản : LPC-10,
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
– Mô hình tạo tín hiệu thoại:
(cơ quan phát âm)
. Đầu ra của bộ lọc LPC
(bộ lọc số): tín hiệu thoại
số
. Đầu vào là chuỗi xung
hoặc chuỗi nhiễu trắng.
Quan hệ giữa 2 mô hình:
2.2.3-
 Mã hóa LPC- (Linear Prediction Coding):
– Các phương trình LP cơ bản:
• Bộ dự đoán tuyến tính bậc p là
một hệ thống có dạng:

(2.7)
• Lỗi dự đoán, e(n) có dạng:

(2.8)
• Lỗi dự đoán đầu ra hệ thống với hàm truyền đạt:

(2.9)
– Mô hình tạo tín hiệu thoại
(biểu diễn toán học):
• Mô hình tương đương với tín hiệu
được tạo bởi pt sai phân:

(2.10)
(2.11)
• Cách biểu diễn khác:

– Mô hình bộ mã hóa LPC:
• Transmiter: s(n] {a}
LPC i
T,G Encoder
s Analysis …11011…
v/u
• Receiver: { ai } s[n]
g[n]
Decoder T,G Ex
…11011… G(z) s
v/u
Các tham số tín hiệu kích thích (excitation signal): u(n)
. v/u (voiced/ unvoiced): dạng tín hiệu kích thích
. T (pitch for voiced): chu kỳ
. G (signal gain): độ tăng ích (hệ số KĐ)
Tham số bộ lọc LPC:
. {ai}: hệ số bộ lọc

– Sơ đồ bộ mã hóa LPC:
(a)- Sơ đồ khối chung (b)- Sơ đồ khối sử dụng bộ lọc lỗi dự đoán


– Sơ đồ khối bộ mã hóa LPC (đầy đủ): (LPC-10)

– Sơ đồ khối bộ giải mã LPC (đầy đủ): (LPC-10)

– Hoạt động:
 Quá trình mã hóa (phân tích):
 Lấy mẫu:
• Tín hiệu tiếng nói được lấy mẫu ở tốc độ fs = 8000 mẫu/s.
• Sau đó được chia thành các Frame segment: (160 mẫu, 20 ms)
 Xác định âm hữu thanh hay vô thanh:
• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment
• Dùng 1 bit để báo cho bộ giải mã biết.
 Ước lượng tần số pitch (T)
• Dựa vào hàm tự tương quan
• Giá trị pitch được lượng tử hóa và mã hóa dùng 6 bit
 Xác định các thông số của bộ lọc
• Các hệ số của bộ lọc G, {ap(i)}.
 Quá trình giải mã (tổng hợp ):
 Xác định tín hiệu kích thích và tần số pitch:
• Khi segment là âm vô thanh: tạo nguồn kích thích là nhiễu trắng
• Khi segment là âm hữu thanh: tạo nguồn là chuỗi xung tuần hoàn
 Xác định các hệ số G và {ap(i)} cho từng Frame segment.
 Cho tín hiệu kích thích qua bộ lọc  tạo ra tín hiệu thoại.
 Mỗi segment được giải mã độc lập, sau đó được kết hợp lại với nhau.
– Hoạt động: + Tách giọng nói (Voicing Detector)
• Mục đích: Phân loại khung đã cho là vô thanh hay hữu thanh
• Ranh giới giữa V/ UV không phải lúc nào cũng rõ ràng: xảy ra
đối với các khung chuyển tiếp (tín hiệu chuyển từ hữu thanh
sang vô thanh hoặc ngược lại)
• Cần thiết phải thực hiện phân loại chính xác V/ UV là một trong
những hạn chế của mô hình LPC.
• Nó là một thành phần quan trọng, vì việc phân loại sai các trạng thái
giọng nói có thể gây ra hậu quả nghiêm trọng đối với chất lượng của
lời nói tổng hợp.
• Thông thường, âm hữu thanh có năng lượng cao hơn nhiều bậc so
với âm vô thanh.
2.2.3-
– Hoạt động: + Tính toán công suất (Power Computation)
• Công suất chuỗi dự đoán lỗi là khác nhau đối với các khung vô
thanh và hữu thanh
• Đối với trường hợp vô thanh:
với N là độ dài khung

(2.12)
• Đối với trường hợp hữu thanh:
với là chu kỳ pitch

(2.13)
2.2.3-
– Hoạt động: + Các cơ chế dự đoán (xác định hệ số )
• Có 2 kỹ thuật cơ bản: dự đoán trong và dự đoán ngoài.
– Dự đoán trong: các hệ số LPC được tính từ các giá trị tự tương quan ước
lượng được sử dụng dữ liệu của khung thoại để xử lý cho chính khung thoại đó
– Dự đoán ngoài: được sử dụng vì tính thống kê của tín hiệu thay đổi chậm theo
thời gian. Các hệ số LPC tìm được được sử dụng trong khung tương lai (sau
đó). Nếu khung không quá lớn, những tính chất thống kê có thể được lấy từ
các khung trước đó không xa.
• Khung có độ dài điển hình: 160 đến 240 mẫu. Phải sử dụng cửa sổ có
kích thước hữu hạn để lấy ra các mẫu.
– Khung dài hơn: độ phức tạp tính toán ít, tốc độ bit thấp hơn, vì việc tính toán và
truyền các hệ số LPC ít thường xuyên hơn. Song trễ mã hóa lớn hơn vì hệ
thống phải chờ tập hợp các mẫu. Không cho độ lợi dự đoán cao.
– Khung ngắn hơn: biểu diễn chính xác hơn, nhưng tải tính toán và tốc độ bit
cao hơn
2.2.3-
– Hoạt động: + Các cơ chế dự đoán (xác định hệ số )
• Dự đoán tuyến tính đóng vai trò quan trọng trong các thuật toán mã
hóa tiếng nói
– Trong một khung tín hiệu, các trọng số (hệ số dự đoán tuyến tính) được sử
dụng để tính toán tổ hợp tuyến tính được tìm qua việc tối thiểu hóa sai số dự
đoán bình phương trung bình.
– Đồng thời, các hệ số này được sử dụng để biểu diễn lại khung tín hiệu đó.
• Thành phần cơ bản của pp dự đoán là mô hình AR. Phân tích dự
đoán tuyến tính là quá trình dự đoán để tìm các tham số AR dựa trên
các mẫu tín hiệu (được mô hình hóa là tín hiệu AR).
• LP cũng được xem là phương pháp ước lượng phổ: phân tích LP
cho phép tìm được các tham số AR (xác định PSD-Power spectral
density của chính tín hiệu). Qua việc tính toán các hệ số LPC của
khung tín hiệu có thể tạo ra được một tín hiệu khác có nội dung phổ
gần giống với phổ của tín hiệu gốc.
– Hoạt động: + Bài toán dự đoán tuyến tính
• Dự đoán tuyến tính là bài toán nhận dạng các tham số AR được ước
lượng từ chính tín hiệu AR (hình 4.1). Tín hiệu nhiễu trắng x[n] được lọc
bởi bộ tổng hợp tiến trình AR cho đầu ra s[n] (tín hiệu AR) với các tham
số AR là . Bộ dự đoán LP được sử dụng để dự đoán s[n] dựa trên M
mẫu trước đó:
(2.14)
– trong đó ai là các dự đoán của tham số AR và là hệ số LPC

• Sai số dự đoán: (2.15)
2.2.3-
– Hoạt động: + Bài toán dự đoán tuyến tính (Tối thiểu hóa sai số-Tìm )
• Bài toán nhận dạng hệ thống: dự đoán các tham số AR từ s[n], với các dự đoán là
các hệ số LPC. Để thực hiện dự đoán, phải thiết lập được tiêu chuẩn. Trong
trường hợp này: sai số dự đoán bình phương trung bình:
(2.16)
được tối thiểu hóa qua việc chọn các hệ số LPC. (J là hàm bậc 2 của các LPC).
Thấy được sự phụ thuộc của J và các hệ số LPC.
• Tìm các hệ số LPC tối ưu qua việc lấy đạo hàm J theo ak: (2.17)
2.2.3-
• Từ (15), viết lại:
(2.18)
• Hoặc:
(2.19)
2.2.3-
• Biểu diễn (17) ở dạng ma trận:
(2.20)
• Trong đó:
(2.21)
(2.22)
(2.23)
2.2.3-
• Như vậy, nếu tồn tại ma trận nghịch đảo của ma trân tương quan Rs, tìm được
các hệ số tối ưu LPC:
(2.24)
• Độ lợi dự đoán (tỷ số giữa phương sai của tín hiệu vào với phương sai của sai số
dự đoán): Đánh giá hiệu năng của bộ dự đoán
(2.25)
2.2.3-
• Tín hiệu thoại: tính chất động. Các hệ số LPC phải được tính ở mỗi khung. Giả
thiết tính thống kê không đổi trong mỗi khung đó. Tính các hệ số LPC từ N
điểm dữ liệu kết thúc tại thời điểm m: s[m-N+1], s[m-N+2],…, s[m]. Vector
LPC (M: bậc dự đoán) là:
(2.29)
• Từ (18) viết lại ở dạng phụ thuộc vào thời gian: (2.30)
• Với:
(2.31)
(2.32)
2.2.3-
– Hoạt động: + Xác định hệ số
• Tìm các hệ số dự đoán:
– Phương pháp khử Gauss
– Phương trình nghịch đảo ma trận, nhưng nhìn chung là phức tạp.
• Giải thuật Levison-Durbin (LD) rất phù hợp cho việc phân tích LP của
các hệ thống triển khai trong thực tế.
• Xét phương trình:
(2.33)
• Mục tiêu:
– Tìm các hệ số ai theo các giá trị tự tương quan cho trước
» Các giá trị tương quan có được từ việc ước lượng các mẫu tín hiệu
» J là sai số dự đoán trung bình bình phương tối thiểu (thực tế không biết trước)
• Thuật toán LD: tìm lời giải của bộ dự đoán bậc M từ bộ dự đoán bậc M-
1 (đệ quy lặp).
2.2.3-
• Thuật toán dựa trên tính chất cơ bản bất biến của ma trận tương quan:
Nếu:
(2.34)
Thì:
(2.35)
2.2.3-
• Bộ dự đoán bậc 0:
(2.36)
Mở rộng chiều của (34):
(2.37)
- Vì a1=0, nên điều kiện tối ưu không đạt được, đưa thêm  để cân
0
bằng phương trình và được xác định:   R1
0 (2.38)
- Từ tính chất của ma trận tương quan, (35) tương đương với:
(2.39)
2.2.3-
- Phương trình (35) và (37) được sử dụng cho bước tiếp theo:
- Tìm lời giải cho:
(2.40)
(2.41)
trong đó, 2 biến cần tìm cho phương trình (39):

– : là hệ số dự đoán của bộ dự đoán bậc 1.
2.2.3-
- Tìm được hệ số phản xạ k1 , hệ số dự đoán của bộ lọc bậc 1, và J1:
(2.42)
(2.43)
(2.44)
Tiếp tục cho Bộ dự đoán bậc cao hơn

– Hoạt động: + Tổng kết giải thuật Levinson- Durbin
– Các đầu vào là các hệ số tự tương quan R[l], với các đầu ra LPC
và RC
. Ban đầu, l=0 đặt:
. Đệ qui: cho l=1,2,…, M
– Bước 1: Tính RC thứ l
(2.45)
– Hoạt động: + Tổng kết giải thuật Levinson- Durbin
– Bước 2: Tính LPC với bộ dự đoán bậc thứ l
(2.46)
(2.47)
– Dừng khi l=M

– Bước 3: Tính lỗi dự đoán trung bình bình phương tối thiểu kết hợp
nghiệm bậc thứ l: (2.48)
– Đặt quay trở lại bước 1

2.2.3-
– Bài tập: + Xác định hệ số
Ví dụ 1: Cho một khung dữ liệu thoại có các tự

tương quan là R(0)=1; R(1)=0,865; R(2)=0,521.
Tìm các hệ số ai=? (i=1,2) (Sử dụng thuật toán
Levinson-Durbin)
2.2.3-
– Bài tập: + Xác định hệ số
Bài 1: Cho một khung dữ liệu thoại có các tự tương quan là R(0)=1;
R(1)=0,866; R(2)=0,554 và R(3)=0,225. Tìm các hệ số ai=? (i=1,2,3)
(Sử dụng thuật toán Levinson-Durbin)
Bài 2: Cho hệ thống LPC có các hệ số dự đoán a1=1,793; a2=-1,401;
a3=0,566; a4=-0,147. Biết độ lợi thu G=2, độ dài chu kỳ pitch=60; giả
thiết là âm hữu thanh. Với các điều kiện đầu =0 tại thời điểm bắt đầu
của chu kỳ pitch, tổng hợp 10 mẫu đầu tiên?
Bài 3: Cho 3 hệ số tự tương quan đầu tiên của tín hiệu là: R(0)=1;
R(1)=0,865; R(2)=0,521
– Tìm các hệ số của mô hình dự đoán tuyến tính bậc 2.
– Sử dụng mô hình này tính đáp ứng tần số của tiến trình và biểu
diễn phổ của bộ dự đoán.
 Bộ mã hóa LPC Vocoder:
– Thông tin đưa đến bộ giải mã:
• Các tham số đặc trưng cho bộ lọc;
• Âm vô thanh/hữu thanh;
• Những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm
thanh.
– Phương trình biểu diễn quan hệ vào/ra của bộ lọc được thể hiện ở
phương trình sai phân tuyến tính:
– Hàm truyền đạt của bộ lọc:

 Bộ mã hóa LPC Vocoder:
– Mô hình bộ lọc được biểu diễn dưới dạng vector:
• A thay đổi theo chu kỳ 20ms (theo tính chất không dừng của
tín hiệu thoại), tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia
thành các khung có độ dài 20 ms (50 khung/sec).
– Mô hình này tương đương với:
– Như vậy, 160 giá trị của S được đại diện cho 13 giá trị của A
– 2 kiểu bài toán:
• Tổng hợp (Synthesis): Cho A, tạo S.
• Phân tích (Analysis): Cho S, tìm A tốt nhất
 Bộ mã hóa LPC Vocoder 2,4Kbps :
– Sơ đồ:
– Hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn
– Tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với tiếng nói
tự nhiên của con người.
– Các hệ số LPC được biểu diễn là các tham số cặp phổ vạch (line spectrum
pair (LSP)). LSP tương đương 1-1 về mặt toán học với LPC
 Bộ mã hóa LPC Vocoder 2,4Kbps :
 Bộ mã hóa LPC Vocoder 2,4Kbps:
d) Mã hóa lai:
 Cải thiện chất lượng bộ mã hóa Vocoder
 Sử dụng lai ghép 2 công nghệ mã hoá sóng và mã hoá Vocoder
 Có thể đạt được chất lượng thoại tốt tại các tốc độ bit 2-16kbps
 Mã hóa lai phổ biến nhất là mã hoá phân tích bằng cách tổng hợp
AbS (Analysis-by-Synthesis):
– MPE (Multi Pulse Excited): mã hóa kích thích đa xung
– RPE-LTP (Regular Pulse Excited Long-Term Prediction): mã hóa
kích thích xung đều.
– CELP, ACELP (Code Excited Linear Predictive): mã hóa kích thích
mã.
 Việc phân chia các bộ mã hóa lai dựa chủ yếu vào cách tạo ra tín
hiệu kích thích.
d) Mã hóa lai:
 Tạo ra các âm thanh tự nhiên hơn, tín hiệu kích thích là tùy ý, được
chọn sao cho dạng sóng tiếng nói được tạo ra càng giống với dạng
sóng thật càng tốt.
 Bộ mã hóa lai: sử dụng mã hóa mô hình bộ lọc và tín hiệu kích thích
như một dạng sóng (thay thế ứng dụng mô hình 2 trạng thái đơn giản -
hữu thanh/vô thanh), nhằm giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu
vào và dạng sóng tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích
thích lý tưởng.
 Bộ mã hóa dự đoán kích thích mã (CELP): chọn tín hiệu kích thích từ
các từ mã trong bảng mã đã được thiết kế trước.
 Nguyên lý này cho phép chất lượng tín hiệu thoại có thể chấp nhận
được trong dải tốc độ 4,8 – 16 kbps trong các hệ thống điện thoại vô
tuyến.
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
 Cơ chế tối ưu hóa vòng kín (closed-loop): chọn tham số tốt nhất ánh
xạ để tín hiệu thoại tổng hợp càng giống càng tốt tín hiệu gốc.
 Tín hiệu được tổng hợp trong quá trình mã hóa cho mục đích phân
tích gọi là AbS
 Cơ chế tối ưu hóa vòng hở (open-loop):
 Cũng sử dụng mô hình cơ quan phát âm của con người.
 Thay vì sử dụng các mô hình tín hiệu kích thích đơn giản thì tín hiệu
kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói
tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt.
 Thuật toán tìm ra dạng sóng kích thích quyết định độ phức tạp bộ mã
hóa.
 Được sử dụng phổ biến trong các chuẩn mã hóa tiếng nói cho mạng
di động.
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
 Cũng sử dụng mô hình cơ quan phát âm của con người.
 Là bộ mã hóa ADPCM, trong đó bộ dự đoán thực hiện tính toán từ tín
hiệu, tìm sai số dự đoán và lượng tử sai số này s/dụng cơ chế thích nghi.
 Có 2 bộ dự đoán thời gian ngắn và thời gian dài, tăng được độ lợi dự
đoán trung bình.
 Bộ mã hóa:
– Các tham số của mỗi khung/khung con được lấy ra và được đóng gói tạo
thành luồng bit.
– Chia các mẫu tiếng nói đầu vào thành các khung (160 mẫu – 20ms), từ các
khung chia thành các khung con (40 mẫu).
– Khối tiền xử lý: sử dụng bộ lọc thông cao để loại bỏ thành phần DC.
– Phân tích LP: được thực hiện trên từng khung, sử dụng bậc dự đoán là 8. 9
giá trị tự tương quan được tính toán từ khung sử dụng cửa sổ hình chữ nhật.
Các giá trị tương quan được sử dụng để tìm 8 hệ số phản xạ.
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
 Tín hiệu Audio phải được lọc trước khi lấy mẫu để loại bỏ thành phần
tần số cao
 Tín hiệu Audio phải được lấy mẫu tại tân số Nyquist .
 Tần số lấy mẫu audio:
– 96 kHz DVD Audio
– 48 kHz Digital Audio Tape (DAT)
– 44.1 kHz CD Audio
– 32 kHz Extended Play DAT
– 8 kHz Telephony (300 Hz - 3300 Hz bandwidth)
 Giá trị lượng tử hóa chung:
– 8 bits (48 dB dynamic range)
– 12 bits (72 dB)
– 16 bits (96 dB)
– 20 bits (120 dB)
 Âm nhạc có băng tần rộng hơn và đa kênh.
 Mã hóa dạng sóng đảm bảo được chất lượng âm thanh tự nhiên
 Sử dụng những đặc tính của tai người để xác định số mức lượng tử
hóa trong các dải tần số khác nhau.
– Mỗi thành phần tần số được lượng tử hóa với kích cỡ bước phụ
thuộc vào ngưỡng nghe.
– Không mã hóa thành phần tần số mà tai người không thể nghe
được
 Chất lượng âm thanh cao đòi hỏi tốc độ lấy mẫu, số bít/mẫu cũng cao
hơn và nhiều kênh hơn.
 Tốc độ truyền tín hiệu audio Nch kênh:
B0 = b (số bit/mẫu). Fs. Nch (2.49)
 Ví dụ:
• CD: 2 kênh (stereo).
• DVD:
– 5.1 kênh (surround sound) (5 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– 7.1 kênh (surround sound) (7 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– Kênh NHK của Nhật: 22.2 kênh,…
• Do đó với DVD-Video: Nếu tần số mẫu 48 kHz và 24 bit/mẫu
– 48 kHz x 24 bit/mẫu = 1.152 kbps/ 1 channel;
– 2.304 kbps/2 channles; 6.912 kbps/5.1; 9.216 kbps/7.1;…
• Nếu tần số lấy mẫu là 192 kHz thì tốc độ bit này sẽ tăng gấp 4 lần
• Kỹ thuật để giảm tốc độ bit đối với việc truyền các tín hiệu âm thanh
được gọi là kỹ thuật mã hóa âm thanh số (nén âm thanh số).
2.3.2- Sơ đồ mã
 Bộ hóa âm thanh
mã hóa kênh, bộ điều chế, kênh vật
 Mã hóa âmlý,thanh
bộ giảinhằm mục
điều chế, bộ tiêu giảm
giải mã kênhtốc
… độ bít nhờ sử
dụng các bộ Phát sinh lỗi
mã hóa vàbit.
giải mã.
Audio nguồn Audio khôi phục
Yêu cầu ít bit
Tỷ số nén: r=B0/B
(B: tốc độ bit yêu cầu để truyền bản nén)
Bản nén Bản nén

Bộ mã hóa Kênh truyền Bộ giải mã
a) Không tổn thất (Lossless): tín hiệu âm thanh khôi phục

giống với tín hiệu âm thanh nguồn.
b) Tổn thất (Lossy): bản gần giống, một số thông tin bị mất, tín
hiệu âm thanh méo (không cảm nhận được)
2.3.2- Sơ đồ mã hóa âm thanh
 Cách thực hiện nén âm thanh (một trong hai cách):
a) Mã hóa dạng sóng (Lossless): các t/h được biến đổi toán
học Fourier thành các thành phần tần số. Các biên độ của mỗi
thành phần được mã hóa (Mục tiêu: tái tạo lại dạng sóng một
cách chính xác với số lượng bit mã hóa thấp nhất có thể).
b) Mã hóa dựa trên khai thác tính dư thừa về cảm nhận
của các giác quan của con người (lossy): khai thác một
số điểm yếu trong hệ thống thính giác của con người để mã
hoá một t/h, đó là mã hóa dựa trên khoa học tâm sinh lý
nghe- âm học (Psychoacoustics) – cách thức con người
cảm nhận âm thanh. (Chuẩn nén MPEG-1 layer 3 dựa trên
phương pháp mã hóa cảm nhận (perceptual coding)).
a) Mã hóa dạng sóng (không tổn thất- Lossless): Khôi
phục đúng thông tin ban đầu sau khi giải nén.
• Lý thuyết thông tin: tốc độ bit trung bình tối thiểu cần thiết để
truyền tín hiệu nguồn là entropy H của nó (xác định bởi xác
suất phân bố của tín hiệu nguồn).
• Sự sai khác: R= B0 – H, dư thừa thống kê.
• Cơ sở mã hóa lossless: loại bỏ dư thừa thống kê từ tín
hiệu nguồn càng nhiều càng tốt, sao cho B càng gần H càng
tốt.
• Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào độ phức tạp của
tín hiệu nguồn.
• Sử dụng kỹ thuật mã hoá dự đoán trong miền thời gian.
a) Mã hóa dạng sóng (không tổn thất- Lossless):
• Kỹ thuật mã hoá dự đoán trong miền thời gian:
– Thuật toán vi sai:
T/h âm thanh có đặc tính lặp nên có dư thừa số liệu. Thông tin lặp
được loại bỏ trong quá trình mã hoá và được khôi phục trong quá trình
giải mã sử dụng kỹ thuật DPCM.
Các t/h audio được phân tích thành tập các băng con (các âm thanh
rời rạc), DPCM được sử dụng để dự báo các t/h lặp theo chu kỳ. Nếu
sử dụng ADPCM còn cho kết quả tốt hơn.
–Mã hoá Entropy:
Tận dụng độ dư thừa biểu thị bởi các hệ số băng con đã lượng tử
hoá nhằm cải thiện tính hiệu quả của quá trình mã hoá. Các hệ số
lượng tử được gởi đi theo sự tăng dần của tần số.
Kết quả nhận được là bảng mã tối ưu thống kê các giá trị miền tần
số thấp và cao.
Sử dụng mã hoá Hufman, Lempel-Zip để nén.
a) Mã hóa dạng sóng (Không tổn
Mã hóa thất- làLossless
entropy: ):
kỹ thuật mã
hóa gỡ bỏ phần dư thừa thống kê
Nhận xét:
Tỉ lệ nén: hạn chế (2:1), ko thỏa mãn yêu cầu thực tế (36:1),
với mức này một số thông tin trong tín hiệu nguồn sẽ bị mất,
không chuyển đổi ngược lại được (bộ giải mã)
b) Mã hóa âm học (tổn hao - Lossy):
• Thông tin mất không chuyển ngược lại được → gây méo
ở t/h audio khôi phục tại đầu ra bộ giải mã.
• Vấn đề: Thiết kế được bộ mã hóa đảm bảo việc tai ko
cảm nhận được méo, hoặc có thể cảm nhận được nhưng
chưa đến mức khó chịu (annoying).
• Phần thông tin trong t/h nguồn gây méo nhưng ko ảnh
hưởng đến cảm nhận or không khó chịu là thông tin ko
liên quan đến cảm nhận (ngoài cảm nhận: perceptual
irrelevant) có thể loại bỏ khỏi t/h nguồn, giảm đáng kể tốc
độ bit.
• Bộ mã hóa lossy: remove những thông tin ko ảnh hưởng
đến sự cảm nhận + dư thừa thống kê.
b) Mã hóa âm học (tổn hao - Loss):
• Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén
và giải nén và chất lượng audio yêu cầu (thực tế 36:1).
• Các kỹ thuật được sử dụng:
- Kỹ thuật che (masking) đối với các thành phần t/h trong
miền thời gian và tần số.
- Che mức tạp âm lượng tử cho từng âm của t/h âm
thanh: bằng cách gán số bit vừa đủ để mức nhiễu lượng tử
luôn nằm dưới mức giá trị cần che.
- Mã hoá ghép: Khai thác độ dư thừa trong HT audio đa
kênh với các thành phần số liệu trong các kênh giống nhau.
Mã hoá một phần số liệu chung trên một kênh và chỉ định
cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại.
b) Mã hóa âm học (tổn hao - Loss):
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
 Bộ mã hóa: phân chia t/h đầu vào thành các khung có khoảng
thời gian từ 2 đến 50 ms,
 Khối phân tích (t) – (f) thực hiện ước lượng các thành phần thời
gian và phổ của khung (tập các tham số (t)–(f) lấy ra được để
lượng tử hóa theo số đo méo cảm nhận,
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Biến đổi tần số lấy mẫu:
• Bộ phân chia:
– Giảm tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=fs/M.
– Tín hiệu ngõ ra có biên độ ở những thời điểm có chu kỳ Ts’=1/fs’.
s(n) yM(n)
M
fs fs’=fs/M
• Bộ nội suy:
– Tăng tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=Lfs.
– Tín hiệu ngõ ra có biên độ của tín hiệu ngõ vào, ngoài ra, nó còn chèn L-1
mẫu có giá trị bằng 0 giữa hai mẫu từ tín hiệu ngõ vào.
s(n) yL(n)
L
fs fs’=Lfs
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Băng lọc số: là một tập hợp các bộ lọc số có chung đầu vào
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào.
• Băng lọc số phân tích: là tập hợp các bộ lọc số có đáp ứng tần
số Hk(ej) có chung đầu vào và nhiều đầu ra
– Đầu ra gồm M tín hiệu Xk(n) chiếm dải tần liên tiếp nhau gọi
là các tín hiệu băng con (subband).
– Các bộ lọc H0(ej): thông thấp, HM-1(ej): thông cao, Hi(ej):
thông dải, với i từ 1 đến M-2
x0(n)
H0(ej) X0(ej)
x1(n)
x(n) H1(e )
j
X1(ej)
X(ej) …
xM-1(n)
HM-1(ej) XM-1(ej)
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số tổng hợp: Là tập hợp các bộ lọc số có đáp ứng tần
số Gk(ej) có chung đầu ra
– Các bộ lọc : G0(ej): thông thấp, GL-1(ej): thông cao, Gi(ej):
thông dải, với i từ 1 đến L-2
x0(n) G0(ej)
X0(e )
j
x1(n) G1(ej) +
X1(e )
j
…
x(n)
xL-1(n) GL-1(e )
j
+
XL-1(ej) X(ej)
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân
tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy.
– Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì
ta có băng lọc số nhiều nhịp hai kênh.
– H0(ej), G0(ej): Lọc thông thấp. H1(ej), G1(ej): Lọc thông
cao. Lý tưởng: xˆ (n)  x(n)
x(n) x0(n) v0(n) y0(n) y0’(n)

H0(ej) 2 2 G0(ej)
xˆ (n)
H1(e )
j
2 2 G1(e )
j
+
x1(n) v1(n) y1(n) y1’(n)
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Nếu |H0(ej)|=|H1(ej)| và nếu chọn tần số cắt cho 2 bộ lọc
là /2 thì ta thấy |H0(ej)|là ảnh của |H1(ej)| qua gương đặt
ở vị trí /2. Băng lọc nhiều nhịp hai kênh với đặc tính như
vậy gọi là băng lọc gương cầu phương.
– Nếu xˆ (n)  cx(n  n0 ) giống dạng tín hiệu đầu vào thì ta gọi là
băng lọc gương cầu phương khôi phục hoàn hảo PRQMF
(Perfect Reconstructure QMF)
x(n) x0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 2 G0(ej)
xˆ (n)
H1(e )
j
2 2 G1(e )
j
+
x1(n) v1(n) y1(n) y1 (n)
’
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Mã hoá băng con:
– Sử dụng bộ lọc số để mã hoá băng con:
x(n) x0(n) v0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 Kênh 2 G0(ej)
truyền xˆ (n)
H1(e )
j
2 dẫn 2 G1(e )
j
+
x1(n) v1(n) v1(n) y1(n) y1 (n)
’
Mã hoá Giải mã
– Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đơn phân giải: H020(ej) 2
x(n)
H01(ej) 2
H120(ej) 2
H021(ej) 2
H11(ej) 2
H121(ej) 2
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đa phân giải: cho lượng bit đầu ra tối ưu
và phù thuộc vào sự phân bố phổ của tín hiệu.
H020(ej) 2
x(n)
H01(ej) 2
H120(ej) 2
H11(ej) 2
b) Kỹ thuật phân tích tâm lý học:
+ Ngưỡng che:
SNR = SMR (Signal to Mask Ratio) + NMR (Noise to Mask Ratio)
dB
Masking tone
SNR
masking
threshold
SMR
minimum masking
NMR threshold
m-1 bit
m bit
m+1 bit
critical next frequency

band band
c) Gán bít (mức che): Phân dải tần nghe được thành các
băng con và LTH các mẫu trong từng băng với số bít khác
nhau
(b,c) Bài tập ngưỡng che & gán bít (mức che):
Bài 1:
Xác định số bit cần thiết để mã hóa cho các băng 7 và 9?
Biết băng 8 che 12 dB ở băng 7, 15 dB ở băng 9 và tín hiệu
gốc được mã hóa 8 bit/mẫu/băng.
Băng: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Mức (db) 0 8 12 10 6 2 20 60 14 20 15 2 3 5 3 1
Bài 2:
Sau khi phân tích, mức của 16 băng con đầu là:
Band: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level (db): 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
Nếu mức của băng con thứ 8 là 60 thì nó che 12 dB ở băng
con thứ 7 và 15 dB ở băng con thứ 9. Xác định số bit cần
thiết để mã hóa cho các băng 7 và 9?
2.4.2- Bộ mã hóa âm thanh cảm nhận
• Phân tích t/h thành các dải tần số riêng biệt qua việc sử dụng
dải bộ lọc.
• Phân tích năng lượng t/h trong các dải khác nhau và xác định
ngưỡng che toàn phần của mỗi dải bởi các t/h trong dải khác.
• Lượng tử hóa các mẫu trong các dải khác nhau có tỷ lệ chính
xác theo mức che:
– Một t/h nào đó dưới mức che không cần mã hóa.
– T/h trên mức che được LTH với kích cỡ bước lượng tử phụ thuộc
vào mức che; các bit được gán qua các dải sao cho mỗi bit thêm
vào có thể giảm tối đa méo cảm nhận.
2.4.3- Các tiêu chuẩn MPEG
• MPEG: nhóm chuyên gia ảnh động của t/chức t/chuẩn quốc tế (ISO).
• MPEG-1: định nghĩa các chuẩn mã hóa về âm thanh và video, cách
thức gói hóa các bit âm thanh và video để đồng bộ thời gian.
– Tốc độ tổng: 1,5 Mbps.
– Video (352x240 pels/frame, 30 frame/s): 30 Mbps đến 1,2 Mbps.
– Âm thanh ( 2 kênh, 48 K samples/s, 16 bit/sample): 2*768 kbps đến < 0,3 Mbps.
– Ứng dụng: web movies, MP3 audio, video CD.
• MPEG-2: cho âm thanh và video chất lượng tốt hơn.
– Video: 720x480 pels/frame, 30 frames/s: 216 Mbps đến 3-5 Mbps.
– Audio (5.1 kênh), mã hóa âm thanh tiên tiến (AAC).
• MPEG-4: hướng đến sự đa dạng về các ứng dụng, có dải chất lượng
và tốc độ bit rộng, nhưng chất lượng được cải thiện chủ yếu ở tốc độ
bit thấp.
- Cho ứng dụng internet audio video streaming.
• Các tiêu chuẩn mã hóa âm thanh khác MPEG:
– Dolby AC-3; DVD-Audio
2.4.4- Tiêu chuẩn MPEG 1
MPEG-1
a) Các Lớp trong MPEG-1:
Mono và Stereo
32, 44.1, 48kHz
Lớp I Lớp II Lớp III
- Được phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172.

- Sử dụng tần số lấy mẫu với fs=32; 44.1; 48kHz, mã hoá
16bits/mẫu tín hiệu.
- Tốc độ bít: 32 - 768 kbps/channel.
- Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo.
- Xác định các tham số khác nhau về tốc độ, dòng số sau khi nén,
số mẫu trong header cho một kênh, cấu trúc thời gian khung,
phương pháp mã hoá dự đoán và các chế độ làm việc.
a) Các Lớp trong MPEG-1: so sánh
b) Kiến trúc MPEG-1
Băng lọc 32
Lượng tử Dữ liệu
phân tích đa 32 hoá
MPEG1 lớp 1,2 pha 32 kênh Mã hoá kênh
s(n) MU
Lượng tử X
SMR
FFT Phân tích Phân phối
LI: 512 Thông
tâm sinh lý bit động tin thêm
LII: 1024
âm học
MPEG1 lớp 3 Dữ liệu
Băng lọc Vòng lặp chỉ định bit
32
phân tích đa 32 MDCT Lượng tử hoá
pha 32 kênh Mã hoá Huffman
M kênh
s(n) U
X
Phân tích Mã thông

SMR Thông
SMR (Signal Mark FFT tâm sinh lý tin thêm tin thêm
Rate): Tỷ số tín âm học
hiệu/ngưỡng che
c) Các bước cơ bản trong mã hóa âm thanh MPEG-1
1. Chía băng con: Sử dụng các bộ lọc tích chập để chia tín hiệu âm
thanh thành 32 băng con (lọc băng con).
2. Xác định mức che đối với mỗi băng: dựa trên tần số của nó (ngưỡng
che tuyệt đối – threshold in quiet) và năng lượng của băng lân cận
về tần số và thời gian (che miền tần số và che miền thời gian).
3. Nếu năng lượng trong một băng nằm dưới ngưỡng che, không mã
hóa nó.
4. Ngược lại, xác định số bit cần thiết để biểu diễn hệ số trong băng
này sao cho tạp âm sinh ra do lượng tử hóa nằm dưới hiệu ứng che
(khi thêm vào 1 bit giảm được tạp âm lượng tử hóa đi 6 dB).
5. Định dạng luồng bit: chèn các tiêu đề thích hợp, mã hóa thông tin
phía phát như lượng tử hóa các hệ số tỷ lệ cho các băng khác nhau
và mã hóa (sử dụng mã hóa độ dài thay đổi: Huffman).
d) Chuyển đổi MDCT (Modified Discrete Cosine Transform)
- MDCT là phép biến đổi trực giao tuyến tính được hiệu
chỉnh từ DCT: R2N  RN
- MDCT thuận:
2 N 1
  1 N  1 
MDCT : X k   xn .cos   n    k   
n 0 N  2 2  2 
- MDCT ngược (IMDCT):
1 N 1   1 N  1 
IMDCT : y n   X k .cos   n    k   
N k 0 N  2 2  2 
d) Chuyển đổi MDCT (Modified DCT)
1. Chồng các khung dài 2N.
2. MDCT: 2N các hệ số N; IMDCT: N các mẫu 2N

3. Cọng yi[n] với nhau được y[n]
d) Chuyển đổi MDCT (Modified DCT)
1. Nếu x, X và y- các vector cột: và

Trong đó M là một ma trận với
(M- ma trận biến đổi thuận)
2. Bán trực giao (Quasi- Orthogonality):
Ma trận vuông , gần như đồng nhất
e) Lượng tử hóa
1. Sử dụng các bộ lọc tích chập để chia tín hiệu âm thanh thành 32
băng con: lọc băng con.
e) Lượng tử hóa
1. Sử dụng các bộ lọc tích chập để chia tín hiệu âm thanh thành 32
băng con: lọc băng con.
(d,e) Bài tập MDCT và Lượng tử hóa:
Bài 1:
Cho 4 giá trị đầu tiên của đoạn tiếng nói: x(n)=[1,2,3,5]:
a) Hãy tính các hệ số MDCT sử dụng N=2. Biết ma trận biến
đổi thuận A (2x4) như sau: 0, 7 0, 7 1,8 1,8
1,8 1,8 0, 7 0, 7
b) Lượng tử hóa các hệ số MDCT sử dụng bộ lượng tử hóa
đều đúng bước (mid-tread) với bước lượng tử = 1.
c) Khôi phục x(n) qua việc thực hiện biến đổi MDCT ngược
T
các hệ số đã lượng tử hóa. Biết ma trận biến đổi ngược là A 8

Chương 2-X Lý At&ha

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương 2-X Lý At&ha

Uploaded by

Copyright:

Available Formats

BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH

Bộ môn: Tín hiệu và Hệ thống

Điện thoại 8 kHz 8 bits/mẫu Mono 8 kbytes/s 4Khz

AM radio 11.025 kHz 8 bits/mẫu Mono 11.0 kbytes/s 5kHz

FM radio 22.05 kHz 16 bits/mẫu Stereo 88.2 kbytes/s 10kHz

CD 44.1 kHz 16 bits/mẫu Stereo 176.4 kbytes/s 20kHz

v- tốc độ dao động của một phần tử không khí

 Ngưỡng nghe: cường độ âm MIN mà tai còn cảm nhận được âm

 Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark]

Phân loại theo tốc độ Phân loại theo kỹ thuật mã hóa

C[n] Dq[n] Xp[n]

• Lỗi dự đoán, e(n) có dạng:

• Lỗi dự đoán đầu ra hệ thống với hàm truyền đạt:

• Cách biểu diễn khác:

2.2.3- Các phương pháp mã hóa tín hiệu thoại

(a)- Sơ đồ khối chung (b)- Sơ đồ khối sử dụng bộ lọc lỗi dự đoán

2.2.3- Các phương pháp mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại

2.2.3- Các phương pháp mã hóa tín hiệu thoại

– trong đó ai là các dự đoán của tham số AR và là hệ số LPC

trong đó, 2 biến cần tìm cho phương trình (39):

Tiếp tục cho Bộ dự đoán bậc cao hơn

– Dừng khi l=M

– Đặt quay trở lại bước 1

Ví dụ 1: Cho một khung dữ liệu thoại có các tự

– Hàm truyền đạt của bộ lọc:

Bản nén Bản nén

a) Không tổn thất (Lossless): tín hiệu âm thanh khôi phục

x(n) x0(n) v0(n) y0(n) y0’(n)

critical next frequency

Lớp I Lớp II Lớp III

- Được phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172.

Phân tích Mã thông

2. MDCT: 2N các hệ số N; IMDCT: N các mẫu 2N

1. Nếu x, X và y- các vector cột: và

You might also like