Professional Documents
Culture Documents
Chương 2-X Lý At&ha
Chương 2-X Lý At&ha
Thoại Audio
Băng thông 300-3400Hz 16Hz-20kHz
Tốc độ lấy mẫu 8kHz 44.1kHz/48kHz
Số bits trên mẫu 8bits 16+bits
Tốc độ bit thô 64kbps 768kbps
Số kênh 1 1-6+kênh
Mô hình hiệu quả nguồn Có Không
Sức chịu đựng nguồn Có thể yêu cầu Yêu cầu
Chất lượng mong đợi Méo do bị giới hạn Chất lượng “CD”
Tính đa dạng của phổ Harmonic, V/UV Không thể phân loại
2.1- Các đặc trưng cơ bản của âm thanh
2.1.1- Khái niệm về âm thanh & các tham số
a)- Khái niệm về âm thanh:
- Các tiêu chuẩn lấy mẫu:
Tốc độ lấy
Tiêu chuẩn Số bits/mẫu Mono/stereo Tốc độ Băng tần
mẫu
Tai người có thể được coi như một dải các bộ lọc,
Phụ thuộc vào môi trường nghe, với nhiễu lớn thì hạn chế khả năng
nghe và khả năng phân biệt các âm thanh khác nhau.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)
Lựa chọn tần số của màng nền:
- Các thành phần tần số khác nhau được sắp xếp khi lan truyền
dọc theo màng nền. (Giảm dần từ phải sang trái)
- Xử lý tín hiệu: quá trình xử lý chọn lọc tần số = lọc băng con,
màng nền=dải các bộ lọc thính giác thông dải.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
Hệ thống thính giác của con người: (Sơ đồ chức năng tai)
Màng nền=Dải bộ lọc:
Tần số cao
Tần số trung
bình
Tần số thấp
Ốc tai
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
a) Ngưỡng nghe tuyệt đối (AHT- Absolute Theshold of Hearing)
frequency
critical next
band band
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
b) Che tần số (Frequency masking)
Khi một thành phần t/h cao hơn mức ngưỡng nghe, thì nó vẫn bị che khuất bởi các
thành phần lớn hơn lân cận trong miền tần số. Hiện tượng này là gọi là che tần số.
Thành phần tín hiệu che khuất làm dịch ngưỡng nghe.
Cách xác định: Cho 1 người ở trong phòng kín yên tĩnh, phát âm che (masking tone)
ở một mức nào đó (60dB), sau đó, phát âm kiểm tra (test tone) (1,1kHz), tăng mức
đến khi có thể nghe được. Thay đổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che
khác.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
c) Che thời gian (Time masking)
Cách xác định: Phát một âm che ở tần số 1kHz, biên độ 55dB,
thêm một âm kiểm tra 1,1kHz, biên độ 20dB trước và sau âm che.
Âm kiểm tra không thể nghe được (nó đang bị che). Lặp lại các
mức khác của âm kiểm tra và vẽ.
Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước
khoảng 15ms và che sau khoảng 50ms.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
Khoảng tần bị che gần đúng theo tần số và biên độ gọi là dải tới hạn.
Dải tần nghe được của con người được phân chia tự nhiên thành các
dải băng tần tới hạn. Tai không thể phân biệt các âm thanh xuất hiện
đồng thời trong cùng một dải băng.
Dải tới hạn biểu diễn công suất xác định của tai cho các tần số hay
dải tần số liên tục.
Băng tần của mỗi băng tần tới hạn khoảng 100 Hz đối với các tín hiệu
dưới 500 Hz, và tăng tuyến tính trong dải 500 Hz đến 5000 Hz.
Hệ thống thính giác có thể được mô hình như dải bộ lọc, gồm 25 bộ
lọc băng thông chồng lấn, từ 0 đến 20 KHz.
Độ rộng của 1 băng = 1 bark.
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bandwidth)
Bark là đơn vị để biểu diễn một dải tới hạn, 1 bark=1 độ rộng dải tới
hạn.
Số băng giới hạn (Bark) (2.4)
của một tần số đã cho:
(2.5)
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
Flecher chia băng thông âm thanh thành 25 dải tới hạn:
2.1- Các đặc trưng cơ bản của âm thanh
2.1.2- Các đặc điểm của thính giác con người
d) Các dải băng tần tới hạn (critical bankwidth)
Cảm nhận âm (tần số và giải tần số âm thanh):
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Cấu trúc bộ máy phát âm
1. Khoang mũi (Nasal Cavity)
2. Ngạc cứng (Hard palate)
3. Vòm miệng (Alveoral ridge)
4. Ngạc mềm (Soft palate)
5. Đầu lưỡi (Apex)
6. Mặt lưỡi (Dorsum)
7. Lưỡi con (Uvula)
8. Gốc (cuối) lưỡi (Radix)
9. Hầu (Pharynx)
10. Nắp thanh quản (Epiglottis)
11. False Vocal Cord
12. Dây thanh (Vocal Cords)
13. Thanh quản (Larynx)
14. Thực quản (Esophagus)
15. Khí quản (Trachea)
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm
học có nguồn gốc từ cơ chế tạo tiếng nói.
Khoảng không giữa dây thanh và thanh quản gọi là thanh môn.
Hệ thống đằng sau thanh môn (phổi, phế quản, khí quản) có vai trò
như một nguồn năng lượng để tạo tiếng nói.
Tuyến âm (vocal tract): cả bộ máy phát âm tính từ thanh môn trở lên.
Có 2 loại nguồn âm:
Nguồn tuần hoàn: dây thanh rung (vị trí nằm ở thanh môn)
• Dây thanh: vocal folds, vocal cords
• Chu kỳ tuần hoàn: chu kỳ rung của dây thanh
• Nguồn tuần hoàn chủ yếu tương ứng với nguyên âm
Nguồn tạp âm: dây thanh không rung (vị trí tùy theo âm tạo ra,
không nằm ở thanh môn)
• Chủ yếu là phụ âm, VD: âm “s” nguồn ở khoang miệng,
• Nói thì thào: dây thanh không rung, thanh môn gần như khép
2.2- Mã hóa tín hiệu thoại
2.2.1- Quá trình tạo ra tiếng nói
Các loại phụ âm trong tiếng việt
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
a) Sơ đồ khối hệ thống mã hóa thoại
Ngu n B bi n đ i B a B a
i B c B l ym u
A/D ngu n kênh
Kênh truy n
B i B i B bi n đ i i
B c
kênh ngu n D/A đ u ra
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
b) Các ứng dụng của mã hóa thoại
Mã hóa tiếng nói là quá trình biểu diễn tín hiệu tiếng nói đã số hóa sử
dụng càng ít bit càng tốt, đảm bảo được mức chất lượng tiếng nói hợp lý
(Nén tiếng nói). Các ứng dụng:
Thoại cố định (Wireline Telephony)
Hội nghị truyền hình (Videoconferencing)
Thoại di động (Digital Cellular)
Thoại IP (IP Telephony)
Thư thoại (Voice Mail)
Thiết bị tiếng nói (Speech Storage)
2.2- Mã hóa tín hiệu thoại
2.2.2- Tổng quan về mã hóa tín hiệu thoại
c) Các yêu cầu đối với bộ mã hóa thoại
Tốc độ bit thấp: băng thông truyền dẫn thấp, sử dụng hệ thống hiệu
quả hơn(<> chất lượng thoại). Tùy thuộc vào ứng dụng.
Chất lượng thoại cao: chất lượng có thể chấp nhận được theo ứng
dụng hướng đến; Các tham số xác định: tính dễ hiểu, tính tự nhiên,
tính dễ chịu, khả năng nhận diện giọng người nói.
Tính bền vững: qua các ngôn ngữ khác nhau, chống nhiễu
Hiệu năng tốt đối với tín hiệu phi thoại: âm thông báo, nhạc.
Kích thước bộ nhớ nhỏ, độ phức tạp tính toán thấp
Trễ mã hóa thấp
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
a) Phân loại
Yn X n Xˆ n 1 (2.6)
p
Xˆ n 1 ai Xˆ n i
i 1
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
Trong miền thời gian:
Mã hóa ADPCM:
X[n] + D[n] C[n]
L ng t a ch nghi
- Xp[n-1]
D đ n ch nghi il ng t a ch
nghi
Xp[n]
+
Dq[n]
+
L ng t a ch nghi
Xp[n-1]
2.2- Mã hóa tín hiệu thoại
•2.2.3-
Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
Trong miền thời gian:
Mã hóa Delta:
• Sử dụng bộ lượng tử hóa sai số dự đoán gồm có 2 mức:
• Mỗi mẫu mã hóa 1 bit.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
Trong miền tần số:
Mã hoá băng con (SBC- subband coding):
– Tín hiệu được chia thành nhiều dải băng hẹp, tín hiệu trong miền
thời gian ứng với mỗi dải được mã hóa độc lập.
– Trong mã hóa tiếng nói, dải tần số thấp chứa phần lớn năng
lượng của tín hiệu, đồng thời nhiễu lượng tử ảnh hưởng đến tai
rất thấp. Do vậy, tín hiệu ở băng tần thấp được mã hóa nhiều bit
hơn tín hiệu ở miền tần cao.
– Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu.
– Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ
phụ thuộc vào mã hóa sử dụng trong băng con đó.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
b) Mã hóa dạng sóng:
Trong miền tần số:
Mã hoá biến đổi thích nghi (ATC):
– Tại phía phát: chia các mẫu tín hiệu của nguồn thành từng khung
Nf mẫu, số liệu trong mỗi khung được chuyển sang miền tần số
để mã hóa truyền đi.
– Tại phía thu mỗi khung phổ các mẫu tín hiệu được chuyển đổi
ngược lại trong miền thời gian và tín hiệu sẽ được tổng hợp lại từ
các mẫu.
– Để mã hóa hiệu quả, ta dùng nhiều bit cho các thành phần phổ
quan trọng, và ít bit cho các thành phần phổ không quan trọng.
– Các phép biến đổi được chọn sao cho các mẫu phổ không tương
quan với nhau: KLT (Karhunen-Loéve) (tối ưu nhưng phức tạp),
DCT.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm
dưới 16 Kbps.
Để giảm tốc độ bit, mô hình tạo tiếng nói cần được khai thác: mã hóa
dựa trên mô hình (mã hóa tham số). (Mã hóa không dựa trên mô hình
được gọi là mã hóa dạng song).
Các bộ mã hóa tham số cho tín hiệu thoại còn được gọi là Vocoder
(Voice + Coder).
Mã hóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps)
và dù tiếng nói được tái tạo lại là dễ hiểu nhưng lại khác khá nhiều so
với giọng nói tự nhiên con người.
Có nhiều mô hình được đề xuất: thành công nhất là mô hình mã hóa
dựa trên dự đoán tuyến tính (LPC): bộ lọc biến đổi theo thời gian.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– LPC áp dụng sớm nhất cho thoại được đưa ra ở các bài báo bởi:
• Atal 1968- 1971
• Markel 1971- 1972
• Makhoul 1975
– Đây là một nhóm các phương pháp được sử dụng rộng rãi từ
thoại tiêu chuẩn đến liên lạc quân sự (chất lượng thấp).
– Tốc độ đặc trưng: 0,8-16Kbps
– LPC là một mô hình để tạo tín hiệu thoại (AR- auto regressive):
dựa trên giả thiết là tín hiệu thoại được tạo bởi một mô hình rất cụ
thể.
– Sơ đồ cơ bản : LPC-10,
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Mô hình tạo tín hiệu thoại:
(cơ quan phát âm)
. Đầu ra của bộ lọc LPC
(bộ lọc số): tín hiệu thoại
số
. Đầu vào là chuỗi xung
hoặc chuỗi nhiễu trắng.
Quan hệ giữa 2 mô hình:
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa LPC- (Linear Prediction Coding):
– Các phương trình LP cơ bản:
• Bộ dự đoán tuyến tính bậc p là
một hệ thống có dạng:
(2.7)
(2.8)
(2.9)
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Mô hình tạo tín hiệu thoại
(biểu diễn toán học):
• Mô hình tương đương với tín hiệu
được tạo bởi pt sai phân:
(2.10)
(2.11)
• Receiver: { ai } s[n]
g[n]
Decoder T,G Ex
…11011… G(z) s
v/u
Các tham số tín hiệu kích thích (excitation signal): u(n)
. v/u (voiced/ unvoiced): dạng tín hiệu kích thích
. T (pitch for voiced): chu kỳ
. G (signal gain): độ tăng ích (hệ số KĐ)
Tham số bộ lọc LPC:
. {ai}: hệ số bộ lọc
2.2- Mã hóa tín hiệu thoại
(2.16)
được tối thiểu hóa qua việc chọn các hệ số LPC. (J là hàm bậc 2 của các LPC).
Thấy được sự phụ thuộc của J và các hệ số LPC.
• Tìm các hệ số LPC tối ưu qua việc lấy đạo hàm J theo ak: (2.17)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Bài toán dự đoán tuyến tính (Tối thiểu hóa sai số-Tìm )
• Từ (15), viết lại:
(2.18)
• Hoặc:
(2.19)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Bài toán dự đoán tuyến tính (Tối thiểu hóa sai số-Tìm )
• Biểu diễn (17) ở dạng ma trận:
(2.20)
• Trong đó:
(2.21)
(2.22)
(2.23)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Bài toán dự đoán tuyến tính (Tối thiểu hóa sai số-Tìm )
• Như vậy, nếu tồn tại ma trận nghịch đảo của ma trân tương quan Rs, tìm được
các hệ số tối ưu LPC:
(2.24)
• Độ lợi dự đoán (tỷ số giữa phương sai của tín hiệu vào với phương sai của sai số
dự đoán): Đánh giá hiệu năng của bộ dự đoán
(2.25)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Bài toán dự đoán tuyến tính (Tối thiểu hóa sai số-Tìm )
• Tín hiệu thoại: tính chất động. Các hệ số LPC phải được tính ở mỗi khung. Giả
thiết tính thống kê không đổi trong mỗi khung đó. Tính các hệ số LPC từ N
điểm dữ liệu kết thúc tại thời điểm m: s[m-N+1], s[m-N+2],…, s[m]. Vector
LPC (M: bậc dự đoán) là:
(2.29)
• Từ (18) viết lại ở dạng phụ thuộc vào thời gian: (2.30)
• Với:
(2.31)
(2.32)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Xác định hệ số
• Tìm các hệ số dự đoán:
– Phương pháp khử Gauss
– Phương trình nghịch đảo ma trận, nhưng nhìn chung là phức tạp.
• Giải thuật Levison-Durbin (LD) rất phù hợp cho việc phân tích LP của
các hệ thống triển khai trong thực tế.
• Xét phương trình:
(2.33)
• Mục tiêu:
– Tìm các hệ số ai theo các giá trị tự tương quan cho trước
» Các giá trị tương quan có được từ việc ước lượng các mẫu tín hiệu
» J là sai số dự đoán trung bình bình phương tối thiểu (thực tế không biết trước)
• Thuật toán LD: tìm lời giải của bộ dự đoán bậc M từ bộ dự đoán bậc M-
1 (đệ quy lặp).
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Xác định hệ số
• Thuật toán dựa trên tính chất cơ bản bất biến của ma trận tương quan:
Nếu:
(2.34)
Thì:
(2.35)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Xác định hệ số
• Bộ dự đoán bậc 0:
(2.36)
Mở rộng chiều của (34):
(2.37)
• Bộ dự đoán bậc 1:
- Vì a1=0, nên điều kiện tối ưu không đạt được, đưa thêm để cân
0
bằng phương trình và được xác định: R1
0 (2.38)
- Từ tính chất của ma trận tương quan, (35) tương đương với:
(2.39)
2.2- Mã hóa tín hiệu thoại
• Các phương pháp mã hóa tín hiệu thoại
2.2.3-
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Xác định hệ số
• Bộ dự đoán bậc 1:
- Phương trình (35) và (37) được sử dụng cho bước tiếp theo:
- Tìm lời giải cho:
(2.40)
(2.41)
(2.42)
(2.43)
(2.44)
(2.45)
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Mã hóa dự đoán tuyến tính (LPC- Linear Prediction Coding):
– Hoạt động: + Tổng kết giải thuật Levinson- Durbin
– Bước 2: Tính LPC với bộ dự đoán bậc thứ l
(2.46)
(2.47)
• A thay đổi theo chu kỳ 20ms (theo tính chất không dừng của
tín hiệu thoại), tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia
thành các khung có độ dài 20 ms (50 khung/sec).
– Mô hình này tương đương với:
– Như vậy, 160 giá trị của S được đại diện cho 13 giá trị của A
– 2 kiểu bài toán:
• Tổng hợp (Synthesis): Cho A, tạo S.
• Phân tích (Analysis): Cho S, tìm A tốt nhất
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Bộ mã hóa LPC Vocoder 2,4Kbps :
– Sơ đồ:
– Hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn
– Tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với tiếng nói
tự nhiên của con người.
– Các hệ số LPC được biểu diễn là các tham số cặp phổ vạch (line spectrum
pair (LSP)). LSP tương đương 1-1 về mặt toán học với LPC
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Bộ mã hóa LPC Vocoder 2,4Kbps :
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
c) Mã hóa tham số:
Bộ mã hóa LPC Vocoder 2,4Kbps:
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai:
Cải thiện chất lượng bộ mã hóa Vocoder
Sử dụng lai ghép 2 công nghệ mã hoá sóng và mã hoá Vocoder
Có thể đạt được chất lượng thoại tốt tại các tốc độ bit 2-16kbps
Mã hóa lai phổ biến nhất là mã hoá phân tích bằng cách tổng hợp
AbS (Analysis-by-Synthesis):
– MPE (Multi Pulse Excited): mã hóa kích thích đa xung
– RPE-LTP (Regular Pulse Excited Long-Term Prediction): mã hóa
kích thích xung đều.
– CELP, ACELP (Code Excited Linear Predictive): mã hóa kích thích
mã.
Việc phân chia các bộ mã hóa lai dựa chủ yếu vào cách tạo ra tín
hiệu kích thích.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai:
Tạo ra các âm thanh tự nhiên hơn, tín hiệu kích thích là tùy ý, được
chọn sao cho dạng sóng tiếng nói được tạo ra càng giống với dạng
sóng thật càng tốt.
Bộ mã hóa lai: sử dụng mã hóa mô hình bộ lọc và tín hiệu kích thích
như một dạng sóng (thay thế ứng dụng mô hình 2 trạng thái đơn giản -
hữu thanh/vô thanh), nhằm giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu
vào và dạng sóng tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích
thích lý tưởng.
Bộ mã hóa dự đoán kích thích mã (CELP): chọn tín hiệu kích thích từ
các từ mã trong bảng mã đã được thiết kế trước.
Nguyên lý này cho phép chất lượng tín hiệu thoại có thể chấp nhận
được trong dải tốc độ 4,8 – 16 kbps trong các hệ thống điện thoại vô
tuyến.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
Cơ chế tối ưu hóa vòng kín (closed-loop): chọn tham số tốt nhất ánh
xạ để tín hiệu thoại tổng hợp càng giống càng tốt tín hiệu gốc.
Tín hiệu được tổng hợp trong quá trình mã hóa cho mục đích phân
tích gọi là AbS
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
Cơ chế tối ưu hóa vòng hở (open-loop):
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: Mã hoá phân tích bằng cách tổng hợp AbS
Cũng sử dụng mô hình cơ quan phát âm của con người.
Thay vì sử dụng các mô hình tín hiệu kích thích đơn giản thì tín hiệu
kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói
tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt.
Thuật toán tìm ra dạng sóng kích thích quyết định độ phức tạp bộ mã
hóa.
Được sử dụng phổ biến trong các chuẩn mã hóa tiếng nói cho mạng
di động.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
Cũng sử dụng mô hình cơ quan phát âm của con người.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
Là bộ mã hóa ADPCM, trong đó bộ dự đoán thực hiện tính toán từ tín
hiệu, tìm sai số dự đoán và lượng tử sai số này s/dụng cơ chế thích nghi.
Có 2 bộ dự đoán thời gian ngắn và thời gian dài, tăng được độ lợi dự
đoán trung bình.
Bộ mã hóa:
– Các tham số của mỗi khung/khung con được lấy ra và được đóng gói tạo
thành luồng bit.
– Chia các mẫu tiếng nói đầu vào thành các khung (160 mẫu – 20ms), từ các
khung chia thành các khung con (40 mẫu).
– Khối tiền xử lý: sử dụng bộ lọc thông cao để loại bỏ thành phần DC.
– Phân tích LP: được thực hiện trên từng khung, sử dụng bậc dự đoán là 8. 9
giá trị tự tương quan được tính toán từ khung sử dụng cửa sổ hình chữ nhật.
Các giá trị tương quan được sử dụng để tìm 8 hệ số phản xạ.
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.2- Mã hóa tín hiệu thoại
2.2.3- Các phương pháp mã hóa tín hiệu thoại
d) Mã hóa lai: RPE-LTP (Mã hóa dự đoán chu ky dài- Kích thích
xung đều)- Ứng dụng bộ mã hóa thoại tốc độ thấp trong GSM
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
Tín hiệu Audio phải được lọc trước khi lấy mẫu để loại bỏ thành phần
tần số cao
Tín hiệu Audio phải được lấy mẫu tại tân số Nyquist .
Tần số lấy mẫu audio:
– 96 kHz DVD Audio
– 48 kHz Digital Audio Tape (DAT)
– 44.1 kHz CD Audio
– 32 kHz Extended Play DAT
– 8 kHz Telephony (300 Hz - 3300 Hz bandwidth)
Giá trị lượng tử hóa chung:
– 8 bits (48 dB dynamic range)
– 12 bits (72 dB)
– 16 bits (96 dB)
– 20 bits (120 dB)
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
Âm nhạc có băng tần rộng hơn và đa kênh.
Mã hóa dạng sóng đảm bảo được chất lượng âm thanh tự nhiên
Sử dụng những đặc tính của tai người để xác định số mức lượng tử
hóa trong các dải tần số khác nhau.
– Mỗi thành phần tần số được lượng tử hóa với kích cỡ bước phụ
thuộc vào ngưỡng nghe.
– Không mã hóa thành phần tần số mà tai người không thể nghe
được
Chất lượng âm thanh cao đòi hỏi tốc độ lấy mẫu, số bít/mẫu cũng cao
hơn và nhiều kênh hơn.
Tốc độ truyền tín hiệu audio Nch kênh:
B0 = b (số bit/mẫu). Fs. Nch (2.49)
2.3- Mã hóa âm thanh
2.3.1- Âm thanh số
Ví dụ:
• CD: 2 kênh (stereo).
• DVD:
– 5.1 kênh (surround sound) (5 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– 7.1 kênh (surround sound) (7 kênh normal + 1 kênh hiệu ứng tần
số thấp LFE - <= 120 Hz).
– Kênh NHK của Nhật: 22.2 kênh,…
• Do đó với DVD-Video: Nếu tần số mẫu 48 kHz và 24 bit/mẫu
– 48 kHz x 24 bit/mẫu = 1.152 kbps/ 1 channel;
– 2.304 kbps/2 channles; 6.912 kbps/5.1; 9.216 kbps/7.1;…
• Nếu tần số lấy mẫu là 192 kHz thì tốc độ bit này sẽ tăng gấp 4 lần
• Kỹ thuật để giảm tốc độ bit đối với việc truyền các tín hiệu âm thanh
được gọi là kỹ thuật mã hóa âm thanh số (nén âm thanh số).
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã
Bộ hóa âm thanh
mã hóa kênh, bộ điều chế, kênh vật
Mã hóa âmlý,thanh
bộ giảinhằm mục
điều chế, bộ tiêu giảm
giải mã kênhtốc
… độ bít nhờ sử
dụng các bộ Phát sinh lỗi
mã hóa vàbit.
giải mã.
Audio nguồn Audio khôi phục
Yêu cầu ít bit
Tỷ số nén: r=B0/B
(B: tốc độ bit yêu cầu để truyền bản nén)
Nhận xét:
Tỉ lệ nén: hạn chế (2:1), ko thỏa mãn yêu cầu thực tế (36:1),
với mức này một số thông tin trong tín hiệu nguồn sẽ bị mất,
không chuyển đổi ngược lại được (bộ giải mã)
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Lossy):
• Thông tin mất không chuyển ngược lại được → gây méo
ở t/h audio khôi phục tại đầu ra bộ giải mã.
• Vấn đề: Thiết kế được bộ mã hóa đảm bảo việc tai ko
cảm nhận được méo, hoặc có thể cảm nhận được nhưng
chưa đến mức khó chịu (annoying).
• Phần thông tin trong t/h nguồn gây méo nhưng ko ảnh
hưởng đến cảm nhận or không khó chịu là thông tin ko
liên quan đến cảm nhận (ngoài cảm nhận: perceptual
irrelevant) có thể loại bỏ khỏi t/h nguồn, giảm đáng kể tốc
độ bit.
• Bộ mã hóa lossy: remove những thông tin ko ảnh hưởng
đến sự cảm nhận + dư thừa thống kê.
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Loss):
• Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén
và giải nén và chất lượng audio yêu cầu (thực tế 36:1).
• Các kỹ thuật được sử dụng:
- Kỹ thuật che (masking) đối với các thành phần t/h trong
miền thời gian và tần số.
- Che mức tạp âm lượng tử cho từng âm của t/h âm
thanh: bằng cách gán số bit vừa đủ để mức nhiễu lượng tử
luôn nằm dưới mức giá trị cần che.
- Mã hoá ghép: Khai thác độ dư thừa trong HT audio đa
kênh với các thành phần số liệu trong các kênh giống nhau.
Mã hoá một phần số liệu chung trên một kênh và chỉ định
cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại.
2.3- Mã hóa âm thanh
2.3.2- Sơ đồ mã hóa âm thanh
Cách thực hiện nén âm thanh (một trong hai cách):
b) Mã hóa âm học (tổn hao - Loss):
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
Bộ mã hóa: phân chia t/h đầu vào thành các khung có khoảng
thời gian từ 2 đến 50 ms,
Khối phân tích (t) – (f) thực hiện ước lượng các thành phần thời
gian và phổ của khung (tập các tham số (t)–(f) lấy ra được để
lượng tử hóa theo số đo méo cảm nhận,
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Biến đổi tần số lấy mẫu:
• Bộ phân chia:
– Giảm tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=fs/M.
– Tín hiệu ngõ ra có biên độ ở những thời điểm có chu kỳ Ts’=1/fs’.
s(n) yM(n)
M
fs fs’=fs/M
• Bộ nội suy:
– Tăng tần số lấy mẫu, chuyển tần số lấy mẫu fs về tần số fs’ với fs’=Lfs.
– Tín hiệu ngõ ra có biên độ của tín hiệu ngõ vào, ngoài ra, nó còn chèn L-1
mẫu có giá trị bằng 0 giữa hai mẫu từ tín hiệu ngõ vào.
s(n) yL(n)
L
fs fs’=Lfs
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số: (với mục đích thuận
tiện trong quá trình xử lý)
+ Băng lọc số: là một tập hợp các bộ lọc số có chung đầu vào
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào.
• Băng lọc số phân tích: là tập hợp các bộ lọc số có đáp ứng tần
số Hk(ej) có chung đầu vào và nhiều đầu ra
– Đầu ra gồm M tín hiệu Xk(n) chiếm dải tần liên tiếp nhau gọi
là các tín hiệu băng con (subband).
– Các bộ lọc H0(ej): thông thấp, HM-1(ej): thông cao, Hi(ej):
thông dải, với i từ 1 đến M-2
x0(n)
H0(ej) X0(ej)
x1(n)
x(n) H1(e )
j
X1(ej)
X(ej) …
xM-1(n)
HM-1(ej) XM-1(ej)
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số tổng hợp: Là tập hợp các bộ lọc số có đáp ứng tần
số Gk(ej) có chung đầu ra
– Các bộ lọc : G0(ej): thông thấp, GL-1(ej): thông cao, Gi(ej):
thông dải, với i từ 1 đến L-2
x0(n) G0(ej)
X0(e )
j
x1(n) G1(ej) +
X1(e )
j
…
x(n)
xL-1(n) GL-1(e )
j
+
XL-1(ej) X(ej)
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Băng lọc số nhiều nhịp là sự kết hợp của băng lọc số phân
tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy.
– Với số bộ lọc của băng lọc phân tích và tổng hợp bằng 2 thì
ta có băng lọc số nhiều nhịp hai kênh.
– H0(ej), G0(ej): Lọc thông thấp. H1(ej), G1(ej): Lọc thông
cao. Lý tưởng: xˆ (n) x(n)
xˆ (n)
H1(e )
j
2 2 G1(e )
j
+
x1(n) v1(n) y1(n) y1’(n)
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Băng lọc số:
• Băng lọc số nhiều nhịp hai kênh và băng lọc gương cầu
phương QMF (Quadrature Mirror Filter Bank):
– Nếu |H0(ej)|=|H1(ej)| và nếu chọn tần số cắt cho 2 bộ lọc
là /2 thì ta thấy |H0(ej)|là ảnh của |H1(ej)| qua gương đặt
ở vị trí /2. Băng lọc nhiều nhịp hai kênh với đặc tính như
vậy gọi là băng lọc gương cầu phương.
– Nếu xˆ (n) cx(n n0 ) giống dạng tín hiệu đầu vào thì ta gọi là
băng lọc gương cầu phương khôi phục hoàn hảo PRQMF
(Perfect Reconstructure QMF)
x(n) x0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 2 G0(ej)
xˆ (n)
H1(e )
j
2 2 G1(e )
j
+
x1(n) v1(n) y1(n) y1 (n)
’
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Mã hoá băng con:
– Sử dụng bộ lọc số để mã hoá băng con:
x(n) x0(n) v0(n) v0(n) y0(n) y0’(n)
H0(ej) 2 Kênh 2 G0(ej)
truyền xˆ (n)
H1(e )
j
2 dẫn 2 G1(e )
j
+
x1(n) v1(n) v1(n) y1(n) y1 (n)
’
Mã hoá Giải mã
– Thuận lợi cho việc nén tín hiệu âm thanh vì phổ tập trung
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đơn phân giải: H020(ej) 2
x(n)
H01(ej) 2
H120(ej) 2
H021(ej) 2
H11(ej) 2
H121(ej) 2
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
a) Kỹ thuật phân tích thời gian- tần số:
+ Mã hóa băng con và cấu trúc bộ lọc QMF:
• Cấu trúc bộ lọc QMF:
– Cấu trúc dạng cây đa phân giải: cho lượng bit đầu ra tối ưu
và phù thuộc vào sự phân bố phổ của tín hiệu.
H020(ej) 2
x(n)
H01(ej) 2
H120(ej) 2
H11(ej) 2
2.4- Mã hóa âm thanh cảm nhận
2.4.1- Kiến trúc chung của bộ mã hóa
b) Kỹ thuật phân tích tâm lý học:
+ Ngưỡng che:
SNR = SMR (Signal to Mask Ratio) + NMR (Noise to Mask Ratio)
dB
Masking tone
SNR
masking
threshold
SMR
minimum masking
NMR threshold
m-1 bit
m bit
m+1 bit
1 N 1 1 N 1
IMDCT : y n X k .cos n k
N k 0 N 2 2 2
2.4- Mã hóa âm thanh cảm nhận
2.4.4- Tiêu chuẩn MPEG 1
d) Chuyển đổi MDCT (Modified DCT)
1. Chồng các khung dài 2N.
b) Lượng tử hóa các hệ số MDCT sử dụng bộ lượng tử hóa
đều đúng bước (mid-tread) với bước lượng tử = 1.
c) Khôi phục x(n) qua việc thực hiện biến đổi MDCT ngược
T
các hệ số đã lượng tử hóa. Biết ma trận biến đổi ngược là A 8