Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 41

CÔNG NGHỆ THOẠI IP

BÀI 4
CÔNG NGHỆ XỬ LÝ THÔNG TIN
TRONG VOIP
Xử lý âm thanh trong VoIP
• Độ nhạy của tai người rất cao, tai người nhạy nhất ở
khoảng tần số 1KHz ~ 5KHz.
• Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và
áp dụng các giải thuật trong việc khôi phục âm thanh.
• Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và
nhiễu không mong muốn, mô hình không sai lệnh so với
giả định.
• Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý
tín hiệu số, ta phải đổi tín hiệu liên tục đó ra dạng một
chuỗi số bằng các lấy mẫu tín hiệu liên tục tuần hoàn
Hệ thống mã hóa âm thoại
• Tín hiệu âm thoại tương tự được số hóa bởi bộ một bộ
lọc chuẩn, bộ lấy mẫu (bộ chuyển đổi thời gian rời rạc),
và bộ chuyển tín hiệu tương tự sang tín hiệu số.
• Tín hiệu ngõ ra là tín hiệu âm thoại thời gian rời rạc, tín
hiệu này được xem là tín hiệu âm thoại số.
Mã hóa và giải mã âm thoại
• Mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc
độ bit nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một
chất lượng đặc thù.
• Các yêu cầu của một bộ mã hóa thoại:
• Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ
lệ thuận với băng thông cần cho truyền dữ liệu.
• Chất lượng thoại cao: tín hiệu âm thoại đã giải mã
phải có chất lượng có thể chấp nhận được đối với ứng
dụng cần đạt.
• Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp
• Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và
giải mã thoại,
Kiến trúc của bộ mã/giải mã âm thoại
Mô hình dự đoán tuyến tính
• Dự đoán tuyến tính (Linear prediction, viết tắt là LP) là một
phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại
hiện đại ngày nay. Ý tưởng là một mẫu thoại có thể được xấp
xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ.
• Trong một khung tín hiệu, các trọng số dùng để tính toán kết
hợp tuyến tính được tìm bằng cách tối thiểu hóa bình phương
trung bình lỗi dự đoán; các trọng số tổng hợp,
• Giải thuật dự đoán tuyến tính (LPC) là một trong những giải
thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt
động ở tần số thấp
• Dự đoán tuyến tính thực hiện ước đoán s[n] dựa vào M mẫu
trong quá khứ:
Yêu cầu xử lý tín hiệu thoại
• Trong mỗi khung, các thông số của mô hình được ước lượng
từ các mẫu thoại, các thông số bao gồm:
• Dạng: tín hiệu thuộc khung là thoại hay phi thoại
• Độ lợi: liên quan chủ yếu đến mức năng lượng của khung
• Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp
• Chu kỳ âm thanh: trong trường hợp đối với khung thoại,
là chiều dài thời gian giữa các xung kích thích liên tiếp
nhau.
• Thay vì truyền các xung PCM, các thông số của mô hình sẽ
được gửi đi. Giảm thiểu nhiễu và sự méo tín hiệu, các bít
truyền được cấp phát theo chỉ định ứng với từng thông số, và
tỉ số nén tối ưu có thể đạt được.
Mô hình LPC tổng hợp tiếng nói
Bộ tạo kích thích
 Tín hiệu kích thích là một mục từ của một
bảng mã rất lớn được phân bố một cách ngẫu
nhiên
 Bộ tạo kích thích sẽ cho ra dãy kích thích cấp
cho bộ lọc tổng hợp để tạo ra tiếng nói tái tạo
ở máy thu.
 Việc kích thích sẽ được tối ưu hoá bằng các
cực tiểu hoá sai lệch,các tính trọng số thụ cảm,
giữa tiếng nói gốc và tiếng nói tổng hợp.
Chuẩn nén G.729
• Chuẩn G.729 được đưa ra vào tháng 03/96 bởi ITU,
đây là chuẩn sử dụng phương pháp CS-ACELP
(Conjugate-Structure Algebraic-Excited Linear-
Prediction) để mã hóa tín hiệu âm thanh với tốc độ
8kbit/s.
• Chuẩn nén G.729 được thiết kế để thực thi với tín
hiệu số nhận được từ bộ lọc băng thông thoại đầu của
tín hiệu tương tự ở đầu vào, sau đó tiến hành lấy mẫu
ở tần số 8000 Hz và chuyển đổi các mẫu âm thanh
này thành PCM tuyến tính 16 bits để chuyển đến bộ
mã hóa ở đầu vào.
Cấu trúc Frame G.729

LSP pitch excit. gains


frame total 18 14 34 14

LSP
pitch
pitch excit. gains
subframe2 5 17 7 excit.
gains

pitch excit. gains


subframe1 9 17 7
G.729
• Tín hiệu đầu vào được chuyển lên bộ lọc chất lượng cao và được chia
tỷ lệ trong những khối trước khi xử lý. Tín hiệu tiền xử lý cung cấp
như là tín hiệu đầu vào để dùng cho tất cả những việc phân tích tiếp
theo.
• Việc phân tích dự đoán tuyến tính (Linear Prediction - LP) được làm
một lần trên một khung 10 ms để tiến hành tính toán hệ số lọc LP. Các
hệ số này được chuyển sang dạng quang phổ vạch dạng đôi (Line
Spectrum Pairs - LSP) và dạng lượng tử hóa sử dùng dự đoán hai giai
đoạn vector lượng tử (VQ) 18 bits.
• Sự kích hoạt tín hiệu được chọn bằng cách dùng một thủ tục tìm kiếm
phân tích tổng hợp, trong đó những lỗi giữa âm thanh nguồn và âm
thanh sau khi được tổng hợp lại giảm đến mức tối thiểu việc đo lường
trọng lượng không chính xác.
Công nghệ xử lý chất lượng cuộc gọi

• Dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất


trong các dịch vụ cung cấp cho khách hàng. Để đảm
bảo hỗ trợ tốt khách hàng nhằm đạt được lợi thế cạnh
tranh, các nhà khai thác di động cần hỗ trợ chất lượng
cuộc gọi tốt nhất.
• Việc áp dụng các công nghệ xử lý chất lượng cuộc
gọi tốt có khả năng nâng cao đáng kể chất lượng âm
thanh cuộc gọi
Chất lượng cuộc gọi trong VoIP
• Độ trễ (Delay/Latency)
• Jitter
• Echo (Tiếng vang)
• Packet Loss (Mất gói tin)
Độ trễ (Delay/Latency)
• Độ trễ trong VoIP là lượng thời gian cần cho âm thanh để
thoát khỏi miệng của người nói và đến tai của người
nghe.
• Ba loại trễ trong các mạng là: sự trễ truyền, trễ tuần tự, và
trễ xử lý.
• Sự trễ truyền là do độ dài một tín hiệu phải đi qua ánh
sáng trong sợi quang hoặc xung điện trong sợi đồng.
• Trể tuần tự là lượng thời gian thực sự cần để đặt một
bit hoặc byte vào một giao diện (interface).
• Trễ xử lý cũng được gọi là quá trình xác định nhiều
nguyên nhân khác nhau của sự chậm trễ (sự đóng gói
gói tin thực tế, nén, và chuyển mạch gói) và bị gây ra
bởi các thiết bị mà phía trước frame qua mạng.
Độ trễ trong VoIP
Fixed Delay Variable
Delay
Coder Delay G.729 (5 ms Look Ahead) 5 ms
Coder Delay G.729 (10 ms Per Frame) 20 ms
Packetization Delay Included in Coder Delay

Queuing Delay 64 kbps Trunk 6 ms


Serialization Delay 64 kbps Trunk 3 ms
Propagation Delay (Private Lines) 32 ms
Network Delay (For Example, Public Frame Relay Svc)

Dejitter Buffer 2-200 ms

Total - Assuming 50 ms Jitter Buffer 110 ms

• (ITU-T) G.114 khuyến khích thời gian trễ giữa 2 thiết bị đầu
cuối không được vượt quá 150 mili giây (ms) để đảm bảo chất
lượng tốt nhất của âm thanh.
Trễ xử lý
• Thiết bị chuyển tiếp frame qua mạng xử lý gây ra sự
chậm trễ. Xử lý sự chậm trễ có thể tác động đến các
mạng điện thoại truyền thống, nhưng sự chậm trễ này
là một vấn đề lớn hơn
• Trong các sản phẩm của Cisco IOS VoIP, việc xử lý
tín hiệu số (DSP) tạo ra một mẫu âm mỗi 10 ms khi
sử dụng G.729. Hai trong số các mẫu âm (cả hai với
10 ms của sự chậm trễ) sau đó được đặt trong một
gói. Các gói tin là chậm trễ, do đó, 20 ms.
• Một khởi tạo ban đầu trước 5 ms xảy ra khi sử dụng
G.729, tạo ra một sự chậm trễ ban đầu là 25 ms cho
frame Voice đầu tiên
Queuing Delay (Hàng đợi độ trễ)
• Khi các gói dữ liệu được tổ chức ở một hàng đợi bởi vì tắc
nghẽn trên một giao diện (interface) ra bên ngoài, kết quả là
xếp hàng chậm trễ.
• Xếp hàng chậm trễ xảy ra khi các gói tin được gửi ra nhiều
hơn so với giao diện có thể xử lý tại một khoảng thời gian
nhất định. Việc trì hoãn xếp hàng thực tế của hàng đợi đầu
ra là một nguyên nhân của sự chậm trễ.
• Chúng ta nên giữ yếu tố này để ít hơn 10 ms bất cứ khi nào
ta có thể bằng cách sử dụng bất kỳ phương pháp xếp hàng là
tối ưu cho mạng của mình.
Jitter
• jitter là sự biến đổi của thời gian đến các gói tin. Jitter là
một trong những vấn đề tồn tại trong chuyển gói dữ liệu
trên mạng.
• Khi một gói tin trong môi trường tiếng nói, người gửi dự
kiến sẽ truyền tải các gói dữ liệu đáng tin cậy tiếng nói
tại một khoảng thời thường xuyên (ví dụ, gửi một trong
những frame mỗi 20 ms).
• Những gói Voice có thể được trì hoãn trong suốt mạng
gói và không phải đến đó cùng một khoảng thời thường
xuyên tại các trạm tiếp nhận (ví dụ, họ có thể sẽ không
nhận được mỗi 20 ms; xem hình 7-2).
• Sự khác biệt giữa thời gian dự kiến và thời gian
thực sự nhận được là jitter.
Ví dụ Jitter
• Trong hình trên, ta
có thể thấy rằng số
lượng thời gian cần
cho gói A và B để
gửi và nhận bằng
nhau (D1 = D2). Gói
C gặp sự chậm trễ
trong mạng, tuy
nhiên, cũng được
nhận sau khi được
mong đợi.
Jitter
• Đây là lý do tại sao một bộ đệm jitter, cái mà che giấu
biến inter-arrival thể chậm, là cần thiết.
• Gói tin voice trong các mạng IP có gói biến khoảng
interarrival cao. Khuyến khích thực hành là để đếm số
lượng các gói tin rằng đến trễ và tạo ra một tỷ lệ của các
gói dữ liệu về số lượng các gói dữ liệu được xử lý thành
công.
• Có thể sử dụng tỷ lệ này để điều chỉnh bộ đệm jitter để
nhắm mục tiêu chọn một tỷ lệ, cho phép định trước gói
tin cuối.
• Điều này thích ứng của bộ đệm kích thước jitter là hiệu
quả trong việc đền bù cho sự chậm trễ.
Echo (Tiếng vang)
• Nghe tiếng nói trong máy nhận dùng loa trong khi nói
chuyện bằng VoIP rất phổ biến. Nghe lại tiếng nói của
mình trong loa với một độ trễ gây ảnh hưởng cuộc đàm
thoại.
• Echo có hai nhược điểm: Nó có thể lớn, và nó có thể
được dài. Các echo to hơn và dài hơn trở nên khó chịu
hơn.
• Mạng lưới điện thoại ở những nơi trên thế giới mà tiếng
nói tương tự được sử dụng chủ yếu được sử dụng loại
bỏ echo, trong đó loại bỏ echo bởi suất trở kháng trên
một mạch.
• Trong một số mạng lưới truyền thống, echo thường gây ra do
không phù hợp trong trở kháng từ bốn dây mạng chuyển mạch
chuyển đổi để hai vòng dây cục bộ
• Echo, trong các tiêu chuẩn PSTN, được quy định với việc loại
bỏ echo và kiểm soát chặt chẽ trên một trở kháng không phù
hợp tại các điểm phản xạ phổ biến,
• Trong gói dữ liệu trên mạng ngày nay, có thể xây dựng
cancellers echo thành codec tỷ lệ bit thấp và vận hành chúng
trên mỗi hệ thống.
• Trong việc triển khai một số nhà sản xuất, hủy bỏ echo được
thực hiện trong phần mềm; thực hành này làm giảm mạnh lợi
ích của việc hủy bỏ echo.
Echo cancellers
• Người sử dụng A nói chuyện với người sử dụng B. Các lời nói
của người dùng A đến B được gọi là G. Khi G gặp một trở
kháng không phù hợp hoặc echo khác gây ra môi trường, nó bị
trả lại cho người sử dụng của người dùng A. A có thể sau đó
nghe những sự chậm trễ vài giây sau khi người dùng A thực sự
nói.
• Để loại bỏ tiếng vang từ dòng này, người sử dụng điện thoại là
nói chuyện qua (router A) giữ một hình ảnh ngược của bài
phát biểu của một người sử dụng trong một khoảng thời gian
nhất định. Điều này được gọi là nghịch đảo nói (G). Điều này
cho canceller echo lắng nghe những âm thanh đến từ người sử
dụng B và trừ các G để loại bỏ bất kỳ echo.
Echo
cancellers

• Cancellers Echo được giới hạn bởi thời gian tổng cộng đợi cho bài phát biểu
phản ánh được nhận, một hiện tượng được gọi là đuôi echo. Cisco có đuôi
echo cấu hình của 16, 24, 32, 64, và 128 ms.
• Điều quan trọng để cấu hình hủy bỏ echo khi khởi tạo cài đặt ban đầu thiết
bị VoIP. Nếu không cấu hình đủ hủy bỏ echo, người gọi sẽ nghe vang trong
điện thoại. Nếu cấu hình hủy bỏ quá nhiều echo, nó sẽ kéo dài lâu hơn cho
canceller echo để hội tụ và loại bỏ echo.
Packet Loss (Mất gói tin)
• Khi đặt giọng nói trên các mạng dữ liệu, điều quan trọng
để xây dựng một mạng thành công là có thể vận chuyển
bằng giọng nói một cách đáng tin cậy và kịp thời. Ngoài
ra, nó là hữu ích khi có thể sử dụng một cơ chế để làm cho
tiếng nói phần nào khả năng chống mất gói định kỳ.
• Nếu một gói bằng giọng nói không nhận được khi dự kiến
(thời gian dự kiến là biến), nó được giả định là bị mất và
các gói dữ liệu cuối cùng nhận được là replayed. Bởi vì
các gói dữ liệu bị mất chỉ 20 ms của lời nói, người nghe
trung bình không nhận thấy sự khác biệt về chất lượng
giọng nói.
Mất gói tin

• Gói 1, 2, và 3 đến được đích, nhưng gói 4 là mất một


nơi nào đó trong truyền dẫn. Các trạm tiếp nhận chờ
một thời gian (mỗi bộ đệm jitter của nó) và sau đó chạy
một chiến lược che giấu.
• Điều che giấu là chạy lại gói cuối cùng nhận được (trong
trường hợp này, gói 3), vì vậy nghe không nghe thấy những
khoảng trống của sự im lặng.
• Bởi vì mất chỉ 20 ms, người nghe nhiều khả năng
không nghe thấy sự khác biệt.
Packet Loss (Mất gói tin)

• Nếu liên tiếp các gói dữ liệu bị mất, các chiến


lược che giấu là chỉ chạy một lần cho đến khi
gói khác là nhận được
• Với các chiến lược che giấu của G.729, G.729
chịu được đến khoảng bình quân năm phần
trăm mất gói giữa một cuộc gọi.
Phát hiện hoạt động giọng nói
Voice Activity Detection
• Trong cuộc hội thoại bằng giọng nói bình thường, có người nói và
người khác lắng nghe. Số mạng ngày nay chứa một bi-directional,
64.000 bit / giây (bps) kênh, bất kể là ai nói.
• Điều này có nghĩa rằng trong một chuyện bình thường, ít nhất 50 phần
trăm của tổng số băng thông là lãng phí. Số lượng băng thông lãng phí
trên thực tế có thể cao hơn nhiều nếu tham gia một mẫu thống kê của
các vi phạm và tạm dừng ở các mô hình phát biểu của một người bình
thường.
• Khi sử dụng VoIP, có thể sử dụng từ "lãng phí" băng thông cho các
mục đích khác khi hoạt động phát hiện giọng nói (VAD) được kích
hoạt.
Voice
Activity
Detection

• VAD hoạt động bằng cách phát hiện tầm quan trọng của bài
phát biểu bằng decibels (dB) và quyết định khi nào sẽ cắt bỏ
những tiếng nói không bị đóng khung.
Chất lượng dịch vụ -
Quality of Service (QoS)
• Chất lượng dịch vụ (QoS) là tập hợp các chỉ tiêu đặc
trưng cho yêu cầu của từng loại lưu lượng cụ thể trên
mạng bao gồm: độ trễ, jitter, tỷ lệ mất gói...
• Các chỉ tiêu chất lượng dịch vụ liên quan đến lượng
băng thông dành cho mạng.
• Để tối thiểu thời gian trễ của các gói thoại so với các
gói của các dịch vụ khác, các gói thoại được truyền
bởi giao thức UDP (User Datagram Protocol). Giao
thức UDP không cung cấp cơ chế truyền lại do vậy
gói thoại sẽ được xử lý nhanh hơn.
QoS cho các ứng dụng VoIP
• QoS có thể giúp giải quyết các vấn đề như mất mát gói tin,
sự mất ổn định, và quản lý độ trể .
• Một trong số những vấn đề QoS không thể giải quyết được
là độ trể truyền sóng, độ trễ mã hóa và giải mã, độ trễ lấy
mẫu, và độ trễ số hóa.
• Ứng dụng VoIP là một ứng dụng quan trọng và đòi hỏi phải
lập kế hoạch để đảm bảo rằng các dịch vụ thích hợp mức độ
thỏa thuận (SLA) có thể được đáp ứng.
Các công cụ hỗ trợ cho QoS
• Dùng giao thức tối giản: Compressed Real-Time
Transport Protocol (cRTP)
• Quản lý băng thông
• Sử dụng các công cụ hàng đợi (Queuing)
Những giới hạn về băng thông
• Mối quan tâm đầu tiên khi thiết kế một mạng VoIP
đó là những giới hạn băng thông .
• Tùy lọai Codec nào sử dụng và số lượng mẫu âm
thanh trên một gói tin, mà lượng băng thông trên
mỗi cuộc gọi có thể tăng một cách đáng kể. Để giải
thích việc kích thước gói tin và lượng băng thông
tiêu thụ , xem bảng bên dưới:
Sử dụng băng thông
Bandwidth Consumed
with cRTP (2-Byte
Codec Bandwidth Consumed Header) Sample Latency
G.729 w/ one 10-ms 40 kbps 9.6 kbps 15 ms
sample/frame
G.729 w/ four 10-ms 16 kbps 8.4 kbps 45 ms
samples/frame
G.729 w/ two 10-ms 24 kbps 11.2 kbps 25 ms
samples/frame
G.711 w/ one 10-ms 112 kbps 81.6 kbps 10 ms
sample/frame
G.711 w/ two 10-ms 96 kbps 80.8 kbps 20 ms
samples/frame
Giao thức cRTP
Compressed Real Time Transport Protocol
• Để giảm một lượng lớn tỉ lệ băng thông tiêu thụ
trong liên kết WAN Point-to-point bởi một cuộc
thoại G.729, có thể sử dụng giao thức cRTP.
• cRTP cho phép nén 40 byte header IP/RTP/UDP
đến 2-4 byte trên hầu hết thời gian
Gói tin trong giao thức cRTP
Figure 8-2. RTP Header Compression
Giao thức cRTP
• Với cRTP, lượng truy cập trên mỗi cuộc gọi VoIP được giảm
từ 24 kbps còn 11.2 kbps. Đây là một cải tiến lớn cho liên
kết dải thông thấp.
• Ví dụ, một liên kết 56 kbps bây giờ có thể thưc hiện 4 cuộc
thoại VoIP G.729 tại mỗi 11.2 kbps, nếu không có cRTP, chỉ
có 2 cuộc thoại G.729 tại 24 kbps được sử dụng.
• Để tránh việc tiêu thụ không cần thiết những băng thông có
sẵn, cRTP được sử dụng vào một liên kết như một liên kết
cơ sở.
Giao thức cRTP
• Kỹ thuật nén này làm giảm header IP/RTP/UDP
đến 2 byte khi chế độ checksums UDP không được
sử dụng, hoặc 4 byte khi checksums UDP sử dụng.
• cRTP sử dụng một số kỹ thuật tương tự như nén
Header TCP. Trong nén Header TCP, yếu tố giảm
tốc độ xử lý dữ liệu xảy ra bởi vì một nữa số byte
trong Header IP và TCP vẫn không đổi trong quá
trình kêt nối.
HẾT BÀI 4

You might also like