Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 8

NLP hoạt động như thế nào?

Chuyển đổi lời nói của con người viết hoặc nói thành dạng máy tính có thể chấp nhận được
và dễ hiểu là các kỹ thuật xử lý ngôn ngữ tự nhiên được coi là hiệu quả và có giá trị cao đối
với các doanh nghiệp.
Các ứng dụng kinh doanh NLP ngày nay được sử dụng rất phổ biến dưới các hình thức khác
nhau và một số ví dụ NLP là trình kiểm tra chính tả, tìm kiếm trực tuyến, người dịch, trợ lý
giọng nói, bộ lọc thư rác, tự động sửa lỗi và nhiều hơn nữa.
Có các nhiệm vụ được nghiên cứu xử lý ngôn ngữ tự nhiên khác nhau có các ứng dụng trực
tiếp trong thế giới thực trong khi một số được sử dụng làm nhiệm vụ con để giúp giải quyết
các nhiệm vụ lớn hơn. Dưới đây là danh sách các nhiệm vụ phổ biến nhất sau đây trong NLP.
Nhiệm vụ xử lý ngôn ngữ tự nhiên:
Cú pháp – đây là cái chịu trách nhiệm về cấu trúc ngữ pháp của văn bản. Cú pháp liên quan
đến việc xác định ý nghĩa của một từ trong từ điển, còn được gọi là lemmatization và phân
đoạn hình thái hoặc việc tách các từ thành các hình cầu trong khi phân loại chúng. Bên cạnh
đó, phân đoạn từ, gắn thẻ một phần của bài phát biểu, phân tích cú pháp, phá án, khai
thác thuật ngữ, và nhét đầy là tất cả các phần của nhiệm vụ cú pháp.
Ngữ nghĩa các nhiệm vụ sử dụng logic và ngôn ngữ học để xác định và thiết lập ý nghĩa của
văn bản. Điều này liên quan đến ngữ nghĩa từ vựng mà các ý nghĩa tính toán của một từ
trong ngữ cảnh được xác định. Bên cạnh đó, nó cũng bao gồm dịch máy để dịch ngôn ngữ
này sang ngôn ngữ khác, công nhận thực thể được đặt tên để xác định bản đồ đối tượng với
tên riêng, nhận dạng ký tự quang học để chuyển đổi các văn bản in bằng hình ảnh thành các
định dạng có thể đọc được trong máy tính, câu trả lời câu hỏi, phân tích tình cảm để đánh
giá cảm xúc, sự phân biệt từ ngữ để xác định nhiều nghĩa có thể có của một từ cụ thể, khai
thác mối quan hệ, nhận ra sự lôi kéo bằng văn bản, và phân đoạn chủ đề.

Đàm luận – chịu trách nhiệm về việc thông qua định nghĩa ngôn ngữ của các từ được sử
dụng trong các câu dài hơn. Điêu nay bao gôm phân tích diễn ngôn mà xác định vai trò của
các câu trong các dạng văn bản lớn hơn bằng cách tham chiếu các câu khác nhau được sử
dụng. Nó cũng liên quan đến độ phân giải lõi, xác định các từ liên quan đến các đối tượng
giống nhau trong văn bản và tóm tắt tự động.
Phát biểu – Nhiệm vụ này đặc biệt liên quan đến ngôn ngữ được sử dụng trong các định
dạng âm thanh. Điều này bao gồm cả hai nhận dạng giọng nói và chuyển văn bản thành
giọng nói các quy trình trong đó lời nói được sử dụng được chuyển đổi thành định dạng văn
bản. Nó cũng sử dụng phân đoạn giọng nói trong đó các từ dễ hiểu được phân tách thành các
chuỗi.
Mục tiêu
Mục tiêu của NLP như đã nêu ở trên là "để thực hiện việc xử lý ngôn ngữ
giống như con người". Sự lựa chọn của từ 'xử lý' là rất cố ý, và không nên được
thay thế bằng 'hiểu biết'. Cho dù lĩnh vực NLP được ban đầu được gọi là Hiểu biết
ngôn ngữ tự nhiên (Natural Language Understanding - NLU) trong những ngày đầu
của AI, đó là cũng đã đồng ý vào ngày hôm nay rằng dù mục tiêu của NLP là đúng
NLU, mục tiêu đó đã không được thực hiện. Một hệ thống NLU đầy đủ có thể:
a) Diễn giải một văn bản đầu vào.
b) Dịch các văn bản sang một ngôn ngữ khác.
c) Trả lời câu hỏi về nội dung của văn bản.
d) Rút ra kết luận từ văn bản.
Trong khi NLP hướng đến hoàn thành mục tiêu a), b), c). Một thực tế rằng
NLP không thể rút ra kết luận từ văn bản, vì thế NLU vẫn là mục tiêu của NLP.
Nhiều người có mục tiêu thực tế hơn cho NLP, liên quan đến các ứng dụng
cụ thể mà nó được sử dụng. Ví dụ, một hệ thống dựa trên NLP IR có mục tiêu là
cung cấp thông tin chính xác hơn, đầy đủ hơn để đáp ứng với một người sử dụng
thông tin thực tế mà họ cần. Mục tiêu hiện tại của NLP là diễn giải cho ý nghĩa và
mục đích của người truy vấn dùng, có thể thể hiện bằng ngôn ngữ hàng ngày và như
thế là họ đang trò chuyện với một thư viện tham khảo. Ngoài ra, nội dung của tài
liệu được tìm kiếm sẽ trình bày trên tất cả các cấp độ có nghĩa để phù hợp với nhu
cầu và phản hồi
Nguồn gốc

Là một ngành hiện đại nhất, qua thời gian NLP thực sự được pha trộn và đến

ngày nay thì nó càng mạnh mẽ hơn và cung cấp thông tin cho từng ngành học. Từ
khóa quan trọng trong NLP là: Ngôn ngữ học (Linguistics) – tập trung vào mô hình,

cấu trúc ngôn ngữ và khám phá ngôn ngữ phổ quát – thực tế lĩnh vực NLP ban đầu

được gọi là Ngôn ngữ học tính toán (Computational Linguistics); Khoa học máy

tính (Computer Science) – liên quan đến việc phát triển trình bày dữ liệu và xử lý

hiệu quả với cấu trúc; Nhận thức tâm lý học (Cognitive Psychology) – nhìn cách sử

dụng như là một cánh cửa vào quá trình nhận thức của con người, và mục tiêu của

mô hình sử dụng ngôn ngữ một cách tâm lý.

3 – MỨC ĐỘ CỦA XỬ LÝ NGÔN NGỮ TỰ NHIÊN


Các phương pháp giải thích tốt nhất để trình bày những gì thực sự xảy ra

trong một hệ thống xử lý ngôn ngữ tự nhiên là bằng phương tiện của phương pháp

tiếp cận "cấp độ của ngôn ngữ”. Điều này cũng được gọi là mô hình đồng bộ của

ngôn ngữ và được phân biệt với các mô hình tuần tự trước đó, trong đó đưa ra giả

thuyết rằng mức xử lý ngôn ngữ của con người theo nhau một cách chặt chẽ theo

trình tự. Nghiên cứu cho thấy rằng Psycholinguistic xử lý ngôn ngữ là năng động

hơn, như mức độ có thể tương tác trong một loạt các đơn đặt hàng. Ví dụ, những

kiến thức thực tế rằng các tài liệu bạn đang đọc là về sinh học sẽ được sử dụng khi

một từ cụ thể mà có nhiều giác quan có thể (hoặc ý nghĩa) đang gặp phải, và từ đó

sẽ được hiểu là có ý thức sinh học. Cần thiết, các mô tả sau đây của các cấp sẽ được

trình bày tuần tự. Điểm mấu chốt ở đây là ý nghĩa được chuyển tải qua mỗi cấp và

của ngôn ngữ và rằng vì con người đã được chứng minh để sử dụng tất cả các cấp

của ngôn ngữ để đạt được sự hiểu biết, nhiều khả năng một hệ thống NLP là mức độ

nhiều hơn các ngôn ngữ nó sẽ sử dụng.

- Phát âm học (Phonology)

- Hình thái học (Morphology)

- Ngôn từ học (Lexical)

- Cú pháp học (Syntactic)

- Ngữ nghĩa (Semantic)

- Đàm luận (Discourse)

- Giáo dục học (Pragmatic)

Tóm lại, Hệ thống NLP hiện có xu hướng thực hiện các mô-đun để thực hiện

chủ yếu là các cấp thấp hơn của xử lý. Điều này là vì nhiều lý do. Đầu tiên, các ứng
dụng có thể không yêu cầu giải thích ở cấp cao hơn. Thứ hai, các cấp thấp hơn đã

được nghiên cứu và thực hiện triệt để hơn. Thứ ba, các cấp thấp hơn đáp ứng với

các đơn vị nhỏ hơn của phân tích, ví dụ: hình vị, từ, và câu, đó là quy tắc chi phối,

so với mức cao hơn xử lý ngôn ngữ mà đối phó với các văn bản và kiến thức thế

giới, và đó chỉ là quy luật quản lý. Như sẽ thấy trong phần sau về cách tiếp cận, các

phương pháp thống kê đã, cho đến nay, được xác nhận trên các cấp thấp hơn của

phân tích, trong khi các phương pháp tiếp cận mang tính biểu tượng đã bị xử lý tất

cả các cấp, mặc dù vẫn có một vài hệ thống làm việc trong đó kết hợp các cấp độ

cao hơn

4 – HƯỚNG TIẾP CẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN


Phương pháp xử lý ngôn ngữ tự nhiên xếp thành bốn loại: biểu tượng, thống

kê, kết nối, và hybrid. Phương pháp tiếp cận mang tính biểu tượng và thống kê đã

cùng tồn tại từ những ngày đầu của lĩnh vực này. NLP kết nối đầu tiên xuất hiện

trong năm 1960. Trong một thời gian dài, phương pháp tiếp cận mang tính biểu

tượng thống trị lĩnh vực này. Trong những năm 1980, các phương pháp thống kê lấy

lại được phổ biến như là một kết quả của sự sẵn có của tài nguyên tính toán quan

trọng và sự cần thiết để thích ứng rộng rãi với bối cảnh trong thế giới thực. Phương

pháp tiếp cận Connectionist cũng phục hồi từ những lời chỉ trích trước đó bằng cách

chứng minh các tiện ích của mạng lưới thần kinh (neural network) trong NLP. Phần

này xem xét mỗi phương pháp về cơ sở của chúng, kỹ thuật điển hình, sự khác biệt

trong tiến trình và hệ thống các khía cạnh, và sự mạnh mẽ của chúng, tính linh hoạt,

phù hợp cho các nhiệm vụ khác nhau.

Phương pháp tiếp cận biểu tượng (Symbolic approach)

Phương pháp tiếp cận mang tính biểu tượng thực hiện phân tích sâu sắc về

hiện tượng ngôn ngữ và được dựa trên thể hiện rõ ràng của ngôn ngữ thật thông qua

các chương trình biểu diễn tri thức được hiểu rõ và các thuật toán liên quan. Trong

thực tế, các mô tả về mức độ phân tích ngôn ngữ trong phần trước được đưa ra từ

một quan điểm mang tính biểu tượng. Các nguồn chính của bằng chứng trong hệ

thống biểu tượng xuất phát từ các quy tắc và lexicons con người phát triển.

Một ví dụ tốt về cách tiếp cận mang tính biểu tượng được nhìn thấy trong

logic hoặc các hệ thống dựa trên luật lệ. Trong các hệ thống logic-based, các cấu
trúc mang tính biểu tượng thường là dưới hình thức của các mệnh đề logic. Thao tác

của cấu trúc như vậy được xác định bởi các thủ tục suy luận. Các hệ thống dựa trên

luật lệ thường bao gồm một tập hợp các quy tắc, một động cơ suy diễn, và một

không gian làm việc hoặc bộ nhớ làm việc. Tri thức được biểu diễn như là sự kiện

hoặc quy định trong các quy tắc cơ bản. Động cơ suy diễn nhiều lần chọn một quy

tắc mà điều kiện được thỏa và thực thi các quy tắc.

Một ví dụ về phương pháp tiếp cận mang tính biểu tượng là các mạng ngữ

nghĩa. Lần đầu tiên bởi Quillian đề xuất mô hình bộ nhớ kết hợp trong tâm lý học,

mạng lưới ngữ nghĩa kiến thức hiện tại thông qua một tập hợp các nút đại diện cho

các đối tượng hoặc các khái niệm và các liên kết có nhãn đại diện cho mối quan hệ

giữa các nút. Các mô hình kết nối phản ánh tổ chức ngữ nghĩa, đó là; đánh giá cao

những khái niệm có liên quan được kết nối trực tiếp trong khi khái niệm liên quan

vừa phải hoặc yếu được liên kết thông qua các khái niệm can thiệp. Mạng lưới ngữ

nghĩa được sử dụng rộng rãi để đại diện cho kiến thức cấu trúc của hầu hết các mô

hình tượng trưng.

Phương pháp tiếp cận mang tính biểu tượng đã được sử dụng trong một vài

thập kỷ trong một loạt các lĩnh vực nghiên cứu và ứng dụng như: khai thác thông

tin, phân loại văn bản, giải quyết sự mơ hồ, và sắp xếp từ vựng. Kỹ thuật điển hình

bao gồm: giải thích dựa trên học tập, học tập dựa trên nguyên tắc, lập trình logic

quy nạp, cây quyết định, phân cụm khái niệm và thuật toán K lân cận gần.

Tiếp cận thống kê (Statistical Approach)

Phương pháp thống kê sử dụng các kỹ thuật toán học khác nhau và thường sử

dụng số lượng văn bản lớn để phát triển mô hình tổng quát gần đúng của các hiện

tượng ngôn ngữ dựa trên các ví dụ thực tế được cung cấp bởi các corpora văn bản

mà không cần thêm kiến thức ngôn ngữ hoặc thế giới đáng kể. Ngược lại với

phương pháp tiếp cận mang tính biểu tượng, phương pháp thống kê sử dụng dữ liệu

quan sát được như là nguồn của rõ ràng.

Một mô hình thống kê thường được sử dụng là mô hình Markov ẩn (HMM)

kế thừa từ cộng đồng phát biểu. HMM là một máy tự động hữu hạn trạng thái mà có

một tập các trạng thái có xác suất gắn liền với quá trình chuyển đổi giữa các quốc
gia.

Phương pháp thống kê đã thường được sử dụng trong các nhiệm vụ như nhận

dạng giọng nói, sắp xếp từ vựng, phân tích cú pháp, những cụm từ dịch máy thống

kê, việc học ngữ pháp thống kê, ...

Hướng tiếp cận kết nối (Connectionist Approach)

Tương tự như các phương pháp thống kê, phương pháp tiếp cận

connectionist cũng phát triển mô hình tổng quát từ các ví dụ về các hiện tượng ngôn

ngữ. Những gì hạn chế của connectionism từ phương pháp thống kê khác là mô

hình kết hợp connectionist học thống kê với các lý thuyết khác nhau của đại diện -

do đó các cơ quan đại diện connectionist cho phép chuyển đổi, suy luận, và thao tác

của các công thức logic. Ngoài ra, trong các hệ thống kết nối, mô hình ngôn ngữ là

khó khăn hơn để quan sát do thực tế rằng kiến trúc connectionist ít ràng buộc hơn so

với những thống kê.

Nói chung, một mô hình connectionist là một mạng lưới kết nối với nhau

đơn giản đơn vị xử lý với kiến thức được lưu trữ trong các trọng số của các kết nối

giữa các đơn vị. Tương tác giữa các đơn vị địa phương có thể dẫn đến hành vi năng

động toàn cầu, lần lượt, dẫn đến các phép tính toán.

Một số mô hình connectionist được gọi là mô hình localist, giả sử rằng mỗi

đơn vị đại diện cho một khái niệm cụ thể. Ví dụ, một trong những đơn vị có thể đại

diện cho các khái niệm "động vật có vú", trong khi một đơn vị khác có thể đại diện

cho các khái niệm "cá voi". Quan hệ giữa các khái niệm được mã hóa bởi trọng

lượng của các kết nối giữa các khái niệm. Kiến thức trong mô hình như vậy được

lan truyền trên mạng, và các kết nối giữa các đơn vị phản ánh mối quan hệ cấu trúc

của chúng. Mô hình Localist là khá tương tự với các mạng ngữ nghĩa, nhưng các

liên kết giữa các đơn vị thường không được dán nhãn là chúng đang có trong lưới

ngữ nghĩa. Chúng thực hiện tốt ở các công việc như từ vựng - ý nghĩa định hướng,

hệ ngôn ngữ, suy luận và hạn chế.

Tóm lại, biểu tượng, thống kê, và cách tiếp cận connectionist đã thể hiện đặc

điểm khác nhau, do đó một số vấn đề có thể được giải quyết tốt hơn với một cách

tiếp cận lồng trong khi các vấn đề khác bằng cách khác. Trong một số trường hợp,

đối với một số nhiệm vụ cụ thể, một cách tiếp cận có thể chứng minh đầy đủ, trong
khi ở các trường hợp khác, các nhiệm vụ có thể nhận được rất phức tạp và nó có thể

không được có thể lựa chọn một cách tiếp cận tốt nhất duy nhất. Ngoài ra, như

Klavans và Resnik chỉ ra, không có những điều như một phương pháp "hoàn toàn

thống kê". Mỗi lần sử dụng số liệu thống kê dựa trên một mô hình mang tính biểu

tượng và thống kê một mình là không đủ để NLP. Hướng tới mục tiêu này, các

phương pháp thống kê là không trái ngược với phương pháp tiếp cận mang tính biểu

tượng. Trong thực tế, chúng là khá bổ sung với nhau. Kết quả là, các nhà nghiên

cứu đã bắt đầu phát triển các kỹ thuật lai mà sử dụng các thế mạnh của từng phương

pháp trong một nỗ lực để giải quyết vấn đề NLP hiệu quả hơn và một cách linh hoạt

Hơn.

Giao tiếp giữa người và máy dựa trên NLP


Ngày nay, nhiều hệ thống/chương trình máy tính có khả năng giao tiếp với con người thông qua
ngôn ngữ tự nhiên, hoặc dưới dạng văn bản, hoặc dưới dạng tiếng nói. Các ứng dụng tiêu biểu giao
tiếp dưới dạng văn bản có thể kể đến như tìm kiếm thông tin, chatbot, dịch máy. Các ứng dụng giao
tiếp qua tiếng nói như trợ lý ảo, tìm kiếm bằng giọng nói (điện thoại, tivi), và điều khiển qua giọng
nói (điện thoại, các thiết bị gia đình).

Hình 2 mô tả kiến trúc tiêu biểu của một chương trình máy tính giao tiếp với con người qua tiếng
nói. Chương trình sẽ bao gồm các bước cơ bản sau:

1. Nhận dạng tiếng nói: ở bước này, máy tính sẽ nhận dạng yêu cầu của người dùng ở
dạng tiếng nói và chuyển yêu cầu này về dạng văn bản.
2. Xử lý yêu cầu: máy tính sẽ phân tích yêu cầu ở dạng văn bản, xử lý, đưa ra câu trả lời
sử dụng các kỹ thuật trong xử lý văn bản.
3. Tổng hợp tiếng nói: ở bước này, câu trả lời sẽ được chuyển từ dạng văn bản sang
tiếng nói và gửi tới người dùng.
Hình 2: Kiến trúc của một chương trình máy tính giao tiếp với con người thông qua tiếng nói

You might also like