Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

ĐẠI HỌC QUỐC GIA TP.

HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TIỂU LUẬN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN

ĐÁNH GIÁ ĐỘ KHÓ VĂN BẢN


BẰNG MACHINE LEARNING

GVHD: PGS. TS. ĐINH ĐIỀN


GVTG: NCS. LƯƠNG AN VINH
HV: NGUYỄN THANH HUY MSHV: 20C29024.
LÊ NGUYỄN THANH THẢO MSHV: 20C29036.

Tp. Hồ Chí Minh - 2021


Mục lục

1 Giới Thiệu Chung 2


1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Các giai đoạn nghiên cứu độ khó văn bản . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1 Thời kỳ cổ điển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2 Thời kỳ hiện đại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Thời kỳ đánh giá độ khó văn bản bằng máy tính . . . . . . . . . . . . . . . . 7
1.4 Tiêu chuẩn đánh giá độ khó văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Ứng dụng của đánh giá độ khó văn bản tự động . . . . . . . . . . . . . . . . . . . . . 8

2 Các đặc trưng đánh giá độ khó văn bản tự động 12


2.1 Đặc trưng về từ vựng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Đặc trưng về cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Đặc trưng về diễn ngôn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Các tính năng ổn định đọc sử dụng mô hình ngôn ngữ thống kê . . . . . . . . . . . . 13
2.5 Đặc trưng dựa trên từ loại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Machine Learning 14
3.1 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Linear Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Support Vector Machine 17


4.1 Maximal Margin Classifer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Support Vector Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3.1 Phân loại ranh giới quyết định phi tuyến . . . . . . . . . . . . . . . . . . . . 19
4.3.2 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.4 Áp dụng SVM đánh giá độ khó văn bản . . . . . . . . . . . . . . . . . . . . . . . . . 22

1
Chương 1

Giới Thiệu Chung

1.1 Đặt vấn đề


Khả năng đọc hiểu là một trong những phương pháp luận quan trọng nhất để học tập và tiếp
thu kiến thức và trích xuất thông tin trên thế giới. Mức độ khó đọc của văn bản là tiêu chí quan
trọng để chọn đọc tài liệu, với văn bản với độ khó cao sẽ tạo thành khó khăn trong việc tiếp thu
thông tin. Do đó, vấn đề được đặt ra là làm thế nào để tìm được mức độ đọc phù hợp là yếu tố
quan trọng đối với người đọc, đặc biệt là đối với tài liệu nước ngoài. Hiện nay, khối lượng dữ liệu
và thông tin trên internet được tăng lên theo cấp số nhân, việc lựa chọn thông tin quan tâm theo
độ khó thích hợp cũng trở thành thách thức.

1.2 Định nghĩa


Độ khó văn bản là một thông số quan trọng đã được triển khai trên các công cụ tìm kiếm. Độ
khó văn bản giúp công cụ có thể truy xuất văn bản cấp độ thích hợp trên các website. Độ khó văn
bản là điều làm cho một số văn bản trở nên dễ đọc hơn các văn bản khác.

George Klare (1963) định nghĩa độ khó văn bản là việc đọc hiểu một cách dễ dàng do văn phong
viết. Định nghĩa này tập trung vào văn phong tách biệt với các đặc trưng khác như nội dung, bố
cục và tính mạch lạc. Tương tự, Gretchen Hargis và cộng sự tại IBM (1998) tuyên bố rằng độ khó
văn bản – việc dễ dàng đọc hiểu từ và câu – là một thuộc tính rõ ràng.

G. Harry McLaughlin là người tạo ra công thức đo độ khó văn bản SMOG (1969) định nghĩa độ
khó văn bản là mức độ của một nhóm độc giả nhất định cảm thấy dễ dàng trong việc đọc hiểu văn
bản. Đinh nghĩa này nhấn mạnh sự tương tác giữa một lớp độc giả và văn bản, cụ thể là kỹ năng
đọc, kiến thức trước đây và động lực. Theo Edgar Dale và Janne Chall (1949), định nghĩa của độ
khó văn bản được xem là toàn diện nhất: “Tổng (bao gồm tương tác) các yếu tố khi các văn bản
ảnh hưởng đến sự thành công của một nhóm độc giả. Sự thành công là mức độ độc giả hiểu, đọc
văn bản với tốc độ tối ưu và thấy thu hút.”

1.3 Các giai đoạn nghiên cứu độ khó văn bản


1.3.1 Thời kỳ cổ điển
Mục đích đầu tiên của các nghiên cứu về độ khó cổ điển là phát triển các phương pháp thực
tế phù hợp với khả năng đọc hiểu của học sinh và người lớn. Các nghiên cứu bắt đầu vào cuối thế
kỷ 19 và kết thúc vào những năm 1940, phổ biến là công trình về công thức Flesch và Dale-Chall.

2
Trong thời kỳ này, các nhà xuất bản, nhà giáo cục và giáo viên đã quan tâm đến việc phát hiện ra
các phương pháp thưc tế để tìm ra văn bản phù hợp với độc giả, người lớn và học sinh. Các công
thức đánh giá độ khó văn bản ở thời kỳ này dựa trên hồi quy tuyến tính và hầu hết sử dụng hai
chỉ số từ vựng và cú pháp.

Công thức đo độ khó văn bản đầu tiên được phát triển bởi Bertha A. Lively và Sidney L.
Pressey (1923) tập trung vào ba đặc trưng: số lượng từ khác nhau, tỷ lệ không có trong danh sách
Thorndike, xếp hạng tần số xuất hiện của các từ trong danh sách. Họ thử nghiệm trên 11 cuốn sách
giáo khoa với độ khó khác nhau và nhận thấy rằng chỉ số trung bình là chỉ số tốt nhất về từ vựng
của các văn bản này: tần số càng cao, từ vựng càng dễ hiểu, tần số càng thấp, từ vựng càng khó
hiểu. Nghiên cứu này của Lively-Pressey có ảnh hưởng lớn đến các nghiên cứu về độ khó văn bản
sau đó.

Đánh giá công thức ban đầu để dự đoán khả năng đọc dựa vào các đặc trưng bề mặt, chẳng
hạn như độ dài từ trung bình hoặc độ dài câu trung bình.

Công thức độ dễ đọc của Rodoft Flesch (1949)

Công thức đánh giá độ dễ đọc của Flesch là một cách tiếp cận đơn giản để đánh giá trình độ
của người đọc. Đó cũng là một trong số ít thước đo chính xác mà được sử dụng mà không cần xem
xét quá kỹ lưỡng. Công thức này được sử dụng tốt nhất trên các văn bản giáo dục. Kể từ đó, công
thức của Flesch đã trở thành một tiêu chuẩn được sử dụng bởi nhiều Cơ quan Chính phủ Hoa Kỳ,
bao gồm Bộ Quốc phòng Hoa Kỳ.

RE = 206.835 − (1.015 × ASL) − (84.6 × ASW )

Trong đó:
ˆ RE: Độ dễ đọc

ˆ ASL: Độ dài câu trung bình (nghĩa là số từ chia cho số câu

ˆ ASW: Số âm tiết trung bình trên mỗi từ (số âm tiết chia cho số từ)
Kết quả - RE - nằm trong khoảng từ 0 đến 100, điểm càng cao nghĩa là văn bản càng dễ đọc.
ˆ Điểm từ 90,0 đến 100,0 được xem là dễ hiểu với học sinh lớp 5.

ˆ Điểm từ 60,0 đến 70,0 được xem là dễ hiểu với học sinh lớp 8 và lớp 9.

ˆ Điểm từ 0,0 đến 30,0 được xem là dễ hiểu với sinh viên tốt nghiệp đại học.
Công thức đánh giá độ khó văn bản của Dale-Chall (1948)

Dale và Chall đã tạo ra công thức Dale-Chall với mục đích cải thiện công thức đánh giá độ dễ
đọc của Flesch. Công thức của Dale-Chall không giống với những công thức khác sử dụng độ dài
của từ để đánh giá độ khó của từ mà sử dụng tần số xuất hiện của từ khó. Công thức tính toán cấp
độ khó dựa trên dộ dài và số từ khó. những từ khó này là những từ không xuất hiện trong danh
sách các từ thông dụng được thiết kế cho hầu hết cho học sinh lớp 4.

RS = 0, 1579 × P DW + 0, 0496 × ASL


Trong đó:
ˆ RS: Điểm đọc thô của một người có thể hiểu văn bản từ lớp 3 trở xuống.

3
ˆ PDW: Phần trăm các từ khó

ˆ ASL: Độ dài câu trung bình tính bằng từ

Nếu (PDW) lớn hơn 5%, thì:

ˆ Điểm đã điều chỉnh = Điểm thô + 3,6365, nếu không thì điểm được điều chỉnh = Điểm thô.

ˆ Điểm đã Điều chỉnh = Điểm đọc của một người đọc có thể hiểu văn bản của bạn ở lớp 4 trở
lên.

Dale và Chall cũng đã công bố bảng điểm sau để điều chỉnh trình đô các cấp cao hơn.

Điểm Trình độ
4,9 trở xuống Lớp 4 trở xuống
5,0 - 5,9 Lớp 5 - 6
6,0 - 6,9 Lớp 7 - 8
7,0 - 7,9 Lớp 9 - 10
8,0 - 8,9 Lớp 11 - 12
9,0 - 9,9 Lớp 13 - 15
10 trở lên Lớp 16 trở lên (Đại học)

Bảng 1.1: Bảng độ khó văn bản Dale-Chall

1.3.2 Thời kỳ hiện đại


Các phát triển mới bắt đầu vào năm 1950 và đã được củng cố và nghiên cứu sâu hơn. Các nhà
nghiên cứu đã tìm ra các phương pháp hoạt động của công thức đo độ khó và cách cải thiện các
công thức đó.

Trong những năm 1950, một số phát triển khác đã thúc đẩy nghiên cứu về độ khó văn bản.
Những thách thức của Spunil và công nghệ mới đòi hỏi trình độ đọc hiểu cao hơn của người lao
động. Các ngành công nghiệp cũ đòi hỏi ít nhân viên có trình độ cao, trong khi đó công nghệ mới
đòi hỏi người lao động có trình độ cao hơn.

Các nghiên cứu mới về độ khó văn bản tập trung vào các đặc trưng sau:

ˆ Cộng đồng các học giả: Các bản tóm tắt định kỳ về tiến trình nghiên cứu về độ khó văn bản
(Klare 1952, 1963, 1974-75, 1984, Chall 1958, và Chall và Dale 1995) đề cập đến một cộng
đồng các học giả. Họ đã quan tâm đến cách thức và nguyên nhân các công thức hoạt động,
cách cải thiện, và đưa ra quan điểm về không chỉ về đọc và còn về viết.

ˆ Kiểm tra cloze: được giới thiệu bởi Wilson Taylor (1953), đưa ra phương pháp giúp các nhà
nghiên cứu kiểm tra thuộc tính của văn bản và độc giả ở độ chính xác và chi tiết hơn. Bài
kiểm tra Cloze là một bài tập, bài kiểm tra hoặc bài đánh giá bao gồm một phần văn bản có
các từ nhất định bị loại bỏ, trong đó người kiểm tra yêu cầu người tham gia điền khuyết các
từ bị thiếu. Các bài kiểm tra cloze yêu cầu người tham gia hiểu ngữ cảnh và từ vựng để xác
định các từ chính xác thuộc các đoạn văn bị xóa.

ˆ Khả năng đọc, trình độ có sẵn, mối quan tâm và động lực: các nghiên cứu xem xét cách thức
mà biến người đọc ảnh hưởng đến độ khó văn bản

4
ˆ Hiệu quả đọc: Trong khi các nghiên cứu khác xem xét tác dộng của độ khó văn bản đến sự
đọc hiểu, những nghiên cứu này đã xem xét tác động lên tốc độ và sự kiên nhẫn khi đọc văn
bản

ˆ Đo lường nội dung: sự ảnh hưởng của tâm lý học nhận thức và ngôn ngữ học những năm 1980
đã thúc đẩy các nghiên cứu về nhận thức và cấu trúc câu trong văn bản và sử dụng để dự
đoán độ khó văn bản

ˆ Đồng nhất văn bản: lý thuyết nhận thức và ngôn ngữ đã thúc đẩy mối quan tâm đến đánh
giá định tính và chủ quan độ khó văn bản. Với sự đào tạo, đồng nhất văn bản có hiệu quả
trong việc đánh giá các đặc trưng của văn bản mà không đánh giá được bằng các công thức
đo độ khó văn bản

ˆ Sản xuất và chuyển đổi văn bản: một số nghiên cứu đã kiểm tra hiệu quả của việc sử dụng
các biến công thức để soạn thảo và sửa đổi văn bản. Khi độc giả tham gia vào việc sản xuất
nội dung, cách tổ chức và sự mạch lạc, sử dụng các biến dễ đọc có thể hiệu quả trong việc sản
xuât và chuyển đổi văn bản dddessn một cấp độ khác.

ˆ Công thức mới đo độ khó văn bản: các nghiên cứu sâu hơn về độ khó văn bẳn của John
Bormuth và những nhà nghiên cứu khác đã xem xét độ tin cậy của một loạt các biến văn bản
có thể đánh giá. Sự ra đời của kiểm tra cloze đã thúc đẩy sử phát triển các tiêu chí mới, công
thức mới, và các phiên bản có can thiệp của công nghệ.

ˆ Sự khác biệt về công thức: Sự khác biệt giữa các kết quả của những công thức khác nhau và
cách người viết áp dụng công thức.

Một số công thức đánh giá độ khó văn bản thời kỳ này.

Công thức đo độ khó văn bản FOG của Gunning

Công thức độ khó văn bản chỉ số Gunning Fog, hay gọi đơn giản là Chỉ số FOG, do nhà xuất
bản sách giáo khoa người Mỹ, Robert Gunning.

Các bước thực hiện để áp dụng công thức:

Bước 1: Chọn một đoạn văn bản mẫu gồm ít nhất 100 từ và đếm chính xác số từ và số câu.

Bước 2: Chia tổng số từ trong đoạn văn cho số câu để tính được độ dài câu trung bình (ASL).

Bước 3: Đếm số lượng các từ có ba âm tiết trở lên không phải là (i) danh từ riêng, (ii) tổ hợp
các từ ghép hoặc các từ có dấu gạch nối, hoặc (iii) các động từ có hai âm tiết thêm hậu tố -es hoặc -ed.

Bước 4: Chia số này cho số các từ trong đoạn văn mẫu. Ví dụ: 25 từ dài chia cho 100 từ sẽ cho
25% từ khó (PHW).

Bước 5: Thêm ASL từ Bước 2 và PHW từ Bước 4.

Bước 6: Nhân kết quả với 0,4.

Công thức toán học là:


Grade = 0, 4 × (ASL + P HW )
Trong đó:

5
ˆ Grade: Cấp độ
ˆ ASL: Độ dài câu trung bình (nghĩa là số từ chia cho số câu)
ˆ PHW: Phần trăm từ khó
Điểm lý tưởng cho độ khó văn bản với chỉ số FOG là 7 hoặc 8. Điểm trên 12 nhận định là văn
bản quá khó với hầu hết người đọc.

Công thức độ khó văn bản đồ thị Fry

Hình 1.1: Đồ thị Fry ước tính trình độ đọc hiểu

Edward Fry đã phát triển một trong những công thức đánh giá độ khó văn bản có mức độ phổ
biến hơn - Công thức độ khó văn bản đồ thị Fry. Bài kiểm tra dựa trên đồ thị này xác định khả
năng đọc thông qua trình độ trung học; công thức này được thẩm định với các tài liệu từ các trường
tiểu học và trung học cũng như với kết quả của các công thức dễ đọc khác.

Các bước thực hiện để áp dụng công thức:

Bước 1: Chọn ngẫu nhiên 3 mẫu văn bản 100 từ (loại bỏ các chữ số).

Bước 2: Đếm số câu trong cả ba đoạn văn 100 từ, ước tính phân số của câu cuối cùng chính xác
đến 1/10.

Bước 3: Đếm số lượng âm tiết trong cả ba đoạn văn 100 từ. Sau đó, lập bảng như sau:

Bước 4: Nhập biểu đồ với độ dài câu trung bình và số lượng âm tiết. Vẽ dấu chấm nơi hai đường
giao nhau. Khu vực các dấu chấm biểu thị cấp độ khó gần đúng của nội dung.

6
Số câu Số âm tiết
Đoạn văn thứ nhất
Đoạn văn thứ hai
Đoạn văn thứ ba
Tổng
Trung bình

Bảng 1.2: Bảng tính Fry

Bước 5: Nếu quan sát có nhiều sự thay đổi, bạn có thể đưa nhiều số mẫu hơn vào giá trị trung
bình.

Công thức đánh giá độ khó văn bản SMOG

Công thức đánh giá độ khó SMOG, được phát triển bởi G Harry McLaughlin, ước tính số năm
học mà một người cần để hiểu một đoạn văn bản. McLaughlin đã tạo ra công thức này như một sự
cải tiến so với các công thức dễ đọc khác.

Các ước thực hiện khi áp dụng công thức:

Bước 1: Lấy toàn bộ văn bản cần kiểm tra.

Bước 2: Đếm 10 câu liên tiếp ở gần đầu, 10 ở giữa và 10 ở cuối để có tổng số 30 câu.

Bước 3: Đếm số từ có ba âm tiết trở lên trong mỗi nhóm câu, ngay cả khi một từ xuất hiện
nhiều hơn một lần.

Bước 4: Tính căn bậc hai của số ở bước 3 và làm tròn nó đến gần 10. Thêm 3 vào công thức để
biết cấp độ SMOG, tức là cấp độ đọc mà một người phải đạt được nếu anh ta muốn hiểu đầy đủ
văn bản được đánh giá.

Cấp độ SMOG = 3 + Căn bậc hai của số từ có nhiều âm tiết

McLaughlin đã xác thực công thức của mình dựa trên các đoạn McCall-Crabbs, sử dụng tiêu chí
điểm đúng 100%, trong khi hầu hết các bài kiểm tra công thức đều cho khả năng hiểu khoảng 50%
-75%.

1.3.3 Thời kỳ đánh giá độ khó văn bản bằng máy tính
Ban đầu, đánh giá độ khó văn bản tự động đi kèm với việc đơn giản hóa các thực tế ngôn ngữ.
Daoust và cộng sự (1996) sử dụng các công cụ NLP, ví dụ như P.O.S. – tagger, để tham số hóa các
đặc trưng của văn bản. Foltz và cộng sự (1998) đánh giá tính mạch lạc của văn bản dựa trên Latent
Semantic Analysis (LSA). Si và Callan (2001) định nghĩa độ khó văn bản được như một bài toán
phân loại và áp dụng các phương pháp máy học hiện đại nhất để nghiên cứu.

Các xu hướng chính của đánh giá độ khó văn bản bằng máy tính: Collins-Thompson và Callan
(2005) rút ra và cải thiện từ mô hình ngôn ngữ của Si và Callan (2001), nâng cao nó và kết hợp
trong bộ phân loại Naı̈ve Bayes. Schwarm và Ostendorf (2005) triển khai các biến cú pháp, dựa trên
trên luật phân tích cú pháp và kết hợp tất cả các đặc trưng vào mô hình Support Vector Machine

7
(SVM), tuy nhiên các đặc điểm về cú pháp không đóng góp nhiều vào mô hình này. Heilman và
cộng sự (2007) nghiên cứu sự đóng góp của đặc trưng cú pháp và chứng minh rằng các đặc trưng
này quan trọng.

Trong khi các nghiên cứu đầu tiên tập trung vào từ vựng và cú pháp, thì cũng các công trình
nghiên cứu khác cũng xem xét các biến ngữ nghĩa, diễn ngôn hoặc nhận thức. Crossley và cộng sự,
(2007) thiết kế công thức khả năng đọc hỗ trợ NLP đầu tiên kết hợp các chiều từ vựng, cú pháp và
liên kết, dựa trên Coh-Metrix. Tuy nhiên, yếu tố liên kết không có ý nghĩa trong mô hình. Pitler
và Nenkova (2008) công bố một mô hình đánh giá độ khó văn bản và công nhận có sự ảnh hưởng
của một số yếu tố nhận thức đến mô hình này. Tanaka-Ishii và cộng sự (2010) xem xét độ khó văn
bản là một bài toán sắp xếp. Vajjala và Mekers (2012) giới thiệu các biến SLA trong mô hình và
có độ chính xác phân loại rất cao trên Weekly Reader (93,3%).

1.4 Tiêu chuẩn đánh giá độ khó văn bản


Một số tiêu chuẩn đặt ra và được dùng để đánh giá độ khó văn bản:
ˆ Đánh giá của chuyên gia: sự đồng ý của một số chuyên gia ngôn ngữ học về cấp độ khó của
văn bản

ˆ Văn bản từ sách giáo khoa: biến thể của tiêu chuẩn đánh giá của chuyên gia, dựa vào các văn
bản được các chuyên gia cung cấp

ˆ Kiểm tra khả năng đọc hiểu: khả năng đọc hiểu văn bản đánh giá thông qua các câu hỏi

ˆ Kiểm tra cloze: tương tự kiểm tra khả năng đọc hiểu văn bản

ˆ Tốc độ đọc: đánh giá tốc độ đọc, thông thường sẽ kết hợp với câu hỏi để kiểm tra khả năng
đọc hiểu

ˆ Ghi nhớ: tỷ lệ của một văn bản mà người đọc có thể nhớ lại sau khi đọc hiểu

ˆ Đánh giá không phải của chuyên gia: van Oosten và Hoste (2011) trình bày với số lượng N
(N>10) người không phải chuyên gia có thể chú thích đáng tin cậy

1.5 Ứng dụng của đánh giá độ khó văn bản tự động
Sự dễ đọc cho người học ngôn ngữ thứ hai

Người đọc ngôn ngữ thứ nhất (L1) có kỹ năng và nhu cầu có sự khác biệt so với người đọc ngôn
ngữ thứ hai (L2). Sự khác biệt chính giữa trình đọc L1 và L2 là quá trình và quy trình để tiếp thu
ngôn ngữ. Đối với những người học L1, việc tiếp thu bắt đầu từ giai đoạn sơ sinh và các cấu trúc
ngữ pháp cơ bản thường được học sau bốn tuổi (Bates, 2003) - trước khi bắt đầu đi học chính thức.
Người học L2 thường ở độ tuổi đại học trở lên, có trình độ và có thể nắm bắt các ý tưởng và lập
luận phức tạp.

Trong khi hầu hết các nghiên cứu phát triển các công cụ đánh giá độ khó văn bản đều tập trung
vào người đọc L1, một số nghiên cứu gần đây đã phát triển các phương pháp đánh giá khả năng
đọc tự động nhằm giải thích các khía cạnh đặc biệt này của người học ngôn ngữ thứ hai. Một trong
những nghiên cứu đầu tiên để phát triển công cụ đánh giá độ khó văn bản dựa trên máy học cho
người đọc L2 là của Heilman và cộng sự (2007), các nhà nghiên cứu cho rằng các đặc điểm ngữ
pháp có thể đóng một vai trò quan trọng hơn trong việc dự đoán khả năng đọc của người học ngôn

8
ngữ thứ hai đối với người học ngôn ngữ thứ nhất.

Hỗ trợ ngôn ngữ quốc tế

Trước đây, phần lớn các nghiên cứu đánh giá độ khó văn bản truyền thống tập trung vào tiếng
Anh, các ngôn ngữ khác được áp dụng từ các kết quả trước đó. Ví dụ, sau khi công thức Flesch về
tính độ dễ đọc của văn bản tiếng Anh (Flesch, 1948) được xuất bản, một loạt các bản chuyển thể
cho ngôn ngữ châu Âu và các ngôn ngữ khác theo sau: Kandel và Moles (1958) xuất bản một bản
chuyển thể cho tiếng Pháp, và ngay sau đó, José Fernández Huerta (1959) đã công bố một công thức
tương ứng cho tiếng Tây Ban Nha vẫn được sử dụng rộng rãi. Zakaluk và Samuel (1988) công bố
một danh sách đầy đủ các công thức dễ đọc truyền thống cho nhiều loại ngôn ngữ. Gần đây, nhiều
nghiên cứu mới được tiến hành trên các ngôn ngữ khác ngoài tiếng Anh. Đặc biệt, các ngôn ngữ
châu Á và châu Âu đã sớm trở thành nguồn gốc và thích nghi với các phương pháp tính toán cải tiến.

Hỗ trợ độc giả khuyết tật

Ngoài những người bản ngữ và người học ngôn ngữ thứ hai từ các ngôn ngữ khác nhau, các biện
pháp khả năng đọc đang bắt đầu được điều chỉnh dành cho những người bị khuyết tật và người
mắc hội chứng khó đọc tiếp cận với ngôn ngữ. Abedi và cộng sự (2003) đã kiểm tra các độ khó văn
bản cổ điển đối với các bài kiểm tra đọc hiểu nhằm xác định những đặc điểm ngữ pháp và nhận
thức phân tích độ khó đọc đối với học sinh khuyết tật. Tuy nhiên, các nhà nghiên cứu nhận thấy
rằng một số đặc điểm văn bản hoặc đặc trưng về hình ảnh có khả năng phân biệt cao giữa học sinh
khuyết tật và không khuyết tật, chẳng hạn như việc sử dụng các từ dài (lớn hơn bảy chữ cái), sự
thay đổi về phông chữ, độ dài từ và khoảng cách, và giảm hình ảnh gây mất tập trung là những
yếu tố quan trọng trong khả năng đọc đối với nhóm người khuyết tật. Các nghiên cứu liên quan
được thực hiện bởi Rello và cộng sự (2013) đối với nhóm độc giả mắc hội chứng khó đọc: khả năng
hiểu không phụ thuộc vào khả năng đọc, độ dài của từ là rất quan trọng, ví dụ những từ ngắn hơn
sẽ tăng khả năng đọc hiểu văn bản. Ngoài việc đánh giá, các kỹ thuật đơn giản hóa và tóm tắt văn
bản hứa hẹn là phương pháp tiếp cận để cải thiện khả năng đọc cho những người học mắc chứng
khó đọc (Nandhini và Balasundaram, 2011).

Hệ thống giáo dục có máy tính hỗ trợ

Nhiều phương pháp giáo dục yêu cầu khả năng tìm kiếm thông tin ở mức độ khó phù hợp, do
đó, công cụ đánh gia độ khó văn bản tự động có thể đóng một vai trò quan trọng trong các cơ sở
giáo dục, đặc biệt là đối với các hệ thống dạy kèm học ngoại ngữ và đọc hiểu.

Một ví dụ của hệ thống như vậy là trợ giảng từ vựng REAP được phát triển tại Viện Công nghệ
Ngôn ngữ của Đại học Carnegie Mellon. REAP sử dụng công nghệ lọc và xếp hạng độ phức tạp để
cung cấp hướng dẫn được cá nhân hóa bằng tiếng Anh, tiếng Pháp và tiếng Bồ Đào Nha. REAP
đã giúp hàng trăm người học ngôn ngữ thứ hai đồng thời cung cấp một nền tảng thử nghiệm hấp
dẫn để nghiên cứu về những yếu tố giúp học sinh học từ vựng hiệu quả nhất.

Dự đoán độ khó văn bản từ các trang web

Tính chất đa dạng, hiện đại của nội dung từ các trang web, từ nhận xét trên blog, các trang
kết quả của công cụ tìm kiếm đến quảng cáo trực tuyến, dẫn đến những thách thức mới đối với dự
đoán khả năng đọc. Ngoài văn bản có cấu trúc hiện đại, các trang web cũng có thể chứa hình ảnh,
video, âm thanh, bảng và các thành phần có cấu trúc phong phú khác có thể ảnh hưởng đến khả

9
năng đọc của văn bản. Khả năng đọc hiểu văn bản của người dùng dường như là một khía cạnh
quan trọng đánh giá giá trị của văn bản đó.

Một số công cụ đánh giá độ khó văn bản tự động

AMesure cung cấp khả năng phân tích trực tiếp một văn bản hành chính và đánh giá mức độ
khó đọc của nó trên thang gồm năm cấp.

Hình 1.2: AMesure

Lexile Analyzer trong Lexile và Quantile Hub cho phép các nhà giáo dục nhập văn bản để nhận
phạm vi Lexile và xem các đặc điểm của văn bản cùng với các từ khó và định nghĩa của chúng.
Lexile Analyzer đo độ phức tạp của văn bản bằng cách phân tích các đặc điểm như độ dài câu và
tần suất từ. Nói chung, các câu dài và các từ có tần suất xuất hiện thấp dẫn đến các phương pháp
Lexile cao hơn; các câu ngắn và các từ có tần suất cao dẫn đến các phương pháp Lexile thấp hơn.

10
Hình 1.3: Lexile® Text Analyzer

11
Chương 2

Các đặc trưng đánh giá độ khó văn


bản tự động

2.1 Đặc trưng về từ vựng


Một văn bản hoàn chỉnh thường bao gồm nhiều từ. Các đặc điểm từ vựng là những đặc điểm
phản ánh độ khó văn bản ở một mức độ nào. Ví dụ, nếu một văn bản chứa nhiều từ khiến người
đọc khó nắm bắt được nghĩa của văn bản, thì khả năng đọc hiểu của văn bản sẽ được xếp hạng
thấp đối với người đọc. Thông thường, các tính năng từ vựng được sử dụng trong chỉ số độ khó văn
bản bao gồm loại từ và độ dài.

Các nghiên cứu để có được những hiểu biết sâu sắc từ việc học ngôn ngữ thứ hai trong nghiên
cứu của Sowmya Vajjala và Detmar Meurers (2012) đánh giá các đặc điểm từ vựng bao gồm sự đa
dạng từ vựng và biến thể từ vựng, tổng cộng gồm 16 đặc điểm. Độ chính xác của quy trình phân
loại của họ có thể đạt trung bình lên đến 68,1%. Sau khi thêm ba đặc điểm từ vựng khác thậm chí
có thể lên đến 84,1%. Bên cạnh các đặc điểm từ vựng bề mặt được trích xuất từ một văn bản nhất
định, tần suất xuất hiện của từ trong một văn bản cũng được sử dụng phổ biến để đo độ khó của
bài đọc. Càng nhiều từ thông dụng, càng dễ hiểu và khả năng đọc càng cao.

2.2 Đặc trưng về cú pháp


Sự phức tạp về cú pháp là một yếu tố rõ ràng ảnh hưởng đến khả năng đọc của văn bản. Cấu
trúc cú pháp trong một văn bản nhất định có thể ảnh hưởng đến quá trình đọc hiểu. Một cấu trúc
cú pháp phức tạp thường có thể gây ra hiệu quả đọc hiểu thấp. Nếu các câu không tuân theo các
quy tắc ngữ pháp chuẩn (các câu không đúng ngữ pháp), những câu này có thể có chỉ số về khả
năng đọc hiểu thấp. Các đặc điểm cú pháp phổ biến được sử dụng trong chỉ số khả năng đọc hiểu
bao gồm chiều cao cây phân tích cú pháp trung bình, số lượng danh từ, động từ, cụm giới từ trung
bình trên mỗi câu, số mệnh đề phụ trung bình trên mỗi câu. Ngoài ra, tỷ lệ phân tích cú pháp
không đầy đủ trong một văn bản cũng có thể được sử dụng như một tính năng. Các phân tích
cú pháp này được thực hiện bằng cách sử dụng công cụ phân tích cú pháp nông của Sundance và
English Slot Grammar (ESG). Thông thường, việc tập trung vào nhiều cụm từ hoặc mệnh đề có
thể làm tăng độ khó hiểu của câu. Trong số các đặc điểm cú pháp này, các cụm danh từ và động
từ là những đặc điểm quan trọng trong việc dự đoán cho đánh giá độ khó văn bản.

12
2.3 Đặc trưng về diễn ngôn
Lijun Feng và cộng sự (2010) đã triển khai bốn loại tính năng diễn ngôn: tính năng mật độ thực
thể, tính năng chuỗi từ vựng, tính năng tham chiếu cốt lõi và tính năng lưới thực thể. Các thực
thể tạo thành các thành phần cơ bản của các khái niệm và mệnh đề, là cơ sở của các quá trình
diễn ngôn ở cấp độ cao hơn. Số lượng thực thể trong văn bản liên quan đến trí nhớ của độc giả. Do
đó, các tính năng mật độ thực thể có liên quan đến khả năng đọc văn bản. Các tính năng chuỗi từ
vựng được sử dụng để đánh giá mối quan hệ ngữ nghĩa giữa các thực thể. Các thực thể và các định
nghĩa tham chiếu tham chiếu cùng một người hoặc đối tượng thành một chuỗi đồng tham chiếu.
Trong tất cả các tính năng diễn ngôn, các tính năng mật độ thực thể rất được khuyến khích để đạt
được kết quả và dự đoán tốt hơn về độ khó văn bản.

2.4 Các tính năng ổn định đọc sử dụng mô hình ngôn ngữ thống

Các mô hình ngôn ngữ thống kê (LM) được sử dụng rộng rãi trong các thước đo khả năng đọc
để nắm bắt tính đều của ngôn ngữ tự nhiên. Các mô hình này về cơ bản dự đoán xác suất mà một
chuỗi từ hoặc chuỗi từ loại cụ thể sẽ xảy ra. Các phương pháp này có thể được sử dụng để nắm bắt
thông tin nội dung liên quan đến độ khó của văn bản. Mô hình thống kê được sử dụng phổ biến
nhất là mô hình n-gram giả định rằng chuỗi từ là một (n-1) thứ tự của quá trình Markov.

2.5 Đặc trưng dựa trên từ loại


Các đặc điểm ngữ pháp dựa trên từ loại đã được chứng minh là hữu ích trong việc dự đoán khả
năng đọc trong nghiên cứu của Heil man và cộng sự (2007), Leroy và cộng sự (2008). Năm loại từ
(danh từ, động từ, tính từ, trạng từ và giới từ) và hai loại lớn (từ nội dung, từ chức năng), nội
dung từ bao gồm danh từ, động từ, chữ số, tính từ và trạng từ; các loại từ kết nối là các từ chức
năng. Từ loại của mỗi từ có được từ việc kiểm tra nút dựa trên đầu ra của phương pháp phân tích
cú pháp Charniak, trong đó mỗi nút bao gồm một từ và từ loại đã được chú thích.

13
Chương 3

Machine Learning

Một phương pháp khác để đánh giá độ khó của văn bản là ứng dụng machine learning vào việc
đánh giá. Bắt đầu bằng việc có những bộ dữ liệu đã được phân loại độ khó (dễ, trung bình, khó)
hoặc được chấm điểm (1 đến 10), ta có thể xem xét độ phức tạp thông qua ứng dụng máy học.
Việc xây dựng mô hình chủ yếu có hai hướng, bao gồm là bài toán phân loại văn bản thành các
cấp độ, hoặc bài toán hồi quy mức độ khó thành thang điểm. Sau đó dựa trên dữ liệu testing hoặc
validation để đánh giá mô hình có hiệu quả hay không.
ˆ Bài toán phân tích hồi quy là tìm cách xác định các biến độc lập ảnh hưởng thế nào đến biến
phụ thuộc (ở đây là độ khó văn bản). Nói một cách đơn giản, ta đi tìm một phương trình toán
học để thể hiện độ khó văn bản dựa trên các biến này. Phân tích hồi quy sẽ tìm ra một công
thức để chấm điểm độ khó văn bản. Tuy nhiên, một thuật toán hồi quy là hồi quy logistic
cũng có thể được ứng dụng trong bài toán phân loại.
ˆ Bài toán phân loại trong máy học là đưa ra quyết định quan trắc này thuộc về loại này dựa
trên đặc tính của nó.
Giới nghiên cứu đánh giá các phương pháp máy học ngày nay thu được nhiều triển vọng, có mức
độ chính xác cao hơn các phương pháp cổ điển. Trong ứng dụng máy học vào đánh giá độ khó văn
bản cũng có nhiều cách tiếp cận trọng bài toán phân loại, bao gồm Decision Tree, Naive Bayes,
Support Vector Machine, Hồi quy logistic, Linear Discriminant Analysis, Random Forests, Boosting
hay thậm chí Neural Network. Một nghiên cứu sơ bộ cho thấy SVM và LDA cho kết quả tốt nhất.

3.1 Logistic Regression


Mô hình hồi quy logistic dùng để tính xác suất tỷ lệ Y có bao nhiêu khả năng thuộc vào một
phân loại nào đó. Mô hình hồi quy logistic thường để thể hiện ở dạng:
eβ0 +β1 X
p(X) =
1 + eβ0 +β1 X

Các giá trị β0 và β1 là các giá trị cần ước lượng của mộ hình dựa trên dữ liệu training. Ở đây,
phương pháp thường được dùng để ước lượng là maximum likelihood. Mô hình trên có thể được
thêm vào nhiều tham số X khác.

Để mở rộng mô hình hồi quy logistics cho trường hợp phân loại nhiều hơn hai lớp, ví dụ như
có 3 loại là a, b, c ta có thể đặt mô hình gồm P r(Y = a|X) và P r(Y = b|X), với phân loại còn lại
là P r(Y = c|X) = 1 − P r(Y = a|X) − P r(Y = b|X). Tuy nhiên thực tế người ta không thường
dùng theo phương pháp này. Một trong những lý do là có dùng phương pháp Discriminant Analysis
(phân tích biệt thức) để phân loại nhiều lớp.

14
3.2 Linear Discriminant Analysis
Hồi quy logistic sử dụng trực tiếp mô hình P r(Y = k|X = x) cho trường hợp có 2 lớp. Trong
thuật ngữ thống kê tức là ta mô hình sự phân phối có điều kiện của Y với những dự đoán X. Ta
xem xét một phương pháp thay thế và ít trực tiếp hơn để tính toán các khả năng này. Trong đó, ta
mô hình phân phối của bộ dự báo X riêng biệt với từng phân loại Y , rồi sử dụng thuyết Bayes để
đưa chúng vào ước lượng cho P r(Y = k|X = x). Khi những phân phối này được giả định là chuẩn,
mô hình này trở nên tương tự hồi quy logic. Lý do ta dùng mô hình này thay vì hồi quy logic là:

ˆ Khi những lớp khác biệt rõ rệt với nhau, những ước lượng tham số cho mô hình hồi quy logic
lại không còn ổn định, nhưng phân tích biệt thức tuyến tính không gặp vấn đề này.

ˆ Nếu mẫu nhỏ và phân phối của bộ ước lượng X gần chuẩn cho mỗi lớp, mô hình biệt thức
tuyến tính lại ổn định hơn.

ˆ Mô hình phân tích biệt thức tuyến tính phổ biến hơn khi phân loại nhiều hơn hai lớp.

Giả sử ta muốn thực hiện phân loại một quan trắc thành một trong K lớp với K tối thiểu là 2.
Nói cách khác, kết quả định tính của biến Y sẽ nhận K giá trị phân biệt và không liên tục. Gọi giá
trị là tỉ lệ tiên nghiệm (hay tỉ lệ một quan trắc có thể thuộc lớp k). Đặt hàm là hàm mật độ của
X cho mỗi quan trắc từ lớp k nào đó. Nói cách khác, hàm f này cho giá trị lớn nếu một quan trắc
X thuộc lớp k có bộ giá trị X gần bằng x, và hàm f nhỏ nếu quan trắc ít có khả năng là x. Theo
định lý Bayes ta có thể thể hiện là:

πk fk (x)
P r(Y = k|X = x) = PK
l=1 πl fl (x)

Ta có thể dùng dạng rút gọn sau: pk (X) = P r(Y = k|X). Theo đó, thay vì trực tiếp tính toán
pk (X), ta có thể đưa vào ước lượng của πk và fk (x) vào hàm P r trên. Nói chung, nếu như ta có
mẫu ngẫu nhiên Y từ bộ mẫu, ta dễ dàng ước lượng πk bằng cách chia tổng các quan trắc ở bộ
training vào các lớp k. Tuy nhiên, ta nên sử dụng một công thức đơn giản hơn để xác định fk (x)
bằng cách xem pk (X) là một xác suất hậu nghiệm để X = x thuộc về lớp k nào đó. Ta có thể dự
đoán bằng cách tạo ra một phân loại gần giống như công thức Bayes.
1 1
fk (x) = √ exp(− 2 (x − µk )2 )
2πσk 2σk
1
πk √2πσ exp(− 2σ1 2 (x − µk )2 )
k k
pk (x) = PK
√ 1 1 2
l=1 πl 2πσ exp(− 2σ 2 (x − µk ) )
k k

µk µ2k
δk (x) = x − + log(πk )
σ2 2σ 2
µ21 − µ22 µ 1 − µ2
x= =
2(µ1 − µ2 ) 2
1 X
µ̂k = xi
nk
i:yi =k

K
1 X X
σ2 = (xi − µ̂k )2
n−K
k=1 i:yi =k
nk
π̂k =
n

15
µ̂k µ̂2k
δ̂k (x) = x − + log(π̂k )
σ̂ 2 2σ̂ 2

Hàm phân loại LDA được biến đổi về dạng phương trình bậc một của x. Do đó đây cũng là lý
do mô hình này được gọi là tuyến tính. Để cài đặt LDA, ta ước lượng các giá trị πk , fk (x), σ 2 rồi
tìm ra được ranh giới quyết định.

Hình 3.1: Hàm phân loại LDA. Trái: Mật độ phân phối chuẩn một chiều của hai nhóm. Đường đứt
nét là biên phân chia Bayes. Phải: Các quan trắc được thể hiện lên histogram. Đường đứt nét là
biên phân chia Bayes. Đường liền nét là đường phân chia LDA được ước lượng từ dữ liệu training.
Nguồn: An Introduction to Statistical Learning with Applications in R.

Sau khi có ranh giới phân loại, ta xếp loại các quan trắc dựa vào vị trí của quan trắc so với
ranh giới này. Như trong hình mình hoạ, tất cả các điểm nằm bên trái ranh giới màu đen là thuộc
lớp xanh lá. Ngược lại nếu nằm bên phải thì thuộc phân loại hồng.

Tuy nhiên ta cần chú ý, phân loại LDA thu được kết quả từ giả định rằng quan trắc trong mỗi
lớp tuân theo phân phối chuẩn với một bộ vector giá trị trung bình và một phương sai chung, kết
hợp với ước lượng cho chúng trong phân loại Bayes.

16
Chương 4

Support Vector Machine

Support Vector Machine (máy vector hỗ trợ) là một phương pháp phân loại được phát triển
trong ngành khoa học máy tính vào những năm 90 và từ đó ngày càng phổ biến. Nó là một sự khái
quát hoá của một công cụ phân loại đơn giản và trực quan là maximal margin classifier (phân loại
cực đại biên). Từ maximal margin classifier đã được cải tiến thành support vector classifier (phân
loại vector hỗ trợ), từ đây phát triển hơn nữa thành SVM để thích nghi với các ranh giới phân loại
phi tuyến tính.

4.1 Maximal Margin Classifer

Hình 4.1: Mặt siêu phẳng trong không gian p chiều. Hyperplane 1 + 2X1 + 3X2 = 0. Vùng màu
xanh là tập hợp các điểm thoả phương trình 1 + 2X1 + 3X2 > 0, và vùng màu tím là tập hợp các
điểm thoả 1 + 2X1 + 3X2 < 0. Nguồn: An Introduction to Statistical Learning with Applications in
R.

Trong một không gian p chiều, mặt siêu phẳng (hyperplane) là không gian phẳng con với chiều
p − 1. Ta có thể phân loại một tập dữ liệu bằng cách tìm một hyperplane để phân tách hai loại với
nhau. Như hình minh hoạ, hyperplane với phương trình 1 + 2X1 + 3X2 = 0 chia thành hai vùng
xanh và tím riêng biệt. Do đó, với các bộ dữ liệu X nào đó, ta có thể tìm ra một hyperplane để
phân loại bộ dữ liệu này. Dựa trên hyperplane này, ta có thể xác định rằng nếu một quan trắc nào
đó càng ở xa hyperplane thì ta càng có thể khẳng định về việc phân loại cho quan trắc đó. Ngược
lại nếu quan trắc càng nằm gần hyperplane thì việc phân loại càng thiếu chắc chắn và dễ sai lầm.

Nói chung là nếu dữ liệu của ta có thể được chia tách hoàn hảo bởi một siêu phẳng thì thực tế sẽ có
vô số siêu phẳng tồn tại thoả điều kiện trên. Do đó ta cần có một phương pháp nào đó để chọn ra

17
Hình 4.2: Trái: Có hai lớp quan trắc xanh và tím được ước lượng trên hai biến. Có ít nhất 3
hyperplane được thể hiện. Phải: Một hyperplane phân chia màu đen. Vùng vô mô xanh và tím thể
hiện cho luật phân chia được thực hiện bởi classifier dựa trên hyperplane này: các quan trắc rơi vào
vùng xanh thuộc nhóm xanh, ngược lại thì thuộc nhóm tím. Nguồn: An Introduction to Statistical
Learning with Applications in R.

một hyperplane hợp lý, một lựa chọn tự nhiên chính là hyperplane biên cực đại (maximal margin
hyperplane hay optimal separating hyperplane). Một hyperplane biên cực đại là một hyperplane
có khoảng ranh giới phân cách xa nhất khỏi tập training. Nghĩa là khi ta tính toán khoảng cách
từ mỗi quan trắc training đến đường phân cách siêu phẳng thu được khoảng cách nhỏ nhất được
gọi là biên (margin). Hyperplane biên cực đại là đường hyperplane có margin lớn nhất, tức đường
hyperplane xa các quan trắc nhất. Từ đường phân cách này, ta có thể phân loại được quan trắc
dựa vào phần biên nào mà quan trắc đang thuộc về. Ta kỳ vọng một classifier có biên lớn trên tập
training cũng cho biên lớn trên tập kiểm thử, do đó việc phân loại trên tập kiểm thử cũng đúng.
Tuy nhiên, classifier biên cực đại thường cho overfitting khi số chiều p quá lớn.

Trong biểu đồ trên, chúng ta có 3 quan trắc gần với đường hyperplane biên tối đa, và nằm trong
phần biên. Các quan trắc này chính là support vector, do chúng là những vector trong không gian p
chiều và chúng “hỗ trợ” đường hyperplane biên cực đại theo cách nếu những điểm này dịch chuyển
thì đường hyperplane biên cực đại này cũng dịch chuyển theo. Đường hyperplane này do đó phụ
thuộc trực tiếp vào các support vector này chứ không phải dựa vào các quan trắc còn lại, tức là khi
các quan trắc còn lại thay đổi cũng không hề ảnh hưởng đến đường hyperplane.

4.2 Support Vector Classifier

Ở hình 4.4, những quan trắc trên thuộc về hai lớp chưa tách biệt rõ rệt ở một mặt siêu phẳng
(hyperplane). Thực tế thì ngay cả khi hyperplane phân chia ấy có tồn tại, cũng có những trường
hợp classifier dựa trên đó cho kết quả không tốt. Chẳng hạn như khi classifier đang thể hiện rất tốt
cho một tập dataset nào đó, tuy nhiên chỉ cần thêm một giá trị đơn lẻ vào cũng làm cho classifier
bị thay đổi rất lớn. Nghĩa là classifier rất nhạy với từng quan trắc cụ thể.

18
Hình 4.3: Có hai lớp quan trắc xanh và tím. Đường maximal margin hyperplane là đường liền nét.
Margin là khoảng cách từ đường liền nét đến các đường đứt đoạn. Hai chấm xanh và một chấm tím
nằm trên các đường đứt đoạn chính là support vector, khoảng cách đến hyperplane thể hiện bằng
các mũi tên. Vùng xanh và tím thể hiện cho quy tắc phân loại của classifer. Nguồn: An Introduction
to Statistical Learning with Applications in R

Vì thế, classifier dựa trên hyperplane không phải cách tốt nhất để phân loại hai lớp, đôi lúc
ta cần những mô hình để đánh đổi việc bỏ qua một vài quan trắc nhỏ lẻ để phân loại tổng quát
được tốt hơn. Tức ta có thể phân loại sai một vài trường hợp để đạt được kết quả phân loại
tốt cho những quan trắc còn lại. Support vector classifier (hay soft margin classifier) hoạt động
theo cách này. Tức thay vì tìm ra một đường biên tốt nhất để cho mỗi quan trắc vừa nằm đúng
phía mặt siêu phẳng vừa nằm đúng bên đường biên, ta sẽ cho phép có những quan trắc cho kết
quả sai trong tập training, từ việc nằm sai phía trong vùng biên đến cả nằm sai phía của hyperplane.

4.3 Support Vector Machine


4.3.1 Phân loại ranh giới quyết định phi tuyến

Support vector classifier là phương pháp tự nhiên để phân loại hai lớp nếu ranh giới giữa chúng
là tuyến tính. Tuy nhiên, thực tế ta sẽ gặp những trường hợp ranh giới giữa các lớp này không phải
đường thẳng như ở hình 4.6. Khi đó, support vector classifier cho kết quả tệ như biểu đồ bên phải.

19
Hình 4.4: Trong trường hợp này hai loại dữ liệu xanh và tím không thế được phân chia bằng một
hyperplane, do đó maximal margin classifer cũng không thể áp dụng. Nguồn: An Introduction to
Statistical Learning with Applications in R.

Để vượt qua vấn đề trên, người ta áp dụng thêm cách tăng không gian đặc tính bằng việc sử
dụng những hàm parabol bậc 2, hàm đồ thị cong bậc 3 và thậm chí là những hàm đa thức bậc cao
cho những predictor. Chẳng hạn như thay vì chỉ áp support vector classifier bằng p đặc tính như
X1 , X2 , ..., Xp thì ta dùng lên đến 2p đặc tính gồm X1 , X12 , X2 , X22 , ..., Xp , Xp2 .

Khi đó các công thức trở thành:

maximizeβ0 ,β11 ,β12 ,...,βp1 ,βp2 ,1 ,...,n ,M M


p
X p
X
yi (β0 + βj1 xij + βj2 x2ij ) > M (1 − i )
j=1 j=1
n
X p X
X 2
2
i 6 C, i > 0, βjk =1
i=1 j=1 k=1

Nhờ vậy ta có ranh giới quyết định phi tuyến tính. Trong không gian đặc trưng đã được mở
rộng, ranh giới quyết được có từ công thức nêu trên thực tế là đường thẳng. Nhưng trong không
đặc trưng gốc, ranh giới quyết định ở dạng q(x) = 0 với q là một hàm đa thức bậc hai với nghiệm
không phải là đường thẳng. Ta có thể muốn tăng không gian đặc tính bằng những hàm đa thức bậc

20
Hình 4.5: Trái: Hai loại quan trắc xanh và tím cùng với maximal margin hyperplane. Phải: đưa
thêm một quan trắc xanh làm thay đổi lớn ở đường maximal margin hyperplane. Đường đứt khúc
là maximal margin hyperplane cũ trước khi đưa thêm quan trắc mới. Nguồn: An Introduction to
Statistical Learning with Applications in R.

cao hơn, hoặc những hàm tương tác (interaction) ở dạng Xi Xj với i 6= j. Ngoài ra, những hàm dự
đoán khác cũng có thể được xem xét bên cạnh hàm đa thức. Dễ thấy rằng có nhiều cách để phóng
to mô hình đặc trưng, nhưng nếu không cẩn thận ta sẽ gặp phải mô hình với số lượng vô cùng lớn
đặc trưng dẫn đến việc tính toán không được kiểm soát. Mô hình SVM sẽ cho phép mở rộng không
gian đặc trưng theo cách việc tính toán vẫn hiệu quả.
4.3.2 Support Vector Machine
SVM là một mở rộng của support vector classifier bằng cách mở rộng không gian đặc tính thông
qua kernel. Ý tưởng chính ở đây là ta muốn mở rộng không gian đặc trưng để thích ứng với những
ranh giới không tuyến tính giữa những phân lớp. Phương pháp kernel đơn giản là một phương pháp
tính toán hiệu quả để hiện thực hóa ý tưởng.

Vấn đề của support vector classifier là chỉ bao gồm những không gian tích trong (inner product)
của quan trắc chứ không phải Pchính quan trắc. Những thông tin bên trong của r vector a và b
r
được định P nghĩa bởi ha, bi = i=1 ai bi . Dẫn đến tích trong của hai quan trắc xi , xi0 là công thức
hxi , xi0 i = rj=1 xij xi0 j 0 với n tham số αi , i = 1, ..., n cho mỗi quan trắc.

Khi đó, để đánh giá hàm f (x) của Support Vector Classifier tuyến tính, ta cần tính tích trong
giữa điểm x và mỗi điểm training xi . Tuy nhiên, nghiệm αi chỉ 0 cho support vector; tức là nếu
quan trắc học không phải là support vector thì αi là 0.

Tóm lại để thể hiện classifier tuyến tính f (x) và cho việc tính toán hiệu quả, ta cần tích trong.
Giả sử mỗi tích trong xuất hiện, hay khi tìm nghiệm cho support vector classifier, ta thay nó bằng
một chuẩn hoá tích trong với dạng K(xi , xi00 ) với K là một hàm ta gọi là kernel. Hàm kernel định
lượng sự tương tự của hai quan trắc. Từ đó ta có được hàm kernel tuyến tính vì support vector
classifier là tuyến tính trong những đặc trưng. Người ta đưa một support vector classifier trong một
không gian nhiều chiều vào một kernel hàm đa thức bậc d > 1 để đạt được một ranh giới quyết
định linh hoạt hơn, cách này chính là support vector machine.

Nhờ vào việc áp dụng kernel, ta có thể dựng lên những thuật toán phi tuyến tính từ công thức

21
Hình 4.6: Trái: Hai loại quan trắc không thể áp dụng một đường phân chia tuyến tính. Phải:
Support vector classifier có tìm một rành giới tuyến tính cho bộ mẫu trên cho kết quả tệ. Nguồn:
An Introduction to Statistical Learning with Applications in R.

tuyến tính mà không hề thay đổi thiết kế ban đầu. Ngoài ra hàm đa thức kernel còn thể được thay
thế bằng hàm radical kernel. Khi sử dụng radical kernel, các quan trắc nằm quá xa khỏi quan trắc
mà ta đang quan tâm sẽ không có hành hưởng lớn trong việc phân loại. Radical kernel có đặc tính
local cao, tức chỉ những quan trắc nằm gần mới có ảnh hưởng đến việc phân loại.

SVM ban đầu được thiết kế để cho việc phân loại hai lớp, do đó ta cần mở rộng SVM để phân
loại cho nhiều hơn hai. Có nhiều thiết kế để mở rộng SVM cho phân loại K lớp, phổ biến nhất là
một-một (one versus one) và một-tất cả (one-versus-all):

ˆ Phân loại một-một: Cách này xây dựng ra tổ hợp K chập 2 bộ SVM, mỗi bộ so sánh một cặp
phân loại. Ta phân loại một quan trắc kiểm thử bằng cách sử dụng từng bộ classifier và ghi
lại số lần được phân loại. Cuối cùng là phân loại bằng cách dựa vào lớp nào được xếp loại
nhiều nhất trong các bộ trên.

ˆ Phân loại một-tất cả: Đầu tiên là fit K bộ SVM, mỗi lần so sánh một lớp thứ K với K − 1
lớp còn lại. Mỗi lần như vậy ta thu được một giá trị β0k , β1k , ..., βpk từ việc fit SVM so sánh
lớp thứ K (mã là 1) với K − 1 lớp còn lại (mã là -1). Ta phân loại dựa vào biểu thức:
β0k + β1k x∗1 + ... + βpk x∗p cho giá trị lớn nhất ở lớp nào, do giá trị biểu thức này chính là độ
tin cậy của quan trắc có thuộc về lớp K hay không.

4.4 Áp dụng SVM đánh giá độ khó văn bản


Trong một nghiên cứu, Schwarm, Sarah E. và cộng sự (2005) chỉ ra việc sử dụng các công cụ
xác định dựa trên SVM kết hợp LM và các đặc trưng khác cho kết quả vượt trội so với công cụ dựa
trên LM, kết hợp SVM với các mô hình ngôn ngữ như n-grams, mô hình thống kê ngôn ngữ cùng
với các đặc tính như độ dài câu trung bình, độ dài trung bình của từ, điểm Flesch-Kincaid, v.v. . .
để phân loại độ khó văn bản, kết quả cho thấy việc phân loại các loại văn bản dễ hoặc khó cho kết
quả tốt. Tuy nhiên các loại văn bản có độ khó trung bình có hiệu suất điểm kém hơn do phải phân

22
Hình 4.7: Trái: Một SVM sử dụng hàm số bậc 3 để phân loại dẫn đến kết quả chính xác hơn nhiều
so với hàm tuyến tính. Phải: Một phân loại sử dụng radical kernal. Cả hai kernel này đều có thể sử
dụng để phân loại dữ liệu.

biệt với các loại cận bên.

Sarah E. Petersen và Mari Ostendor (2008) đã phát triển một phương pháp đánh giá trình độ độc
bằng cách kết hợp SVM với các đặc trưng từ những mô hình ngôn ngữ thống kê (LM), cây cú pháp
(parse tree), và nhiều đặc trưng truyền thống khác. Nhóm tác giả kết hợp n-gram LM, cây cú pháp
và các phương pháp đánh giá độ khó truyền thống vào một framework SVM để phân loại độ khó văn
bản. Họ thấy rằng với ngữ liệu giới hạn, bộ phân loại này thể hiện tốt hơn cả những phương pháp có
sẵn khác và độ hiệu quả gần bằng khả năng chú thích của con người. Bộ phân loại SVM có thể được
chuẩn hoá để áp dụng cho văn bản tin tức. Việc thêm vào dữ liệu để học có mức phủ định âm cao
có thể làm tăng độ hiệu quả của việc chuẩn hoá nhờ vào việc giảm dương tính giả (false positive)
mà không làm giảm nhiều hiệu suất so với dữ liệu kiểm thử ban đầu. Bộ phân loại SVM có thể học
được nên không ngạc nhiên mà chúng vượt qua các classifier thông thường, hơn nữa một đặc trưng
quan trọng là có thể tối ưu hoá hiệu quả cho những nhu cầu cụ thể của các nhóm hay thậm chí là
cá nhân. Nhóm tác giả còn thấy rằng cả con người lẫn SVM đều xác định tốt các mức độ điểm thấp.

Tanaka-Ishii và cộng sự (2010)đã sử dụng một model mới để đánh giá văn bản bằng cách sorting.
Phương pháp này so sánh độ khó văn bản qua cách so sánh với các văn bản khác thay vì đưa ra
một chỉ số đánh giá độ khó tuyệt đối của văn bản. Nghiên cứu này sử dụng SVM để xem trong 2
văn bản thì cái nào là khó hơn rồi đưa văn bản đó vào đúng vị trí độ khó dựa vào binary insertion
sorting. Cách tiếp cận này tận dụng được việc chỉ cần có hai loại độ khó để thực hiện cho việc so
sánh.

23
Tài liệu tham khảo

[1] L Feng, M Jansche, M Huenerfauth, N Elhadad. A comparison of features for automatic read-
ability assessment. 2010.

[2] Kang, Tian, Noémie Elhadad, and Chunhua Weng. Initial readability assessment of clinical
trial eligibility criteria. AMIA Annual Symposium Proceedings. Vol. 2015. American Medical
Informatics Association, 2015.

[3] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical
Learning with Applications in R.. Springer

[4] Sarah E. Petersen and Mari Ostendorf. A machine learning approach to reading level assess-
ment. University of Washington CSE Technical Report, 2016.

[5] DuBay, William H. The Principles of Readability. Online Submission (2004).

[6] Collins-Thompson, Kevyn. Computational assessment of text readability: A survey of current


and future research.. ITL-International Journal of Applied Linguistics 165.2 (2014): 97-135

[7] Schwarm, Sarah E., and Mari Ostendorf. Reading level assessment using support vector ma-
chines and statistical language models.. Proceedings of the 43rd Annual Meeting of the Asso-
ciation for Computational Linguistics (ACL’05). 2005.

[8] Tanaka-Ishii, Kumiko, Satoshi Tezuka, and Hiroshi Terada. Sorting texts by readability. Com-
putational Linguistics 36.2 (2010): 203-227.

[9] Zhang, Lixiao, Zaiying Liu, and Jun Ni. Feature-based assessment of text readability.. 2013
Seventh International Conference on Internet Computing for Engineering and Science. IEEE,
2013.

24

You might also like