Nhóm 1 - Report

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

Nhận biết văn bản do trí tuệ nhân tạo sinh

Đỗ Xuân Cảnha , Trần Hùng Đứca


a Viện Trí tuệ nhân tạo, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội,

Abstract
Khi Chat Generative Pre-trained Transformer (ChatGPT) đạt được mức độ thành thạo ngày càng tăng trong các nhiệm vụ ngôn
ngữ đa dạng, những tác động tiềm ẩn của nó đối với tính toàn vẹn học thuật và rủi ro đạo văn đã trở nên đáng lo ngại. Các công
cụ phát hiện đạo văn truyền thống chủ yếu phân tích các đoạn văn bản, có thể thiếu sót khi xác định văn bản do máy tạo. Nghiên
cứu này nhằm mục đích giới thiệu một phương pháp sử dụng cả lời nhắc và bài tiểu luận để phân biệt giữa văn bản do máy tạo ra
và văn bản do con người viết, với mục tiêu nâng cao độ chính xác của phân loại và giải quyết các mối quan tâm về liêm chính học
thuật. Tận dụng bộ dữ liệu các bài luận do học sinh viết 8 lời prompt riêng biệt, chúng tôi đã tạo ra các bài luận tương đương với
ChatGPT. Điểm tương đồng trong các bài luận do máy tạo ra ("within"scores) và giữa các bài luận do con người viết và do máy
tạo ra ("between"scores) đã được tính toán. Sau đó, chúng tôi đã sử dụng điểm phần trăm của "between"scores trong phân phối
"within"scores để đánh giá xác suất của một bài luận được tạo bằng máy. Nghiên cứu này sẽ trình bày một phương pháp đơn giản
và hiệu quả để phát hiện các bài luận do máy tạo ra bằng cách sử dụng lời nhắc, cung cấp một giải pháp đáng tin cậy để duy trì tính
toàn vẹn học thuật trong kỷ nguyên của các mô hình ngôn ngữ tiên tiến như ChatGPT.
Keywords: Trí tuệ nhân tạo, Prompt, Văn bản

1. Giới thiệu khác cho bài tập trên lớp [13].


Các phương pháp tiếp cận thực tế cũng được yêu cầu để phát
Chat Generative Pre-training Transformer (ChatGPT) là mô hiện các trường hợp sử dụng sai một cách đáng tin cậy. Nghiên
hình ngôn ngữ được phát triển bởi OpenAI và ra mắt vào tháng cứu gần đây có mức độ thành công khác nhau trong việc phát
11 năm 2022. Nó được xây dựng dựa trên dòng mô hình ngôn triển các công cụ phát hiện đạo văn để xác định nội dung do máy
ngữ lớn GPT của OpenAI và được tinh chỉnh bằng cách sử dụng tạo ra [17]. Ví dụ: GPTZero (https://gptzero.me), do Edward
các kỹ thuật học tăng cường và có giám sát [12]. Mô hình này Tian tạo ra vào đầu năm 2023, tính toán và so sánh điểm khó
đã đạt được hiệu suất nâng cao trong việc trả lời câu hỏi, tạo hiểu của một đoạn văn bản với ChatGPT để xác định xem mô
văn bản và các tác vụ ngôn ngữ khác và đã được tích hợp với hình có tạo ra nó hay không ( Sheinman, 2023 ). Sự bối rối đo
công cụ tìm kiếm Bing [10]. Vào tháng 3 năm 2023, OpenAI lường mức độ mô hình xác suất dự đoán mẫu và thường được sử
đã ra mắt phiên bản mới nhất, GPT-4, bản này đã mở rộng hơn dụng để đánh giá hiệu suất của mô hình ngôn ngữ trong việc tạo
nữa khả năng của các mô hình ngôn ngữ này. Bất chấp những văn bản ( Sheinman, 2023 ). Để đặt điều này vào bối cảnh, nếu
hạn chế trong các tình huống trong thế giới thực khi so sánh với một đoạn văn bản có tính ngẫu nhiên cao, hỗn loạn hoặc không
con người, GPT-4 thể hiện hiệu suất ở cấp độ con người trong quen thuộc với mô hình ngôn ngữ - về bản chất, nếu nó rất khó
nhiều tiêu chuẩn chuyên môn và học thuật [14]. Bằng chứng sơ hiểu đối với mô hình - thì nó sẽ tạo ra điểm phức tạp cao, cho
bộ cho thấy sự phát triển của ChatGPT có thể đánh dấu một cột thấy rằng văn bản có khả năng được con người tạo ra. Tuy nhiên,
mốc quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) và ảnh bất chấp sự đổi mới vốn có trong cách tiếp cận của GPTZero, nó
hưởng sâu sắc đến cách mọi người tương tác với trí tuệ nhân tạo vẫn bộc lộ những hạn chế, chẳng hạn như không có khả năng
(AI) [15]. phát hiện sự kết hợp giữa văn bản do AI và con người tạo ra
Bất chấp nhiều lợi ích mà ChatGPT có thể mang lại cho xã [1]. Một phương pháp khác đáng được đề cập là DetectGPT,
hội, người ta vẫn lo ngại về mối đe dọa tiềm tàng của nó đối với xác định văn bản do máy tạo ra bằng cách sử dụng độ cong xác
tính liêm chính trong học thuật thông qua việc làm tăng nguy suất. DetectGPT nhận thấy rằng văn bản được lấy mẫu từ mô
cơ đạo văn [3] [4]. Ví dụ: khả năng tạo văn bản chất lượng cao hình ngôn ngữ lớn (LLM) có xu hướng chiếm các vùng có độ
của mô hình có thể bị lạm dụng để hoàn thành bài tập viết [3]. cong âm của hàm xác suất nhật ký của mô hình . Dựa trên quan
Do đó, sinh viên sẽ bỏ lỡ cơ hội rèn luyện kỹ năng viết và tư sát này, nó xác định một tiêu chí mới dựa trên độ cong để đánh
duy phê phán, đồng thời chất lượng bài luận sẽ không phản ánh giá xem một đoạn văn có được tạo ra từ một LLM nhất định hay
khách quan năng lực học tập của họ [7]. Việc vi phạm tính độc không. Không giống như nhiều cách tiếp cận khác, DetectGPT
đáo và tính xác thực của công trình học thuật có thể làm suy yếu không yêu cầu đào tạo một trình phân loại riêng biệt, thu thập
nghiêm trọng tính liêm chính trong học thuật và gây ra sự bất tập dữ liệu gồm các đoạn văn thực hoặc được tạo hoặc đánh
công [8]. Các trường học và đại học đã thực hiện các chính sách dấu văn bản được tạo bằng hình mờ một cách rõ ràng. Thay
hạn chế sinh viên sử dụng ChatGPT và các công cụ dựa trên AI vào đó, nó chỉ dựa vào xác suất nhật ký được tính toán theo mô
Preprint submitted to Elsevier Ngày 16 tháng 4 năm 2024
hình quan tâm và sự nhiễu loạn ngẫu nhiên của đoạn văn từ một đặc biệt bên cạnh các bài tiểu luận và việc kết hợp cả hai sẽ
mô hình ngôn ngữ được đào tạo trước chung khác. Tuy nhiên, làm giảm lỗi phân loại . Tóm lại, chúng tôi đã sử dụng tập dữ
DetectGPT phải đối mặt với những hạn chế bao gồm việc phụ liệu gồm các bài luận do con người viết để đáp lại lời nhắc.
thuộc vào các đánh giá xác suất nhật ký có thể truy cập và giá Chúng tôi đã sử dụng ChatGPT để tạo các bài luận bằng cách
cả phải chăng cũng như chức năng nhiễu loạn phù hợp, cũng sử dụng cùng một lời nhắc và tính điểm tương đồng trong các
như cần nhiều tính toán hơn do cần phải lấy mẫu và tính điểm bài luận đó ("within"scores). Chúng tôi cũng đã tính toán điểm
các bộ nhiễu loạn cho từng đoạn [11]. tương đồng giữa các bài luận do con người viết và do máy tạo
Gần đây nhất, OpenAI đã phát hành "AI Text Classifier", một ra ("between"scores). Cuối cùng, chúng tôi sử dụng điểm phần
mô hình GPT được tinh chỉnh để dự đoán khả năng xảy ra một trăm của "between"scores trong việc phân phối "within"scores
đoạn văn bản được tạo bởi các mô hình ngôn ngữ khác nhau, để định lượng khả năng xảy ra các bài luận do máy tạo ra.
bao gồm ChatGPT [9]. Quá trình đào tạo cho trình phân loại
này sử dụng các cặp văn bản do con người viết và do AI viết 2. Phương pháp
về cùng một chủ đề, được thu thập từ nhiều nguồn khác nhau.
Chúng chủ yếu bao gồm văn bản do con người soạn thảo và 2.1. Tính điểm tương tự
bao gồm dữ liệu đào tạo trước cũng như phần minh họa của con Chúng tôi đã đo lường sự giống nhau giữa một cặp bài tiểu
người từ các lời nhắc được gửi tới InstructGPT. Trong thực tế, luận sử dụng các số liệu Recall-Oriented Understudy for Gist-
người dùng sẽ nhập một đoạn văn bản vào AI Text Classifier, ing Assessment (ROUGE), bao gồm ROUGE-1, ROUGE-2,
sau đó, tùy thuộc vào mức độ tin cậy của nó, sẽ phân loại văn ROUGE-L và ROUGE-Lsum. Các số liệu ROUGE được sử
bản thành một trong một số danh mục: “rất khó xảy ra” do AI dụng rộng rãi để đánh giá tóm tắt tự động hoặc dịch máy trong
tạo ra (dưới 10 %). cơ hội), “không chắc” do AI tạo ra (cơ hội NLP bằng cách so sánh máy tạo ra với bản tóm tắt hoặc bản
từ 10 % đến 45 %), “không rõ liệu nó có phải” do AI tạo ra hay dịch do con người viết. Mỗi số liệu tập trung vào một khía cạnh
không (cơ hội 45 % đến 90 %), “có thể” do AI tạo ra (90–98 % cụ thể của so sánh văn bản. ROUGE-1 đánh giá sự chồng chéo
cơ hội) hoặc “có khả năng” do AI tạo ra (cơ hội trên 98%). Tuy của từ đơn giữa máy và tóm tắt tham chiếu. Đây là một thước đo
nhiên, một nhược điểm đáng kể là nó không phát hiện ra đạo chung về sự chồng chéo nội dung, nhưng sự phụ thuộc của nó
văn, đây là một hạn chế đáng chú ý vì AI tạo văn bản đã được vào các từ riêng lẻ có nghĩa là nó có thể bỏ lỡ việc nắm bắt ngữ
chứng minh là có khả năng lấy lại văn bản mà nó đã được đào nghĩa cấp câu. ROUGE-2 mở rộng điều này bằng cách đo lường
tạo [16]. sự chồng chéo của cặp từ, do đó nắm bắt một số mức độ thông
Theo hiểu biết của chúng tôi, tất cả các công cụ hiện có, bao tin theo ngữ cảnh hoặc tuần tự. Tuy nhiên, nó vẫn còn hơi hạn
gồm GPTZero và AI Text Classifier, đưa ra dự đoán dựa trên chế trong việc tính toán các phụ thuộc tầm xa và cấu trúc cấp độ
các đoạn văn bản làm đầu vào duy nhất [9] ( Sheinman, 2023 câu phức tạp. Ngược lại, ROUGE-L tính toán chuỗi con chung
). Với sự thay đổi vô hạn về nội dung và phong cách của văn dài nhất (LCS) cho mỗi câu và tính trung bình nó cho bản tóm
bản, việc chỉ sử dụng các đoạn văn có thể là không đủ để xác tắt. Bằng cách tập trung vào chuỗi từ dài nhất xuất hiện trong
định văn bản do máy tạo ra một cách đáng tin cậy [5]. Gần cả hai văn bản, nó cung cấp một thước đo tương tự linh hoạt và
đây, DetectGPT, một phương pháp xác định văn bản do máy tạo mạnh mẽ có thể phù hợp với các thay đổi thứ tự từ. Tuy nhiên,
bằng cách sử dụng độ cong xác suất, đã đạt được điểm đặc tính đôi khi nó có thể bỏ qua sự tinh tế trong sự thay đổi ý nghĩa do
vận hành máy thu (ORC) vùng dưới đường cong (AUC) là 0,97 những thay đổi này. Cuối cùng, ROUGE-Lsum tính toán điểm
trên bộ xác thực [11]. Mặt khác, AI Text Classifier đã cho thấy số dựa trên LCS trên toàn bộ bản tóm tắt, cung cấp một cái nhìn
sự cải thiện đáng kể về hiệu suất của nó, với điểm AUC tăng từ toàn diện về sự tương đồng văn bản ở cấp độ tóm tắt. Mặc dù
0,43 mà trình phát hiện đầu ra GPT2 đạt được lên 0,66 trong bộ bản chất toàn diện của nó, biện pháp này vẫn có thể bỏ lỡ các
thử thách ngoài phân phối (Maatta, 2023). Điều này cho thấy mối quan hệ hoặc cấu trúc ngữ nghĩa phức tạp hơn trong văn
sự tiến bộ về khả năng của mô hình trong việc phân biệt văn bản. Tất cả các điểm ROUGE nằm trong khoảng từ 0 đến 1, đưa
bản do máy và con người tạo ra ngoài các nguồn dữ liệu đào ra đánh giá khách quan về sự chồng chéo văn bản giữa hai đoạn
tạo (Wikipedia, WebText và tập dữ liệu bài luận của con người văn bản.
được sử dụng để đào tạo mô hình InstructGPT của OpenAI). Chúng tôi đã tính điểm ROUGE cho mỗi cặp bài luận do máy
Tuy nhiên, khoảng cách vẫn còn khá lớn về điểm AUC cho thấy tạo ra liên quan đến cùng một lời nhắc trong bộ đào tạo. Sau đó,
vẫn còn chỗ để cải thiện hơn nữa trong nhiệm vụ này. chúng tôi tính trung bình điểm ROUGE cho mỗi bài luận, dẫn
Một hành vi lạm dụng phổ biến đối với ChatGPT và các mô đến 800 điểm ROUGE ("within" scores). Tương tự, chúng tôi
hình ngôn ngữ khác trong các trường học và cao đẳng là tạo ra đã tính điểm ROUGE cho mỗi cặp bài luận do con người viết
câu trả lời (được gọi là “bài luận”) cho các câu hỏi mở (được và do máy tạo ra liên quan đến cùng một lời nhắc trong bộ đào
gọi là “lời nhắc”) trong các bài tập môn học [6]. Nghiên cứu tạo. Sau đó, chúng tôi tính trung bình điểm ROUGE cho mỗi
này nhằm mục đích phát hiện các bài luận do ChatGPT tạo ra bài luận, dẫn đến 800 điểm ROUGE ("between" scores).
khi có lời nhắc. Không giống như các công cụ phát hiện đạo Giả thuyết trung tâm thúc đẩy tính toán này là nếu các bài
văn hiện có xây dựng các biện pháp thống kê (ví dụ: độ phức luận do máy tạo ra giống nhau hơn so với các bài tiểu luận do
tạp) hoặc mô hình AI chỉ dựa trên các bài tiểu luận, chúng tôi con người viết đối phó với cùng một lời nhắc, "within" scores sẽ
đã sử dụng các bài tiểu luận và lời nhắc của chúng để phân biệt cao hơn đáng kể so với "between" scores. Do đó, việc so sánh
văn bản do máy tạo ra với văn bản do con người viết. Chúng hai bộ điểm này sẽ tạo điều kiện cho sự khác biệt của các bài
tôi đưa ra giả thuyết rằng các lời nhắc sẽ có nhiều thông tin luận do máy tạo ra với các bài luận do con người viết.
2
((a)) ROGUE-1 scores ((b)) ROGUE-2 scores

((c)) ROGUE-L scores ((d)) ROGUE-Lsum scores

Hình 1: Sơ đồ thể hiện percentile của điểm "between" score trong phân phối "within" score của từng loại ROGUE score

2.2. Thuật toán phân loại 2.4. Phân tích so sánh các đặc điểm ngôn ngữ
Để hiểu toàn diện về sự khác biệt về cấu trúc và phong cách
Chúng tôi đã tính toán điểm phần trăm (dao động từ 0 đến
giữa các bài tiểu luận do con người và máy tạo ra, chúng tôi
100) của mỗi "between" scores trong phân phối "within" scores
đã thực hiện phân tích định lượng về lựa chọn các đặc điểm
liên quan đến cùng một lời nhắc. Điểm phần trăm có hiệu quả
ngôn ngữ trong kho tiểu luận của chúng tôi. Chúng bao gồm số
cho biết "between" scores của một bài luận xếp hạng như thế
lượng từ, câu và đoạn văn duy nhất trong mỗi bài luận, cũng
nào trong phân phối "within" scores cho cùng một lời nhắc.
như entropy của phân phối từ và điểm tương đồng tối đa giữa
Điểm phần trăm cao hơn cho thấy "between" scores tương tự
các bài tiểu luận.
hoặc vượt quá hầu hết các "within" scores, điều này cho thấy
Số lượng từ duy nhất được tính toán thông qua "CountVec-
khả năng bài luận được tạo bởi ChatGPT cao hơn. Ngược lại,
torizer"của sklearn, đóng vai trò là một chỉ số về sự đa dạng
điểm phần trăm thấp hơn có nghĩa là "between" scores thấp hơn
ngôn ngữ trong mỗi bài luận. Chúng tôi đã sử dụng hàm
hầu hết các "within" scores, điều này cho thấy khả năng bài luận
"sent_tokenize"trong thư viện NLTK để đánh giá độ phức tạp
được viết bởi con người là cao hơn . Do đó, điểm phần trăm có
của cấu trúc thông qua số lượng câu và đoạn văn tương ứng. En-
thể được hiểu là xác suất (dao động từ 0% đến 100%) là một bài
tropy của phân phối từ, được tính toán bằng cách sử dụng hàm
luận do máy tạo ra. Chúng tôi đã tính toán điểm AUC và xây
"stats.entropy"của thư viện SciPy dựa trên tần suất của mỗi từ,
dựng confusion matrix để định lượng tỷ lệ lỗi dựa trên ngưỡng
cung cấp cái nhìn sâu sắc về tính ngẫu nhiên và biến đổi trong
được xác định trước của điểm phần trăm.
cách sử dụng từ. Ngoài ra, điểm tương đồng tối đa được lấy bằng
cách tính toán sự tương đồng cosine theo cặp giữa các vectơ TF-
2.3. Kiểm thử thuật toán IDF của các bài tiểu luận, đưa ra một thước đo có thể định lượng
được về sự tương đồng văn bản.
Để kiểm tra thuật toán phân loại, chúng tôi đã tính "between"
scores cho mỗi bài luận trong số 800 bài luận (400 bài do con
người viết và 400 bài do máy tạo) trong bộ thử nghiệm bằng 3. Thực nghiệm
cách sử dụng 800 (100 bài luận cho mỗi lời nhắc × 8 lời nhắc)
các bài luận do máy tạo ra trong bộ đào tạo làm tài liệu tham 3.1. Dữ liệu
khảo. Sau đó, chúng tôi đã tính điểm phần trăm cho 800 "be- Vào năm 2012, Quỹ William và Flora Hewlett đã phát động
tween" scores trong bộ bài kiểm tra dựa trên sự phân bố 800 một cuộc thi tại Kaggle kêu gọi phát triển một thuật toán chấm
"within" scores từ tập train. Cuối cùng, chúng tôi đã tính toán điểm tự động cho các bài luận do sinh viên viết [2]. Bộ dữ liệu
"AUC points"và xây dựng "Confusion Matrix"để định lượng tỷ đào tạo chứa 12.978 bài tiểu luận được viết bởi học sinh lớp
lệ lỗi dựa trên cùng ngưỡng của điểm phần trăm. 7-10 để đáp ứng 8 chủ đề (723-1805 bài luận cho mỗi chủ đề).
3
((a)) ROGUE-1 scores ((b)) ROGUE-2 scores

((c)) ROGUE-L scores ((d)) ROGUE-Lsum scores

Hình 2: ROC curve tương ứng với mỗi loại ROUGE score được đề xuất. Trục tung và trục hoành lần lượt thể hiện TP rate và FP rate

Các bài luận có độ dài từ 150 đến 650 từ. Những gợi ý này bao ROUGE-2, ROUGE-L và ROUGE-Lsum lần lượt là 0,51, 0,20,
gồm các chủ đề như tác động xã hội của việc sử dụng máy tính 0,30 và 0,38 so với "between"scores của chúng lần lượt là 0,31,
ngày càng tăng, kiểm duyệt trong thư viện và phản ánh cá nhân 0,05, 0,17 và 0,21. Sự khác nhau rõ rệt này chỉ ra rằng các bài
về các chủ đề kiên nhẫn và tiếng cười. Một số gợi ý kêu gọi các tiểu luận do máy tạo ra có nhiều điểm tương đồng nhưng khác
bức thư hoặc bài tiểu luận thuyết phục, những người khác yêu biệt đáng kể so với các bài văn do con người viết.
cầu một câu trả lời mô tả cho một cuốn hồi ký hoặc trích đoạn Hình 1 cho thấy biểu đồ tần suất và ước tính mật độ hạt nhân
câu chuyện nhất định, và vẫn còn, những người khác yêu cầu cho điểm phần trăm trong tập huấn luyện. Điểm phần trăm cho
phản hồi phân tích đến các bối cảnh cụ thể hoặc kết luận câu ROUGE-1, ROUGE-2, ROUGE-L và ROUGE-Lsum chủ yếu là
chuyện. Sự lựa chọn đa dạng này đảm bảo rằng mô hình của 0, với trung vị là 0 và trung bình lần lượt là 4,19, 0,18, 6,58 và
chúng tôi được đào tạo trên một mẫu đại diện của các loại bài 2,80. Khoảng 90% điểm phần trăm cho ROUGE-1, ROUGE-2,
luận khác nhau mà học sinh lớp 7-10 có thể được yêu cầu viết. ROUGE-L và ROUGE-Lsum lần lượt bằng hoặc dưới 10, 0, 13
Chúng tôi đã xây dựng các bộ đào tạo và thử nghiệm của và 3. Điểm phần trăm thấp cho thấy sự phân bố các bài luận do
chúng tôi như sau. Chúng tôi đã chọn ngẫu nhiên 100 và 50 bài con người viết hiếm khi trùng lặp với các bài tiểu luận do máy
luận do sinh viên viết cho mỗi lời nhắc để được đưa vào bộ đào tạo ra.
tạo và kiểm tra, tương ứng. Mỗi lời nhắc trong bộ đào tạo và Hình 2 cho thấy các đường cong ROC và điểm AUC tương
kiểm tra được cung cấp cho ChatGPT để tạo ra lần lượt 100 và ứng dựa trên điểm phần trăm. Điểm AUC cho ROUGE-1,
50 bài luận. Quyết định sử dụng 100 và 50 bài luận cho mỗi lời ROUGE-2, ROUGE-L và ROUGE-Lsum lần lượt là 0,960,
nhắc cho các bộ đào tạo và kiểm tra được đưa ra dựa trên các 0,998, 0,935 và 0,973 trong tập train. Điểm AUC cao cho thấy
khám phá sơ bộ, cho thấy 100 bài luận cho mỗi lần nhắc nhở hiệu quả của điểm phần trăm trong việc phân loại các bài luận
cung cấp một bộ đào tạo mạnh mẽ, cân bằng chi phí tính toán do máy tạo ra và do con người viết khá tốt.
và hiệu suất. Chúng tôi đã hợp nhất 400 bài luận do máy tạo ra
Hình 3 cho thấy sự cân bằng giữa positive rate và negative
với 400 bài luận do con người viết trong bộ thử nghiệm.
rate theo điểm phần trăm. Điểm phần trăm tại giao điểm giữa
hai tỷ lệ lần lượt là khoảng 10,63, 1,92, 12,08 và 8,18 cho
3.2. Kết quả trên tập train ROUGE-1, ROUGE-2, ROUGE-L và ROUGE-Lsum. Sử dụng
Đúng như đã dự đoán, "within"scores trung bình lớn hơn so các điểm phần trăm đó làm ngưỡng (tức là các giá trị giao giữa
với "between"trong tập train. "Within"scores của ROUGE-1, 2 đường) để phân loại các bài luận do máy tạo và do con người
4
((a)) ROGUE-1 scores ((b)) ROGUE-2 scores

((c)) ROGUE-L scores ((d)) ROGUE-Lsum scores

Hình 3: Confusion matrix tương ứng với mỗi loại ROUGE score được đề xuất

viết sẽ dẫn đến kết quả false positive gần như bằng nhau (nghĩa Tài liệu
là phân loại sai một bài luận do con người viết là do máy tạo ra)
và false negative (nghĩa là phân loại sai một bài luận do máy tạo [1] N. Ahmad, S. Murugesan, and N. Kshetri. Generative Artificial In-
telligence and the Education Sector. Computer, 56(6):72–76, June
ra là do con người viết). 2023. ISSN 1558-0814. doi: 10.1109/MC.2023.3263576. URL
Hình 4 cho thấy confusion matrices áp dụng các ngưỡng điểm https://ieeexplore.ieee.org/document/10132034. Conference
phần trăm trên trên tập huấn luyện. Trên 4 ROUGE metrics, tỷ Name: Computer.
lệ false positive nằm trong khoảng từ 0,008 đến 0,1 và tỷ lệ false [2] H. Ben, M. Jaison, Iynnvandev, S. Mark, and V. A. Tom.
The Hewlett Foundation: Automated Essay Scoring. URL
negative nằm trong khoảng từ 0,01 đến 0,12. Đáng chú ý ở đây, https://kaggle.com/competitions/asap-aes.
ROUGE-2 mang lại tỷ lệ false positive và negative thấp nhất. [3] D. R. E. Cotton, P. A. Cotton, and J. R. Shipway. Chatting and
cheating: Ensuring academic integrity in the era of ChatGPT. In-
novations in Education and Teaching International, 0(0):1–12, 2023.
ISSN 1470-3297. doi: 10.1080/14703297.2023.2190148. URL
https://doi.org/10.1080/14703297.2023.2190148. Publisher:
Routledge _eprint: https://doi.org/10.1080/14703297.2023.2190148.
[4] N. Dehouche. Plagiarism in the age of massive Genera-
tive Pre-trained Transformers (GPT-3). Ethics in Science
and Environmental Politics, 21:17–23, Mar. 2021. ISSN
1611-8014, 1863-5415. doi: 10.3354/esep00195. URL
https://www.int-res.com/abstracts/esep/v21/p17-23/.
[5] M. Deziel. We pitted ChatGPT against tools for detecting AI-written text,
and the results are troubling. URL https://shorturl.at/amBI1.
[6] Y. K. Dwivedi, N. Kshetri, L. Hughes, E. L. Slade, A. Jeyaraj,
et al. Opinion Paper: “So what if ChatGPT wrote it?” Multidisci-

5
plinary perspectives on opportunities, challenges and implications of
generative conversational AI for research, practice and policy. In-
ternational Journal of Information Management, 71:102642, Aug.
2023. ISSN 0268-4012. doi: 10.1016/j.ijinfomgt.2023.102642. URL
https://shorturl.at/klM08.
[7] P. A. Facione. Critical Thinking: What It Is and Why It Counts. Critical
Thinking.
[8] O. L. Holden, M. E. Norris, and V. A. Kuhlmeier. Academic Integrity in
Online Assessment: A Research Review. Frontiers in Education, 6, 2021.
ISSN 2504-284X. URL https://shorturl.at/cjxSZ.
[9] H. Kirchner, L. Ahmad, S. Aaronson, and J. Leike. New AI classifier for
indicating AI-written text. URL https://shorturl.at/fpR78.
[10] Y. Mehdi. Reinventing search with a new AI-powered Microsoft
Bing and Edge, your copilot for the web, Feb. 2023. URL
https://shorturl.at/ilmHQ.
[11] E. Mitchell, Y. Lee, A. Khazatsky, C. D. Manning, and C. Finn. De-
tectGPT: Zero-Shot Machine-Generated Text Detection using Probabil-
ity Curvature, July 2023. URL http://arxiv.org/abs/2301.11305.
arXiv:2301.11305 [cs].
[12] Natalie. What is ChatGPT? | OpenAI Help Center. URL
https://t.ly/1bBVK.
[13] B. Nolan. Here are the schools and colleges that have banned the
use of ChatGPT over plagiarism and misinformation fears. URL
https://rb.gy/1b72jo.
[14] OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, et al. GPT-4 Tech-
nical Report, Dec. 2023. URL http://arxiv.org/abs/2303.08774.
arXiv:2303.08774 [cs].
[15] T. O. Scientist. ChatGPT: A milestone in nat-
ural language processing, Jan. 2023. URL
https://oxsci.org/chatgpt-natural-language-processing/.
[16] A. Szabo. ChatGPT is a Breakthrough in Science and Education but
Fails a Test in Sports and Exercise Psychology. Baltic Journal of Sport
and Health Sciences, 1(128):25–40, May 2023. ISSN 2538-8347. doi:
10.33607/bjshs.v1i128.1341. URL https://rb.gy/lmsl0s. Number:
128.
[17] Y. Xiao, S. Chatterjee, and E. Gehringer. A New Era of Plagiarism the
Danger of Cheating Using AI. In 2022 20th International Conference on
Information Technology Based Higher Education and Training (ITHET),
pages 1–6, Oct. 2022. doi: 10.1109/ITHET56107.2022.10031827.
URL https://ieeexplore.ieee.org/document/10031827. ISSN:
2380-1603.

You might also like