Professional Documents
Culture Documents
Nhóm 1 - Report
Nhóm 1 - Report
Nhóm 1 - Report
Abstract
Khi Chat Generative Pre-trained Transformer (ChatGPT) đạt được mức độ thành thạo ngày càng tăng trong các nhiệm vụ ngôn
ngữ đa dạng, những tác động tiềm ẩn của nó đối với tính toàn vẹn học thuật và rủi ro đạo văn đã trở nên đáng lo ngại. Các công
cụ phát hiện đạo văn truyền thống chủ yếu phân tích các đoạn văn bản, có thể thiếu sót khi xác định văn bản do máy tạo. Nghiên
cứu này nhằm mục đích giới thiệu một phương pháp sử dụng cả lời nhắc và bài tiểu luận để phân biệt giữa văn bản do máy tạo ra
và văn bản do con người viết, với mục tiêu nâng cao độ chính xác của phân loại và giải quyết các mối quan tâm về liêm chính học
thuật. Tận dụng bộ dữ liệu các bài luận do học sinh viết 8 lời prompt riêng biệt, chúng tôi đã tạo ra các bài luận tương đương với
ChatGPT. Điểm tương đồng trong các bài luận do máy tạo ra ("within"scores) và giữa các bài luận do con người viết và do máy
tạo ra ("between"scores) đã được tính toán. Sau đó, chúng tôi đã sử dụng điểm phần trăm của "between"scores trong phân phối
"within"scores để đánh giá xác suất của một bài luận được tạo bằng máy. Nghiên cứu này sẽ trình bày một phương pháp đơn giản
và hiệu quả để phát hiện các bài luận do máy tạo ra bằng cách sử dụng lời nhắc, cung cấp một giải pháp đáng tin cậy để duy trì tính
toàn vẹn học thuật trong kỷ nguyên của các mô hình ngôn ngữ tiên tiến như ChatGPT.
Keywords: Trí tuệ nhân tạo, Prompt, Văn bản
Hình 1: Sơ đồ thể hiện percentile của điểm "between" score trong phân phối "within" score của từng loại ROGUE score
2.2. Thuật toán phân loại 2.4. Phân tích so sánh các đặc điểm ngôn ngữ
Để hiểu toàn diện về sự khác biệt về cấu trúc và phong cách
Chúng tôi đã tính toán điểm phần trăm (dao động từ 0 đến
giữa các bài tiểu luận do con người và máy tạo ra, chúng tôi
100) của mỗi "between" scores trong phân phối "within" scores
đã thực hiện phân tích định lượng về lựa chọn các đặc điểm
liên quan đến cùng một lời nhắc. Điểm phần trăm có hiệu quả
ngôn ngữ trong kho tiểu luận của chúng tôi. Chúng bao gồm số
cho biết "between" scores của một bài luận xếp hạng như thế
lượng từ, câu và đoạn văn duy nhất trong mỗi bài luận, cũng
nào trong phân phối "within" scores cho cùng một lời nhắc.
như entropy của phân phối từ và điểm tương đồng tối đa giữa
Điểm phần trăm cao hơn cho thấy "between" scores tương tự
các bài tiểu luận.
hoặc vượt quá hầu hết các "within" scores, điều này cho thấy
Số lượng từ duy nhất được tính toán thông qua "CountVec-
khả năng bài luận được tạo bởi ChatGPT cao hơn. Ngược lại,
torizer"của sklearn, đóng vai trò là một chỉ số về sự đa dạng
điểm phần trăm thấp hơn có nghĩa là "between" scores thấp hơn
ngôn ngữ trong mỗi bài luận. Chúng tôi đã sử dụng hàm
hầu hết các "within" scores, điều này cho thấy khả năng bài luận
"sent_tokenize"trong thư viện NLTK để đánh giá độ phức tạp
được viết bởi con người là cao hơn . Do đó, điểm phần trăm có
của cấu trúc thông qua số lượng câu và đoạn văn tương ứng. En-
thể được hiểu là xác suất (dao động từ 0% đến 100%) là một bài
tropy của phân phối từ, được tính toán bằng cách sử dụng hàm
luận do máy tạo ra. Chúng tôi đã tính toán điểm AUC và xây
"stats.entropy"của thư viện SciPy dựa trên tần suất của mỗi từ,
dựng confusion matrix để định lượng tỷ lệ lỗi dựa trên ngưỡng
cung cấp cái nhìn sâu sắc về tính ngẫu nhiên và biến đổi trong
được xác định trước của điểm phần trăm.
cách sử dụng từ. Ngoài ra, điểm tương đồng tối đa được lấy bằng
cách tính toán sự tương đồng cosine theo cặp giữa các vectơ TF-
2.3. Kiểm thử thuật toán IDF của các bài tiểu luận, đưa ra một thước đo có thể định lượng
được về sự tương đồng văn bản.
Để kiểm tra thuật toán phân loại, chúng tôi đã tính "between"
scores cho mỗi bài luận trong số 800 bài luận (400 bài do con
người viết và 400 bài do máy tạo) trong bộ thử nghiệm bằng 3. Thực nghiệm
cách sử dụng 800 (100 bài luận cho mỗi lời nhắc × 8 lời nhắc)
các bài luận do máy tạo ra trong bộ đào tạo làm tài liệu tham 3.1. Dữ liệu
khảo. Sau đó, chúng tôi đã tính điểm phần trăm cho 800 "be- Vào năm 2012, Quỹ William và Flora Hewlett đã phát động
tween" scores trong bộ bài kiểm tra dựa trên sự phân bố 800 một cuộc thi tại Kaggle kêu gọi phát triển một thuật toán chấm
"within" scores từ tập train. Cuối cùng, chúng tôi đã tính toán điểm tự động cho các bài luận do sinh viên viết [2]. Bộ dữ liệu
"AUC points"và xây dựng "Confusion Matrix"để định lượng tỷ đào tạo chứa 12.978 bài tiểu luận được viết bởi học sinh lớp
lệ lỗi dựa trên cùng ngưỡng của điểm phần trăm. 7-10 để đáp ứng 8 chủ đề (723-1805 bài luận cho mỗi chủ đề).
3
((a)) ROGUE-1 scores ((b)) ROGUE-2 scores
Hình 2: ROC curve tương ứng với mỗi loại ROUGE score được đề xuất. Trục tung và trục hoành lần lượt thể hiện TP rate và FP rate
Các bài luận có độ dài từ 150 đến 650 từ. Những gợi ý này bao ROUGE-2, ROUGE-L và ROUGE-Lsum lần lượt là 0,51, 0,20,
gồm các chủ đề như tác động xã hội của việc sử dụng máy tính 0,30 và 0,38 so với "between"scores của chúng lần lượt là 0,31,
ngày càng tăng, kiểm duyệt trong thư viện và phản ánh cá nhân 0,05, 0,17 và 0,21. Sự khác nhau rõ rệt này chỉ ra rằng các bài
về các chủ đề kiên nhẫn và tiếng cười. Một số gợi ý kêu gọi các tiểu luận do máy tạo ra có nhiều điểm tương đồng nhưng khác
bức thư hoặc bài tiểu luận thuyết phục, những người khác yêu biệt đáng kể so với các bài văn do con người viết.
cầu một câu trả lời mô tả cho một cuốn hồi ký hoặc trích đoạn Hình 1 cho thấy biểu đồ tần suất và ước tính mật độ hạt nhân
câu chuyện nhất định, và vẫn còn, những người khác yêu cầu cho điểm phần trăm trong tập huấn luyện. Điểm phần trăm cho
phản hồi phân tích đến các bối cảnh cụ thể hoặc kết luận câu ROUGE-1, ROUGE-2, ROUGE-L và ROUGE-Lsum chủ yếu là
chuyện. Sự lựa chọn đa dạng này đảm bảo rằng mô hình của 0, với trung vị là 0 và trung bình lần lượt là 4,19, 0,18, 6,58 và
chúng tôi được đào tạo trên một mẫu đại diện của các loại bài 2,80. Khoảng 90% điểm phần trăm cho ROUGE-1, ROUGE-2,
luận khác nhau mà học sinh lớp 7-10 có thể được yêu cầu viết. ROUGE-L và ROUGE-Lsum lần lượt bằng hoặc dưới 10, 0, 13
Chúng tôi đã xây dựng các bộ đào tạo và thử nghiệm của và 3. Điểm phần trăm thấp cho thấy sự phân bố các bài luận do
chúng tôi như sau. Chúng tôi đã chọn ngẫu nhiên 100 và 50 bài con người viết hiếm khi trùng lặp với các bài tiểu luận do máy
luận do sinh viên viết cho mỗi lời nhắc để được đưa vào bộ đào tạo ra.
tạo và kiểm tra, tương ứng. Mỗi lời nhắc trong bộ đào tạo và Hình 2 cho thấy các đường cong ROC và điểm AUC tương
kiểm tra được cung cấp cho ChatGPT để tạo ra lần lượt 100 và ứng dựa trên điểm phần trăm. Điểm AUC cho ROUGE-1,
50 bài luận. Quyết định sử dụng 100 và 50 bài luận cho mỗi lời ROUGE-2, ROUGE-L và ROUGE-Lsum lần lượt là 0,960,
nhắc cho các bộ đào tạo và kiểm tra được đưa ra dựa trên các 0,998, 0,935 và 0,973 trong tập train. Điểm AUC cao cho thấy
khám phá sơ bộ, cho thấy 100 bài luận cho mỗi lần nhắc nhở hiệu quả của điểm phần trăm trong việc phân loại các bài luận
cung cấp một bộ đào tạo mạnh mẽ, cân bằng chi phí tính toán do máy tạo ra và do con người viết khá tốt.
và hiệu suất. Chúng tôi đã hợp nhất 400 bài luận do máy tạo ra
Hình 3 cho thấy sự cân bằng giữa positive rate và negative
với 400 bài luận do con người viết trong bộ thử nghiệm.
rate theo điểm phần trăm. Điểm phần trăm tại giao điểm giữa
hai tỷ lệ lần lượt là khoảng 10,63, 1,92, 12,08 và 8,18 cho
3.2. Kết quả trên tập train ROUGE-1, ROUGE-2, ROUGE-L và ROUGE-Lsum. Sử dụng
Đúng như đã dự đoán, "within"scores trung bình lớn hơn so các điểm phần trăm đó làm ngưỡng (tức là các giá trị giao giữa
với "between"trong tập train. "Within"scores của ROUGE-1, 2 đường) để phân loại các bài luận do máy tạo và do con người
4
((a)) ROGUE-1 scores ((b)) ROGUE-2 scores
Hình 3: Confusion matrix tương ứng với mỗi loại ROUGE score được đề xuất
viết sẽ dẫn đến kết quả false positive gần như bằng nhau (nghĩa Tài liệu
là phân loại sai một bài luận do con người viết là do máy tạo ra)
và false negative (nghĩa là phân loại sai một bài luận do máy tạo [1] N. Ahmad, S. Murugesan, and N. Kshetri. Generative Artificial In-
telligence and the Education Sector. Computer, 56(6):72–76, June
ra là do con người viết). 2023. ISSN 1558-0814. doi: 10.1109/MC.2023.3263576. URL
Hình 4 cho thấy confusion matrices áp dụng các ngưỡng điểm https://ieeexplore.ieee.org/document/10132034. Conference
phần trăm trên trên tập huấn luyện. Trên 4 ROUGE metrics, tỷ Name: Computer.
lệ false positive nằm trong khoảng từ 0,008 đến 0,1 và tỷ lệ false [2] H. Ben, M. Jaison, Iynnvandev, S. Mark, and V. A. Tom.
The Hewlett Foundation: Automated Essay Scoring. URL
negative nằm trong khoảng từ 0,01 đến 0,12. Đáng chú ý ở đây, https://kaggle.com/competitions/asap-aes.
ROUGE-2 mang lại tỷ lệ false positive và negative thấp nhất. [3] D. R. E. Cotton, P. A. Cotton, and J. R. Shipway. Chatting and
cheating: Ensuring academic integrity in the era of ChatGPT. In-
novations in Education and Teaching International, 0(0):1–12, 2023.
ISSN 1470-3297. doi: 10.1080/14703297.2023.2190148. URL
https://doi.org/10.1080/14703297.2023.2190148. Publisher:
Routledge _eprint: https://doi.org/10.1080/14703297.2023.2190148.
[4] N. Dehouche. Plagiarism in the age of massive Genera-
tive Pre-trained Transformers (GPT-3). Ethics in Science
and Environmental Politics, 21:17–23, Mar. 2021. ISSN
1611-8014, 1863-5415. doi: 10.3354/esep00195. URL
https://www.int-res.com/abstracts/esep/v21/p17-23/.
[5] M. Deziel. We pitted ChatGPT against tools for detecting AI-written text,
and the results are troubling. URL https://shorturl.at/amBI1.
[6] Y. K. Dwivedi, N. Kshetri, L. Hughes, E. L. Slade, A. Jeyaraj,
et al. Opinion Paper: “So what if ChatGPT wrote it?” Multidisci-
5
plinary perspectives on opportunities, challenges and implications of
generative conversational AI for research, practice and policy. In-
ternational Journal of Information Management, 71:102642, Aug.
2023. ISSN 0268-4012. doi: 10.1016/j.ijinfomgt.2023.102642. URL
https://shorturl.at/klM08.
[7] P. A. Facione. Critical Thinking: What It Is and Why It Counts. Critical
Thinking.
[8] O. L. Holden, M. E. Norris, and V. A. Kuhlmeier. Academic Integrity in
Online Assessment: A Research Review. Frontiers in Education, 6, 2021.
ISSN 2504-284X. URL https://shorturl.at/cjxSZ.
[9] H. Kirchner, L. Ahmad, S. Aaronson, and J. Leike. New AI classifier for
indicating AI-written text. URL https://shorturl.at/fpR78.
[10] Y. Mehdi. Reinventing search with a new AI-powered Microsoft
Bing and Edge, your copilot for the web, Feb. 2023. URL
https://shorturl.at/ilmHQ.
[11] E. Mitchell, Y. Lee, A. Khazatsky, C. D. Manning, and C. Finn. De-
tectGPT: Zero-Shot Machine-Generated Text Detection using Probabil-
ity Curvature, July 2023. URL http://arxiv.org/abs/2301.11305.
arXiv:2301.11305 [cs].
[12] Natalie. What is ChatGPT? | OpenAI Help Center. URL
https://t.ly/1bBVK.
[13] B. Nolan. Here are the schools and colleges that have banned the
use of ChatGPT over plagiarism and misinformation fears. URL
https://rb.gy/1b72jo.
[14] OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, et al. GPT-4 Tech-
nical Report, Dec. 2023. URL http://arxiv.org/abs/2303.08774.
arXiv:2303.08774 [cs].
[15] T. O. Scientist. ChatGPT: A milestone in nat-
ural language processing, Jan. 2023. URL
https://oxsci.org/chatgpt-natural-language-processing/.
[16] A. Szabo. ChatGPT is a Breakthrough in Science and Education but
Fails a Test in Sports and Exercise Psychology. Baltic Journal of Sport
and Health Sciences, 1(128):25–40, May 2023. ISSN 2538-8347. doi:
10.33607/bjshs.v1i128.1341. URL https://rb.gy/lmsl0s. Number:
128.
[17] Y. Xiao, S. Chatterjee, and E. Gehringer. A New Era of Plagiarism the
Danger of Cheating Using AI. In 2022 20th International Conference on
Information Technology Based Higher Education and Training (ITHET),
pages 1–6, Oct. 2022. doi: 10.1109/ITHET56107.2022.10031827.
URL https://ieeexplore.ieee.org/document/10031827. ISSN:
2380-1603.