Professional Documents
Culture Documents
Plagiarism Checker Amp Link Advisor Using Concepts of Levenshtein Distance Algorithm With Google Query Search - An Approach
Plagiarism Checker Amp Link Advisor Using Concepts of Levenshtein Distance Algorithm With Google Query Search - An Approach
Plagiarism Checker Amp Link Advisor Using Concepts of Levenshtein Distance Algorithm With Google Query Search - An Approach
Trình kiểm tra đạo văn & Cố vấn liên kết sử dụng
với Tìm kiếm truy vấn của Google - Một cách tiếp cận
Khoa trí tuệ nhân tạo Khoa trí tuệ nhân tạo Khoa trí tuệ nhân tạo
Raisoni
Nagpur, Ấn Độ
priyanka.ujjainkar@raisoni.net
Tóm tắt—Trong thời đại cách mạng nghiên cứu, các lĩnh vực 1. Nghiên cứu
nghiên cứu có sự phát triển khá nhanh chóng với số lượng bài 2. Lên ý tưởng
viết nghiên cứu được xuất bản dồi dào hiện nay. Mô hình được 3. Phát triển và thử nghiệm mô hình 4. Độ
phát triển tập trung vào hai phương pháp chính là "Thuật chính xác/Kết quả của mô hình.
truy vấn của Google" để kết hợp đổi mới một khía cạnh mới
II. NGÀNH KIẾN TRÚC
trong việc giải quyết các vấn đề đạo văn. Để hỗ trợ các liên
kết giới thiệu chính xác và xác thực tương tự như văn bản
đạo văn đáng ngờ trong bài đánh giá hoặc bài nghiên cứu của
trăm chính xác cao khi đề cập đến một số nội dung nhỏ như
ngăn chặn việc chuyển hướng các liên kết giới thiệu đến các trang web rác.
Trình phát hiện đạo văn, Cố vấn liên kết đạo văn, Thuật toán
Streamlit.
Đạo văn là việc miêu tả các nhà đổi mới khác hoặc bài viết, ngôn
ngữ, thông tin, ý tưởng, suy nghĩ hoặc mô hình của tác giả như
Đạo văn bao gồm đã xuất bản - không xuất bản, vẽ, viết, ghi âm [1]
Hình 1. Kiến trúc của hệ thống phát hiện đạo văn văn bản.
và bất kỳ nguồn ý tưởng nào như vậy dưới bất kỳ hình thức hiện
có nào. Các định nghĩa này khác nhau tùy theo từng lĩnh vực và
Trên đây là kiến trúc cơ bản của bộ phát hiện đạo văn tiêu chuẩn
tùy theo các khía cạnh/mục tiêu của việc đưa chúng ra trước các
10.1109/
(ICAISC)
chế mà họ thực hiện phân đoạn trên mỗi câu tạo thành các từ và
|
sau đó phân tích các thuật ngữ giống hệt/giống nhau hoặc gần
Trong quá trình phát triển mô hình, các nhà nghiên cứu đã
nghĩa. Kết quả là họ báo cáo những điều khoản đó
tập trung vào quá trình 4 giai đoạn bao gồm,
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google
với việc đặt/sắp xếp chúng trong tài liệu cụ thể đó và thể hiện tỷ X - Yếu tố/Mô hình/Vật chất khoa học không xác định được & duy
Nó có nghĩa là “Một nguồn kiến thức thực sự, hợp lý, đáng tin cậy
và tồn tại vĩnh viễn với bản sắc riêng của nó”.
Sau khi xem xét rất nhiều ứng dụng trực tuyến và gốc trên công
cụ kiểm tra/phát hiện đạo văn, chúng tôi đã gặp một số ứng dụng
thú vị và phổ biến. Trong giai đoạn lên ý tưởng, khuôn khổ chính mà chúng tôi tập
vấn đề. Và để khắc phục những vấn đề đó, chúng tôi đã áp dụng một trung vào là nuôi dưỡng tính đổi mới và tính mạch lạc trong mô
số giải pháp hiện có với những sửa đổi mới để làm cho chúng hiệu hình.
quả hơn và thân thiện với người dùng hơn.
gói thành viên, chúng tôi có thể đạt được tiến bộ khá tốt và cũng
Các phần mở đầu mà chúng tôi đã lưu ý như sau:
làm cho nó thân thiện hơn với người dùng.
2. Không/ Ít đề cập đến đạo văn ngoài ý muốn: Trong một số trường
3. Thuật toán khoảng cách Levenshtein: LDA là thuật toán ma trận
hợp, tác giả không biết về bài báo/tài liệu đã công bố do nền
so sánh dựa trên hoạt động chuỗi với các độ đo tương tự từ
tảng nghiên cứu kém. Đôi khi các tác giả cũng không thể tìm được
vựng[4]. Nói một cách đơn giản, thuật toán này tương quan hai từ
tài liệu thích hợp để tham khảo về phần đạo văn cụ thể đó.
trên cơ sở tập hợp chuỗi được hình thành và sau đó xác định sự
giống nhau của các từ - với - câu, với - đoạn văn - với toàn bộ
tài liệu. Ở trạng thái cuối cùng, nó báo cáo tất cả những điểm
giống nhau trong một đơn vị bằng cách sắp xếp và triển khai ma
3. Xử lý chậm: Với việc mở rộng giới hạn trong P.
trận tỷ lệ phần trăm (tức là hiển thị phần trăm đạo văn được phát
C. và lượng dữ liệu khổng lồ (từ, cụm từ) trong tài liệu, khiến
hiện).
quá trình xử lý P. bị chậm lại.
C. Nó có thể dễ dàng làm giảm hiệu quả của bất kỳ mô hình ưu việt
nào.
B. Sự hình thành ý tưởng Các lý thuyết giả thuyết luôn đi kèm với sự cần thiết phải có
Nó được lấy cảm hứng từ các từ trong ngôn ngữ “tiếng Phạn” và
“khoa học”.[2]
A – Agama (Bằng chứng về độ tin cậy của một nguồn kiến thức)
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google
Kiến trúc chúng tôi đã phát triển trên cơ sở khái niệm cấu
Điều kiện nêu rõ việc so sánh một tệp gốc (tệp để so sánh
với/văn bản hoặc tài liệu.) với nhiều bài báo, tạp chí, tạp
chí hoặc bất kỳ dạng tệp nào để xác minh tỷ lệ đạo văn,
3. Kiểm tra đạo văn tất cả các tập tin trong thư mục Hình 4. Thực hiện 2
thứ
khía cạnh của Trình kiểm tra đạo văn:
Giải thích 2:
ở phía người dùng và cơ chế mà mỗi đầu vào tuân theo trước khi Tùy chọn thứ 2 trong TAN-X cung cấp khả năng kiểm tra đạo
hiển thị đầu ra. Ngoài ra, nó còn liên quan đến các câu lệnh điều văn từng tệp một theo tiêu chuẩn. Quá trình này tuân theo
kiện cho sự lựa chọn của người dùng.
thuật toán khoảng cách Levenshtein để so sánh từng đoạn theo
Đầu vào thứ 5 dành cho lựa chọn lựa chọn không hợp lệ hoặc từng từ và chuỗi tương ứng.
chấm dứt thực hiện sau khi hoàn thành hiệu suất.
Việc thực hiện thực nghiệm và làm sáng tỏ các lý thuyết trên
thứ
Hình 5. Thực hiện 3 khía cạnh của Trình kiểm tra đạo văn:
Hình 3. Thực thi khía cạnh thứ nhất của Trình kiểm tra đạo văn:
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google
Phần mềm
Phân tích so sánh của từng tệp với các tệp khác là yếu tố
chính của kết quả đầu ra này. Và do đó, hình thành một mô
1. Turnitin Một). Nó thiếu tính sẵn có Tôi). TAN-X sử dụng
hình tương đối giữa các nền văn học có đặc tính giống nhau.
của cơ sở dữ liệu tức là, “Truy vấn tìm kiếm
vượt qua
vấn đề về tính toàn vẹn, thay bối cảnh đạo văn & giúp
vô tình
đạo văn.
Hình 6. Thực hiện 4 khía cạnh của Trình kiểm tra đạo văn: hiệu quả của các tính ii). TAN-X hoạt động
Các tính năng quan trọng của trình kiểm tra đạo văn là so android, mac iOS, v.v.).
liệu như đám mây của Google có thể được sử dụng tiềm năng
Turnitin phải đối mặt với một vụ kiện cáo buộc sinh viên có
trong khi vận hành các tài liệu nhạy cảm với quyền truy cập
quyền sở hữu trí tuệ và sử dụng các bài viết trong cơ sở dữ
tối đa. Và đó chính xác là cách TAN-X mang lại trong tùy chọn
liệu của họ mà không có sự cho phép/lo ngại pháp lý.[6]
này.
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google
Hiệu suất của Link Advisor có thể cải thiện vì thư viện
BeautifulSoup có thể mang lại độ chính xác hơn 85%. Và thuật
toán Levenshtein trở thành yếu tố then chốt ấn tượng trong
mô hình. Bên cạnh những cải tiến về mẫu mã và tính năng,
người ta vẫn cho rằng nó có nhiều không gian hơn để sàng
Hình 7. Công thức tỷ lệ phần trăm lỗi dự đoán[9] lọc.
PC - Trình kiểm tra đạo văn, GQS - Tìm kiếm truy vấn của Google,
Giá trị đo được = 29% = tỷ lệ đạo văn ban đầu trong tệp văn
LDA - Thuật toán khoảng cách Levenshtein, IPE - Lỗi tích cực sẵn
bản, Giá trị dự đoán =
có, PPE - Lỗi dự đoán tỷ lệ phần trăm.
28,81% = tỷ lệ đầu ra của mô hình đạo văn,
Ngoài ra, TAN - X. liên quan đến việc hạn chế giới thiệu V. KÝ HIỆU
các trang web rác, chiếm ít hơn 1% số trang web rác của
Miêu tả - miêu tả (ai đó hoặc một cái gì đó) trong một tác
Google (báo cáo blog từ Cody Kwok, Kỹ sư chính, Google, vào
phẩm nghệ thuật hoặc
năm 2018)[10] & 90,63% trong số không -các trang web đã
văn học, Bản địa - có nguồn gốc hoặc xảy ra tự nhiên ở một
truy cập (tức là không có lưu lượng truy cập từ Google)[11],
địa điểm cụ thể; bản địa,
80% các trang web bị tấn công sẽ bị xóa khỏi kết quả tìm
kiếm của Google[12] . Vi phạm - hành vi vi phạm hoặc không tuân thủ luật pháp,
thỏa thuận hoặc quy tắc ứng xử,
Vô ý - không cố ý, To lớn - cực kỳ lớn
Kết quả là
hoặc lớn, đặc biệt là về quy mô hoặc mức độ, Đáng chú ý -
Lỗi tích cực sẵn có = 1 + (90,63 - 80) = 11,63%.
đáng chú
ý; thú vị hoặc có ý nghĩa, Thực dụng - một người thực tế và
Ở đây, Lỗi tích cực sẵn có đề cập đến tác động tích cực của lỗi
trong mô hình. tập trung
vào việc đạt được mục tiêu, Notion - một quan niệm hoặc
niềm tin về điều
Bây giờ, nó kết luận tổng IPE trong công thức PPE:
gì đó,
Snag - một trở ngại hoặc nhược điểm bất ngờ hoặc tiềm ẩn,
Slacken - giảm hoặc giảm tốc độ hoặc cường độ, Mạch
PPE = {[ (mv - pv) / mv] × 100} + IPE (1)
lạc - (của một lập luận, lý thuyết hoặc chính sách) hợp lý
và nhất quán,
PPE = {[ (29 - 28,81) / 29] × 100} + 11,63 = 14,73 %
Từ vựng - liên quan đến các từ hoặc từ vựng của một ngôn
ngữ, Sự
Do đó,
giống nhau - trạng thái giống hoặc giống nhau, Giả thuyết
Độ chính xác của TAN - X. = 100 - Error (tức là
- dựa trên hoặc phục vụ như một giả thuyết,
PPE)
= 100 - PPE Thực nghiệm - dựa trên, liên quan hoặc có thể kiểm chứng
bằng quan sát hoặc kinh nghiệm hơn là lý thuyết hoặc logic
Chứng minh - hành động xác nhận; tìm kiếm hoặc kiểm tra sự
tức là Độ chính xác của TAN - X. 85 %.
thật của một cái gì đó
Colossal - cực kỳ lớn hoặc tuyệt vời.
III. ĐỘ CHÍNH XÁC/ KẾT QUẢ CỦA MÔ HÌNH
lại kết quả như mong đợi: [1] Băutu, E. và Băutu, A., 2018, tháng 6. PlagZap: Một hệ thống
phát hiện đạo văn văn bản dành cho bài tập của sinh viên
1. Bộ dữ liệu khổng lồ để tìm kiếm đạo văn, được xây dựng bằng phần mềm nguồn mở. Tại Hội nghị quốc tế
2. 4 Cơ chế kiểm tra đạo văn có chủ đích, lần thứ 13 về các mô hình tính toán mềm ở
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google
https://www.researchgate.net/figure/The-architecture-of-a-
textual-plagiarism-Detection-
systems_fig1_325628538
[4] Tương tự văn bản với khoảng cách Levenshtein trong Python | qua
[5] Phân tích ưu và nhược điểm của việc sử dụng Turnitin – The
LaSallian
[6] GIẢNG DẠY TẠI PITT: Turnitin ưu, nhược điểm và tốt nhất
[8] Trang trợ giúp và hỗ trợ khách hàng của Quetext: Những trình duyệt
Tính toán phần trăm lỗi dự đoán: ghi chú của người dùng.
Tính lỗi dự đoán phần trăm: Ghi chú của người dùng -
[10] Báo cáo webspam của Google: Cách chúng tôi chống lại webspam -
Báo cáo webspam 2017 | Blog của Trung tâm Google Tìm kiếm
[11] Báo cáo về trang web không có lưu lượng truy cập từ Google: 90,63%
nội dung không có lưu lượng truy cập từ Google. Và làm thế nào
[12] Báo cáo phân tích việc Google loại bỏ các trang web bị tấn công:
Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.