Plagiarism Checker Amp Link Advisor Using Concepts of Levenshtein Distance Algorithm With Google Query Search - An Approach

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

Machine Translated by Google

Trình kiểm tra đạo văn & Cố vấn liên kết sử dụng

các khái niệm về Thuật toán khoảng cách Levenshtein

với Tìm kiếm truy vấn của Google - Một cách tiếp cận

Dhanraj Arvind Nandurkar Bhakti Miglani Ayush Kanojiya

Khoa trí tuệ nhân tạo Khoa trí tuệ nhân tạo Khoa trí tuệ nhân tạo

Cao đẳng Kỹ thuật GH Cao đẳng Kỹ thuật GH Cao đẳng Kỹ thuật GH

Raisoni Raisoni Raisoni

Nagpur, Ấn Độ Nagpur, Ấn Độ Nagpur, Ấn Độ

dhanrajnandurkar3103@gmail.com bhaktimig1502@gmail.com kanojiyaayush469@gmail.com

Giáo sư Priyanka Ujjainkar

Khoa trí tuệ nhân tạo

Cao đẳng Kỹ thuật GH

Raisoni

Nagpur, Ấn Độ

priyanka.ujjainkar@raisoni.net

Tóm tắt—Trong thời đại cách mạng nghiên cứu, các lĩnh vực 1. Nghiên cứu

nghiên cứu có sự phát triển khá nhanh chóng với số lượng bài 2. Lên ý tưởng

viết nghiên cứu được xuất bản dồi dào hiện nay. Mô hình được 3. Phát triển và thử nghiệm mô hình 4. Độ

phát triển tập trung vào hai phương pháp chính là "Thuật chính xác/Kết quả của mô hình.

toán khoảng cách của Levenshtein" và phương pháp "Tìm kiếm

truy vấn của Google" để kết hợp đổi mới một khía cạnh mới
II. NGÀNH KIẾN TRÚC
trong việc giải quyết các vấn đề đạo văn. Để hỗ trợ các liên

kết giới thiệu chính xác và xác thực tương tự như văn bản

đạo văn đáng ngờ trong bài đánh giá hoặc bài nghiên cứu của

một người. Mô hình được phát triển đã đạt được tỷ lệ phần

trăm chính xác cao khi đề cập đến một số nội dung nhỏ như

ngăn chặn việc chuyển hướng các liên kết giới thiệu đến các trang web rác.

Từ khóa— Xử lý ngôn ngữ tự nhiên, Trình kiểm tra đạo văn,

Trình phát hiện đạo văn, Cố vấn liên kết đạo văn, Thuật toán

của Levenshtein, Tìm kiếm truy vấn của Google, BeautifulSoup,

Streamlit.

TÔI. GIỚI THIỆU

Đạo văn là việc miêu tả các nhà đổi mới khác hoặc bài viết, ngôn

ngữ, thông tin, ý tưởng, suy nghĩ hoặc mô hình của tác giả như

là tác phẩm bản địa của chính mình.


978-1-6654-7275-3/23/$31,00
ICAISC56366.2023.10085404

Đạo văn bao gồm đã xuất bản - không xuất bản, vẽ, viết, ghi âm [1]
Hình 1. Kiến trúc của hệ thống phát hiện đạo văn văn bản.
và bất kỳ nguồn ý tưởng nào như vậy dưới bất kỳ hình thức hiện

có nào. Các định nghĩa này khác nhau tùy theo từng lĩnh vực và
Trên đây là kiến trúc cơ bản của bộ phát hiện đạo văn tiêu chuẩn
tùy theo các khía cạnh/mục tiêu của việc đưa chúng ra trước các
10.1109/
(ICAISC)

để xác minh độ tương tự văn bản. Mô hình này thường xử lý cơ


©2023
thông
thành
trong

cơ quan chức năng.


DOI:
IEEE
minh
tiến
tiên
2023
nhất
quốc
nghị
phố
mới
đổi
năm
thứ
lần
Hội
về
tế

chế mà họ thực hiện phân đoạn trên mỗi câu tạo thành các từ và
|

sau đó phân tích các thuật ngữ giống hệt/giống nhau hoặc gần
Trong quá trình phát triển mô hình, các nhà nghiên cứu đã
nghĩa. Kết quả là họ báo cáo những điều khoản đó
tập trung vào quá trình 4 giai đoạn bao gồm,

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google

với việc đặt/sắp xếp chúng trong tài liệu cụ thể đó và thể hiện tỷ X - Yếu tố/Mô hình/Vật chất khoa học không xác định được & duy

lệ đạo văn được xác định. nhất.

Nó có nghĩa là “Một nguồn kiến thức thực sự, hợp lý, đáng tin cậy

và tồn tại vĩnh viễn với bản sắc riêng của nó”.

Sau khi xem xét rất nhiều ứng dụng trực tuyến và gốc trên công

cụ kiểm tra/phát hiện đạo văn, chúng tôi đã gặp một số ứng dụng

thú vị và phổ biến. Trong giai đoạn lên ý tưởng, khuôn khổ chính mà chúng tôi tập

vấn đề. Và để khắc phục những vấn đề đó, chúng tôi đã áp dụng một trung vào là nuôi dưỡng tính đổi mới và tính mạch lạc trong mô

số giải pháp hiện có với những sửa đổi mới để làm cho chúng hiệu hình.
quả hơn và thân thiện với người dùng hơn.

Ý tưởng của chúng tôi như sau, -

1. Mở rộng giới hạn của từ.


Một nghiên cứu
2. Liên kết tư vấn.
Việc thăm dò được tiến hành trên các giải pháp chuyển hướng hiện có 3. Thuật toán khoảng cách Levenshtein.
chúng tôi về một số tính năng chức năng và những vi phạm nhỏ trong

hoạt động của họ.


1. Mở rộng hạn chế về từ ngữ: Bằng cách loại bỏ các hạn chế về

gói thành viên, chúng tôi có thể đạt được tiến bộ khá tốt và cũng
Các phần mở đầu mà chúng tôi đã lưu ý như sau:
làm cho nó thân thiện hơn với người dùng.

1. Hạn chế về từ ngữ đối với người dùng bình thường.

2. Không/ Ít đề cập đến việc đạo văn ngoài ý muốn.


2. Liên kết tư vấn: Mục tiêu đằng sau khái niệm này là cung cấp
3. Xử lý chậm.
các liên kết chính xác để nghiên cứu và viết lại các phần đạo văn

trong tài liệu của bạn.


1. Giới hạn số từ đối với người dùng thông thường: Khi một người
Về cơ bản nó hoạt động theo cơ chế Tìm kiếm truy vấn của Google.
dùng bình thường truy cập vào một công cụ kiểm tra đạo văn đáng
GQS này kết nối với các cụm từ (từ) bằng thư viện python
chú ý để xem xét tỷ lệ phần trăm đạo văn trong bài viết của họ, họ
BeautifulSoup. BeautifulSoup về cơ bản là một thư viện python
sẽ gặp phải vấn đề liên quan đến giới hạn số từ (tức là thường là
giúp cho mục đích quét web nhằm lấy dữ liệu ra khỏi các tệp HTML
5000 từ miễn phí) để nhập vào. Nó. Đây là nơi hành vi thực dụng
và XML[3] . Vì vậy, tóm lại, nó cung cấp các liên kết có liên
liên kết với các gói thành viên của họ, dẫn đến những trở ngại như
quan đến các đầu vào văn bản nhất định.
vậy.

2. Không/ Ít đề cập đến đạo văn ngoài ý muốn: Trong một số trường
3. Thuật toán khoảng cách Levenshtein: LDA là thuật toán ma trận
hợp, tác giả không biết về bài báo/tài liệu đã công bố do nền
so sánh dựa trên hoạt động chuỗi với các độ đo tương tự từ
tảng nghiên cứu kém. Đôi khi các tác giả cũng không thể tìm được
vựng[4]. Nói một cách đơn giản, thuật toán này tương quan hai từ
tài liệu thích hợp để tham khảo về phần đạo văn cụ thể đó.
trên cơ sở tập hợp chuỗi được hình thành và sau đó xác định sự

giống nhau của các từ - với - câu, với - đoạn văn - với toàn bộ

tài liệu. Ở trạng thái cuối cùng, nó báo cáo tất cả những điểm

giống nhau trong một đơn vị bằng cách sắp xếp và triển khai ma
3. Xử lý chậm: Với việc mở rộng giới hạn trong P.
trận tỷ lệ phần trăm (tức là hiển thị phần trăm đạo văn được phát
C. và lượng dữ liệu khổng lồ (từ, cụm từ) trong tài liệu, khiến
hiện).
quá trình xử lý P. bị chậm lại.

C. Nó có thể dễ dàng làm giảm hiệu quả của bất kỳ mô hình ưu việt
nào.

C. Phát triển và thử nghiệm mô hình

B. Sự hình thành ý tưởng Các lý thuyết giả thuyết luôn đi kèm với sự cần thiết phải có

bằng chứng thực tế và việc áp dụng nó vào thế giới thực.


TAN - X. là ý tưởng mà chúng tôi đã thiết lập như tầm nhìn của mình.

Nó được lấy cảm hứng từ các từ trong ngôn ngữ “tiếng Phạn” và
“khoa học”.[2]

T - Tattvena (trong thực tế)

A – Agama (Bằng chứng về độ tin cậy của một nguồn kiến thức)

N - Nityasya (Tồn tại vĩnh cửu)

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google

Kiến trúc chúng tôi đã phát triển trên cơ sở khái niệm cấu

trúc của TAN - X. là, - Giải thích 1:

Điều kiện nêu rõ việc so sánh một tệp gốc (tệp để so sánh

với/văn bản hoặc tài liệu.) với nhiều bài báo, tạp chí, tạp

chí hoặc bất kỳ dạng tệp nào để xác minh tỷ lệ đạo văn,

trong giới hạn cho phép quy định.

Hình 2. Kiến trúc của mô hình (TAN - X.)

Thiết kế sơ đồ này bao gồm 4 loại đầu vào, -

1. So sánh nhiều tệp với tệp của bạn

2. Trình phát hiện đạo văn hai tập tin

3. Kiểm tra đạo văn tất cả các tập tin trong thư mục Hình 4. Thực hiện 2
thứ
khía cạnh của Trình kiểm tra đạo văn:

4. Tư vấn liên kết văn bản/đoạn văn tương tự

Giải thích 2:
ở phía người dùng và cơ chế mà mỗi đầu vào tuân theo trước khi Tùy chọn thứ 2 trong TAN-X cung cấp khả năng kiểm tra đạo
hiển thị đầu ra. Ngoài ra, nó còn liên quan đến các câu lệnh điều văn từng tệp một theo tiêu chuẩn. Quá trình này tuân theo
kiện cho sự lựa chọn của người dùng.
thuật toán khoảng cách Levenshtein để so sánh từng đoạn theo
Đầu vào thứ 5 dành cho lựa chọn lựa chọn không hợp lệ hoặc từng từ và chuỗi tương ứng.
chấm dứt thực hiện sau khi hoàn thành hiệu suất.

Việc thực hiện thực nghiệm và làm sáng tỏ các lý thuyết trên

được đưa ra như sau:

thứ
Hình 5. Thực hiện 3 khía cạnh của Trình kiểm tra đạo văn:

Hình 3. Thực thi khía cạnh thứ nhất của Trình kiểm tra đạo văn:

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google

Sr. Đạo văn Nhược điểm: Nghị quyết:


Giải thích 3:
KHÔNG. Người kiểm tra

Phần mềm
Phân tích so sánh của từng tệp với các tệp khác là yếu tố

chính của kết quả đầu ra này. Và do đó, hình thành một mô
1. Turnitin Một). Nó thiếu tính sẵn có Tôi). TAN-X sử dụng
hình tương đối giữa các nền văn học có đặc tính giống nhau.
của cơ sở dữ liệu tức là, “Truy vấn tìm kiếm

bài báo, tạp chí và công của Google” cho mô hình

trình kiểm tra.[5] thực hiện và do đó,

vượt qua

giới hạn cơ sở dữ liệu.

b). Turnitin không

giải quyết các vấn đề mà ii). TAN-X truyền đạt

nảy sinh học thuật liên kết cố vấn cho

vấn đề về tính toàn vẹn, thay bối cảnh đạo văn & giúp

vào đó hãy giải quyết nó bằng giải quyết vấn đề

các tham chiếu.[6] như tình cờ hoặc

vô tình

đạo văn.

2. Quetext Một). Giới hạn số từ Tôi). TAN-X

(tức là tối đa xử lý thành

2.500 từ miễn phí), công tới 20.000

chế độ người dùng từ trở lên tại một

trợ cấp thời điểm với chi phí

(tư cách thành viên).[7] thấp nhất.

b). Tính khả dụng và


quần què

Hình 6. Thực hiện 4 khía cạnh của Trình kiểm tra đạo văn: hiệu quả của các tính ii). TAN-X hoạt động

năng dành cho ứng dụng di tương tự trên cả

Giải thích 4: động tương đối ít. giao diện laptop

[8] và di động (tức là

Các tính năng quan trọng của trình kiểm tra đạo văn là so android, mac iOS, v.v.).

sánh văn bản trong cơ sở dữ liệu của hệ thống và cơ sở dữ

liệu như đám mây của Google có thể được sử dụng tiềm năng
Turnitin phải đối mặt với một vụ kiện cáo buộc sinh viên có
trong khi vận hành các tài liệu nhạy cảm với quyền truy cập
quyền sở hữu trí tuệ và sử dụng các bài viết trong cơ sở dữ
tối đa. Và đó chính xác là cách TAN-X mang lại trong tùy chọn
liệu của họ mà không có sự cho phép/lo ngại pháp lý.[6]
này.

E. Chứng minh toán học về độ chính xác của mô hình


D. Nghiên cứu tương tự

TAN - X. đạt độ chính xác khoảng 85% và xấp xỉ hơn. Độ chính


Turnitin, Quetext, PlagScan, Grammarly & Unicheck là những
xác của mô hình ứng viên theo thời gian thực đòi hỏi số lượng
chương trình phần mềm tiềm năng nhất được biết đến trong việc
thử nghiệm trong giai đoạn thử nghiệm. Và Tỷ lệ lỗi hoặc Lỗi
kiểm tra đạo văn.
dự đoán của mô hình, có khả năng là tỷ lệ phần trăm lỗi tổng

thể trong mô hình xác định độ chính xác, độ chính xác và tỷ


TAN - X. khắc phục những hạn chế của mình bằng các kỹ thuật
lệ lỗi trái ngược với các đơn vị đo khác. Công thức phần trăm
được xây dựng xuyên suốt trong nghiên cứu này và các phép
lỗi dự đoán như sau:
loại suy như sau:

BẢNG I. NGHIÊN CỨU TƯƠNG TỰ

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google

3. Độ chính xác tốt nhất có thể.

Hiệu suất của Link Advisor có thể cải thiện vì thư viện
BeautifulSoup có thể mang lại độ chính xác hơn 85%. Và thuật
toán Levenshtein trở thành yếu tố then chốt ấn tượng trong
mô hình. Bên cạnh những cải tiến về mẫu mã và tính năng,
người ta vẫn cho rằng nó có nhiều không gian hơn để sàng
Hình 7. Công thức tỷ lệ phần trăm lỗi dự đoán[9] lọc.

Do đó, theo dữ liệu trong Thực hiện 1 & 2


IV. CÁC TỪ VIẾT TẮT
các giá trị đo được và dự đoán của mô hình là:

PC - Trình kiểm tra đạo văn, GQS - Tìm kiếm truy vấn của Google,
Giá trị đo được = 29% = tỷ lệ đạo văn ban đầu trong tệp văn
LDA - Thuật toán khoảng cách Levenshtein, IPE - Lỗi tích cực sẵn
bản, Giá trị dự đoán =
có, PPE - Lỗi dự đoán tỷ lệ phần trăm.
28,81% = tỷ lệ đầu ra của mô hình đạo văn,

Ngoài ra, TAN - X. liên quan đến việc hạn chế giới thiệu V. KÝ HIỆU

các trang web rác, chiếm ít hơn 1% số trang web rác của
Miêu tả - miêu tả (ai đó hoặc một cái gì đó) trong một tác
Google (báo cáo blog từ Cody Kwok, Kỹ sư chính, Google, vào
phẩm nghệ thuật hoặc
năm 2018)[10] & 90,63% trong số không -các trang web đã
văn học, Bản địa - có nguồn gốc hoặc xảy ra tự nhiên ở một
truy cập (tức là không có lưu lượng truy cập từ Google)[11],
địa điểm cụ thể; bản địa,
80% các trang web bị tấn công sẽ bị xóa khỏi kết quả tìm
kiếm của Google[12] . Vi phạm - hành vi vi phạm hoặc không tuân thủ luật pháp,
thỏa thuận hoặc quy tắc ứng xử,
Vô ý - không cố ý, To lớn - cực kỳ lớn
Kết quả là
hoặc lớn, đặc biệt là về quy mô hoặc mức độ, Đáng chú ý -
Lỗi tích cực sẵn có = 1 + (90,63 - 80) = 11,63%.
đáng chú
ý; thú vị hoặc có ý nghĩa, Thực dụng - một người thực tế và
Ở đây, Lỗi tích cực sẵn có đề cập đến tác động tích cực của lỗi
trong mô hình. tập trung
vào việc đạt được mục tiêu, Notion - một quan niệm hoặc
niềm tin về điều
Bây giờ, nó kết luận tổng IPE trong công thức PPE:
gì đó,
Snag - một trở ngại hoặc nhược điểm bất ngờ hoặc tiềm ẩn,
Slacken - giảm hoặc giảm tốc độ hoặc cường độ, Mạch
PPE = {[ (mv - pv) / mv] × 100} + IPE (1)
lạc - (của một lập luận, lý thuyết hoặc chính sách) hợp lý
và nhất quán,
PPE = {[ (29 - 28,81) / 29] × 100} + 11,63 = 14,73 %
Từ vựng - liên quan đến các từ hoặc từ vựng của một ngôn
ngữ, Sự
Do đó,
giống nhau - trạng thái giống hoặc giống nhau, Giả thuyết
Độ chính xác của TAN - X. = 100 - Error (tức là
- dựa trên hoặc phục vụ như một giả thuyết,
PPE)
= 100 - PPE Thực nghiệm - dựa trên, liên quan hoặc có thể kiểm chứng
bằng quan sát hoặc kinh nghiệm hơn là lý thuyết hoặc logic

= 100 - 14,73 = 85,27 % thuần túy.


Akin - có tính chất hoặc tính cách tương tự.

Chứng minh - hành động xác nhận; tìm kiếm hoặc kiểm tra sự
tức là Độ chính xác của TAN - X. 85 %.
thật của một cái gì đó
Colossal - cực kỳ lớn hoặc tuyệt vời.
III. ĐỘ CHÍNH XÁC/ KẾT QUẢ CỦA MÔ HÌNH

NGƯỜI GIỚI THIỆU


Giai đoạn phát triển và thử nghiệm mô hình đã được thực hiện thành công, mang

lại kết quả như mong đợi: [1] Băutu, E. và Băutu, A., 2018, tháng 6. PlagZap: Một hệ thống

phát hiện đạo văn văn bản dành cho bài tập của sinh viên

1. Bộ dữ liệu khổng lồ để tìm kiếm đạo văn, được xây dựng bằng phần mềm nguồn mở. Tại Hội nghị quốc tế

2. 4 Cơ chế kiểm tra đạo văn có chủ đích, lần thứ 13 về các mô hình tính toán mềm ở

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.
Machine Translated by Google

Ứng dụng công nghiệp và môi trường (trang 500-

508). Springer, Chăm.

https://www.researchgate.net/figure/The-architecture-of-a-

textual-plagiarism-Detection-

systems_fig1_325628538

[2] Từ điển tiếng Phạn: Từ điển tiếng Phạn cho từ

Nhìn chằm chằm vào chữ T

[3] Canh Đẹp: Cạo Đẹp Với Canh Đẹp

Trong Python - Hướng dẫn

[4] Tương tự văn bản với khoảng cách Levenshtein trong Python | qua

Vatsal | Hướng tới khoa học dữ liệu.

[5] Phân tích ưu và nhược điểm của việc sử dụng Turnitin – The

LaSallian

[6] GIẢNG DẠY TẠI PITT: Turnitin ưu, nhược điểm và tốt nhất

thực hành | Thời báo Đại học

[7] Trang chủ Quetext: Quetext.

[8] Trang trợ giúp và hỗ trợ khách hàng của Quetext: Những trình duyệt

và thiết bị nào được hỗ trợ?

[9] Quang, W., Baraldo, M. và Furlanut, M., 1995.

Tính toán phần trăm lỗi dự đoán: ghi chú của người dùng.

Nghiên cứu dược lý, 32(4), tr.241-248.

Tính lỗi dự đoán phần trăm: Ghi chú của người dùng -

Khoa họcTrực tiếp

[10] Báo cáo webspam của Google: Cách chúng tôi chống lại webspam -

Báo cáo webspam 2017 | Blog của Trung tâm Google Tìm kiếm

[11] Báo cáo về trang web không có lưu lượng truy cập từ Google: 90,63%

nội dung không có lưu lượng truy cập từ Google. Và làm thế nào

để ở bên kia 9,37% [Nghiên cứu mới cho năm 2020]

[12] Báo cáo phân tích việc Google loại bỏ các trang web bị tấn công:

Google đã xóa hơn 80% trang web bị tấn công khỏi

kết quả tìm kiếm

Việc sử dụng được cấp phép được phép giới hạn ở: Trung tâm Khoa học Công nghệ và Thông tin (CESTI). Được tải xuống vào ngày 28 tháng 11 năm 2023 lúc 12:45:27 UTC từ IEEE Xplore. Hạn chế áp dụng.

You might also like