Báo Cáo Bài Tập Lớn

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤT
BÁO CÁO BÀI TẬP LỚN

Môn học: Các hệ cơ trở tri thức
Đề tài: Tìm hiểu phương pháp Lọc cộng tác dựa trên mô
hình (model-based CF) ngữ nghĩa
Giảng viên: Th.S Đặng Hữu Nghị

Sinh viên: Nguyễn Thị Huyền_2021050326
Nguyễn Văn Khánh_2021050352
Hà Nội, 5/2023
BTL Môn Các hệ cơ sở tri thức
MỤC LỤC
MỤC LỤC............................................................................................................2
KẾ HOẠCH THỰC HIỆN.................................................................................3
LỜI MỞ ĐẦU......................................................................................................3
NỘI DUNG...........................................................................................................4
I. Giới thiệu đề tài..........................................................................................4
1. Lọc cộng tác dựa trên mô hình.................................................................4
2. Mô hình ngữ nghĩa ẩn...............................................................................6
II. Cơ sở lý thuyết........................................................................................7
1. Xếp hạng tiềm ẩn......................................................................................7
2. Định nghĩa mô hình và cấu trúc phụ thuộc...............................................8
3. Lớp phân phối có điều kiện....................................................................10
4. Độ phức tạp tính toán..............................................................................10
5. Ưu điểm và nhược điểm của mô hình.....................................................11
III. Thực nghiệm..........................................................................................11
1. Tập dữ liệu..............................................................................................11
2. Chỉ số đánh giá.......................................................................................13
3. Giao thức đánh giá..................................................................................13
4. Kết quả dự đoán......................................................................................14
KẾT LUẬN........................................................................................................16
TÀI LIỆU THAM KHẢO................................................................................17
2
KẾ HOẠCH THỰC HIỆN
Stt Công việc Người thực hiện Tỉ lệ công việc
1 Tìm tài liệu và làm báo cáo Nguyễn Thị Huyền 50%
word
2 Tìm tài liệu và làm báo cáo Nguyễn Văn Khánh 50%
powerpoint
DANH SÁCH CÁC HÌNH ẢNH VÀ BẢNG BIỂU
Hình 1. Biểu diễn mô hình đồ họa của các phần mở rộng có thể có của mô hình pLSA
để bao gồm xếp hạng biến v...................................................................................10
Bảng 1: Kết quả các giá trị tốt nhất cho từng thuật toán..........................................15
Hình 2. Các thuật toán User – Based đối với bộ dữ liệu MovieLens........................15
Hình 3. Các thuật toán User – Based đối với bộ dữ liệu EachMovie........................15
Hình 4. Các thuật toán User – Based đối với bộ dữ liệu MovieLens.........................16
3
LỜI MỞ ĐẦU
Lọc cộng tác (CF) là thuật toán phổ biến cho các hệ thống đề xuất. Do đó, các
mặt hàng được đề xuất cho người dùng được xác định bằng cách khảo sát cộng
đồng của họ. CF có góc nhìn tốt vì nó có thể loại bỏ giới hạn đề xuất bằng cách
khám phá thêm các mục tiềm năng ẩn dưới cộng đồng. Những mặt hàng như vậy
có khả năng phù hợp với người dùng và chúng nên được giới thiệu cho người
dùng. Có hai cách tiếp cận chính cho CF: dựa trên bộ nhớ và dựa trên mô hình.
Thuật toán dựa trên bộ nhớ tải toàn bộ cơ sở dữ liệu vào bộ nhớ hệ thống và đưa
ra dự đoán cho đề xuất dựa trên cơ sở dữ liệu bộ nhớ nội tuyến đó. Nó đơn giản
nhưng gặp phải vấn đề về dữ liệu khổng lồ. Thuật toán dựa trên mô hình cố
gắng nén cơ sở dữ liệu khổng lồ vào một mô hình và thực hiện nhiệm vụ đề xuất
bằng cách áp dụng cơ chế tham chiếu vào mô hình này. CF dựa trên mô hình có
thể đáp ứng yêu cầu của người dùng ngay lập tức. Bài viết này khảo sát các kỹ
thuật phổ biến để thực hiện các thuật toán dựa trên mô hình. Chúng tôi cũng đưa
ra một ý tưởng mới cho cách tiếp cận dựa trên mô hình để đạt được độ chính xác
cao và giải quyết vấn đề ma trận thưa bằng cách áp dụng các kỹ thuật suy luận
dựa trên bằng chứng.
Trong quá trình nghiên cứu và hoàn thành vẫn còn nhiều thiếu sót, kính mong
nhận được sự nhận xét và góp ý của Thầy để bài báo cáo này được hoàn chỉnh
hơn.
Chúng em xin chân thành cảm ơn.
4
NỘI DUNG
I. Giới thiệu đề tài
1. Lọc cộng tác dựa trên mô hình.
Phương pháp Lọc cộng tác dựa trên mô hình (Model-Based Collaborative
Filtering) là một kỹ thuật đề xuất sản phẩm và dự đoán đánh giá của người dùng
dựa trên một mô hình toán học. Phương pháp này được phát triển từ Lọc cộng
tác dựa trên đánh giá của người dùng (User-Based Collaborative Filtering) và
Lọc cộng tác dựa trên sản phẩm (Item-Based Collaborative Filtering).
Lọc cộng tác nhằm mục đích tìm hiểu các mô hình dự đoán về sở thích, mối
quan tâm hoặc hành vi của người dùng từ dữ liệu cộng đồng, tức là cơ sở dữ liệu
về các tùy chọn người dùng có sẵn.
Lọc và truy xuất dựa trên nội dung được xây dựng dựa trên giả định cơ bản rằng
người dùng có thể xây dựng các truy vấn thể hiện sở thích hoặc nhu cầu thông
tin của họ về các tính năng nội tại của các mục được tìm kiếm. Trong vài trường
hợp, tuy nhiên, có thể khó xác định các mô tả phù hợp như từ khóa, chủ đề, thể
loại, v.v. có thể được sử dụng để mô tả chính xác sở thích. Tuy nhiên, trong
khác trường hợp, ví dụ, trong thương mại điện tử, người dùng có thể không biết
hoặc ít nhất không quan tâm đến lợi ích của họ. Trong cả hai trường hợp, người
ta muốn dự đoán sở thích của người dùng và đề xuất các mặt hàng mà không
yêu cầu người dùng phải trình bày rõ rang một truy vấn.
Lọc cộng tác là một công nghệ bổ sung cho lọc dựa trên nội dung và nhằm mục
đích tìm hiểu các mô hình dự đoán về sở thích của người dùng, sở thích hoặc
hành vi từ dữ liệu cộng đồng, nghĩa là cơ sở dữ liệu của người dùng có sẵn sở
thích. Lý tưởng nhất là đầu vào hoặc tương tác bổ sung của người dùng ngoài hồ
sơ được tạo từ các tương tác và quan sát trước đó là không cần thiết. Đến nay,
mô hình chi phối để thực hiện lọc cộng tác trong bộ giới thiệu hệ thống đã được
dựa trên hồi quy hàng xóm gần nhất hoặc kỹ thuật dựa trên bộ nhớ. Hầu như tất
5
cả các hệ thống gợi ý thế hệ đầu tiên đều sử dụng cùng một cách tiếp cận hai
bước cơ bản để lần đầu tiên xác định người dùng tương tự như một số người
dùng đang hoạt động mà đề xuất phải được đưa ra, sau đó tính toán các dự đoán
và đề xuất dựa trên sở thích và phán đoán của những người dùng tương tự hoặc
cùng chí hướng này.
Các phương pháp dựa trên bộ nhớ đã đạt đến mức phổ biến này, bởi vì chúng
đơn giản và trực quan ở cấp độ khái niệm đồng thời tránh được sự phức tạp của
giai đoạn xây dựng mô hình có khả năng tốn kém. Đồng thời, họ được coi là đủ
cho nhiều vấn đề trong thế giới thực. Tuy nhiên, có một số thiếu sót, bốn trong
số đó chúng tôi muốn chỉ ra ở đây: (i) Độ chính xác thu được bằng các phương
pháp dựa trên bộ nhớ có thể không tối ưu. kể từ khi đề nghị độ chính xác có lẽ là
yếu tố quan trọng nhất theo quan điểm của người dùng, việc cải thiện độ chính
xác là rất quan trọng đối với hầu hết các hệ thống đề xuất. (ii) Vì không mô hình
thống kê rõ ràng được xây dựng, không có gì thực sự được học từ hồ sơ người
dùng có sẵn và không thu được thông tin chi tiết chung nào. Do đó, dựa trên bộ
nhớ phương pháp chỉ được sử dụng hạn chế như các công cụ khai thác dữ liệu.
(iii) Các phương pháp dựa trên bộ nhớ không mở rộng tốt về các yêu cầu tài
nguyên của chúng (bộ nhớ và thời gian trên máy tính), trừ khi có các phép tính
gần đúng hơn—chẳng hạn như lấy mẫu con—được thực hiện. (iv) Rất khó để
điều chỉnh một cách có hệ thống các thuật toán dựa trên bộ nhớ để tối đa hóa
mục tiêu gắn liền với một nhiệm vụ cụ thể.
2. Mô hình ngữ nghĩa ẩn.
Phân tích ngữ nghĩa tiềm ẩn là một phương pháp xử lý ngôn ngữ tự nhiên phân
tích mối quan hệ giữa một bộ tài liệu và các thuật ngữ chứa trong đó. Nó sử
dụng phân tách giá trị đơn lẻ, một kỹ thuật toán học, để quét dữ liệu phi cấu trúc
nhằm tìm mối quan hệ ẩn giữa các thuật ngữ và khái niệm.
Phân tích ngữ nghĩa tiềm ẩn là một kỹ thuật truy xuất thông tin được cấp bằng
sáng chế vào năm 1988, mặc dù nguồn gốc của nó có từ những năm 1960.
6
Có một số nhược điểm đối với Phân tích ngữ nghĩa tiềm ẩn, vấn đề chính là nó
không có khả năng nắm bắt từ đa nghĩa (nhiều nghĩa của một từ). Biểu diễn
vectơ, trong trường hợp này, kết thúc dưới dạng trung bình cộng của tất cả các
nghĩa của từ trong ngữ liệu. Điều đó làm cho nó khó khăn để so sánh các tài
liệu.
Mô hình ngữ nghĩa ẩn là một trong những phương pháp được sử dụng trong
Model-Based Collaborative Filtering. Nó là một mô hình thống kê được sử dụng
để phân tích các mối quan hệ giữa các người dùng và sản phẩm dựa trên các yếu
tố tiềm ẩn. Mô hình ngữ nghĩa ẩn sử dụng ma trận phân rã để tìm ra các yếu tố
tiềm ẩn mà không cần biết chính xác những yếu tố đó là gì. Ma trận phân rã này
sẽ phân tích các tương tác giữa người dùng và sản phẩm để tìm ra các yếu tố ẩn
tiềm năng mà mỗi người dùng quan tâm đến. Khi đã tìm ra các yếu tố tiềm ẩn
này, phương pháp này sẽ dựa trên các yếu tố đó để đưa ra dự đoán cho các sản
phẩm mà người dùng chưa xem. Mô hình ngữ nghĩa ẩn cho phép giảm số chiều
của ma trận tương tác người dùng-sản phẩm để làm giảm chi phí tính toán và cải
thiện hiệu quả dự đoán. Nó cũng giúp giải quyết vấn đề khó khăn của Lọc cộng
tác dựa trên đánh giá của người dùng, đó là số lượng lớn các giá trị đánh giá
rỗng. Mô hình ngữ nghĩa ẩn cũng được sử dụng trong nhiều ứng dụng khác
nhau, bao gồm quảng cáo trực tuyến, khuyến nghị sản phẩm và phân tích dữ
liệu. Tuy nhiên, nó cũng đòi hỏi nhiều sự chú ý đến việc đánh giá và cải thiện
các mô hình của nó để có được kết quả tốt nhất.
Trong thế giới tối ưu hóa công cụ tìm kiếm, Lập chỉ mục ngữ nghĩa tiềm ẩn
(LSI) là một thuật ngữ thường được sử dụng thay cho Phân tích ngữ nghĩa tiềm
ẩn. Một số nhà tiếp thị tin rằng sử dụng LSI có thể cải thiện SEO trên trang. Tuy
nhiên, do có nhiều cách tiếp cận gần đây và tao nhã hơn để xử lý ngôn ngữ tự
nhiên, hiệu quả của LSI trong việc tối ưu hóa nội dung cho tìm kiếm là điều
đáng nghi ngờ.
Phân tích ngữ nghĩa tiềm ẩn là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, đặc
biệt là ngữ nghĩa phân phối, phân tích mối quan hệ giữa một tập hợp tài liệu và
7
các thuật ngữ mà chúng chứa bằng cách tạo ra một tập hợp các khái niệm liên
quan đến tài liệu và thuật ngữ. Mô hình ngữ nghĩa ẩn giả định rằng các từ gần
nghĩa sẽ xuất hiện trong các đoạn văn bản tương tự (giả thuyết phân phối). Một
ma trận chứa số lượng từ trên mỗi tài liệu (các hàng đại diện cho các từ duy nhất
và các cột đại diện cho mỗi tài liệu) được tạo từ một đoạn văn bản lớn và một kỹ
thuật toán học được gọi là phân tách giá trị số ít (SVD) được sử dụng để giảm số
lượng hàng trong khi vẫn duy trì cấu trúc tương tự giữa các cột. Các tài liệu sau
đó được so sánh bằng độ tương tự cosin giữa hai cột bất kỳ. Các giá trị gần bằng
1 biểu thị các tài liệu rất giống nhau trong khi các giá trị gần bằng 0 biểu thị các
tài liệu rất khác nhau.
Một kỹ thuật truy xuất thông tin sử dụng cấu trúc ngữ nghĩa tiềm ẩn đã được cấp
bằng sáng chế vào năm 1988 (Bằng sáng chế Hoa Kỳ 4,839,853, hiện đã hết
hạn) bởi Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman,
Thomas Landauer, Karen Lochbaum và Lynn Streeter. Trong bối cảnh ứng dụng
của nó để truy xuất thông tin, đôi khi nó được gọi là lập chỉ mục ngữ nghĩa tiềm
ẩn (LSI).
II. Cơ sở lý thuyết
1. Xếp hạng tiềm ẩn
Các miền chúng tôi xem xét bao gồm một nhóm người hoặc người dùng U =
{u1, ... , un}, một tập hợp các mục Y = { y1, ... , ym} và một tập hợp các xếp
hạng có thể có V. Giả sử các quan sát có sẵn cho các cặp người/đối tượng (u, y),
trong đó u ∈ U và y ∈ Y.Trong trường hợp cơ bản nhất, một quan sát sẽ chỉ là sự
xuất hiện đồng thời của u và y, đại diện cho các sự kiện như “người bạn mua sản
phẩm_y” hoặc “người bạn nhấp vào liên kết _y”, đôi khi còn được gọi là dữ liệu
ưu tiên ngầm định. Các trường hợp khác có thể cũng cung cấp xếp hạng rõ ràng
v ∈ V như một phần của quan sát. Đơn giản nhất trường hợp, đây sẽ là biến
phản hồi nhị phân v ∈ {−1, 1}, mô hình hóa các sự kiện như “người x
thích/không thích đối tượng y”. Nói chung, V có thể rời rạc hoặc liên tục, được
trang bị thang đo thứ tự hoặc số (tuyệt đối). Ví dụ: năm hoặc thang xếp hạng sáu
8
sao thường được sử dụng trong các hệ thống đề xuất phim như MovieLens hoặc
EachMovie.
Dữ liệu xếp hạng có thể được tóm tắt ngắn gọn ở định dạng bảng dưới dạng ma
trận n x m A, trong đó mỗi hàng sẽ tương ứng với một người dùng và mỗi cột
tương ứng với một mục. bên trong trường hợp xếp hạng ẩn, mỗi mục nhập aij
đại diện cho một biến đếm về tần suất người dùng ui đã chọn mục mục yj hoặc
tổng quát hơn là có bao nhiêu cặp (ui, yj) đã được quan sát. Trong trường hợp
xếp hạng rõ ràng, mỗi mục aij ∈ V ∪ {∅} sẽ hoặc tương ứng với một đánh giá,
aij ∈ V hoặc sẽ không được quan sát, aij = ∅. Thông báo rằng ma trận dữ liệu A
thường sẽ thưa thớt theo nghĩa là chỉ một phần nhỏ của các cặp (u, y) thực sự đã
từng được quan sát. Do đó, phần lớn các mục aij sẽ là 0 (xếp hạng ẩn) hoặc ∅
(xếp hạng rõ ràng).
2. Định nghĩa mô hình và cấu trúc phụ thuộc.
Latent Semantic Analysis (LSA) là một kỹ thuật xử lý ngôn ngữ tự nhiên được
sử dụng để phân tích mối quan hệ giữa một tập tài liệu và các thuật ngữ mà
chúng chứa. Nó dựa trên ý tưởng rằng những từ xuất hiện trong các bối cảnh
tương tự có xu hướng có ý nghĩa tương tự. LSA sử dụng các phương pháp toán
học như phân tích giá trị riêng (SVD) để xác định các mô hình trong cách sử
dụng các từ trong tài liệu. Nó chuyển đổi ma trận đếm tần suất từ thành một
không gian chiều thấp hơn, cho phép xác định các mối quan hệ ngữ nghĩa tiềm
ẩn giữa các từ và tài liệu. Kết quả của LSA là một tập hợp các "yếu tố tiềm ẩn"
đại diện cho các khái niệm hoặc chủ đề ẩn hiện trong các tài liệu. Những yếu tố
này có thể được sử dụng cho các nhiệm vụ như phân loại tài liệu, tìm kiếm
thông tin và hệ thống đề xuất. LSA đã được sử dụng trong rất nhiều ứng dụng,
bao gồm phân loại văn bản, tìm kiếm thông tin, phân tích chủ đề và phân tích
cảm xúc. Nó cũng đã được kết hợp với các kỹ thuật khác như phân cụm và học
sâu để cải thiện hiệu suất trong các nhiệm vụ xử lý ngôn ngữ tự nhiên.
LSA chủ yếu được sử dụng để tìm kiếm khái niệm và phân loại tài liệu tự động.
Tuy nhiên, nó cũng được sử dụng trong công nghệ phần mềm (để hiểu mã
9
nguồn), xuất bản (tóm tắt văn bản), tối ưu hóa công cụ tìm kiếm và các ứng
dụng khác.
Vì nhiều ứng dụng lọc cộng tác liên quan đến xếp hạng rõ ràng của người dùng,
mô hình pLSA cần được mở rộng một cách thích hợp. Chúng tôi sẽ tập trung
đầu tiên vào trường hợp xếp hạng được dự đoán cho các mục cố định (dự đoán
bắt buộc). Có hai cách khác nhau để tăng cường mô hình pLSA với một ngẫu
nhiên bổ sung biến v cho xếp hạng rõ ràng, như thể hiện trong Hình 1 (e) và 1
(f). Dự đoán xếp hạng sẽ phụ thuộc vào biến tiềm ẩn z và nó sẽ phụ thuộc trực
tiếp vào mục (biến thể (e)) hoặc người dùng (biến thể (f)). Mô hình pLSA tăng
cường là do đó không còn đối xứng theo nghĩa là cả hai loại thực thể, người
dùng và các mặt hàng, được đối xử khác nhau. Chúng tôi gọi biến thể đầu tiên là
phiên bản cộng đồng, vì người dùng chỉ ảnh hưởng đến dự đoán qua trung gian
z, nhưng không trực tiếp.Tương ứng, biến thể thứ hai sẽ được gọi là phiên bản
được phân loại, vì các mục chỉ tác động đến dự đoán thông qua z được cho là
mô hình mục loại hoặc loại. Tương tự, hai mô hình có thể được bắt nguồn từ dự
đoán miễn phí cách thức. Chúng được mô tả trong Hình 1(c) và 1(d). Mô hình
trong Hình 1(b) là quá hạn chế để có ích cho lọc cộng tác.
Hình 1. Biểu diễn mô hình đồ họa của các phần mở rộng có thể có của mô hình pLSA
để bao gồm xếp hạng biến v.
( a ) Mô tả mô hình pLSA cùng xuất hiện. Trong (b), đánh giá chỉ phụ thuộc vào
tiềm ẩn Biến đổi. (c) và (d) tương ứng với chế độ dự đoán miễn phí với người
dùng và vật phẩm hoán đổi cho nhau vai trò của họ. (e) và (f) lần lượt được suy
10
ra từ (c) và (d) bằng cách loại bỏ một cung, đó là cung thao tác tương ứng với dự
đoán bắt buộc.
3. Lớp phân phối có điều kiện
Mô hình đề xuất có hai thành phần, các hệ số hỗn hợp—trong đó biến thể cộng
đồng tương ứng với xác suất P(z|u)—và lớp có điều kiện phân phối xác suất P(v|
y, z). Trong khi các biến u và y là tự nhiên được coi là phân loại, một trong
những câu hỏi chính là làm thế nào để có thể quy mô của biến phản ứng v vào
tài khoản và làm thế nào để tham số hóa phân phối có điều kiện lớp. Trong phần
tiếp theo, chúng tôi sẽ tập trung vào tính cụ thể trên mô hình cộng đồng, nhưng
lập luận tương tự áp dụng cho phân loại biến thể mô hình.
Nếu bản thân v là một biến phân loại, chẳng hạn, chỉ lấy các giá trị nhị phân, v ∈
{−1, 1}, thì người ta có thể chỉ cần đưa ra các tham số xác suất thành công πy,z
∈ [0; 1] và xác định P(v| y, z) ≡ πy,z . Tổng quát hơn, người ta có thể tham số
hóa xác suất có điều kiện cho các biến phân loại theo cách sau (cf. Hofmann
[2001b])
P(v| y, z) = π vy , z , where v∈V π vy , z= 1.
Khi làm việc với thang đo số (tuyệt đối), chúng tôi đề xuất giới thiệu tham số vị
trí µy,z ∈ và tham số thang đo σy,z ∈ + cho mọi cộng đồng z và mọi mục y xác
định mô hình hỗn hợp Gaussian với người dùng cụ thể trọng lượng trộn
P(v| y, z) =
1
√2 πδ
exp −
[
( v − μ )2
2 δ2 ]
4. Độ phức tạp tính toán
Lượng dữ liệu có sẵn trong nhiều ứng dụng thực tế của các hệ thống đề xuất có
thể rất lớn và khả năng mở rộng của các thuật toán lọc cộng tác là một yếu tố
quan trọng để triển khai hệ thống thành công. Một phải phân biệt giữa độ phức
tạp tính toán ngoại tuyến và trực tuyến của một thuật toán. Các tài khoản cũ cho
các tính toán có thể được thực hiện trước, nghĩa là trước các dự đoán hoặc đề
11
xuất thực tế cho người dùng cụ thể phải được thực hiện. Cái sau xử lý những
tính toán chỉ có thể được thực hiện trong thời gian thực trong quá trình tương tác
với một người dùng cụ thể, bởi vì khó có thể tính toán trước tất cả các dự đoán
hoặc khuyến nghị có thể có trong trước hoặc do hồ sơ người dùng đang thay đổi
linh hoạt trong quá trình phiên trực tuyến.
5. Ưu điểm và nhược điểm của mô hình

 Ưu điểm:
+ Cấu trúc ngữ nghĩa ban đầu của không gian, cũng như kích thước ban đầu của
nó, được khôi phục bằng cách sử dụng phân tích LSA. Các kích thước mới của
phân tích LSA cung cấp sự thể hiện chính xác hơn các tài liệu và truy vấn.
+ LSA có thể giúp loại bỏ một số "nhiễu" khỏi dữ liệu bằng cách sử dụng biểu
diễn giảm. Tiếng ồn là dữ liệu có thể được mô tả là cách sử dụng không phổ
biến và không đáng kể của các thuật ngữ nhất định.
+ Dữ liệu được đặt trong không gian giảm theo cách phản ánh mối tương quan
trong việc sử dụng chúng trên các tài liệu và hỗ trợ truy xuất.
 Nhược điểm:
+ Vectơ LSA cần nhiều dung lượng lưu trữ. Mặc dù đã có nhiều tiến bộ trong
phương tiện lưu trữ điện tử, nhưng việc mất tính thưa thớt do dữ liệu lớn tiếp tục
là một hệ lụy nghiêm trọng hơn.
+ LSA hoạt động tốt đối với các tài liệu dài do số lượng nhỏ các vectơ ngữ cảnh
được sử dụng để mô tả từng tài liệu. Tuy nhiên, do kích thước lớn của dữ liệu,
cần có thêm không gian lưu trữ và thời gian tính toán, làm giảm hiệu quả của
LSA.
III. Thực nghiệm

1. Tập dữ liệu
Điểm chung các thuât toán dựa trên người sử dụng trong lọc cộng tác là dựa vào
kết quả đánh giá xếp hạng của các người sử dụng trên các sản phẩm được thu
12
thập trong quá khứ để tìm kiếm đưa ra mặt hàng tương tự tốt nhất cho người sử
dụng hiện tại. Do vậy, trong nghiên cứu này, chúng tôi sử dụng hai bộ dữ liệu
chuẩn sau để thử nghiệm đánh giá các thuật toán trên: MovieLens 100k là bộ dữ
liệu chuẩn dùng để đánh giá giải thuật lọc cộng tác, dữ liệu này được tập hợp từ
các đánh giá của người dùng tại website: http://movielens.umn.edu. Bộ dữ liệu
chứa các đánh giá (rating) của 943 người dùng cho 1682 bộ phim, mỗi người
dùng đánh giá ít nhất 20 bộ phim và bộ dữ liệu EachMovie bao gồm 72916
người dùng được đánh giá tổng số 2811983 cho 1628 bộ phim khác nhau
(https://grouplens.org/datasets/eachmovie).
Để huấn luyện, mỗi tập dữ liệu chúng tôi chia ra làm 2 phần, phần thứ nhất
chúng tôi chọn ngẫu nhiên 80% tập dữ liệu làm dữ liệu đầu vào và phần còn lại
là 20% chúng tôi dùng để test. Để chứng minh độ tin cậy của thuật toán cho ra
kết quả tốt nhất, chúng tôi tiến hành thí nghiệm trên bộ dữ liệu MovieLens bằng
cách thay đổi tập dữ liệu huấn luyện là 70% và 30% còn lại dùng để test. Và
chúng tôi ký hiệu các thuật toán như sau để hiển thị trên kết quả thí nghiệm:
Euclidean Distance Similarity(Euclidean)
Pearson Correlation degree(Pearson)
CosineSimilarity(Cosine)
Spearman rank Correlation coefficient(Spearman)
Mahattan distance(Manhattan)
LogLikelihoodSimilarity(llr)
TanimotoCoefficient(Tanimoto)
Tập dữ liệu EachMovie.
Dữ liệu được thu thập bởi Trung tâm Nghiên cứu Thiết bị Kỹ thuật số từ năm
1995 đến năm 1997. Có 1.623 mục (phim) trong bộ dữ liệu này và 61.265 hồ sơ
người dùng với tổng số hơn 2,1 triệu lượt xếp hạng. Do đó, số lượng xếp hạng
trung bình cho mỗi người dùng là khoảng 35. Thang xếp hạng là rời rạc, lấy các
13
giá trị từ 0 (không sao) đến 5 (năm sao), 2 với 5 là xếp hạng cao nhất và 0 là xếp
hạng thấp nhất. Xếp hạng trung bình trên tất cả các phiếu bầu được quan sát là ≈
3,03 và phương sai đánh giá chung là ≈ 1,48.
Tập dữ liệu EachMovie theo hiểu biết của chúng tôi là bộ dữ liệu lớn nhất có sẵn
công khai bộ dữ liệu để lọc cộng tác và sở hữu lợi thế là cung cấp xếp hạng
người dùng rõ ràng. Thực tế thứ hai cho phép chúng tôi nghiên cứu cả hai, lựa
chọn mục và dự đoán đánh giá.
2. Chỉ số đánh giá
Cài đặt đầu tiên chúng tôi đã điều tra giả định rằng mục tiêu của hệ thống là dự
đoán xếp hạng của người dùng. Do đó, chúng tôi giả sử rằng một mục y được
trình bày cho người dùng u và mục tiêu là dự đoán xếp hạng vˆ = g(u, y). Chúng
tôi đã sử dụng hai các hàm mất mát để đo độ lệch giữa xếp hạng dự đoán vˆ và
xếp hạng quan sát được v: độ lệch tuyệt đối |vˆ − v| và lỗi bình phương (vˆ − v)2.
Rủi ro thực nghiệm dựa trên các hàm mất mát này được tóm tắt là giá trị trung
bình lỗi tuyệt đối (MAE) và lỗi bình phương trung bình gốc (RMS). Ngoài ra
chúng tôi cũng đã đo lường sự mất mát không một, trong trường hợp đó, các dự
đoán đã được lượng tử hóa bằng cách làm tròn vˆ đến số nguyên gần nhất.
Trong cài đặt thứ hai, mục tiêu là dự đoán cả hai, mục đã chọn và đánh giá
tương ứng. Ở đây chúng tôi đã sử dụng điểm số cho các danh sách xếp hạng
được đề xuất.
∑ R ( u ,Tu )
R=1000
Σ u max R ( u , t ' )
3. Giao thức đánh giá

Chúng tôi đã sử dụng giao thức bỏ qua một lần để đánh giá dự đoán thu được độ
chính xác. Điều này có nghĩa là chúng tôi ngẫu nhiên loại bỏ chính xác một xếp
hạng cho mỗi người dùng sở hữu ít nhất số lượng tối thiểu M ≥ 2 xếp hạng được
quan sát và sau đó lấy trung bình hàm mất mát trên nhóm người dùng này để có
14
được ước tính rủi ro. Giao thức này đã được gọi là AllBut1 trong Breese et al.
[1998]. Hơn chính xác là chúng tôi đã loại bỏ một phiếu bầu cho mỗi người
dùng khỏi tập huấn luyện và các mô hình được đào tạo trên tập giảm này. Lưu ý
rằng điều này sử dụng ít dữ liệu hơn hơn mức yêu cầu, nhưng cho phép chúng
tôi sử dụng một mô hình duy nhất để đánh giá hiệu suất trung bình của mỗi lần
rời đi trên tất cả người dùng. Chúng tôi đã thay đổi M để điều tra độ chính xác
dự đoán cho người dùng có số lượng xếp hạng M tối thiểu có sẵn. Để thiết lập ý
nghĩa thống kê của những phát hiện, chúng tôi có lặp lại quy trình loại bỏ một
lần 200 lần với các hạt ngẫu nhiên khác nhau. Các con số được báo cáo là hiệu
suất trung bình được tính trung bình trong 200 lần chạy này.
4. Kết quả dự đoán

Trong thí nghiệm chúng tôi chọn người sử dụng gần nhất với M =200. Nhìn vào
kết quả MAE và RMSE (đối với bộ dữ liệu MovieLens) tại hình 1 cho thấy thuật
toán Euclidean cho ra kết quả tốt nhất. Tương tự đối với bộ dữ liệu EachMovie
kết quả MAE và RMSE tại hình 2 thuật toán Euclidean cũng cho ra kết quả tốt
nhất. Để quan sát kết quả rõ hơn chúng ta hãy nhìn vào kết quả giá trị chi tiết
cho từng thuật toán tại bảng 1.
Bảng 1: Kết quả các giá trị tốt nhất cho từng thuật toán
15
Hình 2. Các thuật toán User – Based đối với bộ dữ liệu MovieLens
Hình 3. Các thuật toán User – Based đối với bộ dữ liệu EachMovie
Hình 4 là kết quả mô phỏng của tập dữ liệu MovieLens sau khi thay đổi tập dữ
liệu huấn luyện và test. Kết quả cho thấy thuật toán Euclidean cũng cho ra kết
quả tốt nhất với giá trị MAE là 0.7421và RMSE là 0.9519.
16
Hình 4. Các thuật toán User – Based đối với bộ dữ liệu MovieLens
KẾT LUẬN
Chúng tôi đã trình bày một phương pháp mạnh mẽ để lọc và khai thác cộng tác
của dữ liệu người dùng dựa trên mô hình lớp tiềm ẩn thống kê. Phương pháp đạt
được đề xuất cạnh tranh và độ chính xác dự đoán, có khả năng mở rộng cao và
cực kỳ linh hoạt. Về mặt khái niệm, việc phân tách sở thích của người dùng
bằng cách sử dụng cộng đồng người dùng chồng chéo là một ý tưởng mới giúp
phân biệt rõ ràng điều này cách tiếp cận dựa trên bộ nhớ truyền thống cũng như
các phương pháp dựa trên mô hình trước đây.
Trong suốt quá trình nghiên cứu và hoàn thiện đề tài báo cáo, chúng em đã nhận
được sự hướng dẫn nhiệt tình của Thầy Đặng Hữu Nghị. Chúng em xin kính gửi
lời cảm ơn sâu sắc đến Thầy đã trực tiếp hướng dẫn chúng em hoàn thành đề tài
này. Trog quá trình học tập, tìm hiểu môn Các cơ sở tri thức nói chung và đề tài
báo cáo nói riêng, Thầy đã mang đến cho em những tiền đề căn bản và kiến
thức để tiếp cận, phân tích giải quyết vấn đề. Vì vậy mà em hoàn thành bài tiểu
luận của mình được tốt hơn.Có lẽ, kiến thức là vô hạn mà sự tiếp nhận kiến thức
17
của bản thân mỗi người luôn tồn tại những hạn chế nhất định. Do đó trong quá
trình hoàn thành bài tiểu luận sẽ không tránh khỏi những thiếu sót. Kính mong
nhận được sự góp ý từ Thầy để bài tiểu luận được hoàn thiện hơn.Lời cuối cùng,
em xin kính chúc Thầy sức khỏe, thành công và hạnh phúc.
Em xin chân thành cảm ơn.
TÀI LIỆU THAM KHẢO
[1] http://mainline.brynmawr.edu/Courses/cs380/fall2006/p89-hofmann.pdf
[2] https://www.analyticssteps.com/blogs/what-latent-semantic-analysis-nlp-
advantages-and-disadvantages
[3] https://123docz.net/document/12133169-machine-learning-co-ban-vu-
huu-tiep.htm
[4]
https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/290214/51408-
1729-155411-1-10-20201022.pdf
18

Báo Cáo Bài Tập Lớn

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Báo Cáo Bài Tập Lớn

Uploaded by

Copyright:

Available Formats

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤT

BÁO CÁO BÀI TẬP LỚN

Giảng viên: Th.S Đặng Hữu Nghị

KẾ HOẠCH THỰC HIỆN

Stt Công việc Người thực hiện Tỉ lệ công việc

DANH SÁCH CÁC HÌNH ẢNH VÀ BẢNG BIỂU

Chúng em xin chân thành cảm ơn.

2. Mô hình ngữ nghĩa ẩn.

2. Định nghĩa mô hình và cấu trúc phụ thuộc.

3. Lớp phân phối có điều kiện

P(v| y, z) = π vy , z , where v∈V π vy , z= 1.

5. Ưu điểm và nhược điểm của mô hình

III. Thực nghiệm

Euclidean Distance Similarity(Euclidean)

Pearson Correlation degree(Pearson)

Spearman rank Correlation coefficient(Spearman)

Tập dữ liệu EachMovie.

2. Chỉ số đánh giá

3. Giao thức đánh giá

4. Kết quả dự đoán

TÀI LIỆU THAM KHẢO

You might also like