Professional Documents
Culture Documents
Nhóm 6 Dịch What is Recommenrder 2
Nhóm 6 Dịch What is Recommenrder 2
Vì vậy, nguyên tắc cơ bản làm nền tảng cho hoạt động của các thuật toán
đề xuất là gì? Nguyên tắc cơ bản của khuyến nghị là tồn tại sự phụ thuộc
đáng kể giữa hoạt động lấy người dùng và vật phẩm làm trung tâm. Ví dụ:
người dùng quan tâm đến phim tài liệu lịch sử có nhiều khả năng quan tâm
đến phim tài liệu lịch sử hoặc chương trình giáo dục khác hơn là phim hành
động. Trong nhiều trường hợp, các danh mục mặt hàng khác nhau có thể
cho thấy mối tương quan đáng kể, mối tương quan này có thể được tận
dụng để đưa ra đề xuất chính xác hơn. Ngoài ra, các phần phụ thuộc có thể
xuất hiện ở mức độ chi tiết hơn của các mục riêng lẻ thay vì các danh mục.
Những sự phụ thuộc này có thể được tìm hiểu theo cách dựa trên dữ liệu từ
ma trận xếp hạng và mô hình kết quả được sử dụng để đưa ra dự đoán cho
người dùng mục tiêu. Số lượng mục được xếp hạng có sẵn cho người dùng
càng lớn thì càng dễ dàng đưa ra dự đoán chắc chắn về hành vi trong tương
lai của người dùng. Nhiều mô hình học tập khác nhau có thể được sử dụng
để hoàn thành nhiệm vụ này. Ví dụ: hành vi mua hoặc xếp hạng chung của
[Type here]
nhiều người dùng khác nhau có thể được tận dụng để tạo nhóm gồm những
người dùng tương tự quan tâm đến các sản phẩm tương tự. Sở thích và hành
động của các nhóm này có thể được tận dụng để đưa ra khuyến nghị cho
từng thành viên của các nhóm này.
Mô tả nói trên dựa trên một nhóm thuật toán đề xuất rất đơn giản, được
gọi là mô hình vùng lân cận. Họ này thuộc về một lớp mô hình rộng hơn,
được gọi là lọc cộng tác. Thuật ngữ "lọc cộng tác" đề cập đến việc sử dụng
xếp hạng từ nhiều người dùng theo cách cộng tác để dự đoán xếp hạng bị
thiếu. Trong thực tế, hệ thống gợi ý có thể phức tạp hơn và giàu dữ liệu
hơn, với nhiều loại dữ liệu phụ trợ khác nhau. Ví dụ: trong các hệ thống đề
xuất dựa trên nội dung, nội dung đóng vai trò chính trong quy trình đề xuất,
trong đó xếp hạng của người dùng và mô tả thuộc tính của các mặt hàng
được tận dụng để đưa ra dự đoán. Ý tưởng cơ bản là sở thích của người
dùng có thể được mô hình hóa dựa trên các thuộc tính (hoặc thuộc tính) của
các mục mà họ đã xếp hạng hoặc truy cập trước đây. Một khuôn khổ khác
là khuôn khổ của các hệ thống dựa trên tri thức, trong đó người dùng xác
định mối quan tâm của họ một cách tương tác và đặc tả người dùng được
kết hợp với kiến thức miền để đưa ra khuyến nghị. Trong các mô hình nâng
cao, dữ liệu theo ngữ cảnh, chẳng hạn như thông tin thời gian, kiến thức
bên ngoài, thông tin vị trí, thông tin xã hội hoặc thông tin mạng, có thể
được sử dụng.
Cuốn sách này sẽ nghiên cứu tất cả các loại hệ thống cơ bản, bao gồm
các hệ thống cộng tác, dựa trên nội dung và dựa trên tri thức. Chúng ta
cũng sẽ thảo luận về cả mô hình cơ bản và mô hình nâng cao của hệ thống
gợi ý trong các lĩnh vực khác nhau. Chúng tôi sẽ nghiên cứu các khía cạnh
khác nhau về tính mạnh mẽ của hệ thống gợi ý, chẳng hạn như mô hình tấn
công và việc xây dựng các mô hình đáng tin cậy. Ngoài ra, nhiều mô hình
đánh giá và lai ghép cho các hệ tư vấn sẽ được nghiên cứu kỹ lưỡng. Trong
chương này, mục tiêu là cung cấp một cái nhìn tổng quan về tính đa dạng
của công việc trong lĩnh vực hệ thống gợi ý, đồng thời liên hệ các chủ đề
khác nhau với các chương riêng lẻ của cuốn sách này.
Chương này được tổ chức như sau. Phần 1.2 thảo luận về các mục tiêu
chính của hệ thống tư vấn. Phần 1.3 sẽ giới thiệu các mô hình cơ bản và
phương pháp đánh giá được sử dụng trong các hệ tư vấn. Việc sử dụng hệ
thống gợi ý trong các miền dữ liệu khác nhau được thảo luận trong phần
1.4. Các mô hình nâng cao cho hệ thống tư vấn được thảo luận trong phần
1.5. Phần 1.6 thảo luận về kết luận và tóm tắt.
1.2 Mục tiêu của hệ thống gợi ý
Trước khi thảo luận về mục tiêu của hệ thống gợi ý, chúng tôi giới thiệu
những cách khác nhau để hình thành vấn đề gợi ý. Hai mô hình chính như
sau:
1. Phiên bản dự đoán của vấn đề: Cách tiếp cận đầu tiên là dự đoán giá trị
xếp hạng cho sự kết hợp mục người dùng. Giả định rằng dữ liệu huấn
luyện có sẵn, cho biết sở thích của người dùng đối với các mục. Đối
với m người dùng và n mục, điều này tương ứng với ma trận mxn
không đầy đủ, trong đó các giá trị được chỉ định (hoặc được quan sát)
được sử dụng để huấn luyện. Các giá trị còn thiếu (hoặc không được
quan sát) được dự đoán bằng mô hình đào tạo này. Vấn đề này còn
được gọi là vấn đề hoàn thành ma trận vì chúng ta có một ma trận giá
trị được chỉ định không đầy đủ và các giá trị còn lại được dự đoán bởi
thuật toán học.
2. Phiên bản xếp hạng của bài toán: Trong thực tế, không cần thiết phải
dự đoán đánh giá của người dùng đối với các mặt hàng cụ thể để đưa
ra khuyến nghị cho người dùng. Thay vào đó, người bán có thể muốn
giới thiệu các mặt hàng top-k cho một người dùng cụ thể hoặc xác
định những người dùng top-k để nhắm mục tiêu cho một mặt hàng cụ
thể. Việc xác định các mục top-k phổ biến hơn việc xác định người
dùng top-k, mặc dù các phương pháp trong hai trường hợp hoàn toàn
giống nhau. Xuyên suốt cuốn sách này, chúng ta sẽ chỉ thảo luận về
việc xác định các mục top-k, bởi vì đây là cách thiết lập phổ biến hơn.
Bài toán này còn được gọi là bài toán đề xuất top-k và nó là công thức
xếp hạng của bài toán đề xuất.
Trong trường hợp thứ hai, giá trị tuyệt đối của xếp hạng dự đoán là không
quan trọng. Công thức đầu tiên tổng quát hơn, bởi vì giải pháp cho trường
hợp thứ hai có thể được rút ra bằng cách giải công thức đầu tiên cho các kết
hợp mục người dùng khác nhau và sau đó xếp hạng các dự đoán. Tuy
nhiên, trong nhiều trường hợp, việc thiết kế các phương pháp giải trực tiếp
phiên bản xếp hạng của bài toán sẽ dễ dàng và tự nhiên hơn. Những
phương pháp như vậy sẽ được thảo luận ở Chương 13.
Tăng doanh số bán sản phẩm là mục tiêu chính của hệ thống giới thiệu.
Suy cho cùng, hệ thống gợi ý được người bán sử dụng để tăng lợi nhuận
của họ. Bằng cách đề xuất các mục được lựa chọn cẩn thận cho người dùng,
hệ thống đề xuất sẽ thu hút sự chú ý của người dùng về các mục có liên
quan. Điều này làm tăng khối lượng bán hàng và lợi nhuận cho người bán.
Mặc dù mục tiêu chính của hệ thống đề xuất là tăng doanh thu cho người
bán, nhưng mục tiêu này thường đạt được theo những cách ít rõ ràng hơn so
với cái nhìn đầu tiên. Để đạt được mục tiêu rộng hơn là tăng doanh thu lấy
doanh nghiệp làm trung tâm, các mục tiêu hoạt động và kỹ thuật chung của
hệ thống gợi ý như sau:
1. Mức độ liên quan: Mục tiêu hoạt động rõ ràng nhất của hệ thống gợi ý
là đề xuất các mục có liên quan đến người dùng hiện tại. Người dùng
có nhiều khả năng tiêu thụ những mặt hàng mà họ thấy thú vị hơn.
Mặc dù mức độ liên quan là mục tiêu hoạt động chính của hệ thống tư
vấn nhưng nếu đứng riêng lẻ thì nó vẫn chưa đủ. Do đó, chúng tôi thảo
luận về một số mục tiêu phụ dưới đây, không quan trọng bằng mức độ
phù hợp nhưng vẫn đủ quan trọng để có tác động đáng kể.
2. Tính mới: Hệ thống gợi ý thực sự hữu ích khi mặt hàng được đề xuất
là thứ mà người dùng chưa từng thấy trước đây. Ví dụ: những bộ phim
nổi tiếng thuộc thể loại ưa thích sẽ hiếm khi mới lạ đối với người
dùng. Khuyến nghị lặp đi lặp lại các mặt hàng phổ biến cũng có thể
dẫn đến giảm tính đa dạng trong doanh số bán hàng [203].
3. Tình cờ: Một khái niệm liên quan là tình cờ [229], trong đó các mục
được đề xuất hơi bất ngờ, và do đó có một yếu tố khiêm tốn của khám
[Type here]
phá may mắn, trái ngược với các khuyến nghị hiển nhiên. Serendipity
khác với tính mới ở chỗ các đề xuất thực sự gây ngạc nhiên cho người
dùng, thay vì chỉ đơn giản là điều họ chưa biết trước đây. Thông
thường, có thể xảy ra trường hợp một người dùng cụ thể chỉ tiêu thụ
các mặt hàng thuộc một loại cụ thể, mặc dù mối quan tâm tiềm ẩn đối
với các mặt hàng thuộc loại khác có thể tồn tại mà bản thân người
dùng có thể thấy ngạc nhiên. Không giống như sự mới lạ, các phương
pháp tình cờ tập trung vào việc khám phá những đề xuất như vậy.
Ví dụ: nếu một nhà hàng Ấn Độ mới mở ở khu vực lân cận thì đề xuất
về nhà hàng đó cho người dùng thường ăn đồ ăn Ấn Độ là mới lạ
nhưng không nhất thiết phải là ngẫu nhiên. Mặt khác, khi cùng một
người dùng được giới thiệu món ăn Ethiopia và người dùng không biết
rằng món ăn đó có thể hấp dẫn cô ấy, thì lời đề xuất đó là tình cờ.
Serendipity có tác dụng phụ có lợi là tăng tính đa dạng trong bán hàng
hoặc bắt đầu một xu hướng mới được người dùng quan tâm. Việc tăng
cường khả năng tình cờ thường mang lại lợi ích lâu dài và chiến lược
cho người bán vì khả năng khám phá các lĩnh vực quan tâm hoàn toàn
mới. Mặt khác, các thuật toán cung cấp đề xuất ngẫu nhiên thường có
xu hướng đề xuất các mục không liên quan. Trong nhiều trường hợp,
lợi ích chiến lược và lâu dài của các phương pháp tình cờ sẽ lớn hơn
những bất lợi ngắn hạn này.
4. Tăng tính đa dạng của đề xuất: Hệ thống đề xuất thường đề xuất danh
sách các mục hàng đầu. Khi tất cả các mặt hàng được đề xuất này rất
giống nhau, sẽ làm tăng nguy cơ người dùng có thể không thích bất kỳ
mặt hàng nào trong số này. Mặt khác, khi danh sách được đề xuất chứa
các mục thuộc nhiều loại khác nhau, có nhiều khả năng người dùng sẽ
thích ít nhất một trong các mục này. Sự đa dạng có lợi ích là đảm bảo
rằng người dùng không cảm thấy nhàm chán khi được đề xuất lặp đi
lặp lại các mặt hàng tương tự.
Bên cạnh những mục tiêu cụ thể này, một số mục tiêu mềm cũng được đáp
ứng bởi quy trình đề xuất cả từ góc độ của người dùng và người bán. Từ
quan điểm của người dùng, các đề xuất có thể giúp cải thiện sự hài lòng
chung của người dùng đối với trang Web. Ví dụ: người dùng liên tục nhận
được các đề xuất có liên quan từ Amazon.com sẽ hài lòng hơn với trải
nghiệm này và có nhiều khả năng sử dụng lại trang web hơn. Điều này có
thể cải thiện lòng trung thành của người dùng và tăng thêm doanh số bán
hàng tại trang web. Ở phía người bán, quy trình đề xuất có thể cung cấp
thông tin chi tiết về nhu cầu của người dùng và giúp tùy chỉnh trải nghiệm
người dùng hơn nữa. Cuối cùng, việc cung cấp cho người dùng lời giải
thích tại sao một mục cụ thể được đề xuất thường hữu ích. Ví dụ: trong
trường hợp của Netflix, các đề xuất được cung cấp cùng với các bộ phim đã
xem trước đó. Như chúng ta sẽ thấy sau, một số thuật toán đề xuất phù hợp
hơn để đưa ra lời giải thích so với các thuật toán khác.
Có rất nhiều loại sản phẩm được các hệ thống như vậy khuyên dùng.
Một số hệ thống giới thiệu, chẳng hạn như Facebook, không trực tiếp giới
thiệu sản phẩm. Thay vào đó, họ có thể đề xuất các kết nối xã hội mang lại
lợi ích gián tiếp cho trang web bằng cách tăng khả năng sử dụng và lợi
nhuận quảng cáo. Để hiểu bản chất của những mục tiêu này, chúng ta sẽ
thảo luận về một số ví dụ phổ biến về hệ thống tư vấn trong lịch sử và hiện
tại. Những ví dụ này cũng sẽ thể hiện sự đa dạng rộng rãi của các hệ thống
gợi ý được xây dựng dưới dạng nguyên mẫu nghiên cứu hoặc hiện có dưới
dạng hệ thống thương mại trong các bối cảnh vấn đề khác nhau.
mô hình đã được thiết kế (xem phần 3.6.4.6 của Chương 3) để cùng giải
thích các phản hồi rõ ràng và ngầm trong quá trình đề xuất.
bài viết được cá nhân hóa cho người dùng cụ thể. Mô tả về hệ thống lọc
cộng tác dành cho Google News được cung cấp trong [175]. Thông tin chi
tiết hơn về công cụ cá nhân hóa Google Tin tức được thảo luận trong phần
13.8.1.2 của Chương 13.
nhau. Nếu xếp hạng mà cả hai đều đã chỉ định rất giống nhau thì sự giống
nhau của chúng có thể được xác định bằng thuật toán cơ bản. Trong những
trường hợp như vậy, rất có thể các xếp hạng mà chỉ một trong số chúng xác
định một giá trị cũng có khả năng tương tự nhau. Sự giống nhau này có thể
được sử dụng để đưa ra suy luận về các giá trị được chỉ định không đầy đủ.
Hầu hết các mô hình lọc cộng tác đều tập trung vào việc tận dụng mối
tương quan giữa các mục hoặc mối tương quan giữa các người dùng cho
quá trình dự đoán. Một số mô hình sử dụng cả hai loại tương quan. Hơn
nữa, một số mô hình sử dụng các kỹ thuật tối ưu hóa được thiết kế cẩn thận
để tạo ra một mô hình đào tạo gần giống nhau.
cách trình phân loại tạo mô hình huấn luyện từ dữ liệu được dán nhãn. Sau
đó, mô hình này được sử dụng để xác định các giá trị còn thiếu trong ma
trận, giống như cách mà bộ phân loại áp đặt các nhãn kiểm tra bị thiếu. Có
hai loại phương pháp thường được sử dụng trong lọc cộng tác, được gọi là
phương pháp dựa trên bộ nhớ và phương pháp dựa trên mô hình:
1. Phương pháp dựa trên bộ nhớ: Phương pháp dựa trên bộ nhớ còn được
gọi là thuật toán lọc cộng tác dựa trên vùng lân cận. Đây là một trong
những thuật toán lọc cộng tác sớm nhất, trong đó xếp hạng của các kết
hợp mục người dùng được dự đoán dựa trên các vùng lân cận của
chúng. Những vùng lân cận này có thể được xác định theo một trong
hai cách:
• Lọc cộng tác dựa trên người dùng: Trong trường hợp này, xếp
hạng được cung cấp bởi những người dùng có cùng quan điểm của
người dùng mục tiêu A được sử dụng để đưa ra đề xuất cho A. Do
đó, ý tưởng cơ bản là xác định những người dùng tương tự như
mục tiêu người dùng A và đề xuất xếp hạng cho xếp hạng không
được quan sát của A bằng cách tính giá trị trung bình có trọng số
của xếp hạng của nhóm ngang hàng này. Do đó, nếu Alice và Bob
đã xếp hạng phim theo cách tương tự trong quá khứ thì người ta có
thể sử dụng xếp hạng được quan sát của Alice trên phim Kẻ hủy
diệt để dự đoán xếp hạng không được quan sát của Bob trên bộ
phim này. Nói chung, k người dùng giống Bob nhất có thể được
sử dụng để đưa ra dự đoán xếp hạng cho Bob. Các hàm tương tự
được tính toán giữa các hàng của ma trận xếp hạng để tìm ra
những người dùng tương tự.
• Lọc cộng tác dựa trên mục: Để đưa ra dự đoán xếp hạng cho mục
tiêu B của người dùng A, bước đầu tiên là xác định tập S gồm các
mục giống nhất với mục tiêu B. Xếp hạng trong bộ mục S, là do A
chỉ định, được sử dụng để dự đoán liệu người dùng A có thích
mục B hay không. Do đó, xếp hạng của Bob trên các bộ phim
khoa học viễn tưởng tương tự như Alien và Predator có thể được
sử dụng để dự đoán xếp hạng của anh ấy về Terminator. Các hàm
tương tự được tính toán giữa các cột của ma trận xếp hạng để
khám phá các mục tương tự.
Ưu điểm của các kỹ thuật dựa trên trí nhớ là chúng dễ thực hiện và các
khuyến nghị thu được thường dễ giải thích. Mặt khác, các thuật toán
dựa trên bộ nhớ không hoạt động tốt với các ma trận xếp hạng thưa
thớt. Ví dụ: có thể khó tìm được những người dùng đủ giống Bob,
người đã xếp hạng Gladiator. Trong những trường hợp như vậy, thật
khó để dự đoán chính xác đánh giá của Bob về Gladiator. Nói cách
khác, những phương pháp như vậy có thể thiếu khả năng bao quát đầy
đủ các dự đoán xếp hạng. Tuy nhiên, việc thiếu phạm vi phủ sóng
thường không phải là vấn đề khi chỉ yêu cầu các mục top-k. Các
phương pháp dựa trên bộ nhớ sẽ được thảo luận chi tiết trong Chương
2.
2. Phương pháp dựa trên mô hình: Trong các phương pháp dựa trên mô
hình, phương pháp học máy và khai thác dữ liệu được sử dụng trong
bối cảnh các mô hình dự đoán. Trong trường hợp mô hình được tham
số hóa, các tham số của mô hình này sẽ được học trong bối cảnh
khung tối ưu hóa. Một số ví dụ về các phương pháp dựa trên mô hình
như vậy bao gồm cây quyết định, mô hình dựa trên quy tắc, phương
pháp Bayes và mô hình nhân tố tiềm ẩn. Nhiều phương pháp trong số
này, chẳng hạn như mô hình nhân tố tiềm ẩn, có mức độ bao phủ cao
ngay cả đối với các ma trận xếp hạng thưa thớt. Các thuật toán lọc
cộng tác dựa trên mô hình được thảo luận trong Chương 3.
Mặc dù các thuật toán lọc cộng tác dựa trên bộ nhớ được đánh giá cao vì
tính đơn giản của chúng nhưng chúng có xu hướng mang tính chất phỏng
đoán và không hoạt động tốt trong mọi cài đặt.
Hình 1.2: Ví dụ về xếp hạng thứ tự được sử dụng trong đánh giá khóa học
của Đại học Stanford
các phương pháp dựa trên bộ nhớ cũng có thể được coi là các mô hình dựa
trên sự tương đồng, mặc dù là các mô hình heuristic. Trong phần 2.6 của
Chương 2, cũng sẽ chỉ ra rằng một số biến thể của phương pháp dựa trên
vùng lân cận có thể được biểu diễn chính thức dưới dạng mô hình dựa trên
hồi quy. Các mô hình yếu tố tiềm ẩn đã được phổ biến rộng rãi trong những
năm sau đó nhờ cuộc thi Giải thưởng Netflix, mặc dù các thuật toán tương
tự đã được đề xuất sớm hơn nhiều trong bối cảnh các tập dữ liệu (chung)
không đầy đủ [24]. Gần đây, người ta đã chứng minh rằng một số kết hợp
phương pháp dựa trên bộ nhớ và dựa trên mô hình [309] mang lại kết quả
rất chính xác.
một mục bị thiếu tương đối mơ hồ. Nói cách khác, ma trận trong Hình
1.3(b) ít biểu cảm hơn. Trong khi Hình 1.3(b) cung cấp một ví dụ về ma
trận nhị phân, các phần tử khác 0 có thể có giá trị dương tùy ý. Ví dụ:
chúng có thể tương ứng với số lượng mặt hàng được mua bởi những người
dùng khác nhau. Nói chung, ma trận một ngôi được tạo bởi hành động của
người dùng chẳng hạn như mua một mặt hàng và do đó còn được gọi là ma
trận phản hồi ngầm.
Xếp hạng đơn nhất có ảnh hưởng đáng kể đến thuật toán đề xuất hiện tại
vì không có thông tin nào về việc người dùng có không thích một mặt hàng
hay không. Trong trường hợp ma trận một ngôi, người ta thường khuyên
[260] thực hiện phân tích một cách đơn giản bằng cách coi các phần tử còn
thiếu là O trong giai đoạn đầu. Tuy nhiên, giá trị dự đoán cuối cùng của
thuật toán học có thể lớn hơn 0 rất nhiều, đặc biệt nếu mục đó phù hợp với
sở thích của người dùng. Do đó, các mục được đề xuất dựa trên các mục có
sai số dự đoán dương lớn nhất so với giả định "không" ban đầu. Trong thực
tế, nếu các mục bị thiếu không được thay thế bằng O thì có thể xảy ra hiện
tượng trang bị quá mức đáng kể. Kiểu trang bị quá mức này là sự giả tạo
của thực tế là thường không có đủ mức độ phân biệt giữa các giá trị xếp
hạng được quan sát khác nhau. Trong ma trận phản hồi rõ ràng, xếp hạng
tương ứng với các ưu tiên (có tính phân biệt cao), trong khi ở ma trận phản
hồi ngầm, xếp hạng tương ứng với độ tin cậy (ít phân biệt đối xử). Trong
chương sau, chúng tôi sẽ cung cấp một ví dụ cụ thể về việc trang bị quá
mức với ma trận phản hồi ngầm khi các mục bị thiếu không được coi là số
0 (xem phần 3.6.6.2 của Chương 3).
Việc thay thế trước các xếp hạng bị thiếu không được khuyến nghị trong
các ma trận xếp hạng rõ ràng. Trong ma trận xếp hạng rõ ràng có cả lượt
thích và lượt không thích, việc thay thế các mục bị thiếu bằng bất kỳ giá trị
nào (chẳng hạn như 0 hoặc cột hàng/trung bình dữ liệu) luôn dẫn đến mức
độ sai lệch đáng kể trong phân tích. Trong trường hợp đơn nhất, việc thay
thế các mục bị thiếu bằng O cũng dẫn đến một số sai lệch [457, 467, 468],
mặc dù nó thường nhỏ vì giả định mặc định trong dữ liệu phản hồi ngầm,
chẳng hạn như dữ liệu mua hàng, là người dùng sẽ không mua nhiều nhất.
của các mặt hàng. Người ta thường sẵn sàng chấp nhận sự thiên vị này
trong trường hợp đơn nhất, bởi vì sự thay thế giảm đáng kể lượng trang bị
quá mức đáng kể. Ngoài ra còn có một số hiệu ứng tính toán thú vị của
những lựa chọn như vậy. Những sự đánh đổi này được thảo luận trong
Chương 2 và 3.
1.3.1.2 Mối quan hệ với phân tích giá trị bị thiếu
Các mô hình lọc cộng tác có liên quan chặt chẽ đến việc phân tích giá trị
còn thiếu. Các tài liệu truyền thống về phân tích giá trị còn thiếu nghiên
cứu vấn đề gán các mục trong một ma trận dữ liệu được chỉ định không đầy
đủ. Lọc cộng tác có thể được xem như một trường hợp đặc biệt (khó) của
bài toán này trong đó ma trận dữ liệu cơ bản rất lớn và thưa thớt. Có thể tìm
thấy thảo luận chi tiết về các phương pháp phân tích giá trị còn thiếu trong
tài liệu thống kê trong [362]. Nhiều phương pháp trong số này cũng có thể
được sử dụng cho các hệ thống tư vấn, mặc dù một số trong số chúng có
thể yêu cầu những điều chỉnh chuyên biệt cho các ma trận rất lớn và thưa
thớt. Trên thực tế, một số loại mô hình gần đây dành cho hệ thống tư vấn,
chẳng hạn như mô hình nhân tố tiềm ẩn, đã được nghiên cứu trước đó trong
bối cảnh phân tích giá trị còn thiếu [24]. Các phương pháp tương tự đã
được đề xuất độc lập trong bối cảnh các hệ thống gợi ý [252, 309, 313, 500,
517, 525]. Nói chung, nhiều phương pháp ước lượng giá trị thiếu cổ điển
[362] cũng có thể được sử dụng để lọc cộng tác.
1.3.1.3 Lọc cộng tác như một sự tổng quát hóa của mô hình phân loại và
hồi quy
Các phương pháp lọc cộng tác có thể được xem như là sự khái quát hóa của
mô hình phân loại và hồi quy. Trong các bài toán mô hình phân loại và hồi
quy, lớp/biến phụ thuộc có thể được xem như một thuộc tính bị thiếu các
giá trị. Các cột khác được coi là đặc điểm/biến độc lập. Vấn đề lọc cộng tác
1.4. 19
có thể được xem như một sự khái quát hóa của khung này vì bất kỳ cột nào
cũng được phép thiếu các giá trị thay vì (chỉ) biến lớp. Trong vấn đề
khuyến nghị, có sự phân biệt rõ ràng
1.
không tồn tại giữa các biến lớp và biến đặc trưng vì mỗi đặc tính đóng vai
trò kép là biến phụ thuộc và biến độc lập. Sự khác biệt này tồn tại trong vấn
đề phân loại chỉ vì các mục bị thiếu được giới hạn trong một cột đặc biệt.
Hơn nữa, không có sự phân biệt giữa các hàng huấn luyện và kiểm tra trong
lọc cộng tác vì bất kỳ hàng nào cũng có thể chứa các mục bị thiếu. Do đó,
sẽ có ý nghĩa hơn khi nói về các mục huấn luyện và kiểm tra trong lọc cộng
tác hơn là các hàng huấn luyện và kiểm tra. Lọc cộng tác là sự tổng quát
hóa của mô hình phân loại/hồi quy trong đó dự đoán được thực hiện theo
kiểu đầu vào thay vì kiểu theo hàng. Cần ghi nhớ mối quan hệ giữa mô
hình phân loại/hồi quy và lọc cộng tác vì nhiều nguyên tắc về phương pháp
mô hình phân loại và hồi quy có thể được khái quát hóa cho các hệ thống
đề xuất. Mối quan hệ giữa hai vấn đề được minh họa trong Hình 1.4. Hình
này đặc biệt hữu ích trong việc liên hệ giữa lọc cộng tác với phân loại và nó
sẽ được xem lại nhiều lần trong cuốn sách này. bất cứ nơi nào những điểm
tương đồng giữa hai vấn đề này được tận dụng theo một cách nào đó để
phát triển thuật toán hoặc lý thuyết.
Bài toán hoàn thiện ma trận cũng có một số đặc điểm với cài đặt quy nạp
trong phân loại và hồi quy. Trong cài đặt chuyển đổi, các trường hợp kiểm
tra cũng được đưa vào quá trình đào tạo (thường sử dụng thuật toán bán
giám sát) và thường khó đưa ra dự đoán cho các trường hợp kiểm tra không
có sẵn tại thời điểm đào tạo. Mặt khác, các mô hình trong đó có thể dễ dàng
đưa ra dự đoán cho các trường hợp mới được gọi là mô hình quy nạp. Ví
dụ, một mô hình Bayes đơn giản trong phân loại vốn có tính chất quy nạp
vì người ta có thể dễ dàng sử dụng nó để dự đoán nhãn của một thể hiện
thử nghiệm mà các đặc điểm chưa được biết đến tại thời điểm xây dựng mô
hình Bayes.
Cài đặt để hoàn thành ma trận vốn có tính chất chuyển nạp vì dữ liệu
huấn luyện và kiểm tra được tích hợp chặt chẽ với nhau trong ma trận xếp
hạng m >< n R và nhiều mô hình không thể dễ dàng dự đoán xếp hạng cho
người dùng và/hoặc hạng mục ngoài mẫu. Ví dụ: nếu John được thêm vào
ma trận xếp hạng (với nhiều xếp hạng được chỉ định) sau khi mô hình lọc
cộng tác đã được xây dựng, nhiều phương pháp sẵn có sẽ không thể đưa ra
dự đoán cho John. Điều này đặc biệt đúng với các phương pháp lọc cộng
tác dựa trên mô hình. Tuy nhiên, một số mô hình hoàn thiện ma trận gần
đây cũng đã được thiết kế theo mô hình quy nạp trong đó xếp hạng có thể
được dự đoán cho những người dùng và/hoặc vật phẩm ngoài mẫu.
1.3.2 Hệ thống gợi ý dựa trên nội dung
Trong các hệ thống gợi ý dựa trên nội dung, các thuộc tính mô tả của các
mục được sử dụng để đưa ra gợi ý. Thuật ngữ "nội dung" đề cập đến những
mô tả này. Trong phương pháp dựa trên nội dung, xếp hạng và hành vi mua
hàng của người dùng được kết hợp với thông tin nội dung có sẵn trong các
mục. Ví dụ: hãy xem xét tình huống trong đó John đã đánh giá cao bộ phim
Kẻ hủy diệt nhưng chúng ta không có quyền truy cập vào xếp hạng của
những người dùng khác. Do đó, các phương pháp lọc cộng tác bị loại trừ.
Tuy nhiên, phần mô tả mục của Kẻ hủy diệt chứa các từ khóa thể loại tương
tự như các phim khoa học viễn tưởng khác, chẳng hạn như Người ngoài
hành tinh và Kẻ săn mồi. Trong những trường hợp như vậy, những bộ phim
này có thể được giới thiệu cho John.
Trong các phương pháp dựa trên nội dung, các mô tả mục, được gắn
nhãn xếp hạng, được sử dụng làm dữ liệu đào tạo để tạo ra vấn đề phân loại
hoặc mô hình hồi quy dành riêng cho người dùng. Đối với mỗi người dùng,
tài liệu đào tạo tương ứng với mô tả về các mặt hàng họ đã mua hoặc đánh
giá. Biến loại (hoặc phụ thuộc) tương ứng với xếp hạng hoặc hành vi mua
hàng được chỉ định. Các tài liệu đào tạo này được sử dụng để tạo mô hình
phân loại hoặc hồi quy dành riêng cho người dùng hiện tại (hoặc người
dùng đang hoạt động). Mô hình dành riêng cho người dùng này được sử
dụng để dự đoán liệu cá nhân tương ứng có thích một mặt hàng mà không
xác định được xếp hạng hoặc hành vi mua của cô ấy hay không.
Các phương pháp dựa trên nội dung có một số ưu điểm trong việc đưa ra
đề xuất cho các mặt hàng mới khi không có đủ dữ liệu xếp hạng cho mặt
hàng đó. Điều này là do các mặt hàng khác có thuộc tính tương tự có thể đã
được người dùng đang hoạt động xếp hạng. Do đó, mô hình được giám sát
sẽ có thể tận dụng các xếp hạng này kết hợp với các thuộc tính của mặt
hàng để đưa ra đề xuất ngay cả khi không có lịch sử xếp hạng cho mặt hàng
đó. Các phương pháp dựa trên nội dung cũng có một số nhược điểm:
1. Trong nhiều trường hợp, phương pháp dựa trên nội dung cung cấp các
đề xuất rõ ràng nhờ sử dụng từ khóa hoặc nội dung. Ví dụ: nếu người
dùng chưa bao giờ sử dụng một mặt hàng có một bộ từ khóa cụ thể thì
mặt hàng đó sẽ không có cơ hội được đề xuất. Điều này là do mô hình
được xây dựng dành riêng cho người dùng hiện tại và kiến thức cộng
đồng từ những người dùng tương tự không được tận dụng. Hiện tượng
này có xu hướng làm giảm tính đa dạng của các mặt hàng được đề
xuất, điều này là không mong muốn.
2. Mặc dù các phương pháp dựa trên nội dung có hiệu quả trong việc
cung cấp đề xuất cho các mục mới nhưng chúng lại không hiệu quả
trong việc cung cấp đề xuất cho người dùng mới. Điều này là do mô
hình đào tạo cho người dùng mục tiêu cần sử dụng lịch sử xếp hạng
của cô ấy. Trên thực tế, điều quan trọng là phải có sẵn một số lượng
1.4. 21
lớn xếp hạng cho người dùng mục tiêu để đưa ra những dự đoán chắc
chắn mà không cần trang bị quá mức.
Do đó, các phương pháp dựa trên nội dung có sự cân bằng khác với các hệ
thống lọc cộng tác.
Mặc dù mô tả nói trên cung cấp cách nhìn dựa trên học tập thông thường
về các phương pháp dựa trên nội dung, đôi khi một cái nhìn rộng hơn về
các phương pháp này cũng được sử dụng. Ví dụ: người dùng có thể chỉ
định các từ khóa có liên quan trong hồ sơ của riêng họ. Những hồ sơ này có
thể được kết hợp với mô tả mặt hàng để đưa ra đề xuất. Cách tiếp cận như
vậy không sử dụng xếp hạng trong quá trình đề xuất và do đó nó rất hữu ích
trong các tình huống bắt đầu từ đầu. Tuy nhiên, những phương pháp như
vậy thường được xem như một lớp riêng biệt của hệ thống tư vấn, được gọi
là hệ thống dựa trên tri thức, bởi vì các phép đo tương tự thường dựa trên
kiến thức về miền. Các hệ thống tư vấn dựa trên kiến thức thường được coi
là có liên quan chặt chẽ với các hệ thống tư vấn dựa trên nội dung và đôi
khi người ta đặt câu hỏi liệu có tồn tại ranh giới rõ ràng giữa hai loại
phương pháp hay không [558]. Các phương pháp cho hệ thống tư vấn dựa
trên nội dung được thảo luận trong Chương 4.
Bảng 1.2: Mục tiêu khái niệm của các hệ thống tư vấn khác nhau
Tiếp cận Mục tiêu khái niệm Đầu vào
hợp tác Đưa ra cho tôi các đề xuất dựa trên phương Xếp hạng của
pháp hợp tác nhằm nâng cao xếp hạng và người dùng +
hành động của đồng nghiệp/bản thân tôi. xếp hạng của
cộng đồng
Dựa trên Đưa ra cho tôi các đề xuất dựa trên nội Xếp hạng
nội dung dung (thuộc tính) mà tôi ưa thích trong các của người
xếp hạng và hành động trước đây của dùng -k
mình. thuộc tính
mục
Dựa trên Đưa ra đề xuất dựa trên thông số kỹ thuật Đặc tả người
kiến thức rõ ràng của tôi về loại nội dung (thuộc tính) dùng -F
mà tôi muốn. thuộc tính
mục + kiến
thức miền
GỬI TÌM
KIẾM
Hình 1.5: Một ví dụ giả định về giao diện người dùng ban đầu dành cho
công cụ đề xuất dựa trên ràng buộc)
màu sắc, tùy chọn động cơ, tùy chọn nội thất cũng như sở thích của người
dùng có thể được điều chỉnh bởi sự kết hợp rất cụ thể của các tùy chọn này.
Do đó, trong những trường hợp này, miền hạng mục có xu hướng phức tạp
về các thuộc tính đa dạng của nó và khó có thể liên kết đủ xếp hạng với số
lượng lớn các kết hợp có sẵn.
Những trường hợp như vậy có thể được giải quyết bằng hệ thống tư vấn
dựa trên kiến thức, trong đó xếp hạng không được sử dụng cho mục đích
khuyến nghị. Đúng hơn, quy trình đề xuất được thực hiện trên cơ sở những
điểm tương đồng giữa yêu cầu của khách hàng và mô tả mặt hàng hoặc việc
sử dụng các ràng buộc xác định yêu cầu của người dùng. Quá trình này
được tạo điều kiện thuận lợi bằng việc sử dụng cơ sở tri thức, chứa dữ liệu
1.4. 23
về các quy tắc và hàm tương tự để sử dụng trong quá trình truy xuất. Trên
thực tế, nền tảng kiến thức rất quan trọng đối với hoạt động hiệu quả của
các phương pháp này nên phương pháp này lấy tên từ thực tế này. Việc đặc
tả rõ ràng các yêu cầu dẫn đến khả năng kiểm soát tốt hơn của người dùng
đối với quá trình đề xuất. Trong cả hệ thống cộng tác và dựa trên nội dung,
các đề xuất đều được quyết định hoàn toàn bởi hành động/xếp hạng trong
quá khứ của người dùng, hành động/xếp hạng của các đồng nghiệp của cô
ấy hoặc kết hợp cả hai. Các hệ thống dựa trên tri thức độc đáo ở chỗ chúng
cho phép người dùng xác định rõ ràng những gì họ muốn. Sự khác biệt này
được minh họa trong Bảng 1.2.
Hệ thống tư vấn dựa trên kiến thức có thể được phân loại dựa trên loại
giao diện (và kiến thức tương ứng) được sử dụng để đạt được các mục tiêu
nói trên:
1. Hệ thống gợi ý dựa trên ràng buộc: Trong các hệ thống dựa trên ràng
buộc [196, 197], người dùng thường chỉ định các yêu cầu hoặc ràng
buộc (ví dụ: giới hạn dưới hoặc giới hạn trên) cho mục
VÍ DỤ KHUYẾN NGHỊ DỰA TRÊN TRƯỜNG HỢP
GIẢ THUYẾT
GIAO DIỆN MUA NHÀ (critique-example.com)
[ ĐIỂM VÀO I
MUỐN MUA NHÀ TƯƠNG TỰ VỚI NHỮNG ĐẶC ĐIỂM
SAU:
GỬI TÌM
KIẾM
TÔI MUỐN MUA NHÀ NHƯ NHÀ Ở ĐỊA CHỈ SAU:
thuộc tính. Một ví dụ về giao diện như vậy được minh họa trong Hình
1.5. Các quy tắc dành riêng cho miền được sử dụng để khớp các yêu
cầu của người dùng với các thuộc tính của mặt hàng. Các quy tắc này
thể hiện kiến thức về miền cụ thể được hệ thống sử dụng. Các quy tắc
như vậy có thể ở dạng ràng buộc theo miền cụ thể đối với các thuộc
tính của vật phẩm (ví dụ: "Ô tô trước năm 1970 không có hệ thống
kiểm soát hành trình."). Hơn nữa, các hệ thống dựa trên ràng buộc
thường tạo ra các quy tắc liên quan đến thuộc tính của người dùng với
thuộc tính của mặt hàng (ví dụ: "Các nhà đầu tư lớn tuổi không đầu tư
vào các sản phẩm có rủi ro cực cao."). Trong những trường hợp như
vậy, thuộc tính người dùng cũng có thể được chỉ định trong quá trình
tìm kiếm. Tùy thuộc vào số lượng và loại kết quả trả về, người dùng
có thể có cơ hội sửa đổi các yêu cầu ban đầu của mình. Ví dụ: họ có
thể nới lỏng một số ràng buộc khi trả về quá ít kết quả hoặc họ có thể
thêm nhiều ràng buộc hơn. Quá trình tìm kiếm này được lặp lại một
cách tương tác cho đến khi người dùng đạt được kết quả mong muốn.
2. Hệ thống tư vấn dựa trên trường hợp: Trong các hệ thống tư vấn dựa
trên trường hợp [102, 116, 377, 558], các trường hợp cụ thể được
người dùng chỉ định làm mục tiêu hoặc điểm neo. Số liệu tương tự
được xác định trên thuộc tính mục để truy xuất các mục tương tự cho
các trường hợp này. Một ví dụ về giao diện như vậy được minh họa
trong Hình 1.6. Các số liệu tương tự thường được xác định cẩn thận
theo cách dành riêng cho từng miền. Do đó, các số liệu tương tự tạo
thành kiến thức miền được sử dụng trong các hệ thống như vậy. Các
kết quả trả về thường được sử dụng làm trường hợp mục tiêu mới với
một số sửa đổi tương tác của người dùng. Ví dụ: khi người dùng nhìn
thấy kết quả trả về gần giống với kết quả họ muốn, họ có thể đưa ra lại
truy vấn với mục tiêu đó nhưng với một số thuộc tính được thay đổi
theo ý thích của người dùng. Quá trình tương tác này được sử dụng để
hướng dẫn người dùng tới các mục quan tâm.
Lưu ý rằng trong cả hai trường hợp, hệ thống đều tạo cơ hội cho người
dùng thay đổi các yêu cầu đã chỉ định của họ. Tuy nhiên, cách thức thực
hiện điều này ở hai trường hợp này là khác nhau. Trong các hệ thống dựa
trên trường hợp, các ví dụ (hoặc trường hợp) được sử dụng làm điểm cố
định để hướng dẫn tìm kiếm kết hợp với các số liệu tương tự. Giao diện phê
bình đặc biệt phổ biến để thể hiện phản hồi trong các hệ thống như vậy,
trong đó người dùng lặp đi lặp lại sửa đổi một hoặc nhiều thuộc tính của
một mục ưa thích trong mỗi lần lặp. Trong các hệ thống dựa trên ràng buộc,
các quy tắc (hoặc ràng buộc) được sử dụng để hướng dẫn tìm kiếm. Hình
thức hướng dẫn thường có thể ở dạng hệ thống dựa trên tìm kiếm, trong đó
người dùng chỉ định các ràng buộc của họ bằng giao diện dựa trên tìm
kiếm.
Tính tương tác trong các hệ thống tư vấn dựa trên kiến thức đạt được
như thế nào? Hướng dẫn này được thực hiện thông qua một hoặc nhiều
phương pháp sau:
1.4. 25
1. Hệ thống đàm thoại: Trong trường hợp này, tùy chọn của người dùng
được xác định lặp đi lặp lại trong bối cảnh vòng phản hồi. Lý do chính
cho điều này là miền mục rất phức tạp và sở thích của người dùng chỉ
có thể được xác định trong bối cảnh hệ thống đàm thoại lặp lại.
2. Hệ thống dựa trên tìm kiếm: Trong hệ thống dựa trên tìm kiếm, sở
thích của người dùng được gợi ra bằng cách sử dụng một chuỗi câu
hỏi đặt trước như sau: "Bạn thích một ngôi nhà ở khu vực ngoại ô hay
trong thành phố?" Trong một số trường hợp, các giao diện tìm kiếm cụ
thể có thể được thiết lập để cung cấp khả năng chỉ định các ràng buộc
của người dùng.
3. Đề xuất dựa trên điều hướng: Trong đề xuất dựa trên điều hướng,
người dùng chỉ định một số yêu cầu thay đổi đối với mục hiện đang
được đề xuất. Thông qua một loạt các yêu cầu thay đổi lặp đi lặp lại,
có thể đạt được mục mong muốn. Ví dụ về yêu cầu thay đổi do người
dùng chỉ định khi một ngôi nhà cụ thể được đề xuất như sau: "Tôi
muốn một ngôi nhà tương tự cách ngôi nhà hiện được đề xuất khoảng
5 dặm về phía Tây." Các hệ thống tư vấn như vậy còn được gọi là hệ
thống tư vấn phê bình [417].
Đáng chú ý là cả hệ thống dựa trên tri thức và dựa trên nội dung đều phụ
thuộc đáng kể vào các thuộc tính của vật phẩm. Do việc sử dụng các thuộc
tính nội dung, các hệ thống dựa trên tri thức thừa hưởng một số nhược điểm
giống như các hệ thống dựa trên nội dung. Ví dụ, giống như các hệ thống
dựa trên nội dung, các khuyến nghị trong hệ thống dựa trên kiến thức đôi
khi có thể hiển nhiên vì việc sử dụng xếp hạng của cộng đồng (tức là ngang
hàng) không được tận dụng. Trong thực tế, các hệ thống dựa trên tri thức
đôi khi được coi là “anh em họ” của các hệ thống dựa trên nội dung [558].
Sự khác biệt chính là các hệ thống dựa trên nội dung học hỏi từ hành vi của
người dùng trong quá khứ, trong khi các hệ thống đề xuất dựa trên kiến
thức đề xuất dựa trên thông số kỹ thuật của người dùng tích cực về nhu cầu
và sở thích của họ. Do đó, trong hầu hết các tài liệu giới thiệu, người giới
thiệu dựa trên kiến thức được coi là một loại khác biệt với người giới thiệu
dựa trên nội dung. Những khác biệt này dựa trên mục tiêu của các hệ thống
đó và loại dữ liệu đầu vào được sử dụng (xem Bảng 1.2). Các dạng khác
nhau của hệ thống tư vấn dựa trên kiến thức sẽ được thảo luận trong
Chương 5.
1.4 Những thách thức dành riêng cho từng miền trong hệ thống gợi ý
Trong các lĩnh vực khác nhau, chẳng hạn như dữ liệu tạm thời, dữ liệu dựa
trên vị trí và dữ liệu xã hội, bối cảnh của đề xuất đóng một vai trò quan
trọng. Do đó, khái niệm về hệ thống gợi ý theo ngữ cảnh đã được phát triển
để giải quyết các thông tin bổ sung phát sinh trong các lĩnh vực này. Khái
niệm này được sử dụng với các sửa đổi khác nhau cho nhiều loại dữ liệu
khác nhau, chẳng hạn như dữ liệu thời gian, dữ liệu vị trí hoặc dữ liệu xã
hội.
cài đặt dành riêng cho tên miền. Các hệ thống tư vấn nhận biết ngữ cảnh sẽ
được thảo luận ở Chương 8 theo nghĩa chung. Tuy nhiên, các khía cạnh
riêng lẻ của bối cảnh, chẳng hạn như thời gian, địa điểm và thông tin xã
hội, sẽ được nghiên cứu chi tiết trong các chương khác. Một đánh giá
chung về các khía cạnh khác nhau này được cung cấp dưới đây.
Các thuật toán cho địa phương ưu tiên và địa phương du lịch khá khác
nhau. Cái trước gần với các hệ thống nhạy cảm với ngữ cảnh hơn, trong khi
cái sau thường được thiết kế theo phương pháp phỏng đoán đặc biệt. Các hệ
thống gợi ý dựa trên vị trí đã chứng kiến sự quan tâm ngày càng tăng trong
những năm gần đây do sự phổ biến ngày càng tăng của điện thoại di động
và các thiết bị hỗ trợ GPS khác. Hệ thống tư vấn dựa trên vị trí được thảo
luận chi tiết trong Chương 9.
1.4.4.1 Khuyến nghị về cấu trúc của các nút và liên kết
Nhiều loại mạng khác nhau, bao gồm cả mạng xã hội, bao gồm các nút và
liên kết. Trong nhiều trường hợp, nên giới thiệu các nút và liên kết. Ví dụ:
tìm kiếm trên Web được cá nhân hóa có thể yêu cầu đề xuất tài liệu liên
quan đến một chủ đề cụ thể. Vì Web có thể được xem dưới dạng biểu đồ
nên các phương pháp như vậy có thể được xem như một vấn đề đề xuất nút.
Vấn đề đề xuất nút có liên quan chặt chẽ đến vấn đề tìm kiếm trên Web.
Trên thực tế, cả hai vấn đề đều yêu cầu sử dụng nhiều dạng thuật toán xếp
hạng khác nhau. Thành phần chính của các phương pháp này là việc sử
dụng thuật toán PageRank, mặc dù việc cá nhân hóa các thuật toán đó có
liên quan chặt chẽ hơn với thuật toán đề xuất. Do đó, các thuật toán như
vậy còn được gọi là thuật toán PageRank được cá nhân hóa. Trong trường
1.4. 31
hợp có sẵn ví dụ về các nút quan tâm, các nút đó có thể được sử dụng làm
dữ liệu huấn luyện để xác định các nút quan tâm khác. Vấn đề này được gọi
là phân loại tập thể. Một vấn đề liên quan chặt chẽ là vấn đề đề xuất liên
kết hoặc dự đoán liên kết, trong đó người ta mong muốn đề xuất bạn bè
(hoặc liên kết tiềm năng) cho người dùng trong mạng xã hội. Bài toán dự
đoán liên kết còn có nhiều ứng dụng ngoài mạng xã hội. Điều thú vị là các
vấn đề về xếp hạng, phân loại chung và đề xuất liên kết có liên quan chặt
chẽ với nhau. Trong thực tế, lời giải của một bài toán thường được sử dụng
làm chương trình con cho các bài toán khác. Ví dụ: các phương pháp dự
đoán thứ hạng và liên kết thường được sử dụng cho các đề xuất sản phẩm
truyền thống trong biểu đồ mục người dùng. Trên thực tế, những phương
pháp này có thể được sử dụng để thực hiện các đề xuất trong nhiều tình
huống vấn đề, có thể chuyển đổi thành biểu đồ. Các phương pháp đề xuất
nút và liên kết được thảo luận trong Chương 10.
CHỦ ĐỀ VÀ ỨNG DỤNG NÂNG CAO
1.4.4.4 Tận dụng phản hồi gắn thẻ xã hội cho các đề xuất
Người dùng có nhiều phương pháp để kết hợp phản hồi của họ trong hệ
thống gợi ý. Hình thức phản hồi phổ biến nhất là gắn thẻ xã hội. Những
dạng phản hồi như vậy đặc biệt phổ biến trên các trang chia sẻ nội dung
trên Web, chẳng hạn như Flickr (chia sẻ ảnh) [692], Last.fm [692] (chia sẻ
âm nhạc) và Bibsonomy [708] (chia sẻ tài liệu khoa học). Thẻ là siêu dữ
liệu mà người dùng sử dụng để thêm các từ khóa thông tin ngắn vào nội
dung. Ví dụ: người dùng trên trang web âm nhạc có thể gắn thẻ album
Thriller của Michael Jackson là "rock". Các thẻ như vậy cung cấp thông tin
hữu ích về sở thích của cả người dùng và nội dung của mục vì thẻ được liên
kết với cả hai. Các thẻ đóng vai trò là bối cảnh hữu ích để thực hiện các đề
xuất. Các phương pháp đưa ra đề xuất phù hợp với ngữ cảnh có thể được sử
dụng trực tiếp để kết hợp phản hồi này vào quy trình đề xuất. Các phương
pháp chuyên biệt khác cũng đã được phát triển để sử dụng phản hồi gắn thẻ
xã hội trong quá trình đề xuất. Những phương pháp này được thảo luận chi
tiết trong Chương 11.
hệ thống tư vấn, người ta thường có thể thu được kết quả sai lệch nếu chỉ sử
dụng đánh giá tổng thể kết hợp với hệ thống tư vấn truyền thống. Ví dụ:
nếu hai người dùng có cùng xếp hạng tổng thể cho một bộ phim, nhưng xếp
hạng thành phần của họ cho cốt truyện và âm nhạc rất khác nhau thì hai
người dùng đó không được coi là giống nhau từ góc độ của thuật toán lọc
cộng tác dựa trên sự tương đồng. Trong một số hệ thống đa tiêu chí, người
dùng có thể không chỉ định xếp hạng tổng thể. Trong những trường hợp
như vậy, vấn đề thậm chí còn khó khăn hơn vì cần phải trình bày danh sách
các mục được xếp hạng cho nhiều người dùng khác nhau dựa trên nhiều
tiêu chí. Tổng quan tuyệt vời về hệ thống tư vấn đa tiêu chí có thể được tìm
thấy trong [11, 398, 604] từ nhiều góc độ khác nhau.
Người ta đã chứng minh [271, 410] rằng một số phương pháp dành cho
hệ thống tư vấn nhóm cũng có thể được điều chỉnh cho phù hợp với hệ
thống tư vấn đa tiêu chí. Tuy nhiên, hai chủ đề này thường được coi là khác
nhau vì chúng nhấn mạnh các khía cạnh khác nhau của quá trình đề xuất.
Các phương pháp cho hệ thống tư vấn đa tiêu chí được thảo luận ở phần
13.5 của Chương 13.
Cuốn sách này sẽ cung cấp cái nhìn tổng quan về các lớp thuật toán quan
trọng nhất cho hệ thống gợi ý, ưu điểm và nhược điểm của chúng cũng như
các tình huống cụ thể mà chúng hiệu quả nhất. Vấn đề đề xuất sẽ được
nghiên cứu trong bối cảnh của các kịch bản cụ thể theo miền khác nhau và
với các loại thông tin đầu vào và cơ sở kiến thức khác nhau. Như cuốn sách
này sẽ trình bày, vấn đề đề xuất là một vấn đề phong phú và có nhiều biểu
hiện khác nhau tùy thuộc vào bản chất của dữ liệu đầu vào và kịch bản hiện
tại. Hơn nữa, hiệu quả tương đối của các thuật toán khác nhau có thể khác
nhau tùy theo bối cảnh bài toán cụ thể. Những sự đánh đổi này cũng sẽ
được khám phá trong cuốn sách này. Trong nhiều trường hợp, các hệ thống
lai có thể được phát triển để khai thác những sự cân bằng này một cách
hiệu quả.
Một số chủ đề nâng cao, chẳng hạn như mô hình tấn công, hệ thống tư
vấn nhóm, hệ thống đa tiêu chí, hệ thống học tập tích cực, sẽ được nghiên
cứu trong các chương sau của cuốn sách này. Chúng ta cũng sẽ khám phá
một số ứng dụng cụ thể, chẳng hạn như đề xuất tin tức và quảng cáo bằng
máy tính. Hy vọng rằng cuốn sách này sẽ cung cấp một cái nhìn tổng quan
và hiểu biết toàn diện về các tình huống khác nhau phát sinh trong lĩnh vực
hệ thống gợi ý.
thông tin cho các khuyến nghị, chẳng hạn như thông tin xã hội, thời gian,
thông tin phụ hoặc dữ liệu theo ngữ cảnh, được cung cấp trong [544]. Một
phân loại gần đây về các khía cạnh khác nhau của nghiên cứu hệ thống gợi
ý có thể được tìm thấy trong [462]. Một cuốn sách giới thiệu xuất sắc có thể
được tìm thấy trong [275], trong khi một cuốn sổ tay chi tiết [505] thảo
luận chi tiết về các khía cạnh khác nhau của hệ thống gợi ý.
Vấn đề lọc cộng tác với ma trận xếp hạng không đầy đủ có liên quan
chặt chẽ đến tài liệu truyền thống về phân tích dữ liệu bị thiếu [362], mặc
1.4. 37
dù hai lĩnh vực này thường được nghiên cứu độc lập. Các mô hình lọc cộng
tác dựa trên người dùng sớm nhất đã được nghiên cứu trong [33, 98, 501,
540]. Phương pháp dựa trên người dùng sử dụng xếp hạng của những người
dùng tương tự trên cùng một mặt hàng để đưa ra dự đoán. Mặc dù các
phương pháp như vậy ban đầu khá phổ biến nhưng chúng không dễ dàng
mở rộng và đôi khi không chính xác. Sau đó, các phương pháp dựa trên
mục [181, 360, 524] đã được đề xuất, tính toán xếp hạng dự đoán như một
hàm xếp hạng của cùng một người dùng trên các mục tương tự. Một cách
tiếp cận phổ biến khác để đưa ra khuyến nghị là sử dụng các mô hình nhân
tố tiềm ẩn. Các công trình sớm nhất trong các mô hình nhân tố tiềm ẩn xuất
hiện độc lập trong bối cảnh khuyến nghị [525] và phân tích giá trị còn thiếu
[24]. Cuối cùng, những phương pháp này lại được phát hiện là loại phương
pháp hiệu quả nhất để thực hiện các khuyến nghị [252, 309, 313, 500, 517].
Ngoài việc sử dụng chúng trong các mô hình dựa trên yếu tố, các phương
pháp giảm kích thước cũng được sử dụng để giảm kích thước của ma trận
xếp hạng nhằm cải thiện hiệu quả của sự tương tự giữa người dùng với
người dùng hoặc giữa mục với mục trong không gian rút gọn [228, 525].
Tuy nhiên, công việc phân tích dữ liệu còn thiếu cũng có liên quan đến tài
liệu khuyến nghị. Các mô hình liên quan khác để lọc cộng tác bao gồm việc
sử dụng các mô hình khai thác dữ liệu như phân cụm [167, 360, 608], phân
loại hoặc khai thác mẫu liên kết [524]. Sự thưa thớt là một vấn đề lớn đối
với các hệ thống như vậy và các hệ thống dựa trên đồ thị khác nhau đã
được thiết kế để giảm bớt vấn đề thưa thớt [33, 204, 647].
Các phương pháp dựa trên nội dung có liên quan chặt chẽ với các tài liệu
tìm kiếm thông tin [144
364, 400], trong đó các phương pháp truy xuất độ tương tự được sử dụng
trong quá trình đề xuất. Phương pháp phân loại văn bản cũng đặc biệt hữu
ích trong quá trình đề xuất. Một cuộc thảo luận chi tiết về các phương pháp
phân loại văn bản khác nhau có thể được tìm thấy trong [22]. Một số công
trình đầu tiên về khuyến nghị dựa trên nội dung được tìm thấy trong [60,
69]. Cuộc khảo sát chung trong [5] cũng thảo luận khá rộng rãi về các
khuyến nghị dựa trên nội dung.
Có nhiều trường hợp trong đó các phương pháp cộng tác và dựa trên nội
dung không hữu ích trong việc thu được các đề xuất có ý nghĩa do mức độ
phức tạp và hạn chế cao trong không gian mục. Trong những trường hợp
như vậy, hệ thống tư vấn dựa trên kiến thức [116] đặc biệt hữu ích. Hệ
thống tư vấn nhân khẩu học được thảo luận trong [320, 475, 508] trong khi
hệ thống tư vấn dựa trên tiện ích được thảo luận trong [239]. Một cuộc
khảo sát tuyệt vời về cách giải thích trong hệ thống gợi ý được cung cấp
trong [598].
Các hệ thống gợi ý khác nhau sẽ hiệu quả hơn trong các loại cài đặt khác
nhau. Việc đánh giá [246] các hệ thống gợi ý là quan trọng để đánh giá tính
hiệu quả của các thuật toán khác nhau. Một cuộc thảo luận chi tiết về các
phương pháp đánh giá cũng có thể được tìm thấy trong [538]. Hệ thống lai
[117] có thể kết hợp nhiều hệ thống gợi ý khác nhau để thu được kết quả
hiệu quả hơn. Hơn nữa, các phương pháp tập hợp cũng có thể kết hợp các
thuật toán cùng loại để thu được kết quả hiệu quả hơn. Các mục hàng đầu
của cuộc thi Giải thưởng Netflix, chẳng hạn như "The Ensemble" [704] và
"Bellkor's Pragmatic Chaos," [311] đều là các phương pháp tổng hợp.
Hệ thống gợi ý yêu cầu các phương pháp chuyên biệt để làm cho chúng
hiệu quả hơn trong nhiều tình huống khác nhau. Một vấn đề lớn trong việc
sử dụng hiệu quả các hệ thống như vậy là vấn đề khởi động nguội, trong đó
không có đủ số lượng xếp hạng khi bắt đầu quá trình đề xuất. Vì vậy, các
phương pháp chuyên biệt thường được sử dụng để giải quyết vấn đề này
[533]. Trong nhiều trường hợp, bối cảnh của đề xuất, chẳng hạn như địa
điểm, thời gian hoặc thông tin xã hội, có thể cải thiện đáng kể quá trình đề
xuất [7]. Mỗi loại bối cảnh khác nhau này cũng đã được nghiên cứu riêng lẻ
như một lĩnh vực riêng biệt của hệ thống gợi ý. Các hệ thống tư vấn nhận
biết theo thời gian đã được nghiên cứu trong [310], trong khi các hệ thống
tư vấn nhận biết vị trí đã được thảo luận trong [26]. Bối cảnh xã hội đặc
biệt đa dạng vì nó cho phép giải quyết nhiều vấn đề khác nhau. Người ta có
thể đề xuất các nút hoặc liên kết trong mạng xã hội hoặc người ta có thể đề
xuất sản phẩm với sự trợ giúp của các tín hiệu xã hội. Cài đặt đầu tiên trong
số này có liên quan chặt chẽ đến lĩnh vực phân tích mạng xã hội [656]. Mỗi
vấn đề truyền thống về xếp hạng, phân loại nút và dự đoán liên kết [22,
656] có thể được xem như một vấn đề đề xuất cấu trúc trong mạng xã hội.
Hơn nữa, những hình thức đề xuất này còn hữu ích ngoài phạm vi mạng xã
hội. Điều thú vị là, các phương pháp như dự đoán liên kết cũng có thể được
sử dụng cho đề xuất truyền thống bằng cách chuyển đổi tương tác giữa
người dùng và mục thành cấu trúc biểu đồ hai bên [261]. Một hình thức
khuyến nghị xã hội khác là trường hợp các tín hiệu xã hội được sử dụng để
thực hiện các khuyến nghị [588]. Cấu trúc mạng xã hội cũng có thể được sử
dụng trực tiếp trong bối cảnh các ứng dụng tiếp thị lan truyền [297].
Vì hệ thống gợi ý thường giúp ích cho việc bán sản phẩm nên người bán
những sản phẩm đó hoặc đối thủ cạnh tranh của họ có động cơ đáng kể để
tấn công hệ thống gợi ý bằng cách thao túng xếp hạng. Trong những trường
hợp như vậy, các khuyến nghị dường như không có chất lượng cao và do
đó không đáng tin cậy. Trong những năm gần đây, một lượng nỗ lực đáng
kể đã được dành cho việc thiết kế các hệ thống tư vấn đáng tin cậy [444].
Các hệ thống tư vấn nhóm khác nhau được thảo luận trong [45, 271, 272,
407, 408, 412, 413, 415, 653]. Hệ thống tư vấn đa tiêu chí được thảo luận
trong [11, 398, 604]. Phương pháp học tập tích cực được thảo luận trong
[513]. Thảo luận chung về các phương pháp bảo vệ quyền riêng tư có thể
được tìm thấy trong [20]. Các nghiên cứu sớm nhất về chủ đề khuyến nghị
bảo vệ quyền riêng tư đã được trình bày trong [133, 451, 484, 485, 667].
Quyền riêng tư tiếp tục là một thách thức đáng kể đối với các hệ thống như
vậy vì tính chất chiều cao của dữ liệu. Nó đã được chỉ ra trong [30, 451]
1.4. 39
cách mà chiều có thể được tận dụng để thực hiện các cuộc tấn công vào
quyền riêng tư đối với các loại tập dữ liệu khác nhau.