Professional Documents
Culture Documents
What Is Recommender 1 en
What Is Recommender 1 en
Ngoài kia còn rất nhiều điều khó hiểu về hệ thống gợi ý, vì vậy chúng ta
sẽ bắt đầu cuốn sách này bằng cách tìm hiểu xem nó giải quyết được
những vấn đề gì và nó được sử dụng như thế nào. Đây là những gì chúng
tôi sẽ đề cập:
Hiểu nhiệm vụ mà hệ thống gợi ý đang cố gắng mô phỏng
Phát triển cái nhìn sâu sắc về những đề xuất không được cá
nhân hóa và được cá nhân hóa
Phát triển cách phân loại về cách mô tả người giới thiệu
Giới thiệu website mẫu MovieGEEKs
Hãy lấy một tách cà phê và một chiếc chăn và tạo cảm giác
thoải mái cho phần giới thiệu về thế giới đề xuất này. Chúng ta
sẽ đi sâu vào vấn đề này, trước tiên hãy xem xét các ví dụ thực
tế trước khi chuyển sang các tính toán phức tạp của hệ thống
gợi ý trong các chương sau. Bạn có thể cảm thấy bị cám dỗ để
bỏ qua, nhưng đừng. Bạn cần có kiến thức cơ bản để hiểu kết
quả của những nỗ lực kỹ thuật đề xuất của bạn sẽ như thế nào.
Khi tôi còn trẻ, trước khi Spotify và các dịch vụ phát trực tuyến
khác chiếm lĩnh thị trường âm nhạc, tôi thích mua đĩa CD. Tôi
đến một cửa hàng âm nhạc chủ yếu phục vụ các DJ, tôi đi vòng
quanh và thu thập một chồng đĩa CD, sau đó tìm một chỗ ở quầy
với một cặp tai nghe và bắt đầu nghe. Với những chiếc đĩa CD
làm bối cảnh, tôi đã trò chuyện rất lâu với người đàn ông đứng
sau quầy. Anh ấy kiểm tra xem tôi thích (và không thích) đĩa CD
nào và giới thiệu những đĩa khác dựa trên đó. Tôi đánh giá cao
việc anh ấy nhớ đủ rõ sở thích của tôi giữa những lần ghé thăm và
không giới thiệu những tựa sách giống nhau cho tôi nhiều lần.
Đây cũng là một ví dụ về các khuyến nghị.
Đi làm về (bây giờ tôi đã lớn hơn), tôi luôn kiểm tra hộp thư
của chúng tôi để xem chúng tôi có thư hay không. Thông thường,
hộp thư chứa đầy các quảng cáo từ các siêu thị, liệt kê những thứ
đang giảm giá. Thông thường, quảng cáo hiển thị hình ảnh trái
cây tươi trên một trang và bột rửa chén ở trang tiếp theo—tất cả
những thứ mà các siêu thị muốn khuyên bạn nên mua vì họ cho
rằng đó là một ưu đãi tốt. Đây không phải là khuyến nghị; chúng
là quảng cáo.
Mỗi tuần một lần, tờ báo địa phương có trong số thư. Tờ báo
này đưa ra danh sách top 10 bộ phim được xem nhiều nhất tại rạp
trong tuần đó. Đây là một khuyến nghị không được cá nhân hóa.
Trên truyền hình, người ta phải suy nghĩ nhiều về việc đặt quảng
cáo với nội dung truyền hình phù hợp. Đây là những quảng cáo
được nhắm mục tiêu vì người ta cho rằng một loại người nhất
định đang xem.
Vào tháng 2 năm 2015, các quan chức của Sân bay
Copenhagen đã công bố bố trí 600 màn hình xung quanh sân bay
để hiển thị quảng cáo dựa trên độ tuổi và giới tính ước tính của
người xem, cùng với thông tin về các điểm đến tại các cổng gần
đó. Độ tuổi và giới tính được suy ra bằng cách sử dụng máy ảnh
5
và thuật toán. Thông cáo báo chí về quảng cáo có mô tả như sau:
"Ví dụ: một phụ nữ đi du lịch tới Brussels muốn xem những chiếc
đồng hồ đẹp hoặc một quảng cáo cho một tạp chí tài chính. Một
gia đình đi nghỉ có thể quan tâm nhiều hơn đến các quảng cáo về
kem chống nắng hoặc cho thuê ô tô." l Đây là những quảng cáo có
liên quan hoặc quảng cáo có mục tiêu cao.
Mọi người thường coi quảng cáo trên truyền hình hoặc tại sân
bay là một mối phiền toái, nhưng nếu chúng ta lên mạng, giới hạn
đối với những gì chúng ta coi là xâm lấn sẽ hơi khác một chút. Có
thể có nhiều lý do cho việc này, bản thân nó đã là cả một chủ đề.
Internet vẫn là miền Tây hoang dã và mặc dù tôi nghĩ rằng
quảng cáo tại Sân bay Copenhagen khá xâm lấn, nhưng tôi cũng
cảm thấy khó chịu khi nhìn thấy các quảng cáo trên internet
hướng đến một nhóm mục tiêu mà tôi không thuộc về. Để nhắm
mục tiêu quảng cáo của họ, các trang web cần biết một chút về
bạn là ai.
Trong chương này và các chương sau, bạn sẽ tìm hiểu về các
đề xuất, cách thu thập thông tin về người nhận đề xuất, cách lưu
trữ dữ liệu và cách sử dụng dữ liệu đó. Bạn có thể tính toán các đề
xuất theo nhiều cách khác nhau và bạn sẽ thấy các kỹ thuật được
sử dụng nhiều nhất.
Hệ thống gợi ý không chỉ là một thuật toán ưa thích. Đó cũng
là về việc hiểu dữ liệu và người dùng của bạn. Các nhà khoa học
dữ liệu có một cuộc thảo luận kéo dài về việc liệu điều quan trọng
hơn là có một thuật toán siêu tốt hay có nhiều dữ liệu hơn. Cả hai
đều có mặt trái; siêu thuật toán yêu cầu siêu phần cứng và rất
nhiều phần cứng. Nhiều dữ liệu hơn tạo ra những thách thức khác,
như làm thế nào để truy cập nó đủ nhanh. Xem qua cuốn sách
này, bạn sẽ tìm hiểu về sự cân bằng và có được các công cụ để
đưa ra quyết định tốt hơn.
Các ví dụ trước nhằm minh họa rằng quảng cáo và đề xuất có
thể trông giống với người dùng. Đằng sau màn hình, mục đích
của nội dung là khác nhau; đề xuất được tính toán dựa trên những
gì người dùng đang hoạt động thích, những gì người khác đã thích
trước đây và những gì người nhận thường yêu cầu. Quảng cáo
được đưa ra vì lợi ích của người gửi và thường được đẩy tới
6
người nhận. Sự khác biệt giữa hai có thể trở nên mờ nhạt. Trong
cuốn sách này, tôi sẽ gọi mọi thứ được tính toán từ dữ liệu là
khuyến nghị.
Microsoft Kinect có thể nhận dạng mọi người ở phía trước TV bằng
cách sử dụng tính năng nhận dạng khuôn mặt/cơ thể. Microsoft đã
tiến một bước xa hơn bằng cách xác định không chỉ các thành viên
trong gia đình mà còn cả những người khác từ danh mục người
dùng đầy đủ của mình, cho phép Kinect nhận ra người dùng khi họ
đến thăm những ngôi nhà khác. Mặc dù là một dấu hiệu cho thấy sự
công nhận của khán giả nhưng Kinect dành cho Xbox One đã bị
ngừng sản xuất vào tháng 10 năm 2017, đánh dấu sự kết thúc của
dòng sản phẩm Kinect.
Quay lại Lựa chọn hàng đầu của Netflix. Bạn có thể tìm thêm chi
tiết về nội dung bằng cách di chuột qua một trong các gợi ý. Chú
10
giải công cụ xuất hiện cùng với mô tả (xem hình 1.2) và xếp hạng
dự đoán, đây là mức mà hệ thống đề xuất ước tính rằng tôi sẽ xếp
hạng nội dung này. Bạn có thể mong đợi rằng các đề xuất trong
Top Picks đều có xếp hạng cao, giống như trong hình 1.1, nhưng
khi xem qua các đề xuất, bạn có thể tìm thấy ví dụ về các mục có
xếp hạng dự đoán thấp, như trong hình 1.3.
Người giới thiệu Netflix có rất nhiều cách, vì vậy có rất nhiều
cách giải thích tại sao Netflix đề xuất một mục mà họ dự đoán tôi
sẽ không đánh giá cao. Một lý do có thể là Netflix đang hướng tới
sự đa dạng hơn là độ chính xác. Một lý do khác có thể là ngay cả
khi tôi không xếp hạng sao tối đa cho một bộ phim, thì đó vẫn có
thể là thứ mà tôi muốn xem. Đây cũng là gợi ý đầu tiên cho thấy
Netflix không đặt nhiều giá trị vào xếp hạng.
Tiêu đề của mỗi hàng là khác nhau; một số thuộc loại Vì bạn đã
xem những bộ đồ. Những dòng này đề xuất những thứ tương tự như
Suit. Các hàng khác là các thể loại như Hài kịch, trong đó, thật kỳ
lạ, lại chứa các phim hài. Bạn có thể nói rằng tiêu đề hàng cũng là
danh sách các đề xuất; bạn có thể gọi đây là đề xuất danh mục.
Hình 1.2 Lựa chọn hàng đầu của Netflix với kết quả trùng khớp
được dự đoán
11
Hình 1.4 Mỗi hàng Netflix được sắp xếp theo mức độ liên quan.
Ngay cả trong Danh sách của tôi, nơi chứa nội dung do tôi tự chọn,
nội dung cũng được sắp xếp theo ước tính của hệ thống gợi ý về
mức độ liên quan của nó đối với tôi. Tôi đã thêm ảnh chụp màn
hình trong hình 1.1 ngày hôm qua. Hôm nay danh sách của tôi có
một thứ tự mới, như trong hình 1.5.
Yesterday
Today
Hình 1.5 Netflix sắp xếp danh sách của tôi theo mức độ liên quan.
12
Hệ thống đề xuất của Netflix cũng cố gắng đề xuất nội dung phù
hợp tại một thời điểm cụ thể hoặc trong một bối cảnh cụ thể. Ví dụ:
buổi sáng Chủ nhật có thể dành nhiều thời gian cho phim hoạt hình
và phim hài, trong khi buổi tối có thể dành nhiều thời gian để xem
phim truyền hình dài tập như Suits.
Một hàng khác có thể gây ngạc nhiên là Phổ biến trên Netflix,
hiển thị nội dung phổ biến hiện nay. Nhưng Netflix không nói rằng
mục phổ biến nhất là mục ở bên trái. Netflix tìm tập hợp các mục
phổ biến nhất và sau đó sắp xếp chúng theo những gì bạn cho là
phù hợp nhất hiện nay.
TĂNG CƯỜNG
Một điểm cần suy ngẫm là tại sao Netflix lại xếp hạng chương trình
Designated Sumivor cao trong Danh sách của tôi, vì tôi đã xem nó
rồi. Nhưng Netflix đã có thông báo cho biết rằng phần mới của
Designated Sumivor đã ra mắt. Điều này có thể giải thích tại sao
chương trình này xuất hiện.
Tăng cường là một cách để các công ty đặt ngón tay lên bàn cân
khi tính toán các đề xuất và Netflix muốn tôi chú ý đến Suit vì đây
là nội dung mới, nghĩa là nó có giá trị mới mẻ. Netflix tăng cường
nội dung dựa trên sự mới mẻ; độ mới có thể có nghĩa là nó mới
hoặc nó đã được đề cập trong tin tức. Việc tăng cường sẽ được đề
cập chi tiết hơn trong chương 6 vì đó là điều mà nhiều chủ sở hữu
trang web yêu cầu ngay khi hệ thống hoạt động.
LƯU Ý Có một họ thuật toán học máy được gọi là tăng
cường, nhưng điều tôi đang đề cập ở đây là một thứ gì đó
khác.2
KẾT NỐI TRUYỀN THÔNG XÃ HỘI
Trong một thời gian ngắn, Netflix cũng đã cố gắng sử dụng dữ liệu
mạng xã hội. Lúc đó, bạn sẽ tìm thấy nội dung giống như minh họa
trong hình 1.6 trên trang Netflix của mình.
Watchec
2
13
Hình 1.6 Netflix muốn biết bạn bè tôi đang xem gì
Tùy chọn Hương vị được nhập thủ công cho phép Netflix đưa ra
các đề xuất tốt hơn. Yêu cầu người dùng trợ giúp về hồ sơ hương
vị là một phương pháp thường được sử dụng để cho phép hệ
thống đưa ra đề xuất cho người dùng mới. Tuy nhiên, cũng như
rất nhiều thứ khác, thường có sự khác biệt giữa những gì người
dùng nói họ thích và những gì họ thực sự thích.
em sở thích về hương vị thường là bước đầu tiên để tìm hiểu
người dùng. Và khi người dùng sử dụng hệ thống nhiều hơn,
Netflix có thể thu thập dữ liệu sử dụng, dữ liệu này thường đáng
tin cậy hơn. Netflix hiện đã loại bỏ tính năng này.
Với định nghĩa này, bạn có thể nghĩ rằng mình đã tìm ra tất cả.
Nhưng chúng ta hãy xem qua một ví dụ về cách tính toán một đề
xuất và cách nó hoạt động. Hình 1.9 cho thấy cách Netflix có thể
tạo ra hàng Top Picks của tôi. Dưới đây là các bước về cách
Netflix có thể tính toán Lựa chọn hàng đầu của tôi:
6 Các mặt hàng vui chơi được sắp xếp theo sở thích, bối cảnh
và nhân khẩu học của người dùng. Quá trình thậm chí có
thể cố gắng thêm sự đa dạng vào kết quả càng nhiều càng
tốt.
7 Các mục bây giờ được sắp xếp theo mức độ liên quan. Mục
F đã bị xóa vì tính toán mức độ liên quan cho thấy nó
không phù hợp với người dùng cuối.
8 Đường ống trả về danh sách.
9 Máy chủ trả về kết quả.
Nhìn vào hình 1.9, rõ ràng có nhiều khía cạnh cần cân nhắc khi
làm việc với hệ thống gợi ý. Quy trình trước đó cũng thiếu các
phần thu thập dữ liệu và xây dựng mô hình. Hầu hết các hệ thống
tư vấn đều cố gắng sử dụng dữ liệu trong hình 1.10 bằng cách này
hay cách khác.
Hình 1.9 cũng minh họa một thực tế khác cần xem xét: dự đoán
xếp hạng chỉ là một phần của hệ thống khuyến nghị. Những thứ
khác cũng có thể đóng một vai trò quan trọng trong những gì hệ
thống của bạn sẽ hiển thị cho người dùng. Phần lớn cuốn sách này
nói về việc dự đoán xếp hạng, và điều đó rất quan trọng, ngay cả
khi tôi nói ở đây nghe có vẻ như không đáng kể.
Hình 1.10 Dữ liệu có thể được sử dụng làm dữ liệu đầu vào cho
hệ thống gợi ý.
Hình 1.12 Vivino.com cung cấp các đề xuất về rượu của chuyên
gia (các đề xuất được bỏ qua để tiết kiệm không gian).
6
điền vào đơn đăng ký kế hoạch tiết kiệm hưu trí và mô tả rằng
bạn đang gặp vấn đề, và một phút sau nhận được cuộc điện thoại
từ bác sĩ chỉnh hình với những lời đề nghị tuyệt vời để giải quyết
chính xác vấn đề của bạn. Hoặc thậm chí tệ hơn, bạn mua một
chiếc giường đặc biệt dành cho những người có vấn đề về lưng và
một giờ sau bạn nhận được email rằng phí bảo hiểm y tế của bạn
đã tăng lên.
Nhiều người coi đề xuất là một hình thức thao túng vì chúng
đưa ra những lựa chọn mà khách hàng có nhiều khả năng chọn
hơn là khi họ được đưa ra lựa chọn ngẫu nhiên. Và hầu hết các
cửa hàng đều cố gắng bán được nhiều hơn nên việc cửa hàng
dùng gợi ý để bán được nhiều hơn khiến mọi người cho rằng mình
đang bị thao túng. Nhưng nếu điều đó có nghĩa là xem một bộ
phim mang tính giải trí hơn là nhàm chán thì tôi nói không sao cả.
Thao tác liên quan nhiều hơn đến động cơ hiển thị một mục cụ thể
hơn là hành động hiển thị nó. Nếu bạn đã đề xuất loại thuốc
không phù hợp và không tối ưu vì nhà cung cấp mua cho chủ sở
hữu trang web những bữa tối ngon hơn, thì đó là hành vi thao
túng, điều này cần được phản đối.
Khi hệ thống khuyến nghị bắt đầu hoạt động và mức tăng
trưởng trong hoạt động kinh doanh được đo lường, nhiều người
có thể cảm thấy muốn đưa ra các ưu tiên của nhà cung cấp, các
mặt hàng tồn kho quá nhiều hoặc có thể là ưu tiên cho nhãn hiệu
thuốc mà khách hàng mua. Hãy cẩn thận: nếu khách hàng bắt đầu
cảm thấy bị thao túng, họ sẽ ngừng tin tưởng vào đề xuất của bạn
và cuối cùng sẽ tìm thấy thứ họ cần ở nơi khác.
Thời điểm các đề xuất có khả năng ảnh hưởng đến các
quyết định, chúng sẽ trở thành mục tiêu của những kẻ gửi
thư rác, kẻ lừa đảo và những người khác có động cơ kém
cao cả hơn để tác động đến quyết định của chúng ta.
—Daniel Tunkelang11
Độ tin cậy cho biết mức độ tin cậy của người tiêu dùng đối với
các khuyến nghị thay vì coi chúng là quảng cáo hoặc nỗ lực thao
túng. Trong ví dụ về Netflix, tôi đã nói về việc các dự đoán có thể
gây nản lòng cho người dùng như thế nào nếu dự đoán ước tính
khác xa với xếp hạng thực tế của người dùng. Đây là về sự đáng
tin cậy. Nếu người dùng thực hiện nghiêm túc các đề xuất thì hệ
thống sẽ đáng tin cậy.
1.2.7Giao diện
Giao diện của hệ thống gợi ý mô tả loại đầu vào và đầu ra mà nó
tạo ra. Chúng ta hãy nhìn vào từng cái.
ĐẦU VÀO
Netflix từng cho phép người dùng nhập lượt thích và lượt không
thích bằng cách xếp hạng nội dung và thêm tùy chọn về thể loại
và chủ đề. Dữ liệu này có thể được sử dụng làm đầu vào cho hệ
thống gợi ý.
Ví dụ về Netflix sử dụng đầu vào rõ ràng, trong đó bạn, người
tiêu dùng, thêm thông tin về những gì bạn thích theo cách thủ
công. Một dạng đầu vào khác là ngầm định, trong đó hệ thống
cố gắng suy ra sở thích bằng cách xem cách bạn tương tác với hệ
thống.
Chương 4 xử lý phản hồi chi tiết hơn.
ĐẦU RA
Các loại đầu ra có thể là dự đoán, đề xuất hoặc lọc. Ví dụ: Netflix
đưa ra đề xuất theo nhiều cách. Nó ước tính các dự đoán, cung
cấp các đề xuất được cá nhân hóa và hiển thị các mục phổ biến,
thường ở dạng danh sách top 10 (nhưng Netflix thậm chí còn cá
nhân hóa danh sách đó).
Nếu đề xuất là một phần tự nhiên của trang thì nó được gọi là
Bản trình bày tự nhiên. Các hàng hiển thị trên Netflix là ví dụ về
đề xuất tự nhiên: Netflix không cho biết đây là đề xuất; chúng là
một phần không thể thiếu của trang web.
Các ví dụ minh họa trong hình 1.13 là phi hữu cơ. Câu hỏi
mạng nóng sử dụng một dạng đề xuất không được cá nhân hóa
bằng cách không nêu rõ ràng những gì được hiển thị. Amazon
hiển thị các đề xuất phi tự nhiên được cá nhân hóa trong danh
sách Đề xuất cho Bạn và New York Times sử dụng các đề xuất
phi tự nhiên hiển thị các bài viết được gửi qua email nhiều nhất.
chỉ được phép thực phẩm Gen 1:29 umit của hàm lượng giác.
Một số hệ thống giải thích các khuyến nghị. Những người giới
thiệu có khả năng đó được gọi là người giới thiệu hộp trắng;
những thứ không được gọi là người giới thiệu hộp đen. Hình 1.14
cho thấy các ví dụ của từng loại. Sự khác biệt rất quan trọng cần
được xem xét khi chọn một thuật toán vì không phải tất cả đều
cung cấp đường dẫn rõ ràng về lý do dự đoán.
Việc quyết định xem bạn muốn tạo công cụ giới thiệu hộp
trắng hay hộp đen có thể đặt ra những hạn chế về thuật toán bạn
sử dụng. Hệ thống của bạn càng cần giải thích nhiều thì thuật toán
càng đơn giản. Thông thường bạn có thể xem xét quyết định như
trong hình 1.15. Chất lượng của khuyến nghị càng tốt thì lời giải
thích càng phức tạp và khó đưa ra. Vấn đề này được gọi là sự
đánh đổi giữa độ chính xác của mô hình và sự giải thích mô hình.
Tôi đã từng làm việc trong một dự án đặc biệt chú trọng đến
khả năng giải thích và chất lượng. Để giải quyết vấn đề này,
chúng tôi phải xây dựng một thuật toán khác trên hệ thống đề xuất
của mình để cho phép đưa ra các đề xuất có chất lượng tốt đồng
thời có một hệ thống kết nối bằng chứng với kết quả.
Hình 1.14 Đề xuất hộp đen (từ Netflix) và hộp trắng (từ Amazon)
Sự chính xác
Hình 1.15 Khả năng giải thích và chất lượng của khuyến nghị
Hệ thống gợi ý đã trở nên cực kỳ phổ biến trong những năm gần
đây, vì vậy có rất nhiều ví dụ để xem xét. Thông thường, hệ thống
gợi ý được triển khai cho phim, nhạc, sách, tin tức, bài báo nghiên
cứu và hầu hết các sản phẩm nói chung. Nhưng hệ thống tư vấn
cũng có vai trò trong nhiều lĩnh vực khác, chẳng hạn như dịch vụ
tài chính, bảo hiểm nhân thọ, dữ liệu trực tuyến, tìm kiếm việc
làm và trên thực tế, ở mọi nơi đều có những lựa chọn để đưa ra.
Cuốn sách này chủ yếu sử dụng các trang web làm ví dụ nhưng
không có lý do gì để không hoạt động trên các nền tảng khác.
1.2.8 Thuật toán
Một số thuật toán được trình bày trong cuốn sách này. Các thuật
toán được chia thành hai nhóm và chúng phụ thuộc vào loại dữ
liệu bạn sử dụng để đưa ra đề xuất của mình. Các thuật toán sử
dụng dữ liệu sử dụng được gọi là lọc cộng tác. Các thuật toán sử
dụng siêu dữ liệu nội dung và hồ sơ người dùng để tính toán đề
xuất được gọi là lọc dựa trên nội dung. Sự kết hợp của hai loại
này được gọi là khuyến nghị lai.
LỌC CỘNG TÁC
Hình 1.16 minh họa một cách thực hiện lọc cộng tác. Bộ bên
ngoài là catalog đầy đủ. Nhóm ở giữa là nhóm người dùng đã tiêu
thụ các mặt hàng tương tự. Hệ thống đề xuất đề xuất các mặt hàng
từ bộ nhỏ hơn, ở phía trước, giả định rằng nếu người dùng thích
những thứ tương tự như người dùng hiện tại thì người dùng hiện
tại cũng sẽ thích những mặt hàng khác mà nhóm này đã tiêu thụ.
Nhóm được xác định bằng sự trùng lặp giữa những gì người dùng
cá nhân thích và những gì người dùng hiện tại thích. Sau đó,
khoảng trống nội dung mà người dùng hiện tại đang thiếu sẽ được
đề xuất (phần của vòng tròn ở giữa không bị che bởi vòng tròn
biểu thị lượt thích của người dùng hiện tại).
Có nhiều cách để tính toán các đề xuất lọc cộng tác. Bạn sẽ
thấy một phiên bản đơn giản ở chương 8 và một phiên bản không
đơn giản lắm ở
chương 11, nơi chúng ta nói về các thuật toán phân tích nhân tử
ma trận.
Bạn sẽ tải xuống trang web một lần. Nó chứa tất cả các chức năng
được mô tả trong cuốn sách này. Đây là kịch bản hư cấu mà
chúng ta sẽ theo dõi.
Trang web MovieGEEKs
Hãy tưởng tượng rằng bạn có một khách hàng muốn bán đĩa
DVD của mình trực tuyến. Tôi tưởng tượng một cửa hàng cho
thuê DVD cũ ở Bath, Vương quốc Anh, có người chủ muốn thử
bán phim trên internet. Đáng tiếc là cửa hàng không còn tồn tại
(xem hình 1.17).
Cửa hàng không có gì khác ngoài đồ điện tử; nó được quản lý
bằng những tấm thẻ giấy nhỏ và mặc dù bạn có thể nghĩ điều đó
nghe có vẻ không thể thực hiện được nhưng dường như tất cả đều
có tác dụng! Trong đời thực, tôi không nghĩ người chủ sẽ đưa
công việc kinh doanh của mình lên mạng, nhưng một trong những
điều độc đáo ở nơi này là bạn luôn nhận được những đề xuất tuyệt
vời. Người chủ sẽ thực hiện đánh giá hàng tháng—các đề xuất ý
kiến chuyên gia—và những người làm việc ở đó luôn biết mọi thứ
cần biết về phim.
Tôi thích coi hệ thống gợi ý là một nỗ lực nhằm cung cấp dịch
vụ cá nhân cho mọi người trên mạng. Sau đây là mô tả ngắn gọn
về mong muốn của người chủ sở hữu hư cấu.
35
1.17 Mặt tiền của On the Video Front, hoạt động kinh doanh
hư cấu của chúng tôi
1.4.1 Thiết kế và thông số kỹ thuật
Để bắt đầu, bạn cần ghi lại một số điểm tổng thể cho thiết kế.
Trang chính của trang web sẽ hiển thị cho khách truy cập những
thông tin sau:
Một khu vực lát gạch của phim
Tổng quan về từng bộ phim mà không cần rời khỏi trang
Khuyến nghị mang tính cá nhân nhất có thể
Một menu chứa danh sách các thể loại
Mỗi bộ phim nên có trang riêng với thông tin chi tiết như sau:
Áp phích phim
Sự miêu tả
Xếp hạng
Mỗi danh mục phải có một trang chứa các nội dung sau:
Cấu trúc tương tự như trang chủ
Khuyến nghị cụ thể cho danh mục
Liệt kê các
thể loại.
7
ứng dụng mà bạn muốn thêm hệ thống đề xuất, nó sẽ diễn ra
giống như chu trình được hiển thị trong hình 1.20.
Bán nhiều hơn
Test
implementation Recommender
on
Dữ liệu nhật
ký
Hình 1.20 Cách tiếp cận dựa trên dữ liệu để xây dựng hệ thống tư
vấn
Bắt đầu với ý tưởng rằng bạn muốn bán được nhiều hàng hơn
bằng cách thêm người giới thiệu. Bạn sẽ thu thập dữ liệu hành vi
và sử dụng dữ liệu đó để xây dựng thuật toán, thuật toán này sẽ
tạo ra mô hình khi thuật toán chạy. Mô hình này cũng có thể được
coi là một chức năng, với ID người dùng sẽ tính toán các đề xuất.
Bạn sẽ thử mô hình này trên dữ liệu lịch sử để xem liệu bạn có
thể sử dụng nó để dự đoán hành vi của người dùng hay không. Ví
dụ: nếu bạn có dữ liệu hiển thị những gì người dùng đã mua vào
tháng trước thì bạn có thể tạo mô hình bằng cách sử dụng dữ liệu
của ba tuần đầu tiên để xem mô hình đề xuất những thứ mà người
dùng đã mua trong tuần cuối cùng của tháng dữ liệu của bạn tốt
đến mức nào. Có thể dự đoán những gì người dùng đã mua sẽ tốt
hơn so với hệ thống đề xuất cơ bản, hệ thống này có thể đơn giản
như một phương pháp trả về những mặt hàng phổ biến nhất. Nếu
nó hoạt động tốt, bạn có thể hiển thị nó cho một bộ phận người
dùng của mình và xem liệu bạn có thể theo dõi không
42
sự cải tiến. Nếu bạn thấy cải thiện thì có thể đưa vào sản xuất; nếu
không, nó sẽ quay trở lại bảng vẽ.
Bây giờ bạn đã có ý tưởng về hệ thống gợi ý là gì, hiểu được
những gì cần làm đầu vào và những gì nó có thể tạo ra. Biết được
cơ sở của hệ thống gợi ý sẽ giúp bạn có nền tảng cho chương 2,
chương này trình bày cách thu thập dữ liệu từ người dùng.
Bản tóm tắt
Netflix sử dụng các đề xuất để cá nhân hóa trang web của
mình và giúp người dùng lựa chọn những thứ họ thích.
Hệ thống gợi ý là một thuật ngữ chung cho nhiều thành phần
và phương pháp khác nhau.
Một dự đoán khác với một khuyến nghị. Dự đoán là việc dự
đoán mức xếp hạng mà người dùng sẽ đưa ra cho nội dung,
trong khi đề xuất là danh sách các mục có liên quan đến
người dùng.
Bối cảnh đề xuất là những gì xảy ra xung quanh người dùng
(môi trường của người dùng) khi có đề xuất. Các mục có thể
không được dự đoán là có xếp hạng cao nhất có thể được đề
xuất nếu chúng phù hợp với ngữ cảnh.
Phân loại được mô tả trong chương này rất hữu ích khi bạn
xem xét các hệ thống gợi ý khác hoặc cố gắng thiết kế hệ
thống gợi ý của riêng mình. Bạn nên xem qua cách phân loại
này trước khi bắt đầu triển khai hệ thống đề xuất của riêng
mình.