第3讲 关联规则分析

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 31

中 中 中 中 中

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
第三讲 关联规则分析

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
邮箱:yuchao.peng@hotmail.com
中央财经大学金融学院
彭俞超

O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
目录
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
• 二、Apriori算法原理

M
O
O
• 四、编程实现与案例 M
O
O
M
O
O
M
O
O
M
C C C C

中 中 中 中 中
国 国 国 国 国
• 一、关联规则分析方法概述

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
• 三、 Apriori在协同过滤的运用

C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
2

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
一 关联规则分析方法概述

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

• 典型例子:
中 中 中 中 中
国 国 国 国 国

• 金融领域引申
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
关联规则分析

相关性或因果结构。

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大

• 银行客户端的理财推荐系统
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
• 分析优秀基金经理频繁购买的金融产品组合,是否是跑赢大盘的有效组合?

O O O O
C C C C
• 购物篮分析,寻找出频繁出现在一起的组合。作为个性化推荐的依据!
• 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息

中 中 中 中 中
4

国 国 国 国 国
大 大 大 大 大
载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
二 理论和算法

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学

则(Rules)。
M M M M M
O O O O
O O O O
C C C C
• 一组人的交易清单。

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
Aprior算法的输入输出

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
• 根据该交易清单寻找哪些商品经常一起出现即关联规

国 国 国 国 国
大 大 大 大 大
• 每一笔交易(Transaction)包含一系列的商品(Items)

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
6

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

• 超集/子集
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国

比例)超过某一阈值的。
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
Aprior算法基本概念

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
• 项集A⊆项集B,则A是B的子集,B是A的超集。

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
花生} 是一个4-项集。空集是指不包含任何项的项集。

C C C C

中 中 中 中 中
国 国 国 国 国
• 项集:包含0个或多个项的集合被称为项集(itemset)。

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• 如果一个项集包含k个项,则称它为k-项集。例如{啤酒,尿布,牛奶,

• 频繁项集:在整个交易清单中,包含该项集的条目(占总条目的

中 中 中 中 中
7

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大

用户设定的阈值
学 学 学 学 学
Apriori算法

M M M M M
• 一种频繁项集算法

O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• 核心思想是把发现关联规则的工作分为两步:

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
• 第二步从频繁项集中构造出满足用户最低信任度的规则。

O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的
• 定理:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相

• 第一步通过迭代检索出数据库中的所有频繁项集,即频繁项集的支持度不低于

中 中 中 中 中
8

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
五种商品购物篮的所有组合

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
9

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
剪枝
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
10

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
例子
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
11

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
规则示例

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
12

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
相关指标

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
中X和Y是不相交的项集。

M M M M M
O O O O
O O O O
• σ(X):表示项集X的支持度计数

C C C C

中 中 中 中 中
国 国 国 国 国
则可以用于给定数据集的频繁程度

大 大 大 大 大
• 项集X的支持度:support(X)=σ(X)/N;

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
• 规则X → Y的支持度: support(X → Y) = σ(X∪Y) / N

O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• 支持度:一个项集或者规则在所有事物中出现的频率,确定规
• 关联规则(association rule):是形如 X → Y 的蕴含表达式,其

中 中 中 中 中
13

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
相关指标

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
• P (Y| X) =P(X,Y)/P(X)

O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
• 支持度通常用来删去那些无意义的规则;

M M M M M
• confidence(X → Y) = support(X∪Y)/ support(X)

O O O O
O O O O
C C C C
• 置信度度量是通过规则进行推理具有可靠性。

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
• 置信度(或信任度):确定Y在包含X的事务中出现的频繁程度。

O O O O
C C C C
• 对于给定的规则X → Y,置信度越高,Y在给定X下的条件概率P(Y|X)越大。

中 中 中 中 中
14

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
• 支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。

O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学

常见。
M M M M M
O O O O
O O O O
C C C C
相关指标

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
并反映了商品之间的真实联系。

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
• 不难发现,Lift(X  Y) = Lift(Y  X)

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• Lift= confidence /P(Y)= P(X,Y)/[P(X)*P(Y)]

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
15

国 国 国 国 国
• 如果lift值>1,说明这两类商品在一起购买比只有一类商品被购买更

大 大 大 大 大
学 学 学 学 学
• 一个大的提升度值是一个重要的指标,它表明一个规则是很重要的,

M M M M M
• Lift(提升度):一类商品在LHS下的购买率与它的一般购买率之比。

O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
与Lift类似的

C C C C





本质上是A和~B的Lift 中





大 大 大 大 大
Lift是相除,此处是相减

学 学 学 学 学
M M M M M
O O O O
O O O O
• Leverage : P(A,B) - P(A)*P(B)

C C C C
• Conviction: P(A)*P(~B) / P(A, ~B)

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
= P(A)*(1- P(B))/(P(A)-P(A,B))

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
16

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
解读规则

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
概率提升了1.565倍。
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
plants后,他购买whole milk的概率为40%。

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
whole milk,支持度support为0.0070,confidence为0.4000。

M M M M M
O O O O
O O O O
C C C C
• 第一条规则:如果一个顾客购买了pot plants,那么他还会购买

• 我们可以确定该规则涵盖了大约0.7%的交易,而且在购买了pot

中 中 中 中 中
17

国 国 国 国 国
• 提升度lift值为1.565,表明他相对于所有顾客购买whole milk商品的

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
三 关联规则在推荐系统中应用

M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
协同过滤算法

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
• 类似于“人以类聚、物以群分”的思想

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
19

国 国 国 国 国
• 定义:根据用户的兴趣和偏好对用户进行划分,从而进行产品推荐

• 协同过滤算法被广泛运用在新闻、音乐、短视频、电商等平台的推荐功能中

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
相似度

• 余弦相似度
• 杰卡德相似度

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
• 皮尔逊相关系数

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
• 去中心化后,与皮尔逊等价

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• 相关性,是指两个变量的关联程度

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
20

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
利用杰卡德相似度计算用户相似度

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
21

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
利用余弦相似度计算用户相似度

O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
22

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
或历史行为数据
M M M M M
O O O O
O O O O
C C C C
相似度的不足

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
• 难以直接预测某用户对某产品的评分

M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
• 在评分数据不足的情况下难以有效计算相似性

学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
• 余弦相似度和皮尔逊相似度的计算都依赖于丰富的用户偏好数据

中 中 中 中 中
23

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
• 定义一条关联规则推荐度为recom(X⟹Y), 计算方法为:

大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
• 基于关联规则改进后的用户对于一个项目评分的预测值为:

C C C C
用关联规则算法预测用户对特定产品评分

中 中 中 中 中
24

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
四 编程实现和案例

C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
安装包

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
26

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
基金持仓数据

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
27

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
去空转换成deal level,导入模型

O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
28

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
29

国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
M

M





筛选长度
C

C
O

O
O

O
M

M


• association_rule['long']




=np.where(association_rule['antecedents'].str.len()+association_rule['c
onsequents'].str.len()>2,association_rule['antecedents'].str.len()+associ
C

C
O

O
ation_rule['consequents'].str.len(),0)
O

O
M

M



• association_rule_three=np.round(association_rule[association_rule['lo



ng']>2], 2)
C

C
O

O
O

O
M

M





C

C
O

O
O

O
M

M


30




中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C
谢谢!

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

中 中 中 中 中
国 国 国 国 国
大 大 大 大 大
学 学 学 学 学
M M M M M
O O O O
O O O O
C C C C

You might also like