210 基于主题模型的出租车出行行为分析

基于主题模型的出租车出行行为分析
谢开强
【摘要】随着“大数据”时代的到来，出行行为数据的采集更加便捷，数据内容更加丰富准确，数据体
量也更加庞大，“交通大数据”孕育而生。为了更加精确地研究出租车出行行为中的微观模式特征，本研究
引入了自然语言处理中常用的 LDA 主题模型。通过出租车 GPS 出行数据与文本数据之间的类比，说明了主
题模型在本次研究中的适用性。接着，论文构造了“出行时间+出行距离+行程时间”形式的“词语”，并应用
LDA 主题模型对北京市出租车 GPS 数据进行了分析。结果表明，LDA 主题模型不仅能够通过主题-词语条件
概率分布有效地给出隐藏在 GPS 数据中的出行模式特征，还能够通过文档-主题概率分布给出每天各出行模
式的分布规律，进而发现出行行为中的周期性特征。
【关键词】出行行为；LDA 主题模型；出租车 GPS 数据
1 引言
出行行为的研究一直是交通研究中的重点内容，居民出行调查则是分析出行行为的主要
数据来源。然而居民出行调查需耗费大量人力、物力和财力，不可能频繁地进行。与传统意
义上的交通出行行为数据相比，“大数据”背景下采集得到的交通出行行为数据具有覆盖面广、
可靠性高、成本低等特点。此外，近两年机器学习领域的新成果不断涌现，机器学习技术在
许多领域也得到了成功应用。这样的变化为城市交通工程师及时了解和掌握城市交通运行特
性提供了新途径。出租车系统作为城市交通系统的重要组成部分之一，其出行比例却在逐年
下降[1][2][3][4]。因此，深入认识当前城市出租车系统的运行特征和规律，对于改善城市出租
车运行系统具有重要意义。
目前，国内外针对出租车出行行为的研究主要集中在出行模式分析、出行行为预测等方
面。基于非负矩阵分解的思想，Peng 等人对上海市出租车 GPS 数据进行了分析研究[5]，结
果发现工作日上海市基于出租车的出行行为中存在三种基础出行模式：通勤出行模式、工作
地之间出行模式和其他出行模式。Yuan 等人基于出租车 GPS 数据以及城市兴趣点(Points of
Interest，缩写 POI)数据[6]，依据城市道路网进行地块分区，对每个分区数据进行特征提取并
利用主题模型对各分区的土地利用类型进行分析，进而对城市功能分布形式进行评价。基于
图论中的最小加权完美二分匹配算法，Zhan 等人利用美国纽约市出租车 GPS 数据[7]，对出
租车系统的运行效率进行了分析。结果表明，如果出租车司机与乘客双方能够实时共享对方
1
的数据，可以使出租车驾驶员减少 60%-90%的空驶里程，同时所需的运营出租车数量仅为
原来出租车数量的三分之一。Du 等人基于北京市 2014 年 4 月-2014 年 6 月三个月间 600 万
乘客的约 16 亿智能公交一卡通数据记录[8]，通过分析地铁和公交上不同乘客的出行规律，
论文给出了工作日早上 8：00-11：00 期间的四种出行模式（正常的出行者、旅游者、购物
者和扒手）及其出行特征，然后进行无监督的异常行为检测和有监督的模式分类，从而挖掘
出异常出行轨迹。其研究结果表明，利用 TS-SVM 算法，模型可以正确识别出 92.7%的小偷。
Yu 等人[9]结合 KNN 算法和路网中路段拓扑关系，对路段行驶车速进行建模预测。
本研究针对城市出租车系统，利用北京市近一万辆出租车的 GPS 数据，结合相关机器
学习算法模型来分析和刻画北京市出租车出行行为的特征和规律，借此探索“大数据”时代背
景下的交通出行行为数据分析方法。
2 研究方法
2.1 主题模型
在自然语言处理领域，主题模型是对文章中隐藏主题建模的一种方法，用来发现文章中
隐藏主题的概率分布以及各主题下所有词语条件概率分布。隐狄利克雷分配（Latent Dirichlet
Allocation，缩写 LDA）是最常用的主题模型[10]。
在 LDA 主题模型中，一个语料库包含了 M 篇文本，一篇文本由 N 个词语组成。一个
主题是在语料库中所有词汇上的一个条件狄利克雷概率分布，因此不同的主题其主题-词汇
条件概率分布也有所不同，而一篇文本则是在所有主题上的一个狄利克雷概率分布，因而不
同文本的文本-主题概率分布也就不同。在此基础上，LDA 主题模型的就是解决以下两个条
件概率估计问题：①给定一个特定主题，某个词汇的出现概率是多少？即主题-词语条件
条件概率 ( = | = );②给定一篇文本，某个主题的出现概率是多少？即文章-主题条
件概率 ( = | = )。其中 , 和分别表示词汇、主题和文本。
作为一个概率生成式模型，对于一篇文本中的每个词汇，LDA 主题模型认为都可以看
作是通过以下步骤产生得到的：
①：对于每个主题，依据由超参数决定的狄利克雷分布生成对应的主题-词汇条件概率
分布；
②：依据由超参数决定的狄利克雷分布产生该文本的多项式主题概率分布；
③：通过以下两步，依次生成该文本的所有的 N 个词语：①依据多项式概率分布，随
机选取一个主题；②依据主题下的主题-词汇条件概率分布，随机选取得到词汇。

2
以上步骤的不断重复 M 次，便得到了包含有 M 篇文档，每篇文档包含 N 个词语的语料
库。如图 1 所示。
图 1 LDA 主题模型概率图表示
对于 LDA 主题模型的参数估计，目前常用的参数估计方法主要有两种，一个是变分期
望最大化方法[10]，另一个则是吉布斯采样估计方法[11]。考虑到吉布斯采样方法相对简单易
懂和操作简单，本次研究选取吉布斯采样方法来对 LDA 模型进行参数估计。
2.2 主题模型适用性及参数标定
在实际应用 LDA 主题模型之前，有必要对主题模型的适用性进行说明。在本次研究中，
将连续多天的出租车 GPS 出行数据看作是 LDA 主题模型中的文本语料库，其中每一天的出
租车 GPS 出行数据集看作是一篇文本，LDA 主题模型中的词汇则对应于出租车 GPS 出行数
据中的单次出行行为特征，而 LDA 主题模型中的主题就对应于出租车出行行为的模式特征，
如表 1 所示。
表 1 文本数据与出租车 GPS 出行数据类比
文本数据出租车 GPS 出行数据
文本语料库多天出租车 GPS 出行数据
单一文本单天出租车 GPS 出行数据
主题出租车出行行为模式
词语单次出租车出行行为
通过以上的类比分析，本次研究构建了当天小时时间+行程时间+出行距离形式的词语。
考虑到文本数据为离散属性数据，在应用 LDA 主题模型之前，还需对行程时间和出行距离
进行离散化操作。举例来说，对于形如“13+(15, 20]+(30, 45]”的“词语”即表示在 13：00-14：
00 期间发生的出行距离位于 15-20 千米区间，行程时间为 30-45 分钟的一次出租车出行行为。
另外，在应用 LDA 主题模型之前，删除了“语料库”中出现频数小于 5 次的“词语”。
在实际运用 LDA 主题模型建模分析之前，还需要确定语料库中包含的主题数量 K。一
般来说，这个超参数可以利用“训练”后的 LDA 主题模型在测试数据集中未知数据上的困惑
3
度来确定，如式。模型在测试集上的困惑度越小，即当前主题数量 K 取值的设置越合理。
在本次研究中，首先将预处理后的出租车 GPS 出行数据集按照 7：3 随机分为训练数据
集和测试数据集。然后再依次选取 0，5，10，…，95，100 作为候选最优主题数量，利用
训练集得到一个 LDA 主题模型，并利用这个模型来计算该模型在测试集数据上的困惑度，
最后选择模型困惑度最小值所对应的候选主题数量作为最终的主题数量 K。对于 LDA 主
题模型中的另外两个超参数α和δ，根据相关经验[12]，将其分别设置为α = 50/ ，δ = 0.1。

( )
Perplexity(K) = （1）
entropy(K) = ∑ ( ) ∑ ( | ) log ( | ) （2）
p(z ) = ∑ ( | ) ( ) （3）
从图 2 中可以看出，尽管 =30 时，模型在测试数据集上的困惑度最小，但是在 35-60
区间模型的困惑度大小出现了小幅度波动。因此，选取 K=65 作为最优主题数量。
图 2 主题数量与模型困惑度关系
经过以上分析和预处理之后，本研究着手应用 LDA 主题模型来回答以下两个问题：①
根据 LDA 主题模型的分析结果，出租车 GPS 数据集中存在哪些类型的出行模式？不同的出
行模式之间有何异同？②根据 LDA 主题模型的分析结果，对于每天的 GPS 数据，其“文档-
主题”概率分布有异同？
3 数据来源
本次研究所用数据集为 2014 年 3 月北京市出租车系统运行 GPS 数据。据相关部门统计，
2014 年北京市出租汽车运营车辆为 67546 辆[2]，其中有将近 18000 辆的出租车装配有 GPS
全球定位装置。这些装有 GPS 装置的出租车每隔 10 秒钟将与该车相关的实时数据发送到调
4
度中心。这些实时发送的数据内容包括出租车唯一识别号（ID）、当前时刻(TIMESTAMP)、
出租车 GPS 位置地理坐标（LATITUDE，LONGITUDE）、出租车行驶速度（SPEED）、航向
角（HEADING）和出租车载客状态（STATUS，表示当前时刻车内有无乘客）等。
对于原始数据集，按照以下步骤进行数据整理与数据清洗工作：
一、数据提取和整理。利用出租车载客状态变量（STATUS）的数值转变为依据，提取
出租车每次载客的起终点数据。
二、数据清洗。主要利用以下方法进行数据清洗工作：①移除单次出租车出行行为的行
程时间小于 5 分钟或超过 3 小时的起终点数据记录；②移除单次出租车出行行为的出行距离
小于 1 千米或超过 100 千米的起终点数据记录。经过数据清洗操作后，此时数据集中共有出
行数据 2240932 条。
原始数据集经过以上两个步骤处理后所得到的数据集便是本次研究所采用的数据集，该
数据集中的主要信息包括出租车每次载客起点位置坐标、终点位置坐标、起点出发时刻
和终点到达时刻等数据。
4 分析结果
为了说明各主题所代表的实际含义，对每个主题下所有词汇的条件概率分布 ( | )由高
到低排序，并依据排序选出前五个与该主题最为紧密的“词语”来对该主题的实际含义进行分
析和说明。同样地，为了分析说明每天出行行为特征的异同，也对每天出租车 GPS 数据中
各主题的概率分布 ( | )由高到低排序，并选取出排序前五个相关主题进行说明。
4.1 主题-词语概率
表 2 展示了 LDA 主题模型在出租车 GPS 出行数据中所发现的部分主题及其对应的词汇
的条件概率大小 ( | )。限于文章篇幅的限制，其余的主题-词语条件概率含义在此不再赘
述。
表 2 主题-词语概率分布
9 号主题 18 号主题
词语 ( | ) 词语 ( | )
8+(0,10]+(30,45] 0.107644 14+(0,10]+(0,15] 0.081908
7+(0,10]+(30,45] 0.078328 12+(0,10]+(15,30] 0.076041
8+(0,10]+(15,30] 0.070165 13+(0,10]+(15,30] 0.047338
17+(0,10]+(15,30] 0.048272 17+(0,10]+(0,15] 0.043612
9+(0,10]+(30,45] 0.044062 14+(0,10]+(15,30] 0.042822
5
词语 ( | ) 词语 ( | )
11+(0,10]+(0,15] 0.265926 18+(10,20]+(135,150] 0.017716
11+(0,10]+(15,30] 0.165807 19+(20,30]+(15,30] 0.011628
10+(0,10]+(15,30] 0.066493 15+(10,20]+(90,105] 0.011628
16+(0,10]+(0,15] 0.042197 1+(10,20]+(90,105] 0.006091
10+(0,10]+(0,15] 0.038167 10+(0,10]+(45,60] 0.006091
词语 ( | ) 词语 ( | )
6+(0,10]+(75,90] 0.012167 4+(20,30]+(75,90] 0.020138
6+(10,20]+(135,150] 0.012167 3+(10,20]+(120,135] 0.015226
0+(0,10]+(120,135] 0.006373 18+(30,40]+(30,45] 0.015226
0+(0,10]+(135,150] 0.006373 7+(0,10]+(120,135] 0.015226
0+(10,20]+(105,120] 0.006373 8+(0,10]+(150,165] 0.015226
9 号主题对应的是早高峰期间的出租车通勤出行模式。9 号主题下主题-词语条件概率排
名前五位的这些词语代表的出行时间大部分都处于 7 点至 9 点的早高峰期间，出行距离均属
于 10 公里以内，因而该主题所对应的出行模式是早高峰期间从居住地至工作地点的出租车
通勤出行行为。
18 号主题对应的是中午期间的休闲娱乐类出租车出行模式。可以看到，18 号主题下条
件概率排在前三位的词语所代表的都是 12：00-14：00 期间的短距离出租车出行。根据相关
调查资料[13]，基于出租车的出行行为主要是通勤出行、休闲娱乐和公务外出行为。而由于
该时段属于午餐时间，因此这些单词所代表的出行模式是中午期间的休闲娱乐类出租车出行
行为。
28 号主题对应的是中午之前的公务外出类出租车出行模式。该主题下条件概率排在首
位的词语表示的是 11：00-12：00 期间，出行距离小于 10 公里且行程时间小于 15 分钟的出
租车出行行为。根据相关调查资料[13]，基于出租车的出行行为主要是通勤出行、休闲娱乐
类和公务外出行为。该主题下排名前两位的词语所表示的出行时间都属于工作时段。因此，
该主题所代表的出行模式是中午之前的公务外出类出租车出行模式。
43 号主题对应的是晚高峰期间的出租车通勤出行模式。该主题下条件概率排在首位的
词汇代表的是 17：00-18：00 期间，出行距离大于 10 公里小于 20 公里但行程时间却超过了
两小时的出租车出行行为。而排在第二位的单词也是代表晚高峰 17：00-19：00 期间的出租
车出行行为，因此，该主题所代表的出行模式是晚高峰期间的出租车通勤出行行为模式。
27 号主题对应的是凌晨期间的异常出行行为模式。对 27 号主题来说，其主题-词语条
件概率排在前五位的词语所代表的出行时间都是处于凌晨期间，且出行距离小于 10 公里。
6
但是其行程时间却达到了一个小时甚至两个小时，造成这种异常出行行为的可能原因是道路
交通事故车辆所产生的拥堵或是出租车 GPS 设备导致的问题。对于这类主题的发现与分析，
有利于在今后的相关工作中进行专门的研究分析。
30 号主题对应的是凌晨时段的中长距离的出租车出行行为模式。对 30 号主题来说，其
条件概率排在前两位的单词所表示的出行距离相对较远，因此该主题所代表的出行模式是早
起人群的中长距离出行行为模式。
4.2 文档-主题概率
为了分析出租车出行行为的周期性特征，本次研究中利用向量内积运算来比较不同文档
-主题概率分布之间的相似性S ，计算公式如式 4 所示，其中 =( , ,…, ), || || =
∑ ，∙ 表示向量内积运算。
∙
s = （4）
|| || ∗|| ||
表 3.4 所示为各周内同一天的出行模式相似性。从表中可以看到，几乎所有的计算结果
都有S 1，即出租车出行行为具有比较明显的以星期为周期的周期性规律。另外，从表中
还可以看到，与工作日出行模式之间明显的规律性相比（ > 0.99），周末两天之间的出
行模式相似性相对较低( > 0.98)。这反映出相对于工作日的出租车出行行为模式来说，
周末的出租车出行行为模式周期性规律性质相对较弱。
表 3 不同星期同一天文章-主题概率相似性
s s s s s s s
0.999 0.998 0.997 0.995 0.992 0.989 0.985
图 3 所示为同一周之内不同天的出租车出行模式之间的相似性。可以看到，图中上方两
行方格颜色相对较浅，而下方各行方格颜色相对较深，说明不同工作日之间出租车出行模式
的相似性大于工作日与非工作日的出租车出行模式之间的相似性。
7
图 3 每天出行行为模式相似度
为进一步分析比较每天的出租车出行模式的规律和差异，在表 4 中依据文档-主题概率
P(z|d)由大到小列出了排在每天前五位的主题编号及其对应的概率。由表中数据可以发现，
排名前五位的主题的累积概率和已经超过了 0.7。也就是说，这些排名前五位的主题，可以
表示出每天出租车出行行为数据中超过 70%的模式特征。另外，尽管对应的文档-主题概率
数值有所不同，但其排在首位的主题都是 44 号主题。因此，在表 5 中专门列出了 44 号主题
下排名前 10 的词语及其对应的主题-词语条件概率。从表 5 中可以看到，44 号主题下所有
词语的条件概率大小差异不是很明显。因此，可以把 44 号主题看作是每天出租车出行行为
模式中的基础模式。也就是说，在上文中所发现的每天的出租车出行模式之间存在较明显规
律的原因是因为这些基础出行模式的存在。
表 4 文档-主题概率分布排名前 5 位主题
第一天第二天第三天第四天第五天第六天第七天
主题 ( | ) 主题 P(z| ) 主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | )
44 0.21 44 0.24 44 0.22 44 0.24 44 0.22 44 0.22 44 0.19
33 0.19 33 0.18 33 0.17 33 0.17 41 0.16 18 0.15 63 0.19
63 0.12 41 0.10 63 0.11 63 0.12 33 0.15 63 0.14 18 0.15
41 0.11 63 0.09 41 0.11 18 0.10 18 0.10 33 0.11 33 0.12
18 0.09 18 0.09 18 0.09 41 0.08 63 0.10 5 0.09 41 0.06
第8天第九天第十天第十一天第十二天第十三天第十四天
8
第一天第二天第三天第四天第五天第六天第七天
主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | ) 主题 ( | )
44 0.22 44 0.22 44 0.22 44 0.26 44 0.26 44 0.21 44 0.22
33 0.19 33 0.17 33 0.18 63 0.15 33 0.16 63 0.18 33 0.16
63 0.13 63 0.12 63 0.10 33 0.14 63 0.15 18 0.17 63 0.15
18 0.10 41 0.09 41 0.09 18 0.10 41 0.13 5 0.10 41 0.12
41 0.09 18 0.09 18 0.09 41 0.09 18 0.09 33 0.09 18 0.08
表 5 44 号主题-词汇概率
词语 P(w|z)
20+(0,10]+(0,15] 0.071107
16+(0,10]+(0,15] 0.063276
8+(0,10]+(0,15] 0.060526
17+(0,10]+(15,30] 0.052038
14+(0,10]+(15,30] 0.051296
9+(0,10]+(15,30] 0.042155
22+(0,10]+(0,15] 0.040981
23+(0,10]+(0,15] 0.038269
15+(0,10]+(0,15] 0.036135
10+(0,10]+(15,30] 0.033785
5 全文总结
为了更加精确地分析出租车出行行为的模式特征，本研究引入了自然语言处理中常用的
LDA 主题模型。通过出租车 GPS 出行数据与文本数据之间的类比，说明了主题模型在本次
研究中的适用性。之后通过适当的离散化处理，构造了“出行时间+出行距离+行程时间”形式
的“词语”，并应用 LDA 主题模型对北京市出租车 GPS 数据进行了分析研究。结果表明，主
题模型不仅能够通过主题-词语条件概率分布有效地给出隐藏在 GPS 数据中的微观出行模式
特征，还能够通过文档-主题概率分布给出每天各出行模式的分布规律，进而发现出行行为
中的周期性特征。此外，论文从文档-主题概率分布的角度，针对出租车 GPS 出行数据中的
周期性规律存在的可能原因做出了解释和说明。
参考文献
[1] . 温慧敏, 孙明正, 王书灵, 等. 2014 年北京交通发展年报[R]. 北京: 北京交通发展研究中心,
2014.
[2] . 温慧敏, 刘阳, 杜华兵, 等. 2015 年北京交通发展年报[R]. 北京: 北京交通发展研究中心,
2015.
[3] . 温慧敏, 刘阳, 杜华兵, 等. 2016 年北京交通发展年报[R]. 北京: 北京交通发展研究院,
9
2016.
[4] . 温慧敏, 顾涛, 董升伟, 等. 2017 年北京交通发展年报[R]. 北京: 北京交通发展研究院,
2017.
[5] . Peng C, Jin X, Wong K, et al. Collective human mobility pattern from taxi trips in urban
area[J], PLoS One, 2012, 7(4): e34487.
[6] . Yuan J, Zheng Y, Xie X. Discovering regions of different functions in a city using human
mobility and POIs. Proceedings of the 18th ACM SIGJDD International Conference on Knowledge
Discovery and Data Mining[C]. New York, USA: ACM, 2012: 186-194.
[7] . Zhan X, Qian X, Ukkusuri S V. A graph-based approach to measuring the efficiency of an
urban Taxi service system[J], IEEE Transactions on Intelligent Transportation Systems, 2016,
17(9): 2479-2489.
[8] . Du B, Liu C, Zhou W, Xiong H. Catch me if you can: detecting pickpocket suspects from
large-Scale transit records. The 22nd ACM SIGKDD International Conference on Knowledge Discovery
and Data Mining[C]. San Francisco, USA: ACM, 2016: 87-96.
[9] . Yu B, Song X, Guan F, et al. k-nearest neighbor model for multiple-time-step prediction
of short-term traffic condition[J], Journal of Transportation Engineering, 2016, 142(6):
04016018.
[10] . Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J], Journal of Machine
Learning Research, 2003, 3(Jan): 993–1022.
[11] . Griffiths T L, Steyvers M. Finding scientific topics[J], Proceedings of the
National Academy of Sciences, 2004, 101(suppl 1): 5228-5235.
[12] . Wei X, Croft W B. LDA-based document models for ad-hoc retrieval. Proceedings of
the 29th Annual International ACM SIGIR Conference on Research and Development in Information
Retrieval[C]. Washington, USA: ACM, 2006: 178-185.
张延昆, 周正宇, 王文杰, 等. 第五次北京城市交通综合调查总报告[R]. 北京: 北京交通委员会,
2016.
作者简介
谢开强，男，硕士，深圳市城市交通规划设计研究中心有限公司、深圳市交通信息与交
通工程重点实验室，工程师。电子信箱：kqx0731@163.com
10

210 基于主题模型的出租车出行行为分析

Uploaded by

Copyright:

Available Formats

You might also like

210 基于主题模型的出租车出行行为分析

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

210 基于主题模型的出租车出行行为分析

Uploaded by

Copyright:

Available Formats

基于主题模型的出租车出行行为分析

面。基于非负矩阵分解的思想，Peng 等人对上海市出租车 GPS 数据进行了分析研究[5]，结

地之间出行模式和其他出行模式。Yuan 等人基于出租车 GPS 数据以及城市兴趣点(Points of

图论中的最小加权完美二分匹配算法，Zhan 等人利用美国纽约市出租车 GPS 数据[7]，对出

原来出租车数量的三分之一。Du 等人基于北京市 2014 年 4 月-2014 年 6 月三个月间 600 万

论文给出了工作日早上 8：00-11：00 期间的四种出行模式（正常的出行者、旅游者、购物

出异常出行轨迹。其研究结果表明，利用 TS-SVM 算法，模型可以正确识别出 92.7%的小偷。

Yu 等人[9]结合 KNN 算法和路网中路段拓扑关系，对路段行驶车速进行建模预测。

本研究针对城市出租车系统，利用北京市近一万辆出租车的 GPS 数据，结合相关机器

在 LDA 主题模型中，一个语料库包含了 M 篇文本，一篇文本由 N 个词语组成。一个

件概率估计问题：①给定一个特定主题 ，某个词汇 的出现概率是多少？即主题-词语条件

条件概率 ( = | = );②给定一篇文本 ，某个主题 的出现概率是多少？即文章-主题条

件概率 ( = | = )。其中 , 和 分别表示词汇、主题和文本。

机选取一个主题 ；②依据主题 下的主题-词汇条件概率分布 ，随机选取得到词汇 。

懂和操作简单，本次研究选取吉布斯采样方法来对 LDA 模型进行参数估计。

将连续多天的出租车 GPS 出行数据看作是 LDA 主题模型中的文本语料库，其中每一天的出

租车 GPS 出行数据集看作是一篇文本，LDA 主题模型中的词汇则对应于出租车 GPS 出行数

据中的单次出行行为特征，而 LDA 主题模型中的主题就对应于出租车出行行为的模式特征，

考虑到文本数据为离散属性数据，在应用 LDA 主题模型之前，还需对行程时间和出行距离

进行离散化操作。举例来说，对于形如“13+(15, 20]+(30, 45]”的“词语”即表示在 13：00-14：

00 期间发生的出行距离位于 15-20 千米区间，行程时间为 30-45 分钟的一次出租车出行行为。

另外，在应用 LDA 主题模型之前，删除了“语料库”中出现频数小于 5 次的“词语”。

在实际运用 LDA 主题模型建模分析之前，还需要确定语料库中包含的主题数量 K。一

般来说，这个超参数可以利用“训练”后的 LDA 主题模型在测试数据集中未知数据上的困惑

在本次研究中，首先将预处理后的出租车 GPS 出行数据集按照 7：3 随机分为训练数据

集和测试数据集。然后再依次选取 0，5，10，…，95，100 作为候选最优主题数量 ，利用

训练集得到一个 LDA 主题模型，并利用这个模型来计算该模型在测试集数据上的困惑度，

最后选择模型困惑度最小值所对应的候选主题数量 作为最终的主题数量 K。对于 LDA 主

题模型中的另外两个超参数α和δ，根据相关经验[12]，将其分别设置为α = 50/ ，δ = 0.1。

entropy(K) = ∑ ( ) ∑ ( | ) log ( | ) （2）

从图 2 中可以看出，尽管 =30 时，模型在测试数据集上的困惑度最小，但是在 35-60

区间模型的困惑度大小出现了小幅度波动。因此，选取 K=65 作为最优主题数量。

根据 LDA 主题模型的分析结果，出租车 GPS 数据集中存在哪些类型的出行模式？不同的出

行模式之间有何异同？②根据 LDA 主题模型的分析结果，对于每天的 GPS 数据，其“文档-

2014 年北京市出租汽车运营车辆为 67546 辆[2]，其中有将近 18000 辆的出租车装配有 GPS

全球定位装置。这些装有 GPS 装置的出租车每隔 10 秒钟将与该车相关的实时数据发送到调

出租车 GPS 位置地理坐标（LATITUDE，LONGITUDE）、出租车行驶速度（SPEED）、航向

程时间小于 5 分钟或超过 3 小时的起终点数据记录；②移除单次出租车出行行为的出行距离

小于 1 千米或超过 100 千米的起终点数据记录。经过数据清洗操作后，此时数据集中共有出

数据集中的主要信息包括出租车每次载客起点位置坐标 、终点位置坐标 、起点出发时刻

析和说明。同样地，为了分析说明每天出行行为特征的异同，也对每天出租车 GPS 数据中

8+(0,10]+(30,45] 0.107644 14+(0,10]+(0,15] 0.081908

7+(0,10]+(30,45] 0.078328 12+(0,10]+(15,30] 0.076041

8+(0,10]+(15,30] 0.070165 13+(0,10]+(15,30] 0.047338

17+(0,10]+(15,30] 0.048272 17+(0,10]+(0,15] 0.043612

9+(0,10]+(30,45] 0.044062 14+(0,10]+(15,30] 0.042822

11+(0,10]+(0,15] 0.265926 18+(10,20]+(135,150] 0.017716

11+(0,10]+(15,30] 0.165807 19+(20,30]+(15,30] 0.011628

10+(0,10]+(15,30] 0.066493 15+(10,20]+(90,105] 0.011628

16+(0,10]+(0,15] 0.042197 1+(10,20]+(90,105] 0.006091

10+(0,10]+(0,15] 0.038167 10+(0,10]+(45,60] 0.006091

6+(0,10]+(75,90] 0.012167 4+(20,30]+(75,90] 0.020138

6+(10,20]+(135,150] 0.012167 3+(10,20]+(120,135] 0.015226

0+(0,10]+(120,135] 0.006373 18+(30,40]+(30,45] 0.015226

0+(0,10]+(135,150] 0.006373 7+(0,10]+(120,135] 0.015226

0+(10,20]+(105,120] 0.006373 8+(0,10]+(150,165] 0.015226

件概率排在前三位的词语所代表的都是 12：00-14：00 期间的短距离出租车出行。根据相关

位的词语表示的是 11：00-12：00 期间，出行距离小于 10 公里且行程时间小于 15 分钟的出

件概率估计问题：①给定一个特定主题，某个词汇的出现概率是多少？即主题-词语条件

条件概率 ( = | = );②给定一篇文本，某个主题的出现概率是多少？即文章-主题条

件概率 ( = | = )。其中 , 和分别表示词汇、主题和文本。

机选取一个主题；②依据主题下的主题-词汇条件概率分布，随机选取得到词汇。

集和测试数据集。然后再依次选取 0，5，10，…，95，100 作为候选最优主题数量，利用

最后选择模型困惑度最小值所对应的候选主题数量作为最终的主题数量 K。对于 LDA 主

数据集中的主要信息包括出租车每次载客起点位置坐标、终点位置坐标、起点出发时刻

第8天第九天第十天第十一天第十二天第十三天第十四天