Professional Documents
Culture Documents
基于大数据的城市人群数字画像 技术与实证
基于大数据的城市人群数字画像 技术与实证
杨俊宴金探花史宜张殉
YANG Junyan;JIN Tanhua;SHI Yi;ZHANG Xun
万方数据
成为补充或替代传统调查数据的新型数据.借助 领域,推动了中国的本土化城市研究。例如.柴
机器学习、人工智能等多种数字化技术来解析城 彦威(201 3)从微观视角下的个体El常活动时空模
市人群时空行为、理解城市空间与规律已成为当 式出发,探析了不同时间切片下的城市人群活动
下不可逆的趋势瞄1。 和出行类型,时空行为研究与城市空间之间的
由此可见.既有关于城市人群的研究呈现出 互动由此形成”…。王德(201 5)、钮心毅(201 9)
从关注人到聚焦人、从抽象到具象、从静态到动 侧重于基于个体时空行为特征对城市建成环境
态的数字化发展趋势m・。然而,高精度数据也随 评价”“与活力特征测度”…;闰晴.李诚固(201 8)
之带来了挖掘数据背后规律的研究方法的挑战。 则从以社区为单位的居民行为时空数据出发.探
与此同时,如何从城市规划的视角刻画和定义不 究小尺度空间单元上的活动空间分布规律,进而
同的城市人群,特别是利用数字化技术手段,深 感知城市社会空间体系…’。至此.随着研究方法
度挖掘人群特征,识别并解析不同城市人群的时 的多元化及数据采集.挖掘技术的飞速发展,时
空行为模式,以实现对城市人群的整体性刻画. 空行为成为学者描述城市现象.解析背后机制的
正成为重点需要攻克的技术难题。为此,本文提 重要视角.为面向规划实践的应用提供了重要的
出“城市人群数字画像”理论方法.试图综合 理论与方法依据”…。
LBS定位数据.业态POI数据和城市用地功能数据 总体而言.伴随着移动定位设备与互联网
等多源大数据,研创时空行为识别技术来精准把 通讯设备的普及,海量的人群信息数据应运而
握城市人群的时空行为;基于”时间序列、空间 生,为居民时空行为与城市空间研究提供了新
分布.行为模式”3个维度,通过数据测度和挖 的可能”””1。时空间行为挖掘、行为预测、异
掘对人群复杂行为进行数字刻画,进而建构基于 常点检测等数字技术也进一步推动了对海量城
z 时空行为的人群数字画像.精准有效地识别出不 市人群开展高精度识别.分析与刻画的数字化
同城市人群的时空分异特征,为城市空间优化与 研究¨|-”1。然而,高精度数据也带来了诸多挑
提升提供针对性的规划指引,也在一定程度上改 战:数据上.高精度定位数据在描述个人社会经
变传统规划”见物不见人”的弊病。 济特征方面存在一定局限,同时.由于该类数据
不存在活动类型信息的记录,因此往往需要借助
1 城市人群数字画像的理论溯源与概念内 调查以完善活动类型信息;分析方法上.时空行
涵 为分析结果与城市规划应用的衔接可进一步提
万方数据
用户画像的构建方法可被概括为用户特征的 中,时间序列是指人群一日整体行为的节奏分
标签化.其标签刻画的主要内容涵盖了人群特征 布:空间分布是指人群居住行为发生的空间位
的多个维度,如静态特征主要指用户在较长一段 置;行为模式是指对人一日出行链的整体性描述
时间内稳定的信息属性;动态特征则指用户外在 (图2)。这3类维度能够更为有效地实现基于多源
的行为属性,包括浏览记录,购买行为掣26】。在 数据的人群时空行为特征刻画.且为城市规划实
应用价值方面.用户画像微观层面的主要作用 践提供可操作的人群解析方法。
是价值发现悼“.利用用户有效数据对用户进行
认知发现.进而通过大量数据收集.构建用户 2城市人群的时空行为识别技术
画像.实现用户的特征识别与需求分析【281;中观
层面的主要作用是运营优化.主要用于企业的 城市人群时空行为的基础数据主要包含人群
功能优化.精准营销和个性化推荐旧9‘;宏观层 LBS定位数据、业态POI数据和城市土地利用数据
面[261的主要作用是战略制定.主要用于市场走向 等.在数据预处理的基础上通过停留点识别、行
判断、用户群体划分和产品定位等方面例。 为模型训练与识别等方法来实现海量人群的行为
由此.将用户画像的对象从商业客户拓展 识别与校核。为了更好地阐述城市人群的时空行
到城市的所有使用者.在清洗掉隐私信息的前提 为识别技术.将威海作为案例进行具体的方法阐
下,把刻画的行为从单纯的商业行为拓展到人在 述。
城市公共空间中可能发生的一切行为,从而得到
一个更加适用于城市规划领域的。用户画像“, 2.1数据来源与预处理
称之为。城市人群数字画像”。城市人群对于城 威海位于山东半岛东端.市域面积为
市空间的诉求不尽相同,通常情况下,城市管理 47
者或规划师无法在海量的城市人群中轻易地找到
表1用户画像的相关概念
分类人群的规律.而“城市人群数字画像”正是 Tab.1 Relevant concepts of user portrait
这样一个化繁为简的解析手段,并且随着国内城
市规划实践的推进,对规划涉及的相关城市人群
进行精细化刻画将逐渐成为规划设计工作重要的
前期内容。
一茁海*睁莉斟拇时果誉
1.3城市人群数字画像的内涵 资料来源:根据文献综述整理。
依托城市多源大数据对匿名人群“时间序
一啦叫汁肄击冒B薄斟>君羊肄啪尉茹}支*-与糌岛
列、空间分布、行为模式”3维度的特征进行刻
画,从而划分出不同人群类别,通过解析其差异
化特征以洞察城市不同人群的客观行为规律.从
而更有针对性地优化城市公共空间资源与多元人
群之间的匹配关系.做到。见物又见人”。
本文在数据解析中关注的是个
体在城市空间中的公共行为,并借助
4W(Who+When+Where+What)模型对城市人群
进行标识。具体而言. 。Who”是指在海量人群
中区分各类型群体; 。When”是指该公共行为
所发生的具体时刻与停留时间: “Where”是指
行为发生地的位置属性; ”What”则包含工作、 空间维度
购物、休闲等日常活动行为。基于LBS数据和城
市高精度三维矢量空间数据.可以综合识别出人
在特定时间、特定地点、停留了多长时间等信
息,通过汇总。when”“where”’what”等信
息标签(图1).实现人群的一日(24h)行为解析.
并形成海量人群的基础行为数据库。另外.通过
对人群行为分异特征的深度挖掘,识别并提取出 一一一 一
一3
不同类型的城市人群群体。
本文建构的人群整体性刻画框架的3个维度 一团晦料 P来 祗雾 藤一 一下盯表 |主;州畅 一群如有||回劬注 一像甜明 雌均 叫凯 m笔 ∞绘
万方数据
5797km2,市区面积为408km2.201 7年中心城区 间属性则包含经纬度信息。。数据预处理主要针
人口为76.7万人.本文所使用的LBS数据为经匿 对数据缺失、重复或错误的情况.清洗无效数
名清洗处理的手机定位数据∞.覆盖空间范围 据。最终如图4所示.经过预处理后获得中心城
为威海市域.时间范围为201 7年10月至2018:年--4 区范围内手机用户的行为点。
月.共计覆盖手机用户200万人(图3)。其中.定
位数据的空间精度达到5m范围以内,每个用户 2.2城市人群行为识别
的定位数据均包含时间,空间、编码.年龄.性 (1)停留点识别
别属性.时间属性精确到。年月日时分秒”.空 停留点识别方法为具有时间与空间双维度的
ST-DBSCAN聚类算法。图5为典型个体运动轨迹
的示意图.当个体进行移动行为时.其轨迹点之
间距离较远;当个体在某处停留时,其生成的各
轨迹点之间距离较近(≤200m),其进行无规则
鼍藿爹箩 移动的虚线圈范围即为可识别个体的停留区域。
为了识别停留行为.可选取停留点来表征停留区
勺甲 P汐
“舔:l至雪笋 域.其涵义为个体驻足在停留区域.且正在从事
某一特定行为活动的点.其空间属性由范围内所
有轨迹点经纬度的均值来表示.时间属性则采用
停留区域内最后一个轨迹点(结束时间)与第一个
轨迹点(开始时间)之间的时间差来表示。
z ; (2)行为分类与识别
在参考<威海市居民出行调查报告)的基
础上.最终确立了居住、工作、休闲.生活服
一时oM∞椅艟.4 务、游憩与其他6类行为分类。其中. ”工作”
包含。上班,上学、公务”,探亲访友等偶发
出行行为则不予讨论。在此基础上.将基于sT—
DBSCAN聚类算法识别得到的个体单日活动点.
7.滩艟.4蟹<OL_J4
一菡哥浴壁。一{刁5z圣o刀m<而≤ 活动地块所属用地类型等数据信息载入隐形马尔
科夫模型。中,通过对模型进行训练以标记所有
个体的行为.可按照上述行为类型对行为点进行
7.zO.4>可力"o¨∞ 识别。
此外.结合POI数据对行为识别效果进行校
核.得出:POI校核前后的居住和工作行为占比
图2人群画像分类的3个维度
Fig.2 Three dimensions for crowd portrait classification 反映出了居住和工作行为识别的准确率高.而
”其他”行为识别的准确率则相对较低。例如.
当发现。其他“行为识别比例较高时.通过对比
和验证.可以看出。其他‘类型中有多数点是在
距离购物场所1 OOm的地方停留超过1 5m.n.对于
这种情况则将其校核为生活服务行为。最终经校
正,其他行为的比例显著下降,休闲.生活服务
等行为的识别结果则显著提高(表2)。
3城市人群数字画像的构建技术
运用。时间序列.空间分布.行为模式”3
个维度划分威海人群类型.可有效辨识城市不同
人群活动的时空分异特征,且具备一定的实际操
作性.
万方数据
。时间序列.空间分布.行为模式”的人群画像
维度。
(1)时间序列:分为朝九晚五、早出晚归.
足不出户印.早出早归、晚出晚归.晚出早归及
其他7种典型人群(表3)。其中.占比高于1 5%的
为。足不出户” 。朝九晚五”人群.反映出威海
居民小范围活动出行及规律上下班的共性特征。
(2)空间分布:基于威海的城市建成区规
模.本文确立了以居住地与威海城市中心威高广
场的直线距离作为居住区位划分的判定规则。
依次划分出核心城市区,中心城区.近郊城
区.远郊城区4类空间模式(表4)。其中. 。远
郊城区”人群占比最高.高达27.7%, “核心
城区” 。近郊城区”人群占比较为接近.约为
26%。整体而言.各类空间分布的人群分类占
比差异较小。 图4威海中心城区LBS数据点分布
Fig.4 Distribution of LBS data points in the central urban area of Weiha
(3)行为模式:将个体一日行为模式进行排
列,选取占比大于1%的排列结果对人群进行行 表2隐形马尔科夫模型直接行为识别结果与校核后行为识别结果对比
Tab.2 Comparison between the direct behavior recognition results of the hidden
为模式的类型划分。依此识别出16种典型人群行
Markov model and the behavior recognition results after verification
为模式(表5)。其中.宅居族,两点一线上班族 .
,
居住 工作 休闲 生活服务 游憩 其他
两类群体的占比最高.均超过20%,其余群体则
(H) IW) (R) (C) (P) (0}
普遍占比较低。
Poi校核前
36.3% 27,9% 6.7% 3.4% 2.1% 23.6%
行为占比
3.2人群数字画像的类型构建
Poi校核后
通过前文构建的’时间序列.空间分布.行 36.9% 28.2% 8.6% 4.5% 2 9% 18.8%
行为占比
为模式”3维度对威海人群进行了类型识别和特
征刻画.最终共计得到147类人群数字画像谱系。 一蕊南*睁鞘斟拇时弓长署
其中,占比超过0.5%的典型人群共有14类曰。可 4城市人群数字画像的时空分异特征解析
以发现,在14类典型人群中(表6).时间序列和
一牲呻汁拜精磐藩斟>骢群*画癌。j支*町料_i正
行为模式构成了人群分异的主导性维度。时间序 在时空行为识别与人群数字画像谱系构建
列主要表现出了足不出户.朝九晚五.早出晚归 的基础上,进一步将人群数字画像的识别结果
的共性特征;而宅居族和两点一线上班族则构成 映射到城市空间中,以解析城市空间是如何被
了行为模式维度下的主导类型。 不同人群使用的,并有效辨识城市不同人群活
图5个体停留点识别示意图
Fig.5 Identification ofthe stop point ofan individua
万方数据
表3时间序列下的人群分类占比 动的时空分异特征。利用人群数字画像的时间
Tab.3 Classification and proportion of the crowd in terms of time series
分异、空间分异特征,能够科学地把握某一特
序号 时间序列 判定规则 占比 累计占比 定人群的空间需求,提出具有针对性的规划优
07 00一09:OO进行非“居住行为” 化策略。
1 朝九晚五 1 9 8% 1 9 8%
1 7:OO~g 00进行非”工作行为”
10:00以后仍在进行”居住行为” 闲、游憩等公共活动方面的行为持续时间长,
5 晚出晚归 3 7% 71 3%
20 00仍在进行非“居住行为“ ”早出晚归”人群的工作时长相对更长。值得
10:OO以后仍在进行“居住行为” 注意的是. “晚出晚归”人群的公共活动时长
6 晚出早归 5 3% 76 6%
16:00之前进行”居住行为“ 远远高于其他人群.构成了城市中的一类特殊
7 其他 23 4% 100 0% 群体。
从各典型人群各类行为的一日(24h)波动图
(表8)中.可以发现各类人群之间的生活服务、
表4空间分布下的人群分类占比
Tab.4 Classification and proportion of the crowd in terms of spatial distribution 休闲.游憩等”公共活动”变化曲线之间并未形
1 8:00、9:00-10:00)的“公共活动”行为规律
特征: “早出“人群活动呈现出”公共活动”
7.雌艟|4强<0广|4 表5行为模式分类下的人群分类占比
一薄斟浴壁。一TY勺譬z兰o乃m<而v Tab.5 Classification and proportion of the crowd 不均衡的双峰特征; ”晚归”人群呈现出其生
classification
活服务,休闲.游憩等。公共活动”的 。单
序号 行为模式 占比 累计占比 描述 峰“特征.且 。公共活动”主要出现在1 7:Oo_
7.zo扛>PR时o¨u
1 H 22 3% 22 3% 宅居族
1 8:00; ”足不出户”人群的居住与工作行为曲
线呈现出显著分异.且各类“公共活动”之间的
2 HWH 22 2% 44 5% 两点~线上班族
差异也较大,均分别形成了”不均衡双峰”特
3 HRH 4 1% 48 5% 两点~线休闲族
征。
4 HOH 2 9% 51 4%o 两点~线活动族
7 HRWH 59
进一步将不同人群的行为活动落位到城市空间上
2 3% 0% 三点两线上班族(上午休闲)
(表9).以挖掘不同人群画像类型下的人群空间
三点两线生活服务族(上午生活
8 HCWH 1 8% 60 9% 分异特征。本文仅以时间序列维度的人群数字画
服务)
像结果为例,对其居住空间的分异特征与规律进
9 HWOH 1 7% 62 5% 三点两线上班族(下午活动)
行解析。考虑到人群分类的多样性,后续研究中
10 HWOWH 1 5%o 64 0% 四点三线活动族(中午活动) 可以结合各个维度进一步分析就业.休闲等各类
11 HWRH 5% 5% 三点两线上班族(下午休闲)
1 65 行为空间的分异特征。
12 HWHWH 1 3% 66 8% 两点~线上班族(中午休息) 经对比发现. ”朝九晚五” “早出早
万方数据
5结语 表6典型人群画像
Tab.6 Portraits oftypical crowds
表7不同人群行为占比
思路。由于研究水平和阶段深度所限,本文尚有
Tab。Proportion ofbehaviors ofdifferent crowds
以下不足之处:
不同人群分类
(1)本文虽然关注到了人群刻画属性与规划
行为分类 朝九 早出 早出 晚出 晚出 足不
应用诉求之间的关联性,从“空间、时间、行
晚五 晚归 早归 早归 晚归 出户
为”3个维度探索了人群数字画像的构建技术。
居住 35.6% 26.0% 46.5% 75.3% 65.2% 97.7%
但是,对人群的刻画局限于人群的时空行为层
工作 53.5% 61 5% 45 1% 14.6% 1 1 9% 0.O%
面,很大程度上存在着自下而上、数字驱动的片 一茁醛特酚藉斟_史研岽暑
生活服务 2 4% 3.1% 2.2% 4 5% 12.4% 1.3%
面性,对人群的社会属性、行为偏好等多层级属
性的基础理论的探索还显不足。 休闲 0.7% 1.O% 0.7% 1.1% 3.O% 0.4%
一斯叫汁肄茄3薄斟>君羊肄啊剧疮.j支*折丹_i正
(2)以威海为实证.尝试了城市人群数字画 游憩 0 5% 0 6% 0 4% 1.O% 3 2% 0.3%
像的实证应用,但尚未应用于不同发展定位、不 其他 7.3% 7 8% 5.1% 3.5% 4 3% 0 3%
同空间等级的城市(或地区).未来可拓展数字人
群画像应用的多元场景,对备案例城市进行人群
特征与类型构成解析,探讨人群与城市建成环境 谈.强化大小数据的相互校核与验证,实现有
之间的内在交互机制。 ”温度“的城市研究。
(3)本文所采用的LBS数据兼具高精度和高取
样率的优点.但依然存在缺陷。由于依赖智能手 注释{Notes)
机作为采集介质.导致不用手机或者使用非智 ① 目前的LBS定位数据中,用户信息是经过脱敏的
能手机的市民(尤其是弱势群体)的出行规律无 匿名数据,不会涉及到用户个人隐私和安全的问
法采集。此外,受限于手机设备定位精度和取 题。
② 业态POI数据和城市用地功能数据等来源于互联网
样频率.LBS数据无法对小范围内高度混合的空
采集和城市职能部门,并经过详细的现场校核,
间职能差异进行区分.导致反映出来的出行轨
由于数据来源比较成熟,不再单独介绍。
迹数据及由此建构的人群数字画像产生相应的 ⑤ 隐马尔科夫模型是一种成熟的基于时间变化匹配
偏差。 数据的技术,训练阶段即对每一个行为模式训练
实现城市空间资源供给与人群多元需求的 一个隐马尔科夫模型,包括定义模型的隐状态的
匹配融合是城市规划领域的长期议题。未来.城 个数及格式,利用算法优化计算相应的状态转移
概率和输出概率。识别过程即计算测试样本序列
市人群数字画像应进一步综合使用多源异构大数
对于隐马尔科夫模式集合中每种模式的概率,选
据刻画人群不同维度的属性特征,增加研究的广 择出概率最大的行为模型作为识别结果。
度.提高研究的深度,更需要深入到城市人群 ④ “足不出户”人群并不是指仅待在家中,完全不
中,进行大量的在地调研、深度体验及交互访 出门的情况。一方面,由于ST-DBSCAN聚类计算对
万方数据
P a n n n g S t U d e s
表8不同人群行为分异
Tab.8 Behavior difierentiation of difierent crowds
张【凰i必 从儿
不同人群 居住行为 工作行为 生活服务 休闲 游憩
朝九晚五
早出晚归
\_./黔』念I j/\ 肌
\∥』∥\A儿儿
-厂九J—八f—八
52
g l落
葛I斟
抖I浴
船l壁
专【Q
晚出晚归
■y I≤念f—△{—八—A
排l{
骓
§l i
昔}里
舌|罢
少~/风夕也
行为地划定以200m范围为识别下限,客观上在居 2022,42(5):4I 5--425.
时的时间进行“非居住行为”。因此本文的“足 44(2):68--76.
不出户?人群界定的是以居所为核心进行小范围 【4l 秦萧,甄峰.大数据与小数据结合:信息时代城市
活动的人群。 研究方法探讨【J】.地理科学,201 7,37(3):321—
⑤ 其余长尾数据人群由于比重过小、不具备普适性 330.
Residents’
Ba∞d on Multi-Source Big Data[J】.Planners,2020,
Activities[J】.Scientia Geographic&Sinica,
万方数据
36(21):64-71. 表9典型人群居住地空间分布
Tab.9 Spatial distribution of residence of typical crowds
[7]SCHWANEN T,KWAN M-P.The
J.Analysing Space-
T,
F-曩黑, 一毽>t;翦 主要分布
域;
多强张村核心、山东大学
—r慧、一
!蚕一 _
Time Behavior:New Approaches to 足 在老城中
不 威海校区、哈尔滨工业大学
心,较少 超
Problems[J].Progress
蕊≤t》aF’…
01d in Human
威海校区、华夏城、智慧谷
出 分布于经 多强
Geography,2002,26(2):1 75—1 90.
区域.
[9】CgOiTOR,U
户 ‘。≥i 0 开区与高
A,sTEFANlDIS A, 、;8 , 弱聚集区高新区、体育馆
■ 新区
R,ADZIKOWSKI J.et a1.Towards f
周边、威海火车站、嵩山街
怄
皂 卜
阍
。.
,习
201 2.
不存在明
and 九 弱心 弱聚集区 职业学校、山东
[1 0】KWAN M—P,WEBE J.Scale
显的空间
Accessibility:Implications for the Analysis
晚 F1。
t M。 分异
集聚 大学威海校区、哈尔滨工业
五 大学威海校区、孙家疃街
of Land Use—Travel Interaction[J】.Applied 曩≯ 道、博览中心、嵩山街道、
Geography,2008(28):11 0-1 2j.
温泉镇区域
【11】WITTEN K,EXETER,D,FIELD A.The 寥:
,曩阀
Urban 61-77.
旦 g■ 分布
[1 2】MOUNTAIN D,R,APER,.Modelling
于高新 核心聚集区 以威高广场为
Human SpatiO—TempOraI Behavior:A
出 强心
蔓≯一’≮驾 F+布于经
Challenge for Location-Based Services[R,】. 线顶及威海火车站周边地区
Proceedings of the Sixth International
0≯
Conference on Geo Computation.200 1. f
一番
≯叠I囊 ∥
里 心.较少 弱聚集区:张村核心、高新
[1 4】柴彦威,塔娜.中国时空间行为研 延展
分布于高 区、山东大学威海校区、哈
归
究进展【J】.地理科学进展,201 5, ,_ ≥。尹 新区 尔滨工业大学威海校区、孙
p
32(9):1 362-1 373. f
家瞳街道、菊花顶、嵩山街
oo
暇
CHAI in 卜-,
Yanwei,TA Na.Progress 道温泉镇等
Space——Time Behavior Research in
China[J].Progress in Geography,20 1 3,
在空间分 核:威高广场周边区域.
32(9):1 562-1 575.
布上较为 包括环翠楼周边古寨西路
【1 5]王德,王灿,谢栋灿,等.基于手 晚
曩‘核
广泛,老 两侧、及金线顶区域
机信令数据的上海市不同等级商业 出
城中心最 多心职业学校区域、张村
1’
中心商圈的比较——以南京东路、 晚 多心
,
为典型, 核心区域、韩乐坊一威海火
归
五角场、鞍山路为例[J】.城市规划 较少分布 车站区域 高新区 智慧
学刊,201 5(3):50一60. 于高新区 谷嵩山街道温泉镇
}
WANG De,WANG Can,XIE Dongcan,et
■鬈
Retail Centers with Different Hierarchical
主要集中
Levels:A Case Study of East Nanjing
Puoad in 晚
’暑—_ 在老城中
Road,Wujiaochang,Anshan
[1 6】钮心毅,吴莞姝,李萌.基于LBS定
里
归
奄’一r“ 群人绵连 海火车站、智慧谷等区域
≮,≯ 分布特征
位数据的建成环境对街道活力的影 一
t ’
相致
响及其时空特征研究[J】.国际城市 盘’好 r
规划,20I 9,34(1):28—57.
万方数据
P a n 13 n g S t u d e s
2022,58(1):63-70,78.
[25】AlanCooper。交互设计之路:让高科技产品回归人性
【M】.Chris Ding.北京:电子工业出版社,2006.
COOPER Alan.The Inmates Are Running the Asylum:
【24】丁伟,王题,刘新海,等.基于大数据技术的
手机用户画像与征信研究[J】.邮电设计技术,
201 6(5):64-69.
DING Wei,WANG Ti,LIU Xinhai,et a1.Research on
万方数据