Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

第 45 卷 第 9 期 武 汉 大 学 学 报· 信 息 科 学 版 Vol.45 No.

9
2020 年 9 月 Geomatics and Information Science of Wuhan University Sept. 2020

DOI:10.13203/j.whugis20200047 文章编号:1671‐8860(2020)09‐1344‐12

自然灾害应急知识图谱构建方法研究
杜志强 1,3 李 钰1 张叶廷 1,3 谭玉琪 1 赵文豪 2
1 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉,430079
2 国家基础地理信息中心,北京,100830
3 地球空间信息技术协同创新中心,湖北 武汉,430079

摘 要 :中 国 自 然 灾 害 发 生 频 繁 ,受 自 然 灾 害 的 威 胁 极 大 ,防 灾 减 灾 、抗 灾 救 灾 是 人 类 生 存 发 展 的 永 恒 课 题 。
在自然灾害应急领域中,相关数据骤增而应急关键知识明显匮乏,存在“数据-信息-知识”转化能力不足的
问题,由此提出了自顶向下和自底向上相结合的自然灾害应急知识图谱构建方法。围绕自然灾害事件 、灾害
应急任务 、灾害数据 、模型方法 4 个要素,自顶向下构建模式层,通过本体建模形成知识图谱的概念框架;自底
向上构建数据层,通过数据获取 、知识抽取 、融合 、存储建立实体间关联关系。以洪涝灾害应急知识图谱为例
进行实验验证,结果表明,该方法能够对自然灾害事件 、灾害应急任务 、灾害数据 、模型方法 4 要素的概念层次
关系及要素属性、要素间语义关联关系进行形式化表达,实现了从多源数据到互联知识的转化。
关键词:自然灾害;应急;领域知识图谱;本体
中图分类号:P208 文献标志码:A

中国是世界上发生自然灾害最普遍和严重 大 数 据 中 获 取 知 识 ,利 用 这 些 知 识 提 供 智 能 化 服
的 国 家 之 一 ,其 地 理 位 置 特 殊 ,地 貌 类 型 复 杂 多 务 与 应 用 ,形 成 知 识 与 数 据 的 迭 代 式 增 强 ,是 灾
样 ,加 上 处 于 不 稳 定 的 季 风 环 流 控 制 下 ,地 震 、台 害应急领域的重要研究内容。
风 、干 旱 、洪 涝 、风 暴 潮 等 多 种 自 然 灾 害 都 有 发 知 识 图 谱 起 源 于 20 世 纪 60 年 代 的 语 义 网
生[1-2]
,对 人 民 生 命 财 产 造 成 了 极 大 威 胁 [3]
。同 络 ,20 世 纪 90 年 代 ,
[5]
“ 本 体 ”的 思 想 被 引 入 到 知
时 ,由 于 自 然 灾 害 种 类 多 ,发 生 频 率 高 ,分 布 地 域 识 表 示 方 法 当 中[6],随 着 万 维 网 以 及 开 放 链 接 数
广 ,造 成 损 失 重 ,对 中 国 的 经 济 建 设 和 社 会 发 展 据 的 发 展 ,Google 于 2012 年 5 月 正 式 提 出 知 识 图
也 造 成 严 重 的 影 响 ,因 此 迫 切 需 要 大 幅 提 升 我 国 谱 的 概 念 。 随 着“互 联 网 + ”、大 数 据 、云 计 算 、人
灾害应急管理和综合减灾的能力,对实现“两个坚 工 智 能 等 的 迅 猛 发 展 ,以 知 识 图 谱 和 知 识 中 心 为
持、三个转变”的新时期防灾减灾新要求意义重大。 代表的知识服务研究方兴未艾[7-8],为知识互联的
习近平总书记强调:
“人类对自然规律的认 研发与应用提供了有益借鉴。知识图谱以结构
知 没 有 止 境 ,防 灾 减 灾 、抗 灾 救 灾 是 人 类 生 存 发 化 方 式 显 式 地 表 达 知 识 节 点(包 括 概 念 、实 体 等)
展 的 永 恒 课 题 ”。 但 中 国 现 代 应 急 实 践 起 步 晚 , 及 相 互 间 的 语 义 关 系 ,从 文 本 和 数 据 互 联 走 向 知
受 技 术 限 制 等 原 因 ,应 急 能 力 相 对 不 足 ,难 以 适 识 互 联 ,形 成 大 数 据 环 境 下 的 知 识 服 务[9-10],可 为
应新时代灾害治理的迫切需求。21 世纪以来,各 大数据背景下的知识互联奠定扎实的基础。
式 传 感 器 和 遥 感 平 台 快 速 发 展 ,数 据 源 越 来 越 当前,通用知识图谱比较著名的有 Freebase、
广 ,数 据 量 越 来 越 大 ,灾 害 相 关 数 据 在 种 类 和 总 DBpedia、Wikidata、YAGO2、百 度“ 知 心 ”、搜 狗
量 方 面 均 大 幅 度 提 升 ,对 数 据 整 合 、处 理 和 分 析 “ 知 立 方 ”等[11-14],在 金 融 、医 疗 、情 报 等 领 域 知 识
的能力提出了更高要求。与数据获取技术相比, 图谱也有了相应的行业应用[15-19]。但是在自然灾
数 据 应 用 相 关 技 术 的 发 展 则 比 较 缓 慢 ,日 积 月 累 害 应 急 领 域 本 体 、知 识 表 示 的 相 关 研 究 中 ,大 多
的海量数据仅有很少一部分在非常有限的范围 是 针 对 自 然 灾 害 事 件 单 一 要 素 进 行 分 析 ,构 建 自
[4]
内 被 使 用 或 转 化 为 信 息 与 领 域 知 识 。 因 此 ,从 然灾害情景模型,分解识别灾害场景[20-21],分析自

收稿日期:2020‐02‐26
项目资助:国家自然科学基金(41971347);国家重点研发计划(2017YFC1502902)。
第一作者:杜志强,博士,副教授,主要从事虚拟地理环境与灾害信息服务研究。duzhiqiang@whu.edu.cn
通讯作者:赵文豪,博士,高级工程师。zhaowh@ngcc.cn
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1345

然 灾 害 事 件 的 演 化 与 关 联 关 系[22-25];部 分 研 究 了 间 的 数 据 冗 余 性 进 行 实 体 、关 系 抽 取 ,将 不 同 来
自 然 灾 害 事 件 与 应 急 响 应 两 者 之 间 的 关 系 ,基 于 源 的 知 识 进 行 对 齐 、合 并 ,设 计 知 识 图 谱 的 底 层
本 体 构 建 应 急 知 识 库 ,设 置 规 则 对 应 急 响 应 级 别 存 储 方 式 ,将 自 然 灾 害 事 件 、灾 害 应 急 任 务 、灾 害
[26-30]
与应急过程进行推理 。目前灾害数据来源广 数 据 、模 型 方 法 的 具 体 实 例 要 素 进 行 分 解 ,映 射
泛 ,使 用 的 灾 害 模 型 众 多 ,而 现 有 研 究 缺 少 对 灾 到 相 关 概 念 节 点 当 中 ,从 而 建 立 多 层 次 的 实 体 关
害 数 据 、模 型 方 法 要 素 的 分 析 以 及 应 急 任 务 与 模 联 关 系 ,实 现 模 式 层 到 数 据 层 的 映 射 ,从 而 构 建
型 方 法 、模 型 方 法 与 灾 害 数 据 等 多 要 素 间 关 联 关 得到自然灾害应急知识图谱。
系的分析,较难进行具体的知识应用。
针 对 上 述 问 题 ,本 文 以 自 然 灾 害 为 核 心 ,围
绕 自 然 灾 害 事 件 、灾 害 应 急 任 务 、灾 害 数 据 、模 型
方 法 4 个 要 素 ,建 立 概 念 层 次 以 及 要 素 之 间 丰 富
的 语 义 关 联 关 系 ,在 自 然 灾 害 应 急 领 域 构 建 知 识
图 谱 ,旨 在 从 海 量 、异 构 的 数 据 中 获 取 知 识 ,实 现
由传统应急信息服务到知识驱动的智能应急知
识 服 务 的 跃 迁 ,为 切 实 提 升 自 然 灾 害 应 急 响 应 能
力提供坚实的理论方法基础。
图1 自然灾害应急知识图谱构建流程
1 自然灾害应急知识图谱的构建 Fig.1 Construction Process of Knowledge Graph in
Natural Disaster Emergency Field
流程

1.1 自然灾害应急知识图谱 2 模式层构建


知 识 图 谱 是 结 构 化 的 语 义 知 识 库 ,以 符 号 形
自然灾害应急知识图谱的模式层由概念节
式描述物理世界中的概念及其相互关系。现代
点 集 合 、概 念 关 系 边 集 合 构 成 ,是 灾 害 领 域 中 概
知 识 图 谱 受 到 规 模 化 扩 展 的 要 求 ,通 常 采 用 以 三
念 、概 念 间 关 系 的 表 示 。 针 对 自 然 灾 害 应 急 领 域
元 组 为 基 础 的 较 为 简 单 实 用 的 知 识 表 示 方 法 ,其
中 的 自 然 灾 害 事 件 、灾 害 应 急 任 务 、灾 害 数 据 、模
基 本 组 成 单 位 是“ 实 体 - 关 系 - 实 体 ”
“实体-属
型 方 法 4 类 要 素 ,通 过 先 验 知 识 对 各 个 要 素 进 行
性 - 属 性 值 ”三 元 组 ,实 体 间 通 过 关 系 相 互 联 结 ,
概 念 层 次 关 系 划 分 、要 素 属 性 关 系 以 及 概 念 间 语
构 成 网 状 的 知 识 结 构 。 自 然 灾 害 应 急 领 域 中 ,灾
义关系定义。本体是指对领域内概念及其关系
害 事 件 描 述 复 杂 ,灾 害 数 据 量 大 ,模 型 方 法 耦 合
的一种明确的、形式化、规范化的描述说明[6,31-32],
复 杂 ,应 急 任 务 要 求 高 时 效 性 ,实 体 之 间 的 关 联
利用本体的思想构建自然灾害应急知识图谱的
关 系 复 杂 、多 样 ,是 典 型 的 复 杂 知 识 结 构 。 自 然
模 式 层 ,为 数 据 层 中 具 体 实 例 的 要 素 属 性 分 解 奠
灾 害 应 急 知 识 图 谱 就 是 自 然 灾 害 事 件 、灾 害 应 急
任务、灾害数据、模型方法 4 类核心要素的概念层 定理论框架基础。

次 关 系 和 以 节 点 、关 系 为 载 体 的 要 素 及 要 素 之 间 自然灾害应急知识图谱的模式层构建主要

语义关联关系的总和及其形式化表达。 是 建 立 包 含 自 然 灾 害 事 件 、灾 害 应 急 任 务 、灾 害

1.2 构建流程 数 据 、模 型 方 法 4 类 核 心 要 素 的 自 然 灾 害 应 急 领

如 图 1 所 示 ,知 识 图 谱 构 建 采 用 自 顶 向 下 和 域 综 合 本 体 ,定 义 4 类 要 素 之 间 的 语 义 关 系(见
自底向上相结合的方法。自顶向下构建知识图 图 2),将其表示为:
谱 的 模 式 层 ,通 过 本 体 库 的 设 计 搭 建 知 识 图 谱 的 EmergencyOntology= {DisasterEvent, Di‐
框 架 ,预 先 定 义 、固 定 编 排 模 式 图 中 的 上 下 位 关 sasterTask,DisasterData,DisasterMethod,Rela‐
系 、类 属 关 系 、语 义 关 联 关 系 等 ,定 义 准 确 、结 构 tion}
层 次 分 明 的 概 念 框 架 ,形 成 良 好 的 概 念 层 次 知 识 其中,DisasterEvent 表示自然灾害事件本体;
体系。 DisasterTask 表 示 应 急 任 务 本 体 ;DisasterData 表
自 底 向 上 构 建 数 据 层 ,针 对 灾 害 领 域 数 据 示 灾 害 数 据 本 体 ;DisasterMethod 表 示 模 型 方 法
库 、领 域 文 献 或 其 他 泛 在 文 本 资 源 等 不 同 的 知 识 本 体 ;Relation 表 示 自 然 灾 害 事 件 、应 急 任 务 、灾
源 类 型 设 计 合 适 的 抽 取 方 法 ,充 分 利 用 知 识 源 之 害数据、模型方法之间的语义关联关系。
1346 武 汉 大 学学报· 信 息科学版 2020 年 9 月

2.2 应急任务本体
应急任务本体是有关应急任务概念层次关
系 、属 性 关 系 以 及 关 联 关 系 的 统 一 描 述 ,将 一 个
灾害应急任务本体表示为:
DisasterTask={Task_Concept,Task_Proper‐
图2 本体之间语义关联关系
ty, Task_Relation, Task_Restriction, Task_In‐
Fig.2 Semantic Association Between Ontologies
stance}
2.1 自然灾害事件本体 其 中 ,Task_Concept 表 示 所 有 灾 害 应 急 任 务
自然灾害事件本体是有关自然灾害概念层 概 念 的 集 合 ,包 含 了 应 急 任 务 概 念 的 定 义 以 及 概
次 关 系 、属 性 关 系 以 及 关 联 关 系 的 统 一 描 述 ,将 念层次分类;Task_Property 表示应急任务本身属
一个自然灾害事件本体表示为: 性 的 定 义 ,如 应 急 任 务 名 称 、应 急 响 应 级 别 等 ;
DisasterEvent= {Event_Concept, Event_ Task_Relation 表 示 应 急 任 务 之 间 语 义 关 联 关 系
Property, Event_Relation, Event_Restriction, 的 定 义 ,如 前 继 关 系 ;Task_Restriction 表 示 公 理 ,
Event_Instance} 描 述 任 务 与 任 务 之 间 的 约 束 关 系 ;Task_Instance
其 中 ,Event_Concept 表 示 所 有 自 然 灾 害 事 表 示 应 急 任 务 的 具 体 实 例 ,如 洪 涝 灾 害 范 围
件 概 念 的 集 合 ,包 含 了 自 然 灾 害 概 念 的 定 义 以 及 分析。
概 念 层 次 分 类 ;Event_Property 表 示 自 然 灾 害 事 整 理 国 务 院 办 公 厅 发 布 的《国 家 自 然 灾 害 救
件 本 身 属 性 的 定 义 ,如 灾 害 事 件 名 称 、发 生 时 间 、 (国 办 函[2016]25 号)、民 政 部 印 发
助 应 急 预 案》
发 生 地 点 等 ;Event_Relation 表 示 自 然 灾 害 事 件 (民 发[2015]83 号)等 相
的《救 灾 应 急 工 作 规 程》
之 间 语 义 关 联 关 系 的 定 义 ,如 引 发 、并 发 、群 发 关 文 件 ,结 合 灾 害 风 险 管 理 与 应 急 管 理 理 论 ,根
等 ;Event_Restriction 表 示 公 理 ,描 述 自 然 灾 害 事 据 灾 害 发 生 的 过 程 ,划 分 为 灾 前 、灾 中 、灾 后 3 个
件 之 间 的 约 束 关 系 ,例 如 暴 雨 会 引 发 洪 涝 ,暴 雨 阶 段 ,每 个 阶 段 的 应 急 目 标 与 应 急 任 务 侧 重 点 各
属 于“ 暴 雨 - 洪 涝 ”灾 害 链 的 一 部 分 ;Event_In‐ 有不同,应急任务的概念层次划分如表 1 所示。
stance 表 示 自 然 灾 害 事 件 的 具 体 实 例 ,如 甘 肃 青
表1 应急任务概念层次
海发生洪涝风雹灾害。 Tab.1 Levels of Concept for Emergency Tasks
(GB/T 28921
依 据《自 然 灾 害 分 类 与 代 码》 过程 目标 具体应急任务
—2012)对 自 然 灾 害 的 概 念 类 别 层 次 进 行 划 分 , 风险监测、风险评估、
灾前 预警、预防、备灾
共 分 为 气 象 水 文 灾 害 、地 质 地 震 灾 害 、海 洋 灾 害 、 灾害预警等

生物灾害和生态环境灾害 5 大类 40 种自然灾害。 应急响应级别、灾中快速评


估、应急救助资源配置与调度
按 照 自 然 灾 害 系 统 理 论 ,致 灾 因 子 、孕 灾 环 灾中 快速反应、应急处置
决策、转移安置决策、
境 、承 灾 体 组 成 了 区 域 灾 害 系 统 ,三 者 相 互 作 用
应急推演等
而 产 生 灾 情[33],结 合 自 然 灾 害 承 灾 体 分 类 与 代 码 灾情综合评估、
灾后 恢复重建、总结评估
(GB/T 32572—2016)、自然灾害灾情统计(GB/T 恢复重建效果评估等

24438.1—2009)等 国 家 标 准 ,从 灾 害 事 件 基 本 属
性 、致 灾 因 子 、孕 灾 环 境 、承 灾 体 以 及 灾 情 5 个 方 在 对 应 急 任 务 的 属 性 进 行 描 述 时 ,其 基 本 的
面对自然灾害事件的属性进行描述。基本属性 属 性 信 息 包 含 应 急 任 务 名 称 、任 务 具 体 描 述 、任
包 含 自 然 灾 害 事 件 的 发 生 时 间 、结 束 时 间 、发 生 务所处阶段和应急响应级别。根据应急任务执
地 点 和 灾 害 类 别 ;致 灾 因 子 属 性 包 含 灾 害 频 率 、 行 过 程 ,应 急 任 务 之 间 的 语 义 关 系 划 分 为 前 继 、
灾 害 强 度 等 ;孕 灾 环 境 属 性 包 含 地 形 地 貌 、气 象 、 后继、循环、并行 4 种流程关系。
水 文 等 ;承 灾 体 属 性 包 含 种 类 、暴 露 度 、数 量 等 ; 2.3 灾害数据本体
灾 情 属 性 包 含 人 口 伤 亡 、房 屋 损 毁 、农 作 物 受 损 灾害数据本体是有关灾害数据概念层次关
等 。 自 然 灾 害 事 件 的 发 生 具 有 关 联 关 系 ,根 据 灾 系 、属 性 关 系 以 及 关 联 关 系 的 统 一 描 述 ,将 一 个
[34-35]
害系统理论中的灾害链、灾害群的定义 ,将自 灾害数据本体表示为:
然 灾 害 事 件 对 象 的 语 义 关 系 定 义 为 引 发 、衍 生 、 DisasterData ={Data_Concept,Data_Proper‐
并发、群发 4 种语义关系。 ty, Data_Relation, Data_Restriction, Data_In‐
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1347

stance} 时 遥 感 数 据 、社 会 经 济 数 据 、历 史 灾 情 数 据 、监 测
其 中 ,Data_Concept 表 示 所 有 灾 害 数 据 概 念 上报数据、灾害信息产品 6 大类,每个大类可细分
的 集 合 ,包 含 了 灾 害 数 据 概 念 的 定 义 以 及 概 念 层 小类。
次 分 类 ;Data_Property 表 示 灾 害 数 据 本 身 属 性 的 灾 害 数 据 的 基 本 属 性 包 含 数 据 名 称 、数 据 类
定 义 ,如 灾 害 数 据 名 称 、数 据 类 型 等 ;Data_Rela‐ 别 、数 据 获 取 时 间 、数 据 覆 盖 范 围 、数 据 描 述 对
tion 表 示 灾 害 数 据 之 间 语 义 关 联 关 系 的 定 义 ,如 象 、数 据 来 源 等 。 除 此 之 外 ,针 对 遥 感 影 像 数 据 ,
数 据 时 空 重 合 度 等 ;Data_Restriction 表 示 公 理 , 需 要 对 其 元 数 据 进 行 描 述 ,主 要 包 含 遥 感 影 像 数
描 述 数 据 与 数 据 之 间 的 约 束 关 系 ;Data_Instance 据 的 传 感 器 类 型 、波 段 信 息 、时 间 分 辨 率 、空 间 分
表示灾害数据的具体实例,如受灾行政区划图。 辨率等参数。数据之间的语义关系主要分为时
灾 害 数 据 具 有 体 量 大 、种 类 多 等 基 本 特 征 , 空 语 义 关 系 、数 据 之 间 的 关 联 度 ,时 空 语 义 关 系
目 前 多 源 异 构 的 灾 害 大 数 据 相 互 孤 立 ,灾 害 数 据 是 从 时 间 、空 间 层 面 对 数 据 之 间 的 重 合 度 进 行 计
的 组 织 管 理 较 少 顾 及 语 义 特 征 、缺 乏 有 效 的 关 联 算 ;数 据 关 联 度 是 利 用 基 于 统 计 的 数 据 关 联 规 则
机 制 ,总 结 整 理《国 家 自 然 灾 害 救 助 应 急 预 案》中 挖 掘 ,发 现 数 据 之 间 共 现 率 较 高 的 频 繁 项 集 ,有
的 相 关 灾 害 数 据 概 念 与 术 语 ,结 合 已 有 灾 害 数 据 利 于 自 动 发 现 潜 在 的 相 似 数 据 、相 关 数 据
分 类 方 法 ,将 灾 害 数 据 划 分 为 基 础 地 理 数 据 、实 (见表 2)。

表2 灾害数据语义关系
Tab.2 Semantic Relationships Between Disaster Data
名称 量化方法 说明 对应关系
T ( i ) 为灾害数据 i 的时间跨度,
Overlap T ( i,j ) ⊆ [ 0,1 ],值为 0 时表示数据间不具有
时间 T ( i )∩ T ( j ) T ( j ) 为灾害数据 j 的时间跨度,
Overlap T ( i,j ) = 时间关联性;值为(0,1]时,表示数据间具有时间关
重合度 T ( i )∪ T ( j ) 两者的时间范围交集与并集之比则为
联性,值越大,则灾害数据之间的时间关联性越强
灾害数据 i、j 之间的时间重合度

S ( i ) 为灾害数据 i 的空间范围,
Overlap S ( i,j ) ⊆ [ 0,1 ],值为 0 时表示数据间不具有
空间 S( i )∩ S( j ) S ( j ) 为灾害数据 j 的空间范围,
Overlap S ( i,j ) = 空间关联性;值为(0,1]时,表示数据间具有空间关
重合度 S( i )∪ S( j ) 两者的空间范围交集与并集之比则为
联性,值越大,则灾害数据之间的空间关联性越强
灾害数据 i、j 之间的空间重合度
设 X 为一个灾害数据项集,k 为 X 在总
灾害数据案例集里出现的次数,n 为灾

k 害数据案例的总数,则数据项集 X 的支
Support ( X ) =
n 持度为 Support ( X )。设置最小支持度阈 Confidence ( A → B ) ⊆ [ 0,1 ],值为 0 时表示两者不具
数据 值,当某项集的支持度值高于该阈值 有关联性;值为(0,1]时,表示两者之间具有数据关
关联度 时,则该项集为频繁项集 联性,值越大,表示在使用了数据 A 的条件下,使
若灾害数据 A 在某一项集中出现,且在 用数据 B 的概率越大,数据关联性越强
Confidence ( A → B ) =
同样项集中一定存在灾害数据 B ,可将
Support ( A ∪ B )
Support ( A ) 两者的关联规则表示为:A → B ,规则
A → B 的置信度为 Confidence ( A → B )

2.4 模型方法本体 Method_Instance}


模型方法本体是有关模型方法概念层次关 其 中 ,Method_Concept 表 示 模 型 方 法 概 念 的
系 、属 性 关 系 以 及 关 联 关 系 的 统 一 描 述 。 随 着 遥 集 合 ,包 含 了 模 型 方 法 概 念 的 定 义 以 及 概 念 层 次
感 技 术 、地 理 信 息 系 统 、全 球 定 位 系 统 、计 算 机 技 分类;Method_Property 表示模型方法本身属性的
术 以 及 数 学 方 法 的 发 展 ,形 成 了 大 量 的 灾 害 相 关 定义,如模型方法名称、功能、描述等;Method_Re‐
模 型 方 法 ,这 些 定 性 或 定 量 的 模 型 方 法 成 为 防 灾 lation 表示模型方法之间语义关联关系的定义,如
减灾工作的有效工具。将一个模型方法本体表 方 法 间 的 相 似 度 ;Method_Restriction 表 示 公 理 ,
示为: 描 述 方 法 与 方 法 之 间 的 约 束 关 系 ;Method_In‐
DisasterMethod={Method_Concept,
Method_ stance 表 示 模 型 方 法 的 具 体 实 例 ,如 灾 害 情 景 分
Property,Method_Relation,Method_Restriction, 析法。
1348 武 汉 大 学学报· 信 息科学版 2020 年 9 月

根据已有自然灾害灾情评估模型与方法体 元 素 模 板 匹 配 模 型 ,结 合 网 页 爬 虫 技 术 获 取 领 域
[36]
系专家先验知识 ,对 模 型 方 法 的 概 念 类 别 层 次 相 关 数 据 ;对 于 领 域 专 业 文 献 资 料 等 文 本 类 的 非
进 行 划 分 ,共 分 为 地 理 信 息 系 统 、遥 感 、统 计 分 结 构 化 数 据 ,利 用 文 献 搜 索 引 擎 ,设 置 检 索 关 键
析、模型模拟 4 大类,每个大类后可细分小类。 字,利用网页爬虫获取领域文献数据,3 种方式相
模 型 方 法 的 基 本 属 性 包 含 方 法 名 称 、所 属 类 结合,从而获取较为全面的数据源。
别 、方 法 功 能 、方 法 具 体 描 述 、应 用 效 果 、验 证 地 3.2 实体及关系抽取
区 等 ,语 义 关 系 主 要 分 为 方 法 之 间 的 关 联 度 、方 针 对 结 构 化 、半 结 构 化 和 非 结 构 化 数 据 源 的
法 名 称 相 似 度 、方 法 功 能 相 似 度 。 方 法 关 联 度 的 特 点 ,设 计 相 应 的 实 体 及 关 系 抽 取 方 法 。 结 构 化
计 算 与 灾 害 数 据 本 体 当 中 的 数 据 关 联 度 相 似 ,利 数 据 字 段 定 义 明 确 ,设 计 相 应 的 字 段 映 射 规 则 ,
用关联分析算法中的支持度与置信度进行量化; 从关系数据库中直接抽取实体名称及属性信息,
方法名称相似度与功能相似度是从语义的角度 对象之间的语义关系可通过数据库的字段链接
对其基本属性进行文本相似度计算。方法 m 1 、m 2 进 行 映 射 ;对 于 从 网 站 网 页 、专 业 文 献 中 获 取 的
的语义相似度计算公式为: 文 本 类 数 据 ,通 过 文 本 分 词 、句 法 规 则 定 义 、关 键
n
词匹配等文本处理方法以及监督学习等方法抽
A·B
∑( A × B ) i i

S M ( m ,m ) = = i= 1 取目标实体、关系,得到初始的实体及关系集合。
1 2
| A |×| B | n n

∑( A ) i
2
× ∑( B ) i
2 从文本数据中识别实体及关系是知识抽取
i= 1 i= 1 的难点。自然灾害事件、应急任务、灾害数据 3 类
(1) 要素在本体层面定义的概念已经较好地涵盖了
将 m 1 、m 2 在 语 义 空 间 进 行 文 本 分 词 ,共 有 n 具 体 实 体 的 名 称 ,因 此 以 其 本 体 模 型 的 最 细 粒 度
个分词,并计算每个分词的词频,形成方法 m 1 、方 分 类 概 念 作 为 实 体 名 称 字 典 ,对 获 取 的 多 源 数 据
法 m 2 的 词 频 向 量 A 、B ,转 化 到 向 量 空 间 后 ,利 用 进 行 实 体 名 称 匹 配 ,可 以 实 现 这 3 类 要 素 的 实 体
余 弦 值 来 判 断 向 量 的 相 似 程 度 ,S M ( m ,m ) 的 值 越 1 2 抽 取 。 由 于 已 有 模 型 方 法 种 类 较 多 ,无 法 构 建 较
大,就代表两者的语义相似度越高。 为 全 面 的 模 型 方 法 实 体 名 称 字 典 ,因 此 ,如 何 从
文本数据中抽取“模型方法”实体是一关键过程。
3 数据层构建 条 件 随 机 场 模 型(conditional random fields,
CRF)是 一 种 序 列 标 注 的 机 器 学 习 模 型 ,常 用 于
自然灾害应急知识图谱的数据层由实体节
词 性 标 注 、分 词 、命 名 实 体 识 别 等 领 域 。 CRF 通
点 集 合 、实 体 属 性 关 系 边 以 及 实 体 语 义 关 系 边 集
过 输 入 字 、词 、词 性 等 上 下 文 特 征 ,在 给 定 一 个 文
合 构 成 ,边 连 接 两 个 节 点 表 示 一 条 三 元 组 知 识 。
本序列 x 下,计算其标注序列 y 的概率:
在模式层中自然灾害应急领域本体库的概念框
1
架 指 导 下 ,针 对 已 有 灾 害 领 域 数 据 库 、领 域 文 献 P ( y|x ) = ⋅
Z(x)
或 其 他 泛 在 文 本 资 源 等 不 同 的 知 识 源 类 型 ,获 取 exp ( ∑λ t k k ( y i - 1,y i,x,i )+ ∑μ k s k ( y i,x,i ) ) (2)
多 源 数 据 ,抽 取 实 体 及 关 系 ,并 进 行 数 据 融 合 ,最 i,k i,k

终将三元组知识存储到图数据库中。 式中,Z ( x ) 是一个在所有状态序列上的归一化因

3.1 数据获取 子 ;t k 和 s k 是 模 型 的 特 征 函 数 ;λ k 和 μ k 是 针 对 特 征
由 于 灾 害 领 域 知 识 来 源 众 多 ,具 有 结 构 化 、 函数学习得到的权值。实体识别任务是给定文
半 结 构 化 和 非 结 构 化 多 种 形 式 ,例 如 已 有 灾 害 案 本 序 列 x 的 条 件 下 ,估 计 产 生 标 注 序 列 y 的 条 件
例 数 据 库 、灾 情 统 计 数 据 库 等 结 构 化 数 据 ,灾 害 概 率 有 多 大 ,最 终 得 到 的 标 注 序 列 y 是 满 足 条 件
公 示 网 页 、领 域 行 业 网 站 以 及 百 科 网 页 等 半 结 构 max ( P ( y|x ) ) 的计算结果。
化 数 据 ,专 业 文 献 资 料 、文 本 数 据 等 非 结 构 化 本 文 采 用 BIEO(Begin-Intermediate-End-
数据。 Other)的 组 块 表 达 方 法 来 标 识 模 型 方 法 实 体 名
针 对 多 种 形 式 的 知 识 源 ,本 文 提 出 多 策 略 学 称,即定义模型方法实体的标记符号为{M_Begin
习的数据获取方法。根据模式层中 4 要素的本体 (名 称 首 部),M_Intermediate(名 称 中 部),M_End
模 型 ,从 已 有 数 据 库 等 结 构 化 数 据 中 直 接 提 取 相 (名 称 尾 部),Other(非 名 称 字 符)}。 选 取 了 中 文
关 记 录 ;对 于 国 家 减 灾 网 等 自 然 灾 害 领 域 行 业 网 文 献 的 摘 要 文 本 数 据 ,对 1 034 个 句 子(27 381 个
页 的 半 结 构 数 据 ,通 过 解 析 网 页 结 构 ,设 计 网 页 字 符)进 行 人 工 标 注 ,划 分 700 个 句 子(18 652 个
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1349

字 符)为 训 练 集 ,334 个 句 子(8 729 个 字 符)为 验 召 回 率 ,研 究 综 合 两 者 的 实 体 识 别 方 法 :对 于 未


证 集 。 综 合 准 确 率 与 召 回 率 ,采 用 F 度 量 来 评 估 包含规则匹配词语的句子,利用 CRF 模型进行识
该模型对于方法实体识别的效果: 别 ,将 CRF 的 识 别 结 果 加 入 最 终 输 出 结 果 ,提 高
( β + 1 )× P × R
2
召 回 率 ;对 于 由 规 则 匹 配 识 别 出 的 名 称 ,如 果 规
F= (3)
( β 2 × P )+ R 则匹配的识别结果当中包含有 CRF 识别结果,则
式中,P 为准确率,表示标注结果中正确标注的比 将 CRF 识 别 的 方 法 名 称 替 换 基 于 规 则 识 别 的 方
例 ,用 于 衡 量 识 别 结 果 的 准 确 性 ;R 为 召 回 率 ,表 法 名 称 ,提 高 准 确 率 。 通 过 不 同 实 验 对 照 可 以 看
示 正 确 标 注 结 果 占 人 工 标 注 的 比 例 ,用 于 衡 量 识 出 ,相 比 于 使 用 单 一 的 规 则 匹 配 模 型 ,综 合 CRF
别 结 果 的 全 面 性 ;β 则 决 定 了 P 和 R 的 重 要 程 度 , 与规则匹配的实体识别方法的准确率与召回率
本研究 β 取值为 1,将准确率和召回率按相同的重 均 得 到 了 提 升 ,其 综 合 度 量 F 值 达 到 了 83.69,此
要程度进行考虑。 时的实体识别效果最优。
通 过 设 置 单 字 、词 性 等 计 算 特 征 以 及 上 下 文
表4 模型方法实体匹配规则
滑 动 窗 口 大 小 进 行 CRF 模 型 的 训 练 。 选 择 单 字 Tab.4 Matching Rules of Method Entity
符 特 征 ,设 置 不 同 滑 动 窗 口 大 小 值 ,发 现 训 练 模 前缀词 中间连接词 后缀词
型 的 F 度 量 在 滑 动 窗 口 值 为 2 时 取 得 最 大 值 ,扩 采用 、 方法
大窗口大小并没有提高实体识别的效果。为了 应用 和 算法

进 一 步 研 究 特 征 选 择 对 模 型 应 用 效 果 的 影 响 ,利 运用 与 函数
利用 及其 模型
用“Jieba”中 文 分 词 组 件 ,加 入 字 词 的 词 性 特 征 作
提出 以及 技术
为 输 入 ,设 置 滑 动 窗 口 值 为 2,此 时 F 度 量 相 较 之
︙ ︙ ︙
前 的 最 优 结 果 并 没 有 得 到 提 升 ,说 明 增 加 词 性 特
征未能提升实体识别效果。通过以上实验发现, 表5 不同方法实体识别对比
各 CRF 模 型 的 实 体 识 别 准 确 率 都 达 到 90% 以 Tab.5 Comparison with Different Methods of Entity
上 ,但 召 回 率 都 在 60% 以 下 ,导 致 综 合 度 量 F 值 Recognition

不是很高 ;CRF 模型在考虑当前字符以及前后各 方法 准确率/% 召回率/% F 度量


CRF 92.14 59.84 72.55
2 个 字 符 的 上 下 文 特 征 时 ,对 模 型 方 法 实 体 识 别
规则匹配 68.13 82.65 74.69
的效果较好(见表 3)。
CRF+规则匹配 79.76 88.02 83.69

表3 模型方法实体识别实验结果
Tab.3 Results of Method Entity Recognition 通 过 以 上 流 程 ,可 以 对 自 然 灾 害 事 件 、应 急
Based on CRF 任务、灾害数据、模型方法 4 大要素的具体实例进
特征选择 滑动窗口大小 准确率/% 召回率/% F 度量 行 抽 取 。 针 对 要 素 之 间 的 关 联 关 系 抽 取 ,自 然 灾
单字 1 91.43 59.41 72.02 害事件与应急任务之间的关系通过领域专业先
单字 2 92.14 59.84 72.55 验 知 识 进 行 关 联 ;灾 害 事 件 与 数 据 之 间 的 时 空 约
单字 3 93.75 55.16 69.45 束 通 过 灾 害 发 生 时 间 、地 点 与 灾 害 数 据 的 获 取 时
单字+词性 2 91.81 59.19 71.90 间 、空 间 范 围 匹 配 进 行 时 空 层 面 的 约 束 ;将 应 急
任 务 作 为 搜 索 关 键 字 对 文 献 进 行 筛 选 ,可 得 到 应
通 过 CRF 模 型 可 以 得 到 准 确 率 较 高 的 实 体 急 任 务 与 模 型 方 法 之 间 的 对 应 关 系 ;当 方 法 与 数
识 别 结 果 ,但 是 识 别 结 果 不 全 面 。 考 虑 中 文 描 述 据 在 同 一 篇 文 献 摘 要 中 出 现 ,则 可 抽 取 数 据 与 方
的 句 法 结 构 以 及 模 型 方 法 实 体 名 称 特 点 ,人 工 总 法之间的输入输出关系。
结 判 定 规 则 ,通 过 前 缀 词 与 后 缀 词 匹 配 、中 间 连 3.3 数据融合
接词分割的方法进行实体抽取(见表 4)。 本 研 究 的 数 据 源 多 为 中 文 文 本 数 据 ,由 于 中
不同方法实体识别对比如表 5 所示。由表 5 文 描 述 的 多 样 性 ,对 于 同 一 内 容 可 能 有 多 种 表 述
可 以 看 出 ,与 之 前 训 练 得 到 的 CRF 模 型 相 比 ,基 方 式 ,导 致 了 知 识 抽 取 过 程 中 存 在 数 据 冗 余 ,对
于 规 则 匹 配 的 实 体 识 别 召 回 率 得 到 提 升 ,但 是 准 于 抽 取 阶 段 得 到 的 孤 立 的 实 体 、属 性 和 关 系 ,需
确 率 有 所 下 降 ,导 致 最 终 的 F 值 提 升 不 大 。 为 了 要进行数据融合操作。
综 合 CRF 方 法 的 高 准 确 率 与 基 于 规 则 匹 配 的 高 在实体抽取部分,运用 CRF 与规则匹配相结
1350 武 汉 大 学学报· 信 息科学版 2020 年 9 月

合 的 方 式 识 别 出 的 模 型 方 法 实 体 ,存 在 同 一 实 体 4 实例分析
具 有 不 同 中 文 表 述 的 情 况 ,导 致 识 别 出 的“ 模 型
方 法 ”实 体 存 在 冗 余 ,例 如 小 波 分 析 、小 波 变 换 方 面向洪涝灾害管理过程中的灾害范围与强
法 、小 波 分 析 方 法 ,三 者 表 达 的 本 质 内 容 其 实 是 度 分 析 、洪 涝 模 拟 仿 真 等 应 急 任 务 是 知 识 图 谱 应
一 致 的 ,因 此 需 要 定 义 合 适 的 相 似 度 度 量 ,采 用 用于实际应急管理过程的典型应用。构建洪涝
聚类、阈值设置的方法进行实体对齐。 灾害应急知识图谱能够提供灾害领域统一描述

应 用 §2.4 中 的 模 型 方 法 语 义 相 似 度 计 算 方 框 架 ,更 好 地 认 识 自 然 灾 害 事 件 、应 急 任 务 、灾 害

法 ,将 识 别 出 的 实 体 名 称 进 行 中 文 分 词 、计 算 分 数 据 、模 型 方 法 之 间 丰 富 的 关 联 关 系 ,从 海 量 数

词 词 频 ,构 建 实 体 名 称 的 词 袋 向 量 ,将 实 体 名 称 据 中 获 取 可 实 际 应 用 的 知 识 ,提 升 知 识 的 智 能 应

从 语 义 空 间 转 换 到 向 量 空 间 ,计 算 向 量 之 间 夹 角 用水平,对于防灾减灾具有重要的意义。
按 照 本 文 提 出 的 知 识 图 谱 构 建 方 法 ,首 先 自
的 余 弦 值 ,夹 角 的 余 弦 值 越 大 ,表 示 语 义 相 似 度
顶 向 下 构 建 洪 涝 灾 害 知 识 图 谱 的 模 式 层 ,建 立 包
越高。
含 洪 涝 灾 害 事 件 、灾 害 应 急 任 务 、灾 害 数 据 、模 型
通 过 设 置 语 义 相 似 度 阈 值 ,将 方 法 实 体 之 间
方法 4 类核心要素的自然灾害应急领域综合本
的语义相似度计算结果小于设定阈值的实体名
体 ,对 要 素 的 概 念 层 次 关 系 、要 素 属 性 关 系 以 及
称 进 行 融 合 对 齐 ,为 了 提 升 方 法 描 述 的 详 细 程
概 念 间 语 义 关 系 进 行 定 义 ,模 式 层 构 建 结 果 如
度 ,采 用 相 似 集 合 当 中 字 符 最 长 的 实 体 名 称 作 为
图 3 所示。所构建的洪涝灾害应急综合本体能够
融合之后的结果。设置不同的相似度阈值进行
对 洪 涝 灾 害 事 件 进 行 完 整 、清 晰 的 描 述 ,同 时 也
多 次 实 验 ,发 现 当 阈 值 设 置 为 0.5 时 ,融 合 的 结 果
能 够 将 应 急 任 务 、灾 害 数 据 与 模 型 方 法 各 要 素 间
较好(见表 6)。
关 系 进 行 完 整 表 达 ,形 成 对 自 然 灾 害 应 急 领 域 概
表6 知识融合前后对比 念的统一描述,有助于领域信息的共享和复用。
Tab.6 Differences Between Comparison Before and 然 后 自 底 向 上 构 建 数 据 层 ,从 国 家 减 灾 网 、
After Knowledge Fusion 中 文 学 术 文 献 检 索 平 台 、洪 涝 灾 害 评 估 模 型 库 获
融合前 融合后 取多源数据。国家减灾网发布了自 2018-01-04—
小波分析,小波分析方法,小波变换方法 小波分析方法
2020-04-22 的 灾 害 信 息 ,从 中 获 取 了 洪 涝 灾 害 事
聚类分析,层次聚类分析方法,
层次聚类分析方法 件共 125 条,发布内容中包含有灾害发生时间、发
聚类分析方法
城市洪涝模型,洪涝仿真模型,洪涝模拟方
生 地 点 、致 灾 因 子 属 性 以 及 人 口 、房 屋 、经 济 等 灾
法,城市洪涝仿真模型,城市洪涝分析模型, 城市洪涝仿真模型 情 损 失 信 息 ,按 照 洪 涝 灾 害 事 件 本 体 结 构 ,对 洪
城市洪涝模拟方法,洪涝分析 涝 灾 害 实 例 进 行 实 体 、属 性 值 的 抽 取 。 以 灾 前 、
︙ ︙ 灾 中 、灾 后 不 同 应 急 阶 段 的 洪 涝 应 急 任 务 为 关 键
词 搜 索 相 关 中 文 文 献 共 5 706 条 ,结 合 基 础 数 据
库中 16 个洪涝灾害评估模型,按照词典匹配的方
3.4 知识存储 法获取灾害数据实体 45 个;利用本文提出的基于
通 过 以 上 处 理 流 程 ,将 不 同 结 构 的 源 数 据 转 CRF 与规则匹配的实体识别方法,从文献摘要中
化为结构化的知识三元组数据。对于结构明确、 识 别 出“ 模 型 方 法 ”实 体 共 3 435 个 ,经 融 合 后 得
实 体 属 性 及 关 联 关 系 丰 富 的 灾 害 领 域 数 据 ,图 数 到 2 475 个 实 体 名 称 ;按 照 应 急 任 务 、灾 害 数 据 、
[37-40]
据库的存储方式具有明显优势 ,可 以 实 现 从 模 型 方 法 的 共 现 关 系 ,抽 取 应 急 任 务 与 模 型 方
概 念 、属 性 、实 例 等 多 个 维 度 对 自 然 灾 害 应 急 领 法 、模 型 方 法 与 灾 害 数 据 之 间 的 关 联 关 系 ;通 过
域知识图谱进行展示。 关 联 规 则 挖 掘 ,发 现 灾 害 数 据 之 间 共 现 率 较 高 的
使 用 图 数 据 库 进 行 存 储 ,将 实 体 — 关 系 — 实 频 繁 项 集 ,得 到 灾 害 数 据 之 间 的 关 联 关 系 ,知 识
体 、实 体 — 属 性 — 属 性 值 三 元 组 当 中 的 首 尾 部 分 图谱当中节点及关系的数量统计如表 7 所示。
存 储 为 相 应 的 节 点 ,属 性 关 系 、语 义 关 系 存 储 为 利 用 图 数 据 库 Neo4j 存 储 以 上 节 点 及 关 系
边 ,从 而 实 现 结 构 化 知 识 三 元 组 到 图 中 节 点 和 边 边 ,洪 涝 灾 害 应 急 知 识 图 谱 数 据 层 的 部 分 节 点 及
的 映 射 ,利 用 图 查 询 语 言 、图 挖 掘 算 法 便 于 关 系 关系如图 4 所示。
延伸计算与知识图谱的具体应用。 图 4 清 晰 地 展 现 了 自 然 灾 害 事 件 、灾 害 应 急
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1351

任 务 、灾 害 数 据 、模 型 方 法 实 体 、实 体 属 性 关 系 及 水 文 模 型 。 模 型 方 法 节 点 与 灾 害 数 据 节 点(蓝
实 体 之 间 的 关 联 关 系 ,红 色 节 点 表 示 洪 涝 灾 害 事 色)相 连 ,表 示 数 据 与 方 法 间 的 输 入 /输 出 关 系 ,
件 ,与“ 江 苏 东 海 县 发 生 洪 涝 灾 害 ”节 点 相 连 接 的 例 如 FloodArea 水 文 模 型 需 要 的 输 入 数 据 有 气
有 灾 害 发 生 时 间 、结 束 时 间 、发 生 地 点 、致 灾 因 子 象 监 测 数 据 、水 文 、水 情 监 测 数 据 、地 形 、实 时
等 属 性 节 点 ,以 及 灾 害 事 件 对 应 的 应 急 任 务 节 点 监 测 数 据 ,方 法 输 出 结 果 为 洪 涝 灾 害 模 拟 产 品 。
(黄 色)。 灾 前 、灾 中 、灾 后 不 同 过 程 具 有 对 应 的 此 外 ,部 分 灾 害 数 据 节 点 之 间 以 数 据 关 联 度 连
应 急 任 务 ,如 图 4 所 示 ,灾 前 具 有“ 洪 涝 监 测 ”任 接 ,例 如 站 点 上 报 数 据 与 水 情 监 测 数 据 具 有 数 据
务 、灾 中 具 有“ 洪 涝 模 拟 ”任 务 ;不 同 的 应 急 任 务 关 联 关 系 ,量 化 值 为 0.81,表 示 当 使 用 站 点 上 报
节 点 与 模 型 方 法 节 点(绿 色)相 连 ,表 示 任 务 可 使 数 据 时 同 时 使 用 水 情 监 测 数 据 的 概 率 较 大 ,则 根
用 的 方 法 ,例 如 针 对 洪 涝 监 测 应 急 任 务 可 以 使 用 据 灾 害 数 据 的 数 据 关 联 关 系 ,可 以 对 相 关 数 据 节
NDVI(normalized difference vegetation index)指 点进行推荐应用。
数方法,针对洪涝模拟应急任务可使用 FloodArea

图3 洪涝灾害应急知识图谱模式层
Fig.3 Ontology of Flood Disaster Emergency Knowledge Graph

洪 涝 灾 害 应 急 知 识 图 谱 案 例 中 ,包 含 了 自 然 5 结 语
灾 害 应 急 领 域 中 的 自 然 灾 害 事 件 、灾 害 应 急 任
务 、灾 害 数 据 、模 型 方 法 4 个 核 心 要 素 ,根 据 模 式 知识图谱的理论方法为知识信息提供了一
种 新 的 获 取 、存 储 、组 织 、管 理 和 展 示 的 手 段 ,为
层中本体库定义的较为全面的要素属性及语义
自然灾害研究和防灾减灾知识服务拓展了新的
关 系 ,实 现 了 数 据 层 中 具 体 实 例 的 知 识 抽 取 ,对
空间。本文针对当前自然灾害应急领域数据量
要素之间丰富的关联关系进行了表达。可以发
骤 增 而 应 急 管 理 关 键 知 识 明 显 匮 乏 的 矛 盾 ,研 究
现本文所构建的洪涝灾害应急知识图谱不仅能
了自然灾害应急知识图谱的构建方法。对自然
够 对 自 然 灾 害 事 件 、灾 害 应 急 任 务 、灾 害 数 据 、模
灾 害 应 急 领 域 当 中 的 自 然 灾 害 事 件 、灾 害 应 急 任
型 方 法 进 行 清 晰 、完 整 的 表 达 ,同 时 也 能 够 将 各 务、灾害数据、模型方法 4 个核心要素,对其概念、
个 要 素 之 间 的 语 义 关 系 进 行 描 述 ,实 现 了 从 多 源 属 性 、关 系 进 行 本 体 层 面 的 分 类 与 定 义 ,构 建 知
数据到互联知识的转化。 识 图 谱 模 式 层 中 的 统 一 概 念 描 述 框 架 ,在 框 架 指
1352 武 汉 大 学学报· 信 息科学版 2020 年 9 月

导 下 ,针 对 不 同 的 数 据 源 类 型 ,通 过 数 据 获 取 、知 并以洪涝灾害应急知识图谱为例进行实验
识 抽 取 、知 识 融 合 、知 识 存 储 构 建 知 识 图 谱 数 据 验 证 ,结 果 表 明 本 文 构 建 的 知 识 图 谱 在 概 念 、属
层中丰富的实体及关系。 性 、语 义 关 联 上 能 够 满 足 对 自 然 灾 害 事 件 、灾 害
应 急 任 务 、灾 害 数 据 、模 型 方 法 的 描 述 ,能 够 较 为
表7 洪涝灾害应急知识图谱节点及关系统计数据
清 晰 、完 整 地 表 达 实 体 及 实 体 间 丰 富 的 关 联 关
Tab.7 Statistics of Nodes and Relationships in Flood
系 ,验 证 了 本 文 所 提 出 的 自 然 灾 害 应 急 领 域 知 识
Disaster Emergency Knowledge Graph
图 谱 构 建 方 法 的 有 效 性 和 可 行 性 ,同 时 也 为 灾 害
名称 类型 数量
洪涝灾害事件 节点 523
领域中数据—信息—知识的转变提供了一种新
应急任务 节点 11 的方法。
灾害数据 节点 45 总 体 来 说 ,本 研 究 为 知 识 的 获 取 与 表 达 提 供
模型方法 节点 2 475 了 新 的 应 用 视 角 ,对 于 实 现 新 时 期 防 灾 减 灾 新 要
起始时间 边 97 求 具 有 重 要 意 义 。 此 外 ,本 研 究 尚 有 不 足 ,如 对
结束时间 边 116
于 知 识 图 谱 数 据 层 构 建 中 ,受 到 数 据 丰 富 度 、完
发生地点 边 125
整 度 的 影 响 较 大 ,模 式 层 中 建 立 的 灾 害 要 素 属
致灾因子 边 38
灾情信息 边 125
性 、关 系 较 多 ,但 具 体 实 例 中 缺 乏 较 为 完 整 的 描
对应任务 边 375 述 ,因 此 会 影 响 实 体 、关 系 抽 取 的 效 果 。 在 后 续
使用方法 边 2 600 研 究 中 ,需 要 继 续 扩 展 数 据 来 源 ,对 已 有 经 验 知
输入 边 7 251 识 进 行 借 鉴 与 利 用 ,同 时 对 新 知 识 进 行 发 现 与 总
输出 边 1 953
结,从而提高知识图谱的完整度。
数据关联 边 9

图4 洪涝灾害应急知识图谱数据层(部分)
Fig.4 Instance of Flood Disaster Emergency Knowledge Graph(Part)

gy,2013,28(4):55-60(廖 永 丰 ,赵 飞 ,王 志 强 ,
参 考 文 献
等 . 2000—2011 年 中 国 自 然 灾 害 灾 情 空 间 分 布 格

[1] Liao Yongfeng,Zhao Fei,Wang Zhiqiang,et al. 局分析[J]. 灾害学,2013,28(4):55-60)

Spatial Pattern Analysis of Natural Disasters in Chi‐ [2] Liu Zhe,Zhang Peng,Liu Nanjiang,et al. Charac‐

na from 2000 to 2011[J]. Journal of Catastropholo⁃ teristics of Natural Disasters in Key Regions of One-
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1353

Belt-One-Road Initiative[J]. Journal of Catastro⁃ base:A Collaboratively Created Graph Database for
phology,2018,33(4):68-74(刘 哲 ,张 鹏 ,刘 南 Structuring Human Knowledge[C]. The ACM In‐
江 ,等 .“ 一 带 一 路 ”中 国 重 点 区 域 自 然 灾 害 特 征 分 ternational Conference on Management of Data,
析[J]. 灾害学,2018,33(4):68-74) Vancouver,BC,Canada,2008
[3] Zhao Shanshan, Gao Ge, Huang Dapeng, et al. [13] Denny V,Markus K. Wikidata:A Free Collabora‐
Characteristics of Meteorological Disaster Losses in tive Knowledgebase [J]. Communications of the
China from 2004 to 2013[J]. Journal of Meteorolo⁃ ACM,2014,57(10):78-85
gy and Environment,2017,33(1):101-107(赵 珊 [14] Hoffart J,Suchanek F M,Berberich K,et al. YA ‐
珊 ,高 歌 ,黄 大 鹏 ,等 . 2004—2013 年 中 国 气 象 灾 GO2: A Spatially and Temporally Enhanced
害 损 失 特 征 分 析[J]. 气 象 与 环 境 学 报 ,2017,33 Knowledge Base from Wikipedia[J]. Artificial Intel⁃
(1):101-107) ligence,2013,194(4):28-61
[4] Zhu Jianzhang,Shi Qiang,Chen Feng’e,et al. Re‐ [15] Chen Dazhi. Application Scenario and Feasibility
search Status and Development Trends of Remote Study of Mapping Knowledge Domain in Banking In‐
Sensing Big Data[J]. Journal of Image and Graphics, dustry[J]. Financial Computer of China,2019,355
2016,21(11):1 425-1 439(朱 建 章 ,石 强 ,陈 凤 (2):33-37(陈 大 值 . 知 识 图 谱 在 银 行 业 的 应 用 场
娥,等 . 遥感大数据研究现状与发展趋势[J]. 中国 景 及 可 行 性 研 究[J]. 中 国 金 融 电 脑 ,2019,355
图象图形学报,2016,21(11):1 425-1 439) (2):33-37)
[5] Sowa J F. Principles of Semantic Networks:Explo‐ [16] Yuan Kaiqi, Deng Yang, Chen Daoyuan, et al.
ration in the Representation of Knowledge[M]. San Construction Techniques and Research Development
Mateo:Morgan Kaufmann,1991:135-157 of Medical Knowledge Graph[J]. Application Re⁃
[6] Gruber T R. A Translation Approach to Portable search of Computers,2018,35(7):15-22(袁 凯 琦 ,
Ontology Specifications [J]. Knowledge Acquisi⁃ 邓 扬 ,陈 道 源 ,等 . 医 学 知 识 图 谱 构 建 技 术 与 研 究
tion,1993,5(2):199-220 进展[J]. 计算机应用研究,2018,35(7):15-22)
[7] Yuan Guoming,Li Hongqi,Fan Bo. Survey on De‐ [17] Wei Qifeng, Tang Chuan, Zhao Changyi. An
velopment of Knowledge Engineering System[J]. Analysis of Knowledge Chain Research in China
Computing Technology and Automation,2011,30 Based on Knowledge Mapping[J]. Information Science,
(1):138-143(袁 国 铭 ,李 洪 奇 ,樊 波 . 关 于 知 识 工 2016,34(7):7-13(魏奇锋,唐川,赵长轶 . 国内知
程 的 发 展 综 述[J]. 计 算 技 术 与 自 动 化 ,2011,30 识链研究的知识图谱分析[J]. 情报科学,2016,34
(1):138-143) (7):7-13)
[8] Dong X,Gabrilovich E,Heitz G,et al. Knowledge [18] Zhu Jie,You Xiong,Xia Qing. A Semantic Similari‐
Vault: A Web-Scale Approach to Probabilistic ty Calculation Method for Battlefield Environment
Knowledge Fusion[C]. The 20th ACM SIGKDD Elements Based on Operational Task Ontology[J].
International Conference on Knowledge Discovery Geomatics and Information Science of Wuhan Uni⁃
and Data Mining,New York,USA,2014 versity,2019,44(9):1 407-1 415(朱 杰 ,游 雄 ,夏
[9] Liu Qiao,Li Yang,Duan Hong,et al. Knowledge 青 . 利用作战任务本体计算战场环境要素语义相似
Graph Construction Techniques[J]. Journal of Com ⁃ 性[J]. 武 汉 大 学 学 报·信 息 科 学 版 ,2019,44(9):
puter Research and Development, 2016, 53(3): 1 407-1 415)
582-600(刘 峤 ,李 杨 ,段 宏 ,等 . 知 识 图 谱 构 建 技 [19] Chen Jun,Liu Wanzeng,Wu Hao,et al. Basic Is‐
术 综 述[J]. 计 算 机 研 究 与 发 展 ,2016,53(3): sues and Research Agenda of Geospatial Knowledge
582-600) Service[J]. Geomatics and Information Science of
[10] Xu Zenglin,Sheng Yongpan,He Lirong,et al. Re‐ Wuhan University,2019,44(1):38-47(陈 军 ,刘
view on Knowledge Graph Techniques[J]. Journal 万 增 ,武 昊 ,等 . 基 础 地 理 知 识 服 务 的 基 本 问 题 与
of University of Electronic Science and Technology 研 究 方 向[J]. 武 汉 大 学 学 报·信 息 科 学 版 ,2019,
of China,2016,45(4):589-606(徐 增 林 ,盛 泳 潘 , 44(1):38-47)
贺丽荣,等 . 知识图谱技术综述[J]. 电子科技大学 [20] Huang Haifeng,Wang Shimei,Sun Renxian,et al.
学报,2016,45(4):589-606) Study of Knowledge Base System About Emergency
[11] Sören A,Bizer C,Kobilarov G,et al. DBpedia:A Treatment of Geo-hazard Under Conditions of Ice
Nucleus for a Web of Open Data[J]. The Semantic and Snow Disasters[J]. Journal of China Three
Web,2007,4 825:722-735 Gorges Unibersity(Natural Sciences), 2010, 32
[12] Bollacker K D,Evans C,Paritosh P,et al. Free‐ (2):31-36(黄 海 峰 ,王 世 梅 ,孙 仁 先 ,等 . 冰 雪 灾
1354 武 汉 大 学学报· 信 息科学版 2020 年 9 月

害 条 件 下 地 质 灾 害 应 急 抢 险 知 识 库 系 统 研 究[J]. Ontology Construction and Application of Multi-level


三峡大学学报(自然科学版),2010,32(2):31-36) Geological Disasters[J]. Science of Surveying and
[21] Gui Yuanmiao,Wang Rujing,Sun Bingyu,et al. Mapping,2019,44(6):330-336(田 董 炜 ,仇 阿 根 ,
Ontology-Based Knowledge Representation Method 张志然 . 多层次地质灾害领域本体构建与应用
of Natural Disasters[J]. Electronic Technology, [J]. 测绘科学,2019,44(6):330-336)
2010,47(9):4-6(桂 元 苗 ,王 儒 敬 ,孙 丙 宇 ,等 . [30] Ni J X,Liu X,Zhou Q F,et al. A Knowledge
基 于 本 体 的 一 种 自 然 灾 害 知 识 表 示 方 法[J]. 电 子 Graph Based Disaster Storyline Generation Frame‐
技术,2010,47(9):4-6) work[C]. Chinese Control and Decision Conference
[22] Wang Haozhong,Mao Xuemin. Knowledge Repre‐ (CCDC),Nanchang,China,2019
sentation Based on OWL for Emergency Response [31] Zhan Qin,Li Deren,Sui Haigang,et al. A Method
in the Field of Natural Disasters[J]. Computer Sys⁃ for Building Remote Sensing Information Services
tems & Applications,2012,21(4):207-211(王 昊 Classification Ontology[J]. Geomatics and Informa⁃
中 ,毛 雪 岷 . 基 于 OWL 的 自 然 灾 害 领 域 应 急 响 应 tion Science of Wuhan University,2010,35(3):
知 识 表 示 方 法[J] . 计 算 机 系 统 应 用 ,2012,21 343-346(詹 勤 ,李 德 仁 ,眭 海 刚 ,等 . 一 种 遥 感 信
(4):207-211) 息服务分类本体构建方法[J]. 武汉大学学报·信息
[23] Wang X L,Wu X L. A Novel Knowledge Repre‐ 科学版,2010,35(3):343-346)
sentation Method Based on Ontology for Natural Di‐ [32] Zhang Lichao,Pan Zhen,Wang Qingshan,et al.
saster Decision-Making[C]. 2012 IEEE International An Ontology-Driven Discovering Model of Geo‐
Conference on Computer Science and Automation graphical Information Services[J]. Geomatics and
Engineering(CSAE),Zhangjiajie,China,2012 Information Science of Wuhan University,2009,34
[24] Liu Xiaohui, Cui Jian , Cai Fei. Geo-Ontology (6):641-645(张 立 朝 ,潘 贞 ,王 青 山 ,等 . 本 体 驱
Modeling and Reasoning of GeoHazard Emergency 动 的 地 理 信 息 服 务 发 现 模 型 研 究[J]. 武 汉 大 学 学
Response Knowledge[J]. Geography and Geo ⁃ In⁃ 报·信息科学版,2009,34(6):641-645)
formation Science,2018,34(4):1-6(刘 晓 慧 ,崔 [33] Shi Peijun. Theory and Practice of Disaster Study
健,蔡菲 . 突发地质灾害应急响应知识地理本体建 [J]. Journal of Natural Disasters,1996,6(4):8-19
模及推理[J]. 地理与地理信息科学,2018,34(4): (史 培 军 . 再 论 灾 害 研 究 的 理 论 与 实 践[J]. 自 然 灾
1-6) 害学报,1996,6(4):8-19)
[25] Li Zequan,Xu Shuhua,Li Bixiao,et al. Informa‐ [34] Shi Peijun. Theory on Disaster Science and Disaster
tion Fusion Technology of Disaster Scenario Based Dynamics[J]. Journal of Natural Disasters,2002,
on Knowledge Graph[J]. Journal of North China In⁃ 11(3):1-9(史 培 军 . 三 论 灾 害 研 究 的 理 论 与 实 践
stitute of Science and Technology,2019,16(2):1-5 [J]. 自然灾害学报,2002,11(3):1-9)
(李泽荃,徐淑华,李碧霄,等 . 基于知识图谱的灾 [35] Shi Peijun. Theory and Practice on Disaster System
害 场 景 信 息 融 合 技 术[J]. 华 北 科 技 学 院 学 报 , Research in a Fourth Time[J]. Journal of Natural
2019,16(2):1-5) Disasters,2005,14(6):1-7(史 培 军 . 四 论 灾 害 系
[26] Rong Juntao,Wang Liying. Research on Scenario 统研究的理论与实践[J]. 自然灾害学报,2005,14
Model of Public Crisis Events Based on Ontology (6):1-7)
[J]. Journal of Modern Information,2016,36(6): [36] Li Jing,Chen Yunhao,Tang Hong,et al. Natural
50-55(戎 军 涛 ,王 莉 英 . 基 于 本 体 的 公 共 危 机 事 件 Disaster Assessment Model and Method System
情景模型研究[J]. 现代情报,2016,36(6):50-55) [M]. Beijing:Science Press,2012(李 京 ,陈 云 浩 ,
[27] Sun X Q,Qi L,Sun H,et al. Earthquake Knowledge 唐 宏 ,等 . 自 然 灾 害 灾 情 评 估 模 型 与 方 法 体 系
Graph Constructing Based on Social Intercourse [M]. 北京:科学出版社,2012)
Using BiLSTM-CRF[C]. IOP Conference Series: [37] Cui Bin,Gao Jun,Tong Yongxin,et al. Progress
Earth and Environmental Science,Guangzhou,Chi‐ and Trend in Novel Data Management System[J].
na,2020 Journal of Software,2019,30(1):164-193(崔 斌 ,
[28] Wang Y, Hou X. A Method for Constructing 高 军 ,童 咏 昕 ,等 . 新 型 数 据 管 理 系 统 研 究 进 展 与
Knowledge Graph of Disaster News Based on Ad‐ 研究趋势[J]. 软件学报,2019,30(1):164-193)
dress Tree[C]. The 5th International Conference on [38] Zhang Lin,Xiong Sipan. Design and Implementa‐
Systems and Informatics(ICSAI),Nanjing,China, tion of Social Network Platform Based on Neo4j[J].
2018 Information Research,2018,250(8):81-86(张 琳 ,
[29] Tian Dongwei,Qiu Agen,Zhang Zhiran. Domain 熊 斯 攀 . 基 于 Neo4j 的 社 交 网 络 平 台 设 计 与 实 现
第 45 卷第 9 期 杜志强等:自然灾害应急知识图谱构建方法研究 1355

[J]. 情报探索,2018,250(8):81-86) 存 储 架 构[J]. 计 算 机 学 报 ,2018,41(8):1 766-


[39] Huang Quanlong,Huang Yanxiang,Shao Yingxia, 1 779)
et al. HybriG:A Distributed Storage Architecture [40] Mario M,Fabio M,Mirko C,et al. GraphDBLP:
for Efficiently Processing Property Graph with Mas‐ A System for Analyzing Networks of Computer
sive Multi-edges[J]. Chinese Journal of Computers, Scientists Through Graph Databases[J]. Multime⁃
2018,41(8):1 766-1 779(黄 权 隆 ,黄 艳 香 ,邵 蓥 dia Tools & Applications,2018,77(14):18 657-
侠 ,等 . HybriG:一 种 高 效 处 理 大 量 重 边 的 属 性 图 18 688

Knowledge Graph Construction Method on Natural Disaster Emergency

DU Zhiqiang 1,3 LI Yu 1 ZHANG Yeting 1,3 TAN Yuqi 1 ZHAO Wenhao 2


1 State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University,Wuhan 430079,China
2 National Geomatics Center of China, Beijing 100830, China
3 Collaborative Innovation Center of Geospatial Technology, Wuhan 430079, China

Abstract:Natural disasters occur frequently and pose a huge threat to China. Disaster prevention, mitiga‐
tion, and disaster relief are eternal topics of human survival and development. However, in the field of di‐
saster relief and emergency response, the relevant data increase sharply while the critical knowledge of
emergency is obviously lacking. The “data-information-knowledge” transformation capacity is insuffi‐
cient to meet the urgent needs of disaster prevention and reduction. Firstly taking natural disasters as the
core, and around four elements of natural disaster events, disaster emergency tasks, disaster data, and
methods, this paper proposes a knowledge graph construction method by combining a top ‐ down approach
and a bottom‐up approach. Then,concept layer of knowledge graph is built from top to down, and the con‐
ceptual framework is formed through ontology modeling. Data layer of knowledge graph is built from bot‐
tom to top, and the relationship between entities is established through data acquisition, knowledge extrac‐
tion, fusion, and storage. Finally, a flood disaster emergency knowledge graph is built to verify the validity
of the proposed method. The concept layer in flood disaster emergency knowledge graph defines the concep‐
tual levels, the attributes and the semantic relationships of flood disaster events, disaster emergency tasks,
disaster data, and methods. The data layer in flood disaster emergency knowledge graph realizes the extrac‐
tion of entities and relationships from multi‐ source data. After the knowledge fusion process, 3 054 nodes
and 12 689 relationship edges are obtained and stored in the Neo4j graph database. The flood disaster emer‐
gency knowledge graph realizes the transformation from multi‐source data to interrelated knowledge.
Key words:natural disaster;emergency;domain knowledge graph;ontology

First author: DU Zhiqiang, PhD, associate professor, specializes in the VGE and disaster information service. E ‐ mail: duzhiqiang@whu.
edu.cn
Corresponding author: ZHAO Wenhao, PhD, senior engineer. E‐mail: zhaowh@ngcc.cn
Foundation support: The National Natural Science Foundation of China(41971347); the National Key Research and Development Program
of China(2017YFC1502902).
引文格式:DU Zhiqiang,LI Yu,ZHANG Yeting,et al.Knowledge Graph Construction Method on Natural Disaster Emergency[J].Geomatics
and Information Science of Wuhan University,2020,45(9):1344-1355.DOI:10.13203/j.whugis20200047(杜 志 强 ,李 钰 ,张 叶 廷 ,等 . 自 然 灾
害应急知识图谱构建方法研究[J]. 武汉大学学报·信息科学版,2020,45(9):1344-1355.DOI:10.13203/j.whugis20200047)

You might also like