Professional Documents
Culture Documents
面向馆藏聚合的书目关联数据实现 游毅
面向馆藏聚合的书目关联数据实现 游毅
面向馆藏聚合的书目关联数据实现 游毅
023
情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
*
面向馆藏聚合的书目关联数据实现
摘 要: 以 MARC 书目格式为代表的图书馆元数据标准在语义性与关联性等方面存在不足,而关联数据能够利用馆
藏书目中概念或实体的语义描述与链接构建实现资源内容的充分揭示与关联关系的规范表达。依据关联数据基本原则与
聚合机制,通过图书馆 MARC 书目数据的 RDF 格式转换与 URI 资源命名能够实现馆藏元数据的关联数据化,进而借助
指向外部数据源的 RDF 链接构建与面向关联数据网络的开放发布,就能够实现书目数据的语义转换与网络关联,从而
为馆藏资源的深度聚合与开放共享提供一种全新的实现模式。
关键词: 信息聚合; 图书馆; 关联数据
Abstract: Library metadata standard,which is represented by Marc bibliographic format,has obvious shortcomings in the as-
pects of semantic and relevance. However,the linked data can achieve the fully revelation of resource concept and the standard ex-
pression of association by using the semantic description and linked construction of the concept or entity in collection bibliography.
Based on the basic principle and aggregation mechanism of linked data,the paper realizes linked data of collection metadata through
the RDF format transformation of MARC bibliographic data in library and the naming of URI resource. Then,the paper realizes the
semantic transformation and network association of bibliographic data based on the construction of RDF of external resource and the
open publishing oriented to linked data network. Thus the paper provides a new implementation mode for the deep aggregation and
open sharing of collection resources.
Keywords: information aggregation; library; linked data
书目记录作为描述与揭示馆藏资源外部与内容特征的 关系的图书馆关联数据,能够为馆藏资源的聚合共享提供
信息组织方式,已成为图书馆最为核心的描述性元数据类 新的可能。
型。尤其是随着 MARC ( Machine-Readable Cataloging,机
1 关联数据及其聚合机制
读编目格式标准) 格式的普及全球图书馆均已积累了大
量 MARC 书目资源,如 OCLC 的 WorldCat 在线编目联合目 所谓聚合,即利用富含语义特征的元数据来发现和揭
录拥有超过 9000 家图书馆编制的数千万 MARC 数据。然 示信息资源中客观实体与抽象概念间的关联关系,进而基
而遗憾的是,传统 MARC 书目往往具有复杂的内容格式, 于语义关联将分散异构的资源对象凝聚在一起。具体到馆
同时其高度结构化特征也只能通过遵循 Z39. 50 和 SRU / W 藏资源,聚合理念要求图书馆必须以资源描述性元数据为
检索协议的客户端才能为用户获取和使用,从而制约了图 基础,以馆藏中实体或概念间的关联关系为纽带,将跨机
书馆在开 放 共 享 环 境 中 进 一 步 发 挥 其 海 量 信 息 聚 合 的 构、跨类型、跨平台的馆藏资源聚合成为有机整体,而关
功能。 联数据恰恰为这一理念提供了实现途径。
基于此,面向馆藏聚合的图书馆关联数据应用可将目 关联数据最初由万维网之父 T. Berners-Lee 于 2006 年
标放在海量书目资源之中,通过将 MARC 数据改造成为 首次提出,简言之,它是针对现有 Web 网络中多源异构
关联数据环境下富含语义的 RDF 三元组形式,并构建馆 数据创建特定类型语义链接的一组最佳实践,其要求数据
藏资源间的丰富关联关系,从而帮助图书馆书目元数据实 以一种机器可理解的语义化方式定义表达,并在 Web 网
现对于 Web 用户的开放存取并融入全球数据空间。而另 络中面向各类异构应用程序实现开放发布,同时还必须拥
一方面,由于 MARC 书目数据基于科学严谨的编目工作 有指向其他外部数据源的 RDF 链接并能被外部关联数据
[1]
并具有系统深入的馆藏描述,因此将其发布成为富含语义 参引 。具体而言,关联数据必须依据特定发布原则以保
证语义聚合的通用性与标准化,同时 Berners-Lee 针对关
* 本文为国家社会科学基金青年项目 “馆藏资源元数据的语义描 联数据发布也提出了一组基本要求,包括: ① 使用 URI
述及关联网络构建研究” 的成果,项目编号: 11CTQ002。 作为任何事物的标识; ② 使用 HTTP URIs 以便任何人都
·第 37 卷 2014 年第 8 期· — 105 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
范表达,从而实现面向全球数据网络的资源语义聚合。 00aHarry Potter and the prisoner of Azkaban / cJ. K. Rowling. aLondon
: bBloomsbury,c1999. a317p. ; c21 cm. 0aPotter,Harry ( Fictitious
从实现角度看,关联数据的聚合机制主要来源于 LOD
character) vJuvenile fiction. 0aWizardsvJuvenile fiction. 7aChildren 's
开放发布与 RDF 语义链接两方面。其中 LOD 开放发布就
stories. 2lcsh
是利用 URI 标识与 RDF 模型实现复杂数据对象的结构化
可见,MARC 21 原生书目格式虽然凭借其高度结构
与语义化,并以数据集形式发布到网络中以便提供数据的
化的编码格式而易于被机器解析,然而其繁冗复杂甚至杂
开放访问、存取与查询,从而实现关联数据发布者与消费
乱无章的结构却难以被编目人员和用户理解,因此可转换
者的关联数据复用、链接与消费,并保证其在整体网络空
为更为规范化的 MARC 21 书目记录片段形式:
间中具有可操作性与重用性。而 RDF 链接机制是在数据
发布基础上探索自有关联数据与外部开放数据集间的语义 = LDR 00673nam a2200217 a 4504
— 106 — ·第 37 卷 2014 年第 8 期·
情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
·第 37 卷 2014 年第 8 期· — 107 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
经过这一转换过程,
MARC 书 目 中 原 本 只 能
为机器读取的字段代码
均转化为人类能够阅读
理解的关联数据属性词
汇。更 为 重 要 的 是,字
段间存在语义关联的数
据已经 被 完 全 提 取,同
时之前需要借助邻近数
据才能确定的谓语也具
有了独立而明晰的属性,
原本复杂的嵌套结构也
得以进一步简化。 图1 MARC 书目 RDF 文件的可视化图例
— 108 — ·第 37 卷 2014 年第 8 期·
情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
45a216923b3d24e4a4a711a664 # self > , < http: / / example. com / re- 关于 J. K. Rowling 的 URI 信息,进而与其作品 RDF 书目文
·第 37 卷 2014 年第 8 期· — 109 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
发送的资源获取请求中包含以下所示的 HTTP 头信息: [2] MACANUS R. Linked data is blooming: why you should care
[EB / OL]. [2013-04-22]. http: / / www. readwriteweb. com /
GET / resource / works /7317d9412ec8b84e0bfe9989d1521JHJself
archives / linked_data_is_blooming_why_you_should_care. php.
Host: examples. com
[3] TENNANT R. MARC exit strategies [J]. Library Journal,
Accept: application / marcxml + xml
2002,19 ( 19) : 27-28.
- - - - - - - - - - - -
[4] Library of Congress. Functional analysis of the MARC 21 biblio-
HTTP /1. 1 303 See Other
Location: http: / / example. com / resources / works /7317d9412ec8- graphic and holding formats [EB / OL]. [2013-07-21]. ht-
b84e0bfe9989d1521. rdf tp: / / www. loc. gov / marc / marc-functional-analysis / functional-
analysis. html.
则依据内容协商机制中的 303 重定向策略向客户端应
[5] Library of Congress. MARC 21 format for bibliographic data
用程序返回以所示的重定向信息,从而帮助其获取所需原 [EB / OL]. [2013-07-21]. http: / / www. loc. gov / marc / bib-
始 HTML 格式书目数据。 liographic / ecbdhome. html.
GET / resource / works /7317d9412ec8b84e0bfe9989d1521#self [6] DAVIS I. MARC transliteration [EB / OL]. [2012-07-21].
Host: example. com http: / / iandavis. com / blog /2005 /12 / marc- transliteration.
Accept: text / html [7] SYNAK M,KRUK S. MarcOnt initiative-the ontology for the
- - - - - - - - - - - - librarian world [EB / OL]. [2013-07-21]. http: / / www.
HTTP /1. 1 303 See Other marcont. org / marcont / pdf / ms_eswc2005marcont. pdf.
Location: http: / / example. com / resources / works /7317d9412ec8b [8] 国会图书馆 . MARC 转换工具 [EB / OL]. [2013-08-11].
84e0bfe9989d1521. html http: / / www. loc. gov / standard / mods / mods-userguide. html.
[9] SYNAK M,KRUK S. MarcOnt initiative-the ontology [EB /
4 结束语 OL]. [2013-07-21]. http: / / www. marcont. org / pdf.
[10] 瑞典国家图书馆 . LIBRIS 书目系统 [EB / OL]. [2013-08-
综上可见,基于 MARC 书目的关联数据发布能够为 11]. http: / / libris. kb. se.
馆藏资源聚合提供重要实现途径。通过将 MARC 书目格 作者简介: 游毅,男,1984 年 生,博 士,馆 员。研 究 方
式在形式和内容上转换成为符合关联数据原则的 RDF 数 向: 数字信息资源管理。
据文件,并将表征概念属性或客观实体的文本字符串替换 收稿日期: 2014 - 02 - 19
— 110 — ·第 37 卷 2014 年第 8 期·