面向馆藏聚合的书目关联数据实现 游毅

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 6

DOI:10.16353/j.cnki.1000-7490.2014.08.

023

情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

●游 毅 ( 广州大学 图书馆,广东 广州 510006)

*
面向馆藏聚合的书目关联数据实现
摘 要: 以 MARC 书目格式为代表的图书馆元数据标准在语义性与关联性等方面存在不足,而关联数据能够利用馆
藏书目中概念或实体的语义描述与链接构建实现资源内容的充分揭示与关联关系的规范表达。依据关联数据基本原则与
聚合机制,通过图书馆 MARC 书目数据的 RDF 格式转换与 URI 资源命名能够实现馆藏元数据的关联数据化,进而借助
指向外部数据源的 RDF 链接构建与面向关联数据网络的开放发布,就能够实现书目数据的语义转换与网络关联,从而
为馆藏资源的深度聚合与开放共享提供一种全新的实现模式。
关键词: 信息聚合; 图书馆; 关联数据

Abstract: Library metadata standard,which is represented by Marc bibliographic format,has obvious shortcomings in the as-
pects of semantic and relevance. However,the linked data can achieve the fully revelation of resource concept and the standard ex-
pression of association by using the semantic description and linked construction of the concept or entity in collection bibliography.
Based on the basic principle and aggregation mechanism of linked data,the paper realizes linked data of collection metadata through
the RDF format transformation of MARC bibliographic data in library and the naming of URI resource. Then,the paper realizes the
semantic transformation and network association of bibliographic data based on the construction of RDF of external resource and the
open publishing oriented to linked data network. Thus the paper provides a new implementation mode for the deep aggregation and
open sharing of collection resources.
Keywords: information aggregation; library; linked data

书目记录作为描述与揭示馆藏资源外部与内容特征的 关系的图书馆关联数据,能够为馆藏资源的聚合共享提供
信息组织方式,已成为图书馆最为核心的描述性元数据类 新的可能。
型。尤其是随着 MARC ( Machine-Readable Cataloging,机
1 关联数据及其聚合机制
读编目格式标准) 格式的普及全球图书馆均已积累了大
量 MARC 书目资源,如 OCLC 的 WorldCat 在线编目联合目 所谓聚合,即利用富含语义特征的元数据来发现和揭
录拥有超过 9000 家图书馆编制的数千万 MARC 数据。然 示信息资源中客观实体与抽象概念间的关联关系,进而基
而遗憾的是,传统 MARC 书目往往具有复杂的内容格式, 于语义关联将分散异构的资源对象凝聚在一起。具体到馆
同时其高度结构化特征也只能通过遵循 Z39. 50 和 SRU / W 藏资源,聚合理念要求图书馆必须以资源描述性元数据为
检索协议的客户端才能为用户获取和使用,从而制约了图 基础,以馆藏中实体或概念间的关联关系为纽带,将跨机
书馆在开 放 共 享 环 境 中 进 一 步 发 挥 其 海 量 信 息 聚 合 的 构、跨类型、跨平台的馆藏资源聚合成为有机整体,而关
功能。 联数据恰恰为这一理念提供了实现途径。
基于此,面向馆藏聚合的图书馆关联数据应用可将目 关联数据最初由万维网之父 T. Berners-Lee 于 2006 年
标放在海量书目资源之中,通过将 MARC 数据改造成为 首次提出,简言之,它是针对现有 Web 网络中多源异构
关联数据环境下富含语义的 RDF 三元组形式,并构建馆 数据创建特定类型语义链接的一组最佳实践,其要求数据
藏资源间的丰富关联关系,从而帮助图书馆书目元数据实 以一种机器可理解的语义化方式定义表达,并在 Web 网
现对于 Web 用户的开放存取并融入全球数据空间。而另 络中面向各类异构应用程序实现开放发布,同时还必须拥
一方面,由于 MARC 书目数据基于科学严谨的编目工作 有指向其他外部数据源的 RDF 链接并能被外部关联数据
[1]
并具有系统深入的馆藏描述,因此将其发布成为富含语义 参引 。具体而言,关联数据必须依据特定发布原则以保
证语义聚合的通用性与标准化,同时 Berners-Lee 针对关
* 本文为国家社会科学基金青年项目 “馆藏资源元数据的语义描 联数据发布也提出了一组基本要求,包括: ① 使用 URI
述及关联网络构建研究” 的成果,项目编号: 11CTQ002。 作为任何事物的标识; ② 使用 HTTP URIs 以便任何人都

·第 37 卷 2014 年第 8 期· — 105 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

可以访 问 这 些 标 识; ③ 当 有 人 访 问 某 个 标 识 时,使 用 够通过题名与责任者项、题附加款目等不定长字段及其子


RDF、SPARQL 标准提供有用信息; ④ 尽可能 提 供 相 关 字段来更为深入地揭示作品的详细信息。以 《哈利波特与
[2]
URI 以便人们可以发现更多的事物 。概言之,上述发布 阿兹班囚徒》 为例,遵循 ISO2709 语法标准的 MARC 21
原则针对数据规范标识与开放存取提供了 HTTP URI 命名 书目记录片段如下所示:
与解析机制,针对数据内容格式与语义检索选择了 RDF 00673nam a2200217 a 45040010033000000030009000330050017
数据模型与 SPARQL 查询机制,针对数据分布特性鼓励 000420080041000590150019 001000200017001190350017001360400
URI 大规模复用与链接,从而为关联数据技术体系提供了 0310015308200160018410000190020024500620021926000330028130
标准规范与实现框架。而关联数据之所以被视为实现结构 00020003146500060003346500031003946550030004259cbbe7fc3a734
化乃至非结构化数据语义聚合与开放共享的有效途径,核 6d99c281979d45b679cUK-BiTAL20050705133033. 0990831s1999 enk

心也在于通过对概念或实体的语义描述实现数据资源的深 j 000 | | eng | d aGB99Y57412bnb a0747542155 : a( ) 0747542155 aSt-

度揭示,进而依托语义链接机制实现资源间关联关系的规 DuBDScStDuBDSdUK-BiTAL04a823. 9142211 aRowling, J. K.

范表达,从而实现面向全球数据网络的资源语义聚合。 00aHarry Potter and the prisoner of Azkaban / cJ. K. Rowling. aLondon
: bBloomsbury,c1999. a317p. ; c21 cm. 0aPotter,Harry ( Fictitious
从实现角度看,关联数据的聚合机制主要来源于 LOD
character) vJuvenile fiction. 0aWizardsvJuvenile fiction. 7aChildren 's
开放发布与 RDF 语义链接两方面。其中 LOD 开放发布就
stories. 2lcsh
是利用 URI 标识与 RDF 模型实现复杂数据对象的结构化
可见,MARC 21 原生书目格式虽然凭借其高度结构
与语义化,并以数据集形式发布到网络中以便提供数据的
化的编码格式而易于被机器解析,然而其繁冗复杂甚至杂
开放访问、存取与查询,从而实现关联数据发布者与消费
乱无章的结构却难以被编目人员和用户理解,因此可转换
者的关联数据复用、链接与消费,并保证其在整体网络空
为更为规范化的 MARC 21 书目记录片段形式:
间中具有可操作性与重用性。而 RDF 链接机制是在数据
发布基础上探索自有关联数据与外部开放数据集间的语义 = LDR 00673nam a2200217 a 4504

链接构建与维护机制,从而帮助本地数据尽快融入整个数 = 001 9cbbe7fc3a7346d99c281979d45b679c


= 003 UK-BiTAL
据网络之中并实现面向资源整体的聚合应用,而上述两种
= 005 20050705133033. 0
机制也是实现馆藏资源聚合的关键所在。
= 008 990831s1999 \ \ enk j \ \ \000-| eng | d
2 MARC 书目结构内容分析 = 015 \ MYMaGB99Y5741MYM2bnb
= 020 \ MYMa0747542155 :
MARC 作为一种结构化的二进制书目格式,在 20 世
= 035 \ MYMa( ) 0747542155
纪 60 年代被国会图书馆引入馆藏管理领域并成为书目核
= 040 \ MYMaStDuBDSMYMcStDuBDSMYMdUK-BiTAL
心标准,用于图书馆数据的交换共享与互操作之中,而
= 082 04MYMa823. 914MYM221
ISO 2709 《文献工作—文献目录信息交换用磁带格式》 发
= 100 1 \ MYMaRowling,J. K.
布的 MARC 21 作为其最新版本,更是被广泛用于描述馆 = 245 00MYMaHarry Potter and the prisoner of Azkaban / MYM-
[3]
藏书目中各种不同类型的记录 。基于此,MARC 可视为 cJ. K. Rowling.
图书馆通用的书目格式并支持世界范围内书目数据的自由 = 260 \ MYMaLondon : MYMbBloomsbury,MYMc1999.
获取与关联共享,因而也应当成为面向馆藏聚合的关联数 = 300 \ MYMa317p. ; MYMc21 cm.
据研究中首选的数据发布对象。 = 650 \0MYMaPotter,Harry ( Fictitious character) MYMvJuvenile
从书目结构来看,MARC 作为一种在计算机发展早期 fiction.
便应用于馆藏编目的机读数据格式,在结构定义时充分考 = 650 \0MYMaWizardsMYMvJuvenile fiction.

虑到了书目数据在文献形式描述、内容表达、检索入口等 = 655 】MYMaChildren’s stories. MYM2lcsh

方面的需要,并具有著录详尽、灵活实用、可检索字段 MARC 21 书目规范格式能够清晰揭示出 《哈利波特


[4]
多、扩充修改功能强等优点 。具体而言,MARC 21 书 与阿兹班囚徒》 的基本形式特征与内容特征。具体而言,
目记录的基本结构包括头标区、目次区和可变字段三部 每一行记录最左边的字段标识符均由三位数字组成,用于
分,并通过内容标识符来识别和描述记录中的数据元素, 标识馆藏出版物特定外部与内容特征的描述字段。此后,
[5]
从而完成对 书 目 数 据 的 各 种 功 能 操 作 。就 内 容 而 言, 自 015 字段之后的每个字段均切分为若干个子字段,用于
MARC 21 书目记录既能够通过定长字段反映书目的入档 进一步解释某一属性之下的细部特征,同时子字段开头附
时间、作品类型、出版日期、语种代码等基本信息,也能 有标识符 “MYM” 以及由字母或数字构成的数据元素标

— 106 — ·第 37 卷 2014 年第 8 期·
情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

识符,例如子字段 100 MYMa 和 245 MYMc 分 别 标 识 作 []


者,245 MYMa 标识出版物题名,650 MYMa 标识主题词, marc21: LDR“00673nam a2200217 a 4504”;
260 MYMb 标识出版者,260 MYMc 标识出版年等。 marc21: 001 “9cbbe7fc3a7346d99c281979d45b679c”;
综上可见,MARC 书目格式几乎能够完美适应计算机 marc21: 005 “20050705133033. 0”;
环境下的图书馆编目需求,其严谨的书目结构与强大的描 marc21: 008 “990831s1999 enk j 000 | | eng | d”;
述能力甚至被称为 “编目的艺术”。然而,尽管 MARC 从 marc21: 020 [
形式和内容上统一了馆藏目录格式并为书目数据的交换共 marc21: a“0747542155 : ”
享创造了条件,但是复杂的字段与嵌套结构使得其应用范 ];
围往往局限于图书馆内部,从而制约了馆藏与外部尤其是 marc21: 100 [
Web 资源的开放交换与共享。更为重要的是,MARC 书目 marc21: ind1 “1”;
记录尽管能够提供基于字段或子字段的检索点,但却无法 marc21: a“Rowling,J. K. ”
深入到馆藏中的资源实体及其语义关联,同时书目中设置 ];
的关联字段在实际编目过程中的应用效果也并不理想,也 marc21: 245 [
就是说其馆藏描述依然是相对独立与表象化的,而语义性 marc21: ind1 “0”;
与关联性的缺失将导致 MARC 格式在语义网环境下难以 marc21: ind2 “0”;
适应数据开放与聚合的要求。基于此,实现传统 MARC marc21: a“Harry Potter and the prisoner of Azkaban / ”;
书目记录的关联数据化便成为数字网络时代的大势所趋, marc21: c“J. K. Rowling. ”
同时这一过程也是图书馆关联数据应用与馆藏聚合的重要 ];
内容。 marc21: 655 [
marc21: ind2 “7”;
3 书目数据的开放发布与关联聚合
marc21: a“Children’s stories. ”;
针对关联数据强大的语义聚合功能与 MARC 书目的 marc21: 2 “lcsh”
语义性、关联性缺失,图书馆可以将馆藏 MARC 数据发 ]
布成为关联数据集,并利用其语义与链接特性将馆藏资源 转录后 MARC 数据中三元组的谓语仍然是以字符代
乃至外部资源中各类实体与概念加以多维关联,从而实现 码形式存在,也就是说书目记录中资源间的语义关联揭示
面向开放网络空间的深度语义聚合。 仍然无法满足关联数据要求,同时也难以被非图书馆专业
3. 1 MARC 书目格式的 RDF 转换 人员所理解,更无法实现基于 RDF 语义链接的馆藏聚合。
馆藏 MARC 书目的关联数据发布就是要将 MARC 记 除此以外,转录后的 RDF 文件虽然具有三元组形式,但
录中的字段与字段值映射为 RDF 模型中的语义三元组, 其字段代码所表达的关联属性在很多情况下仍然需要通过
并利用 URI 标识符命名其涉及的所有资源并构建资源间 字段的前后参照才能获得揭示,例如 655 字段所包含主题
的 RDF 链接。而其中最为基础的便是 MARC 书目格式的 词子字段 “Children’s Stories” 与子字段 “lcsh” 之间的
RDF 转换,即通过格式转换使得 MARC 数据无论形式还 谓语仅通过代码 “2” 标识,而只有通过参照上文 655 字
是内容上均符合关联数据基本要求。 段中的邻近标识符 “ind2”,才能判断代码 “2” 表示该主
要实现 MARC 记录的 RDF 格式转换,第一步要将原 题词来源于 LeSH 国会图书馆主题词表。然而此种嵌套结
有书目格式转录为形式上接近 RDF 三元组的表达形态。 构使得三元组中的字段属性在很大程度上需要依赖邻近子
实际上,这一转录过程只不过是利用字段拆分机制与简单 字段,同时也增加了书目数据的结构复杂性。最后,转录
映射规则将 MARC 书目中的字段与子字段对照翻译为主 文件中还存在部分子字段拆分不完全与三元组表达不清晰
谓宾三元组形态,其中各字段虽然在格式上发生了变化, 的现象。基于此,图书馆需要将转录后的书目数据进行进
但仍然保持原有的字段及标识符形态,因此只能称得上是 一步语义转换,例如将以字段代码形式表述的三元组谓语
形式上的 RDF 转录过程。具体而言,可以利用 Davis 提供 进行语义化表达,并对书目结构按照 RDF 语法进行进一
的 RDF 转录工具将 MARC 21 书目数据转录成为 RDF 三元 步规范完善。
[6]
组形式 。MARC 21 书目的初步 RDF 转录片段如下: 通过将 MARC 文件中的字段代码映射为描述资源关
@ base < http: / / example. com / a_marc_record > . 联属性的概念术语,就能够在书目记录之间创建更具互操
@ prefix marc21: < http: / / example. com / marc21# > . 作性与可理解性的通用属性词汇,从而发挥 RDF 资源描

·第 37 卷 2014 年第 8 期· — 107 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

述框架强大的数据聚合能力。具体而言,图书馆可以参考 3. 2 资源对象的 URI 命名与复用


DERI ( Digital Enterprise Research Institute) 制定的 MARC 尽管通过 MARC 书目的 RDF 格式转换,图书馆获得
[7]
本体 Marcont ,并利用国会图书馆提供的 MARC 字段代 的书目记录已基本遵循 RDF 语法并具有明确的语义内涵,
[8]
码与 RDF 属性标签映射工具 ,将 MARC 书目中的字段 然而其中各类数据对象仍然是以文本字符值形式存在,因
代码进行进一步转换,并对一些固定格式数据 ( 如头标 此并不符合关联数据的资源 URI 标识原则。更为重要的
和 008 字段) 进行深入解析,从而获得更为简单易读、富 是,关联数据化的书目数据如果缺乏标准 URI 标识,就意
含语义且遵循 RDF 格式的书目记录。MARC 21 书目记录 味着馆藏中各类概念和实体难以被其他数据发布者复用和
的深度 RDF 转换片段如下: 链接,而缺乏复用和链接的图书馆元数据在关联数据环境
@ base < http: / / example. com / a_ marc_ record > . 下仍然只是相对独立的数据孤岛。
@ prefix marc21: < http: / / example. com / marc21# > . 例如,通过将 J. K. Rowling 的两部作品 《哈利波特与
[]
阿兹班囚徒》 与 《哈利波特与密室》 的 MARC 书目记录
marc21: controlNumber
进行 RDF 转换,并以 RDF 图的形式展示出来,我们就能
“9cbbe7fc3a7346d99c281979d45b679c”;
#Following data comes from fixed positions in the Leader 够更为清晰地发现这一问题。如图 1 所示,尽管两部作品
marc21: recordStatus“New”; 在作者、类别、出版地等多个字段上均存在关联关系,但
marc21: recordType“Language material”; 由于上述字段值均以文本字符串形式存在,因此其书目中
marc21: bibliographicLevel“Monograph / item”; 能够共享的属性概念并未能通过共同的 URI 标识关联在一
marc21: encodingLevel“Full”;
起,因而也就无法在馆藏之间构建语义关联,或者在 RDF
#Following data comes from fixed positions in 008
描述中参引外部概念术语。为了解决这一问题,需要将
marc21: recordCreated“1999-08-31” ^^xsd: dateTime;
MARC 书目转换所得 RDF 文件中的字段取值字符串替换
marc21: publicationStatus“Published”;
marc21: placeOfPublication“England”; 成为标识客观实体或抽象概念的 URI 标识符。基于 URI
marc21: language“English”; 标识规范并结合 DERI 在开发 MarcOnt 书目本体时提供的
marc21: targetAudience“Juvenile”; URI 自动生成算法[9] ,能够对以字符串形式存在的资源字
marc21: festschrift“No”; 段赋予 URI 标识,并参考 FRBR 模型在 URI 命名中进一步
#Following data comes from other control fields
指定其所属 类 别,例 如 馆 藏 《哈 利 波 特 与 阿 兹 班 囚 徒》
marc21: associatedPersonalName“Rowling,J. K. ”;
可 标 识 为 “http: / / example. com / resources / works / rowl-
marc21: title“Harry Potter and the prisoner of Azkaban”;
marc21: dateOfPublication“1999” ^^xsd: dateTime;
ingjkharrypotterandthechamberofsecrets#self”,其中 “works”
marc21: publisher“Bloomsbury”; 标识片段表明该资源属于 FRBR 模型中的 “作品” 类别,
marc21: physicalExtent“317p. ”; 同时 URI 间的关联关系也可由 FRBR 模型规则推理得到。
marc21: topicalTerm [ 通过对馆藏资源属性字段的字符串取值赋以适当 URI 标
marc21: sourceOfTerm“LCSH”;
识,图书馆就能够将图 1 中两个存在客观联系却在 MARC
].

经过这一转换过程,
MARC 书 目 中 原 本 只 能
为机器读取的字段代码
均转化为人类能够阅读
理解的关联数据属性词
汇。更 为 重 要 的 是,字
段间存在语义关联的数
据已经 被 完 全 提 取,同
时之前需要借助邻近数
据才能确定的谓语也具
有了独立而明晰的属性,
原本复杂的嵌套结构也
得以进一步简化。 图1 MARC 书目 RDF 文件的可视化图例

— 108 — ·第 37 卷 2014 年第 8 期·
情报理论与实践( ITA)
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

书目中彼此孤立的资源关联在一起,如图 2 所示。 169d8ade554bfe#self > ,

除了 MARC 书目记录中的实体资源需要以 URI 标识 < http: / / example. com / resources / works /7317d9412ec8b84e0bfe998

以外,用以表示资源属性的概念术语同样需要转换为 URI 9d1521#self > .

形式。因此,图书馆可以依据关联数据基本原则,充分复 通过 RDF 格 式 转 换 与 URI 标 识 命 名 过 程, 传 统


MARC 书目记录就能够转换成
为符合关联数据要求的馆藏语
义描述文件,从而用于进一步
的语义链接构建与图书馆书目
关联数据发布过程。
3. 3 RDF 文 档 的 语 义 链 接
构建
在将 MARC 书目转换为符
合关联 数 据 要 求 的 RDF 文 件
之后,为了便于馆藏书目数据
的扩展、发现与关联,还应依
图2 MARC 书目记录中 URI 标识的可视化图例 据关联数据链接机制添加指向
用 BIB、FRBR 等已有关联数据词汇集或自行定义术语词 外部数据集的 RDF 链接。通过构建 RDF 语义链接,图书
汇 URI,将 MARC 属性词汇替换或扩充为关联数据中概念 馆书目数据能够更好地融入关联数据网络之中,从而在馆
的通用形式,如将 marc21: term 替换为 bib: writesAbout, 藏聚合过程中发现更多来自外部数据网络中的海量资源对
从而最终完成了传统 MARC 书目记录向关联数据下 RDF 象或被其他数据集发现、复用和链接。
文件的语义转换。MARC 21 书目记录的关联数据化文件 如在书目 RDF 文件中,由于采用 LCSH 主题词表中的
片段如下: 词汇作 为 主 题 词 URI 标 识 片 段,因 此 就 可 以 构 建 其 与
@ base < http: / / example. com / potter. rdf > . LCSH 数据集间的 RDF 链接。具体可以利用 SPARQL 语句
@ prefix rdf: < http: / / www. w3. org /1999 /02 /22-rdf-syntax-ns# > . 在 LCSH 数据集中查询相关主题词 “wizards”,从而得到
@ prefix bib: < http: / / example. com / schema / bib# > . LCSH 中该主题词的 URI 标识 “http: / / lcsubjects. org / sub-
@ prefix frbr: < http: / / purl. org / vocab / frbr / core# > . jects / sh8508 7526JHJconcept”。进一步地,就 可 以 在 馆 藏
文献主题属性 URI 与 LCSH 词汇集中主题词 URI 之间构建
< http: / / example. com / resources / people / rowlingjk#self >
RDF 链 接: < http: / / example. com / subject / wizardsJHJself
bib: writesAbout < http: / / example. com / resources / genres / childrenss-
> skos: closeMatch < http: / / lcsubjects. org / subjects /
tories#self > ,
sh85087526JHJconcept > 。
< http: / / example. com / resources / topics / wizards#self > ,
此外,MARC 书目数据经 RDF 转换后还能与关联数
< http: / / example. com / resources / topics / potterharryfictitiouscharacter #
据集中的客观实体建立关联关系。例如 DBPedia 作为维基
self > ;
百科的关联数据版本包含了大量人物、地名等实体信息,
bib: publisher
因而能够与馆藏书目中文献作者等实体对象进行语义链
< http: / / example. com / resources / organizations / bloomsbury#self > ;
frbr: creatorOf < http: / / example. com / resources / manifestations /988e
接。如可利用下面的 SPARQL 语句获得 DBPedia 数据集中

45a216923b3d24e4a4a711a664 # self > , < http: / / example. com / re- 关于 J. K. Rowling 的 URI 信息,进而与其作品 RDF 书目文

sources / expressions /7a67d02fe5b1f4fccc78eb91135a7d0#self > , < ht- 件中的作者 URI 构建语义链接:


tp: / / example. com / resources / works / < http: / / example. com / author / rowlingjkJHJself owl: sameas
d415d3e7bb88725134eb21d11718bdaa#self > ; < http: / / dbpedia. org / resource / Rowling-JK >
bib: seenAs " Rowling,J. K. " ; select distinct ? uri where{
a bib: author ; ? uri a < http: / / dbpedia. org / ontology / Writer > ;
frbr: creatorOf < http: / / example. com / resources / manifestations /62c54 < http: / / xmlns. com / foaf /0. 1 / name >“J. K Roling”.
4b579c57dd1c1e4092d0d02a1#self > , ? uri < http: / / dbpedia. org / property / dateOfBirth > ? date.
< http: / / example. com / resources / expressions /7df5817e8c75b34766 FILTER( xsd: dateTime ( ? date ) > = xsd: dateTime( “1965-01-

·第 37 卷 2014 年第 8 期· — 109 —
实践研究
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟

01T00: 00: 00”) ) . 为符合 关 联 数 据 规 范 的 URI 标 识,就 能 够 实 现 图 书 馆


FILTER ( xsd: dateTime ( ? date ) < xsd: dateTime( “1966-01- MARC 书目的关联数据转换,进而构建指向外部数据源的
01T01: 00: 00”) ) . 语义链接并发布为书目关联数据,最终利用关联数据强大

的语义聚合功能实现馆藏资源内部与外部的深度聚合。
3. 4 书目数据的开放发布 不可否认,上述以馆藏聚合为目标的 MARC 书目关
在将 MARC 书目转换为 RDF 文件并实现资源的 URI 联数据应用目前还停留在人工或半自动化阶段,一方面其
标识与 RDF 链接之后,图书馆要实现更大范围的馆藏聚 数据发布过程需要全程人工干预; 另一方面原有书目信息
合还需要将书目文件作为关联数据发布到网络之中,并提 在转换后的语义丢失现象也较为普遍,因此需要针对发布
供面向多种客户端应用程序的数据访问与语义查询。 方法工具进行后续研究改进。然而,在当前图书馆关联数
关联数据发布内容通常包括 HTTP 内容协商机制及 据技术方案尚不成熟且应用经验相对匮乏的大背景下,针
303 重定向和 hash URIs 两种基本实现策略,这也是图书 对 MARC 书目的关联数据 实 践 探 索 是 必 要 和 有 价 值 的,
馆在书目关联数据发布中依据的基本技术机制。简单来 同时瑞典国家图书馆在开展 LIBRIS 书目关联数据实践中
讲,内容协商机制是由 HTTP 客户端代理向服务器发送带 也强调 “数 据 优 先” 策 略
[10]
,即 把 提 高 图 书 馆 数 据 在
有 HTTP 头信息的 “参引” 请求来表明其适合何种类型文 Web 及语义网环境下的可获取性作为首要目标,而将馆藏
档,而服务器则能够对头信息进行甄别并选择合适的内容 元数据的完备性置于次要地位,并据此开展实验性关联数
予以响应。如果头信息表明客户端适合 HTML 格式,那么 据发布研究,从而逐步总结经验并最终形成完善的关联数
服务器将发送 HTML 文档予以响应,而如果客户端适合 据应用策略。而从 LIBRIS 的发展来看,开展面向馆藏聚
RDF 格式 则 发 送 RDF 文 档。通 过 内 容 协 商 机 制,包 括 合的书目关联数据应用无疑是图书馆在语义网时代适应馆
Web 浏览器与关联数据浏览器乃至 SPARQL 客户端等在内 藏开放性与共享性需要的明智之举。□
的各类应用程序均能够实现面向图书馆关联数据的浏览 参考文献
查询。 [1] Wikipedia. Linked data concept terms [EB / OL]. [2012-04-
例如,如果图书馆书目关联数据服务器检测到客户端 13]. http: / / en. wikipedia. org / wiki / Linked_Data

发送的资源获取请求中包含以下所示的 HTTP 头信息: [2] MACANUS R. Linked data is blooming: why you should care
[EB / OL]. [2013-04-22]. http: / / www. readwriteweb. com /
GET / resource / works /7317d9412ec8b84e0bfe9989d1521JHJself
archives / linked_data_is_blooming_why_you_should_care. php.
Host: examples. com
[3] TENNANT R. MARC exit strategies [J]. Library Journal,
Accept: application / marcxml + xml
2002,19 ( 19) : 27-28.
- - - - - - - - - - - -
[4] Library of Congress. Functional analysis of the MARC 21 biblio-
HTTP /1. 1 303 See Other
Location: http: / / example. com / resources / works /7317d9412ec8- graphic and holding formats [EB / OL]. [2013-07-21]. ht-
b84e0bfe9989d1521. rdf tp: / / www. loc. gov / marc / marc-functional-analysis / functional-
analysis. html.
则依据内容协商机制中的 303 重定向策略向客户端应
[5] Library of Congress. MARC 21 format for bibliographic data
用程序返回以所示的重定向信息,从而帮助其获取所需原 [EB / OL]. [2013-07-21]. http: / / www. loc. gov / marc / bib-
始 HTML 格式书目数据。 liographic / ecbdhome. html.

GET / resource / works /7317d9412ec8b84e0bfe9989d1521#self [6] DAVIS I. MARC transliteration [EB / OL]. [2012-07-21].

Host: example. com http: / / iandavis. com / blog /2005 /12 / marc- transliteration.
Accept: text / html [7] SYNAK M,KRUK S. MarcOnt initiative-the ontology for the
- - - - - - - - - - - - librarian world [EB / OL]. [2013-07-21]. http: / / www.
HTTP /1. 1 303 See Other marcont. org / marcont / pdf / ms_eswc2005marcont. pdf.
Location: http: / / example. com / resources / works /7317d9412ec8b [8] 国会图书馆 . MARC 转换工具 [EB / OL]. [2013-08-11].
84e0bfe9989d1521. html http: / / www. loc. gov / standard / mods / mods-userguide. html.
[9] SYNAK M,KRUK S. MarcOnt initiative-the ontology [EB /
4 结束语 OL]. [2013-07-21]. http: / / www. marcont. org / pdf.
[10] 瑞典国家图书馆 . LIBRIS 书目系统 [EB / OL]. [2013-08-
综上可见,基于 MARC 书目的关联数据发布能够为 11]. http: / / libris. kb. se.
馆藏资源聚合提供重要实现途径。通过将 MARC 书目格 作者简介: 游毅,男,1984 年 生,博 士,馆 员。研 究 方
式在形式和内容上转换成为符合关联数据原则的 RDF 数 向: 数字信息资源管理。
据文件,并将表征概念属性或客观实体的文本字符串替换 收稿日期: 2014 - 02 - 19

— 110 — ·第 37 卷 2014 年第 8 期·

You might also like