发布网友 发布时间:2022-04-23 09:52
共1个回答
热心网友 时间:2023-10-10 05:58
吴小平
(全国地质资料馆)
摘 要 本文结合地质资料数据的特点,在国内外相关元数据标准研究的基础上,研究定义一个对地质资料数据资源最通用属性描述的核心元素集合,实现对地质资料数据资源信息基本情况的描述;以加强对地质资料数据的有效描述、组织、揭示、表达、管理,促进地质资料数据资源的利用、共享、交换和整合,提高地质资料数据管理现代化水平和地质资料数据公共服务能力。
关键词 地质资料 核心元数据 标准研究
1 引言
1.1 背景
随着经济社会的发展,地质工作在长期的实践发展中,积累了大量的地质资料数据,形成了大量不同资源类型、遍及地质各个学科的专业数据集,涉及区域地质、矿产地质、水文—工程—环境地质、农业地质、海洋地质、基础地质、地球化学、地球物理、遥感、地学科研等领域。数据量大,数据类型丰富,系统异构,数据格式多样化,是当前地质资料数据的重要特征。
应用的不断深入,社会需求不断增加,越来越多的研究需要基础数据支撑。地质资料数据的多学科、多标准、多类型、多尺度、海量性等特点,在一定程度上阻碍了其深入利用与共享。如何有效地描述、组织、揭示、表达、管理这些数据,以促进地质资料数据资源的利用、共享、交换和整合,提高数据共享水平,是提高地质资料数据管理现代化水平和提升地质资料数据社会化服务能力的基础。
为解决这个问题,前人开展了卓有成效的研究工作,提出利用元数据的标准化来统一管理分散的数据资源,并通过 Web 实现数据共享与服务[1-9]。元数据具有描述、揭示、组织、管理、控制、保存、互操作等功能[9-11]。元数据标准和技术是实现数据标准化、数据共享、数据交换和互操作等的重要手段。利用元数据标准提高对数据的描述与表达深度,实现对数据资源内涵的描述、发现、处理、评价,提高数据管理效率和用户检索数据的查询效率;通过元数据标准化来逐步解决数据资源间的语义独立和异构问题,最大程度地实现数据互操作,为实现数据资源的整合与交换奠定基础;通过建立相关的元数据记录,建立与数据资源管理相关的维护、保存等信息,加强对数据管理过程的控制,对进一步管好用好地质资料数据具有重要作用。
1.2 现状
目前,在地质资料管理与服务工作中,已形成《地质资料档案著录细则》、《成果地质资料管理技术要求》、《成果地质资料目录数据库著录表和著录要求》,以及相应的软件系统等一套地质资料目录标准规范,用以规范地质资料数据成果的建设、管理和服务。目前,各级地质资料馆藏机构均已建成地质资料目录数据库,并初步实现馆际目录间基本数据信息的交换,在地质资料数据的管理、共享、服务中发挥了重要作用。
地质资料目录数据库是对地质资料档案基本信息的描述与组织,是地质资料元数据体系中重要的组成部分,为地质资料数据的持续发展和进一步构建地质资料数据的丰富应用奠定了坚实的基础。
2 相关元数据标准基本情况
2.1 DC(DUBLIN CORE)都柏林核心元素集
DUBLIN CORE 元数据格式由美国 OCLC 公司发起,国际性合作项目 Dublin Core Metadata Initiative设计,由参与合作项目的机构共同维护修改,适用于网络资源描述,目前最新版本为 version 1.1,1999 年7 月 2 日发布执行。
DC 元数据作为网络时代一种新型的信息资源通用描述工具,正在为越来越多不同专业领域以及不同语种、不同文化背景的国家和地区所接受。DC 元数据标准,主要是指 DC 元数据元素、元素定义和注释等内容及由这些内容构成的规范化或标准化文本。
DC 最初应用目的是为了网络资源的著录与挖掘,由于 DC 元素简单易用,加之 OCLC 的大力推广和网络资源著录的巨大需求,DC 很快适用于任何媒体。简单的元素定义和设置可以很方便地著录,是 DC获得广泛应用的重要原因;然而它也带来另外一个问题,对著录对象的描述深度不够,不能进行专指度较高的检索[12]。2010 年,DC 元数据的中文版正式发布,《信息与文献 都柏林核心元数据元素集》(GB/T 25100-2010)进一步规范了 DC 中文化的进程[13],语义描述、元素名称等得到了统一与规范。根据《都柏林核心元数据元素集》(V1.1 版),DC 由 15 个元素组成,每个元素都根据 ISO/IEC 11179 定义 10 个属性,即:
名称(Name):元素名称;
标识(Identifier):元素唯一标识;
版本(Version):产生该元素的元数据版本;
注册机构(RegistrationAuthority):注册元素的授权机构;
语言(Language):元素说明语言;
定义(Definition):对元素概念与内涵的说明;
选项(Obligation):说明元素是限定必须使用的还是可选择的;
数据类型(Datatype):元素值中所表现的数据类型;
最大使用频率(Maximum Occurrence):元素的最大使用频次,即是否可重复使用;
注释(Comment):元素应用注释。
DC 元素依据其所描述内容的类别和范围可分为三组(表 1):①对资源内容的描述;②对知识产权的描述;③对外部属性的描述(instantiation)。
表 1 DC 元数据元素列表
2.2 数字地理空间元数据内容标准
数字地理空间元数据内容标准(Content Standard for Digital Geospatial Metadata)由美国联邦地球空间数据委员会组织编写并发布[4,9,11,14]。该标准 1992 年 7 月开始起草,几经修改,1994 年 7 月 8 日,FGDC 正式确认该标准为美国国家地球空间数据元数据标准,并于 1997 年 4 月发布其修订版(FGDC1994,FGDC 1997)。
FGDC 数字地理元数据内容标准的目的,是确定一个描述数字地理空间数据的术语及其定义集合,包括满足这些目的的数据元素、复合元素(一组数据元素)以及它们的定义和域值,描述数字地理空间数据集的元数据信息内容。
FGDC 是按照段(section)、复合元素(compound element)、数据元素(data element)来组织的,包括 7 个主要子集和 3 个辅助子集(见表 2),共有 460 个元数据实体(含复合元素)和元素。FGDC 规定了三种性质的子集、复合元素和元素。这三种性质是:必需的,即必须提供的信息;一定条件下必需的,即如果正在建立的元数据包含某子集、某个实体,或某个元素说明的特征,则必需提供的信息;可选的,即该信息是可选的,由用户决定是否将其包含在元数据文件中。FGDC 元数据标准没有规定语法格式或编码规则,因此同 DC 一样,只是一个内容标准。
表 2 FGDC 元素列表
2.3 ISO TC211 元数据标准
ISO TC211 元数据标准由国际标准化组织(The International Organization for Standardization)第三工作组组织研究,项目编号为 15046-15。1996 年 2 月 9 日通过 1.0 版草案,后几经修改,于 1997 年 1 月20 日发布 210 版标准(ISO TC211,1997)[4]。TC211 元数据内容项分为三种类型:必须型(M),指必须给出的内容(M 是 Mandatory 的缩写);条件型(C),指在一定条件下需要给出的内容(C 表示 Conditional);可选型(O),指可有可无的内容(O 表示 Optional)。元数据内容采用逐项逐行方式表达;标准中给出了元数据制作、管理等规范。
TC211 元数据标准中把元数据的内容分为 7 类,每一类中又包括若干子类或具体元数据项,主要包括元数据内容、标识信息内容、数据质量信息内容、空间数据表达信息内容、空间参考信息内容、特征与属性信息内容、数据传播信息内容、数据参考信息内容等方面。
3 地质资料核心元数据
3.1 概念
“核心元数据规范”拟定义一个对地质资料数据资源最通用属性描述的数据元素集合,实现对数据信息基本情况的描述。
3.2 目的
地质资料核心元数据标准(Geology Data Core Metadata,GDCM)拟通过建立一套用以描述各种地质资料数据集的元素集合,为地质资料数据资源提供一套通用的描述元素及规范,供管理者和用户在通用领域应用中描述具有相同特征或属性的数据集,为地质资料数据资源的检索、整合、交换、服务和共享提供支持。
3.3 范围
地质资料数据核心元数据是关于地质资料数据资源的基本描述信息,是由数据资源的共同特点确定的元数据集合。
3.4 原则
3.4.1 用户需求原则
核心元数据作为地质资料数据的一组基础性、通用性描述数据,在设计与选择核心元素时必须充分考虑用户的需求,以深入地揭示信息资源的内涵。在结构与格式的设计、元素的增加与取舍、语义规则的制定等方面,要尽可能地从用户的角度出发,增加系统与用户间的交互渠道(如开放式的词表系统的使用、增加提供用户反馈的元素等),为用户提供多层次的检索体系[9]。
3.4.2 简单性与适用性原则
简单性与适用性原则要求元数据方案在应用时简单易于理解,便于计算机著录,有利于实现互操作;同时需兼顾适用性,选取最能表达需求的元数据集合,以解决元素过少产生的不准确性,提高检索的精度,做到繁简适当。
3.4.3 互操作与易转换性原则
互操作性是不同数据格式以及异构系统间实现数据交换的重要原则。元数据方案的设计,要充分考虑数据间的互操作性,通过建立映射、数据交换机制、语义共享等实现互操作性,实现不同系统间、不同数据格式间的数据交换。
3.4.4 专指性与通用性原则
专指性与通用性原则要求元数据方案的设计应统筹考虑各类资源的应用特性,协调好资源应用深度与应用广度。
3.4.5 可扩展性与可持续性原则
可扩展性是指数据方案的生命。随着数字资源内容不断丰富、应用不断深入、需求不断增加,元数据方案必须能够适应资源应用、需求的变化,将一些特殊的应用加入,以适应不断变化的需求。一些具体应用可能会要求更为细致精确的描述,应允许使用者在不破坏已规定的标准内容(如元素的语义定义)的条件下,扩充一些元素、子元素或属性值[9]。可持续性原则是指要充分考虑与现有标准规范的衔接,充分利用现有标准的成果,保证元数据方案的可持续发展。
4 地质资料数据核心元数据元素定义
4.1 基本定义
定义元数据(Metadata)、核心元数据(Core Metadata)和数据集(Dataset)三个基本术语。元数据是关于数据的数据;核心元数据是指能够描述地质资料数据的一组通用的描述元素及相应的规范;数据集是由相关数据对象组成的一个可标识的数据集合体。将被描述的地质资料数据作为一个群组,一个群组可以看做一个数据集。一个数据集可能是一个较小的数据集合,在物理上或逻辑上位于一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。如根据地质资料数据文件的组织方式,一个数据集可以是正文、附件、附图、附表、附件、其他类等的集合。在本研究中,数据集是元数据的描述对象,以成果地质资料电子文件的分类组织数据集。
借鉴 ISO/IEC 11179-3 标准,本研究定义元素的属性基本上采用与 Dublin Core 一致的方法,按以下九个方面对元素进行定义:
1)中文名称(Chinese Name):元素中文名称;
2)英文名称(English Name):元素英文名称;
3)标识(Identifier):元素唯一标识;
4)定义(Definition):对元素概念与内涵的说明;
5)类型(Data Type):元素值中的数据类型;
6)约束(Constraint)指明元素是否是限定必须使用还是可选择的(必备性);
7)出现次数(Maximum Occurrence)元素是否可重复以及可重复的次数;
8)值域(Value Domain):元数据元素的取值范围;
9)注释(Comment):对元素的补充说明、著录格式的建议及其它。
4.2 核心元素内容
本研究参考都柏林核心元数据计划(The Dublin Core Metadata Initiative,DCMI)发布的《都柏林核心元数据元素集》(V1.1 版)和《信息与文献都柏林核心元数据元素集》(GB/T 25100-2010[13],元素的名称、定义、注释、约束、类型的中文翻译参考了上海图书馆的《都柏林核心修饰词》[17],《DCMI 元数据术语》[16],《都柏林核心资源集合描述应用纲要》[18],《都柏林核心图书馆应用纲要》[19],《地质资料档案著录细则》(DA/T 23—2000)[21],《成果地质调查资料著录表及著录要求》[22],国家图书馆《中文元数据方案》[15],《中国科学院科学数据库核心元数据标准》[20]。地质资料数据核心元数据(GDCM)标准核心元素及定义见表 3。
表 3 地质资料数据核心元数据(GDCM)标准核心元素(拟)
5 结论及思考
核心元数据作为描述地质资料数据的一部分,需进一步加强研究,逐步规范完善。由于地质资料数据涉及范围广,格式、类型多样,需要制定系列元数据标准来系统描述数据资源,并建立多个不同元数据标准间的语义共享与映射,提高对数据的描述深度与层级,优化数据组织方式与结构,不断提高地质资料数据管理、服务与共享水平。
参 考 文 献
[1] 国家地理空间信息协调委员会办公室 . 自然资源和地理空间信息整合与共享研究 [M]. 北京:科学出版社,2007.
[2] 徐冠华 . 实施科学数据共享,增强科技竞争力 [J]. 中国基础科学,2003(1):5 ~ 9.
[3] 孙枢 . 地球数据是地球科学创新的重要源泉—从地球科学谈科学数据共享 [J]. 中国基础科学,2003(1):19 ~ 23.
[4] 李军,周成虎 . 地球空间数据元数据标准初探 [J]. 地理科学进展,1998,17(4):55 ~ 63.
[5] 张立,龚健雅 . 地理空间元数据管理的研究与实现 [J]. 武汉测绘科技大学学报,2000,25(5):127 ~ 131.
[6] 沈体雁,程承旗 . 地理元数据技术系统的设计与实现 [J]. 武汉测绘科技大学学报,1999,24(4):34 ~ 37.
[7] 王卷乐,游松财,谢传节 . 地学数据共享中的元数据标准结构分析与设计 [J]. 地理与地理信息科学,2005,21(1):16 ~ 18.
[8] 刘纬等 .2010. 数字图书馆的语义描述与服务升级 [M]. 北京:国家图书馆出版社 .
[9] 肖珑等,中文元数据标准框架及其应用 [J] 数字图书馆论坛,2011,5:29 ~ 35.
[10]http://cdls.nstl.gov.cn/,数字图书馆标准与规范建设—基本元数据标准规范,2005—12.
[11] 冯项云,肖珑,廖三三等 . 国外常用元数据标准比较研究 [J]. 数字图书馆论坛,2011,4:15 ~ 21.
[12] 中文文献元数据标准研究项目组系列报告之一 国外元数据标准比较研究报告,北京大学图书馆中文元数据标准研究项目组(2000 年12 月).
[13] 信息与文献 都柏林核心元数据元素集,GB/T 25100-2010(ISO 15836:2009,MOD),2010-09-02.
[14] 薛明 . 美国联邦地理数据委员会的标准参考模型 [J]. 测绘标准化,总第 62 期第 20 卷 .
[15]http://www.cdi.cn/CMS/searcher/. 中文元数据方案 . 国家图书馆,2002.03.
[16]http://blincore.org/documents/2006/12/18/dcmi-terms/,DCMI 元数据术语,2006-12-18.
[17]http://blincore.org/documents/2000/07/11/dcmes-qualifiers/ 都柏林核心修饰词,2000-07-11.
[18]http://blincore.org/groups/collections/collection-application-profile/,都柏林核心资源集合描述应用纲要,2006-08-24.
[19]http://blincore.org/documents/2004/09/10/library-application-profile/,都柏林核心图书馆应用纲要,2004-09-10.
[20]http://www.sdb.ac.cn,中国科学院科学数据库核心元数据标准(1.1),2003-08.
[21] 地质资料档案著录细则 . 中华人民共和国档案行业标准:DA/T 23—2000.
[22] 成果地质调查资料著录表及著录要求 . 中国地质调查局发展研究中心,2004-11-11.