发布网友 发布时间:2022-04-23 09:52
共1个回答
热心网友 时间:2022-04-13 14:45
根据国内外众位学者们对元数据的分析和描述,我们可以发现元数据具有以下特点。首先,它具有动态性。因为元数据是对文件的产生、保管、利用、销毁等整个过程的真实性记录,它随着文件的产生而产生,伴随人们对文件进行的各种管理活动而不断地增加。其次,它具有多元性。本来在信息环境下针对不同的资源类型就已经存在了多种元数据格式,人们往往为了不同层次或角度的应用,又会产生各种各样的元数据格式,从而积累下大量的、格式多样的元数据。再次,它具有数量庞大性。一方面,为了全面真实地反映各种业务活动和个人活动,我们要从多个角度和层次来进行记录;另一方面,为了完整地记录文件管理的整个过程,我们需要记录下各种操作活动,必然会产生大量的元数据信息。明确了元数据的特点,我们就可以有针对性的采取一些方法和措施来进行捕获。 在电子文件管理系统中,元数据一般是通过系统自动记录与手工记录相结合的方式获得的。对于有些元数据,我们可以预先设计好其所对应的标记,将它们标志在所描述的对象上,如对于收文和发文可做不同的标记,文件是否归档、对象是否是文件或是文件的一个组成部分、文件的密级、保管期限等。对于本单位系统发文,系统会自动弹出元数据项目供文件形成者填写,像文件的题名、形成日期、起草人、形成部门、内容提要等;对于外单位系统来文,系统会自动抽取所需的上述相关信息。而文件的另一部分元数据项目则由系统自动生成,如所用的字体、版面格式、逻辑格式与系统的软硬件说明等,而对于在电子文件利用过程中的利用信息也由系统自动记录并作为元数据保存。为保证较高的准确性,元数据须保持紧跟现状的变化。确保元数据准确并维护良好的唯一方法就是尽可能使维护过程自动化。我们不必了解应用程序系统编写的情况,就能看到只依赖过程来维护元数据的结果。一般元数据量通常都很大,最实用的方法是只收集变化,而不是定期刷新整个元数据集,特别是动态性很强的使用信息,应定期追加而不是改变现有的信息。 解素芳 元数据,从定义上讲,是关于数据的数据,或者说是关于数据的结构化数据。元数据作为一个概念提出的时间并不长,但是元数据本身并不是一个新事物。自从有对人类所产生的信息与知识进行分析、分类与管理之日起,元数据就扮演了一个重要的角色。传统的检索工:具,像目录卡片、案卷目录、案卷封面、分类表等都属于元数据的范畴,图书的版权说明、磁盘的标签等也都是元数据。元数据这一概念起源于计算机科学,由Myers在1960年提出,当时是指能够有效描述资料的方式,后来面对电子信息所特有的分散式、变动性与多元性,元数据再度引起更广泛的关注,现在元数据研究的重点主要还是网络环境下数据的描述与数据管理问题。 元数据可以处理各种形式的信息,包括还未电子化和电子化信息,特别是能较好地解决网络环境—下信息的发现、控制和管理问题,因此目前已广泛应用于图书馆、档案馆、电子政务等领域。下面我主要谈谈电子政务系统中元数据的应用。 当前我国正在加紧实施电子政务建设,面对大量而分散的*信息资源,从*机关的角度而言,如何组织、控制、管理网络环境下的信息资源,并提供高效优质的信息服务是其努力的目标;对广大用户而言,如何利用网络跨越*机关多层组织的障碍,搜寻、判断、获取有价值的*信息则是其关注的焦点。因此利用元数据对*信息做更深一步的描述和管理,发展新一代获取*信息的检索机制,显得尤其重要。 目前*信息的元数据格式主要有两种:GILS (Government lnformation Locater Service,*信息指引服务)和DC(Dublin Core,都柏林核心元数据集)。其中依照GILS发展信息指引服务的国家有美国、加拿大、日本等;而英国、澳大利亚、新西兰等国在电子政务建设中,则是以DC为基础制定了用于电子政务系统的元数据集。 李新利 目前,在档案界关于元数据的解释有很多种:国际档案理事会《电子文件管理指南 (1997)》中指出:“元数据是关于文件的背景信息和结构的数据。”澳大利亚《联邦机构电子文件管理元数据标准(1999)》对元数据的定义如下:“元数据是关于电子文件背景信息的著录信息”。英国国家档案馆(电子文件管理指南(1999))中所提出的定义:“元数据是单份电子文件和文件组合的背景及其相互关系的结构化著录数据”。 从上面列举的定义可以看出,元数据与著录信息或著录数据之间有着密切的关系,但是,二者所描述的范围是否完全等同呢?事实上,二者所描述的内容范围并不完全一致,而是相互交叉的:系统自动著录的元数据中有些可以直接作为著录信息,而有些著录信息也是元数据未加描述的,如对文件内容特征的概括说明等,而且,元数据的描述范围要比电子文件的著录范围宽泛的多。国际社会就此还开展了一些电子文件元数据研究项目,形成了不同类型的元数据结构体系(有的称为“元数据模板”),如美国《匹兹堡大学元数据研究项目》;澳大利亚莫纳西大学的苏·麦克凯米什负责开展的《网络化环境中为发挥信息资源的行政、社会和文化作用,建立文件保管无数据标准》;加拿大哥伦比亚大学的露西亚娜·杜兰蒂主持的InterPARES项目(《电子系统中文件冀实性的永久保障国际研究项目》)等等。它们的划分标准各不相同,由此产生了不同的元数据模板。但无论其如何划分,都是尽可能地包括所有描述文件、文件集合、机构、系统以及与之相关的各种信息。 元数据的应用不仅减少了大量手工著录的工作量,而且对于保证电子文件的真实可靠也有着独特的优势。建立电子文件管理系统,对电子文件的形成、传递、保管、利用等各个环节的运行情况进行全程跟踪记录,随时将关于文件形成时间、地点、人员、活动、系统、结构和内容等方面的有关信息记录下来,而且,元数据一经形成就被封装起来,使其只能被写入和读取,不能被改动和删除,形成的元数据与文件一并保存,可以作为检验电子文件真实性与可靠性的依据和凭证。 卢晓慧 元数据一词是随着Internet的发展而产生的。Internet的快速发展,使网上大量的信息需要有效地组织,以便更好的被检索和使用。虽然有关的网络查询工具(如搜索引擎)能自动从网络资源中提取信息并编制索引供检索,但我们常常发现其查准率和查全率较低,查找到的实际相关有用信息并不多。而传统的信息组织方法非专业人员难以完全掌握,而对专业人员来说,要完成数量巨大的网络资源的组织与整理而所需的人力和成本又太大。我们需要更有效、更简便、更准确的组织方式来描述整理网上资源,元数据结构就是在这样的情况下被提出来的。 随着信息网络的迅速发展,信息的主要形式正逐步从传统的印刷型资料过渡到网络化、多媒体化和分布式的数字化信息资源,因此其描述与发现机制也随之发生着深刻的变化。因此,网络信息的描述与发现也就成为了受人关注和需努力解决的问题。而元数据正是被用来描述Internet上的数据和资源的属性的。通过元数据,能促进Internet上的信息的组织和发现,进行信息的识别、定位、发现、描述和选择等。同时也能够了解某个Internet信息站点的资源类型,某个政务信息Web页的标题、作者、主题、关键词及内容摘要等。分布在全球Inter- net上的Web像是一个庞大的有许许多多电子文献的图书馆,它的信息资源需要有序的、按一定标准组织起来,用如像图书馆的目录去组织和查找。而元数据在本质上具有电子目录的功能,它可以揭示各类型电子信息的内容和其他特征,进而达到网络信息的组织、分类、索引等目的。 任凤仙 近几年来,互联网的发展异常迅速,网络中的信息资源也在爆炸性地增加,在这种情况下,信息匮乏的问题可以说是已经解决了,但是网上的信息种类繁多,浩如烟海,不可避免的带来了一个亟需解决的新问题,即如何从中找到自己所需的信息。其实这并不是一个全新的问题。可以回想一下在图书馆查资料的情形。我们想要查找的资料可能是一篇特定的著作、期刊中一篇特定的论文,某作者的论著,或某出版社出版的书刊,也可能我们没有具体的信息,只是希望找到与某一主题相关的内容。图书馆里收藏着众多藏书,要从中找到自己所需的资料,就要求图书馆中的藏书必须满足一些条件,首先,图书馆中的藏书必须是按照一定的分类标准进行分类,并且按照一定的顺序排架的,其次,很多时候我们还需要有目录、索引等工具的辅助。在网络上查找资料的情况与图书馆类似,我们不能采用大海捞针的方法一个个网页看过来,可行的方法是借鉴人们处理图书馆藏书的原理来解决这个问题,其中的关键就是元数据的使用。 国家图书馆的多数据库检索中的多字段检索的元数据项主要有主题、责任者、题名、出版者、语言、年代、资料类型和定位等项;而英国国家图书馆书目的元数据元素包括search text、search type, search type包括title、author(creator browse)、 subject browse、call number browse、lccn—is— bn—issn、keyword、command keyword等。 于慧敏 首先要明确元数据是抽象概念。目前关于元数据的定义很多,比较常规的是:元数据是关于数据的数据(data about data),这个定义过于简洁和宽泛。元数据是描述某种类型资源(或对象,obiect)的属性,并对这种资源进行定位和管理、同时有助于数据检索的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据。在数据设计过程中,也使用抽象术语描述现实世界的各种现象。比如人们把人物、地点、事物和数字组织或指定为职员、顾客或产品数据。在软件设计过程中,数据库结构可以概括为开发和设计人员能够理解的元数据分类方案。表或表单由对象派生出来,而对象又由类派生。在元数据中有多个抽象概念级别。可以描述一个数据实例,然后对该描述本身进行描述,接着再对后一个描述进行描述,这样不断重复,直到达到某个实际限度而无法继续描述为止。通常情况下,软件开发中使用的元数据描述可扩展为二至*的抽象概念,就像集合中一层一层的真子集,我们可以这样理解,元数据是不可再分的数据,是最小的数据单元。 相对于元数据的概念,其用途就比较易理解,可以像使用任何类型的应用程序或数据设计元素一样使用元数据类型和实例信息。将设计信息表达为元数据,特别是标准元数据,可以为再次使用、数据检索、共享和多工具支持提供更多的可能性。就海量信息利用而言,对数据检索有很高的要求,理论上说元数据是不可再拆分的数据,所以提高了检索的准确性。这里还要特别指出一点,共享元数据是未来的大趋势,共享元数据是跨异类平台和开发环境部署数据和应用程序结构的一种方法。它能提供公用定义,使得工具和应用程序可以解释相同的元数据定义,并将它转化为应用程序特定的结构。元数据是一个集成点,因为它是抽象概念,包含一些基本的详细信息,不管实现策略是否改变,这些信息都保持不变。这种灵活性使元数据非常适用于设计工作,因为它可以将设计与实现分离开来。当使用预定义的元数据时,可以用最适合需要的开发工具实现具体的设计。共享元数据对档案信息的管理利用应该具有很大的意义,依托于互联网的数字档案馆建设需要共享元数据,避免重复信息,真正地做成大型数据库,便于社会使用。 其实对元数据管理与共享利用的过程就是标准化的过程,就档案界来说,必须在彼此认同的标准指导下才能实现数字档案馆计划。伴随着档案界研究与利用元数据,相信未来的档案信息世界会更精彩。 刘彩霞 元数据(Metadata)是为了有效地解决网络资源检索所存在的问题而产生的。其本质含义是关于数据的数据,它用来描述原始数据的特征和属性,例如对文献信息资源而言,元数据可以是目录、索引、摘要及主题等文献特征和属性。元数据所包含的数据元素集可以用来描述信息对象的内容和位置,使因特网上的Web页面更像一个图书馆内整齐摆放的文献,而不是—堆满地乱扔的书籍,以便能在网络中方便地查找和检索。 由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不同,因此,目前有多种描述网络数字资源的元数据标准。国外已经产生并得到实际应用或试验的元数据标准就有二十余种。 我国在中文元数据建设方面不同单位之间还未达成共识,没有采取联合、协作、共享的策略。例如,中文元数据方案中相关数据项的数量相差较大,国家图书馆联合其他单位建立的“中文核心元数据规范”使用了近80个数据项,清华大学使用的元数据项则只有16个,且主要以DC元数据集为主要依据。因此中文元数据标准化和规范化目前还难以实现。 就今后我国元数据的建设而言,应加强中文元数据标准化的研究,学习和借鉴国际上先进、通用的元数据标准或应用方案,在充分考虑中文资源应用特点的前提下,制定出符合中文资源应用需求的、单位之间、社会各界共享信息所需要的、大众化的元数据标准。 陈晓 元数据,存在于各个领域。其定义随着不同领域的理解不同而不同。这里,笔者参考匹兹堡项目研究成果,从档案学的角度透视比特时代的“元数据”。 元数据,用来描述一份文件的电子信息,是数据的数据,是信息的信息。匹兹堡项目运用元数据来保证电子文件的证据功能,将其聚合在几个同中心的元数据层中。这些元数据,系统能自动捕获一部分,而其余的则靠人工输入。元数据的构成元素,分为处理层(handle)、术语和条件层(terms and conditions)、 结构层 (structure)、 背景层(context)、内容层(content)和使用历史层(history of use)。电子文件的检索通常是以文件为单位的,因此,为了对文件进行定位和检索,元数据是必需的。虽然元数据的各层必须出现在系统中,但不是每层所有的元素都是必要的。为了检索文件,组织需要确定元数据的数量和种类,确保文件受到保护,不会被随意更改和删除。对于纸质文件的检索,一般是先确定可能装有所需文件的相关卷宗,再彻底一份份检查这些相关的卷宗。在20世纪早期,登记室工作制度为纸质文件记录了大量的元数据。笔者联想到我国的“全宗卷”。《档案管理学》注:全宗卷是“由在全宗管理活动过程中所形成的管理记录性材料构成的一个案卷”,它实质上“是全宗管理过程活动中所形成的‘档案’,是档案管理活动的原始记录”,是档案的档案。它单独另行存入并实施统一管理,不能与全宗混在一起,更不能将其作为全宗内的一个案卷对待。与之相比,二者具有相似的特点: 1.二者都是档案或文件的管理与检索工具。全宗卷是适应纸质环境中的档案管理而产生的,元数据是适应比特时代的电子文件管理而形成的。通过它们,可以对档案或文件进行合理的管理,起到著录说明、查找利用、节约人力物力、方便工作的开展。 2.二者都是被单独管理的。全宗卷要求要单独存放,不能作为原全宗的一个案卷。元数据与文件虽然封装在一个实体内,逻辑上作为整体保管,但物理上是与文件分开,单独保管的。 因此,笔者赞成这种观点,“元数据”并不是新出现的事物。在我国纸质环境下,“元数据”思想已经有了萌芽。“元数据”是与比特时代的文件特点相结合而产生的一种工具。通过捕获文件的背景信息,记录文件形成、办理、保管、利用及最后的处置过程中的文件工作,起到说明、管理、检索和凭证等多重作用。比特时代,文件的证据作用成为人们最关注的问题,匹兹堡项目顺应社会趋势,选择集中研究证据功能所需的元数据,认为应该捕获的元数据包括与文献相关的结构信息、内容信息、背景信息、存取和保管期限的业务规则信息。文件和元数据的同时捕获,尤其系统能自动捕获信息,大大改变了元数据的质量。匹兹堡项目建议,完成元数据和文件内容的同时捕获,可以采取“封装” (encapsulation)方式,即将文件和它的元数据放在一个计算机文档里。元数据与文件清晰相连,确保文件及其元数据不会随着时间的变化而分离,保证文件不被随意的更改与破坏。同时,当检索文件时,因为文件与所有相关信息都被检索出来,文件自身可以进行“自我说明”。大多数的元数据并不是唯一的对应于某个文件,而是应用于一系列文件。所以,产生了大量存贮在文件保管系统中的拷贝信息。给元数据的管理和控制带来了很大的不方便。这个问题需要得到进一步的解决。 比特时代,文件的不同功能则需要不同的元数据加以保证。研究元数据,一定要先明白元数据所对应的功能。这是个新兴的热点问题,期待更多的关注。