发布网友 发布时间:2022-04-22 20:27
共1个回答
热心网友 时间:2022-06-03 19:02
展开3全部张海兰 王瑞红
(国土资源部实物地质资料中心,北京 101149)
摘要 本文简要阐述了实物相关文本资料数字化工作的重要性,提出要根据文本资料原貌选择扫描方式,依照具体情况进行分辨率、亮度和对比度的调整。
关键词 文本资料;数字化
实物地质资料的相关资料是成果地质资料与原始地质资料的原件或复制件,是说明实物产生的地质背景及其保管价值的重要材料,是实物地质资料的重要组成部分。
为了适应现代化管理与服务的需要,同时为了配合实物地质资料数字化,解决图文地质资料信息长期保存问题,国土资源部实物地质资料中心开展了相关地质资料数字化工作。实物地质资料相关的图文资料包括两大类:文本资料和图纸资料,数字化工作也是针对这两部分内容而言的。本文仅就资料的数字化工作进行探讨。
一、文本资料数字化工作流程
文本资料数字化工作是通过扫描的方法把以纸介质为载体的地质资料转变为以电子为介质的电子文件,并进行文件组织的过程。主要工作过程包括资料准备、扫描、图像处理、生成电子文件、文档组织与保存等几个方面(见图1)。
图1 文本资料数字化工作流程图
二、扫描工作方法
1.扫描前的资料准备工作
做好文本资料的准备工作是十分必要的。资料的单册厚度影响着文本的扫描质量,越厚越不利于扫描,有些文本装订得比较厚时,可将文本拆开进行扫描,扫描工作结束后再按照档案管理的标准进行重新装订。在进行若干份单页的文件扫描时,扫描前要做好资料的登记工作,以免丢失。利用文档扫描仪进行多页文件扫描之前,要对文本资料进行去除静电处理。
2.扫描
(1)选择扫描方式
对于文本资料纸质较好,又不超过标准A4版面大小的时候,可以采用专用的多页文档扫描仪进行滚动扫描,以节省扫描时间提高工作效率。其他的文本资料使用平板扫描仪逐页进行扫描。
(2)选择扫描参数
扫描类型 扫描类型的选择是完成文本数字化工作的重要环节。正确的选择扫描类型,是提高扫描质量的保证。扫描类型的选择是由原件的类型来确定的。常用文本资料的扫描类型有:黑白二值、RGB、灰阶三种。黑白二值方式,当文字或表格质量都非常高时,采用这种方式扫描,扫描效果较好。灰阶方式,当文本资料字迹不清楚或是表格时,使用黑白二值方式产生的图像效果较差,表格线会断断续续,此时可选用灰阶方式扫描,但这种方式扫描的图像会有较多的灰色印迹,需在后期做图像处理,使图像达到最佳效果。RGB方式,对文本资料中的彩色图件一般采用这种方式进行扫描,用这种方式扫描产生的文件占用的磁盘空间较大,扫描时可进行亮度、对比度及色度的调整,通过反复对比,使图件色彩达到最佳的效果。
参数选择 在扫描前进行预扫描,可进行扫描分辨率的选择、亮度和对比度调整。扫描分辨率、亮度及对比度调整与文本资料的质量有一定的关系,当一册文本资料质量变化不大时,选择一页或几页进行扫描实验,结合扫描工作经验选择适合的分辨率、亮度及对比度。当文本质量有明显变化时,每页资料的亮度及对比度都要分别进行调整。每次扫描时若不进行扫描区域的选择,扫描区域就会与上次的扫描区域相同,这样有可能会漏掉文本内容。若扫描区域过大,扫描时间就会延长,文件所占的空间也会增大,后期图像处理的工作量亦会增大。
存储格式的选择 根据选择扫描类型的不同,文件存储格式也有所不同。黑白二值方式扫描产生的图像不能进行纠斜和旋转,存储格式为tiff;灰阶和RGB方式扫描存储格式都为jpg,这种格式是经过压缩的。
(3)确定文件名称及路径
当扫描参数调整完成时,就要选择路径将扫描文件进行保存。这个文件最好是放置在一个独立的位置上,以免与其他文件混淆。文件的名称是要能反映其中文本资料的主要内容的。与此同时,还要给每页文件确定一个适当的名称,最好以文件的页码为文件的名称,以便对文件进行排版时不会出顺序上的错误。同时保证以后再对文件进行处理时能很快识别此文件是属于哪个类别的、哪个地区的、哪个钻孔的等,如图2所示。
图2 文件存储结构示意图
(4)扫描并保存
在扫描方式、扫描参数、存储格式、存储路径和文件名都已设定好之后,就可以进行扫描了。当页面大于A4版面时,可以用A3大幅度扫描仪进行扫描,对于超过A3幅度的文本资料可以分次扫描,扫描完成后再进行拼接。扫描是整个数字化工作中最基础、最关键的环节,好的扫描质量,能够使电子文件获取清晰度较高的效果,投入最少的整饰工作量,从而节省大量的时间、人力和物力。
3.图像处理
当完成一册文本资料的扫描工作后,此文本资料的电子文件已经保存在一个固定的文件夹内。但此时的文件只是一个个独立的图片,还需要一系列的图像调整处理,才能达到文本数字化的真正目的。在Photoshop中打开扫描图像,逐个进行纠斜、旋转、剪裁、去污、亮度/对比度等的调整。经过几次这样的调整,使图像达到真实反映文本资料原貌的目的。
4.生成电子文件
将调整好的单个图像文件逐个插入到Word文档中,首先形成Word格式的文档,然后再转化成PDF格式文件,文件名要与每册文本资料的名称相同或相近,如秦岭、大巴山地应力孔的《岩矿心接收登记表》,电子文件命名为“岩矿心接收登记表”。
5.文档组织与保存
当完成一个矿区的所有文本资料的扫描工作以后,将形成的PDF文件按一定的顺序重新组织编排,并编制PDF格式的目录索引,链接整个矿区的PDF文件。最后将完整的电子文件进行备份保存。一般情况下同一矿区的电子文档保存在同一张光盘中,并在光盘盒上贴标签,注明文件目录、形成时间及责任人等有关信息。若一张光盘存不下时,要将电子文件分成若干个分册,一个分册放在一个光盘中。电子文档应保存一式三套,并且要实行异地保存。
三、影响文本资料扫描效果的几个因素分析
将文本资料平放在扫描仪的扫描区域中,有的文本资料装订得比较规范,一般情况下在扫描前不拆开,进行扫描时扫描人员应用手紧压文本资料,尽可能地紧贴扫描面板,以保证较好的扫描效果。如果文本资料较薄,则可用扫描仪的盖板压紧即可。这个环节的操作要轻拿轻放,避免文本资料在扫描板上滑动,将扫描板划伤,这样将直接影响扫描的效果。
我们采集来的一些实物资料是20世纪80年代初期产出的,随着时间的推移,文本资料字迹已经很模糊了,而收集来的又多以复印件为主,还有野外记录表或整理资料这部分多数都是手写资料,字体不一,书写也不规范,资料内容就更为模糊了,这样的资料扫描难度较大,效果也不理想。
有的文本资料的厚度大又不宜拆开,直接影响了扫描质量,文本资料越厚在扫描过程中就越不容易压平,一侧的资料就非常不清楚。因此在扫描较厚的文本资料时,需要扫描人员用手使劲压平文本,才能保证扫描的质量。显而易见这样扫描自然会降低扫描的效率,因此在扫描这种较厚的文本资料时,要求工作人员必须有耐心,将每一页资料都能充分地摆正放平,使每一部分信息都能扫描得非常清晰。
四、结语
文本资料数字化是一项艰巨、繁琐而责任重大的工作,是实现实物地质资料现代化管理的一项重要基础工作。由于这项工作开展时间不长,没有更多的经验可以借鉴,目前此项工作还在不断的探索和试验中。
Digitization of Relevant Text Information of Geologicalsamples
Hailan Zhang,Ruihong Wang
(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)
Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.
Key words text information;digitization