古书电子化的工作原理
发布网友
发布时间:2023-03-07 02:40
我来回答
共1个回答
热心网友
时间:2023-04-26 00:26
百度文库VIP限时优惠 现在开通,立享6亿+VIP内容
立即获取
古籍整理中数字化技术原理与应用
古籍整理中数字化技术原理与应用
摘要:利用数字化技术实现古籍整理是本方向的发展趋势,本文针对古籍整理的数字化进程的基本原则和关键问题进行详细阐述,并提出古籍整理数字化应用的若干重要问题,为古籍整理的数字化实现奠定基础。
关键词:古籍整理 数字化 原理 应用
中图分类号: G258.33 文献标识码:A
1 引言
古籍整理是对古籍原文进行整理加工成为更贴近于现代的形式,使古籍中的内容更便于今人以及后人阅读和利用。然而古籍具有版本较多、完整性差,并且有的已失传的特点。
第 1 页
到底电动牙刷怎么选择 4款高端清洁能力强电动牙刷推荐
电动牙刷怎么选择怎么选 电动牙刷的作用:手动牙刷每分钟只能达到大约三百多次的清洁频率,电动牙刷的震动频率可以达到几万次每分钟,这其中的差距还是非常大的。

点击立即咨询,了解更多详情
咨询
桂林期玥生物科技 广告
此外,由于时间相隔之久,古籍中字词的意义与现代字词的意义已有较大区别。因此,利用或专研古籍内容就必须先对古籍进行梳理。更具体而言,以历代古籍为对象,依校勘、标点、注释、今译、辑佚、影印等为手段,通过运用版本、目录、校勘、文字、音韵、训话、考古等多种专业知识,所进行的整理加工活动,统称为古籍整理。其目标就是利用各种手段,尽最大可能的将古籍复原,保存其原本表述的内容,并且让现代人更容易理解[1]。
所谓数字化就是把人们常用的文字符号转化为数字符号,也就是说把传统的语言文字表达形式改变为计算机能识别的数字表达形式。而古籍数字化则就是把古代常用的文字
第 2 页
符号转化成为计算机可以识别的数字符号的一种过程。从表层上看,这一过程使得古籍的存在形式发生了变化,而实际上也使得人们对古籍使用环境发生了相应的改变。
古籍是中华民族的文化瑰宝,也是实现数字化内涵的信息之源,把古籍信息数字化,可以将目前的古籍整理与研究引入到一个新的里程。这种操作方式的改变,不仅包含了传统的旧学,而且还涵盖着当代新型的科学技术,其功能具有时代性。而古籍应用环境的改变亦造就了汉学*性的变化[2]。
2 古籍整理数字化进程中的基本原则与关键问题
2.1 基本原则
第 3 页
2.1.1 保真原则
古籍作为不可再生的文化资源,它的价值表现在两个方面:文物价值与文献价值。针对文物价值,将其数字化时应当遵守保真原则,越高的保真度才能提高文物的实际价值。古籍的载体有龟甲、兽骨、金石、简犊、绢帛、纸等等,这些实物易腐朽,且保存需占据较大空间,制作副本也十分复杂。数字化技术就可以完美的解决这一劣势,通常采用照相、扫描等方法将原来的载体及所载文字内容制成图像版[3]。如对铜器铭文,可用多媒体技术整体保存铜器的原貌,包括形状、色彩、图文、尺寸大小等,也可多角度摄影,展示某一局部的特征,甚至于某一字形的特写。
第 4 页
然而文字版的古籍数字化时,会失去原书的实体讯息[3],如原版的纸张质感、页面图腾、书法样式等,虽然这些问题亦可利用影像科技弥补一些,但终究是一本虚拟的实物。并且,为了方便后人对古籍内容的检索,我们会认为的对其界定属性,如分类属性、索引词等等。所以说,古籍数字化的保真性原则只是相对的,它允许在基本保真的前提下适当作一些加工处理,也就是辅以整理性的原则。
2.1.2 整理原则
古籍的文献价值在于它的资料性。人们重视的是其内容,只要内容真实,形式可以根据条件作适当的处理。也就是说,将古籍作为
第 5 页
文本数字化的时候,应遵循以整理原则为主。古籍整理的重点是文字,古籍中涉及诸多的通假字、形声字、繁体字,加之长期流传过程的抄录与翻刻,给现代读者的阅读理解和应用带来了极大的困难。如果此时将古籍转化成电子化形式且不加修订的话,势必给读者的阅读带来障碍。在特定目的和统一原则下尝试部分保真应该是可以的,那必须结合整理原则来进行,通过对纷繁复杂的文字现象的归类整理,在总体上达到某种程度的保真。
2.2 关键问题
2.2.1字符集
古籍数字化首先要解决古籍进入计算机的问
第 6 页
题。也就是说,让古籍中的汉字成为计算机可以处理的信息。古代汉字不仅要在显示器上显示出来或在打印机上打印出来,还要能够参与信息处理和通过网络进行信息交换。这取决于字符集中是否包括了古代的汉字。字符集的问题仍然需要投入相当的精力加以解决。目前首先要做的是完善 Unicode字符集中的汉字,找到一个最合适的汉字收录集合。这需要对古汉语用字作统计分析。其次,完善Unicode码位空间的划分,使之对汉字字集的支持更加合理。这些是从学术层面上采取的解决措施。然后还要从技术上入手,解决相关的字符集转换技术,提高字符集的灵活性。另外,寻找技术手段,减弱字符集同操作系统间的偶合程度,增大操作系
第 7 页
统在字符集方面的灵活性。最后是寻找一个比Unicode更好而且能兼容以前所有字符集的编码方案。总之就是要尽快的彻底解决字符集问题。因为,古籍数字化的一切问题的都与它有关[4]。
2.2.2 古代文献的大规模录入问题
我国的古代文献种类繁多,数量庞大。除纸质的古代文献外,还有甲骨文、金文、陶文、竹简、帛书、石刻、砖文、印章、题记等。据不完全统计,仅公共图书馆系统收藏的纸质古籍善本即有两百二十万册左右,普通的纸质古籍约两千六百四十万册.对于除了纸质文献以外的古代文献,仅甲骨文一项,即有大小刻辞卜骨十万余片。因此古代文献
第 8 页
的计算机录入呈现出两个特点:一是规模大,二是种类多。这就给古代文献的录入带来许多新问题。古籍录入计算机的过程也是一次对古籍进行初次校勘的过程。由于字符集内收录的是大规模使用的正规汉字,因此在对古籍的文字进行OCR识别转换成字符时,原文上的那些错字、异形字、避讳字、异体字等很少见的汉字因为字符集中没有收录就暴露出来了。这就需要对它们进行处理,在必要的时候要对古籍进行恰当的“改动”。这一点跟传统的校勘原则是相反的,传统校勘的目的是为了最大限度地恢复古籍的原貌;古籍的数字化整理则是为了最大限度地“保真”。这是信息时代古籍整理的一个新方向和新任务。
第 9 页
2.3.3 标准化问题[4]
古籍数字化的目的就是通过网络来进行古籍资源的利用,为学术研究和人们的文化生活服务。因此,资源的整合、资源的共享和网上信息交换这三个方面对古籍数字化工程来说尤为重要。目前*进行古籍数字化的研究单位还很分散,他们都是各自开发,互不往来。而且*、台湾和港澳三大地区都在进行古籍数字化的实践。所以,制定一个统一的标准和规范就越发显得非常重要和迫切。对古籍数字化来说标准和规范具有根本的指导意义。它相当于传统方式下古籍整理的各种著录格式和规范标准,是数字化整理古籍的基石。古籍数字化也是一项浩大的软件工程。而且,这项工程,不同于一般的软
第 10 页
件开发那么单纯。它涉及到了包括文字、文化在内的诸多方面因素,势必要进行更多单位的合作开发。在软件的开发上,架构设计非常重要。软件的架构设计好了,就可以进行任务分解,进行分布式开发。因此,对古籍数字化这样浩大的软件开发工程来说,需要在架构上有一个指导性的标准。这个标准大到软件框架的每个层面,小到数据结构和数据类型都应当作出规定。使各个协作部门有章可循,提交的研究成果能够共享。另外,从软件的类型上来说,古籍数字化属于数据库应用方面的软件开发。因此,统一数据库文件的格式有着至关重要的意义。目前的数据库文件格式就有JPG、WDL、EBK、EDB、OEB、SEP、IFR、XEB、TXT、DOC
第 11 页
、HTM、PDG、PDF、CAJ等诸多格式。它们标准不一、无法兼容、质量参差不齐。这就使数据资源无法共享,不得不进行重复建设
3 古籍整理的数字化应用
3.1 关于适用于古籍处理的计算机汉字编码大字符集和工作平台
汉字作为一种古老而延续的文字体系,呈现出很强的独特性和因数千年历史积淀造成的复杂性。当前计算机汉字信息处理的状况,极大地*了古籍整理研究、古汉语研究领域计算机手段运用的可能性和可行性。缺乏适合古籍计算机处理的统一的汉字编码大字符集,已成为当前古籍整理研究手段现代化
第 12 页
实践中的瓶颈。从现有计算机软硬件发展的水平和格局来看,使用较为统一的系统和开发平台从事古籍整理实践是可行的。具体来说,除了现有的Windows系统以及在其上运行的应用软件外,我们暂时还无法找到更为通用的、受到普遍支持的软件环境。在较长的一个时期内,Windows系统以及和它兼容的各种应用软件仍然是我们不得不依靠的工作平台,这并非因为它最好,而是因为它最通用。
3.2 关于计算机古籍资料库的建设
但计算机的海量存储能力、强大的计算功能和基于主题、关联的穷尽检索功能为我们的学术之路带来了新的希望。利用计算机数据
第 13 页
库技术、全文检索功能可以快速提供精确的穷尽数据基础,从而将人力从材料中解放出来,使学者能萃精力于材料的推绎和诊释。另外,计算机全文检索技术对古代语言研究、古籍整理领域内的辑佚辨伪等工作更具重大意义。甚至,依赖于研究设计者制作的知识库和计算规则,计算机可以对查询的材料进行一定程度的分析和整合,提供精确的类似初步研究的成果,供研究者深人讨论。利用多媒体技术,可以全方位地展现研究对象各种直观的细节和特性。网络技术使得知识传达、数据交流和获得取得新的途径,展现新的面貌。在进行资料库建设过程中,应该与时俱进,将先进的软硬件平台充分应用,技术标准的开放性和系统的可维护性、
第 14 页
可扩展性要好,营造出富有弹性的和具有广泛应用前景的系统架构。界面友好,体现普及计算机应用的追求。优先考虑网络应用的架构方案。这里存在一个问题,无论就项目的组织开发过程还是所达到的最终效果来说,都存在着完美和效率之间的矛盾问题,追求完美的过程和效果,必然会降低效率,计算机技术的发展和更新速度之快,已不容许我们用“十年磨一剑”的方式来指导运作;而追求效率,又往往是以一定程度上牺牲完美为代价的。从计算机技术的发展和信息积累的增长速度来看,从事计算机项目的开发,如果一味地以完美为准绳,是不现实的;但若一味地准之以效率,又会潜伏下另一个可怕的危险,就是技术的粗糙和潜在的缺陷。我
第 15 页
们认为,比较现实的态度是,通过较为审慎的论证,努力在完美的追求和效率的要求之间寻求到一个平衡点,通过二者局部的牺牲达到整体的最优化。这个平衡点的求得,取决于具体项目和具体目标的特质,取决于项目整体的定位和技术内涵,也取决于运作者的认识和把握[5]。
3.3 关于古籍整理计算机辅助研究系统
另一个方面,就是我们除了通用的系统平台和应用软件以及古籍文本库、数据库以外,还应当有一个集成了古籍整理特有工作要求功能模块的工具平台,所提供的有诸如校勘模块、统计模块、知识结构的提取模块等等,它们都统一在一个窗口界面下,从而形
第 16 页
成为独立的应用软件或软件群,如同一个专家系统。计算机所能做的是依照一定的规则甄择和提供材料,资料量越大,越能体现出它较之于人脑的优越性,但是它并不能提供研究,不能表现哪怕是最基础的人类思维,所以我们应该把人力不堪应付的数据工作交给计算机去做,而不必花大量精力去试图让它做难以胜任的事情,计算机“辅助研究系统”的重点是在“辅助”上,而不是在“研究”上。因此,“辅助研究系统”应该是一个尽可能大的、可以扩充的数据资料库集合,这个集合可以根据不同的研究领域和课题倾向有所侧重,而具有统一的界面。它基本上包含了上述几种资料库类型,只是在统一的界面底下将各类资料库打通,实现基于主题和
第 17 页
关联的数据查询、统计和一些简单处理。同时,提供专门针对古籍的扫描汉字识别、造字、校勘提示、索引、自动标引等模块。
4 古籍整理存在的问题及展望
1、古籍数字化打破了以往在古籍整理中给古籍圈定的范围。原来不属于古籍范畴的甲骨卜辞、金文等都成为古籍数字化的对象。这是对古籍整理传统观念的突破,更符合现代社会科学研究的需要。为此,必须要解决各种载体文字的录入问题。可是