什么是全文数据库
发布网友
发布时间:2022-12-26 11:08
我来回答
共1个回答
热心网友
时间:2023-10-15 13:01
全文数据库即收录有原始文献全文的数据库,以期刊论文、会议论文、*出版物、研究报告、法律条文和案例、商业信息等为主。
分类:
根据全文数据库中的信息内容呈现形式划分,全文数据库的类型主要有电子版图书、电子杂志、电子报纸等。
结构:
全文数据库有多种结构形式。
一种结构是全文数据库由若干文库组成,每个文库划分为若干个文档,文档由若干信息载体组成,信息载体又细分为若干片断,片断指构成文本的自然段落,相当于字段。它是一个菜单驱动系统,一级菜单显示文库目录,二级菜单显示文档目录,待文库和文档选定后,系统开始接收提问。
另一种结构是全文数据库由若干个数据库组成,数据库下不设文档这一级结构,而是直接把信息载体分成字段存储。全文数据库结构与书目数据库相似,其主文档是以顺排形式组织的文本文件,倒排档则是对应于信息载体记录可检字段的索引文件。全文数据库记录的磁带格式一般也分头标、目次和数据部等几部分,在已有的全文数据库中,根据领域信息载体、数据库用户和设备的不同情况,采取不同的实现方法。
特点:
与其他数据库相比,全文数据库有许多特点,主要表现如下。
1、包含信息的原始性。库中信息基本上是未加工的原始文献,因而具有客观性。
2、信息检索的彻底性。任何词、句、字皆可检索,还有可能看到某些边缘性信息。
3、检索语言的自然性。可使用自然语言检索,并可使用布尔检索和位置检索,因而要涉及自然语言的理解。
4、数据结构基本上是非结构化的,除了某些可规范的数据外,大量文本属于非结构化的,不便于关系数据库的处理。
5、专业的全文数据库系统一般都采用“自动切词”技术
6、好的全文数据库还备有知识库,可具有推理能力和联想式检索。
7、基本上是封闭性的,数据不需更新,具有较大的稳定性。
8、全文数据库一般占用的存储空间非常庞大,系统开销大,如何提高检索速度是一大难题。
功能:
全文数据库具有强大的检索功能,表现在它能提供丰富的检索点,允许用户从信息载体的人名、地名、年代、关键词等多个角度进行单项检索或多项组配检索,甚至可对文本中任意字段进行检索。除具有布尔逻辑检索功能外,还具有字符的位置检索、截词检索等功能。检索结果可根据用户要求,按句、段、节、章输出(显示或打印)。
全文数据库具有一定的信息分析功能,可对检索结果再次处理,以进行人名、地名、关键词等的聚类、统计排序。
全文数据库还具有一定的信息计量功能,可对文本中的人名、地名、关键词等进行频率统计并排序。