浅谈数据挖掘在情报学领域中的应用
发布网友
发布时间:2023-04-24 08:21
我来回答
共1个回答
热心网友
时间:2023-11-02 17:26
(新疆财经大学 图书馆,新疆 乌鲁木齐 830012)
摘 要:
文章介绍了数据挖掘的含义及与传统数据分析的不同,并 对其在情报研究领域中的应用进行了初步探讨。
关键词:数据挖掘;
情报学;
情报检索;
情报服务
中图分类号:G350.7 文献标识码:A 文章编号:1007—6921(2009)07—0303—02
1 情报学领域面临的问题
1.1 资源全球化 信息海量化
可以说Internet 是全球最大的信息资源库,其资源类型多样,包括教育网站、虚拟图书馆 、虚拟软件库等等,为采集所需信息提供了方便和可能。但同时,网络信息的无序又造 成利用率相对较低。另外,网络海量数据的产生,使提取有用信息困难重重。
1.2 数据呈现非结构化
就目前大量视频、音频、动画等非结构化数据而言,现有的检索方法对这类数据的搜索难以 奏效。只有数据挖掘技术才能对海量结构化或非结构化数据进行高效检索、处理及分析。
1.3 情报需求个性化
需求的个性化使得传统的一对多的情报服务模式越来越不适应时代的要求。不同的企业有不 同的竞争情报服务需求,各科研机构需要不同领域的科技查新服务。这些个性化的服务需求 只能通过数据挖掘技术,建立一对一的服务平台来实现。
综上,随着信息量的快速膨胀、信息获得手段和途径的日益增加,人们可以获得的信息越来 越多,可是,人们对有用信息占有比例却越来越小。因此,如何在浩瀚的信息海洋中找到有 用的信息越来越受到关注,数据挖掘技术就是在这样的背景下应运而生。
2 数据挖掘技术简介
2.1 数据挖掘的含义
简单地讲,数据挖掘是一种利用各种分析工具建构数据分析模型,在大型的数据库 (或数据 仓库) 中提取人们感兴趣的知识的过程。提取的知识一般可以表达为概念、规则、规律、模 式等形式。数据挖掘(Data Mining),又称数据库中的知识发现,它产生于上世纪80年代初 , 是人 工智能、机器学习与数据库技术相结合的产物。
是从大量的、不完全的、有噪声的、模糊 的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程。数 据挖掘技术是面向应用的,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据 进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换 。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。
2.2 数据挖掘同传统数据分析的区别
同传统的数据分析相比,数据挖掘是在没有明确假设的前提下挖掘信息,发现的知识通常是 未知的、很难预料的,但对人们是非常有用的;
而传统的数据分析则是在人们提出某种假设 的前提下对数据进行分析,得出的结果往往可以预知。因此,传统的数据分析只是表层的数 据分析,而数据挖掘则是对数据进行深层的挖掘。
3 数据挖掘在情报学领域的应用
3.1 情报收集
数据挖掘使情报收集方式由人工搜取( 检索、购买、交换等) 扩展到机器自动抓取。数据挖 掘中搜索引擎技术为网上信息资源的情报搜集提供了非常有效的工具,Web 挖掘不但能收集 所需的情报资料,而且可以提供各类信息资源被使用情况以及热点专题等,利用数据挖掘技 术自动对所搜集来的数据进行清理、去冗等处理, 不仅减轻了工作量,而且缩短了从原始信 息变成情报产品的时间。
3.2 情报处理
3.2.1 对情报处理对象的拓展。数据挖掘技术使情报加工不再局限于结构化数据的处理、单一字符信息的处理,而是拓展到 音像资料、视频信息等可视化信息的处理, 从单一结构化的信息处理延伸到异构的、半结 构、甚至无结构的文本信息的处理。
3.2.2 对情报处理技术的创新。数据挖掘提供了更加科学的、丰富多彩的分析处理手段。例如,在信息分类方面,所提供的 判定树归纳分析、贝叶斯分类、传播分类、基于关联的分类等,完全突破了过去基于分类表 的分类思想,使不同的信息采用不同的分类方法,使分类结果更加具有针对性和科学性;
在 信息聚类处理方面,数据挖掘推出的针对不同类型数据的信息聚类方法 ( 划分聚类、层次 聚类、基于密度、基于网络、基于模型的聚类等) 使相同或相似信息能够更加可靠地集聚在 一起。更为重要的是,复杂类型的数据挖掘技术使情报处理更加适应未来多样化信息( 地理 空间信息、时序信息、多媒体数据以及文本与 Web 信息等) 的处理需要,使情报处理不再 受到媒体的*。
3.3 情报服务
3.3.1 拓宽了情报服务范围,增加了服务项目。传统的、人工检索式的定题服务,将上升为从广博的网上资源和数据库中自动挖掘、并通过 互联网主动地把信息或知识推送给用户的服务方式;
信息的查新服务不再局限在各种大型的 数据库中,而是扩展到整个网络资源,并对各企业门户进行挖掘, 给出全面的分析查新报告 。
3.3.2 升华了服务理念,大大提高服务的主动性和质量。由于数据挖掘技术的应用,情报服务的重点将转向为各层次的决策支持服务,而为科技的服 务则更多地由科技人员自己利用挖掘工具采取“自助式”服务。
3.3.3 完善了情报服务的内容和形式。
由于数据挖掘的目的是从海量的信息中发现知识,所以,情报部门提供给用户的不仅仅是信 息,还包含着大量用于解决问题的知识,其提供情报的形式也可能是将数据挖掘出的数据组 织成报表或绘制成直观的图形,便于用户分析决策。
3.4 情报分析
数据挖掘中的关联规则分析技术将是传统情报分析的补充。因为,通过对数据的关联分析可 以发现隐藏在数据之中的、不易被人发现的、甚至与人的意识相违背的关联事件。例如,在 商店的商品关系中,凭主观意识人们无论如何也不会想到“汤匙”和“杂志”会有购物的关 联性,但在对美国一家超市的数据记录的关联挖掘的的确确发现了这样的关联,利用传统的 情报分析方法是很难发现的。数据挖掘中另一种被广泛使用的数据分析技术是联机分析处理 ,它是能够对*数据进行分析处理的技术,可以从多个视角观察分析,能够同时针对多方 面的数据进行处理。总之,数据挖掘中的数据分析技术将大大加强情报分析的能力,使情报 分析得到多方面的支持,情报分析技术将更加完备和丰富多彩。
3.5 情报检索技术
针对结构化的数据库或文本型数据,传统的检索技术多为 布尔逻辑检索或全文检索技术,缺 乏对其他媒体数据的检索手段。数据挖掘中对复杂类型数据的检索技术将大大丰富情报检索 的技术手段,如图像识别技术、语音技术、基于相似性的检索技术以及对时序数据采取的关 联检索的技术等。可以肯定,数据挖掘中的多媒体检索技术完全能够用于情报检索之中,情 报检索技术将因此实现跨媒体检索,迎来全面突破。
4 数据挖掘对情报学产生的影响
数据挖掘不仅作为一种技术手段推进了情报学的发展,而且对情报学的理念和研究领域也产 生了广泛而深刻的影响。
4.1 情报理念的完善
数据挖掘在情报学领域的应用,使情报学更多地注重实用性和使用价值。情报学的使命应该 以信息为素材,以知识的传播、利用、功能为主体。通过技术上的日臻成熟来完善服务于人 的最终理念。比如体现在竞争情报服务上,竞争情报就是满足企业为了赢得市场竞争的优势 ,搜集有关对手的技术、市场、客户、销售等信息,经过分析处理使之变成具有竞争价值的 情报。
4.2 情报领域的延伸
数据挖掘是一个重要的技术手段,它的应用赋予情报学的研发流程与应用场景更为广阔。
数据挖掘也是一个多学科交叉的新兴研究领域,在这个领域中, 汇集了来自机器学习、模 式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果,多元化的投入,使 得这一技术得以蓬勃发展,而且已初具规模。
4.3 情报工作的拓展
情报学发源于图书馆学和文献学,现已发展成为自然科学、技术科学和社会科学的交叉学科 。数据挖掘技术与情报学的完美结合,除学术上的需要外,还具有极大的商业应用前景。即 使在情报学领域上的研究也主要是为生产、管理服务的,研究重点仍然是放在能见经济效益 的应用方面。
5 数据挖掘技术带来的新挑战
目前,数据挖掘技术应用于情报学已经成为学科的热点之一,但也还有许多亟待解决的问题 。尤其在实际推广应用中, 例如:数据的复杂化需要更多领域的专业知识,巨大的数据库对 算法的效率提出更高的要求,数据挖掘中人机交互功能的强化以及对内部数据和个人数据的 安全保护等等。我们坚信,随着数据库技术、人工智能技术及相关学科的不断进步,上述问 题将会逐步得到解决,数据挖掘技术将会更好地服务于情报学的研究,服务于社会。
[参考文献]
[1] 石冰,郑燕峰. 信息检索中的数据挖掘技术[J].情报学报,1999,(3).
[2] 赵丹群. 数据挖掘: 原理、方法及其应用[J].现代图书情报技术,2000(6).
[3] 蒲群莹. 基于数据挖掘的竞争情报系统模型[J].情报技术,2005,(1).
[4] 苗杰,倪波.面向集成竞争情报系统的数据挖掘应用研究[J]. 情报学报,200 1,(4).