发布网友 发布时间:2023-04-26 14:36
共1个回答
热心网友 时间:2023-10-20 02:50
数据挖掘一般包括数据准备、数据挖掘和结果的解释与评价三个阶段。数据挖掘结果的质量与被挖掘数据质量息息相关。数据准备就是对被挖掘数据进行定义、处理和表示,使它适应于特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,在整个数据挖掘过程中起着举足轻重的作用。它包括以下几个步骤:
数据清洗一般来说,销售历史数据来源于异质操作数据库。这些异质操作数据库中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为 “脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。数据清洗通过填写空缺的值,平滑噪声,识别、删除点,解决不一致来 “清洗”数据。它可以在数据装入数据仓库之前进行,也可以在装入之后进行。
数据清洗技术一般可分为基于规则的方法、可视化方法和统计学法方法。基于规则的方法根据字段定义域的元知识、约束和与其它字段的关系对该字段的每一数据项进行评估;可视化方法以图形方式显示数据集的有效轮廓,从而很容易辨别脏数据;统计学法方法通过统计技术填补丢失的数据和更正错误的数据。
数据集成与数据变换在进行销售预测数据挖掘时常常需要将多个数据存储合并,并转换成适合挖掘的形式。在销售历史数据中,我们常常会发现代表同一概念的属性在不同的数据库含有不同的名字,这将会导致不一致和冗余,而含有大量不一致和冗余数据会降低数据挖掘过程的性能或使之陷入混乱。将数据集成与变换将减少或避免这种情况,提高数据挖掘的精度与速度。
数据集成要考虑实体识别问题、相关性分析问题、数值冲突检测与处理问题等。实体识别问题即如何将来自多个信息源的实体匹配相关分析问题即通过相关性分析来检测数据冗余数值冲突检测与处理问题即通过对元组级冗余检测,消除数据语义上的异种性。而数据变换涉及到平滑、聚集、数据概化、规范化、属性构造等,通过这些处理将数据转换成适合于挖掘的形式。
数据归约当选择用于数据分析的数据集过大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种数据挖掘不现实、不可行。而数据归约技术可以 “压缩”数据集,得到其“归约”表示,它小得多,但仍接近于保持原数据的完整性,使得在归约后的数据集上进行挖掘更有效。其策略包含数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层等,这些涉及到了多特征方、压缩搜索空间的启发式算法、小波变换、主要成分分析PCA、线性回归模型分析和对数线性模型、*索引树、离散化技术等。目前这个领域仍然是一个非常活跃的研究领域。