发布网友 发布时间:2022-04-23 20:13
共1个回答
热心网友 时间:2022-05-01 21:51
CRISP-DM (cross-instry standard process for data mining), 即为“跨行业数据挖掘标准流程”。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
business understanding:即商业理解。 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么。 并将这些目的与数据挖掘的定义以及结果结合起来。
data understanding:数据的理解以及收集,对可用的数据进行评估。
data preparation:数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。
modeling:即应用数据挖掘工具建立模型。
evaluation:对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。
deployment:部署,即将其发现的结果以及过程组织成为可读文本形式(数据挖掘报告)。
从实践角度讲,数据挖掘的流程基本上和CRISP-DM标准过程一致,无非是几个步骤不断的反复。
我比较喜欢对数据挖掘定义的一种描述:数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。从中也可以看出,数据挖掘的基础是了解业务或找到熟悉业务的人,然后才是利用历史知识建立知识模式从而创造新知识。
过程的边界并不明显,但是又有基本的依赖顺序。比如可行性分析需要数据评估,模型优化结果不明显又得回到数据分析阶段,数据的分析和准备都得依赖ETL。
每个步骤缺一不可,前面的步骤是后面的基础,后面的步骤依赖于前面所有步骤,根据情况可能跳回前面任何一个步骤。