「大数据的关键思考系列」8:数据分类的四大维度(1,2)
发布网友
发布时间:2024-10-07 17:10
我来回答
共1个回答
热心网友
时间:2024-10-28 08:23
作者 | 橙子
审核 | gongyouliu
编辑 | auroral-L
在先前的讨论中,我们共同探讨了“数据分类与数据价值”。本期内容将聚焦于“数据分类的四大维度(1,2)”,与大家进行分享。
首先,我们可以根据不同的标准对数据进行分类。从是否可以再生的角度,数据可以被划分为不可再生数据和可再生数据。不可再生数据通常是原始数据,如用户访问网站时的浏览记录。这类数据一旦未记录,就无法通过其他方式还原。因此,对于用户日志等不可再生数据,必须实施严格的保护措施和权限控制。
而可再生数据则可以通过其他数据生成。例如,指标类数据的衍生数据通常是可再生的,只要原始数据存在,就可以通过重新计算获得。然而,即使数据可再生,也不能忽视其重要性,尤其是那些经过长期积累和加工的数据。
对于不可再生数据,需要严格保护现有数据,并尽早收集尚未拥有的数据。而对于可再生数据,则应提前进行业务预判和数据处理的规划,以便在需要时快速应用,形成所谓的“数据中间层”。
其次,从数据存储的层次来看,数据可以分为基础层、中间层和应用层。基础层通常存储最基本的数据,不进行汇总以避免失真,为其他数据研究提供基础。中间层基于基础层加工,通常被视为数据仓库层,根据不同业务需求进行存放。应用层则是针对具体数据问题的应用,如数据分析和数据挖掘。
在存储层面,数据冗余和管理混乱是主要问题,尤其是在数据量庞大的大公司中。由于不同团队可能分别建立包括基础层、中间层和应用层的数据,缺乏有效沟通,导致工作重复和资源浪费。
作者建议基础层必须统一,以减少成本和提高效率。对于中间层和应用层,则应根据公司业务量和成本压力进行集中式或分散式管理。