大数据行业的数据精准吗?

发布网友发布时间：2022-04-24 19:30

共3个回答

热心网友时间：2023-10-08 18:43

第一，用户行为与特征分析。显然，只要积累足够的用户数据，就能分析出用户的喜好与购买习惯，甚至做到“比用户更了解用户自己”。有了这一点，才是许多大数据营销的前提与出发点。无论如何，那些过去将“一切以客户为中心”作为口号的企业可以想想，过去你们真的能及时全面地了解客户的需求与所想吗？或许只有大数据时代这个问题的答案才更明确。

第二，精准营销信息推送支撑。过去多少年了，精准营销总在被许多公司提及，但是真正做到的少之又少，反而是垃圾信息泛滥。究其原因，主要就是过去名义上的精准营销并不怎么精准，因为其缺少用户特征数据支撑及详细准确的分析。相对而言，现在的RTB广告等应用则向我们展示了比以前更好的精准性，而其背后靠的即是大数据支撑。

第三，引导产品及营销活动投用户所好。如果能在产品生产之前了解潜在用户的主要特征，以及他们对产品的期待，那么你的产品生产即可投其所好。例如，Netflix在近投拍《纸牌屋》之前，即通过大数据分析知道了潜在观众最喜欢的导演与演员，结果果然捕获了观众的心。又比如，《小时代》在预告片投放后，即从微博上通过大数据分析得知其电影的主要观众群为90后女性，因此后续的营销活动则主要针对这些人群展开。

第四，竞争对手监测与品牌传播。竞争对手在干什么是许多企业想了解的，即使对方不会告诉你，但你却可以通过大数据监测分析得知。品牌传播的有效性亦可通过大数据分析找准方向。例如，可以进行传播趋势分析、内容特征分析、互动用户分析、正负情绪分类、口碑品类分析、产品属性分布等，可以通过监测掌握竞争对手传播态势，并可以参考行业标杆用户策划，根据用户声音策划内容，甚至可以评估微博矩阵运营效果。

第五，品牌危机监测及管理支持。新媒体时代，品牌危机使许多企业谈虎色变，然而大数据可以让企业提前有所洞悉。在危机爆发过程中，最需要的是跟踪危机传播趋势，识别重要参与人员，方便快速应对。大数据可以采集负面定义内容，及时启动危机跟踪和报警，按照人群社会属性分析，聚类事件过程中的观点，识别关键人物及传播路径，进而可以保护企业、产品的声誉，抓住源头和关键节点，快速有效地处理危机。

第六，企业重点客户筛选。许多企业家纠结的事是：在企业的用户、好友与粉丝中，哪些是最有价值的用户？有了大数据，或许这一切都可以更加有事实支撑。从用户访问的各种网站可判断其最近关心的东西是否与你的企业相关；从用户在社会化媒体上所发布的各类内容及与他人互动的内容中，可以找出千丝万缕的信息，利用某种规则关联及综合起来，就可以帮助企业筛选重点的目标用户。

第七，大数据用于改善用户体验。要改善用户体验，关键在于真正了解用户及他们所使用的你的产品的状况，做最适时的提醒。例如，在大数据时代或许你正驾驶的汽车可提前救你一命。只要通过遍布全车的传感器收集车辆运行信息，在你的汽车关键部件发生问题之前，就会提前向你或4S店预警，这决不仅仅是节省金钱，而且对保护生命大有裨益。事实上，美国的UPS快递公司早在2000年就利用这种基于大数据的预测性分析系统来检测全美60000辆车辆的实时车况，以便及时地进行防御性修理

第八，SCRM中的客户分级管理支持。面对日新月异的新媒体，许多企业想通过对粉丝的公开内容和互动记录分析，将粉丝转化为潜在用户，激活社会化资产价值，并对潜在用户进行多个维度的画像。大数据可以分析活跃粉丝的互动内容，设定消费者画像各种规则，关联潜在用户与会员数据，关联潜在用户与客服数据，筛选目标群体做精准营销，进而可以使传统客户关系管理结合社会化数据，丰富用户不同维度的标签，并可动态更新消费者生命周期数据，保持信息新鲜有效。

第九，发现新市场与新趋势。基于大数据的分析与预测，对于企业家提供洞察新市场与把握经济走向都是极大的支持。例如，阿里巴巴从大量交易数据中更早地发现了国际金融危机的到来。又如，在2012年美国总统选举中，微软研究院的David Rothschild就曾使用大数据模型，准确预测了美国50个州和哥伦比亚特区共计51个选区中50个地区的选举结果，准确性高于98%。之后，他又通过大数据分析，对第85届届奥斯卡各奖项的归属进行了预测，除最佳导演外，其它各项奖预测全部命中。

第十，市场预测与决策分析支持。对于数据对市场预测及决策分析的支持，过去早就在数据分析与数据挖掘盛行的年代被提出过。沃尔玛著名的“啤酒与尿布”案例即是那时的杰作。只是由于大数据时代上述Volume（规模大）及Variety（类型多）对数据分析与数据挖掘提出了新要求。更全面、速度更及时的大数据，必然对市场预测及决策分析进一步上台阶提供更好的支撑。要知道，似是而非或错误的、过时的数据对决策者而言简直就是灾难。

热心网友时间：2023-10-08 18:43

大数据需要采集非常多的数据，越详细越好，有时候为了追求数据的量，确实会有无用的数据，大数据的分析结果也不一定准确，只是一个概率统计而已

热心网友时间：2023-10-08 18:43

很多初入大数据领域或者转行进入大数据领域的朋友，需要了解的第一件事不是说各种组件框架生态相关的东西，也不是各种编程语言基础。

而是，了解清楚以下几个问题：

1)大数据领域到底包含了哪些东西，解决了哪些问题?

2)自己的实际基础是什么，如何结合自己的基础以及兴趣爱好，在整个大数据领域链路中，找到最好的切入点。只有解决了上面两个问题，才能给自己最精确的定位，找准方向深入下去。

第一个问题，大数据领域的范围。

现在一说起大数据分析，简单起来就是一个词，但其实这个方向已经可以形成一个技术领域了，包含了方方面面的技术点，也提供了各种不同的技术岗位。所以，不同的岗位，对应的需求，工作内容都是不同的。

我们可以根据数据从下到上，从无到有，到产生价值整个数据业务流程来拆解，并且与此同时，来看看每个环节我们需要的技术储备以及能做的事有哪些。大数据分析的几大基本业务流程：

收集 -> 传输 -> 转换/清洗 ->存储 -> 再加工 -> 挖掘/统计 -> 上层应用输出

总的来说，可以分以下几个大块。

第一环：数据的收集

在收集阶段，我们来看看数据主要有哪几种存在方式：

1)第三方开放数据集

2)业务数据

3)服务日志

4)行为上报数据

首先针对于第三方开放数据，目前爬取第三方开放数据的形式已经逐渐被认可，并且将会越来越多的人以及企业从互联网开放数据集中获取原始数据。所以，针对于开放数据的获取，爬虫已经可以单独形成一个体系了，包括不同的爬虫框架，以及近年来对于分布式爬虫的技术需求等，在语言方面主要还是python以及java为主，辅助其他相关脚本知识。

如果数据是业务数据，那么通常在传统的路子中，业务数据一般存储在传统的数据库中，那么，对于传统数据库相关的技术知识不可避免的需要有所了解。

我们需要对数据进行统一化处理，又不可避免的涉及到数据的迁移，即从传统数据存储介质中迁移到诸如hadoop生态中，那么涉及的迁移框架诸如sqoop之类的，又是不能不懂一些。在语言以及基础要求上，对SQL相关的知识需要补充，以及linux操作，简单的python需要掌握。

最后，如果是数据上报的形式，你需要对整个数据上报的流程熟悉，怎么进行埋点、怎么收集上报的数据，上报过来怎么进行传输接受落地，这里就不多说，最终这种上报过来的数据反倒相对规整。

第二环：数据的传输

数据的传输到底在什么时候会涉及到呢?诸如上面说到的数据上报，在大数据模式下，通常上报过来的数据我们都不会马上进行落地的，因为涉及到不同部分其效率不一样，在峰值波动的情况下，直接落地十有*都会导致系统宕机。

所以，数据的传输在大数据领域中有着不可替代的左右，会出现在各种系统耦合之间，一方面用作数据的传输，另一方面用作数据的缓冲、系统解耦。在hadoop生态中，最有名的莫过于kafka与flume的组合搭配了，收集数据，并进行数据传输，此外还有不少类似的消息队列存在，诸如ActiveMQ、阿里的RocketMQ等等。

第三环：数据的存储

生态中最最核心的存储组件莫过于HDFS了，这是支撑hadoop能够做大批量数据处理的基础支撑，便捷而强悍的横向扩展能力。还有各种基于此之上不同形式的数据存储方式，诸如hive、HBase、甚至ES、Solr勉强都算，以及不可忽略的传统类型的SQL存储方式。

我们需要理解的是，不同的存储方式应对于实际的应用场景是不同的，HDFS作为最基础的分布式文件系统，我们就不多说。如Hive其更作用更多用于类传统式的SQL查询操作，其对于效应效率要求并不高，但对于数据规模的支撑性良好;而HBase则更偏向于即席查询，要求有更高的响应效率，但对于查询的复杂性支持上则相对较弱。

而我们说诸如ES、Solr都也勉强算是一种数据存储的组织方式，其实也是有一定道理的，因为他们本身也支持这种分布式的数据存储，只不过他们是为了应对于自己框架的检索需求而设计的数据存储组织。如Redis，也算是目前大数据生态中不可缺少的数据存储方式之一，基于内容，应对于高效的数据存储与读取，在很多的实际应用场景中都用的到。

第四环：数据的再加工

其实这一层主要要说就是基于Hadoop的MR框架以及Spark，当然，也有其他的一些分布式数据处理框架。

大规模的数据清洗转换、再加工，都离不开分布式处理框架的支持。我们需要对杂乱的数据进行标准化、对残缺的数据进行补全、对原始的数据进行深度加工提取高级属性等等。简单的，我们可以通过一些处理脚本来做，但针对于大规模的数据量级，我们依然需要依赖MR或者spark这种框架来处理。而针对于一些实时的场景，我们也不可避免的需要掌握诸如storm以及spark streaming之类的实时框架。所以，在这一环，我们不止需要了解不同的大数据处理框架，我们还需要在基于框架的基础上，做数据应用开发，进行数据处理。

最后一环：数据应用价值输出

前面我们做了很多事，包括数据的收集、传输、处理、存储等等，但这些都是手段，都不是我们的目的。我们的目的是让数据产生价值，这也是企业做大数据的核心目的。

我们可以用数据来做什么：

1)基于统计分析、数据预测，做数据化运营、决策，提升效率、效果，这是最常见的应用场景。

2)做推荐，在主体之外产生衍生价值，提升单位价值转换。

3)画像体系，至于说画像能做什么，只要能做的准，能做的事可多了。

4)基于数据化、智能化的搜索。

5)实现业务的数据化、自动化、智能化。