问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

什么是大数据分析Hadoop?

发布网友 发布时间:2022-04-23 03:30

我来回答

2个回答

热心网友 时间:2022-04-14 05:58

  要了解什么是Hadoop,我们必须首先了解与大数据和传统处理系统有关的问题。前进,我们将讨论什么是Hadoop,以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究,以突出使用Hadoop的好处。

  在之前的博客“ 大数据教程”中,我们已经详细讨论了大数据以及大数据的挑战。在此博客中,我们将讨论:

  1、传统方法的问题

  2、Hadoop的演变

  3、Hadoop的

  4、Hadoop即用解决方案

  5、何时使用Hadoop?

  6、什么时候不使用Hadoop?

一、CERN案例研究

  大数据正在成为组织的机会。现在,组织已经意识到他们可以通过大数据分析获得很多好处,如下图所示。他们正在检查大型数据集,以发现所有隐藏的模式,未知的相关性,市场趋势,客户偏好和其他有用的业务信息。

  这些分析结果正在帮助组织进行更有效的营销,新的收入机会,更好的客户服务。他们正在提高运营效率,与竞争对手组织相比的竞争优势以及其他业务利益。

  
什么是Hadoop –大数据分析的好处

  因此,让我们继续前进,了解在兑现大数据机会方面与传统方法相关的问题。

二、传统方法的问题

  在传统方法中,主要问题是处理数据的异构性,即结构化,半结构化和非结构化。RDBMS主要关注于银行交易,运营数据等结构化数据,而Hadoop则专注于文本,视频,音频,*帖子,日志等半结构化,非结构化数据。RDBMS技术是一种经过验证的,高度一致,成熟的系统许多公司的支持。另一方面,由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。

  现在让我们了解与大数据相关的主要问题是什么。因此,继续前进,我们可以了解Hadoop是如何成为解决方案的。

  
什么是Hadoop –大数据问题

  第一个问题是存储大量数据。

  无法在传统系统中存储大量数据。原因很明显,存储将仅限于一个系统,并且数据正在以惊人的速度增长。

  第二个问题是存储异构数据。

  现在,我们知道存储是一个问题,但是让我告诉您,这只是问题的一部分。由于我们讨论了数据不仅庞大,而且还以各种格式存在,例如:非结构化,半结构化和结构化。因此,您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。

  第三个问题是访问和处理速度。

  硬盘容量正在增加,但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释:如果您只有一个100 Mbps I / O通道,并且正在处理1TB数据,则大约需要2.91个小时。现在,如果您有四台具有一个I / O通道的计算机,则对于相同数量的数据,大约需要43分钟。因此,与存储大数据相比,访问和处理速度是更大的问题。

  在了解什么是Hadoop之前,让我们首先了解一下Hadoop在一段时间内的发展。

  Hadoop的演变



  2003年,道格·切特(Doug Cutting)启动了Nutch项目,以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月,Google发布了MapRece论文。在2005年,Nutch使用GFS和MapRece进行操作。2006年,雅虎与Doug Cutting及其团队合作,基于GFS和MapRece创建了Hadoop。如果我告诉您,您会感到惊讶,雅虎于2007年开始在1000个节点的群集上使用Hadoop。

  2008年1月下旬,雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月,Apache通过Hadoop成功测试了4000个节点的集群。2009年,Hadoop在不到17小时的时间内成功整理了PB级数据,以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月,Apache Hadoop发布了1.0版。2013年8月下旬,发布了2.0.6版。

  当我们讨论这些问题时,我们发现分布式系统可以作为解决方案,而Hadoop提供了相同的解决方案。现在,让我们了解什么是Hadoop。

三、什么是Hadoop?

  Hadoop是一个框架,它允许您首先在分布式环境中存储大数据,以便可以并行处理它。 Hadoop中基本上有两个组件:

  1、大数据Hadoop认证培训

  2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程

  
什么是Hadoop – Hadoop框架

  第一个是用于存储的HDFS(Hadoop分布式文件系统),它使您可以在集群中存储各种格式的数据。第二个是YARN,用于Hadoop中的资源管理。它允许对数据进行并行处理,即跨HDFS存储。

  让我们首先了解HDFS。

  HDFS

  HDFS创建一个抽象,让我为您简化一下。与虚拟化类似,您可以在逻辑上将HDFS视为用于存储大数据的单个单元,但是实际上您是在分布式方式下跨多个节点存储数据。HDFS遵循主从架构。

  
什么是Hadoop – HDFS

  在HDFS中,名称节点是主节点,数据节点是从节点。 Namenode包含有关存储在Data节点中的数据的元数据,例如哪个数据块存储在哪个数据节点中,数据块的复制位置在哪里等 。实际数据存储在Data Nodes中。

  我还想补充一下,实际上我们复制了数据节点中存在的数据块,默认复制因子是3。 由于我们使用的是商用硬件,并且我们知道这些硬件的故障率很高,所以如果其中一个DataNodes失败,HDFS将仍然具有那些丢失的数据块的副本。 您还可以根据需要配置复制因子。您可以阅读HDFS教程,详细了解HDFS。

四、Hadoop即解决方案

  让我们了解Hadoop如何为刚刚讨论的大数据问题提供解决方案。

  
什么是Hadoop – Hadoop即解决方案

  第一个问题是存储大数据。

  HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中,您可以指定块的大小。基本上,如果您拥有512MB的数据,并且已经配置了HDFS,那么它将创建128MB的数据块。 因此,HDFS将数据分为512/128 = 4的4个块,并将其存储在不同的DataNode上,还将在不同的DataNode上复制数据块。现在,由于我们正在使用商品硬件,因此存储已不是难题。

  它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点,而不是扩展DataNodes的资源。让我为您总结一下,基本上是用于存储1 TB的数据,您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。

  下一个问题是存储各种数据。

  借助HDFS,您可以存储各种数据,无论是结构化,半结构化还是非结构化。由于在HDFS中,没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此,您只需写入一次数据,就可以多次读取数据以寻找见解。

  Hird的挑战是访问和处理数据更快。

  是的,这是大数据的主要挑战之一。为了解决该问题,我们将处理移至数据,而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapRece中,处理逻辑被发送到各个从属节点,然后在不同的从属节点之间并行处理数据。然后,将处理后的结果发送到主节点,在该主节点上合并结果,并将响应发送回客户端。

  在YARN架构中,我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。 但是,应该将NodeManager配置在存在DataNode的同一台计算机上。

  YARN通过分配资源和安排任务来执行您的所有处理活动。

  什么是Hadoop – YARN

  它具有两个主要组件,即ResourceManager和NodeManager。

  ResourceManager再次是主节点。它接收处理请求,然后将请求的各个部分相应地传递到相应的NodeManager,什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。

  我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进,了解何时使用和何时不使用Hadoop。

  何时使用Hadoop?

  Hadoop用于:

  1、搜索 – Yahoo,亚马逊,Zvents

  2、日志处理 – *,雅虎

  3、数据仓库 – *,AOL

  4、视频和图像分析 –纽约时报,Eyealike

  到目前为止,我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下,不建议使用Hadoop。

热心网友 时间:2022-04-14 07:16

大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapRece的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
苹果电脑电池充不进电苹果电脑充不进去电是怎么回事 苹果电脑不充电没反应苹果电脑充电指示灯不亮充不了电怎么办 狗狗更加忠诚护家、善解人意,养一只宠物陪伴自己,泰迪能长多大... 描写泰迪狗的外形和特点的句子 国外留学有用吗 花钱出国留学有用吗 !这叫什么号 百万医疗赔付后是否可以续保 前一年理赔过医疗险还能续保吗? 医疗住院险理赔后还能购买吗? 西餐中牛排的做法 hadoop 节点数据块丢失怎么办 请问牛排的做法? Java程序访问不了HDFS下的文件,报缺失块的异常,请高手解决一下 贴现时间怎么确定? 求助,应收票据贴现的天数到底该如何计算 西餐的牛排 是怎么做的? 西餐牛排如何制作呢? 商业汇票怎么计算到期日和贴现天数? 西式牛排怎么做? 贴现天数到底怎么算的? 关于商业承兑汇票到期日 和贴现期限天数的计算 贴现天数的题目怎么算 财务会计,第三步的贴现天数是怎么计算的?还有第五步的计提利息得天数又是怎么计算的。搞不懂 贴现天数怎么算啊 应收票据贴现时, 实际贴现天数怎么计算,老算不对? 跪求贴现天数的计算方法,算头不算尾没理解,怎么算的?求大神详细解释 银行承兑汇票贴现天数怎麽算 贴现天数怎么计算,请具体说下,还有就是按月和按天具体的算法 票据贴现日期的计算 谁知道正宗的牛排是如何做的?? 如何恢复hadoop中被删除的文件 hdfs在上传文件的时候,如果其中一个块突然损坏了怎么办 hdfs文件修复 如何做牛排? cloudera 提示hdfs 副本不足的块 怎么解决 牛排是哪个国家发明的 Hadoop如何处理?如何增强Hadoop 安全? 自制牛排怎 hdfs safe原因 牛排怎么做啊?谢谢呀 hdfs提示副本不足的块是什么意思 牛排怎么做??? HDFS中的块与普通文件系统的块有什么区别? 使用hdfs fsck检查副本数不足,怎么恢复 生牛排怎么做 欧洲牛排怎么做的啊拜托各位了 3Q hadoop 数据偏移怎么解决 阐述HDFS是如何减轻中心节点的负担? 分布式文件系统hdfs主要由哪些功能模块构成