为何要学Hadoop?

发布网友发布时间：2022-04-23 21:37

共2个回答

热心网友时间：2022-04-14 08:37

这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了，只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念，听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据，到时候你就不会觉得数据大真好，越大越有你头疼的。当然别怕处理这么大规模的数据，因为这是你的价值所在，让那些个搞Javaee的php的html5的和DBA的羡慕去吧。

热心网友时间：2022-04-14 09:55

Hadoop：可靠的、可扩展的、分布式计算开源软件。允许使用简单的编程模型，在计算机集群分布式地处理大型数据集。可以从单个服务器扩展到数千台机器，每个机器都提供本地计算和存储。

Hadoop能干什么？

大数据存储：分布式存储

日志处理：擅长日志分析

ETL：数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎：Hadoop + lucene实现

数据挖掘：目前比较流行的广告推荐，个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的。