问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

hadoop入门,了解什么是hadoop

发布网友 发布时间:2022-05-06 08:48

我来回答

2个回答

懂视网 时间:2022-05-06 13:10

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址:http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/ 什么是Hadoop Rumen? Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具

什么是Hadoop Rumen?

Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具,它能够将JobHistory 日志解析成有意义的数据并格式化存储。Rumen可以单独使用,但通常作为其他组件,比如GridMix (v3) 和 Mumak的基础库。

Hadoop Rumen设计动机

对于任何一个工作在Hadoop之上的外部工具,分析JobHistory日志都是必须的工作之一。基于这点考虑,Hadoop应内嵌一个JobHistory日志分析工具。

统计分析MapReduce作业的各种属性,比如任务运行时间、任务失败率等,通常是基准测试或者模拟器必备的功能,Hadoop Rumen可以为任务生成Cumulative Distribution Functions (CDF),这可以用于推断不完整的、失败的或者丢失的任务。

Hadoop Rumen基本构成

Hadoop Rumen已经内置在Apache Hadoop 1.0之上(包括0.21.x,0.22.x,CDH3)各个版本中,位于org.apache.hadoop.tools.rumen包中,通常被Hadoop打包成独立的jar包hadoop-tools-[VERSION].jar。Hadoop Rumen由两部分组成:

(1) Trace Builder

将JobHistory日志解析成易读的格式,当前仅支持json格式。Trace Builder的输出被称为job trace(作业运行踪迹),我们通过job trace很容易模拟(还原)作业的整个运行过程。

(2) ?Folder

将job trace按时间进行压缩或者扩张。这个还是为了方便其他组件,比如GridMix (v3) 和 Mumak,使用。Folder可以将作业运行过程进行等比例缩放,以便在更短的时间内模拟作业运行过程。

试用Hadoop Rumen

你可以通过两种方式运行Rumen,一种是使用集成化(综合所有功能)的HadoopLogsAnalyzer类,在很多Hadoop版本中,这个类已经过期,不推荐使用,另一种是使用TraceBuilder和Folder类。它们的运行方式基本类似,下面以HadoopLogsAnalyzer类为例进行说明:

bin/hadoop org.apache.hadoop.tools.rumen.HadoopLogsAnalyzer -v1 -write-job-trace file:///tmp/job-trace.json -write-topology file:///tmp/topology.json file:///software/hadoop/logs/history/done/

其中,“-v1”表示采用version 1的JobHsitory格式,如果你的Hadoop版本是0.20.x系列,则需要加这个参数,“-write-job-trace”是输出的job trace存放位置,“-write-topology”是拓扑结构存放位置,Rumen能够通过分析JobHistory中所有文件得到Hadoop集群的拓扑结构。最后一项紧跟你的JobHistory 中done目录存放位置,一般在${HDOOP_LOG}/history/done中,如果在本地磁盘,则需在目录前加前缀file://,如果在HDFS上需在目录前加前缀“hdfs://”。

下面是截取的job-trace.json和topology.json文件内容:

【job-trace.json】

“priority” : “NORMAL”,
“jobID” : “job_201301061549_0003″,
“mapTasks” : [ {
"attempts" : [ {
"location" : null,
"hostName" : "HADOOP001",
"startTime" : 1357460454343,
"finishTime" : 1357460665299,
"result" : "KILLED",
"shuffleFinished" : -1,
"sortFinished" : -1,
"attemptID" : "attempt_201301061549_0003_m_000000_0",
"hdfsBytesRead" : -1,
"hdfsBytesWritten" : -1,
"fileBytesRead" : -1,
"fileBytesWritten" : -1,
"mapInputRecords" : -1,
"mapOutputBytes" : -1,
"mapOutputRecords" : -1,
"combineInputRecords" : -1,
"reduceInputGroups" : -1,
"reduceInputRecords" : -1,
"reduceShuffleBytes" : -1,
"reduceOutputRecords" : -1,
"spilledRecords" : -1,
"mapInputBytes" : -1
} ],
“preferredLocations” : [ ],
“startTime” : 1357460454686,
“finishTime” : -1,
“inputBytes” : -1,
“inputRecords” : -1,
“outputBytes” : -1,
“outputRecords” : -1,
“taskID” : “task_201301061549_0003_m_000000″,
“numberMaps” : -1,
“numberReduces” : -1,
“taskStatus” : null,
“taskType” : “MAP”
}, {
….

【topology.json】

{
“name” : “”,
“children” : [ {
"name" : "default-rack",
"children" : [ {
"name" : " HADOOP001",
"children" : null
}, {
"name" : " HADOOP002",
"children" : null
}, {
"name" : HADOOP003",
"children" : null
}, {
"name" : " HADOOP004",
"children" : null
}, {
"name" : " HADOOP005",
"children" : null
}, {
"name" : " HADOOP006",
"children" : null
} ]
} ]
}

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/

作者:Dong,作者介绍:http://dongxicheng.org/about/


Copyright © 2012
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

热心网友 时间:2022-05-06 10:18

你学hadoop的动机是什么?只是玩玩而已么。还是想从事这方面。
如果是后者,那么不学linux那就是个笑话,hadoop,直白点来说是多个主机来做一个存储或数据库,你不学习linux怎么配置各个linux的环境?怎么控制他的负载均衡?
甚至你需要学习网络等方面的知识,里面的一些报错很抽象,需要根据一些网络基础判断出错原因。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
太和县环球嘉年华港口有限公司怎么样? 为什么抵触相亲? 鸡蛋怎么做好吃家常做法大全 为何抵触相亲 为什么很多人都抵触相亲? 鸡蛋怎么做才营养好吃呢? 怎么可以搞到110电话打过去给别人 植发后能保持多久?有人知道吗? 银联储蓄卡包括什么 怎么让电脑图标变小如何将电脑桌面上软件变小 以桥为主题写随笔,600字左右,在度娘上找的都可以啊!最好是非常出名的桥或是长沙的桥 人类如果想突破时间和空间的限制,需要掌握哪些技术? 空间技术的利弊 空间技术的主要成就 空间技术的广泛应用都表现在哪里? 未来空间技术的发展方向 一遇到一点小事就心里烦的不得了,还会持续很久!我该怎么调理心情呢? 当你心情不好的时候你会做些什么? 随笔200字!!!不能超过250字!!!有几篇发几篇!!!看情况加分!!! 心情烦躁时该怎么办呢? 急求600字随笔三篇!!!偏日常,能悟出什么道理更好,是不是原创无所谓,某人憋不出随笔郁闷中。。。 心烦的时候,该写什么 心情莫名有些烦躁不安,感觉好疲惫,最近自己身体不适,在家修养。怎么用散文诗来描诉此刻内心情绪。谢谢 今年大连的高中什么时候放暑假 大连市今年高中什么时候放假? 大连市127中学,寒假什么时候放 土豆蒸菜的做法大全 大连高中放假时间都怎么安排的? 梦幻西游手游知道id号怎么修改 支付宝信用卡还款怎么只能查询到最近几个月的还款记录,能查询一两年前的吗? 开发一个网络视频会议系统 需要具备什么方面的知识 怎么把照片弄成2寸的 三星s9+怎么设置来新消息时亮屏 三星s9+充电时屏幕有时会自动亮起来是怎么回事。 三星S9亮屏不解锁状态下,显示的图文咨询怎么设置? 三星s9 可以点击亮屏吗 三星S9手机锁屏的时候手机像电视那样整个屏幕从左右两端开始猛的合到中间成一条亮白线怎么设置 怎么了刮胡子,第一次,手动 怎么用适当的方法解一元二次方程? 数学思维导图 多媒体教学的多媒体结构特点及功能 二元一次方程组和三元一次方程组的思维导图 从实际问题到方程思维导图 一元一次方程思维导图手绘? 女朋友发朋友圈说 积蓄你的能量眷顾你的善良变得勇敢 当这个世界越来越坏我希望你越来越好 互联网金融与证券基金公司的关系 老手机微信不能再新手机上登录,显示“你操作太频繁,请稍后再试”,怎么... 越长大越孤单的说说语录 《Hadoop大数据入门与实践》pdf下载在线阅读全文,求百度网盘云资源 祝福语(100--200字)