问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

NameNode HA异常调查

发布网友 发布时间:2022-11-28 04:50

我来回答

1个回答

热心网友 时间:2023-05-29 22:33

【起因】22:31:04分被通知集群异常,无法正常处理调度任务;远程登录查看,发现HDFS NameNode发生脑裂;

NameNode节点:name21.hadoop,name22.hadoop
hadoop版本:2.7.1

【事故报告】

1. 【时间】=> 22:31:04
【HA状态】=> name21.hadoop:Active, name22.hadoop:Standyby
【日志信息】=> name21.hadoop:/var/log/hadoop/hdfs/gc.log-xxxxxxxxxx

此时,Active NameNode触发一次异常JVM GC(正常情况下GC耗时在2s以下),此次耗时32.46s;

2.【时间】=> 22:31:37
【HA状态】=> name21.hadoop:Active, name22.hadoop:Standyby
【日志信息】=> name21.hadoop:/var/log/hadoop/hdfs/hadoop-hdfs-namenode-name21.hadoop.log

此时,由于之前GC时间过长,导致active NameNode向JournalNodes进行数据通信时,超时导致无法响应(超时时间默认值为20s,GC耗时32s);

至此,Active Namenode节点进入异常状态(进程无法结束,程序所起8021端口不存在);

3.【时间】=> 22:32:22
【HA状态】=> name21.hadoop:Active, name22.hadoop:Standyby
【日志信息】=> name21.hadoop:/var/log/hadoop/hdfs/hadoop-hdfs-zkfc-name21.hadoop.log

此时, name21.hadoop上的ZKFailoverController无法获取到本机Namenode的状态 [无法将Active状态修改为Standby] ,此后每隔45s反复重试;同时,与zookeeper的session连接关闭;

4.【时间】=> 22:32:22
【HA状态】=> name21.hadoop:Active, name22.hadoop:Standyby
【日志信息】=> name22.hadoop:/var/log/hadoop/hdfs/hadoop-hdfs-zkfc-name22.hadoop.log

与此同时, name22.hadoop的namenode与zookeeper建立session连接, ZKFailoverController 尝试连接name21.hadoop上的Namenode,将状态从Active修改为Standby, 报错连接超时;

启动Fence服务(集群并未设置,直接返回ture),并将name22.hadoop Namenode的状态从Standby变为Active;

5.【时间】=> 22:32:46
【HA状态】=> name21.hadoop:Active, name22.hadoop:Active
至此,集群的NameNode出现双Active状态,发生脑裂;

6.【恢复措施】
后面运维介入时,尝试重启namenode,发现一直卡在35%进度,无法在执行下去;

原因:运维介入时,首先尝试重启name22.hadoop上的namenode,此时重启程序检测到双active,程序会反复获取状态,直到active只有一个;

此时出现的情况是:
name21.hadoop的namenode异常(8021端口连接超时),无法将自身状态从active修改为standby;
name22.hadoop的namenode已经被ZKFailoverController选举为active,选举理由也是name21.hadoop的8021端口连接异常;

因此,需要重启name21.hadoop上的namenode(恢复8021端口),重启时会检测name22.hadoop的namenode状态(检测name22.hadoop的8021端口),将自身从active切换为standby;name22.hadoop无需重启;

7.【预防措施】
a. 优化GC参数,添加namenode的GC监控,找出GC异常的原因并修复;
b. 提高journalNode的写入超时时间,目前默认值是20s,对于生产环境有必要提高到60s;
c. 启动Fence服务;
d. 集群namenode节点的状态监控;

博客主页: https://www.jianshu.com/u/e97bb429f278

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
笔记本电脑的哪些牌子什么牌子的笔记本电脑好 笔记本电脑品牌质量排行榜你知道哪个最耐用全面解析笔记本电脑品牌的质 ... 十大笔记本电脑品牌笔记本电脑推荐品牌 各大汽车电脑品牌厂家官方售后服务电话合辑v3.00 哪种笔记本电脑售后好哪个品牌电脑售后好 各大笔记本电脑品牌售后网点及售后电话汇总解决您笔记本电脑问题的选 ... 如何教育孩子成学霸 学霸的家长是怎样培养孩子的? 聪明的懒孩子怎么变成学霸 学霸孩子怎么培养 原创-namenode配置Federation 国庆节很火的一句话 去年国庆火爆朋友圈的话 辽阳的老乡们 .谁知道辽阳游泳馆都哪写.价格[男女都要] 地址谢谢各位了 重谢! 血红的代表作是什么? 血红的小说 求助 纯水机、净水器、软水机、直饮机的区别是什么? 软化水设备和前置过滤器是不是有很大区别啊 我不太懂这个 谁能帮忙介绍下 谢啦 家里水锈多 不知道安哪种应 为什么骨折的人都要打石膏呢 股市中的pB值怎计? 这2款新国标电动车,配48V20ah锂电池,最大续航70公里 求问你们都是怎么找到对象的? 缘来是你app真的能约吗 4。8的螺丝是不是用22的扳手 锋翼后牙盘,四颗螺丝用多大的扳手拧得下来 比较好听的歌曲, QQ音乐怎么变成试听版了 怎么改过来 你认为好听的流行音乐有哪些? 女歌手唱的,中间歌词有“爱是” 重复好几遍,据说是新歌,请问哪位知道歌名,谁唱的? 刀郎的《爱是你我》这首歌是什么时候出版的呀?拜托各位了 3Q 绿盟科技长春分公司在什么位置? 华硕K40IN系列摄像头硬件ID为:USB\VID_174F&PID_1408的笔记本电脑安装官网驱动后摄像头图像倒置 中国功夫的英文介绍是什么? vr入门选什么设备好 金骏眉加冰糖可以去火吗? 凤凰天机生活幽默93期 求仙之天缘V2各职业高级存档 有修改器的朋友也顺带发给我吧 30812468@qq.com 中国男篮笫一次去巴黎是那个队。 华溢之星资产管理(北京)有限公司怎么样? 姚明有那些故事 姚明是NBA著名球星,也是中国人的骄傲,请从各种渠道搜集资料,说一说你对他的了解 平安信用卡逾期一个月 二十三、建立需求变更流程 八年级实践活动教案 四年级下册课文《蚁国英雄》教学反思 电脑没电了怎么办,插电也充不进去? 日漫和美漫有什么区别,美漫党一只 求解 甘丹赤巴的简介 1431年的历史人物 藏传佛教的宗喀巴大师就转世吗?