一、问题表现:
凌晨3点30分跑数失败,4.30号,5.10号,5.12号 失败,其他时间正常
二、原因分析:
1、通过对比5.5(正常)号和5.12(出错)的日志,发现在5.12号执行跑数,查找nameservice/时,找不到路径:
''hdfs://nameservice1/user/hive/temp/BD_CI'': No files matching path hdfs://nameservice1/user/hive/temp/BD_CI
2、跟踪namaservice,通过HDFS查看路径,发现nameservice路径是,namenode1和namenode2的虚拟路径
3、再查看namenode1或namenode2发现,namenode2因未知故障,服务关闭,导致nameservice服务对应namenode2无法查询到,因此判定失败。分析可能是跑数程序在寻找nameservice时,是随机指定namenode1或namenode2作为节点进行访问,才导致有时正常,有时会出现问题
4、现在已经将namenode2服务启动,再进行下一步观察
文章评论