近期大数据跑数失败故障记录
程序BUG * 1
系统时钟不同步 * 3
JAVA运行时内存低 * 1
美云Mysql连接数超上限(僵尸链接) * 1
节点服务器磁盘空间耗尽 * 2
节点系统熵池低于下限 * 2
----------------------------------------
4月08日14:59
4月12日 7:25 大数据故障说明:
1. 已设置系统时钟自动同步,但仍发生节点系统时钟不同步故障
2. 原因不明,仍需排查具体原因。但已有解决方案。
应急方案:手动同步时钟
解决方案:待定
4月17日 3:30 大数据故障说明:
1. 大数据网页无法登录,美云Mysql数据库连接数超上限(僵尸链接)。
2. 无法确定遗留僵尸链接的具体应用程序,仍需逐步排查。
应急方案:清理数据库链接
解决方案:待定
4月19日 3:37
4月23日 5:48大数据故障说明:
1. 节点系统熵池低于下限
2. 熵代表混乱程度,被用于系统产生真随机数。Linux系统熵池存储产生随机数的种子。熵池数量低,则导致随机数不够用。大数据无法对每个文件块产生足够随机数,因此拒绝存储、跑数。
应急方案:重启集群
解决方案:安装系统服务提高熵池数值
https://www.cnblogs.com/zhangrui153169/p/12704265.html
https://blog.csdn.net/qq_33792843/article/details/90747833
https://cloud.tencent.com/developer/article/1400026
4月21日 4:42
4月24日 4:30大数据故障说明:
1. 美云调度平台安装在大数据其中一个目录节点上,执行跑数任务时会产生大量日志。正常情况下日志会被定期删除。但因程序BUG,节点故障、跑数时重启等原因导致的调度进程终止,日志会一直被程序占用,无法删除。日积月累导致大数据目录节点空间在跑数过程中间歇性耗尽,最终目录节点因无法正常检索数据而引发大数据报错。从此恶性循环。
2. 在重启集群后,会将所有集群正常产生的日志、文件缓存清除,释放出来的空间又满足跑数所需空间,因此又可以正常完成跑数。
3. 数据节点中存有大量超出正常阈值的待删除作废文件块,估算约150万个。据查,当前版本HDFS系统是有序自动删除文件块。如果其中一个文件块被异常占用,则其后所有文件块无法删除。导致数据节点空间占用,且消耗管理资源。数据节点一直处于不健康、低性能状态。
应急方案:删除过期日志,重启集群
解决方案:待定
文章评论