检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
量大,在集群数据同步限定时间内不能完成同步过程,导致超时,各个ZooKeeper Server启动失败。 参考修改集群服务配置参数章节,进入ZooKeeper服务“全部配置”页面。不断尝试调大ZooKeeper配置文件“zoo.cfg”中的“syncLimit”和“initLim
长时间不响应时,系统会将另一个NameNode切换为活动状态时,缓存的详细信息将被更新为当前活动的NameNode的信息。 约束与限制 本章节适用于MRS 3.x及后续版本。 由HDFS客户端创建的缓存文件必须由其他客户端重新使用。因此,这些文件永远不会从本地系统中删除。若禁用该功能,可能需要进行手动清理。
参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 TaskName 任务名称。 对系统的影响 周期备份任务失败,可能会导致长时间没有可用的备份包,在系统出现异常时,无法恢复。 可能原因 该告警产生
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。
x及以前版本) 告警解释 系统每隔一个小时检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。 当检查到配置正确时,则告警恢复。 告警属性 告警ID 告警级别 可自动清除 12042 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 PartitionName 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 磁盘容量不足会导致Kafka写入数据失败。
产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的上
> 更多 > 重启服务”。 服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。 检查本告警是否恢复。 是,处理完毕。 否,执行步骤 12。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的如下服务。
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当非堆内存溢出时可能会导致Loader页面无法访问,无法正常对外提供服务。 可能原因
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Guardian TokenServer
选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “服务器共享路径”:填写用户配置的NAS服务器共享目录。(服务器共享路径不能设置为根目录,且共享路径的用户组和属组必须为nobody:nobody)
、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对ClickHouse进行恢复数据操作。 集群用户可以通过FusionInsight Manager创建恢复ClickHouse业务数据任务,系统仅支持手动进行数据恢复。
默认情况下,ZooKeeper客户端与服务端之间、服务端各实例之间默认未开启SSL通道加密传输,本章节指导用户开启ZooKeeper通道加密传输。 约束与限制 该功能仅适用于MRS 3.1.2及之后版本集群。 对系统的影响 ZooKeeper服务端开启SSL通道加密传输后,将导致一定程度的性能下降。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 SlapdServer实例CPU使用率过
38009 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 主题名 产生告警的Kafka Topic。 对系统的影响 Partition所在的磁盘分区IO过于繁忙,产生告警的Kafka
JobHistory2x进程堆内存使用超出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程堆内存使用状态,当检测到JobHistory2x进程堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异
出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程直接内存使用状态,当检测到JobHistory2x进程直接内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响IndexServer