检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录FusionInsight Manager。 选择“系统 > 权限 > 角色 > 添加角色”。 填写角色的名称,例如developrole。 在“配置资源权限”的表格中配置以下参数后,单击“确定”保存。 选择“待操作集群的名称 > HDFS > 文件系统 > hdfs://hacluster/
使用Token认证机制时对Token的操作。 本章节内容适用于MRS 3.x及后续版本的启用Kerberos认证的集群。 前提条件 MRS集群管理员已明确业务需求,并准备一个系统用户。 已开启Token认证机制,详细操作请参考Kafka服务端配置。 已安装Kafka客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。
该分组的编辑“Jobs Edit”权限。 操作步骤 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本)。 选择“集群 > 待操作集群名称 > 服务 > Loader”。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致PolicySync响应缓慢。 可能原因 该节点PolicySync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。
ALM-45331 Presto Worker1线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
ALM-45332 Presto Worker2线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
是否自动清除 45641 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 备FlinkServer的配置文件没有更新,主备倒换之后,部分配置可能会丢失,会
47004 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 单个CCWorker内部平均read请求处理时延超过最大阈值后,可能会出现缓存性能下降。
Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24001
Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。 当Flume Server收到Flume Client连接消息,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24003
ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程堆内存使用状态,当检测到JobHistory进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响到Hive数据的读写,可能导致任务执行变慢,甚至服务异常重启。 可能原因 该节点Hi
ALM-18003 NodeManager不健康 告警解释 系统每30秒周期性检测不健康NodeManager节点,并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点Resou
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Yarn NodeManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。
ALM-19018 HBase合并队列超出阈值 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致Loader服务响应缓慢。 可能原因 会导致频繁FULL GC,Loader服务响应缓慢,严重时甚至有可
ALM-38007 Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源
ALM-19034 RegionServer WAL写入超时个数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的WAL写入超时个数,当检测到某个RegionServer上的WAL写入超时个数连续10次超出阈值时产生该告警。 当Regio
修改OMS数据库管理员密码 建议管理员定期修改OMS数据库管理员的密码,以提升系统运维安全性。 使用root用户登录主管理节点。 ommdba用户密码不支持在备管理节点修改,否则集群无法正常工作。只需在主管理节点执行修改操作,无需在备管理节点操作。 执行以下命令,切换用户。 sudo