检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务系统运行不正常或不可用。 可能原因 告警阈值配置不合理。 网口速率不满足当前业务需求。 处理步骤 检查阈值设置是否合理。
检查系统环境是否异常。 联系操作系统维护人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行步骤 8。 否,执行步骤 9 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 9 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。
需要联系系统管理员扩大端口范围。
kinit 组件业务用户 在HDFS命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。
ALM-29004 Impalad进程内存占用率超过阈值 告警解释 以30s为周期检测Impalad进程系统内存占用率,当检测到的超过默认阈值(80%)时,系统产生此告警。 当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。
<系统域名> 系统随机生成 ZooKeeper系统启动用户。 zkcli/hadoop.<系统域名> 系统随机生成 登录Zookeeper服务器用户。 oozie 系统随机生成 Oozie系统启动与Kerberos认证用户。 kafka/hadoop.
备份DBService元数据 操作场景 为了确保DBService日常数据安全,或者系统管理员需要对DBService进行重大操作(如升级或迁移等)时,需要对DBService数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。
恢复Flink元数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。
约束与限制 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 HBase元数据不能与NameNode元数据同时恢复,会导致数据恢复失败。 MRS 3.1.0及之后版本,支持从OBS中恢复数据。 对系统的影响 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。
value " + i); } session.apply(insert); } // Call session.close() to end the session and ensure the rows are // flushed and errors are returned
value " + i); } session.apply(insert); } // Call session.close() to end the session and ensure the rows are // flushed and errors are returned
There are some messages at [Partition=Offset]: {default-0=177} whose size is larger than the fetch size 1048576 and hence cannot be ever returned
该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式,请确保备用集群的HBase系统用户具有主集群HDFS的读取权限。因为它将更新HBase系统ZooKeeper节点和HDFS文件。 主集群HBase故障后,主集群的ZooKeeper,文件系统和网络依然可用。
kinit 用户名 在Flink命令行显式添加要访问的OBS文件系统,并执行分析程序。
只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 对系统的影响 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。
package com.xxxbigdata..hetuengine.functions; public class AddTwo { public Integer evaluate(Integer num) { return num + 2; }
该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式,请确保备集群的HBase系统用户具有主集群HDFS的读取权限。因为备集群将更新HBase系统Zookeeper节点和HDFS文件。 主集群HBase故障后,主集群的Zookeeper、文件系统和网络依然可用。
ALM-12080 omm密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否即将过期,如果当前时间与密码过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。
ALM-29100 Kudu服务不可用 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到所有的Kudu实例都异常时,就会认为Kudu服务不可用,此时产生该告警。 至少一个Kudu实例正常后,系统认为Kudu实例服务恢复,告警清除。
ALM-45443 集群存在慢SQL查询 告警解释 系统每隔1分钟检测ClickHouse的慢SQL,当检测到有SQL的执行时间大于等于慢SQL阈值时,系统产生此告警。 当系统检测到SQL执行时间小于慢SQL阈值时,告警自动清除。