检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PostgreSQL或Opengauss(适用于MRS 3.3.0及之后版本)积压过多的WAL日志,可能导致PostgreSQL或Opengauss磁盘空间耗尽。系统每5分钟检查CDL任务配置的复制槽Slot积压数据量是否超过阈值,如果是,则产生该告警。复制槽Slot积压低于阈值,告警恢复。 告警属性 告警ID
ALM-45635 FlinkServer作业失败 适用于MRS 3.1.2及之后版本。 告警解释 系统每10秒为周期检查FlinkServer作业是否执行失败,如果失败则产生告警。作业重新启动成功,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45635 重要 是 告警参数
50402 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 用户无法操作与JobGateway组件相关的作业功能。例如:MRS管控面作业管理中的功能,无法在作业管理
Superior调度器模式下管理MRS全局用户策略 操作场景 如果租户配置使用Superior调度器,那么系统可以控制具体用户使用资源调度器的行为,包含: 最大运行任务数 最大挂起任务数 默认队列 管理MRS全局用户策略 添加策略 登录MRS集群Manager界面。 登录集群Ma
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败 告警解释 系统每5小时周期性为组件和“customized.quota”配置项中的每个ZooKeeper顶层目录设置配额,当设置某个目录的配额失败时,会产生该告警。 当设置失败的目录重新设置配额成功时,告警恢复。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Yarn ResourceManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 RegionServer等待同步的wal文件数量超出阈值,大量数据积压,导致大量主备数据不一致,使得容灾主备
ALM-23001 Loader服务不可用 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 23001 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 正在运行的调度任务会阻塞,无法提交新的调度任务。 可能原因 HDFS服务重启、故障或网络故障导致Oozie与HDFS连接状态异常。
个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。 针对小文件很多的场景,DataSource在创建RDD时,先将Table中的split生成PartitionedFile,再将这些
如果“启用Ranger鉴权”是灰色,表示已开启Ranger鉴权,如图1所示。 已启用Ranger授权的组件(HDFS与Yarn除外),Manager上非系统默认角色的权限将无法生效,需要通过配置Ranger策略为用户组赋权。 图1 启用Ranger鉴权 滚动重启服务或者重启服务。 父主题: 使用Ranger
sername。 从ZooKeeper客户端创建znode,其kerberos principal是“zkcli/hadoop.<系统域名>@<系统域名>”。 例如打开日志<ZOO_LOG_DIR>/zookeeper_audit.log,内容如下: 2016-12-28 14:17:10
login.keytab: " 原因分析 在安全集群环境下,Flink需要进行安全认证。当前客户端未进行相关安全认证设置。 Flink整个系统有两种认证方式: 使用kerberos认证:Flink yarn client、Yarn Resource Manager、JobMana
务,或者两个小时才提交成功。 原因分析 通过后台日志看到一些Java安全随机数的日志,在JDK中,SecureRandom算法底层依赖操作系统提供的随机数据;在Linux中,与之相关的是“/dev/random”和“/dev/urandom”。当熵池为空时,来自“/dev/ran
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS NameNode内存使用率过高,会影响HDFS的数据读写性能。 可能原因 HDFS NameNode配置的内存不足。
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS DataNode内存使用率过高,会影响到HDFS的数据读写性能。 可能原因 HDFS DataNode配置的内存不足。
票据和授权tokens,避免认证过期。示例如下: spark-shell --principal spark2x/hadoop.<系统域名>@<系统域名> --keytab ${BIGDATA_HOME}/FusionInsight_Spark2x_8.1.0.1/install
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能会导致业务数据不可用,在Doris客户端查询数据失败。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机D状态和Z状态进程数过高时