检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Guardian TokenServer实例直
在FusionInsight Manager的告警列表中查看是否有“HDFS服务不可用”告警产生,服务列表中HDFS是否已停止。 是,如果有告警参考ALM-14000 HDFS服务不可用”的处理步骤处理该故障;如果HDFS已停止,启动HDFS服务,执行步骤 7。 否,执行步骤 7。 本地打开用户自定义配置文件properties
sql 在执行SQL语句前,请使用MRS集群管理员用户修改内存大小配置。 登录FusionInsight Manager,选择“集群 > 服务 > Spark2x > 配置”。 单击“全部配置”,并搜索“SPARK_DRIVER_MEMORY”。 修改参数值适当增加内存大小。仅支
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Lost Host 丢失节点的主机列表。 对系统的影响 丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 N
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响到OMS主要进程
Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
是否自动清除 12103 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager主备倒换。 executor进程持续重启,可能引起无法访问集群界面。
Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置> 服务 > Kafk
物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 若您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。 可用内存 除了分配给操作系统、其他服务的内存外,剩余的资源应尽量分配给YARN。通过如下配置参数进行调整。 例如,如果一个container默认使用51
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 NameService名 产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障状态的D
户名和域名。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及ke
因为日志占用了一部分存储空间,建议管理员清除比较久远的操作日志释放资源空间。 日志文件较大,可以将此文件目录添加到“/etc/logrotate.d/syslog”中,让系统做日志老化 ,定时清理久远的日志 。 更改文件日志目录:sed -i '3 a/var/log/sudo/sudo.log' /etc/logrotate
级或迁移等)时,需要对Doris数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 用户可以通过FusionInsight Manager创建备份Doris业务数据任务,系统支持自动或手动进行数据备份。 MRS集群支持多种数据路径类型备份Doris业务数据:
er,单击“集群 > 服务 > Doris > 配置”,查询Doris服务的“query_port”参数获取。 Doris DBalancer的TCP访问端口,可以通过登录Manager,单击“集群 > 服务 > Doris > 配置”,查询Doris服务的“balancer_tcp_port”参数获取。
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Guardian TokenServer实例G
本示例以安全模式Kafka为例。 前提条件 集群已安装HDFS、Yarn、Kafka、Flink和Hive(且服务名称必须为Hive)等服务。 包含Hive服务的客户端已安装,安装路径如:/opt/client。 Flink支持1.12.2及以后版本,Hive支持3.1.0及以后版本。
JobGateway常见参数 参数入口 请参考修改集群服务配置参数进入JobGateway服务配置页面。 参数说明 表1 JobGateway参数说明 参数 参数说明 默认值 HTTP_INSTANCE_PORT JobServer服务http端口。 默认值:29973 取值范围:29970~29979
产生告警的集群名称。 服务名 产生告警的集群内服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Broker实例扩容后长时间未完成分区均衡操作,导致Kafka服务长时间处
对开启了Kerberos认证的MRS集群,程序需要向服务端进行用户认证,在本示例程序中,通过代码配置认证信息,“userPrincipal”为用于认证的用户名,“userKeytabPath”和“krb5ConfPath”需要修改为该文件所在客户端服务器的实际路径。 确认工程内的参数无误后,
Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量