检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Threshold 产生告警的阈值。 对系统的影响 产生该告警表示HBase服务的znode的容量使用率已经超过规定的阈值,如果不及时处
用户空间占用CPU百分比 内核空间占用CPU百分比 主机CPU使用率 CPU总时间 CPU闲置时间 主机状态 主机文件句柄使用率 每1分钟系统平均负载 每5分钟系统平均负载 每15分钟系统平均负载 主机PID使用率 单击“趋势”查看趋势信息。 可查看集群的资源趋势监控页面。默认显示1小时的监控数据。用户可单击自定义时间区间。
Superior调度器模式下管理MRS全局用户策略 操作场景 如果租户配置使用Superior调度器,那么系统可以控制具体用户使用资源调度器的行为,包含: 最大运行任务数 最大挂起任务数 默认队列 管理MRS全局用户策略 添加策略 登录MRS集群Manager界面。 登录集群Ma
出阈值 告警解释 系统每30秒周期性检测JobHistory2x进程非堆内存使用状态,当检测到JobHistory2x进程非堆内存使用率超出阈值(最大内存的95%)时产生该告警。 MRS 3.3.0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差
执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则发送恢复告警。 告警属性 告警ID 告警级别 可自动清除 12035 致命 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障状态的DataNode节点无法提供HDFS服务。 可能原因 DataNode故障或者负荷过高。
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 MonitorServer证书文件非法或损坏。
45644 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Level0层SST文件数持续超过阈值,
TokenServer RPC队列平均时间超过阈值 告警解释 系统每30秒周期性检测TokenServer服务RPC队列平均时间,当连续5次检测到TokenServer实例RPC队列平均时间超出阈值时产生该告警。 当系统检测到TokenServer服务RPC队列平均时间小于阈值时,告警恢复。 该告警仅适用于MRS
告警解释 系统每30秒周期性检查所有BE节点中最大的compaction score值,当检查到该值超出阈值时产生该告警。 告警属性 告警ID 告警级别 是否可自动清除 50210 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。 告警属性
Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量
45586 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 IoTDBServer进程堆内存使用率过高,会导致IoTDBServer进程数据读写性能下降,甚至造成内存
访问Spark应用获取的restful接口信息有误 问题 当Spark应用结束后,访问该应用的restful接口获取job信息,发现job信息中“numActiveTasks”的值是负数,如图1所示。 图1 job信息 numActiveTasks是指当前正在运行task的个数。
“dfs.namenode.delegation.token.max-lifetime”=“604800000”(默认是一星期) 参考修改集群服务配置参数,进入HDFS“全部配置”页面,在搜索框搜索该参数。 建议在token的最大生命周期内参数值为多倍小时数。 父主题: Yarn常见问题
BulkLoad工具配置文件说明 配置自定义的组合rowkey 使用BulkLoad工具批量导入HBase数据时,支持用户自定义组合rowkey。BulkLoad组合rowkey即通过一些规则将多个列名经过一些自定义处理,组合生成新的rowkey。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成。
有210000个map和10000个reduce的HBase BulkLoad任务运行失败 问题 MRS 3.x及之后版本HBase bulkLoad任务(单个表有26T数据)有210000个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段:
在启动HBase shell时,报错“java.lang.UnsatisfiedLinkError: Permission denied” 问题 在启动HBase shell时,为什么会发生“java.lang.UnsatisfiedLinkError: Permission denied”异常?
表示目录或文件的属组。 权限 表示目录或文件的权限设置。 日期 表示目录或文件创建时间。 在搜索框输入关键字,系统会在当前目录自动搜索目录或文件。 清空搜索框的内容,系统会重新显示所有目录和文件。 执行动作 在“文件浏览器”界面,勾选一个或多个目录或文件。 单击“操作”,在弹出菜单选择一个操作。
地保存当前节点上运行的container信息,重启NodeManager服务后通过恢复此前保存的状态信息,就不会丢失在此节点上运行的container进度。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 ResourceManager