检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 MRS集群管理员已明确业务需求,并准备一个系统用户。 已开启Token认证机制。 已安装Kafka客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。
登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。
修改OMS数据库管理员密码 建议管理员定期修改OMS数据库管理员的密码,以提升系统运维安全性。 使用root用户登录主管理节点。 ommdba用户密码不支持在备管理节点修改,否则集群无法正常工作。只需在主管理节点执行修改操作,无需在备管理节点操作。 执行以下命令,切换用户。
配置Spark通过Guardian访问OBS 对接OBS MRS集群支持Spark服务在创建表时指定Location为OBS文件系统路径,也支持基于Hive Metastore方式对接OBS。
参数修改入口:在FusionInsight Manager系统中,选择“集群 > 服务 > 服务名 > 配置”,展开“全部配置”页签。在搜索框中输入参数名称。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致依赖本目录(详细参见告警定位信息)的上游组件(例如Yarn、Flink、Spark等)的业务异常。
Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Yarn NodeManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 RegionServer等待同步的HFile文件数量超出阈值,大量数据积压,导致大量主备数据不一致,使得容灾主备倒换或者双读从备集群读取不到最新的数据。
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 父主题: MRS集群告警处理参考
对系统的影响 Flink作业重启次数超阈值,说明Flink作业在频繁的失败重启,需要用户介入来查看原因,是Flink作业级别告警,对FlinkServer本身无影响。 可能原因 Flink重启次数超阈值的原因可在具体日志中查看。
参数修改入口:在FusionInsight Manager系统中,选择“集群 > 服务 > HDFS > 配置”,展开“全部配置”页签。在搜索框中输入参数名称。 配置后应重启对应服务使参数生效。
不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录,例如“/hbase”或“/user/hbase/backup”。
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
在MRS Manager,选择“系统设置 > 备份管理”。 单击“创建备份任务”。 设置备份策略。 在“任务名称”填写备份任务的名称。 在“备份类型”选择备份任务的运行类型,“周期备份”表示按周期自动执行备份,“手动备份”表示由手工执行备份。
告警所产生的core文件系统默认保留72小时,文件保存超时或者大小超过设定值后会被系统自动清除。如果产生该告警,请尽快联系运维人员进行处理。
此角色及其权限由系统自动控制,不支持通过“系统 > 权限> 角色”进行手动管理,角色名称为“租户名称_集群ID”。首个集群的集群ID默认不显示。 使用此租户时,请创建一个系统用户,并绑定租户对应的角色。具体操作请参见为MRS集群用户绑定租户。
<系统域名>@<系统域名> --keytab ${BIGDATA_HOME}/FusionInsight_Spark2x_8.1.0.1/install/FusionInsight-Spark2x-3.1.1/keytab/spark2x/SparkResource/spark2x.keytab
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能会导致业务数据不可用,在Doris客户端查询数据失败。 可能原因 硬盘故障。 磁盘权限设置不正确。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致并发任务处理变慢、业务延迟。