检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装补丁前准备 安装补丁前需要手动进行以下相关检查。 检查所有节点管理平面网络是否互通 登录MRS集群Manager界面。 登录集群Manager界面请参考访问MRS集群Manager。 选择“运维 > 告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。
理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 如果是跨补丁版
离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS
0-LTS.1.10补丁会提示需要用户输入root密码或者密钥。 否,需要先安装MRS 3.2.0-LTS.1.8补丁,安装完需要重启相关服务,具体请参考MRS 3.2.0-LTS.1.8版本补丁说明。 检查集群是否是使用密钥创建的集群 检查集群是否是使用密钥创建的集群。 是,需要先给集群安装MRS_3
理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 升级路径不一样重启的服务不一样,详情见如下表格。
的操作系统磁盘分区说明如表1所示。 表1 MRS集群节点OS盘分区说明 分区类型 分区目录 容量 用途 OS分区 / 220GB 操作系统根分区目录和程序存放目录,包括了所有目录(除去下面指定的目录)。 /tmp 10GB 临时文件存放目录。 /var 10GB 操作系统运行目录。
离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS
{客户端安装目录} 例如: sh upgrade_client.sh upgrade /opt/client/ 升级组件安装包 该操作可以解决添加服务、添加实例、新下载客户端场景下的补丁安装。 登录集群主OMS节点,执行以下命令。 su - omm cd /opt/Bigdata/patches/MRS_3
对应的详细通知。 添加消息订阅规则后,可能会收到部分一定时间内的历史告警。 相关文档 SMN服务可以依据用户的需求主动推送各云服务的通知消息,更多关于SMN服务的介绍,请参考消息通知服务 SMN。 MRS集群的各类告警需手动进行恢复处理,相关操作请参考MRS集群告警处理参考。 父主题:
告警解释 当系统检测到Loader任务执行失败时即时产生该告警。当用户手动处理执行失败的任务后该告警恢复。该告警需要手动清除。 告警属性 告警ID 告警级别 是否自动清除 23003 次要 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名
是否自动清除 25004 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机节点信息。 对系统的影响 LdapServer数据不一致时,有可能是Manager上的LdapServer数
Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Running Queries Delay 产生告警的计算实例租户名和当前超过阈值的大小。 对系统的影响 HetuEngine计算实例查询时
是否自动清除 45638 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 任务名 产生告警的任务名称。 用户名 产生告警的用户名称。 对系统的影响 Flink作业重启次数超过阈值,说明Flink作业在频繁的失败重启,需要作业开发用户
修改MRS集群系统用户密码 修改或重置MRS集群admin用户密码 修改MRS集群节点操作系统用户密码 修改MRS集群Kerberos管理员用户密码 修改MRS集群Manager用户密码 修改MRS集群LDAP普通用户密码 修改MRS集群LDAP管理账户密码 修改MRS集群组件运行用户密码
修改MRS集群数据库用户密码 修改OMS数据库管理员密码 修改OMS数据库访问用户密码 修改MRS集群组件数据库用户密码 重置MRS集群组件数据库用户密码 重置DBService数据库omm用户密码 修改DBService数据库compdbuser用户密码 父主题: MRS集群安全配置
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机CPU使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务失败:主机PID使用率过高时,无法分
告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主机磁盘IO读取等待时长过高时,可能会导致业务进程运行处理缓慢、业务延迟。
产生告警的服务名称。 服务目录 产生告警的目录名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致依赖本目录(详细参见告警定位信息)的上游组件(例如Yarn、Flink、Spark等)的业务异常。