检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager中的Kerberos资源异常,组件WebUI认证服务不可用,无法对Web上层服务提供安全认证功能,可能引起无法登录FusionInsight
是否自动清除 12089 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 数据传输异常:如果网络互通异常,数据的传输会变得缓慢或者中断,导致数据丢失或者传输不完整。
告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 告警触发的条件。 对系统的影响 业务延迟:主机磁盘IO写入等待时长过高时,可能会导致业务进程运行处理缓慢、业务延迟。
待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > quorumpeer > 性能”中,将“maxCnxns”的值根据实际情况调大。 图1 maxCnxns 保存配置,并重启ZooKeeper服务。 服务在重启过程中将不可用。另外,依赖该服务的上层服务也将受到影响。
Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 正在运行的调度任务会阻塞,无法提交新的调度任务。 可能原因 DBService服务异常。 Oozie连接DBService异常。
离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS
理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 升级路径不一样重启的服务不一样,详情见如下表格。
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。
补丁基本信息 表1 补丁基本信息 补丁号 MRS_3.1.0_TROS_Tools_patch_20240430 发布时间 2024-07-15 解决的问题 MRS_3.1.0_TROS_Tools_patch_20240430修复问题列表: 支持Manager运维通道 支持运维巡检特性
离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。 安装补丁过程中会影响弹性伸缩以及MRS
Manager界面重启组件:选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 在MRS控制台重启组件:选择“现有集群”,单击集群名称进入集群详情页面。单击“组件管理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。
安装补丁前准备 安装补丁前需要手动进行以下相关检查。 检查MRS集群的委托的OBS桶权限 安装补丁前需要检查Spark作业在DataArts上配的作业OBS桶路径。用户委托中如果只配置了MRS作业业务桶,可能会导致安装补丁后SparkScript/SparkSubmit作业提交失败。
Manager界面重启组件:选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 在MRS控制台重启组件:选择“现有集群”,单击集群名称进入集群详情页面。单击“组件管理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。
通过MapReduce服务节点管理页面查看该节点上拥有的标签。 默认标签:MapReduce集群中包含多个节点,节点下包括云服务器和云硬盘。启用默认标签后,系统会自动创建一个默认集群标签,并为每个节点创建一个默认节点标签,且默认标签会自动同步到对应的云服务器或云硬盘节点上。 通过
当不同的两个Manager系统下安全模式的集群需要互相访问对方的资源时,系统管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。 如果未配置跨集群互信,每个集群资源仅能被本集群用户访问。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨M
过程中找到关键瓶颈点,解决性能问题。 图1 调优流程 表1 调优流程说明 流程 描述 系统调优 对OS操作系统级参数和数据库的调优,充分地利用主机的CPU、内存、I/O和网络资源,提升整个系统查询的吞吐量,同时数据库参数也调整到最优状态。 SQL调优 审视业务所用SQL语句是否存在可优化空间,包括:
ckHouse的数据也是按照列存储的。如果使用select *,会大大加重系统的压力。 通过limit限制查询返回的数据量,节省计算资源、减少网络开销。 如果返回的数据量过大,客户端有可能出现内存溢出等服务异常。 对于前端使用ClickHouse的场景,如果要查询的数据量比较大,
Flink流式写Hudi表建议 使用SparkSQL统一建表 为了方便在Spark和Flink上都能读写Hudi表,推荐使用SparkSQL统一创建hudi表。 【示例】使用SparkSQL创建hudi表: CREATE TABLE hudi_mor( id int, name
Flink on Hudi作业参数建议 Hudi表作为Source表时建议设置限流 Hudi表作为Source表,防止上限超过流量峰值,导致作业出现异常带来不稳定因素,因此建议设置限流,限流上限应该为业务上线压测的峰值。 使用时需添加如下参数: 'read.rate.limit'