检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45428 ClickHouse磁盘IO异常 告警解释 告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。
对系统的影响 Flink作业重启次数超阈值,说明Flink作业在频繁的失败重启,需要用户介入来查看原因,是Flink作业级别告警,对FlinkServer本身无影响。 可能原因 FlinkServer重启次数超阈值的原因可在具体日志中查看。
准备JDBC/HCatalog开发环境 表1 JDBC/HCatalog开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
NSName 产生告警的NameService名称 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 数据损坏,HDFS读取文件异常。 可能原因 DataNode实例异常。 数据校验信息被破坏。 处理步骤 收集故障信息。
其中,“hbase”命名空间为系统表命名空间,请不要对该系统表命名空间进行业务建表或数据读写等操作。 代码样例 方法调用 // Namespace operations.
其中,“hbase”命名空间为系统表命名空间,请不要对该系统表命名空间进行业务建表或数据读写等操作。 代码样例 方法调用 // Namespace operations.
其中,“hbase”命名空间为系统表命名空间,请不要对该系统表命名空间进行业务建表或数据读写等操作。 代码样例 方法调用 // Namespace operations.
其中,“hbase”命名空间为系统表命名空间,请不要对该系统表命名空间进行业务建表或数据读写等操作。 代码样例 方法调用 // Namespace operations.
配置Kafka后进先出 配置场景 当Spark Streaming应用与Kafka对接,Spark Streaming应用异常终止并从checkpoint恢复重启后,对于进入Kafka数据的任务,系统默认优先处理应用终止前(A段时间)未完成的任务和应用终止到重启完成这段时间内(B段时间
配置描述 在Manager系统中,选择“集群 > 服务 > Yarn > 配置”,选择“全部配置”。在搜索框中输入参数名称。 表1 参数描述 参数 描述 默认值 yarn.nodemanager.linux-container-executor.user 运行任务的用户。
使用介绍 登录Manager系统,具体请参见访问FusionInsight Manager(MRS 3.x及之后版本),在Manager界面选择“集群 > 服务 > Tez”,在“基本信息”中单击“Tez WebUI”右侧的链接,打开Tez WebUI。
“default”为ClickHouse默认系统用户,仅普通模式(未开启kerberos认证)下可使用的ClickHouse管理员用户。 配置ClickHouse默认用户密码 登录集群Manager页面,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”。
配置Spark Streaming对接Kafka时数据后进先出功能 配置场景 当Spark Streaming应用与Kafka对接,Spark Streaming应用异常终止并从checkpoint恢复重启后,对于进入Kafka数据的任务,系统默认优先处理应用终止前(A段时间)未完成的任务和应用终止到重启完成这段时间内
登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。
不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录,例如“/hbase”或“/user/hbase/backup”。
只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复ClickHouse元数据,建议手动备份最新ClickHouse元数据后,再执行恢复ClickHouse元数据操作。否则会丢失从备份时刻到恢复时刻之间的ClickHouse元数据。
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障状态的DataNode节点无法提供HDFS服务,可能导致用户无法读写文件。 可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考