检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统弹出“创建Dashboard”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归属企业项目:将监控看板关联给到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该监控看板。
环境准备 以Ubuntu 18.04系统和Prometheus 2.14.0版本为例。
系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。 如何申请扩大配额? 登录管理控制台。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。
系统弹出“创建看板”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归属企业项目:将监控看板关联给到某个企业项目时,只有拥有该企业项目所有权限的用户才可以查看和管理该监控看板。 企业项目仅在部分区域上线。
重要 核心模块温度超过85℃引起降频 暂停业务,转硬件查看散热系统,device复位 会导致DAVP卡降频 DAVP: 温度超过105℃阈值 TemperatureOverSdLimit 重要 核心模块温度超过105℃引起高温告警 暂停业务,转硬件查看散热系统,device复位
CES安全配置建议 本文提供了CES使用过程中的安全最佳实践,旨在为提高整体安全能力提供可操作的规范性指导。根据该指导文档您可以持续评估CES资源的安全状态,更好的组合使用CES提供的多种安全能力,提高对运维数据的整体安全防御能力,保护存储在平台内的运维数据不泄露、不被篡改,以及数据传输过程中不泄露
CES Agent支持的镜像列表,参见 Agent支持的系统有哪些? CES Agent迭代版本已知版本特性如下: 2.7.6.1版本 分类 说明 发布时间 2025-04-15 新特性 基于2.7.6版本: NPU指标采集加固。
使用hinicadm temperature -i <dev_id>命令采集。 HiNIC网卡事件记录 HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。 使用hinicadm event -i <dev_id>命令采集。
配置指标告警 监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。
事件类型 上报的事件类型,支持系统事件和自定义事件。事件类型说明请参见事件监控简介。 事件名称 用户操作资源的动作,如用户登录,用户登出,为一个瞬间的操作动作。 各云服务支持的系统事件请参见事件监控支持的事件说明。
系统展示用户当前所有站点概况。包括站点名称、站点地址、探测类型、监控频率、可用探测点百分比、平均响应时间等。 单击站点名称所在行的“查看监控图表”。 进入“监控图表”页面。
监控插件实现硬件的故障风险检查时,仅会采集一些必要的系统指标用作巡检,详情见硬件监控指标采集说明。 仅支持部分Linux操作系统,详情见:Agent支持的系统有哪些?。 支持的规格:所有规格的BMS。
ECS为核心服务,全面、立体的ECS监控系统对业务稳定起到了至关重要的作用。主机监控功能可提供服务器的系统级、主动式、细颗粒度监控服务。为业务的顺畅运行保驾护航。 网站为电商平台的入口,双12、618等大型购物节会导致不同网络用户访问电商网站出现网页打开慢、网络延时高等问题。
目前支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些? 建议用户使用主机监控的主机规格为:Linux使用“2vCPUs | 4GiB”、Windows使用“4vCPUs | 8GiB”或更高配置。
目前主流的操作系统已经支持了一键安装功能。支持Agent一键安装的系统请参考Agent支持的系统有哪些? 自定义自动化安装Agent 云监控服务支持控制台一键安装云监控插件功能。
入门实践 当您了解了云监控服务的功能后,可以根据自身的业务需求使用云监控服务搭建业务的系统级监控。 本文介绍云监控服务常用最佳实践,帮助您更好的使用云监控服务。
因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性,并且使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事件告警同步进行业务处理。
instance_id Value:存储库名称/ID 云备份监控指标说明 云存储网关 SYS.CSG Key:gateway_id Value:网关ID 云存储网关监控指标说明 高性能弹性文件服务 SYS.EFS Key:efs_instance_id Value:实例 SFS Turbo
instance_id Value:存储库名称/ID 云备份监控指标说明 云存储网关 SYS.CSG Key:gateway_id Value:网关ID 云存储网关监控指标说明 高性能弹性文件服务 SYS.EFS Key:efs_instance_id Value:实例 SFS Turbo