检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
搭建业务的系统级监控。 本文介绍云监控服务常用最佳实践,帮助您更好地使用云监控服务。 表1 常用最佳实践 实践 描述 电商平台 电商平台最佳实践 电商业务对内存要求高、数据量大并且数据访问量大、要求快速的数据交换和处理,监控要求极其高。 主机监控功能可提供服务器的系统级、主动式、细颗粒度监控服务。
Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup
弹性云服务器中操作系统监控 AGT.ECS Key:instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:gpu Value:GPU Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent)
出速率四个监控指标? 批量安装&升级插件时,为什么提示无法执行? 操作系统监控GPU页面显示无记录该如何处理? 执行命令安装Agent报错该如何处理? 为什么中文操作系统下安装了CES Agent后查看操作系统监控没有指标值? 如何通过修改配置文件开启/关闭指标采集? 如何通过修改配置文件调整Agent资源消耗阈值?
内容模板,支持选择已有模板或创建通知内容模板。 说明: 部分云服务暂时不支持资源名称、企业项目、资源标签、私网IP和公网IP字段,如果选择系统模板作为通知内容模板,发送告警通知时将不会显示这些字段。 - 生效时间 当通知方式选择通知组或主题订阅时,需要设置生效时间。 该告警仅在生
json。 执行以下命令,切换至Agent安装路径的bin下。 Windows系统: cd C:\Program Files\uniagent\extension\install\telescope Linux系统: cd /usr/local/uniagent/extension/i
提交工单:单击下方“未解决,提交工单”,提交申请公测工单。 完成工单提交:等待系统回复,当出现华为云工程师系统角色提示您确认风险的回复后,输入“风险已知晓,继续开通”,等待系统回复,完成公测协议开通。 企业微信群消息,钉钉群消息,飞书群消息有发送条数限制和接收方系统故障情况,可能会导致消息发送失败。出现上述原因时,SMN不保证消息成功送达。
时处理异常情况。 事件监控默认开通,并且不依赖于Agent插件。 事件监控类型 您可以在事件监控中查看系统事件和自定义事件的监控详情。 事件类型 说明 系统事件 目前支持的系统事件请参见事件监控支持的事件说明。 自定义事件 事件监控为您提供上报自定义事件的接口,方便您将业务产生的
SYS或EVENT.CUSTOM。 EVENT.SYS表示系统事件 EVENT.CUSTOM表示自定义事件。 默认取值: 不涉及。 sub_event_type String 否 参数解释: 事件子类。 约束限制: 当事件类型为系统事件时,参数值为SUB_EVENT.OPS或SUB_EVENT
有视图的监控周期,其中“近1小时”以内的监控时长系统默认显示原始指标数据,其他时长周期默认显示聚合指标数据。 您还可以进入监控大屏查看监控视图,请参考大屏查询模式使用技巧。 在监控视图右上角,单击,进入监控项详情页面。您可以选择系统提供的固定时长或自定义时间段来查看云服务的监控周期内的走势图。
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。为了保
单击ECS实例所在行“操作”列的“查看监控指标”,可以查看操作系统监控指标、基础监控和进程监控。 图6 操作系统监控 进入指标详情页展示操作系统监控和基础监控,操作系统监控下展示的指标就是安装了Agent之后会展示出来的指标,如果操作系统监控为空,可以安装Agent成功之后再进行查看。 步骤三:为主机监控创建告警规则
添加监控数据 功能介绍 添加一条或多条自定义指标监控数据,解决系统监控指标不能满足具体业务需求的场景。 监控数据保留时间请参见《云监控服务用户指南》的“指标数据保留多长时间”章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以
查询指标列表 功能介绍 查询系统当前可监控指标列表,可以指定指标命名空间、指标名称、维度、排序方式,起始记录和最大记录条数过滤查询结果。 云服务资源删除后,会保留3个小时的数据缓存,在3小时之内还能查到资源对应的监控指标,属于正常现象。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
项说明。 如表1所示,包括了云监控服务的所有系统权限。 表1 云监控服务系统权限 系统角色/策略名称 描述 类别 依赖关系 CES FullAccessPolicy 云监控服务的全部权限,拥有该权限可以操作云监控服务的全部权限。 系统策略 云服务监控功能涉及需要查询其他云服务的实
Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。
Agent) 问题现象 Agent一键修复后运行正常,但仍然没有监控数据。 问题分析 弹性云服务器或裸金属服务器安装Agent后仍然无操作系统监控数据时,一般考虑有如下几个原因: Agent进程运行状态异常 委托异常 路由配置异常导致的获取临时AK/SK失败 网络问题 首先需要确认使用的Agent版本。
裸金属服务器”进入主机监控界面。 单击资源所在行的“查看监控指标”,进入“操作系统监控”页面。 单击“操作系统监控”右侧的“进程监控”,进入“进程监控”页面。 在“系统进程数”页面,展示了主机上运行的进程数据。系统进程查询结果的指标说明如表4所示。 表4 系统进程数查询结果指标说明 指标名称 指标含义 取值范围
在批量修改页面可以查看操作对象。 当系统检测出有不可执行对象时,请参见批量安装&升级插件时,为什么提示无法执行,查看解决方案。 单击下一步。 在安装&升级插件指引中,选择“只对安装过的主机进行升级”。 选择目标插件版本: 基础版:提供基础操作系统监控指标,包括CPU、内存、文件系统、磁盘、网卡、网络等多类监控指标。
组”。 展开子账号所属的用户组的详情。 请参考创建用户组并授权为子账号所属的用户组添加相应权限。 云监控服务提供系统策略及操作与策略权限一览表,请参见:云监控服务系统策略。 父主题: 权限管理