检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称 说明 PAAS.AGGR 集群指标的命名空间。 PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。
修订记录 表1 版本说明列表 日期 修订记录 2023-09-30 新增以下章节: AOM与CES的云服务监控功能对比 安全 优化以下章节: 基础指标:容器指标 2023-09-15 删除“计费说明”章节。 2023-08-04 删除“基础指标-云服务指标”章节。 2023-06-
父主题: 运维管理(即将下线)
指标总览 简介 网络指标及其维度 磁盘指标及其维度 磁盘分区指标 文件系统指标及其维度 主机指标及其维度 集群指标及其维度 容器组件指标及其维度 虚机组件指标及其维度 实例指标及其维度 服务指标及其维度
停止计费 对于以按需计费模式使用的AOM 2.0资源,相关指标和日志数据从上报之日起,在AOM 2.0上会自动存储一个月,一个月后系统自动删除数据,删除后相关数据将停止计费。
指标总览 简介 基础指标:虚机指标 基础指标:容器指标 基础指标:Modelarts指标 基础指标:IEF指标 基础指标:CSE指标 基础指标:IoTDA指标 基础指标:node-exporter指标 基础指标:Flink指标 指标维度
监控 查询时间序列 查询时序数据 查询指标 查询监控数据 添加监控数据 添加或修改服务发现规则 删除服务发现规则 查询系统中已有服务发现规则 添加阈值规则 查询阈值规则列表 修改阈值规则 删除阈值规则 查询单条阈值规则 批量删除阈值规则 父主题: API
接入AOM 接入AOM总览 管理采集器底座UniAgent 业务层接入AOM 应用层接入AOM 中间件及自定义插件接入AOM 运行环境接入AOM 云服务接入AOM 开源监控系统接入AOM 管理日志接入
Prometheus监控 Prometheus监控概述 管理Prometheus实例 管理Prometheus实例指标数据 使用Prometheus监控CCE集群指标 配置多账号聚合实现指标统一监控 配置CCE集群监控采集指标规则 配置预聚合规则提升指标查询效率 配置数据多写实现监控指标转储到自建
bar1 内存总量 cce_gpu_clock gpu时钟频率 cce_gpu_memory_clock gpu显存频率 cce_gpu_graphics_clock gpu图形处理器频率 cce_gpu_video_clock gpu视频处理器频率 cce_gpu_temperature
操作系统监控 通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。数据采集频率为1分钟1次。除了CPU使用率等指标外,还可以支持内存使用率(Linux)等指标,详见云产品监控指标。
2019-8-30 容器指标增加对“文件系统可用”“文件系统容量”和“文件系统使用率”的支持。 主机和容器指标增加对NPU指标的支持。 2019-8-21 支持统计分析APP的用户运营数据,便于您更有针对性地开展运营活动。
产品架构 AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器
参考信息 Agent包下载配置
服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务
计费项 计费说明 AOM提供按需计费模式,计费项由自定义指标上报量、指标存储时长、数据转储量的费用组成。具体内容如表1所示。AOM 2.0仅对上报的自定义指标计费。对上报任意数量的基础指标都是免费的,基础指标请参见:基础指标。 表1 按需计费组成表 计费项 计费说明 计费公式 自定义指标上报量
智能洞察(BETA) 开通智能洞察 通过AOM查看事件巡检数据 通过AOM查看事件根因分析结果 通过AOM查看故障传播链
is_turn_on 否 Boolean 阈值规则是否启用。 insufficient_data_actions 否 Array of strings 数据不足通知列表。 metric_name 是 String 时间序列名称。名称长度取值范围为1~255个字符。
例如设置为:标签+aom_monitor_level+等于+infrastructure。 XX+存在:表示告警的metedata字段中存在XX参数。例如设置为:告警源+存在,表示筛选出metedata字段中包含告警源信息的告警。
涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式统一,部分指标被重命名。