检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例如java的日志异常监控,一旦用户采用log系统打印日志,就会被采集上来。具体的异常采集类型会根据不同的采集器类型有变化。 相关配置请参见查看组件异常日志。
文件系统指标及其维度 表1 文件系统指标 指标名称 指标含义 取值范围 单位 可用磁盘空间(aom_node_disk_available_capacity_megabytes) 还未经使用的磁盘空间。
开源监控系统接入AOM AOM作为华为云服务可观测性分析统一入口,提供接入中心,通过创建Prometheus 通用实例实现开源监控系统接入AOM。
前提条件 已购买CCE(云容器引擎)集群和节点,详细请参考购买Standard/Turbo集群和创建节点。 查看接入AOM的CCE集群 登录AOM 2.0控制台。 在左侧导航栏选择“设置 > 全局设置”,进入全局设置页面。 在左侧导航栏中选择“采集设置 > K8s集群管理”。
最小值:1 最大值:5 is_turn_on 否 Boolean 阈值规则是否启用。 insufficient_data_actions 否 Array of strings 数据不足通知列表。 metric_name 是 String 时间序列名称。
前提条件 已购买CCE(云容器引擎)集群和节点,详细请参考购买Standard/Turbo集群和创建节点。 查看接入AOM的CCE集群 登录AOM 2.0控制台。 在左侧导航栏选择“设置 > 全局设置”,进入全局设置页面。 在左侧导航栏中选择“采集设置 > K8s集群管理”。
将AOM仪表盘图表页面嵌入用户自建系统 AOM支持将仪表盘图表页面嵌入到客户自建系统。通过统一身份认证服务IAM的联邦代理机制实现用户自定义身份代理,再将登录链接嵌入至用户自建系统实现无需在华为云官网登录就可在自建系统界面查看AOM仪表盘图表页面。
物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统计主机通过网络形式挂载的文件系统(juicefs、nfs、smb等)。 表2 主机指标维度 维度 说明 clusterId 集群ID。 clusterName 集群名称。 gpuName GPU名称。
Prometheus通用实例 指标 开源监控系统接入AOM Prometheus API/SDK接入 应用运维管理AOM API 指标 通过API接入相关的指标数据。
安装ICAgent过程中,系统提示“no crontab for root”是什么原因? 问题描述 安装ICAgent过程中,系统提示“no crontab for root”。
监控组件性能指标 设置组件监控开关 查看组件性能指标 查看组件概览 通过拓扑图查看组件间调用关系 通过Profiler分析代码性能 通过Debugging诊断代码 查看组件接口调用监控项 查看组件基础监控项 查看组件异常日志 查看组件外部调用监控项 查看组件通信协议监控项 查看组件数据库监控项
卸载ICAgent 服务器上的ICAgent被卸载后,会影响该服务器的运维能力,导致拓扑、调用链等功能不可用,请谨慎操作! 通过界面卸载:此操作适用于正常安装ICAgent后需卸载的场景。 登录服务器卸载:此操作适用于未成功安装ICAgent需卸载重装的场景。 通过界面卸载 登录AOM
开通智能洞察 AOM智能洞察引擎持续监控您的应用和资源,通过历史数据和问题特征发现问题,并针对每个问题会给出相应的根因分析和建议。 功能介绍 事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常
采集管理使用限制 操作系统使用限制 对于Linux x86_64服务器,采集管理支持表4中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本。
搜索应用时,系统提示“AOM.11007006: get policy list failed.” 问题描述 在应用资源管理的“首页”界面进行资源检索时,系统提示“AOM.11007006: get policy list failed.”
查询时间序列 功能介绍 该接口用于查询系统当前可监控的时间序列列表,可以指定时间序列命名空间、名称、维度、所属资源的编号(格式为:resType_resId),分页查询的起始位置和返回的最大记录条数。 调用方法 请参见如何调用API。
Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息请参见Prometheus官方文档。 Prometheus实例是AOM服务提供的管理Prometheus数据采集和数据存储分析的逻辑单元。
0~100 百分比(%) aom_node_npu_temperature_centigrade NPU温度 该指标用于统计NPU的温度。 仅支持CCE类型主机的NPU指标采集。
删除环境 功能介绍 该接口用于删除环境。 调用方法 请参见如何调用API。 URI DELETE /v1/environments/{environment_id} 表1 路径参数 参数 是否必选 参数类型 描述 environment_id 是 String 环境id 请求参数
删除组件 功能介绍 该接口用于删除组件。 调用方法 请参见如何调用API。 URI DELETE /v1/components/{component_id} 表1 路径参数 参数 是否必选 参数类型 描述 component_id 是 String 组件id 请求参数 表2 请求Header